Proyectos

House Prices

House Prices es otro proyecto de Kaggle. El objetivo es crear un modelo para predecir los precios de las viviendas residenciales en Ames, Iowa. El principal desafío de este proyecto es cómo manejar un dataset con una cantidad significativa de features.

Colab links

EDA Colab: Haga clic aquí
Model Testing Colab: Haga clic aquí

Sobre los datos:

Para este proyecto, no hice una división del dataset de entrenamiento porque Kaggle ya nos proporciona un dataset de prueba. Sin embargo, necesito enviar las predicciones para obtener el rendimiento del modelo.

EDA:

Aunque hay 79 variables, el dataset aún es lo suficientemente pequeño como para explorarlo. Exploro los datos basados en la categorías de los datos:

Features numéricas
- Features del área
- Features que no son de área
Features categóricas
- Features nominales
- Features ordinales
Features de fechas

Lo que aprendí a través de esta exploración es:

Hay features correlacionadas (por ejemplo: ground living area está correlacionada con first floor area, second floor area y lot area).
Un área de cero significa que la casa no tiene esa característica. Ejemplo: pool area de cero significa que la casa no tiene piscina
En el dataset podemos encontrar columnas categóricas desequilibradas, que podemos descartar con seguridad
Es posible que algunos diagramas de dispersión no nos muestren el panorama general porque hay muchas variables que pueden afectar el resultado.

Sobre los modelos

Los modelos lineales funcionan ligeramente mejor que los modelos no lineales.
Después de probar con muchos modelos y hacer hyperparameter tuning descubrí que Ridge es el mejor modelo para esta tarea

Nota: Puedes encontrar una explicación más detallada dentro de los notebooks.

Linear Regression

Regularization

Dimensionality Reduction