House Prices es otro proyecto de Kaggle. El objetivo es crear un modelo para predecir los precios de las viviendas residenciales en Ames, Iowa. El principal desafío de este proyecto es cómo manejar un dataset con una cantidad significativa de features.
Colab links
Sobre los datos:
Para este proyecto, no hice una división del dataset de entrenamiento porque Kaggle ya nos proporciona un dataset de prueba. Sin embargo, necesito enviar las predicciones para obtener el rendimiento del modelo.
EDA:
Aunque hay 79 variables, el dataset aún es lo suficientemente pequeño como para explorarlo. Exploro los datos basados en la categorías de los datos:
- Features numéricas
- Features del área
- Features que no son de área
- Features categóricas
- Features nominales
- Features ordinales
- Features de fechas
Lo que aprendí a través de esta exploración es:
- Hay features correlacionadas (por ejemplo: ground living area está correlacionada con first floor area, second floor area y lot area).
- Un área de cero significa que la casa no tiene esa característica. Ejemplo: pool area de cero significa que la casa no tiene piscina
- En el dataset podemos encontrar columnas categóricas desequilibradas, que podemos descartar con seguridad
- Es posible que algunos diagramas de dispersión no nos muestren el panorama general porque hay muchas variables que pueden afectar el resultado.
Sobre los modelos
- Los modelos lineales funcionan ligeramente mejor que los modelos no lineales.
- Después de probar con muchos modelos y hacer hyperparameter tuning descubrí que Ridge es el mejor modelo para esta tarea
Nota: Puedes encontrar una explicación más detallada dentro de los notebooks.