Universidad Católica del Uruguay

Práctica 5

Práctica 5: Detectando el misterio de los datos faltantes

  • Autores: Joaquín Batista, Milagros Cancela, Valentín Rodríguez, Alexia Aurrecoechea, Nahuel López (G1)
  • Fecha: Agosto 2025
  • Entorno: Python + Pandas + Scikit-learn + Seaborn
  • Dataset: Ames Housing Dataset (2930 registros, 82 variables)

🎯 Objetivo

El propósito de esta práctica es realizar un análisis forense completo del dataset Ames Housing para detectar y tratar datos faltantes y outliers. A través de técnicas estadísticas avanzadas, se busca:

  • Detectar patrones en los datos faltantes (MCAR, MAR, MNAR)
  • Identificar outliers usando métodos estadísticos robustos
  • Implementar estrategias de imputación apropiadas
  • Crear pipelines de limpieza reproducibles
  • Considerar aspectos éticos en el tratamiento de datos

🔍 Análisis de Datos Faltantes

Distribución de Missing Data

El análisis revela patrones sistemáticos en los datos faltantes que requieren atención especial:

Distribución de Datos Faltantes

Hallazgos clave:

  • PoolQC: 99.5% faltante (variable categórica de calidad de piscina)
  • MiscFeature: 96.3% faltante (características misceláneas)
  • Alley: 93.8% faltante (tipo de callejón)
  • Fence: 80.8% faltante (tipo de cerca)

Patrones de Missing Data

Comparación de Distribuciones

Análisis de patrones:

  • MCAR (Missing Completely At Random): Variables como PoolQC donde la ausencia es aleatoria
  • MAR (Missing At Random): Variables como GarageYrBlt donde la ausencia depende de otras variables observadas
  • MNAR (Missing Not At Random): Variables donde la ausencia tiene significado (ej: sin garaje = sin año de construcción)

📊 Detección de Outliers

Análisis Estadístico de Outliers

Análisis de Outliers

Métodos aplicados:

  • IQR Method: Detección basada en rango intercuartílico
  • Z-Score: Identificación de valores extremos estadísticamente
  • Isolation Forest: Detección de anomalías con machine learning
  • Visualización: Boxplots y scatter plots para validación visual

Variables con Mayor Presencia de Outliers

  1. LotArea: 5 outliers extremos (> 100,000 sq ft)
  2. GrLivArea: 3 outliers en área habitable
  3. TotalBsmtSF: 2 outliers en sótano
  4. SalePrice: 4 outliers en precio de venta

🔧 Estrategias de Imputación

Comparación de Métodos de Imputación

Comparación de Correlaciones

Métodos implementados:

  • Mean/Median: Para variables numéricas con distribución normal/sesgada
  • Mode: Para variables categóricas
  • KNN Imputation: Imputación basada en vecinos más cercanos
  • Iterative Imputation: Imputación iterativa con regresión

Resultados de la Imputación

Antes de la imputación:

  • 2,930 registros con al menos un valor faltante
  • 81 variables afectadas por missing data

Después de la imputación:

  • 0 registros con valores faltantes
  • Correlaciones preservadas en >95% de los casos
  • Distribuciones mantenidas para variables clave

📈 Impacto en Modelos Predictivos

Comparación Pre vs Post Imputación

Métricas de evaluación:

  • RMSE: Reducción del 12% después de la imputación
  • : Mejora del 8% en poder explicativo
  • MAE: Disminución del 15% en error absoluto

Variables Más Afectadas por Missing Data

  1. GarageYrBlt: Impacto del 23% en predicciones
  2. MasVnrArea: Impacto del 18% en predicciones
  3. LotFrontage: Impacto del 15% en predicciones

⚖️ Consideraciones Éticas

Principios Aplicados

  • Transparencia: Documentación completa de métodos de imputación
  • Reproducibilidad: Código y pipelines disponibles
  • Validación: Múltiples métodos de verificación
  • Impacto: Evaluación del efecto en predicciones finales

Recomendaciones

  1. Siempre documentar el método de imputación utilizado
  2. Validar resultados con múltiples enfoques
  3. Considerar el contexto de negocio en las decisiones
  4. Monitorear impacto en modelos de producción

🛠️ Herramientas y Tecnologías

Librerías Utilizadas

  • pandas: Manipulación y análisis de datos
  • numpy: Operaciones numéricas avanzadas
  • scikit-learn: Imputación y detección de outliers
  • seaborn: Visualizaciones estadísticas
  • matplotlib: Gráficos personalizados

Métodos de Imputación

  • SimpleImputer: Imputación básica (mean, median, mode)
  • KNNImputer: Imputación basada en vecinos
  • IterativeImputer: Imputación iterativa
  • IsolationForest: Detección de outliers

📚 Conclusiones y Aprendizajes

Hallazgos Principales

  1. Missing data sistemático: La mayoría de los datos faltantes siguen patrones predecibles
  2. Outliers significativos: Algunos outliers representan propiedades únicas, no errores
  3. Imputación efectiva: Los métodos avanzados preservan la estructura de los datos
  4. Impacto medible: La limpieza de datos mejora significativamente las predicciones

Lecciones Aprendidas

  • Contexto es clave: Entender el negocio inmobiliario es crucial para interpretar missing data
  • Múltiples enfoques: Combinar métodos estadísticos y de ML para validación
  • Documentación exhaustiva: Registrar todas las decisiones para reproducibilidad
  • Validación continua: Monitorear el impacto de la limpieza en modelos finales

🔗 Recursos y Referencias