Práctica 1
Práctica 1
- Autores: Alexia Aurrea pcoechea , Valentín Rodríguez & Nahuel Lopez
- Fecha: 13/08/2025
- Entorno: Google Colab + Python 3
🎯 Objetivo
El propósito de este notebook es realizar una exploración inicial del dataset Iris, disponible públicamente en el UCI Machine Learning Repository. A través del uso de herramientas de visualización, manipulación y descripción estadística, se busca:
- Comprender las características principales del dataset
- Identificar patrones, relaciones y posibles outliers
- Organizar los outputs en una estructura reutilizable de carpetas (results/)
🔧 Requisitos y Dependencias
Este notebook se ejecuta en Google Colab, por lo que la mayoría de los paquetes ya están disponibles por defecto. Sin embargo, se instala seaborn si no está presente.
Librerías Utilizadas
- pandas - Manipulación de datos
- matplotlib - Visualizaciones básicas
- seaborn - Visualizaciones estadísticas
- pathlib - Manejo de rutas de archivos
Instrucciones de Instalación (en Colab)
!pip install seaborn # Solo si no está instalado
📁 Estructura del Proyecto
El notebook define una estructura clara de carpetas dentro del directorio results/
, con subdirectorios:
results/
├── visualizaciones/ # Gráficos generados (histogramas, pairplots, etc.)
├── perfiles/ # Archivos con perfiles estadísticos u otras salidas numéricas
└── reportes/ # Reportes textuales o exportaciones si se generan
📊 Dataset Iris
Características Generales
- Tamaño: 150 filas × 5 columnas
- Fuente: UCI Machine Learning Repository
- Naturaleza: Clasificación multiclase
- Instancias: 50 de cada especie
Columnas del Dataset
- sepal_length (cm) - Longitud del sépalo
- sepal_width (cm) - Ancho del sépalo
- petal_length (cm) - Longitud del pétalo
- petal_width (cm) - Ancho del pétalo
- species - Especie (Setosa, Versicolor, Virginica)
🚀 Actividades Realizadas
- Montaje de Google Drive (opcional, para guardar resultados)
- Lectura y descripción del dataset
- Verificación del entorno (versiones de librerías, paths)
- Análisis visual con seaborn (distribuciones, pairplots, etc.)
- Preparación de carpetas para almacenar resultados de forma organizada
📈 Salidas Esperadas
Al ejecutar el notebook se generan:
- Gráficos en
results/visualizaciones/
- Archivos numéricos o perfiles en
results/perfiles/
- Reportes descriptivos (opcional) en
results/reportes/
▶️ Ejecución
Este notebook está pensado para ejecutarse en Google Colab, por lo que no requiere instalación local. Simplemente abrí el notebook y seguí las celdas secuencialmente.
📝 Notas Finales
- Este trabajo es parte de una serie de prácticas de introducción al análisis exploratorio de datos
- El formato y desarrollo del README.md fue dirigido por ejemplos externos (consultar docente)
- El enfoque está en la claridad del proceso y la organización del proyecto desde el principio
- Se prioriza reproducibilidad y orden para futuras prácticas más avanzadas (modelado, clasificación, etc.)