1 Dataset Titanic - Características
El dataset de Titanic contiene información de 891 pasajeros con 12 características cada uno, incluyendo si sobrevivieron o no al hundimiento.
Estadísticas clave del dataset:
- Total de pasajeros: 891
- Sobrevivieron: 342 (38.4%)
- No sobrevivieron: 549 (61.6%)
- Valores faltantes en Age: 177
- Valores faltantes en Cabin: 687
2 Preprocesamiento de datos
Eliminación de Columnas
Se eliminaron columnas irrelevantes: Name, Ticket, Cabin, PassengerId
Imputación de Valores
Age: Mediana (28 años), Embarked: Moda (S)
Codificación One-Hot
Variables categóricas: Sex → Sex_male, Embarked → Embarked_Q, Embarked_S
Normalización
Variables numéricas: Age, Fare, SibSp, Parch estandarizadas
3 Diseño de la red neuronal
Arquitectura de la Red
(8 características)
(64 neuronas)
(32 neuronas)
(1 neurona)
4 Configuración de la red
Capa de Entrada
8 neuronasCaracterísticas: Pclass, Age, SibSp, Parch, Fare, Sex_male, Embarked_Q, Embarked_S
Capas Ocultas
64 → 32 → 16Función de activación: ReLU
Dropout: 0.2 para regularización
Capa de Salida
1 neuronaFunción de activación: Sigmoide
Probabilidad de supervivencia 0-1
5 Configuración del entrenamiento
Hiperparámetros utilizados:
- Optimizador: Adam
- Función de pérdida: Binary Crossentropy
- Métrica: Accuracy
- Épocas: 50
- Batch size: 32
- División train/test: 80%/20%
6 Progreso del entrenamiento
Precisión
Entrenamiento: 82.6%
Validación: 81.6%
Mínima diferencia: buen ajustePérdida
Entrenamiento: 0.40
Validación: 0.43
Convergencia estable7 Métricas de evaluación
Accuracy
Precisión general del modelo
Precision (0)
No sobrevivientes correctos
Precision (1)
Sobrevivientes correctos
Recall (0)
Detección no sobrevivientes
Recall (1)
Detección sobrevivientes
8 Matriz de confusión
| Predicción: No | Predicción: Sí | |
|---|---|---|
| Real: No | 104 | 6 |
| Real: Sí | 27 | 42 |
Interpretación: El modelo es excelente identificando no sobrevivientes (95%) pero tiene dificultad detectando sobrevivientes (61%).
9 Análisis de resultados
Puntos Fuertes
- Alta precisión general (81.6%)
- Excelente detección de no sobrevivientes (95%)
- Buen equilibrio entre entrenamiento/validación
- Arquitectura eficiente y efectiva
- Preprocesamiento de datos adecuado
Áreas de Mejora
- Baja detección de sobrevivientes (61%)
- Dataset desbalanceado (62% no sobrevivieron)
- Falta de datos completos (Age, Cabin)
- Posible necesidad de más características
- Ajuste de threshold de clasificación
10 Interpretación histórica y técnica
Contexto Histórico:
"Los resultados reflejan la realidad histórica del Titanic: mujeres y niños tuvieron prioridad en los botes salvavidas, mientras que muchos hombres de tercera clase no sobrevivieron."
Implicaciones Técnicas:
El modelo demuestra que las redes neuronales pueden capturar patrones complejos en datos históricos, aunque el desbalance de clases presenta desafíos para la detección de casos minoritarios (sobrevivientes).