1 Características del Dataset
El dataset SignMNIST contiene imágenes de gestos del lenguaje de señas americano (ASL), con cada imagen representando una letra del alfabeto (A-Z, excluyendo J y Z que requieren movimiento).
Estadísticas del Dataset:
- Muestras originales: 34,627 imágenes
- Muestras después de filtrado: 33,177
- Clases válidas: 23 letras (A-I, K-Y)
- Dimensiones: 28x28 píxeles, escala de grises
- Entrenamiento: 26,337 imágenes
- Prueba: 6,840 imágenes
- Balance: Clases relativamente balanceadas
- Preprocesamiento: Normalización 0-1
Ejemplos de Letras del Dataset:
2 Preprocesamiento de Datos
Filtrado
Eliminación de muestras con etiquetas inválidas (valores fuera del rango 0-23)
Normalización
Escalado de valores de píxeles al rango [0, 1] para mejorar la convergencia
Reshaping
Reformateo a formato de imagen (28, 28, 1) para entrada de la CNN
Balanceo
Verificación de distribución balanceada entre clases para evitar sesgos
3 Diseño de la Red Neuronal Convolucional
4 Detalles de la Arquitectura
Capas Convolucionales
- 3 capas convolucionales con 32, 64 y 128 filtros
- Kernel size: 3x3 con padding 'same'
- Función de activación: ReLU
- Batch Normalization después de cada capa
Capas de Pooling
- MaxPooling2D después de cada capa convolucional
- Pool size: 2x2
- Reduce dimensionalidad en 75%
- Proporciona invariancia a traslaciones
Capas Densas
- 2 capas totalmente conectadas
- 256 y 128 neuronas respectivamente
- Función de activación: ReLU
- Dropout de 0.5 y 0.3 para regularización
Capa de Salida
- Función de activación Softmax
- 23 neuronas (una por cada clase)
- Output: probabilidades para cada clase
- Pérdida: sparse_categorical_crossentropy
5 Configuración del Entrenamiento
Hiperparámetros Utilizados:
- Optimizador: Adam
- Learning Rate: 0.001
- Función de Pérdida: Sparse Categorical Crossentropy
- Métrica: Accuracy
- Batch Size: 128
- Épocas: 50
- División: 80% train, 20% test
- Callbacks: Early Stopping, ReduceLROnPlateau
Early Stopping
Paciencia: 10 épocas
Monitor: val_loss
Restore best weights: True
ReduceLROnPlateau
Factor: 0.2
Paciencia: 5 épocas
Min Learning Rate: 0.00001
6 Progreso del Entrenamiento
Precisión
Entrenamiento: 99.98%
Validación: 96.99%
Excelente rendimiento sin sobreajustePérdida
Entrenamiento: 0.0016
Validación: 0.1732
Convergencia estable y rápidaGráfico de precisión y pérdida durante el entrenamiento
7 Métricas de Evaluación
Accuracy
Precisión general en el conjunto de prueba
Precisión
Promedio macro de precisión por clase
Recall
Promedio macro de exhaustividad por clase
F1-Score
Media armónica entre precisión y recall
8 Matriz de Confusión
| A | B | C | D | E | F | G | H | I | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| A | 331 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| B | 13 | 419 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| Y | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 267 |
Interpretación: La diagonal principal muestra las predicciones correctas. La mayoría de las clases tienen excelente precisión, con algunas confusiones menores entre letras visualmente similares.
9 Optimización del Modelo
Comparación de Modelos
- Modelo Base: 96.96% accuracy
- Modelo Optimizado: 99.01% accuracy
- Mejora: +2.05% de precisión
- Técnicas aplicadas: Data Augmentation, Dropout, Regularización L2
Técnicas de Optimización
- Data Augmentation: Rotación, zoom, ajuste de contraste
- Regularización: Dropout en capas convolucionales y densas
- Batch Normalization: Para estabilizar el entrenamiento
- Ajuste de LR: Learning rate más bajo (0.0005)
10 Hallazgos Principales
Puntos Fuertes
- Altísima precisión (99.01% en modelo optimizado)
- Excelente generalización a datos no vistos
- Arquitectura eficiente y efectiva
- Buen balance entre complejidad y rendimiento
- Técnicas de regularización efectivas
Limitaciones
- Dataset con etiquetas inconsistentes (valores 24)
- Exclusión de letras que requieren movimiento (J, Z)
- Algunas confusiones entre letras visualmente similares
- Dependencia de condiciones de imagen consistentes
- Requerimiento de recursos computacionales
11 Aplicaciones Prácticas
Accesibilidad
Sistemas de traducción automática de lenguaje de señas para mejorar la inclusión
Educación
Herramientas de aprendizaje y práctica del lenguaje de señas
Comunicación
Sistemas de videollamadas con traducción automática integrada
Aplicaciones Móviles
Apps para aprendizaje y práctica en dispositivos móviles
12 Trabajo Futuro
Direcciones Futuras:
- Inclusión de letras con movimiento: J y Z mediante video o secuencias
- Modelos en tiempo real: Optimización para inferencia en dispositivos móviles
- Dataset ampliado: Más variaciones y condiciones de iluminación
- Arquitecturas avanzadas: Transformer o modelos attention para secuencias
- Integración con NLP: Traducción a texto natural y viceversa