1. Dataset SignMNIST
1 Características del Dataset

El dataset SignMNIST contiene imágenes de gestos del lenguaje de señas americano (ASL), con cada imagen representando una letra del alfabeto (A-Z, excluyendo J y Z que requieren movimiento).

Estadísticas del Dataset:
  • Muestras originales: 34,627 imágenes
  • Muestras después de filtrado: 33,177
  • Clases válidas: 23 letras (A-I, K-Y)
  • Dimensiones: 28x28 píxeles, escala de grises
  • Entrenamiento: 26,337 imágenes
  • Prueba: 6,840 imágenes
  • Balance: Clases relativamente balanceadas
  • Preprocesamiento: Normalización 0-1
Ejemplos de Letras del Dataset:
A
Letra A
B
Letra B
C
Letra C
D
Letra D
2 Preprocesamiento de Datos
Filtrado

Eliminación de muestras con etiquetas inválidas (valores fuera del rango 0-23)

Normalización

Escalado de valores de píxeles al rango [0, 1] para mejorar la convergencia

Reshaping

Reformateo a formato de imagen (28, 28, 1) para entrada de la CNN

Balanceo

Verificación de distribución balanceada entre clases para evitar sesgos

2. Arquitectura de la CNN
3 Diseño de la Red Neuronal Convolucional
28x28x1
Imagen de Entrada
Conv2D
32 filtros 3x3
MaxPool
2x2 pool
Conv2D
64 filtros 3x3
MaxPool
2x2 pool
Conv2D
128 filtros 3x3
MaxPool
2x2 pool
Dense
256 neuronas
Dense
128 neuronas
Softmax
23 clases
4 Detalles de la Arquitectura
Capas Convolucionales
  • 3 capas convolucionales con 32, 64 y 128 filtros
  • Kernel size: 3x3 con padding 'same'
  • Función de activación: ReLU
  • Batch Normalization después de cada capa
Capas de Pooling
  • MaxPooling2D después de cada capa convolucional
  • Pool size: 2x2
  • Reduce dimensionalidad en 75%
  • Proporciona invariancia a traslaciones
Capas Densas
  • 2 capas totalmente conectadas
  • 256 y 128 neuronas respectivamente
  • Función de activación: ReLU
  • Dropout de 0.5 y 0.3 para regularización
Capa de Salida
  • Función de activación Softmax
  • 23 neuronas (una por cada clase)
  • Output: probabilidades para cada clase
  • Pérdida: sparse_categorical_crossentropy
3. Proceso de Entrenamiento
5 Configuración del Entrenamiento
Hiperparámetros Utilizados:
  • Optimizador: Adam
  • Learning Rate: 0.001
  • Función de Pérdida: Sparse Categorical Crossentropy
  • Métrica: Accuracy
  • Batch Size: 128
  • Épocas: 50
  • División: 80% train, 20% test
  • Callbacks: Early Stopping, ReduceLROnPlateau
Early Stopping

Paciencia: 10 épocas
Monitor: val_loss
Restore best weights: True

ReduceLROnPlateau

Factor: 0.2
Paciencia: 5 épocas
Min Learning Rate: 0.00001

6 Progreso del Entrenamiento
Precisión

Entrenamiento: 99.98%

Validación: 96.99%

Excelente rendimiento sin sobreajuste
Pérdida

Entrenamiento: 0.0016

Validación: 0.1732

Convergencia estable y rápida

Gráfico de precisión y pérdida durante el entrenamiento

Época 1 → Época 22 (early stopping activado)
4. Resultados y Evaluación
7 Métricas de Evaluación
96.96%
Accuracy

Precisión general en el conjunto de prueba

97%
Precisión

Promedio macro de precisión por clase

96%
Recall

Promedio macro de exhaustividad por clase

97%
F1-Score

Media armónica entre precisión y recall

8 Matriz de Confusión
A B C D E F G H I K L M N O P Q R S T U V W X Y
A 331 00000000 00000000 0000000
B 13 419 0000000 00000000 0000000
Y 000000000 00000000 000000 267

Interpretación: La diagonal principal muestra las predicciones correctas. La mayoría de las clases tienen excelente precisión, con algunas confusiones menores entre letras visualmente similares.

9 Optimización del Modelo
Comparación de Modelos
  • Modelo Base: 96.96% accuracy
  • Modelo Optimizado: 99.01% accuracy
  • Mejora: +2.05% de precisión
  • Técnicas aplicadas: Data Augmentation, Dropout, Regularización L2
Técnicas de Optimización
  • Data Augmentation: Rotación, zoom, ajuste de contraste
  • Regularización: Dropout en capas convolucionales y densas
  • Batch Normalization: Para estabilizar el entrenamiento
  • Ajuste de LR: Learning rate más bajo (0.0005)
5. Conclusiones y Aplicaciones
10 Hallazgos Principales
Puntos Fuertes
  • Altísima precisión (99.01% en modelo optimizado)
  • Excelente generalización a datos no vistos
  • Arquitectura eficiente y efectiva
  • Buen balance entre complejidad y rendimiento
  • Técnicas de regularización efectivas
Limitaciones
  • Dataset con etiquetas inconsistentes (valores 24)
  • Exclusión de letras que requieren movimiento (J, Z)
  • Algunas confusiones entre letras visualmente similares
  • Dependencia de condiciones de imagen consistentes
  • Requerimiento de recursos computacionales
11 Aplicaciones Prácticas
Accesibilidad

Sistemas de traducción automática de lenguaje de señas para mejorar la inclusión

Educación

Herramientas de aprendizaje y práctica del lenguaje de señas

Comunicación

Sistemas de videollamadas con traducción automática integrada

Aplicaciones Móviles

Apps para aprendizaje y práctica en dispositivos móviles

12 Trabajo Futuro
Direcciones Futuras:
  • Inclusión de letras con movimiento: J y Z mediante video o secuencias
  • Modelos en tiempo real: Optimización para inferencia en dispositivos móviles
  • Dataset ampliado: Más variaciones y condiciones de iluminación
  • Arquitecturas avanzadas: Transformer o modelos attention para secuencias
  • Integración con NLP: Traducción a texto natural y viceversa