Deep Learning - Reconocimiento de Lenguaje de Señas

1. Dataset SignMNIST

1 Características del Dataset

El dataset SignMNIST contiene imágenes de gestos del lenguaje de señas americano (ASL), con cada imagen representando una letra del alfabeto (A-Z, excluyendo J y Z que requieren movimiento).

Estadísticas del Dataset:
                                                    Muestras originales: 34,627 imágenes
Muestras después de filtrado: 33,177
Clases válidas: 23 letras (A-I, K-Y)
Dimensiones: 28x28 píxeles, escala de grises

                                                

                                                    Entrenamiento: 26,337 imágenes
Prueba: 6,840 imágenes
Balance: Clases relativamente balanceadas
Preprocesamiento: Normalización 0-1

                                                

Ejemplos de Letras del Dataset:

Letra A

Letra B

Letra C

Letra D

2 Preprocesamiento de Datos

Filtrado

Eliminación de muestras con etiquetas inválidas (valores fuera del rango 0-23)

Normalización

Escalado de valores de píxeles al rango [0, 1] para mejorar la convergencia

Reshaping

Reformateo a formato de imagen (28, 28, 1) para entrada de la CNN

Balanceo

Verificación de distribución balanceada entre clases para evitar sesgos

2. Arquitectura de la CNN

3 Diseño de la Red Neuronal Convolucional

28x28x1

Imagen de Entrada

Conv2D

32 filtros 3x3

MaxPool

2x2 pool

Conv2D

64 filtros 3x3

MaxPool

2x2 pool

Conv2D

128 filtros 3x3

MaxPool

2x2 pool

Dense

256 neuronas

Dense

128 neuronas

Softmax

23 clases

4 Detalles de la Arquitectura

Capas Convolucionales

3 capas convolucionales con 32, 64 y 128 filtros
Kernel size: 3x3 con padding 'same'
Función de activación: ReLU
Batch Normalization después de cada capa

Capas de Pooling

MaxPooling2D después de cada capa convolucional
Pool size: 2x2
Reduce dimensionalidad en 75%
Proporciona invariancia a traslaciones

Capas Densas

2 capas totalmente conectadas
256 y 128 neuronas respectivamente
Función de activación: ReLU
Dropout de 0.5 y 0.3 para regularización

Capa de Salida

Función de activación Softmax
23 neuronas (una por cada clase)
Output: probabilidades para cada clase
Pérdida: sparse_categorical_crossentropy

3. Proceso de Entrenamiento

5 Configuración del Entrenamiento

Hiperparámetros Utilizados:
                                                    Optimizador: Adam
Learning Rate: 0.001
Función de Pérdida: Sparse Categorical Crossentropy
Métrica: Accuracy

                                                

                                                    Batch Size: 128
Épocas: 50
División: 80% train, 20% test
Callbacks: Early Stopping, ReduceLROnPlateau

                                                

Early Stopping

Paciencia: 10 épocas
Monitor: val_loss
Restore best weights: True

ReduceLROnPlateau

Factor: 0.2
Paciencia: 5 épocas
Min Learning Rate: 0.00001

6 Progreso del Entrenamiento

Precisión

Entrenamiento: 99.98%

Validación: 96.99%

Excelente rendimiento sin sobreajuste

Pérdida

Entrenamiento: 0.0016

Validación: 0.1732

Convergencia estable y rápida

Gráfico de precisión y pérdida durante el entrenamiento

Época 1 → Época 22 (early stopping activado)

4. Resultados y Evaluación

7 Métricas de Evaluación

96.96%

Accuracy

Precisión general en el conjunto de prueba

97%

Precisión

Promedio macro de precisión por clase

96%

Recall

Promedio macro de exhaustividad por clase

97%

F1-Score

Media armónica entre precisión y recall

8 Matriz de Confusión

	A	B	Y
A	331	0	0
B	13	419	0
Y	0	0	267

Interpretación: La diagonal principal muestra las predicciones correctas. La mayoría de las clases tienen excelente precisión, con algunas confusiones menores entre letras visualmente similares.

9 Optimización del Modelo

Comparación de Modelos

Modelo Base: 96.96% accuracy
Modelo Optimizado: 99.01% accuracy
Mejora: +2.05% de precisión
Técnicas aplicadas: Data Augmentation, Dropout, Regularización L2

Técnicas de Optimización

Data Augmentation: Rotación, zoom, ajuste de contraste
Regularización: Dropout en capas convolucionales y densas
Batch Normalization: Para estabilizar el entrenamiento
Ajuste de LR: Learning rate más bajo (0.0005)

5. Conclusiones y Aplicaciones

10 Hallazgos Principales

Puntos Fuertes

Altísima precisión (99.01% en modelo optimizado)
Excelente generalización a datos no vistos
Arquitectura eficiente y efectiva
Buen balance entre complejidad y rendimiento
Técnicas de regularización efectivas

Limitaciones

Dataset con etiquetas inconsistentes (valores 24)
Exclusión de letras que requieren movimiento (J, Z)
Algunas confusiones entre letras visualmente similares
Dependencia de condiciones de imagen consistentes
Requerimiento de recursos computacionales

11 Aplicaciones Prácticas

Accesibilidad

Sistemas de traducción automática de lenguaje de señas para mejorar la inclusión

Educación

Herramientas de aprendizaje y práctica del lenguaje de señas

Comunicación

Sistemas de videollamadas con traducción automática integrada

Aplicaciones Móviles

Apps para aprendizaje y práctica en dispositivos móviles

12 Trabajo Futuro

                                            Direcciones Futuras:
                                            Inclusión de letras con movimiento: J y Z mediante video o secuencias
Modelos en tiempo real: Optimización para inferencia en dispositivos móviles
Dataset ampliado: Más variaciones y condiciones de iluminación
Arquitecturas avanzadas: Transformer o modelos attention para secuencias
Integración con NLP: Traducción a texto natural y viceversa

                                        

	A	B	Y
A	331	0	0
B	13	419	0
Y	0	0	267

	A	B	Y
A	331	0	0
B	13	419	0
Y	0	0	267

Cargando Sign Language Recognition...

Reconocimiento de Señas

1 Características del Dataset

Estadísticas del Dataset:

Ejemplos de Letras del Dataset:

2 Preprocesamiento de Datos

Filtrado

Normalización

Reshaping

Balanceo

3 Diseño de la Red Neuronal Convolucional

4 Detalles de la Arquitectura

Capas Convolucionales

Capas de Pooling

Capas Densas

Capa de Salida

5 Configuración del Entrenamiento

Hiperparámetros Utilizados:

Early Stopping

ReduceLROnPlateau

6 Progreso del Entrenamiento

Precisión

Pérdida

7 Métricas de Evaluación

Accuracy

Precisión

Recall

F1-Score

8 Matriz de Confusión

9 Optimización del Modelo

Comparación de Modelos

Técnicas de Optimización

10 Hallazgos Principales

Puntos Fuertes

Limitaciones

11 Aplicaciones Prácticas

Accesibilidad

Educación

Comunicación

Aplicaciones Móviles

12 Trabajo Futuro

Direcciones Futuras:

Demo Interactiva - Clasificación de Señas

Selecciona una letra para clasificar:

Resultado de la Clasificación:

Selecciona una letra

Niveles de Confianza:

	A	B	Y
A	331	0	0
B	13	419	0
Y	0	0	267