Ámbitos de trabajo
Con el objetivo de promover el avance de la IA en español, se ha elaborado un índice que establece cuantitativa y cualitativamente la diferencia entre las tecnologías del lenguaje en español e inglés en cuanto a cuatro ámbitos.
Estado del
arte
Soluciones de
mercado
adopción
usuario
ESTADO DEL ARTE
En el ámbito del estado del arte, cercano al mundo académico, se crean infraestructuras que incluyen:
1 Datasets bilingües y metodologías para la evaluación comparada de modelos de lenguaje pre-entrenados.
Portal ODESIA
Ofrece información sobre el estado del arte del procesamiento de lenguaje natural en español. Se puede consultar información sobre datasets, tareas para las que existen datos en español y los resultados de evaluación obtenidos para cada tarea.
Leaderboard
Evaluación de modelos de lenguaje en inglés y español.
EvALL
Herramienta de evaluación para sistemas de información que permite evaluar sobre un extenso conjunto de métricas que abarcan multitud de contextos de evaluación.
Metodología
1 Recopilación de información sobre recursos disponibles y resultados obtenidos para las tareas de procesamiento de lenguaje natural en las que el español ha sido objeto de estudio con el fin de determinar cual es el estado del arte en cada momento.
2 Definición de indicadores para medir el desarrollo comparativo del español frente al inglés en lo relativo a diseminación de resultados científicos, recursos de procesamiento de lenguaje natural (modelos de lenguaje, datos anotados, herramientas), y efectividad de sistemas en diversas tareas.
3 Desarrollo de medidas de evaluación para diferentes tipos de tareas abstractas de aprendizaje automático e implementación de las mismas en una aplicación que permitirá evaluar cada tarea con las métricas más apropiadas.
4 Experimentación sistemática con modelos de lenguaje para comparar resultados en español e inglés y publicación de resultados en un leaderboard.
Resultados de 2024
66%
Brecha en Estado del arte
98%
Publicaciones
96%
Proyectos subvencionados
83%
Texto en internet
76%
Modelos de lenguaje
55%
Datos anotados
20%
Efectividad de modelos de lenguaje