Ámbitos de trabajo

Con el objetivo de promover el avance de la IA en español, se ha elaborado un índice que establece cuantitativa y cualitativamente la diferencia entre las tecnologías del lenguaje en español e inglés en cuanto a cuatro ámbitos.

Estado del
arte

Soluciones de
mercado

Nivel de
adopción
Experiencia de
usuario

ESTADO DEL ARTE

En el ámbito del estado del arte, cercano al mundo académico, se crean infraestructuras que incluyen:

1 Datasets bilingües y metodologías para la evaluación comparada de modelos de lenguaje pre-entrenados.

2 Una plataforma que facilite la evaluación comparativa entre sistemas del estado del arte.
3 Un portal informativo sobre el estado del arte del español para las aplicaciones más relevantes de las tecnologías del lenguaje.

Portal ODESIA

Ofrece información sobre el estado del arte del procesamiento de lenguaje natural en español. Se puede consultar información sobre datasets, tareas para las que existen datos en español y los resultados de evaluación obtenidos para cada tarea.

Leaderboard

Evaluación de modelos de lenguaje en inglés y español.

EvALL

Herramienta de evaluación para sistemas de información que permite evaluar sobre un extenso conjunto de métricas que abarcan multitud de contextos de evaluación.

Metodología   

1 Recopilación de información sobre recursos disponibles y resultados obtenidos para las tareas de procesamiento de lenguaje natural en las que el español ha sido objeto de estudio con el fin de determinar cual es el estado del arte en cada momento.

2 Definición de indicadores para medir el desarrollo comparativo del español frente al inglés en lo relativo a diseminación de resultados científicos, recursos de procesamiento de lenguaje natural (modelos de lenguaje, datos anotados, herramientas), y efectividad de sistemas en diversas tareas.

3 Desarrollo de medidas de evaluación para diferentes tipos de tareas abstractas de aprendizaje automático e implementación de las mismas en una aplicación que permitirá evaluar cada tarea con las métricas más apropiadas.

4 Experimentación sistemática con modelos de lenguaje para comparar resultados en español e inglés y publicación de resultados en un leaderboard.

Resultados de 2024

66%

Brecha en Estado del arte

98%

Publicaciones

96%

Proyectos subvencionados

83%

Texto en internet

76%

Modelos de lenguaje

55%

Datos anotados

20%

Efectividad de modelos de lenguaje