Evaluation de la reconnaissance automatique de la parole par les grands modeles de langage generatifs

Type of publication:	Conference paper
Citation:	Baneras-Roux_WORKSHOPEVALLLM2026_2026
Publication status:	Accepted
Booktitle:	EvalLLM2026 : Atelier sur l'evaluation des modeles generatifs (LLM), le RAG et challenges
Year:	2026
Abstract:	La reconnaissance automatique de la parole (RAP) est traditionnellement évaluée par le taux d'erreur mot (WER), une métrique insensible au sens. Les métriques sémantiques basées sur les plongements sont mieux corrélées à la perception humaine, mais les grands modèles de langage (LLM) décodeurs restent peu explorés pour cette tâche. Cet article évalue leur pertinence selon trois approches : (1) sélection de la meilleure hypothèse parmi deux candidats, (2) calcul de distance sémantique via embeddings génératifs, et (3) classification qualitative des erreurs. Sur le jeu de données HATS, les meilleurs LLM atteignent 92--94~% d’accord avec les annotateurs humains pour la sélection d’hypothèses, contre 63~% pour le WER, surpassant aussi les métriques sémantiques. Les embeddings issus de LLM décodeurs montrent des performances comparables aux modèles encodeurs. Enfin, les LLM offrent une perspective prometteuse pour une évaluation interprétable et sémantique de la RAP.
Main Research Program:	AI for Everyone
Keywords:
Projects:	Idiap ELOQUENCE
Authors:	Bañeras-Roux, Thibault Kumar, Shashi Khalil, Driss Motlicek, Petr Burdisso, Sergio Liu, Shiran Rouvier, Mickael Wottawa, Jane Dufour, Richard
Added by:	[UNK]
Total mark:	0
Attachments
Baneras-Roux_WORKSHOPEVALLLM2026_2026.pdf
Notes

processing time: 0.0003 seconds.