Update cookies preferences
 logo Idiap Research Institute        
 [BibTeX] [Marc21]
Evaluation de la reconnaissance automatique de la parole par les grands modeles de langage generatifs
Type of publication: Conference paper
Citation: Baneras-Roux_WORKSHOPEVALLLM2026_2026
Publication status: Accepted
Booktitle: EvalLLM2026 : Atelier sur l'evaluation des modeles generatifs (LLM), le RAG et challenges
Year: 2026
Abstract: La reconnaissance automatique de la parole (RAP) est traditionnellement évaluée par le taux d'erreur mot (WER), une métrique insensible au sens. Les métriques sémantiques basées sur les plongements sont mieux corrélées à la perception humaine, mais les grands modèles de langage (LLM) décodeurs restent peu explorés pour cette tâche. Cet article évalue leur pertinence selon trois approches : (1) sélection de la meilleure hypothèse parmi deux candidats, (2) calcul de distance sémantique via embeddings génératifs, et (3) classification qualitative des erreurs. Sur le jeu de données HATS, les meilleurs LLM atteignent 92--94~% d’accord avec les annotateurs humains pour la sélection d’hypothèses, contre 63~% pour le WER, surpassant aussi les métriques sémantiques. Les embeddings issus de LLM décodeurs montrent des performances comparables aux modèles encodeurs. Enfin, les LLM offrent une perspective prometteuse pour une évaluation interprétable et sémantique de la RAP.
Main Research Program: AI for Everyone
Keywords:
Projects: Idiap
ELOQUENCE
Authors: Bañeras-Roux, Thibault
Kumar, Shashi
Khalil, Driss
Motlicek, Petr
Burdisso, Sergio
Liu, Shiran
Rouvier, Mickael
Wottawa, Jane
Dufour, Richard
Added by: [UNK]
Total mark: 0
Attachments
  • Baneras-Roux_WORKSHOPEVALLLM2026_2026.pdf
Notes