%Aigaion2 BibTeX export from Idiap Publications
%Thursday 30 July 2026 12:05:31 AM

@INPROCEEDINGS{Baneras-Roux_WORKSHOPEVALLLM2026_2026,
                      author = {Ba{\~{n}}eras-Roux, Thibault and Kumar, Shashi and Khalil, Driss and Motlicek, Petr and Burdisso, Sergio and Liu, Shiran and Rouvier, Mickael and Wottawa, Jane and Dufour, Richard},
                    projects = {Idiap, ELOQUENCE},
         mainresearchprogram = {AI for Everyone},
                       title = {{\'{E}}valuation de la reconnaissance automatique de la parole par les grands mod{\`{e}}les de langage g{\'{e}}n{\'{e}}ratifs},
                   booktitle = {EvalLLM2026 : Atelier sur l'{\'{e}}valuation des mod{\`{e}}les g{\'{e}}n{\'{e}}ratifs (LLM), le RAG et challenges},
                        year = {2026},
                    abstract = {La reconnaissance automatique de la parole (RAP) est traditionnellement {\'{e}}valu{\'{e}}e par le taux d'erreur mot (WER), une m{\'{e}}trique insensible au sens. Les m{\'{e}}triques s{\'{e}}mantiques bas{\'{e}}es sur les plongements sont mieux corr{\'{e}}l{\'{e}}es {\`{a}} la perception humaine, mais les grands mod{\`{e}}les de langage (LLM) d{\'{e}}codeurs restent peu explor{\'{e}}s pour cette t{\^{a}}che. Cet article {\'{e}}value leur pertinence selon trois approches : (1) s{\'{e}}lection de la meilleure hypoth{\`{e}}se parmi deux candidats, (2) calcul de distance s{\'{e}}mantique via embeddings g{\'{e}}n{\'{e}}ratifs, et (3) classification qualitative des erreurs. Sur le jeu de donn{\'{e}}es HATS, les meilleurs LLM atteignent 92--94~\% d’accord avec les annotateurs humains pour la s{\'{e}}lection d’hypoth{\`{e}}ses, contre 63~\% pour le WER, surpassant aussi les m{\'{e}}triques s{\'{e}}mantiques. Les embeddings issus de LLM d{\'{e}}codeurs montrent des performances comparables aux mod{\`{e}}les encodeurs. Enfin, les LLM offrent une perspective prometteuse pour une {\'{e}}valuation interpr{\'{e}}table et s{\'{e}}mantique de la RAP.},
                         pdf = {https://publications.idiap.ch/attachments/papers/2026/Baneras-Roux_WORKSHOPEVALLLM2026_2026.pdf}
}