Multilingual vs. monolingual transformer models in encoding linguistic structure and lexical abstraction
| Type of publication: | Conference paper |
| Citation: | Nastase_CLIC-IT2025_2025 |
| Publication status: | Published |
| Booktitle: | CLiC-it 2025: Eleventh Italian Conference on Computational Linguistics, September 24 ? 26, 2025, Cagliari, Italy |
| Year: | 2025 |
| URL: | https://clic2025.unica.it/wp-c... |
| Abstract: | Multilingual language models are attractive, as they allow us to cross linguistic boundaries, and solve tasks in different languages in the same mathematical space. They come, however, at a cost: in the quest to find a shared space that satisfies (to a certain degree) all languages, the resulting representations lose, or fail to capture, properties specific to each language. We present an investigation into detecting linguistic structure through lexical abstraction. We study both a multilingual and a monolingual language model, and quantify the loss of information between them. I modelli di linguaggio multilingue permettono di oltrepassare i confini linguistici e di risolvere task in lingue diverse mantenendo lo stesso spazio matematico. Tuttavia, questi modelli hanno un costo: nella ricerca di uno spazio condiviso che soddisfi (in una certa misura) tutte le lingue, le rappresentazioni risultanti perdono, o non riescono a catturare, le proprietà specifiche di ciascuna lingua. Usando il fenomeno di astrazione lessicale, presentiamo qui un’indagine su come la struttura linguistica venga individuata: analizziamo sia un modello linguistico multilingue che un modello monolingue, e quantifichiamo la perdita di informazioni tra di essi. |
| Keywords: | |
| Projects: |
Idiap |
| Authors: | |
| Added by: | [UNK] |
| Total mark: | 0 |
|
Attachments
|
|
|
Notes
|
|
|
|
|