Code
BOF/PDO/2025/001
Looptijd
01-10-2025 → 30-09-2028
Financiering
Gewestelijke en gemeenschapsmiddelen: Bijzonder Onderzoeksfonds
Promotor
Onderzoeksdisciplines
-
Natural sciences
- Natural language processing
-
Humanities and the arts
- Computational linguistics
-
Social sciences
- Artificial intelligence
- Knowledge representation and machine learning
Trefwoorden
interpreteerbaarheid van taalmodellen
meertalige taalmodellen
faire en transparante AI systemen
Projectomschrijving
Dit project wil ons begrip van meertaligheid in meertalige grote taalmodellen (MLLM's) verhogen, met als overkoepelend doel om deze modellen transparanter, interpreteerbaarder en billijker te maken voor talen waarvoor amper data en tools voorhanden zijn. In MLLM’s worden betekenissen voorgesteld en overgedragen tussen talen, maar tot op heden weten we niet hoe dat precies gebeurt. Dit project wil de onderliggende mechanismen van het meertalige gedrag van taalmodellen blootleggen op het niveau van de neuronen. Hierbij zal aandacht worden besteed aan de rol van taalspecifieke en polyglotte neuronen, de vorming van typologische clusters en de impact van zowel trainingsdata als modelarchitectuur op meertalige generalisaties. Daarnaast wordt onderzocht hoe MLLM's vertaalprocessen internaliseren en of ze daarbij een beroep doen op taal-pivoterende strategieën om interlinguale taken te vereenvoudigen, met name voor ondervertegenwoordigde talen. Ten slotte richt het onderzoek zich op de consistentie van redeneerstructuren, zoals oorzaak-gevolgrelaties en logisch redeneren, en wordt onderzocht of systemische vooroordelen of universele patronen het meertalige redeneervermogen van deze modellen bepalen. Door meer inzicht te verwerven in hoe MLLM's talen verwerken, wil dit project bijdragen aan de ontwikkeling van eerlijkere en effectievere taalmodellen, om er zo voor te zorgen dat deze revolutionaire AI-technologie ook taalgemeenschappen met minder digitale resources ten goede komt.