Project

Ontwerp en analyse van meertalige modellen voor geavanceerde toepassingen in het begrijpen van natuurlijke taal

Code

1162223N

Looptijd

01-11-2022 → 28-02-2025

Financiering

Fonds voor Wetenschappelijk Onderzoek - Vlaanderen (FWO)

Promotor

Chris Develder

Mandaathouder

Karel D'Oosterlinck

Onderzoeksdisciplines

Natural sciences
- Machine learning and decision making
- Natural language processing

Trefwoorden

Natuurlijke taalverwerking Meta-leren Meertalig leren

Projectomschrijving

Dankzij recente doorbraken in het veld van deep learning is er significante vooruitgang geboekt in het veld van natuurlijke taalverwerking (NLP). Deze vooruitgang is echter voornamelijk toegankelijk voor talen met veel beschikbare middelen en data (bv. Engels). Bovendien zijn veel schijnbaar simpele taken nog niet bevredigend opgelost, vooral voor talen met minder middelen (bv. Nederlands). We merken dus een prestatie verschil tussen talen, veroorzaakt door een discrepantie in de hoeveelheid (i) toegankelijke data en (ii) onderzoek dat focust op deze verschillende talen. Door dit verschil heeft een groot deel van de globale bevolking geen toegang tot de beste NLP applicaties. Meertalige modellen zijn een veelbelovende optie om deze discrepantie te overbruggen. Deze modellen zijn getraind op een brede waaier talen en leren zo verschillende taken te generaliseren. Het is echter niet duidelijk hoe we deze modellen optimaal kunnen gebruiken voor meer geavanceerde NLP toepassingen. Een andere veelbelovende aanpak is het gebruik van een metaleerbenadering. Deze techniek laat toe een verzameling taken snel te leren, op basis van beperkte data. Momenteel wordt deze metaleerbenadering vooral toegepast op eentalige applicaties. In dit doctoraatsproject plan ik een meta-leerbenadering te gebruiken om efficiënter meertalige modellen in te zetten voor geavanceerde NLP problemen. Hierbij focus ik mij vooral op de taak van coreferentie resolutie, om het onderzoek beheersbaar te houden.