Project

EXTRACT: Automatisch Terminologie Extraheren uit Vergelijkbare Corpora

Acroniem

EXTRACT

Code

3F006817

Looptijd

01-10-2017 → 30-09-2021

Financiering

Fonds voor Wetenschappelijk Onderzoek - Vlaanderen (FWO)

Promotor

Veronique Hoste

Mandaathouder

Ayla Rigouts Terryn

Onderzoeksdisciplines

Natural sciences
- Artificial intelligence
Humanities and the arts
- Literary studies
- Theory and methodology of language studies
Social sciences
- Cognitive science and intelligent systems

Trefwoorden

Terminologie Termextractie Vergelijkbare Corpora Engels Frans Nederlands Comparatief Kwantitatief Taal- en tekstanalyse Taaltechnologie

Projectomschrijving

"Gespecialiseerde, domeinspecifieke woordenschat, i.e. terminologie, is vaak moeilijk om te begrijpen en te vertalen. Niettemin bevatten termen vaak cruciale informatie en is het in vele gevallen essentieel dat ze goed worden begrepen (denk bijvoorbeeld aan medische teksten, technische handleidingen en juridische documenten). Niet alleen menselijke vertalers ondervinden dit probleem, ook voor machinevertaling (MT) zijn termen moeilijk te vertalen. MT is gebaseerd op enorme hoeveelheden tekst (vooral menselijke vertalingen), maar termen zijn inherent zeldzamer dan algemene woordenschat en daarbij ook erg domeinspecifiek. Daarom is een andere aanpak aangewezen voor terminologie, namelijk automatische termextractie (ATE).
Eentalige ATE werd ontwikkeld om termen te herkennen en te extraheren uit lopende tekst. Vervolgens werd er een vertaalcomponent toegevoegd, gebaseerd op parallelle corpora. Hierbij worden termen geëxtraheerd uit gealigneerde menselijke vertalingen en dan gekoppeld aan potentiële vertaalequivalenten in de doeltaal. Parallelle corpora zijn echter niet altijd gemakkelijk te vinden, vooral voor kleine domeinen en talen. Recent onderzoek focust daarom op ATE van vergelijkbare corpora (ATEVC). Verzamelingen van gelijkaardige teksten over hetzelfde onderwerp in verschillende talen (maar geen vertalingen) worden gebruikt als basis voor eentalige ATE. In de geëxtraheerde lijsten van kandidaattermen worden dan vertaalequivalenten gezocht. Enerzijds zijn vergelijkbare corpora een oplossing voor het gebrek aan data, anderzijds is het veel moeilijker om equivalenten te vinden omdat de teksten niet gealigneerd zijn. De positie of zelfs aanwezigheid van vertalingen is daarom onbekend.
Het doel van dit doctoraatsproject is om een holistische methodologie te onderzoeken voor ATEVC. Naar analogie met de meest succesvolle trends in natuurlijke taalverwerking, wordt speciale aandacht besteed aan benaderingen met zelflerende modellen en neurale netwerken. Om over voldoende gegevens te beschikken werden daarvoor verschillende vergelijkbare corpora verzameld en manueel geannoteerd. Elk aspect van ATEVG zal worden onderzocht, van gegevensverzameling (wat is de impact van het corpus?), tot eentalige ATE (kan een bottom-up benadering, gebaseerd op manuele termannotaties, de ambigue kenmerken van termen verduidelijken?), tot tweetalige termalignatie (hoe kunnen de efficiëntste strategieën voor termalignatie worden gecombineerd?), tot evaluatie (hoe kan een informatieve gouden standaard worden gemaakt voor ATEVC?). Tenslotte maakt deze aanpak het mogelijk om mogelijke voordelige interacties tussen de verschillende componenten te onderzoeken. Samengevat is het doel van dit project om, aan de hand van een holistische, bottom-up benadering, de beste strategieën te onderzoeken voor automatische termextractie van vergelijkbare corpora.
"