Project

Automatische vertaling met behulp van automatische geëxtraheerde gelijkaardige vertalingen

Code
DOCT/002980
Looptijd
16-11-2023 → 21-09-2025 (Lopend)
Doctoraal onderzoeker
Onderzoeksdisciplines
  • Natural sciences
    • Natural language processing
  • Humanities and the arts
    • Computational linguistics
    • Translation studies
    • Interpreting studies
  • Social sciences
    • Artificial intelligence
Trefwoorden
Automatische vertalingen Synthetische data Artificiële Intelligentie Computationele taalkunde
 
Projectomschrijving

Dit project heeft als doel de nauwkeurigheid en efficiëntie van machinevertalingen (MT) te verbeteren door Large Language Models (LLM's) te integreren met op retrieval gebaseerde MT-technieken en synthetische data-augmentatie. De aanpak omvat het genereren van synthetische tweetalige en eentalige datasets uit bestaande parallelle corpora, zoals DGT, ParaCrawl en news crawl, en het verbeteren van deze synthetische datasets door middel van neural fuzzy repair en back translation.

De verwachte resultaten omvatten de ontwikkeling van MT-systemen die een verbeterde vertaalkwaliteit aantonen door gebruik te maken van mogelijkheden van LLM's. Door de combinatie van op retrieval gebaseerde methoden en het genereren en vergroten van synthetische gegevens te onderzoeken, probeert dit project bij te dragen aan de voortdurende ontwikkeling van nauwkeurigere en efficiëntere MT-systemen, waardoor betere mondiale communicatie mogelijk wordt gemaakt.