Project

Een onderzoek naar de verstaanbaarheid van automatische vertalingen

Acroniem

G006417N

Code

3G006417W

Looptijd

01-01-2017 → 31-12-2020

Financiering

Fonds voor Wetenschappelijk Onderzoek - Vlaanderen (FWO)

Promotor

Lieve Macken

Onderzoeksdisciplines

Natural sciences
- Natural language processing
Humanities and the arts
- Translation studies
- Interpreting studies

Trefwoorden

automatische vertalingen Taaltechnologie Vertaalkunde

Projectomschrijving

Automatische vertaling systemen kunnen niet garanderen dat de tekst die ze produceren vloeiend en samenhangend in zowel syntax en semantiek zal zijn. Foutieve woorden en syntax komen vaak in machinetranslated tekst, waardoor de lezer om delen van de beoogde boodschap raden. Dit project (i) analyses oogbeweging gegevens te onderzoeken in welke mate het gebrek aan voorspelbaarheid in teksten die zijn gemaakt door MT schaadt begrip, en (ii) probeert de begrijpelijkheid van-machine vertaalde tekst automatisch te schatten. Om het eerste doel van het onderzoek aan te pakken, zullen we verzamelen en analyseren van de oogbewegingen van de deelnemers lezen Nederlands-machine vertaalde tekst. In een eerste experiment onderzoeken we de impact van de verschillende categorieën MT fouten (syntactische versus semantische, de functie woorden versus inhoud woorden, shortdistance versus lange-afstand triggers van fouten) op begrip. In een tweede experiment, de deelnemers lezen zes korte-machine vertaalde teksten van ongeveer 300-400 woorden voor begrip. Om het tweede doel van het onderzoek aan te pakken, zal een MT begrijpelijkheid schatting systeem voor het Nederlands worden gebouwd. Het systeem neemt als input een machine vertaalde zin en probeert de MT fouten die begrip ernstig belemmeren detecteren. We beginnen met een basis systeem met basislijn kenmerken, zoals lengte van een zin en woord frequentie en geleidelijk kenmerken afgeleid van taal modellen met toenemende complexiteit, namelijk de n-gram, afhankelijkheid en neurale taal modellen toe te voegen. ;