Project

Geparset Corpus van de gesproken Nederlandse Dialecten + (GCND+)

Code

I002124N

Looptijd

01-05-2024 → 30-04-2028

Financiering

Fonds voor Wetenschappelijk Onderzoek - Vlaanderen (FWO)

Promotor-woordvoerder

Anne Breitbarth

Onderzoeksdisciplines

Humanities and the arts
- Computational linguistics
- Corpus linguistics
- Dialectology
- Syntax
Engineering and technology
- Audio and speech processing

Trefwoorden

geparseerd dialectcorpus

Projectomschrijving

Deze aanvraag beoogt de constructie van een elektronisch, geannoteerd dialect-corpus. Deze
infrastructuur vult twee lacunae. (1) Geannoteerde corpora van spontane spraak zijn nog zeldzaam
in vergelijking met corpora van geschreven teksten. Vooral geparsete dialectcorpora zijn praktisch
onbestaande –uitzonderingen zijn het AAPCAppE of het CorDial-Sin, met ca. 1mio woordvormen elk.
Gesproken (dialect)corpora zijn echter onontbeerlijk voor een beter begrip van taalstructuur,
taalerandering, taalgebruik, en de grenzen aan variatie in menselijke taal. In het licht van
grootschalig en snel voortschrijdend dialectverlies is de transcriptie van de bestaande audiocollecties
urgent, net als hun taalkundige annotatie. De voorgestelde infrastructuur is een aanzienlijke
geografische uitbreiding t.o.v. het GCND, dat momenteel aan de Universiteit Gent uitgebouwd wordt,
en zal het hele Europees-Nederlandse dialectgebied omvatten. In totaal zal de infrastructuur ca.
10mio woordvormen tellen. (2) Dialecten en regionale spraak vormen een grote horde voor
taaltechnologische toepassingen, die in toenemende mate in het dagelijkse leven gebruikt worden.
Dit project zal de bestaande audio-gealigneerde transcripties en annotaties uit de eerste fase van het
GCND gebruiken om ASR- en NLP-tools te hertrainen, om de transcriptie en annotatie van de nieuwe
data te versnellen. Verbeterde ASR-tools en robuustere NLP-pipelines zijn daarnaast belangrijk voor
inclusie in een steeds meer digitale maatschappij.