-
Humanities and the arts
- Computational linguistics
- Corpus linguistics
- Dialectology
- Syntax
-
Engineering and technology
- Audio and speech processing
Deze aanvraag beoogt de constructie van een elektronisch, geannoteerd dialect-corpus. Deze infrastructuur vult twee lacunae.
(1) Geannoteerde corpora van spontane spraak zijn nog zeldzaam in vergelijking met corpora van geschreven teksten. Vooral geparsete dialectcorpora zijn praktisch onbestaande –uitzonderingen zijn het AAPCAppE of het CorDial-Sin, met ca. 1mio woordvormen elk. Gesproken (dialect)corpora zijn echter onontbeerlijk voor een beter begrip van taalstructuur,
taalerandering, taalgebruik, en de grenzen aan variatie in menselijke taal. In het licht van grootschalig en snel voortschrijdend dialectverlies is de transcriptie van de bestaande audiocollecties urgent, net als hun taalkundige annotatie. De voorgestelde infrastructuur is een aanzienlijke geografische uitbreiding t.o.v. het GCND, dat momenteel aan de Universiteit Gent uitgebouwd wordt, en zal het hele Europees-Nederlandse dialectgebied omvatten. In totaal zal de infrastructuur ca. 10mio woordvormen tellen.
(2) Dialecten en regionale spraak vormen een grote horde voor taaltechnologische toepassingen, die in toenemende mate in het dagelijkse leven gebruikt worden. Dit project zal de bestaande audio-gealigneerde transcripties en annotaties uit de eerste fase van het GCND gebruiken om ASR- en NLP-tools te hertrainen, om de transcriptie en annotatie van de nieuwe data te versnellen. Verbeterde ASR-tools en robuustere NLP-pipelines zijn daarnaast belangrijk voor inclusie in een steeds meer digitale maatschappij.