Project

Een responsieve en collaboratieve game-gebaseerde benadering voor het bouwen van een pars-corpus van Europese Spaanse dialecten

Code

319107818

Looptijd

01-05-2018 → 30-04-2022

Financiering

Fonds voor Wetenschappelijk Onderzoek - Vlaanderen (FWO)

Promotor

Veronique Hoste

Onderzoeksdisciplines

Humanities and the arts
- Computational linguistics

Trefwoorden

Spaanse dialecten Communicatie Taaltechnologie Taalkunde

Projectomschrijving

De studie van de dialectale microvariatie van het Spaans gesproken in Spanje heeft zich tot voor kort vooral gericht op lexicale en fonetische kenmerken. De morfosyntaxis van deze dialecten blijft echter grotendeels onontgonnen terrein, ondanks de recente interesse in de dialectgrammatica's. Dit is te wijten aan het gebrek aan grote geannoteerde dialectcorpora. Het geplande project wil deze lacune dichten en zal het eerste morfosyntactisch geannoteerde corpus van de Europese Spaanse dialecten creëren. Dit corpus zal op een geografisch evenwichtige wijze ontworpen worden en zal bestaan uit materiaal van het COSER corpus (Corpus Oral y Sonoro del Español Rural “Geluidscorpus van het gesproken landelijk Spaans”) dat de grootste verzameling van orale Spaanse gegevens bevat, maar grotendeels nog niet getranscribeerd is. Vermits transcriberen en annoteren duur en arbeidsintensief zijn, zal dit project een ‘respeaking’ en een collaboratieve en game-gebaseerde benadering aanwenden bij het bouwen van het corpus. Met andere woorden, we willen automatische transcripties verkrijgen met behulp van spraakherkenning. Deze worden vervolgens verwerkt met Natural Language Processing tools en kunnen dan gebruikt worden om een crowdsourced game te bouwen waarmee het brede publiek kan bijdragen tot de co-creatie van het corpus door te annoteren in de context van een game.