Code
01CD12323
Looptijd
01-10-2023 → 29-02-2024
Financiering
Gewestelijke en gemeenschapsmiddelen: Bijzonder Onderzoeksfonds
Promotor
Mandaathouder
Onderzoeksdisciplines
-
Humanities and the arts
- Computational linguistics
- Corpus linguistics
- Dialectology
Trefwoorden
Parsing
Part of Speech tagging
gesproken Spaans
Universal Dependencies
Projectomschrijving
Dit project beoogt de ontwikkeling van een treebank voor gesproken Spaans, gebruikmakend van transcripties van het Audible Corpus of Spoken Rural Spain (COSER), met het oog op de verbetering van NLP-tools voor lemmatisering, part-of-speech (PoS) tagging en parsing. In het project worden automatisch gegenereerde lemma's, PoS-tags te gevalideerd, de nauwkeurigheid van bestaande bibliotheken geëvalueerd en de richtlijnen voor de annotatie van Universele Dependenciesrelaties geoptimaliseerd om uiteindelijk tot een suite van NLP tools te komen voor het gesproken Spaans.