Project

Naar een open-resource unviersele dependency treebank voor gesproken Spaans

Code
01CD12323
Looptijd
01-10-2023 → 29-02-2024
Financiering
Gewestelijke en gemeenschapsmiddelen: Bijzonder Onderzoeksfonds
Onderzoeksdisciplines
  • Humanities and the arts
    • Computational linguistics
    • Corpus linguistics
    • Dialectology
Trefwoorden
Parsing Part of Speech tagging gesproken Spaans Universal Dependencies
 
Projectomschrijving
Dit project beoogt de ontwikkeling van een treebank voor gesproken Spaans, gebruikmakend van transcripties van het Audible Corpus of Spoken Rural Spain (COSER), met het oog op de verbetering van NLP-tools voor lemmatisering, part-of-speech (PoS) tagging en parsing. In het project worden automatisch gegenereerde lemma's, PoS-tags te gevalideerd, de nauwkeurigheid van bestaande bibliotheken geëvalueerd en de richtlijnen voor de annotatie van Universele Dependenciesrelaties geoptimaliseerd om uiteindelijk tot een suite van NLP tools te komen voor het gesproken Spaans.