Project

BERT voor distributionele semantiek in de Franse constructiegrammatica

Code
bof/baf/1y/2026/01/005
Looptijd
01-01-2026 → 31-12-2026
Financiering
Gewestelijke en gemeenschapsmiddelen: Bijzonder Onderzoeksfonds
Onderzoeksdisciplines
  • Humanities and the arts
    • Computational linguistics
    • Corpus linguistics
    • Semantics
    • Syntax
Trefwoorden
Frans Productiviteit BERT distributieve semantiek
 
Projectomschrijving

Distributieve semantiek biedt een beproefde methode voor het kwantificeren van semantische gelijkenis op basis van natuurlijke taalcorpora. In onderzoek naar syntactische productiviteit vormen semantische maatstaven die uit deze benadering voortkomen een aanvulling op productiviteitsmaatstaven. Deze laatste beoordelen alleen lexicale algemeenheid en diversiteit, maar slagen er niet in om semantische algemeenheid of diversiteit vast te leggen, wat een andere dimensie is van  hun ‘openheid’.

Met de komst van deep learning werden traditionele, op telling gebaseerde distributieve semantische modellen eerst uitgedaagd door statische, op type gebaseerde neurale modellen zoals Word2Vec, en worden ze momenteel vervangen door dynamische, op transformatoren gebaseerde modellen die token-level embeddings produceren, zoals BERT.

Het doel van dit project is het ontwikkelen, documenteren en evalueren van een pijplijn voor het finetunen van BERT (en meer specifiek een van de Franse varianten ervan, zoals FlauBERT en CamemBERT) om embeddings te creëren voor het modelleren van semantische gelijkenis op woordniveau binnen grammaticale constructies in het Frans.