Project

SoNaR. Stevin Nederlandstalig referentiecorpus

Acroniem
SoNaR
Code
EXT/ONZ/000132
Looptijd
01-01-2008 → 31-12-2011
Financiering
Institutionele werkingstoelagen
Onderzoeksdisciplines
  • Humanities and the arts
    • Computational linguistics
Trefwoorden
Taaltechnologie
 
Projectomschrijving

Het STEVIN‑project SoNaR heeft tot doel een gebalanceerd referentiecorpus van 500 miljoen woorden samen te stellen voor hedendaags (1954‑heden) geschreven Nederlands.
Het corpus zal niet minder dan 38 teksttypes bevatten en zal worden gebalanceerd op basis van het aantal sprekers in de Nederlandstalige regio’s, waarbij een derde van de teksten uit Vlaanderen afkomstig is en twee derde uit Nederland. Er zullen niet alleen teksten uit meer conventionele tekstsoorten worden verzameld, zoals kranten en rapporten, maar ook gegevens uit nieuwe media, zoals chat, sms, internetfora en e‑mail. Een belangrijk aspect van het SoNaR‑project is dat voor al het opgenomen tekstmateriaal de intellectuele‑eigendomsrechten (Intellectual Property Rights, IPR) zijn geregeld, zodat een brede beschikbaarheid kan worden gegarandeerd..