Project

SoNaR. Stevin Nederlandstalig referentiecorpus

Acroniem

SoNaR

Code

EXT/ONZ/000132

Looptijd

01-01-2008 → 31-12-2011

Financiering

Institutionele werkingstoelagen

Promotor

Veronique Hoste

Onderzoeksdisciplines

Humanities and the arts
- Computational linguistics

Trefwoorden

Taaltechnologie

Projectomschrijving

Het STEVIN‑project SoNaR heeft tot doel een gebalanceerd referentiecorpus van 500 miljoen woorden samen te stellen voor hedendaags (1954‑heden) geschreven Nederlands.
Het corpus zal niet minder dan 38 teksttypes bevatten en zal worden gebalanceerd op basis van het aantal sprekers in de Nederlandstalige regio’s, waarbij een derde van de teksten uit Vlaanderen afkomstig is en twee derde uit Nederland. Er zullen niet alleen teksten uit meer conventionele tekstsoorten worden verzameld, zoals kranten en rapporten, maar ook gegevens uit nieuwe media, zoals chat, sms, internetfora en e‑mail. Een belangrijk aspect van het SoNaR‑project is dat voor al het opgenomen tekstmateriaal de intellectuele‑eigendomsrechten (Intellectual Property Rights, IPR) zijn geregeld, zodat een brede beschikbaarheid kan worden gegarandeerd..