-
Humanities and the arts
- Computational linguistics
Het STEVIN‑project SoNaR heeft tot doel een gebalanceerd referentiecorpus van 500 miljoen woorden samen te stellen voor hedendaags (1954‑heden) geschreven Nederlands.
Het corpus zal niet minder dan 38 teksttypes bevatten en zal worden gebalanceerd op basis van het aantal sprekers in de Nederlandstalige regio’s, waarbij een derde van de teksten uit Vlaanderen afkomstig is en twee derde uit Nederland. Er zullen niet alleen teksten uit meer conventionele tekstsoorten worden verzameld, zoals kranten en rapporten, maar ook gegevens uit nieuwe media, zoals chat, sms, internetfora en e‑mail. Een belangrijk aspect van het SoNaR‑project is dat voor al het opgenomen tekstmateriaal de intellectuele‑eigendomsrechten (Intellectual Property Rights, IPR) zijn geregeld, zodat een brede beschikbaarheid kan worden gegarandeerd..