Project

Formalisering van Subjectieve Interesses in Exploratory Data Mining

Acroniem
FORSIED
Looptijd
01-09-2015 → 30-04-2019
Financiering
Europese middelen: kaderprogramma
Onderzoeksdisciplines
  • Natural sciences
    • Applied mathematics in specific fields
 
Projectomschrijving

De snelheid waarmee onderzoekslaboratoria, bedrijven en overheden gegevens verzamelen, is hoog en neemt snel toe. Vaak worden deze gegevens zonder specifiek doel verzameld of blijken ze nuttig te zijn voor onverwachte doelen: bedrijven zoeken voortdurend naar nieuwe manieren om hun klantendatabanken te gelde te maken; Overheden ontginnen verschillende databases om belastingfraude op te sporen; Beveiligingsinstanties ontmijnen en associëren talloze heterogene informatiestromen uit openbaar toegankelijke en geclassificeerde databases om beveiligingsbedreigingen te begrijpen en te detecteren. Het doel van dergelijke Exploratory Data Mining (EDM) -taken is meestal slecht gedefinieerd, d.w.z. het is onduidelijk hoe te formaliseren hoe interessant een uit de gegevens geëxtraheerd patroon is. Dientengevolge is EDM vaak een langzaam proces van vallen en opstaan. Tijdens deze fellowship proberen we de wiskundige principes te ontwikkelen van wat een patroon interessant maakt in een zeer subjectieve betekenis. Cruciaal in dit streven is onderzoek naar automatische mechanismen om de eerdere overtuigingen en verwachtingen van de gebruiker voor wie de EDM-patronen zijn bedoeld, te modelleren en naar behoren te overwegen, waardoor de gebruikers van de complexe taak worden ontlast om te proberen zichzelf te formaliseren wat een patroon interessant maakt voor hen. Dit project zal een radicale verandering betekenen in de manier waarop EDM-onderzoek wordt gedaan. Op dit moment stellen onderzoekers zich typisch een specifiek doel voor van de patronen, proberen om de interessantheid van dergelijke patronen te formaliseren met dat doel, en ontwerpen ze een algoritme om ze te ontginnen. Vanwege de verscheidenheid aan gebruikers heeft deze strategie echter geleid tot een veelvoud aan algoritmen. Als gevolg hiervan moeten gebruikers dataminingexperts zijn om te begrijpen welk algoritme op hun situatie van toepassing is. Om dit op te lossen, zullen we een theoretisch solide raamwerk ontwikkelen voor het ontwerpen van EDM-systemen die de overtuigingen en verwachtingen van de gebruiker net zo goed modelleren als de gegevens zelf, om de hoeveelheid bruikbare informatie die aan de gebruiker wordt doorgegeven te maximaliseren. Dit zal uiteindelijk de kracht van EDM binnen het bereik van de niet-expert brengen.