-
Engineering and technology
- Computer hardware
- Computer theory
- Scientific computing
- Other computer engineering, information technology and mathematical engineering
Het vakgebied van de datawetenschap (data science) is de afgelopen jaren sterk in opmars. Veel bedrijven en organisaties maken tegenwoordig gebruik van datawetenschap om betere zakelijke beslissingen te kunnen nemen. Datawetenschap leidt ook in wetenschappelijke kringen tot nieuwe mogelijkheden, niet enkel om bestaande modellen te verifi¨eren of te weerleggen, maar ook om problemen vanuit een totaal ander perspectief en op een andere schaal te bekijken en te modelleren. Het vroegtijdig detecteren van afwijkingen in de monitoringgegevens van toestellen en software kan bijvoorbeeld het falen van machines en software voorkomen, en significante besparingen opleveren. De hoofdreden van de opkomst van datawetenschap is dat bijna elke sector van de economie momenteel toegang heeft tot meer data dan wat een decennium geleden denkbaar was. IBM schat dat 90 procent van de data in de wereld gecre¨eerd werd tijdens de afgelopen twee jaar. Deze heel grote verzamelingen aan data worden ‘ig data’genoemd en worden vaak omschreven door 4Vs: het extreme Volume van de data, de grote Vari¨eteit aan types van data, de snelheid (Velocity) waaraan de data moet verwerkt worden, en de vari¨erende kwaliteit (Veracity) van big data. In dit proefschrift spelen sociale media (zoals Twitter of Facebook) een belangrijke rol. Deze zijn in het bijzonder veelbelovend voor het vakgebied van datawetenschap omdat ze grote volumes aan data bevatten, over een brede gebruikersgroep beschikken en een real-time karakter hebben. In de eerste plaats kunnen sociale media gebruikt worden om nieuwe informatie te detecteren voordat deze beschikbaar wordt in gestructureerde databanken. Veel evenementen kunnen bijvoorbeeld gedetecteerd worden via de sociale media, zelfs voordat deze worden gerapporteerd in de traditionele media. Ten tweede, omdat sociale media een belangrijke bron zijn geworden om nieuwe klanten te werven, is het voor bedrijven en organisaties essentieel om de interacties op sociale media in relatie met hun merk, producten en idee¨en te verzamelen, te analyseren, en te optimaliseren. De toepassing van datawetenschappen op sociale media data brengt een aantal belangrijke uitdagingen met zich mee. In dit proefschrift beschouwen we drie grote uitdagingen. De eerste uitdaging die we beschouwen is dat bij het behandelen van sociale media data de inhoud van een individueel item vaak erg kort, grammaticaal incorrect, en divers is, en daarom heel moeilijk automatisch te interpreteren. Meer dan 50% van de berichten op Twitter bevatten bijvoorbeeld weinig nuttige informatie en zijn willekeurige gedachten, zelfpromotie, of onderhoud van aanwezigheid zoals ‘ben terug’of ‘et TV gekeken’ Er moeten dus methodes ontwikkeld worden die effici¨ent de nuttige informatie uit de erg grote en diverse verzameling aan sociale media extraheert. Als een eerste stap om deze uitdaging aan te pakken, introduceren we een aanpak die, gebruik makend van sociale media, interessante plaatsen ontdekt en karakteriseert. In het bijzonder onderzoeken we hoe geografische geannoteerde tekstuele informatie die verzameld werd via sociale media kan gebruikt worden om nieuwe plaatsen te ontdekken. De in dit proefschrift voorgestelde methode blijkt in staat om diverse soorten van plaatsen te vinden, die nog niet aanwezig zijn in de databanken gebruikt door Foursquare, Google, LinkedGeoData, of Geonames. We breiden dit werk uit door een methode te introduceren die het semantische type (bvb. ‘onferentie’of ‘portevenement’ inschat van automatisch uit sociale media ge¨extraheerde evenementen. De hiertoe gebruikte technieken maken gebruik van de wijze waarop het semantische evenement-type be¨ınvloed wordt door de tijdruimtelijke aarding van het evenement, het profiel van de aanwezigen, en het semantische type van de plaats, en andere entiteiten die geassocieerd worden met het evenement. Experimentele resultaten tonen aan dat onze methodologie kan gebruikt worden om uit sociale media evenementen van een gegeven semantisch type te ontdekken die niet worden vermeld in de Upcoming evenementen databank. Als laatste deel over gestructureerde informatie beschouwen we de extractie van onderwerpen met hoge nieuwswaarde uit sociale media. De voorgestelde methode verwerkt automatisch grote hoeveelheden van binnenkomende sociale media data om journalisten te voorzien van een uitgebreid real-time overzicht aan krantenkoppen en complementaire informatie. Onafhankelijke evaluatie toont de effectiviteit van de voorgestelde methodologie aan. Ten tweede vereist het werken met grote hoeveelheden real-time gegevens nieuwe methodologie¨en en technologie¨en. Er moeten raamwerken worden gebouwd om grote hoeveelheden aan gegevens in real-time te verzamelen en te analyseren. In dit proefschrift stellen we een generiek raamwerk voor dat kan gebruikt worden om het consumptiegedrag van gebruikers op nieuwswebsites te verzamelen en te analyseren. Het raamwerk laat toe om de populariteit en kenmerken van online nieuwsartikels in real-time te verzamelen, en is zodanig opgebouwd dat het kan worden geschaald om miljoenen bezoekers en duizenden artikels te behandelen. Er werd een grondige evaluatie uitgevoerd op twee verschillende nieuws websites: een jong online nieuws bedrijf dat als doel heeft lezers te bereiken via sociale media (newsmonkey), en een online platform van de gevestigde openbare omroep met een meer traditionele kijk op nieuwsconsumptie (deredactie.be). We tonen aan dat het raamwerk en de voorgestelde analyse aanpak erg geschikt zijn voor beide contexten, en dat hiermee nieuwe inzichten in online nieuwsconsumptie kunnen worden bekomen.De laatste uitdaging die we beschouwen in dit proefschrift is het voorspellen van de populariteit van media data (zoals nieuwsartikelen) over sociale media. Dit is erg uitdagend door de grote verschillen in de populariteitsdistributie (heel veel weinig populaire content en erg weinig zeer populaire content) en de grote verzameling aan factoren die de populariteit be¨ınvloeden. Daarom is er nood aan technieken die toelaten de complexe afhankelijkheid tussen de kenmerken van de beschouwde media data en de finale populariteit modelleren. Om deze uitdaging aan te pakken, stellen we in dit proefschrift een nieuwe methode voor om de populariteit van online nieuws te modelleren en te voorspellen. We voeren eerst een grondige analyse uit naar de consumptiepatronen van online nieuws en hun onderliggende distributies. Deze kennis wordt dan gebruikt om de populariteit van nieuwsartikels beter te voorspellen, in vergelijking met verschillende bestaande methodes. We tonen aan dat het gebruik van eigenschappen gerelateerd aan de inhoud, metadata en temporeel gedrag van de artikels leidt tot een significante verbetering van de voorspellingen, in vergelijking met bestaande aanpakken die alleen de historische populariteit van de artikels beschouwen. Naarmate meer en meer takken binnen de industrie sterker afhankelijk zullen worden van het analyseren van data, zal de toepasbaarheid van deze bijdragen groeien. De inzichten verworven in dit proefschrift kunnen een grondige basis vormen voor verder onderzoek. De online nieuwsanalyse en het voorspellingsraamwerk werden bijvoorbeeld reeds ontplooid bij newsmonkey en deredactie.be. Het raamwerk zal ook beschikbaar worden gesteld voor andere nieuwswebsites, om hun data te verzamelen, te analyseren en te voorspellen om zo hun publicatiestrategie te optimaliseren. In verder onderzoek kunnen de voorgestelde inzichten rond het consumptiegedrag van online nieuws en het voorspellen van hun populariteit gebruikt worden om methodes te ontwikkelen die actief bijdragen tot het optimaliseren van de publicatiestrategie.