Project

Ontwikkeling van machine learning technieken voor flowcytometrie data

Code
178TW0614
Looptijd
01-01-2014 → 31-12-2017
Financiering
Gewestelijke en gemeenschapsmiddelen: IWT/VLAIO
Promotor
Mandaathouder
Onderzoeksdisciplines
  • Engineering and technology
    • Computer hardware
    • Computer theory
    • Scientific computing
    • Other computer engineering, information technology and mathematical engineering
Trefwoorden
flowcytometrie data Immuniteit
 
Projectomschrijving

Het immuunsysteem, een complex systeem dat uit veel verschillende celtypes bestaat, verdedigt ons lichaam tegen allerlei indringers en speelt een grote rol in de meeste ziekten. Bij infectieziekten, zoals bijvoorbeeld griep, bestrijdt het de
ziektekiem, maar soms kan het ook ziekten veroorzaken als er iets misloopt bij de werking, zoals bijvoorbeeld bij allergieen. Het immuunprofiel van een patient opstellen kan helpen om een diagnose te stellen of om een behandeling op te volgen, terwijl het bestuderen van in vitro immuuncellen of het immuunsysteem van proefdieren cruciaal is bij de ontwikkeling van geneesmiddelen. Om een immuunprofiel te bepalen wordt vaak flowcytometrie gebruikt, een high-throughput techniek waarbij biologische stalen worden gekleurd met antilichamen die aan fluorochromen gebonden zijn en waarbij de cellen passeren door een vloeistofsysteem. Met behulp van een optische installatie met lasers en bandfilters wordt de
fluorescentie-emissie van elke individuele cel gemeten, waardoor de aanwezigheid van specifieke eiwitten of ‘merkers’ op het celoppervlak gedetecteerd wordt. Zo kunnen verschillende celtypes ge¨ıdentificeerd worden en krijgt men inzicht in het immuunprofiel van de patient. Deze techniek kan informatie opmeten van duizenden individuele cellen per seconde.
De analyse van flowcytometriedata bestaat typisch uit meerdere onderdelen.
Eerst moeten een aantal stappen voor kwaliteitscontrole doorlopen worden, zoals het verwijderen van verkeerde metingen veroorzaakt door obstructies in de machine, dode cellen of doubletten. Sommige artefacten van het optisch systeem moeten ook gecorrigeerd worden door de data te compenseren en te transformeren.
Vervolgens worden de verschillende celtypes geıdentificeerd. Traditioneel wordt dit gedaan door de data te ‘gaten’, een procedure waarbij kleinere groepen van
cellen herhaaldelijk geselecteerd worden door veelhoeken over tweedimensionale spreidingsdiagrammen te tekenen. Het detecteren van de verschillende celtypes is zelden het uiteindelijke doel van het onderzoek. Vaak wordt een bijkomende analyse uitgevoerd op de aantallen of percentages van de celtypes, om verschillen tussen patientengroepen of proefdieren te bepalen. In de voorbije jaren is het aantal merkers dat gelijktijdig kan opgemeten worden sterk toegenomen. Waar de originele machines in de jaren ‘70 slechts twee kleuren konden meten en dit geleidelijk aangroeide tot 12 in de jaren ‘90, steeg het in de laatste tien jaar tot 30 en meer door de ontdekking van fluorochromen met
kleinere emmissiespectra en de ontwikkeling van massacytometrie. Hierdoor is de traditionele manier om deze data te analyseren niet langer toereikend. Bij kleinere datasets was het observeren van twee parameters per keer voldoende om de celpopulaties te identificeren, maar dit beeld is te gelimiteerd voor hoogdimensionale datasets. Het is niet alleen tijdrovend, maar ook zeer bevooroordeeld naar de verwachte populaties toe. Veel cellen worden weggelaten en nooit geanalyseerd en het gebeurt zelden dat alle merkers bestudeerd worden voor e´en cel. Daarbij komt ook nog dat naarmate meer celpopulaties gedetecteerd worden, het moeilijker wordt om te identificeren welke (combinaties van) celpopulaties voorspellend kunnen zijn voor een klinisch resultaat.
Machinaal leren, een onderzoeksveld in de computerwetenschappen waar modellen worden geleerd uit data, zou kunnen helpen om deze problemen aan te
pakken. Het heeft algoritmes die kunnen omgaan met hoogdimensionale data (zoals dimensionaliteitsreductie en kenmerkselectie), algoritmes om subpopulaties te
selecteren in de data (‘clustering’) en algoritmes om waarden te voorspellen, zoals een groepslabel of een overlevingstijd, vanuit een beschrijving van een patient (classificatie en regressie). De meeste van deze technieken kunnen nuttige toepassingen vinden in flowcytometrieonderzoek.
In deze thesis evalueren we welke algoritmes het best geschikt zijn voor dit type data en ontwikkelen we een aantal specifieke oplossingen voor verschillende situaties. Het eerste hoofdstuk bevat een algemene inleiding van de flowcytometrietechniek, illustreert het gebruik ervan in immunologisch onderzoek en toont een kort overzicht van algoritmes voor machinaal leren.
In het tweede hoofdstuk ontwikkelen we een beter visualisatiealgoritme voor flowcytometriedata, omdat de traditionele 2D-spreidingsdiagrammen incompleet
waren en alternatieve technieken zoals SPADE en viSNE de miljoenen cellen die in flowcytometriestalen gemeten worden niet konden verwerken. FlowSOM gebruikt een self-organizing map, die het computationeel goed schaalbaar maakt,
en bevat een extra metaclusteringsstap, die clusters met verschillende maten en vormen toelaat. De clusters van de self-organizing map worden in een minimaal opspannende boom gevisualiseerd. Dit beeld heeft een zeer intu¨ıtieve interpretatie waarin de verschillende takken diverse celtypes voorstellen en de verschillende nodes in een tak kleine variaties binnen een specifieke celpopulatie weergeven.
Terwijl de eerste versie van het FlowSOM-algoritme een volledig overzicht van een dataset kon geven, merkten we al snel dat het zonder extra moeite nog geen antwoord kon geven op verscheidene vragen van de immunologen, zoals ‘Wat is
het immunofenotypisch verschil tussen deze twee groepen patienten?’ en ‘Welke tak stelt de dendritische cellen voor?’. In het derde hoofdstuk beschrijven we extra mogelijkheden die ge¨ımplementeerd werden in het FlowSOM R-pakket dat
beschikbaar is op Bioconductor en gebruikers toestaat een meer volledige analyse van hun data te doen zonder veel extra werk.
Het vierde hoofdstuk beschrijft onze deelname aan de FlowCAP IV-wedstrijd.
Het FlowCAP-consortium leverde een flowcytometriedataset van hiv-patienten met een gekende progressietijd tot aids en was op zoek naar celpopulaties die deze progressiesnelheid konden voorspellen. We bouwden een pijplijn genaamd FloReMi, die eerst extensieve voorbewerking toepast om foute metingen in de bestanden te verwijderen en dan een combinatie van de bestaande flowDensity- en flowTypealgoritmes gebruikt om automatisch zeer veel mogelijke populaties te detecteren.
We pasten een kenmerkselectieprocedure toe om interessante populaties te vinden met minimale redundantie en de progressietijd werd voorspeld met behulp van een
random survival forest. Onze uiteindelijke resultaten waren beter dan de inzendingen van de andere acht teams die aan deze wedstrijd deelnamen.
In het vijfde hoofdstuk wordt een overzicht van computationele flowcytometrietechnieken gegeven, inclusief de twee technieken uit de vorige hoofdstukken en verschillende technieken die in andere onderzoeksgroepen werden ontwikkeld.
Hoewel er veel algoritmes bestaan, gebruiken de meeste mensen in het labo nog steeds de traditionele gating-methode om hun data te analyseren. Het is noodzakelijk om deze nieuwe technieken aan immunologen te introduceren en hen een overzicht te geven van alle verschillende methodes en hun voordelen. Zo kunnen ze een geınformeerde beslissing nemen over wat voor hen het leren waard is om hun onderzoek vooruit te helpen.
Waar de focus van alle vorige hoofdstukken op flowcytometriedata lag, kunnen de algoritmes ook gebruikt worden in een context van massacytometrie. Dit is een variatie op flowcytometrie waar de cellen gelabeld worden met zeldzame aardmetalen in plaats van fluorochromen. Dit omzeilt de beperkingen van het optisch systeem en laat toe dat het aantal merkers stijgt tot 50 en meer. Aangezien massacytometrie steeds vaker in klinische studies wordt gebruikt, is het zeer belangrijk dat de waarden vergelijkbaar zijn tussen de verschillende stalen. Om dit te verzekeren worden stalen vaak per plaat verwerkt, maar zelfs dan kunnen batcheffecten optreden tussen verschillende platen. In het zesde hoofdstuk stellen we een nieuw algoritme voor, gebaseerd op normalisatie aan de hand van kwantielen,
dat rekening houdt met de celtype-specifieke effecten die kunnen voorkomen door het incorporeren van het FlowSOM-algoritme.
Kort samengevat ontwikkelden we nieuwe algoritmes voor alle stappen van een flowcytometrieanalyse, gaande van voorbewerking over celtype-identificatie tot prognosevoorspelling. Het gebruik van machinaal leren liet ons toe om betere resultaten te behalen in vergelijking met bestaande technieken en verscheidene van
onze methodes zijn in gebruik genomen door andere onderzoeksgroepen. Toch is het programmeren van scripts voor de meeste mensen in het labo nog net een stap
te ver. Het zal wat tijd kosten tot deze nieuwe methodes ge¨ımplementeerd worden in de commerciele oplossingen die geen programmeervaardigheden vragen en die door de meeste immunologen gebruikt worden. Ondertussen zullen sterke
samenwerkingen tussen wet lab-teams en bio-informatici de computationele flowcytometrie naar een hoger niveau blijven tillen.