-
Natural sciences
- Development of bioinformatics software, tools and databases
Aan de basis van talrijke bio-informaticatools ligt de FM-index, die zeer efficiënte zoekfunctionaliteit mogelijk maakt. Tools gebaseerd op de FM-index zijn echter beperkt in die zin dat hun geheugenvereisten proportioneel toenemen met het sequentievolume. Dit is vooral problematisch in het tijdperk van pan-genoom analyse, waar het gebruik van één lineair referentiegenoom steeds vaker wordt vervangen door het gebruik van grote collecties van genomen van verschillende individuen en/of verwante soorten.
De r-index werd recent voorgesteld als een veel geheugenefficiënter alternatief voor de FM-index, vooral voor sterk repetitieve pan-genomen. Het maakt gebruik van gecomprimeerde representaties van de Burrows-Wheeler Transform en de suffix array en vermindert in de praktijk de geheugenvereisten met een factor 10 of meer.
De r-index gaat echter gepaard met verminderde prestaties. Er zijn verschillende technieken voorgesteld, onder andere door onze onderzoeksgroep, om deze prestatiekloof sterk te verkleinen. Om de praktische bruikbaarheid van de r-index sterk te verhogen, willen we de expertise van onze onderzoeksgroep aanwenden op het gebied van verliesloze sequentiealignering en gecomprimeerde pan-genoom de Bruijn-grafen. Ons overkoepelende doel is om zeer geheugenefficiënte pan-genoomgrafieken te ontwikkelen op basis van de r-index en deze toe te passen op praktische bio-informaticatoepassingen in de microbiologie en de menselijke genetica.