Project

Gecomprimeerde datastructuren voor pangenoom grafen

Code
bof/baf/4y/2024/01/287
Looptijd
01-01-2024 → 31-12-2025
Financiering
Gewestelijke en gemeenschapsmiddelen: Bijzonder Onderzoeksfonds
Promotor
Onderzoeksdisciplines
  • Natural sciences
    • Development of bioinformatics software, tools and databases
Trefwoorden
r-index Algoritme ontwikkeling Bio-informatica
 
Projectomschrijving

Aan de basis van talrijke bio-informaticatools ligt de FM-index, die zeer efficiënte zoekfunctionaliteit mogelijk maakt. Tools gebaseerd op de FM-index zijn echter beperkt in die zin dat hun geheugenvereisten proportioneel toenemen met het sequentievolume. Dit is vooral problematisch in het tijdperk van pan-genoom analyse, waar het gebruik van één lineair referentiegenoom steeds vaker wordt vervangen door het gebruik van grote collecties van genomen van verschillende individuen en/of verwante soorten.

De r-index werd recent voorgesteld als een veel geheugenefficiënter alternatief voor de FM-index, vooral voor sterk repetitieve pan-genomen. Het maakt gebruik van gecomprimeerde representaties van de Burrows-Wheeler Transform en de suffix array en vermindert in de praktijk de geheugenvereisten met een factor 10 of meer.

De r-index gaat echter gepaard met verminderde prestaties. Er zijn verschillende technieken voorgesteld, onder andere door onze onderzoeksgroep, om deze prestatiekloof sterk te verkleinen. Om de praktische bruikbaarheid van de r-index sterk te verhogen, willen we de expertise van onze onderzoeksgroep aanwenden op het gebied van verliesloze sequentiealignering en gecomprimeerde pan-genoom de Bruijn-grafen. Ons overkoepelende doel is om zeer geheugenefficiënte pan-genoomgrafieken te ontwikkelen op basis van de r-index en deze toe te passen op praktische bio-informaticatoepassingen in de microbiologie en de menselijke genetica.