-
Natural sciences
- Analysis of next-generation sequence data
- Development of bioinformatics software, tools and databases
-
Engineering and technology
- Bio-informatics
- High performance computing
Pan-genomica is een vlug evoluerend veld vanwege het snel toenemende aantal gesequeneerde genomen van individuen. Gezien de brede toepasbaarheid van pan-genoomdatastructuren en functionaliteit, zullen we schaalbare, op grafen gebaseerde pan-genoomrepresentaties ontwikkelen, evenals algoritmen die efficiënte zoekfunctionaliteit mogelijk maken. De belangrijkste innovatieve factor voor de zoekfunctionaliteit is de detectie van niet-aaneengesloten overeenkomsten van sequenties tegen het pan-genoom. Door sprongen binnen de pan-genoomgraaf toe te staan bij het aligneren van een sequentie, kunnen onze algoritmen de oorsprong van een nieuw gesequeneerde soort afleiden als een mozaïeksamenstelling van meerdere, verwante soorten. Een tweede doel voor de zoekfunctionaliteit is compatibiliteit met lange sequenties met veel fouten (Pacific Biosciences of Oxford Nanopore Technologies, met foutpercentages tot 15%) naast korte sequenties met weinig fouten (Illumina). Hiervoor zullen we nieuwe algoritmen voor seed-identificatie ontwikkelen om het seed-and-extend-paradigma te verbeteren. In het bijzonder zullen we representaties van pan-genoomgrafen bestuderen op basis van de Burrows-Wheelertransformatie (BWT), aangezien ze weinig geheugen vereisen en verliesloze sequentiealignering ondersteunen vanwege recente algoritmische ontwikkelingen op bidirectionele BWT-gebaseerde indexen en zoekschema’s. Zoekschema’s zullen worden gebruikt voor seed-identificatie.