Project

Zoekschema's voor sequentiealignering op pan-genoomgrafen.

Code

3F012921

Duration

01 November 2021 → 31 October 2025

Funding

Fonds voor Wetenschappelijk Onderzoek - Vlaanderen (FWO)

Promotor

Jan Fostier

Research disciplines

Natural sciences
- Analysis of next-generation sequence data
- Development of bioinformatics software, tools and databases
Engineering and technology
- Bio-informatics
- High performance computing

Keywords

bio-informatics Approximate string matching Sequence-to-graph alignment Pan-genomics

Project description

Pan-genomica is een vlug evoluerend veld vanwege het snel toenemende aantal gesequeneerde genomen van individuen. Gezien de brede toepasbaarheid van pan-genoomdatastructuren en functionaliteit, zullen we schaalbare, op grafen gebaseerde pan-genoomrepresentaties ontwikkelen, evenals algoritmen die efficiënte zoekfunctionaliteit mogelijk maken. De belangrijkste innovatieve factor voor de zoekfunctionaliteit is de detectie van niet-aaneengesloten overeenkomsten van sequenties tegen het pan-genoom. Door sprongen binnen de pan-genoomgraaf toe te staan bij het aligneren van een sequentie, kunnen onze algoritmen de oorsprong van een nieuw gesequeneerde soort afleiden als een mozaïeksamenstelling van meerdere, verwante soorten. Een tweede doel voor de zoekfunctionaliteit is compatibiliteit met lange sequenties met veel fouten (Pacific Biosciences of Oxford Nanopore Technologies, met foutpercentages tot 15%) naast korte sequenties met weinig fouten (Illumina). Hiervoor zullen we nieuwe algoritmen voor seed-identificatie ontwikkelen om het seed-and-extend-paradigma te verbeteren. In het bijzonder zullen we representaties van pan-genoomgrafen bestuderen op basis van de Burrows-Wheelertransformatie (BWT), aangezien ze weinig geheugen vereisen en verliesloze sequentiealignering ondersteunen vanwege recente algoritmische ontwikkelingen op bidirectionele BWT-gebaseerde indexen en zoekschema’s. Zoekschema’s zullen worden gebruikt voor seed-identificatie.