Project

Probabilistisch grafische modellen voor een accurate identificatie van sequentiëringfouten

Code
3F020518
Looptijd
01-10-2018 → 30-09-2022
Financiering
Fonds voor Wetenschappelijk Onderzoek - Vlaanderen (FWO)
Promotor
Mandaathouder
Onderzoeksdisciplines
  • Natural sciences
    • Genetics
    • Systems biology
  • Medical and health sciences
    • Molecular and cell biology
    • Molecular and cell biology
Trefwoorden
sequentiëringfouten
 
Projectomschrijving

Veel toepassingen in de moleculaire biologie zijn afhankelijk van de analyse van de sequentiegegevens van de volgende generatie.
De aanwezigheid van sequencing-fouten in onbewerkte sequentiegegevens daagt deze toepassingen echter uit
om op juiste wijze onderscheid te maken tussen echt biologisch signaal en sequentiebepalingsruis. wij geloven dat
huidige methodologie kan worden verbeterd. De onderzoeksvraag van dit voorstel is dus hoe
maximaal gebruikmaken van alle informatie die aanwezig is in onbewerkte sequentiegegevens om reeksen te detecteren en te corrigeren
fouten.
We stellen een methodologie voor om sequentiefouten te identificeren door niet alleen naar elk individu te kijken
positie (bijv. gebruik van leesberichtondersteuning, kwaliteitsscores) maar ook in de context waarin a
vermoedelijke sequencing-fout treedt op. Onbewerkte sequentiegegevens worden vaak weergegeven in een grafiekstructuur
de Bruijn-grafiek genoemd. We zullen een grafiektheoretische eigenschap van deze de Bruijn-grafieken en gebruiken
integreer meerdere de Bruijn grafiekrepresentaties in een enkel kader om volledig gebruik te maken van de
Contextuele informatie.
Deze aanvullende contextuele informatie zal resulteren in een zeer dimensionale dataset, maar we stellen dat vast
probabilistische grafische modellen zijn bij uitstek geschikt om hier op een statistisch verantwoorde manier mee om te gaan. We geloven dat onze methodologie verschillende bioinformatica-toepassingen zoals lezen zal verbeteren
correctie, genoomassemblage en bellen met varianten