-
Natural sciences
- Genetics
- Systems biology
-
Medical and health sciences
- Molecular and cell biology
- Molecular and cell biology
Veel toepassingen in de moleculaire biologie zijn afhankelijk van de analyse van de sequentiegegevens van de volgende generatie. De aanwezigheid van sequencing-fouten in onbewerkte sequentiegegevens daagt deze toepassingen echter uit om op juiste wijze onderscheid te maken tussen echt biologisch signaal en sequentiebepalingsruis. wij geloven dat huidige methodologie kan worden verbeterd. De onderzoeksvraag van dit voorstel is dus hoe maximaal gebruikmaken van alle informatie die aanwezig is in onbewerkte sequentiegegevens om reeksen te detecteren en te corrigeren
fouten. We stellen een methodologie voor om sequentiefouten te identificeren door niet alleen naar elk individu te kijken positie (bijv. gebruik van leesberichtondersteuning, kwaliteitsscores) maar ook in de context waarin a vermoedelijke sequencing-fout treedt op. Onbewerkte sequentiegegevens worden vaak weergegeven in een grafiekstructuur de Bruijn-grafiek genoemd. We zullen een grafiektheoretische eigenschap van deze de Bruijn-grafieken en gebruiken integreer meerdere de Bruijn grafiekrepresentaties in een enkel kader om volledig gebruik te maken van de Contextuele informatie. Deze aanvullende contextuele informatie zal resulteren in een zeer dimensionale dataset, maar we stellen dat vast probabilistische grafische modellen zijn bij uitstek geschikt om hier op een statistisch verantwoorde manier mee om te gaan. We geloven dat onze methodologie verschillende bioinformatica-toepassingen zoals lezen zal verbeteren correctie, genoomassemblage en bellen met varianten