Project

Regulatorische annotatie van planten genomen door middel van functionele chromatine signaturen en vergelijkende sequentieanalyse

Code
178WE0113
Looptijd
01-12-2012 → 31-08-2016
Financiering
Gewestelijke en gemeenschapsmiddelen: IWT/VLAIO
Mandaathouder
Onderzoeksdisciplines
  • Natural sciences
    • Plant biology
Trefwoorden
regulatorische annotatie planten transcriptionele regulatie genexpressie
 
Projectomschrijving

Transcriptionele regulatie is een dynamisch proces dat een belangrijke rol speelt bij het genereren van
genexpressieprofielen tijdens de ontwikkeling van een plant of als reactie op (a)biotische stimuli. De
doelstellingen van dit project bestonden uit twee delen: de eerste omvat de studie van transcriptionele
regulatie en de manier waarop genexpressie wordt georganiseerd in het genoom. De tweede bestaat uit het toepassen van de verkregen datasets teneinde een functie toe te wijzen aan Arabidopsis transcriptiefactoren en hun doelwit genen die voorheen een onbekende functie hadden.
Het onderzoek beschreven in dit proefschrift begint met de ontwikkeling van een phylogenetic footprinting aanpak voor de identificatie van geconserveerde niet-coderende sequenties (CNSen) in Arabidopsis thaliana, die gebruik maakt van de genoominformatie van 12 tweezaadlobbige planten. In deze benadering werden zowel alignerings als niet alignerings gebaseerde technieken toegepast om functionele motieven te identificeren in een set van meerdere organismen. De werkwijze houdt rekening met onvolledige motief conservatie en een hoge sequentie divergentie tussen verwante soorten. In totaal hebben we 69,361 footprints geïdentificeerd gelinkt aan 17,895 genen. Een gen regulatorisch netwerk werd samengesteld door de integratie van gekende transcriptiefactor bindingsplaatsen, verkregen uit de literatuur en experimentele studies. Dit netwerk bestond uit 40,758 interacties, waarvan twee derde in DNase I hypersensitieve plaatsen. Dit netwerk is sterk verrijkt naar in-vivo doelwit genen van gekende regulerend transcriptiefactoren en de algemene kwaliteit ervan werd bevestigd met behulp van vijf verschillende biologische validatie metrices. Tenslotte werd een proof of concept experiment uitgevoerd met gedetailleerde expressie en functie-informatie om aan te tonen hoe statische CNSen kunnen worden omgezet in toestandsafhankelijke gen regulerende netwerken. Dit biedt nieuwe mogelijkheden voor regulerende gen annotatie.
In een daaropvolgende analyse pasten we de bovengenoemde phylogenetic footprinting aanpak toe
voor de identificatie van CNSen in tien tweezaadlobbige planten. Dit leverde 1,032,291 CNSen geassocieerd met 243,187 genen op. Om deze CNSen te annoteren met transcriptie factor bindingsplaatsen hebben we gebruik gemaakt van de bindingsplaats informatie van 642 TF’s die afkomstig zijn uit 35 TF families in Arabidopsis. Validatie van de verkregen CNSen werd uitgevoerd met TF chromatine immunoprecipitatie gevolgd door sequenering (ChIP-Seq) in drie organismen, dit resulteerde in een significante overlap van de meeste datasets. Ook ultra-geconserveerde CNSen werden geïdentificeerd door het insluiten van genomen van aanvullende plantenfamilies. In totaal werden er 715 bindingsplaatsen voor 501 genen en geïdentificeerd die in tweezaadlobbigen, eenzaadlobbigen, mossen en groene algen geconserveerd waren. Door toepassing van de verkregen CNSen vonden wij dat genen die deel uitmaken van een geconserveerd mini-regulon een grotere samenhang van hun expressieprofiel vertonen dan andere gen paren die dit niet vertonen.
Vervolgens werd een nieuw algoritme ontwikkeld dat zowel alignerings als niet alignerings gebaseerde
technieken voor het aflijnen van geconserveerde motieven in de promotersequenties van nauw verwante soorten ondersteunt. Kandidaat motieven zijn exhaustief genumereerd als woorden in het IUPAC alfabet en gescreend voor conservatie door het gebruik van de branch length score. Vanwege het exhaustieve karakter van het algoritme en de grote noodzaak van computationele middelen werd het MapReduceprogrammeermodel aangenomen om gebruik te kunnen maken van een cloud computing-infrastructuur.
De methode werd toegepast op vier eenzaadlobbige plantensoorten en we waren in staat om aan te tonen dat de hoge scorende motieven aanzienlijk verrijken voor de open chromatine regio’s in Oryza sativa en transcriptiefactor bindingsplaatsen afgeleid door middel van protein binding microarrays in Oryza sativa en Zea mays. Verder werd aangetoond dat de werkwijze experimenteel (ChIP-Seq) bepaalde ga2ox1- achtige KN1 bindingsplaatsen kan identificeren in Zea mays.
Tenslotte, werd een analyse, die voor 12 NAM-ATAF1/2-CUC2 (NAC) transcriptiefactoren doelwit genen identificeert uitgevoerd. NAC transcriptiefactoren behoren tot de grootste transcriptiefactor
families in planten, er is echter beperkte data beschikbaar die het DNA-bindingsdomein individuele
leden beschrijven. We gebruikten een transcriptiefactor doelwit gen identificatie workflow gebaseerd
op de integratie van nieuwe protein binding microarray data met genexpressie en geconserveerde promoter sequenties om de DNA-bindende voorkeuren te identificeren en de onderliggende gen regulerende netwerken te onthullen. De data biedt hoge resolutie vingerafdrukken voor de meeste bestudeerde transcriptiefactoren en geeft aan dat de NAC DNA bindende voorkeuren zouden voorspeld kunnen worden uit hun DNA bindend sequentie domein. De ontwikkelde methodologie, met de toepassing van complementaire functionele genomische filters, maakt het mogelijk om voor elke transcriptiefactor protein binding microarray data om te zetten in een reeks van doelwit genen met hoge kwaliteit. De NAC doelwit genen gedetecteerd door deze benadering konden bevestigd worden door onafhankelijke in vivo analyses.