UNIVERZA V LJUBLJANI BIOTEHNIŠKA FAKULTETA ŠTUDIJ
Transcription
UNIVERZA V LJUBLJANI BIOTEHNIŠKA FAKULTETA ŠTUDIJ
UNIVERZA V LJUBLJANI BIOTEHNIŠKA FAKULTETA ŠTUDIJ BIOTEHNOLOGIJE Nace KRANJC ANALIZA ALTERNATIVNEGA IZREZA INTRONOV ZA DETEKCIJO IZOOBLIK mRNA Z METODO SEKVENCIRANJA RNA DIPLOMSKI SEMINAR Univerzitetni študij – 1. stopnja Biotehnologija Ljubljana, 2012 UNIVERZA V LJUBLJANI BIOTEHNIŠKA FAKULTETA ŠTUDIJ BIOTEHNOLOGIJE Nace KRANJC ANALIZA ALTERNATIVNEGA IZREZA INTRONOV ZA DETEKCIJO IZOOBLIK mRNA Z METODO SEKVENCIRANJA RNA DIPLOMSKI SEMINAR Univerzitetni študij – 1. stopnja Biotehnologija ANALYSIS OF ALTERNATIVE SPLICING FOR DETECTION OF mRNA ISOFORMS WITH RNA-seq METHOD B. SC. THESIS Academic Study Programmes - Biotechnology Ljubljana, 2012 Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 II Diplomski seminar je zaključek univerzitetnega študija – 1. Stopnja Biotehnologija Študijska komisija Študija biotehnologije je za mentorja diplomskega seminarja imenovala doc. dr. Jerneja Jakšeta. Komisija za oceno in predstavitev: Predsednica: prof. dr. Branka JAVORNIK Univerza v Ljubljani, Biotehniška fakulteta, Oddelek za agronomijo Član: doc. dr. Jernej JAKŠE Univerza v Ljubljani, Biotehniška fakulteta, Oddelek za agronomijo Članica: doc. dr. Polona JAMNIK Univerza v Ljubljani, Biotehniška fakulteta, Oddelek za živilstvo Datum zagovora: Podpisani se strinjam z objavo svojega diplomskega seminarja na spletni strani Digitalne knjižnice Biotehniške fakultete. Izjavljam, da je delo, ki sem ga oddal v elektronski obliki, identično tiskani verziji. Nace Kranjc Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 III KLJUČNA DOKUMENTACIJSKA INFORMACIJA ŠD DK KG AV SA KZ ZA LI IN TD OP IJ JI AI Du1 UDK 577.2 (043.2) alternativni izrez/mRNA/RNA-seq/transkriptom/izooblike/ KRANJC, Nace JAKŠE, Jernej (mentor) SI-1000 Ljubljana, Jamnikarjeva 101 Univerza v Ljubljani, Biotehniška fakulteta, Študij biotehnologije 2012 ANALIZA ALTERNATIVNEGA IZREZA INTRONOV ZA DETEKCIJO IZOOBLIK mRNA Z METODO SEKVENCIRANJA RNA Diplomski seminar (Univerzitetni študij – 1. stopnja Biotehnologija) VI, 15 str., 4. sl., 18 vir. sl sl/en RNA sekvenciranje (metoda RNA-seq) je novejši pristop za raziskovanje transkriptoma. Temelji na uporabi novih generacij sekvenciranja in se uporablja za odkrivanje stopnje ekspresije, alternativnega izreza intronov ter ostalih raziskav na področju transkriptomike. Analiza alternativnega izreza intronov z RNA sekvenciranjem omogoča odkrivanje novih izooblik mRNA molekul. Alternativni izrez intronov poteka v veliki večini več eksonskih genov in je tkivno specifičen mehanizem. Pripomore k večjemu številu oblik mRNA, ki izhajajo iz posameznega gena in poslednično k več proteinskim oblikam. Znanih je več dogodkov alternativnega izreza, ki ustvarijo različne izooblike, med njimi se najpogostejše pojavlja izpuščanje eksona. Za odkrivanje mest alternativnega izreza in novih izooblik so potrebni algoritmi, ki pravilno sestavijo odčitke po RNA sekvenciranju. Dva algoritma, ki se za to nalogo uporabljata sta TopHat in Cufflinks, ki si pomagata z mapiranjem odčitkov na referenčni genom. Programa sta brezplačna ter odprtokodna in sta močno orodje za odkrivanje tako dogodkov alternativnega izreza kakor tudi genskega izražanja. Gre za relativno hiter postopek sestavljanja transkriptov. Obstajajo pa tudi statistične metode, ki napovedo mesto izreza brez eksperimentalnih podatkov. Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 IV KEY WORDS DOCUMENTATION ND DC CX AU AA PP PB PY TI DT NO LA AL AB Du1 UDC 577.2 (043.2) alternative splicing/mRNA/RNA-seq/transcriptome/isoforms/ KRANJC, Nace JAKŠE, Jernej SI-1000 Ljubljana, Jamnikarjeva 101 University of Ljubljana, Biotechnical Faculty, Academic Study in Biotechnology 2012 ANALYSIS OF ALTERNATIVE SPLICING FOR DETECTION OF mRNA ISOFORMS WITH RNA-seq METHOD B. Sc. Thesis (Academic Study Programmes – Biotechnology) VI, 15 p., 4 fig., 18 ref. sl sl/en RNA sequencing (RNA-seq method) is a new powerful genomic tool used for transcriptome research. It employes a next generation sequencing methods to conduct experiments for researchof different expression levels of genes, alternative splicing and other studies in field of transcriptomics. Analysis of alternative splicing uses RNA sequencing for discovering new mRNA isoforms. Almost all multiexon genes undergo alternative splicing, which is considered as tissue specific process. It produces large amount of translational products from a single gene, hence enriching the protein diversity. As mechanism of alternativne splicing, a few splicing events are known, among which skipping of exon most often occures. For detecting splice sites and new isoforms efficient computational algorithms are required. Algorithms are also needed for assembly of reads after RNA sequencing. Two of such algorithms are TopHat and Cufflinks, which use mapping of reads to the reference genome. TopHat and Cufflinks are free and open source software packages and are powerfull tool for discovering splicing events and genes expressions. Transcript assembly is relatively fast process. For discovering splice sites dedicated statistical methods can be used without experimental data. Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 V KAZALO VSEBINE Str. KLJUČNA DOKUMENTACIJSKA INFORMACIJA .................................................. III KEY WORDS DOCUMENTATION ............................................................................... IV KAZALO VSEBINE ........................................................................................................... V KAZALO SLIK .................................................................................................................. VI SLOVARČEK ..................................................................................................................... VI 1 UVOD .................................................................................................................................... 1 2 RNA SEKVENCIRANJE .................................................................................................... 2 3 POST-TRANSKRIPCIJSKA REGULACIJA GENOV ................................................... 4 4 ANALIZA ALTERNATIVNEGA IZREZA ...................................................................... 5 5 REGULACIJA ALTERNATIVNEGA IZREZA IN IZOOBLIK ................................... 6 6 ODKRIVANJE IZOOBLIK ................................................................................................ 8 6.1 TOPHAT ................................................................................................................................ 9 6.2 CUFFLINKS ........................................................................................................................ 11 7 ZAKLJUČEK ..................................................................................................................... 13 8 VIRI ..................................................................................................................................... 14 8.1 CITIRANI VIRI ................................................................... Error! Bookmark not defined. 8.2 DRUGI VIRI ........................................................................ Error! Bookmark not defined. ZAHVALA Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 VI KAZALO SLIK Slika 1: Shematski prikaz tipičnega RNA-seq eksperimenta (Marguerat in Bähler, 2010) ..................... 3 Slika 2: Shematski prikaz dogodkov alternativnega izreza (Wang in sod., 2008).................................... 7 Slika 3: Shematski prikaz algoritma TopHat (Trapnell in sod., 2009) ................................................... 10 Slika 4: Shematski prikaz algoritma Cufflinks (Trapnell in sod., 2010) ................................................ 12 SLOVARČEK IUM (angl. initialy unmaped reads) - odčitki, ki se po prvem poskusu ne mapirajo Odčitek (angl. sequence read) - zaporedje DNA, ki smo mu določili nukleotidno zaporedje RNA-seq - metoda sekvenciranja RNA molekul s pomočjo novih generacij sekvenciranja SNP (ang. single nucleotide polymorphism) - polimorfizem enega nukleotida Spajalno telesce (angl. spliceosom) - proteinski kompleks, ki omogoča alternativni izrez Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 1 1 UVOD Do pred slabimi desetimi leti je veljala centralna dogma genetike, ki je trdila, da se DNA enega gena prepiše v mRNA in ta kodira protein. Glede na centralno dogmo je RNA delovala kot most pri prenosu biološke informacije iz DNA v proteine. V zadnjem času pa je dobila RNA širši pomen predvsem pri regulaciji izražanja proteinov. Nepričakovano majhno število genov postavlja vprašanje od kje izvira kompleksnost organizmov. Odkritje alternativnega izreza intronov skupaj z drugimi odkritimi regulacijami izražanja genov je predstavilo povsem nov pogled na centralno dogmo. Hiter napredek na področju sekvenciranja omogoča globje raziskovanje regulacije izražanja genetskih informacij v zadnjih letih. Z razvojem novih generacij sekvenciranja lahko v večjem obsegu, hitreje in ceneje dostopamo do genetskih informacij, ki so potrebne za boljše razumevanje kompleksnosti organizma. Ena izmed metod, ki jih omogočajo nove generacije sekvenciranja, je tudi RNA sekvenciranje, ki zelo natančno določa stopnjo ekspresije določenih genov, alternativnega izreza intronov, ekspresijo specifičnih alelov itd. Analize s starejšimi metodami sekvenciranja niso bile mogoče v takšnem obsegu. Nove generacije sekvenciranja pa z velikimi količinami pridobljenih podatkov in natančnostjo odpirajo vrata novemu biološkemu opazovanju ter novim dognanjem. RNA sekvenciranje je lahko kot metoda uporabljena za raziskovanje na področju transkriptomike, natančneje pri regulaciji izražanja genetskih informacij. V takšni regulaciji sodeluje tudi alternativni izrez intronov, ki z različnimi izooblikami RNA molekul še bolj prispeva h kompleksnosti in pestrosti organizmov. Analiziranje in pojasnjevanje takšnih mehanizmov sta ključna za razumevanje osnovnega delovanja organizma ter življenja samega. Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 2 2 RNA SEKVENCIRANJE Naslednje generacije sekvenciranja se ne uporabljajo samo za analiziranje statičnih genomov, temveč tudi za analize dinamičnih transkriptomov v metodi, ki se imenuje RNA sekvenciranje. Te zmogljive in hitro razvijajoče tehnologije so v uporabi le nekaj let, vendar so prispevale že ogromno pri našem razumevanju genske ekspresije in regulacije. Regulacija genske ekspresije je osnovna povezava genotipov s fenotipi. Sinteza RNA je močno nadzorovana in oblikuje kompleksne mreže genske ekspresije, ki vodijo biološke procese. Te mreže morajo biti robustne in plastične, da se lahko prilagajajo na okoljske in genetske spremembe. Za več kot 10 let so mikromreže omogočale simultan nadzor nivoja ekspresije vseh anotiranih genov v populaciji celic (Shalon in sod., 1996). Zmožnost analize celotnih programov genske ekspresije je odprlo nova obzorja razumevanja globalnih procesov regulacije genske ekspresije. Zavedanje, da RNA prepisana iz nekodirajočih delov genoma igra ključno vlogo, je omogočilo dragocen vpogled v transkriptomiko. Za razvojem tehnik mikromrež so pri različnih ogranizmih pokazali, da je bila kompleksnost transkriptoma zelo podcenjena (Wang in sod., 2009). To je bil čas, ko so na trg vstopile nove generacije sekvencioniranja. Te platforme omogočajo hitro in poceni sekvenciranje ogromnih količin podatkov. Kljub temu, da je bilo direktno sekvencioniranje cDNA knjižnic doseženo že s SAGE (Velculescu in sod., 1995) in MPSS (Brenner in sod., 2000), so NGS bolj direktne in cenejše. Takrat se je rodil RNA-seq. Na NGS trgu trenutno prevladujejo tri platforme: FLX-pirosekvenciranje (454 Roche), Illumina genome analyser in ABI SOLiD. Na vseh treh platformah so DNA fragmenti sekvencirani paralelno. Takšen način proizvede veliko število relativno kratkih odčitkov. Dolžine so v rangu od 30-100 baznih parov pri Illumini in SOLiD-u ter do 200-500 baznih parov pri FLX-u. Pomembno je poudariti, da se te tehnologije razvijajo zelo hitro z večanjem števila in dolžine posameznih odčitkov. Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 3 Kljub tehnološkim razlikam med posameznimi napravami vse tri temeljijo na enakem procesu dela za produkcijo, analizo in sekvenciranje knjižnic. Najprej mora biti vzorec DNA razrezan, da doseže velikost, ki je kompatibilna s sekvenciranjem (običajno manj kot 500 bp). Naslednji korak je pritrditev DNA adapterjev, ki vsebujejo unikatne sekvence, na oba konca razrezane DNA molekule. Adapterji omogočajo, da so DNA fragmenti posamezno ločeni med seboj in pritrjeni na pretočno celico (angl. flowcell) ali v emulgiranih kapljicah pritjeni na mikro kroglice (angl. beads). DNA fragmenti so nato vzporedno sekvencirani. Ključen korak pri RNA sekvenciranju je priprava cDNA knjižnice. Najbolj enostaven način je sinteza dvoverižne cDNA, na katero so nato pritrjeni adapterji. Takšen protokol se je uporabljal tudi pri sekvenciranju genomske DNA in je bil uporabljen tudi pri začetnih RNA-seq študijah. Slika 1: Shematski prikaz tipičnega RNA-seq eksperimenta (Marguerat in Bähler, 2010) NGS tehnologije izkoriščajo oddano svetlobo, ki nastane, ko se nukleotid (oz. oligonukleotid v primeru SOLiD) pritrdi na matrico. Podatki pri NGS so torej posnetki oddane svetlobe v vsaki vzporedni sekvenčni reakciji v vsakem ciklu sekvenciranja. Posnetki predstavljajo terabajte podatkov, ki jih je potrebno za vsako vzporedno reakcijo, za vsako bazo posebej, pretvoriti v Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 4 numerični signal. RNA-seq podatki so po svoji naravi števni in digitalni. Zanesljivost RNA-seq podatkov je v veliki meri odvisna od pravilnega mapiranja sekvenčnih odčitkov na ustrezne referenčne genome ali od učinkovitega de novo sestavljanja. Mapiranje odčitkov z veliko zanesljivostjo in visokim izkoristkom pa se sooča tudi s številnimi izzivi. Omejujoč dejavnik pri mapiranju so omejeni računalniški viri, ki so potrebni za sestavljanje ogromnega števila majhnih odčitkov. Druga težava je tudi visoka stopnja napak pri rezultatih sekvenciranja. Da lahko dejansko ločimo med SNP (ki nas zanimajo pri alelno specifičnih ekspresijah v RNA-seq podatkih) in napako pri sekvenciranju, je potrebna ustrezna pokritost sekvenciranja vsake baze (angl. higher sequencing depth), kjer je ista baza sekvencirana večkrat. Tretji izziv in hkrati tudi ena izmed najbolj zanimivih značilosti RNA-seq podatkov je zaznava odčitkov, ki vsebujejo post-traskripcijsko spremenjene ali preurejene sekvence, ki se jih ne da direktno mapirati na referenčni genom (Marguerat in Bähler, 2010). 3 POST-TRANSKRIPCIJSKA REGULACIJA GENOV Post-transkripcijska regulacija je ključen del genske ekspresije, ki pa se po pomembnosti in prefinjenosti lahko enači z nadzorom transkripcije. Vključuje alternativni izrez, poliadenilacijo, RNA urejanje, RNA degradacijo in translacijo. Izključno z nadzorom translacije, med te procese spada sprememba strukture ali sekvence transkripta. Kot rezultat teh procesov se torej sekvence procesirane RNA bistveno razlikujejo od ustreznih genomskih sekvenc. Razumevanje posttranskripcijskih procesov se izboljšuje, vendar še nismo sposobni napovedati dogodkov mRNA procesiranja samo na osnovi genomske sekvence. RNA-seq je zelo primeren za študije mRNA procesiranja, saj ustvarja podatke iz sekvence transkripta v knjižnico, ki je neodvisna od genomske sekvence organizma. Pri primeru alternativnega izreza je pridobivanje odčitkov, ki vsebujejo nesosednje sekvence odvisno samo od primerne strategije mapiranja. V enem izmed pristopov, kjer se niz odčitkov pri mapiranju ne ujema z referenčnim genomom, so odčitki lahko uspešno mapirani s pomočjo referenčne knjižnice, ki vsebuje vse predvidene stike mest ekson-ekson. Sekvenčni odčitki, ki so mapirani preko ekson-ekson stika (angl. transread), so pokazatelj za post-transkripcijske preureditve. Kljub enostavnemu in fleksibilnemu pristopu, pa nastanejo težave, ko se pojavijo novi, ne-anotirani spojitveni stiki (angl. splice junctions). Alternativo za mapiranje bi lahko predstavljala referenčna sekvenčna knjižnica vseh možnih spojitvenih stikov namesto vseh poznanih spojitvenih stikov. Ta pristop bi omogočal odkrivanje novih alternativnih izrezov. V drugem pristopu lahko pri mapiranju sekvenčnih odčitkov dopuščamo vrzeli pri poravnavi ali pa odčitke razdelimo na dva ločena dela pred mapiranjem obeh polovic nazaj na referenčni genom. Če polovici nista poravnani ena ob drugi po mapiranju, to kaže na post-transkripcijsko preureditev ali alternativni izrez. Ta pristop je lahko Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 5 zelo uporaben, saj ne potrebuje nikakršne genomske anotacije. Za zanesljivo mapiranje so, kljub temu da so razdeljeni na dva dela, potrebni sekvenčni odčitki. Število odčitkov, ki segajo preko stikov dveh eksonov nam, poleg mapiranja mest posttranskripcijskih preureditev, pove tudi stopnjo različnih transkripcijskih izooblik. Četrta strategija uporablja prednosti, ki jih prinaša tako imenovano sekvenciranje parnih koncev (angl. paired-end). Naprave za določanje zaporedja naslednje generacije sekvenciranja (NGS) omogočajo sekvenciranje obeh koncev vsakega DNA fragmenta v knjižnici. Sekvenčne podatke torej sestavljata dva sekvenčna odčitka za vsak DNA fragment. Dolžina med obema odčitkoma je načeloma enaka kakor velikost fragmenta v knjižnici (Korbel in sod., 2007). Za analizo posttranskripcijskih preureditev z RNA-seq se upošteva dolžina med obema odčitkoma fragmenta. V kolikor je dolžina krajša ali daljša od tiste v knjižnici, to nakazuje na preureditev. Ta način pa za razliko od prvih treh načinov ne omogoča direktnega mapiranja vsake baze na stiku, kjer dobimo točne koordinate, na katerih poteče alternativni izrez ali preureditev (Marguerat in Bähler, 2010). 4 ANALIZA ALTERNATIVNEGA IZREZA Analiza alternativnega izreza intronov z RNA-seq je bila pred kratkim opravljena na več človeških tkivih (Wang in sod., 2008; Pan in sod., 2008) in celičnih linijah (Wang in sod., 2008). Zmožnost vzorčenja vsake možne izooblike alternativnega izreza je odkrila veliko večje število alternativnega izreza v človeških tkivih kot je bilo prej predvidevano. Alternativni izrez poteče kar v 95 % vseh človeških več eksonskih genih, če upoštevamo tkivno specifične gene. Najpogostejša regulacija pri tem pa je izpuščanje eksonov (Wang in sod., 2008; Pan in sod., 2008). Ti rezultati bistveno povečajo prejšnje ocene, ki so predvidevale, da izrez poteče v približno dveh tretjinah človeških genov (Johnson in sod., 2003, cit. po Marguerat in Bähler, 2010). Pri 92 % vseh genov ima najpogostejša izooblika relativno frekvenco pojavljanja nad 15 %, kar pomeni, da v večini primerov več izooblik istega traskripta doseže visoke ravni izražanja (Wang in sod., 2008). Alternativni izrez mRNA omogoča nastajanje velikega števila produktov genov z različnimi funkcijami iz ene same kodne sekvence. Ta mehanizem omogoča nastajanje višje stopnje raznolikosti (Brett in sod., 2001). Nepričakovano nizko število prepoznanih genov pri človeku postavlja vprašanje o izvoru kompleksnosti organizma (Venter in sod., 2001, cit. po Brett in sod., 2001). Eden izmed vzrokov večje kompleksnosti človeških genov (modularnosti) v primerjavi z ostalimi večceličnimi organizmi, je višja stopnja regulacije genov in poti. Drug vir bi lahko bile post-translacijske modulacije. Poznanih je več kot 200 različnih vrst, ob tem pa predvidevajo, da za vsak človeški gen obstajajo trije različni prilagojeni proteini z različnimi funkcijami. Alternativni izrez pri Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 6 človeških genih lahko pripomore k večjemu številu proteinov na posamezni gen (Brett in sod., 2001). V prvi študiji, ki je analizirala kompleksnost alternativnega izreza v človeških tkivih z mRNAseq, so ugotovili, da pri prib. 95 % več eksonskih genov poteče alternativni izrez in pri tem nastane prib. 100.000 intermediatov v človeških tkivih. Kot tehnika je bila uporabljena povezava RNA-seq z EST-cDNA sekvenčnimi podatki. Alternativni izrez se obravnava kot ključni faktor za povečano celično in funkcionalno kompleksnost v višjih evkariontih (Matlin in sod., 2005; Blencowe, 2006; Ben-Dov in sod., 2008). Pri analizi alternativnega izreza z mikročipi in EST-cDNA sekvenčnimi podatki je bilo predvideno, da dve tretjini človeških genov vsebuje eno ali več alternativno izrezanih eksonov (Pan in sod., 2008). Za oceno kompleksnosti alternativnega izreza v človeških tkivih so bili v študiji (Pan in sod., 2008) uporabljeni mRNA-seq podatki iz celotnih možganov, možganske skorje, srca, skeletnih mišic, pljuč in jeter. V teh tkivih se je iskalo že znane in nove primere. Stične sekvence, ki so določene kot znane so tiste, ki so bile podprte z analizo poravnave EST in cDNA sekvenc. Podatkovno rudarjenje v 15.702 UniGene gručah z več eksoni, kjer vsaka vsebuje enega ali več lokusno-specifičnih Refseq cDNA, je podalo rezultate o 257.257 že znanih mestih stika eksonov in 2.459.306 kandidatnih novih mestih stika eksonov. Pri povečani stopnji pokritosti zaporedja (16 do >500 branj na 100 nukleotidov), je bil alternativni izrez zaznan pri 92 % - 97 % genov z več eksoni. To pomeni znatno povečanje v primerjavi s prejšnjo oceno, da pri 74 % genov z več eksoni poteče eden ali več alternativnih izrezov. V vsakem primeru je bilo ugotovljeno, da je bilo bistveno več stikov najdenih le v enem tkivu, kar kaže na tkivno specifične variacije alternativnega izreza oz. tkivno omejene alternativne izreze. S primerjavo novo odkritih stikov med posameznimi tkivi je bilo tudi ugotovljeno, da je večji del enakih stikov v skeletni mišici in srcu ter možganih in možganski skorji kot v drugih parih tkiv (Pan in sod., 2008). 5 REGULACIJA ALTERNATIVNEGA IZREZA IN IZOOBLIK Tkivno specifični alternativni izrez je ponavadi reguliran s kombinacijo tkivno-specifičnih in izraženih RNA-vezavnih faktorjev, ki so v interakciji z cis-delujočimi RNA elementi in vplivajo na spajalno telesce (angl. spliceosom) v območju mest izreza. Veliko faktorjev lahko zavre ali aktivira izrez. Za detekcijo izooblik je poleg pravilnega mapiranja RNA-seq podatkov potrebno poznati tudi dogodke alternativnega izreza, da lahko pri mapiranju sekvenc stikov pravilno predvidevamo Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 7 izooblike. Vsak od teh dogodkov alternativnega izreza proizvede več izooblik mRNA. Poznamo 8 različnih dogodkov, po katerih poteče alternativni izrez intronov (Slika 2). Pri medsebojni izključitvi eksonov (MXE) transkripti vsebujejo enega ali drugega od alternativnih eksonov, vendar nikoli oba. Pri preskoku eksona gre preprosto za preskok vključitve eksona v transkript. Tretji način je ohranitev introna v zreli mRNA molekuli. Vključeno je tudi alternativno 5’ izrezno mesto (A5SS) ter alternativno 3’ mesto (A3SS). Pri tandemski 3’ neprepisani regiji (tandem 3’ UTR) in alternativnemu zadnjemu eksonu (ALE) gre za izooblike, ki imajo daljšo ali krajšo 3’ UTR mesto. Zadnja pa je alternativni prvi ekson (AFE), pri katerem alternativni promotor na začetku gena vpliva na mRNA izooblike z različnim 5’ UTR mestom. Slika 2: Shematski prikaz dogodkov alternativnega izreza (Wang in sod., 2008) Da bi ocenili tkivno regulirano alternativno izrezovanje, je bilo pridobljenih približno 105.000 dogodkov alternativnega izreza na podlagi dostopnih človeških cDNA in EST podatkov. Odčitki, ki so podpirali obe alternativni izoobliki, so se pojavili v več kot tretjini teh dogodkov. Največkrat se je pojavil preskok enega eksona, najmanjkrat pa ohranitev introna. Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 8 Znanje kje se nahajajo odčitki mest spajanja ekson-ekson in mest, ki padejo v specifično regijo izooblik, lahko pripomore k identificiranju novih izooblik. Teoretično jih lahko s pomočjo statistike napovemo, glede na dolžino odčitkov na posemeznih prelomih in določeno število neusklajenosti pri poravnavi. Podatki pridobljeni iz RNA-seq omogočajo neposredno zaznavanje dogodkov alternativnega izreza. Odčitki so mapirani na spojitveni stik iz česar lahko sklepamo o novih izooblikah ter potrdimo že znane. Veliko vlogo pri celovitem pristopu in zanesljivem določanju izooblik ima tudi pokritost sekvenciranja (ang. sequencing depth). Večja kot je globina sekvenciranja in pokritost sekvenciranja, natančnejši so podatki (Wang in sod., 2008). 6 ODKRIVANJE IZOOBLIK Za odkrivanje dogodkov alternativnega izreza so razvite tudi metode, ki kot vir podatkov uporabljajo že obstoječe knjižnice in RNA-seq podatke. Pogoj za takšno analizo je vnaprej znana porazdelitev odčitkov vzdolž transkriptov. Statistična metoda z imenom CASI (Cell type-specific Alternative uSage Index) napove dogodke alternativnega izreza znotraj celične linije. Rezultat je podan za vsak ekson posebej. Metoda POEM (PrOportion EstiMation) omogoča relativno kvantifikacijo že znane transkripcijske strukture v posamezni celični liniji. Tretja metoda pa se imenuje DASI (Differential Alternative uSage Index), ki napove razlikovanje med dvema celičnima linijama. Takšno teoretično napovedovanje in ocenjevanje dogodkov alternativnega izreza se lahko povratno preveri z RT-PCR metodo, ki zazna dolžine in količino posamezne izooblike, ki nastane po alternativnem izrezu. CASI v večini primerov potrebuje vsaj dva transkripta na posamezen gen, medtem ko DASI lahko predvidi variacije s samo enim transkriptom. Rezultati POEM metode so se izkazali v dobri povezavi s qPCR rezultati (Richard in sod., 2010). Pri praktičnem odkrivanju izooblik mRNA prevladujeta dva algoritma, ki omogočata sestavljanje RNA-seq odčitkov v različne transkripte oz. izooblike. Imenujeta se TopHat in Cufflinks. Programa sta brezplačna ter odprtokodna in sta močno orodje za odkrivanje tako dogodkov alternativnega izreza kakor tudi genskega izražanja. Omogočata odkrivanje novih genov, izooblik mRNA, transkripcijskega izražanja ter primerjavo slednjih med različnimi celičnimi linjami ali tkivi (Trapnell in sod., 2012). Velika slabost RNA-seq je, da so odčitki občutneje krajši kot pri Sangerjevi tehniki sekvenciranja. Ker so odčitki kratki, je pri mapiranju potrebne veliko več računalniške moči. Prva stopnja pri strategijah mapiranja je poravnava odčitkov z že znanim eksonom za posamezne gene. Kadar se odčitek ne prilega na ekson in je ta del sekvence na stiku introna in eksona, se ta odčitek ne bo poravnal in bo program to zaznal kot napako pri poravnavi. To težavo so rešili na način, da Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 9 so povezali sekvence sosednjih eksonov in ustvarili sintetične fragmente h katerim so se lahko poravnali odčitki, ki se prej niso mogli na genomsko karto. V kolikor se takšen odčitek poravna ob sintetičen fragment, ta predstavlja mesto spajanja med znanima eksonoma. S tem lahko na začetku identificiramo odčitke, ki prekrivajo mesta spajanja. Takšna strategija pa predstavlja velik računalniški izziv, saj gre za delo z zelo kratkimi odčitki. Ena izmed novih metod za mapiranje odčitkov uporablja tudi strojno učenje za odkrivanje mest spajanja. Imenuje se QPALMA in za učenje potrebuje že znana mesta spajanja iz referenčnega genoma. 6.1 TOPHAT TopHat je programski paket, ki identificira mesta izreza ab initio z mapiranjem RNA-seq odčitkov. Postopek delovanja algoritma je prikazan spodaj (Slika 3). TopHat mapira odčitke s stopnjo ~2,2 milijona odčitka na CPU uro. Namesto filtriranja možnih mest izreza s shemo točkovanja, TopHat najprej mapira odčitke, ki se nahajajo znotraj eksona. Pri tem uporablja izredno hiter Bowtie algoritem mapiranja, ki se uporablja tudi za poravnavanje genomskih DNA fragmentov. TopHat najde mesta spajanja z mapiranjem odčitkov na referenčni genom v dveh fazah. V prvi fazi z Bowtie poravna vse odčitke na referenčni genom. Vsi odčitki, ki se pri tem koraku ne mapirajo, so pospravljeni "na stran" kot začetni nemapirani odčitki (angl. IUM - initially unmaped reads). Po prvem koraku mapiranja, TopHat poravna mapirane odčitke. Rezultat poravnave so soseske zaporedja (ang. contiguous sequences), ki so bile zložene iz raztresenega konsenza odčitkov. Za te soseske sklepamo, da so eksoni. Za vse napačne baze na regijah s šibko pokritostjo odčitkov, se uporabijo baze referenčnega genoma. Na vsaki strani eksona, kjer se nahajajo mesta spajanja eksonov, se predvideva, da tudi manjka del sekvence. TopHat v tem primeru robne dele nadomesti s sekvencami referenčnega genoma. Znotraj eksona se zaradi šibke pokritosti lahko pojavijo tudi vrzeli, ki pa jih TopHat ne zazna kot mesta spajanja, če niso daljše od 6 bp. Običajno pri sesalskih eksonih introni niso krajši kot 70 bp. TopHat nato označi vsako prepoznano donorsko ali akceptorsko mesto znotraj sosednih regij. Za tem obravnava vsa možna parjenja teh mest znotraj sosednjih regij. Nato poskuša ugotoviti, če bi se med njih lahko vrinili prepoznani introni. TopHat upošteva samo introne daljše kot 70 bp in krajše kot 20.000 bp. Vsak tako predviden intron je nato primerjan z IUM odčitki, ki bi se nahajali v mestih spajanja. Robne sekvence potencialnih donorskih in akceptorskih mest izreza znotraj sosednjih regij so nato združene. IUM odčitki so zatem poravnani na sekvence mest spajanja. TopHat je zmožen hitrega odkrivanja novih mest izreza in novih izooblik mRNA. Za celotno zbirko podatkov iz enega RNA-seq, je TopHat potreboval le en dan dela na običajnem računalniku. TopHat je uporaben tudi za odkrivanje mest spajanja eksonov pri nizkih stopnjah transkripcije. V prihodnosti pa lahko s pair-end odčitki pričakujemo še lažje delo za TopHat in še Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 10 bolj natančne podatke. Detekcija mest spajanja se bo povečala in napake se bodo zmanjšale. V prihodnosti pa meri tudi na večjo resolucijo in sicer do ene baze natančno določitev eksonov. Na sedanji stopnji razvoja pa s TopHat ni mogoče zajeti mikroeksonov. TopHat je implementiran v C++ in Python programski jezik in se ga lahko uporablja na Linux ali Mac OS X platformi (Trapnell in sod., 2009). Slika 3: Shematski prikaz algoritma TopHat (Trapnell in sod., 2009) Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 11 6.2 CUFFLINKS Cufflinks algoritem (Slika 4) kot izvorne podatke uporabi cDNA fragmente, ki so bili poravnani na genom s programsko opremo, ki je sposobna v to poravnavo že upoštevati izrezane dele. Primer takšne programske opreme je že prej opisani TopHat. Algoritem ločeno sestavi snope poravnanih fragmentov (ang. bundles), ki se med seboj prekrivajo. Ločeno sestavljanje poteka zaradi zmanjšanja časa procesiranja in porabe računalniškega spomina. Cufflinks nato oceni množino združenega transkripta. Prvi korak pri združevanju fragmentov je prepoznavanje parov nezdružljivih fragmentov, ki izhajajo iz različnih mRNA izooblik. Fragmenti so povezani v graf prekrivanja (ang. overlaping graph), ko so združljivi in se njihove poravnave prekrivajo z genomom. Vsak fragment ima eno vozlišče in na vsaki strani rob, ki se prekriva z združljivim fragmentom, vse vzdolž celotnega genoma. Poti vzdolž celotnega grafa predstavljajo nize sorodnih in združljivih fragmentov, ki so lahko povezani v celotne izooblike. Dilworthov teorem pravi, da število sorodnih nezdružljivih fragmentov predstavlja najmanjše število transkriptov potrebnih za zajetje vseh fragmentov. Cufflinks dokazuje in uporablja Dilworthov teorem, ki proizvaja najmanjši niz poti, ki zajemajo vse fragmente v grafu prekrivanja, na ta način, da najde največji niz odčitkov, od katerih niti dva ne moreta izvirati iz iste izooblike. Fragmenti so nato povezani v transkripte iz katerih bi lahko izvirali. Cufflinks nato oceni množino transkriptov s pomočjo statističnega modela. Če gre za sekvenciranje parnih koncev, imajo fragmenti sekvencirane le konce, kar pomeni, da dolžina posameznega ni znana. Cufflinks si z distribucijo dolžin fragmentov pomaga določiti posamezne fragmente k izooblikam. Nazadnje program določi verjetnost za vse možne nize množin posameznih izooblik in jih prikaže v grafu (Trapnell in sod., 2010). Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 Slika 4: Shematski prikaz algoritma Cufflinks (Trapnell in sod., 2010) 12 Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 13 7 ZAKLJUČEK RNA-seq se je, zahvaljujoč novim metodam sekvenciranja, izkazalo kot zelo močno in natančno orodje za raziskovanje transkriptoma. Glede na hitrost razvoja novih tehnologij sekvenciranja v zadnjih letih, smo lahko prepričani v še hitrejši razvoj v prihodnosti. Metoda RNA-seq je pripomogla k večjemu zavedanju kako kompleksen je transkriptom in kako potekajo mehanizmi, ki uravnavajo transkripcijo. Predvsem pa je omogočila bolj natančen pogled v transkriptomiko. Alternativni izrez intronov poteka v veliki večini evkariontskih več eksonskih genov. Ta mehanizem omogoča večjo kompleksnost organizma. Pri alternativnem izrezu nastajajo različne izooblike mRNA molekul iz enega gena. Na ta način nastaja veliko več končnih proteinskih produktov kot je genov. Za odkrivanje novih izooblik se raziskovalci poslužujejo relativno novih orodij. Nove izooblike se lahko napove s statistično analizo, brez eksperimentalnih podatkov, lahko pa izooblike določimo s pomočjo dveh računalniških algoritmov: TopHat in Cufflinks. Ker v prihodnosti lahko pričakujemo daljše odčitke po sekvenciranju, se bo tudi čas za analizo z algoritmi in za sestavljanje transkriptov skrajšal. Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 14 8 VIRI 8.1 CITIRANI VIRI Ben-Dov C., Hartmann B., Lundgren J., Valcarcel J. 2008. Genome-wide Analysis of Alternative Pre-mRNA Splicing. The Journal of Biological Chemistry, 283: 1229-1233 Blencowe B. J. 2006. Alternative Splicing: New Insights from Global Analyses. Cell, 126: 37-47 Brenner S., Johnson M., Bridgham J., Golda G., Lloyd D. H., Johnson D., Luo S., McCurdy S., Foy M., Ewan M., Roth R., George D., Eletr S., Albrecht G., Vermaas E., Williams S. R., Moon K., Burcham T., Pallas M., DuBridge R. B., Kirchner J., Fearon K., Mao J., Corcoran K. 2000. Gene expression analysis by massively parallel signature sequencing (MPSS) on microbead arrays. Nat Biotechnol, 18: 630–634 Brett D., Pospisil H., Valcárcel J., Reich J., Bork P. 2002. Alternative splicing and genome complexity. Nature Genetics, 30: 29-30 Korbel J. O., Urban A. E., Affourtit J. P., Godwin B., Grubert F, Simons J. F., Kim P. M., Palejev D., Carriero N. J., Du L., Taillon B. E., Chen Z., Tanzer A., Saunders A. C. E., Chi J., Yang F., Carter N. P., Hurles M. E., Weissman S. M., Harkins T. T., Gerstein M. B., Egholm M., Snyder M. 2007. Paired-end mapping reveals extensive structural variation in the human genome. Science, 318: 420–426 Maniatis T., Tasic B. 2002. Alternative pre-mRNA splicing and proteome expansion in metazoans. Nature, 418: 236-243 Marguerat S., Bähler J. 2010. RNA-seq: from technology to biology. Cellular and Molecular Life Sciences, 67: 569-579 Matlin A. J., Clark F., Smith C.W. 2005. Understanding alternative splicing: towards a cellular code. Nature Reviews Molecular Cell Biology, 6: 386–398 Pan Q., Shai O., Lee L. J., Frey B. J., Blencowe B. J. 2008. Deep surveying of alternative splicing complexity in the human transcriptome by high-throughput sequencing. Nature Genetics, 40: 1413-1415 Richard H., Schulz M. H., Sultan M., Nürnberger A., Schrinner S., Balzereit D., Dagand E., Rasche A., Lehrach H., Vingron M., Hass S. A., Yaspo M. 2010. Prediction of alternative Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 15 isoforms from exon expression levels in RNA-Seq experiments. Nucleic Acids Research, 38, 10: 1-15 Shalon D., Smith S. J., Brown P. O. 1996. A DNA microarray system for analyzing complex DNA samples using two-color fluorescent probe hybridization. Genome Res, 6: 639-645 Trapnell C., Pachter L., Salzberg S. L. 2009. TopHat: discovering splice junctions with RNASeq. Bioinformatics, 25, 9: 1105-1111 Trapnell C., Roberts A., Goff L., Pertea G., Kim D., Kelley D. R., Pimentel H., Salzberg S. L., Rinn J. L., Pachter L. 2012. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nature Protocols, 7, 3: 562-578 Trapnell C., Williams B. A., Pertea G., Mortazavi A., Kwan G., van Baren M. J., Salzberg S. L., Wold B. J., Pachter L. 2010. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nature Biotechnology, 28, 5: 511-515 Velculescu V. E., Zhang L., Vogelstein B., Kinzler K. W. 1995. Serial analysis of gene expression. Science, 270: 484-487 Wang Z., Gerstein M., Snyder M. 2009. RNA-Seq: a revolutionary tool for transcriptomics. Nat Rev Genet, 10: 57-63 Wang E. T., Sandberg R., Luo S., Khrebtukova I., Zhang L., Mayr C., Kingsmore S. F., Schroth G. P., Burge C. B. 2008. Alternative isoform regulation in human tissue transcriptomes. Nature, 456: 470-476 8.2 DRUGI VIRI Costa V., Angelini C., De Feis I., Ciccodicola A. 2010. Uncovering the Complexity of Transcriptomes with RNA-Seq. Journal of Biomedicine and Biotechnology, 2010: 1-19 Jain M. 2011. Next-generation sequencing technologies for gene expression profiling in plants. Briefings In Functional Genomics, 2, 1: 63-70 Maniatis T., Tasic B. 2002. Alternative pre-mRNA splicing and proteome expansion in metazoans. Nature, 418: 236-243 Ozsolak F., Milos P. M. 2010. RNA sequencing: advances, challenges and opportunities. Nature Reviews Genetics, 12: 87-98 Kranjc N., Analiza alternativnega izreza intronov za detekcijo izooblik mRNA z metodo sekvenciranja RNA. Dipl. seminar (UN). Ljubljana, Univ. v Ljubljani, Biotehniška fakulteta, Študij biotehnologije, 2012 ZAHVALA Na prvem mestu bi se rad zahvalil mentorju doc. dr. Jerneju Jakšetu za priložnost opravljanja diplomskega seminarja pod njegovim mentorstvom. Zahvalil bi se mu tudi za vso pomoč pri iskanju literature ter pri prevajanju strokovnih izrazov, podajanju napotkov za pisanje in za hiter odziv pri nastalih težavah. Rad bi se zahvalil tudi vsem prijateljem in sošolcem za pomoč ter vzpodbudo pri pisanju diplomskega seminarja.