Bioinformatiikan perusteet
Transcription
Bioinformatiikan perusteet
Bioinformatiikan perusteet Bioinformatiikan perusteet Jarno Tuimala Tieteen tietotekniikan keskus CSC Tämän teoksen tekijänoikeudet kuuluvat Jarno Tuimalalle ja Tieteellinen Laskenta OY:lle. Teoksen tai osia siitä voi kopioida vapaasti henkilökohtaiseen käyttöön sekä Suomen yliopistojen ja korkeakoulujen kurssikäyttöön edellyttäen, että kopioon tai tulosteeseen merkitään tämä ilmoitus teoksen tekijästä ja tekijänoikeuksista. Teosta ei saa myydä, lainata, vuokrata, tai sisällyttää osaksi muita teoksia ilman tekijän lupaa, mahdolliset kirjastokappaleet poislukien. Myös kirjan jakaminen digitaalisesti ilman tekijän lupaa on kielletty. c Jarno Tuimala ja CSC – Tieteellinen laskenta Oy 2003 1. painos ISBN 952-5520-08-0 http://www.csc.fi/oppaat/bioinfo/ Painopaikka: Picaset Oy Helsinki 2005 Bioinformatiikan perusteet 5 Esipuhe Alunperin bioinformatiikalla on tarkoitettu biologisten sekvenssiaineistojen käsittelyä tietokoneavusteisin menetelmin. Sittemmin bioinformatiikkaan on alettu lukea monia muitakin biologisessa tutkimuksessa keskeisiä sovellusaloja, kuten geenikartoitus ja molekyylimallitus. Bioinformatiikka on viime vuosina noussut keskeiseksi tutkimusalaksi. Kehitystä on vauhdittanut erityisesti tietokoneiden nopeutuminen ja halpeneminen. Huolimatta alan nopeasta kehityksestä, ei oppikirjoiksi soveltuvia suomenkielisiä teoksia ole julkaistu. Tämän kirjan tarkoituksena on paikata tuota kirjallisuudessa ammottavaa aukkoa. Tässä Bioinfomatiikan perusteet -kirjan laajassa versiossa keskitytään erityisesti biologisten sekvenssiaineistojen käsittelyyn, ja uusia sovelluksia, kuten DNAsiruja, käsitellään lyhyesti. Tämä ei olekaan kattava kuvaus bioinformatiikan laajasta kentästä, vaan ennemminkin pyritään antamaan kuva, mitä bioinformatiikan menetelmillä voidaan saavuttaa. Teoriaosuuksissa on painotettu pääperiaatteita, joiden ei uskota vanhenevan muutamassa vuodessa. Kirjasta on saatavilla myös lyhyempi, painettu versio, jota voi tilata CSC:stä. Kirja on suunnattu lähinnä biologian ja sen lähitieteiden opiskelijoille ja tutkijoille. Mukaan on otettu jossain määrin myös menetelmien taustalla olevaa matematiikkaa. Tämän tarkoituksena on syventää teorian ymmärtämystä. Kirjaa alkaa yleisluontoisilla kappaleilla, joissa esitellään lyhyesti perusbiologiaa, laskennallisten menetelmien perusteita ja käsiteltävien menetelmien sovelluksia. Lisäksi yksittäiset luvut alkavat yleensä kattavammalla kuvauksella esiteltävien menetelmien käyttökohteista. Lukujen tiivistelmät on koottu erilliseksi luvuksi kirjan loppuun, jotta asioiden kertaaminen tiivistelmiä käyttäen olisi mahdollisimman yksinkertaista. Kirjan lopuksi esitellään keskeinen, yleensä englanninkielinen kirjallisuus ja annetaan joitakin tehtäviä lukijan ratkottavaksi. CSC on julkaissut erinomaisia kirjoja geenikartoituksesta, DNA-siruaineistojen analysoinnista ja monien kirjassa mainittujen ohjelmistojen käytöstä, joten näitä bioinformatiikan alueita käsitellään kirjassa lyhyesti tai ei lainkaan. Näistä menetelmistä kiinnostuneita lukijoita kehotetaan tutustumaan tarkemmin kirjoihin Geenikartoitusopas (2004) ja DNA microarray data analysis (2005). Painettuja kirjoja voi tilata CSC:stä, mutta ne ovat myös saatavilla PDF-muodossa Internetistä. Kiitän Taavi Hupposta, Jaakko Hyvöstä, Eija Korpelaista, Jyrki Muonaa ja Martti Tolvasta käsikirjoituksen rakentavasta ja tarkentavasta kommentoinnista. Kirjan ideamateriaalina on käytetty Pekka Uimarin Helsingin Yliopiston Biotieteiden laitoksella pitämän Geneettinen Bioinformatiikka -kurssin luentomateriaalia vuodelta 2002, joka kiitoksella huomioidaan. Kirjaan jääneet epätarkkuudet ja virheet ovat ainoastaan kirjoittajan aikaansaannoksia. Toivon, että kirjasta on iloa ja hyötyä niille, jotka haluavat tutustua bioinformatiikan kiehtovaan maailmaan. Palautetta voi lähettää sähköpostilla osoitteeseen [email protected]. Espoossa, 8.6.2005 6 Bioinformatiikan perusteet Tekijä Sisältö 7 Sisältö Esipuhe I 1 2 Johdanto 18 1.1 1.2 1.3 18 20 21 Mitä on bioinformatiikka? . . . . . . . . . . . . . . . . . . . Keitä bioinformaatikot ovat? . . . . . . . . . . . . . . . . . . Bioinformatiikan merkitys biologiassa . . . . . . . . . . . . . Laskennallisen biologian perusteet 22 Laskennalliset asiat ovat bioinformatiikassa keskeisiä Mikä on algoritmi? . . . . . . . . . . . . . . . . . . Kuinka nopea tietokoneohjelma on? . . . . . . . . . Kuinka paljon muistia ohjelma vaatii? . . . . . . . . NP-ongelmat . . . . . . . . . . . . . . . . . . . . . Rinnakkaislaskenta . . . . . . . . . . . . . . . . . . Dynaaminen ohjelmointi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 22 23 24 24 25 25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 27 27 28 28 29 29 Esiteltävien menetelmien sovellusalueet 3.1 3.2 3.3 3.4 3.5 3.6 3.7 II 4 17 Johdanto 2.1 2.2 2.3 2.4 2.5 2.6 2.7 3 5 Miksi esimerkkejä? . . . . . . . . . . . . Sekvenssien hankkiminen . . . . . . . . . Sekvenssien ominaisuuksien selvittäminen Kahden sekvenssin rinnastus . . . . . . . Usean sekvenssin rinnastus . . . . . . . . Molekyylisystematiikka . . . . . . . . . . SARS-epidemian selvittäminen . . . . . . 27 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sekvenssianalyysi 33 Sekvensointi ja DNA-sekvenssit 4.1 4.2 4.3 4.4 4.5 4.6 4.7 Sekvensointi . . . . . . . . . . . . . . . . . . . Yleiset sekvensointivirheet . . . . . . . . . . . Sekvenssin tallentaminen EMBL-tietokantaan . Sekvenssin tallentaminen omaan käyttöön . . . Tietopankeissa olevien sekvenssien luotettavuus Sekvensseistä genomiksi . . . . . . . . . . . . Genomin toiminnan selvittäminen . . . . . . . 34 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 34 37 37 39 39 40 8 Bioinformatiikan perusteet 4.8 5 Eri tyyppiset sekvenssit . . . . . . . . . . . . . . . . . . . . . Biotietokannat 42 5.1 Mitä tietokannat ovat? . . . . . . . . . . . . . 5.1.1 Flat file -tietokanta . . . . . . . . . . . . 5.1.2 Relaatiotietokanta . . . . . . . . . . . . 5.2 Mitä molekyylibiologiset tietokannat ovat? . . 5.3 Nukleotidisekvenssitietokannat . . . . . . . . 5.3.1 EMBL, GenBank ja DDBJ . . . . . . . . 5.3.2 RefSeq . . . . . . . . . . . . . . . . . . 5.3.3 UniGene . . . . . . . . . . . . . . . . . 5.3.4 Locuslink . . . . . . . . . . . . . . . . . 5.3.5 dbEST . . . . . . . . . . . . . . . . . . 5.4 Aminohapposekvenssitietokannat . . . . . . . 5.4.1 UniProt . . . . . . . . . . . . . . . . . . 5.4.2 SWISS-PROT . . . . . . . . . . . . . . 5.4.3 TrEMBL . . . . . . . . . . . . . . . . . 5.4.4 PIR . . . . . . . . . . . . . . . . . . . . 5.5 Yhdistelmätietokannat . . . . . . . . . . . . 5.6 Tunnistetietokannat . . . . . . . . . . . . . . 5.6.1 PROSITE . . . . . . . . . . . . . . . . . 5.6.2 PRINTS . . . . . . . . . . . . . . . . . . 5.7 Tunnisteiden yhdistelmätietokannat - InterPro 5.8 Genomitietokannat . . . . . . . . . . . . . . 5.8.1 Ensembl . . . . . . . . . . . . . . . . . 5.8.2 UCSC . . . . . . . . . . . . . . . . . . . 5.9 Rakennetietokannat . . . . . . . . . . . . . . 5.9.1 PDB . . . . . . . . . . . . . . . . . . . . 5.10 Julkaisutietokannat . . . . . . . . . . . . . . 5.10.1 PubMed . . . . . . . . . . . . . . . . . . 5.11 Miten käytän tietokantoja? . . . . . . . . . . 5.11.1 Mistä tietokannasta lähteä liikkeelle? . . 5.11.2 Asiasanahaku . . . . . . . . . . . . . . . 5.11.3 Sekvenssihaku . . . . . . . . . . . . . . 5.11.4 Tunnistenumerohaku . . . . . . . . . . . 5.12 Tunnistenumeroista . . . . . . . . . . . . . . 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 42 42 43 44 44 46 48 48 49 49 49 50 50 50 51 51 51 52 52 53 53 54 54 54 54 54 54 56 56 56 57 57 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 60 61 64 64 65 Aukkosakot 66 7.1 Nykyisin käytetyt aukkosakkomallit . . . . . . . . . . . . . . 66 Pisteytysmatriisit 6.1 6.2 6.3 6.4 6.5 6.6 7 8 40 Pisteytysmatriisit . . . . . . . . . PAM-matriisit aminohapoille . . . PAM-matriisien muodostaminen . BLOSUM-matriisit aminohapoille PAM- ja Blosum-matriisien erot . Muut aminohappomatriisit . . . . 59 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kahden sekvenssin rinnastus 68 8.1 8.2 68 68 Kahden sekvenssin rinnastusmenetelmät . . . . . . . . . . . . Mikä on sekvenssirinnastus? . . . . . . . . . . . . . . . . . . Sisältö 9 8.3 8.4 8.5 8.6 8.7 Sekvenssirinnastusten kuvaaminen tietokoneelle . . . . . . . . Rinnastuksen pistemäärän laskeminen . . . . . . . . . . . . . Pistematriisimenetelmä . . . . . . . . . . . . . . . . . . . . . Dynaaminen optimointi . . . . . . . . . . . . . . . . . . . . . Needleman-Wunsch-algoritmi . . . . . . . . . . . . . . . . . 8.7.1 Esimerkki Needleman-Wunsch-algoritmista . . . . . . . . 8.8 Smith-Waterman-algoritmi . . . . . . . . . . . . . . . . . . . 8.9 Esimerkki Smith-Waterman-algoritmitmista . . . . . . . . . . 8.10 Sekvenssirinnastuksen tilastollinen merkitsevyys . . . . . . . 8.10.1 Paikallisen sekvenssirinnastuksen tilastollinen merkitsevyys 8.10.2 Kokonaissekvenssirinnastuksen tilastollinen merkitsevyys 8.11 Rinnastuksen asetusten määrittäminen . . . . . . . . . . . . . 9 Sekvenssihaut 9.1 9.2 9.3 9.4 9.5 9.6 9.7 Sekvenssihaku on monille jokapäiväinen työkalu . Kuinka tietohakuja tehdään? . . . . . . . . . . . . BLAST . . . . . . . . . . . . . . . . . . . . . . . PSI-BLAST . . . . . . . . . . . . . . . . . . . . . PHI-BLAST . . . . . . . . . . . . . . . . . . . . . Sekvenssihaut Smith-Waterman-algoritmilla . . . . BLAST:n ja FastA:n Hakuparametrien asettamisesta 9.7.1 Rajoita haku vain kiinnostavaan tietokantaan . 9.7.2 Suodata hakusekvenssi . . . . . . . . . . . . . 9.7.3 Lyhyiden sekvenssien hakeminen . . . . . . . 9.7.4 Homologien tunnistaminen . . . . . . . . . . . 9.7.5 Eksonien määrittäminen . . . . . . . . . . . . 9.7.6 Pääsäännöt . . . . . . . . . . . . . . . . . . . 9.7.7 Suunnittele haut! . . . . . . . . . . . . . . . . 9.8 Pitkät sekvenssit - vaihtoehtoiset lähestymistavat . . 9.8.1 Uusi ratkaisu - PatternHunter . . . . . . . . . . 10 81 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 81 82 89 89 90 90 90 90 90 91 91 91 91 92 93 Mikä on usean sekvenssin rinnastus? . . . . . . . . . . . . . Usean sekvenssin rinnastus dynaamista optimointia käyttäen Progressiiviset menetelmät eli asteittain etenevät menetelmät 10.3.1 Clustal-perhe . . . . . . . . . . . . . . . . . . . . . . . 10.3.2 T-Coffeen menetelmä . . . . . . . . . . . . . . . . . . . 10.3.3 Muscle-menetelmä . . . . . . . . . . . . . . . . . . . . 10.4 Usean sekvenssin rinnastuksen pistemäärän laskeminen . . . 10.5 Iteratiiviset menetelmät . . . . . . . . . . . . . . . . . . . . 10.6 Proteiineja koodaavien DNA-sekvenssien rinnastaminen . . 10.7 Aminohapposekvenssirinnastuksen editointi käsin . . . . . . 10.8 Sekvenssirinnastuksen laadun arviointi . . . . . . . . . . . . 10.9 Clustal-perheen tekemiä tyypillisiä virheitä . . . . . . . . . . . . . . . . . . . . . . 94 95 96 96 99 102 103 103 104 104 105 105 Usean sekvenssin rinnastus 94 10.1 10.2 10.3 11 70 70 71 73 73 74 75 75 77 78 79 79 DNA-sekvenssin ominaisuuksien selvittäminen 11.1 11.2 11.3 11.4 11.5 Mitä DNA:sta voidaan selvittää? . . . . . . . . . . . Restriktioentsyymien katkaisukohtien löytäminen . . Nukleotidien ja kodonien runsaussuhteiden arviointi . DNA-sekvenssin translointi aminohapposekvenssiksi DNA:n käänteiskomplementarisointi . . . . . . . . . 108 . . . . . . . . . . . . . . . . . . . . . 108 . 108 . 110 . 110 . 111 10 Bioinformatiikan perusteet 11.6 11.7 11.8 11.9 12 Eksonien ja intronien määrittäminen Vaihtoehtoinen silmukointi . . . . . Promoottorialueen tunnistaminen . . Antisense-RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 111 114 118 Mitä aminohapposekvensseistä voidaan ennustaa? . . . . Aminohappokoostumuksen selvittäminen . . . . . . . . Sekundäärirakenteen ennustaminen . . . . . . . . . . . . 12.3.1 Coiled-coil alueiden tunnistaminen . . . . . . . . . 12.3.2 Hydrofobisten alueiden tunnistaminen . . . . . . . . 12.3.3 Sekundäärirakenteiden selvittäminen . . . . . . . . Chou-Fasman -menetelmä . . . . . . . . . . . . . . Lähimmän naapurin menetelmät . . . . . . . . . . . Neuroverkkomenetelmät . . . . . . . . . . . . . . . 12.4 Motiivien ja domeenien tunnistaminen . . . . . . . . . . 12.5 Translaation jälkeisten modifikaatiokohtien tunnistaminen 12.6 Rakenteiden rinnastaminen . . . . . . . . . . . . . . . . 12.6.1 SSAP-algoritmi . . . . . . . . . . . . . . . . . . . . 12.6.2 DALI-algoritmi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 120 120 120 121 122 122 124 124 126 126 126 127 128 Aminohapposekvenssin ominaisuuksien selvittäminen 120 12.1 12.2 12.3 III 13 Molekyylisystematiikka Johdatus molekyylisystematiikkaan 13.1 13.2 13.3 13.4 13.5 14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 130 134 137 138 Yksinkertaisen analyysin työvaiheet . . . . . . . . . . . Sekvenssien valinta . . . . . . . . . . . . . . . . . . . . Sisäryhmän valinta ja ulkoryhmän käyttö . . . . . . . . . Evolutiivisen mallin valinta ja sekvenssien rinnastaminen Analyysimenetelmän valinta . . . . . . . . . . . . . . . Tuloksen luotettavuuden arviointi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 142 143 145 146 147 142 Evoluutiomallit 15.1 15.2 15.3 15.4 15.5 15.6 16 130 Mitä molekyylisystematiikka on? . . . . . Fylogeneettinen puu . . . . . . . . . . . . Lajien ja tuntomerkkien evoluutio . . . . Lajit luokitellaan monofyleettisiin ryhmiin Molekyylisystematiikan suuntaukset . . . Tavanomaisen analyysin eteneminen 14.1 14.2 14.3 14.4 14.5 14.6 15 129 148 Mikä on evoluutiomalli? . . . . . . . . . . . . . Mihin evoluutiomallia käytetään? . . . . . . . . . Aminohapposekvensseille sopivat evoluutiomallit DNA-sekvensseille soveltuvat evoluutiomallit . . Parsimoniamenetelmä ja evoluutiomalli . . . . . Aukkokohtien käsittely . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 148 149 151 155 156 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 158 158 159 Etäisyysmenetelmät 16.1 16.2 Mitä etäisyysmenetelmät ovat Ultrametriset puut . . . . . . 16.2.1 UPGMA ja WPGMA . . 16.3 Additiiviset puut . . . . . . . 158 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sisältö 11 16.3.1 Minimievoluutiomenetelmä . . . . . . . . . . . . . . 16.3.2 Neighbor-joining . . . . . . . . . . . . . . . . . . . . 16.4 Pienimmän neliösumman menetelmät . . . . . . . . . . . 16.5 Molekyylisystematiikka ja etäisyysmenetelmät . . . . . . . 16.6 Etäisyyspuun luotettavuuden arviointi . . . . . . . . . . . 16.7 Molekyylikello-oletuksen testaaminen etäisyysmenetelmin 16.8 Laskennalliset esimerkit . . . . . . . . . . . . . . . . . . . 16.8.1 Parittaisten etäisyyksien laskeminen . . . . . . . . . . 16.8.2 Puun muodostaminen UPGMA-menetelmällä . . . . . 17 . . . . . . . . . 159 160 160 161 161 162 162 162 163 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 168 169 171 174 175 175 179 179 180 180 182 183 183 184 186 187 187 188 Parsimoniamenetelmä 168 17.1 17.2 17.3 17.4 Mikä on parsimoniamenetelmä? . . . . . Parsimoniapuun muodostamisen periaate . Hennigin argumentaatio . . . . . . . . . . Wagnerin menetelmä . . . . . . . . . . . 17.4.1 Wagnerin kaava . . . . . . . . . . . . 17.5 Optimaalisuuskriteeri . . . . . . . . . . . 17.5.1 Wagnerin optimaalisuuskriteeri . . . 17.5.2 Fitchin optimaalisuuskriteeri . . . . . 17.5.3 Dollon optimaalisuuskriteeri . . . . . 17.5.4 Camin-Sokalin optimaalisuuskriteeri 17.5.5 Yleistetty optimaalisuuskriteeri . . . 17.6 Lyhyimmän mahdollisen puun etsintä . . 17.7 Muodostettujen puiden kuvailu ja vertailu 17.7.1 Puun pituus . . . . . . . . . . . . . . 17.7.2 Yhdenmukaisuusindeksi . . . . . . . 17.7.3 Synapomorfiaindeksi . . . . . . . . . 17.7.4 Muokattu yhdenmukaisuusindeksi . . 17.7.5 Indeksien ongelmista . . . . . . . . . 17.8 Ominaisuuksien painotus analyysissä . . . 18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Suurimman uskottavuuden menetelmä ja bayesilainen menetelmä 190 18.1 18.2 18.3 Mitä ovat suurimman uskottavuuden menetelmät? . . . . . . . 190 Uskottavuuden käyttö todennäköisyyden arviointiin . . . . . . 191 Puun uskottavuuden laskeminen . . . . . . . . . . . . . . . . 191 18.3.1 Evoluutiomallin määrittäminen DNA-sekvensseille . . . . 191 18.3.2 Uskottavuuden laskeminen . . . . . . . . . . . . . . . . . 193 18.3.3 Kahden taksonin puu . . . . . . . . . . . . . . . . . . . . 193 18.3.4 Kolmen taksonin puu . . . . . . . . . . . . . . . . . . . . 194 18.3.5 Neljän taksonin puun uskottavuuden laskeminen . . . . . 197 18.3.6 Ominaisuuksien evoluutionopeuden vaihtelun ottaminen huomioon 198 18.3.7 Evoluutiomallin määrittäminen aminohapposekvensseille . 199 18.4 Kuinka paras puu löydetään . . . . . . . . . . . . . . . . . . . 199 18.5 Mitä ovat bayesilaiset menetelmät? . . . . . . . . . . . . . . . 200 19 Superpuumenetelmät 19.1 19.2 19.3 19.4 19.5 Mitä superpuumenetelmät ovat? . . . Olemassa olevat superpuumenetelmät MRP-menetelmän periaate . . . . . . MRP-menetelmän muunnokset . . . . Menetelmän edut . . . . . . . . . . . 202 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 . 202 . 203 . 205 . 205 12 Bioinformatiikan perusteet 19.6 20 MRP-menetelmään kohdistettu kritiikki . . . . . . . . . . . . 205 Parhaan puun etsiminen ja puun uudelleenjärjestelymenetelmät 20.1 20.2 Mitä puun uudelleenjärjestelymenetelmät ovat? Menetelmien käyttö . . . . . . . . . . . . . . . 20.2.1 Perinteinen haku . . . . . . . . . . . . . . 20.2.2 Uudempia menetelmiä käyttävä haku . . . 20.3 Miten menetelmät toimivat? . . . . . . . . . . . 20.3.1 Täydellinen haku . . . . . . . . . . . . . . 20.3.2 Rajattu haku . . . . . . . . . . . . . . . . 20.3.3 Nearest neighbor interchange . . . . . . . 20.3.4 Subtree pruning and regrafting . . . . . . . 20.3.5 Tree bisection and reconnection . . . . . . 20.3.6 Ratchet . . . . . . . . . . . . . . . . . . . 20.3.7 Tree fusing . . . . . . . . . . . . . . . . . 20.3.8 Tree-drifting . . . . . . . . . . . . . . . . 20.3.9 Sectorial searches . . . . . . . . . . . . . . Random sectorial search (RSS) . . . . . . Consensus-based sectorial searches (CSS) . 20.3.10 Mixed sectorial searches (MSS) . . . . . . 20.4 Superpuumenetelmät . . . . . . . . . . . . . . 21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 . . . . . . . . . . . . . . . . . . Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 208 209 210 211 211 212 212 213 213 214 216 216 218 218 219 219 219 221 21.1 21.2 21.3 21.4 21.5 21.6 21.7 21.8 21.9 Puun luotettavuuden arviointi . . . . . . . . . . . . . . . . . . 221 Bootstrapping . . . . . . . . . . . . . . . . . . . . . . . . . . 221 Jackknifing . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 Bremerin tukiarvo . . . . . . . . . . . . . . . . . . . . . . . . 224 Puun pituuksien jakauma (DCL) . . . . . . . . . . . . . . . . 226 Permutaatiohännäntodennäköisyys (PTP) . . . . . . . . . . . 228 Topologia-riippuvainen permutaatiohännäntodennäköisyys (T-PTP) 231 Parametrinen bootstrapping . . . . . . . . . . . . . . . . . . . 231 Konsensuspuut . . . . . . . . . . . . . . . . . . . . . . . . . 232 21.9.1 Strict konsensus . . . . . . . . . . . . . . . . . . . . . . 232 21.9.2 Semi-strict konsensus . . . . . . . . . . . . . . . . . . . . 232 21.9.3 Majority-rule konsensus . . . . . . . . . . . . . . . . . . 234 21.9.4 Nelson-konsensus . . . . . . . . . . . . . . . . . . . . . 234 21.9.5 Adams-konsensus . . . . . . . . . . . . . . . . . . . . . 234 21.9.6 Agreement subtrees . . . . . . . . . . . . . . . . . . . . . 234 21.10 Tilastolliset testit . . . . . . . . . . . . . . . . . . . . . . . . 235 21.10.1 Kishino-Hasegawa . . . . . . . . . . . . . . . . . . . . . 235 21.10.2 Templeton . . . . . . . . . . . . . . . . . . . . . . . . . 235 21.10.3 Todennäköisyysosamäärätesti . . . . . . . . . . . . . . . 236 21.11 Puiden välinen etäisyys . . . . . . . . . . . . . . . . . . . . . 236 21.11.1 Symmetrinen etäisyys . . . . . . . . . . . . . . . . . . . 237 21.11.2 Pituuseroetäisyys . . . . . . . . . . . . . . . . . . . . . . 238 21.12 Incongruence lenght difference . . . . . . . . . . . . . . . . . 239 21.13 Likelihood heterogeneity test . . . . . . . . . . . . . . . . . . 239 22 Molekyylisystematiikan avoimia kysymyksiä 22.1 242 Taksonominen vai ominaisuuksien yhteensopivuus? . . . . . . 242 22.1.1 Erillinen analyysi . . . . . . . . . . . . . . . . . . . . . . 242 Sisältö 13 22.1.2 Yhdistetty analyysi . . . . . . . . . . . . . . . . . 22.1.3 Ehdollinen aineistojen yhdistäminen . . . . . . . . 22.1.4 Käytännön ehdotuksia . . . . . . . . . . . . . . . 22.2 Analyysiin DNA- vai proteiinisekvenssit? . . . . . . . 22.3 Long branch attraction . . . . . . . . . . . . . . . . . 22.4 Taksoniotanta ja häly - miten ne vaikuttavat analyysiin? 22.4.1 Taksoniotanta . . . . . . . . . . . . . . . . . . . . 22.4.2 Häly . . . . . . . . . . . . . . . . . . . . . . . . . 22.5 Sekvenssirinnastus ja POY . . . . . . . . . . . . . . . 22.5.1 Perinteinen lähestymistapa . . . . . . . . . . . . . 22.5.2 POY:n ratkaisumalli . . . . . . . . . . . . . . . . Optimointikohdistus (direct optimization) . . . . . Fixed-states optimization . . . . . . . . . . . . . . Iterative-pass optimization . . . . . . . . . . . . . 22.6 Suosituksia . . . . . . . . . . . . . . . . . . . . . . . 22.6.1 Proteiinia koodaavat geenit . . . . . . . . . . . . . 22.6.2 Ribosomaalinen-RNA . . . . . . . . . . . . . . . 22.6.3 Aminohapposekvenssit . . . . . . . . . . . . . . . 22.6.4 Pseudogeenit . . . . . . . . . . . . . . . . . . . . 22.7 Puu vai verkosto? . . . . . . . . . . . . . . . . . . . . 22.8 Menetelmän valinta - simulaatiotutkimusten tuloksia . 22.8.1 Muutamia julkaistuja tuloksia . . . . . . . . . . . 22.8.2 Yhteenveto . . . . . . . . . . . . . . . . . . . . . IV 23 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 243 244 244 246 248 248 248 249 249 250 251 252 253 253 253 253 253 254 254 254 254 257 258 PCR-alukkeiden suunnittelu 259 Miten alukkeet liittyvät bioinformatiikkaan? PCR-RFLP-menetelmien teoria . . . . . . . Alukkeiden suunnitteleminen käsin . . . . . Esimerkki alukkeiden suunnittelusta . . . . Alukkeiden suunnitteleminen tietokoneella . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 . 259 . 259 . 260 . 262 Mitä ovat pistemutaatiot . . . . . . . . . . . . . . . . . Seulonta tietokannoista . . . . . . . . . . . . . . . . . 24.2.1 EST-sekvenssien hakeminen EMBL-tietokannasta 24.2.2 Tulosten tulkinta . . . . . . . . . . . . . . . . . . 24.2.3 Edistyneempi tulkintamenetelmä . . . . . . . . . . 24.2.4 Aminohappomuutokset ovat kiinnostavimpia . . . 24.2.5 Jatkotutkimukset . . . . . . . . . . . . . . . . . . 24.3 Pistemutaatiot ja populaatiogenetiikka . . . . . . . . . 24.4 Geenikartoitus . . . . . . . . . . . . . . . . . . . . . . 24.5 Farmakogenetiikka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 . 271 . 272 . 273 Pistemutaatioiden etsintä ja niiden sovellukset 263 24.1 24.2 25 . . . . . . . . . . . . . . . . . . . . . . . Genomiikka ja proteomiikka 23.1 23.2 23.3 23.4 23.5 24 . . . . . . . . . . . . . . . . . . . . . . . Tuntemattoman sekvenssin toiminnan selvittäminen 25.1 25.2 25.3 25.4 Mihin toiminnan selvittäminen perustuu? BLAST-haku . . . . . . . . . . . . . . Tunnistetietokannat . . . . . . . . . . . Fylogeneettinen analyysi . . . . . . . . . . . . . . . . 263 263 263 263 264 264 265 266 268 269 271 . . . . . . . . . . . . . . . . . . . . . . . . 14 Bioinformatiikan perusteet 25.5 25.6 25.7 26 Ortologisten geenien luokittelu . . . . . . . . . . . . . . . . . 274 Geeniontologia . . . . . . . . . . . . . . . . . . . . . . . . . 276 DNA-sirut . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 Promoottorianalyysi 278 26.1 26.2 26.3 26.4 26.5 Mitä promoottorit ovat? . . . . . . . . . . . . . . . . . . . . . 278 Miten promoottorisekvenssejä analysoidaan? . . . . . . . . . . 278 Promoottorisekvenssin hankkiminen . . . . . . . . . . . . . . 279 Tunnettujen transkriptiofaktoreiden sitoutumiskohtien esittäminen ja etsiminen 280 Miten parantaa haun spesifisyyttä? . . . . . . . . . . . . . . . 281 26.5.1 DNA-sirutulokset . . . . . . . . . . . . . . . . . . . . . . 281 26.5.2 Fylogeneettiset jalanjäljet . . . . . . . . . . . . . . . . . 281 26.5.3 Modulit . . . . . . . . . . . . . . . . . . . . . . . . . . . 282 26.6 Tuntemattomien sitoutumiskohtien etsiminen . . . . . . . . . 283 26.7 Yhteisten piirteiden etsinnän sensitiivisyyden parantaminen . . 285 27 DNA-siruanalyysi 286 27.1 27.2 27.3 27.4 Mitä DNA-sirut ovat? . . . . . . . . . DNA-sirujen valmistus . . . . . . . . DNA-sirujen käyttäminen . . . . . . . Data-analyysi . . . . . . . . . . . . . 27.4.1 Koesuunnittelu . . . . . . . . . . 27.4.2 Esikäsittely . . . . . . . . . . . . 27.5 Suodatus . . . . . . . . . . . . . . . . 27.5.1 Ilmentyneiden geenien löytäminen 27.5.2 Tulosten visualisointi . . . . . . . 27.5.3 Jatkotutkimukset . . . . . . . . . 27.5.4 Tulosten julkaiseminen . . . . . . 28 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286 286 287 289 289 290 293 294 297 298 300 Mihin RNA:n rakenteen ennustamista käytetään? RNA:ssa esiintyviä sekundäärirakenteita . . . . . Miten sekundäärirakenteita ennustetaan? . . . . . Minimienergiaperiaate . . . . . . . . . . . . . . Kovariaatiomenetelmä . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301 301 301 302 305 RNA:n sekundäärirakenteen ennustaminen 28.1 28.2 28.3 28.4 28.5 29 . . . . . . . . . . . 301 Geenirakenteen ennustaminen 308 29.1 29.2 Mitä menetelmiä geenirakenteen ennustamiseen voidaan käyttää? 308 Translaatio ja validointi . . . . . . . . . . . . . . . . . . . . . 308 29.2.1 Fickettin menetelmä . . . . . . . . . . . . . . . . . . . . 309 29.2.2 Kodoniharhaan perustuva testi . . . . . . . . . . . . . . . 310 29.3 DNA:ta jäsentävien alueiden paikantaminen . . . . . . . . . . 311 29.4 Esitumallisten geenien ennustaminen . . . . . . . . . . . . . . 312 29.5 Aitotumallisten geenien ennustaminen . . . . . . . . . . . . . 314 29.6 Ennustusmenetelmien tarkkuus . . . . . . . . . . . . . . . . . 315 30 Vertaileva genomiikka 30.1 30.2 Mitä on vertaileva genomiikka? . . DNA-sekvenssin konservoituminen 30.2.1 Geenirakenteen säilyminen . . 30.2.2 Rakenne-DNA:n säilyminen . 316 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 317 317 318 Sisältö 15 30.2.3 Neutraalievoluution alueiden tunnistaminen 30.2.4 Ihmisen ja hiiren vertailuista opittua . . . . 30.3 Geeni- ja genomiduplikaatiot . . . . . . . . . . 30.3.1 Geeniduplikaatiot . . . . . . . . . . . . . . 30.3.2 Genomiduplikaatiot . . . . . . . . . . . . 30.4 Eliöiden geenisisältö . . . . . . . . . . . . . . 30.5 Horisontaalinen geeninsiirto . . . . . . . . . . 30.6 Geenijärjestyksen säilyminen . . . . . . . . . . 30.7 Vertaileva genomiikka ja lääketiede . . . . . . . 30.7.1 Rokotteiden kehittäminen . . . . . . . . . 30.7.2 Lääkeaineiden kehittäminen . . . . . . . . 31 Mitä on proteomiikka? . . . . . . . Proteiinien ilmentymisen tutkiminen 31.2.1 2D-geelielektroforeesi . . . . . 31.2.2 Massaspektrometria . . . . . . 31.2.3 Proteiinisirut . . . . . . . . . . 31.3 Proteiinimallitus . . . . . . . . . . . 31.3.1 Homologiamallitus . . . . . . . 31.3.2 Ab initio-mallitus . . . . . . . . 31.3.3 Rakenneprofiilimenetelmä . . . 31.3.4 Laskostaminen . . . . . . . . . 32 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319 320 322 322 323 324 324 325 326 326 329 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 331 331 332 333 333 333 335 335 336 Proteomiikka 31.1 31.2 V . . . . . . . . . . . Liitteet Lukujen tiivistelmät 32.1 32.2 32.3 32.4 32.5 32.6 32.7 32.8 32.9 32.10 32.11 32.12 32.13 32.14 32.15 32.16 32.17 32.18 32.19 32.20 32.21 32.22 32.23 331 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337 338 Johdanto ja bioinformatiikan historia . . . . . . . . . . . . . . 338 Laskennallisen biologian perusteet . . . . . . . . . . . . . . . 338 Esiteltävien menetelmien sovellusalueet . . . . . . . . . . . . 338 Sekvensointi ja DNA-sekvenssit . . . . . . . . . . . . . . . . 339 Biotietokannat . . . . . . . . . . . . . . . . . . . . . . . . . . 339 Pisteytysmatriisit . . . . . . . . . . . . . . . . . . . . . . . . 339 Aukkosakot . . . . . . . . . . . . . . . . . . . . . . . . . . . 339 Kahden sekvenssin rinnastus . . . . . . . . . . . . . . . . . . 339 Sekvenssihaut . . . . . . . . . . . . . . . . . . . . . . . . . . 340 Usean sekvenssin rinnastus . . . . . . . . . . . . . . . . . . . 340 PCR-alukkeiden suunnittelu . . . . . . . . . . . . . . . . . . . 340 Pistemutaatioiden seulonta tietokannoista . . . . . . . . . . . 341 DNA-sekvenssien ominaisuuksien sevlittäminen . . . . . . . . 341 Aminohapposekvenssin ominaisuuksien selvittäminen . . . . . 341 Tuntemattoman sekvenssin toiminnan selvittäminen . . . . . . 341 Johdatus molekyylisystematiikkaan . . . . . . . . . . . . . . . 342 Tavanomaisen analyysin eteneminen . . . . . . . . . . . . . . 342 Evoluutiomallit . . . . . . . . . . . . . . . . . . . . . . . . . 342 Etäisyysmenetelmät . . . . . . . . . . . . . . . . . . . . . . . 343 Parsimoniamenetelmä . . . . . . . . . . . . . . . . . . . . . . 343 Suurimman uskottavuuden menetelmät ja bayesilaiset menetelmät 343 Superpuumenetelmät . . . . . . . . . . . . . . . . . . . . . . 343 Parhaan puun löytäminen ja uudelleenjärjestelymenetelmät . . 344 16 Bioinformatiikan perusteet 32.24 32.25 32.26 32.27 32.28 32.29 32.30 32.31 33 Puun luotettavuuden arviointi ja konsensuspuut Molekyylisystematiikan avoimia kysymyksiä . Promoottorianalyysi . . . . . . . . . . . . . . . DNA-sirut . . . . . . . . . . . . . . . . . . . . RNA:n sekundäärirakenteen selvittäminen . . . Geenirakenteen ennustaminen . . . . . . . . . Vertaileva genomiikka . . . . . . . . . . . . . . Proteomiikka . . . . . . . . . . . . . . . . . . Harjoitustehtävät 33.1 33.2 33.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344 344 344 345 345 345 346 346 347 Sekvenssirinnastukset . . . . . . . . . . . . . . . . . . . . . . 347 Fylogenetiikka . . . . . . . . . . . . . . . . . . . . . . . . . . 349 Alukkeiden suunnittelu . . . . . . . . . . . . . . . . . . . . . 349 34 Sanasto 351 35 Kirjallisuus 359 35.1 35.2 Hakemisto Artikkeliviitteet . . . . . . . . . . . . . . . . . . . . . . . . . 359 Kirjaviitteet . . . . . . . . . . . . . . . . . . . . . . . . . . . 364 367 Osa I Johdanto 18 1 Bioinformatiikan perusteet Johdanto 1.1 Mitä on bioinformatiikka? Bioinformatiikan kehitys itsenäiseksi tieteenalaksi alkoi, kun ensimmäiset biologiset tietokannat paisuivat niin suuriksi, että niissä olevan tiedon etsimiseksi ja analysoimiseksi tarvittiin tietokoneistettuja ratkaisuja. Suurten aineistojen käsittelyyn luotiin myös tehokkaita algoritmeja. Erityisesti viime vuosina tietokannat ovat kasvaneet kiihtyvää vauhtia, ja kasvu jatkunee lähitulevaisuudessakin (Kuva 1.1). Tietokoneiden ja intenetin käyttö on nykyisin bioinformatiikassa keskeisellä sijalla. Voidaan sanoa, että ilman tietokoneita ja internetiä ei nykyaikaista bioinformatiikkaakaan olisi olemassa. Bioinformatiikan määritelmä ei ole toistaiseksi vakiintunut. Varsin kaikenkattavan määritelmän mukaan bioinformatiikka on informaatiotieteen ja biologian yhtymäkohtaan syntynyt tieteenala. Bioinformatiikkaan voidaan katsoa myös alaksi, jonka tarkoituksena on kehittää biologisten ongelmien ratkaisemiseen soveltuvia tietoteknisiä välineitä. Kolmannen määritelmän mukaan bioinformatiikalla käsitetään informaatioteknologia ja sen menetelmät, joita käytetään biologisen datan tallentamiseen, ylläpitämiseen ja analysoimiseen. Lisäksi bioinformatiikan katsotaan usein kuuluvan osaksi laskennallista biologiaa. Bioinformatiikan määritelmää on pohdittu laajemmaltikin. Luscomben (2001) mukaan bioinformatiikalla on kolme pyrkimystä. Yksinkertaisimmillaan bioinformatiikka organisoi aineistoa siten, että se saadaan tutkijoiden saataville, ja että he voivat liittää tähän informaatioon omia tuloksiaan. Tyypillisiä esimerkkejä tästä ovat esimerkiksi sekvenssitietokanta GenBank, johon on kerätty sekvenssejä jo yli parikymmentä vuotta, ja ArrayExpress, joka ottaa Euroopassa vastaan DNAmikrosiru-dataa. Toisena tavoitteena on kehittää työkaluja, jotka auttavat tutkijoita aineistojen analysoinnissa. Kolmantena päämääränä on käyttää näitä työkaluja ja tietoresursseja aineistojen analysointiin siten, että tulokset voidaan tulkita biologisesti mielekkäästi. Helsingin yliopistossa geneettinen bioinformatiikka määritellään lisäksi seuraavasti. “Geneettinen bioinformatiikka on perinnöllisyystieteen eli genetiikan osaalue, joka on keskeisessä asemassa lähes kaikessa modernissa genetiikassa. Geneettinen tutkimus ja sen kautta koko biologia on viimeisen vuosikymmenen aikana kokenut valtavan mullistuksen uusien genomitason menetelmien myötä. Nämä uudet funktionaalisen genomiikan työkalut mahdollistavat geenitoiminnan ymmärtämisen, geenien ilmenemisestä siitä seuraavien aineenvaihdunnan muutosten kokonaisvaltaiseen tunnistamiseen koko genomin tasolla. Tällaiset systeemitason lähestymistavat tuottavat valtavasti tietoa, jonka täysimittainen hyödyntäminen vaatii bioinformatiikan menetelmiä, ja geneettinen bioinformatiikka onkin viime vuosina noussut keskeiseksi osaksi geneettistä tutkimusta. Genomitason sekvenssitiedon käsittely vaatii aina bioinformatiikan menetelmiä. Geneettisen bioinformatiikan tutkimuskohteina voi olla esimerkiksi tautigeenien identifiointi ihmisellä, geenien säätelyelementtien tunnistus genomisekvensseistä, geenien ja geeniperheiden fylogeneettinen analyysi, genomien evoluution tutkimus tai geenien ilmenemisen tutkiminen koko genomin tasolla. [professori Tapio Palva 14.4.2005]” 1 Johdanto 19 Kuva 1.1: GenBank-nukleotiditietokannan uusimman julkaisun koko lajeittain ja tietokannan koon kasvu parin vuosikymmenen aikana. Tietokannasta yli 2/3 koostuu ihmisen tai laboratoriojyrsijöiden sekvensseistä. 20 Bioinformatiikan perusteet Perinteinen bioinformatiikan määritelmä on sisältänyt ainoastaan sekvenssianalytiikan, ja senkin suhteellisen suppeassa muodossa, käsittäen ainoastaan DNAja aminohapposekvensseihin liittyvät primäärianalyysit, kuten BLAST-haut ja parittaiset sekä usean sekvenssin rinnastukset, muttei esimerkiksi promoottorianalyysia. Lavean määritelmän mukaan bioinformatiikka sisältää myös genomiikan, toiminnallisen genomiikan (muun muassa polymorfia-analyysit, ekspressiotutkimukset ja proteomiikka) ja uutena suuntauksena kirjallisuuden louhinnan, mikä laajentaa bioinformatiikan määritelmän kattamaan pitkälti myös erilaisten biologisten aineistojen tilastotieteellisiä analyysivaiheita. Nykyisin bioinformatiikka on läheisesti kosketuksissa monien sitä soveltavien alojen tutkimuksen kanssa. Esimerkiksi molekyylisystematiikan, proteiinien kiderakenteiden analysoinnin, ja geenikartoituksen katsotaan nykyisin kuluvan bioinformatiikan kenttään. Hyvin läheisiä aloja ovat myös molekyyliepidemiologia, joka kytkeytyy bioinformatiikkaan erityisesti tutkittaessa ihmisten perinnöllistä monimuotoisuutta, ja tiedonlouhinta, joka tarkoittaa lähinnä tilastollisten mallien soveltamista moniulotteisten ja monia muuttujia sekä paljon aineistoa sisältävien biologisten tutkimusten analysointiin. Koska bioinformatiikan tutkimuskenttä on näin laaja, ei sen yksiselitteinen määritteleminen ole helppoa. Yhtäkaikki, mainittuja tutkimuskohteita yhdistää kaksi tekijää: ne kaikki liittyvät biologiaan ja niihin liittyvien ongelmien ratkaisemiseen tarvitaan tietokonetta. 1.2 Keitä bioinformaatikot ovat? Perinteisen käsityksen mukaan bioinformaatikko on henkilö, joka osaa sekä biologiaa että tietojenkäsittelytiedettä niin, että hän kykenee kehittämään uusia hyödyllisiä työkaluja biologisten ongelmien ratkaisemiseksi. Toinen vaihtoehto on jakaa bioinformaatikot osaamistason mukaan eri luokkiin (Hack, 2005). 1. Superkäyttäjiksi kutsutaan henkilöitä, jotka tuntevat laajan valikoiman ohjelmia tai ohjelmistoja, ja heillä on peruskäsitys siitä, miten eri parametrien muokkaaminen vaikuttaa tuloksiin. Heillä ei kuitenkaan välttämättä ole ohjelmointi- tai tietokantakehityskokemusta. Tilastotieteen tuntemus rajoittuu perusteisiin. 2. Tehokäyttäjiksi voitaisiin katsoa henkilöt, joilla on hyvä ymmärrys eri parametrien vaikutuksesta ohjelmien antamiin tuloksiin, ja jotka osaavat kirjoittaa skriptejä, joilla ohjelmat voidaan liittää tietokantoihin tai toisiinsa analyysiputkien luomiseksi ja jotka kehittävät tietokantoja. Tilastotieteellinen osaaminen on laajaa ja sitä osataan soveltaa monien biologisten ongelmien selvittämiseen. 3. Bioinformaatikoita leimaa ohjelmakehitykseen osallistuminen, algoritmien ja mallien kehitys sekä tiedonlouhintamenetelmien soveltaminen biologisten aineistojen analysointiin. Hackin jaottelun mukaan useimmat biologit sijoittunevat ryhmiin 1 ja 2, ja pääosin vain insinöörit ja tietokäsittelytieteilijät saavuttavat ryhmää 3 vastaavan osaamistason. Viime vuosina bioinformatiikan ongelmiin on kuitenkin jo kehitetty niin monia tietokoneistettuja ratkaisuja, että ohjelmointitaitojen sijaan näiden työkalujen tuntemus alkaa korostua. Yksinkertaisella Internet-haulla on usein mahdollista löytää useita tietyn ongelman ratkaisemiseen kehitettyjä ohjelmistoja. On kuitenkin tilanteita, jolloin ohjelmointitaidoista on selvää hyötyä, sillä kaikkien ongelmien ratkaisemiseen ei ole vielä olemassa valmiita työkaluja. 1 Johdanto 1.3 21 Bioinformatiikan merkitys biologiassa Bioinformatiikan perimmäinen tarkoitus on selvittää biologisia ilmiöitä. Vaikka bioinformatiikka onkin itsenäinen tieteenala, on sillä lisäksi nykyisessä molekyylibiologisessa tutkimuksessa erittäin suuri välinearvo. Bioinformatiikkaa ei voi tehdä biologiasta irrallaan, joten alan tutkimuksen pääpaino onkin työkalujen kehittämisessä rajattujen biologisten ongelmien ratkaisemiseksi. Bioinformatiikka on työkalu, ei päämäärä sinänsä, vaikka osa tutkimuksesta on kohdennettukin biologia suoranaisesti varsin vähän hyödyttäviin hankkeisiin. Bioinformatiikan avulla on mahdollista hahmottaa, kuinka eliöt rakentuvat, kehittyvät ja toimivat, ja kuinka ne muuttuvat aikojen saatossa. Tämä ei ole välttämättä helppoa. Esimerkiksi tuntemattomien geenien ennustaminen DNA-sekvenssistä tietokoneen avustuksella on edelleen jokseenkin epävarmaa. Vielä ei myöskään osata täydellisesti ennustaa hnRNA:n (heterogenous nuclear RNA) silmikointikohtia tai proteiinin laskostumista aminohapposekvenssin perusteella. Bioinformatiikan ansiosta muun muassa näiden ongelmien ratkaisussa on kuitenkin huomattavasti edistytty. Tuntemattomien geenien lukuraami selviää nykyisin noin 75% tapauksista, ja intronien ja eksonien väliset rajatkin noin 90% aitotumallisten geeneistä pelkällä tietokoneanalyysillä. On kuitenkin hyvin tärkeää muistaa, että tietokoneanalyysillä ei voida todistaa, miten esimerkiksi proteiinit toimivat soluissa. Bioinformatiikka tarjoaa työkaluja valistuneiden arvausten tekemiseksi, mutta viimekädessä arvaukset on todennettava laboratoriomenetelmin. Biologinen data on hyvin moniulotteista. Esimerkiksi DNA-sirulla oleva täplä voidaan yhdistää sen fluoressenssin voimakkuuteen, mutta myös DNA-juosteen sekvenssiin ja sitä vastaavan proteiinin rakenteeseen ja toimintaan. Näin monimutkaisia verkostoja muodostavan aineiston pukeminen helposti käsiteltävään muotoon, saati sen analysoiminen ei ole yksinkertaista. Apua tällaisten biologisten ongelmien ratkaisemiseen tarvitaan niin tietojenkäsittelijöiltä kuin tilastotieteilijöiltäkin. DNA-sekvenssien, geenisäätelyverkkojen ja biokemiallisten aineistojen yhdistäminen tulee luultavasti olemaan vielä useiden bioinformaatikkosukupolvien työmaana. 22 Bioinformatiikan perusteet 2 Laskennallisen biologian perusteet 2.1 Laskennalliset asiat ovat bioinformatiikassa keskeisiä Seuraavassa käsitellään algoritmeja ja ohjelmien ajoaikoja ja niiden vaatimaa keskusmuistin määrää. Saattaa tuntua siltä, etteivät tällaiset asiat liity millään tavalla bioinformatiikkaan, mutta se on harhakäsitys. Monet bioinformatiikan ongelmat ovat kooltaan suuria sikäli, että aineistoa on paljon. Tällöin aineiston analysoimiseksi on käytettävä mahdollisimman tehokkaita algoritmeja, jotka suoriutuvat tehtävästään nopeasti ja mahdollisimman vähäisiä muita resursseja käyttäen. Esimerkiksi yksinkertainen sekvenssirinnastustehtävä, jossa halutaan rinnastaa joitakin satoja sekvenssejä, vie helposti niin paljon laskenta-aikaa ja muistia, ettei tavallinen tietokone tehtävästä enää selviydy (ClustalX - slow-optio). On kuitenkin olemassa algoritmeja (ClustalX - fast-optio), joilla tämä ongelma voidaan välttää, ja sekvenssit saadaan rinnastettua, kunhan jaksaa odotella muutamia tunteja. Tämä luvun tarkoituksena on antaa pohjatietoa esimerkiksi sellaisista laskenta-aikaan ja muistintarpeeseen liittyvistä seikoista, joista usein puhutaan ohjelmien käyttöohjeissa ja tieteellisissä artikkeleissa, mutta joita ei selitetä sen tarkemmin, koska ne ovat "yleisesti tunnettuja asioita". 2.2 Mikä on algoritmi? Algoritmilla tarkoitetaan yleisesti joukkoa ohjeita, joiden perusteella jokin ongelma voidaan ratkaista tai jokin tehtävä saadaan suoritettua. Monet jokapäiväiset toimemme ovat itseasiassa yksinkertaisia algoritmeja. Oletetaan, että serkkusi Oulusta tulee vierailulle luoksesi Helsinkiin, ja sovitte tapaamisen Viikin kampukselle. Voit opastaa häntä esimerkiksi seuraavasti: "Biokeskus on osoitteessa Viikinkaari 9 A, tule sinne."tai "Ota taksi ja aja osoitteeseen Viikinkaari 9 A". Seuraavat ohjeet voidaan myös pukea algoritmiksi, joka luettelee erilaisia päätössääntöjä esimerkiksi seuraavasti: 1. Jos osaat lukea karttaa ja Helsingin bussien aikatauluja, tule osoitteeseen Viikinkaari 9 A. 2. Jos sinulla on rahaa tai pääset jonkun toisen mukana, aja taksilla osoitteeseen Viikinkaari 9 A. 3. Jos haluat ulkoilla tai sinulla ei ole rahaa, hanki Helsingin kartta ja suunnista osoitteeseen Viikinkaari 9 A. Useimmiten algoritmit on istutettu osaksi jotakin tietokoneohjelmaa. Algoritmi ja tietokoneohjelma eivät ole kuitenkaan sama asia. Ohjelman ydin voi olla tietokoneen ymmärtämään muotoon käännetty algoritmi, joka suorittaa jonkin tehtävän, mutta sen ympärille on kasattu paljon muutakin. Ohjelma saattaa esimerkik- 2 Laskennallisen biologian perusteet 23 si kysellä käyttäjältä tarvittavia taustatietoja, ratkaista ongelman niiden perusteella algoritmia käyttäen, ja lopuksi kertoa tulokset kauniissa graafisessa muodossa. Algoritmin ohjelmoimista jonkin tietokoneohjelman osaksi kutsutaan myös implementoinniksi (engl. implementation), ja ohjelmaa, jossa algoritmi on, kutsutaan algoritmin implementaatioksi. Kahden sekvenssin rinnastuksia käsittelevässä luvussa esitellään Smith-Watermanin algoritmi kahden sekvenssin välisen paikallisen rinnastuksen muodostamiseksi. Tämä algoritmi on ohjelmoitu moniin erilaisiin ohjelmiin, esimerkiksi water ja matcher, jotka kuuluvat osaksi EMBOSS-ohjelmistopakettia. Water ja Matcher on ohjelmoitu (käännetty tietokoneen ymmärtämään muotoon) C++-ohjelmointikieltä käyttäen, mutta joissakin muissa ohjelmissa sama algoritmi on toteutettu Java-kieltä käyttäen. Ohjelmien tekemiseen on siis olemassa useita erilaisia ohjelmointikieliä, ja sama algoritmi voidaan toteuttaa mitä hyvänsä kieltä käyttäen. Siten, algoritmi ei ole sama asia kuin tietokoneohjelma. 2.3 Kuinka nopea tietokoneohjelma on? Tietokoneohjelman nopeus voidaan mitata yksinkertaisimmillaan siten, että sillä ajetaan jokin analyysi, ja mitataan kuinka kauan aikaa tuon analyysin suorittaminen vei. Analyysin kuluttamaa aikaa kutsutaan ajoajaksi. Ajoaika voi vaihdella sen mukaan mitä muita ohjelmia tietokoneella on samaan aikaan ajossa, mitä käyttöjärjestelmää käytetään, ja erityisesti jos puhutaan keskitetyistä laskentaresursseista, kuten CSC:n supertietokoneista tai WWW-palvelimista, ajoaika riippuu suuresti samanaikaisten käyttäjien kokonaismäärästä. Lisäksi ajoaika riippuu tietokoneen prosessorin nopeudesta ja mahdollisesti myös keskusmuistin määrästä (joudutaanko käyttämään esimerkiksi kovalevyjä heittovaihtotiedostojen väliaikaiseen tallentamiseen). Eri tietokoneilla eri aikoina mitatut ajoajat eivät olekaan suoraan verrattavissa toisiinsa. Siksi tietojenkäsittelytieteessä pyritään ennemmin kuvaamaan jonkin algoritmin vaatimaa laskenta-aikaa tai tarvittavan muistin määrää yleisemmin. On oletettavaa, että jonkin algoritmin tai ohjelman, johon tuo algoritmi on ohjelmoitu, ajoaika riippuu syötteen koosta. Esimerkiksi, jos halutaan verrata kahta DNA- tai aminohapposekvenssiä toisiinsa, syötetään sekvenssit jonkin algoritmin, kuten Smith-Watermanin algoritmi, käsiteltäväksi. Algoritmin vaatima ajoaika on sitä pidempi, mitä pidempiä sekvenssejä käytetään syötteenä. Sama asia voidaan ilmaista formaalisti seuraavasti. Merkitään syötteen kokoa N:llä. N voi olla esimerkiksi verrattavien DNA-sekvenssien yhteenlaskettu pituus. Nyt algoritmin vaatima ajoaika voidaan ilmaista tarkasti syötteen koon perusteella: ajoaika voi riippua syötteen koosta esimerkiksi lineaarisesti (N) tai eksponentiaalisesti (N 2 ) tai jollakin muulla tavalla. Jos kaksi algoritmia tekee saman asian, mutta toinen käyttää vähemmän ajoaikaa N:n avulla ilmaistuna, sanotaan nopeampaa ohjelmaa toista tehokkaammaksi. Toisinaan algoritmin vaatimasta ajoajasta käytetään ilmaisua O(N). Yleensä voidaan olettaa, että ajoaika on tuolloin lineaarisesti suhteessa syötteen kokoon, mutta tarkkaan ottaen merkinnällä tarkoitetaan pisintä mahdollista ajoaikaa. Tämä tarkoittaa, ettei ajoaika ikinä ylitä k N:ää, millä tahansa vakion k:n arvolla. Saattaa olla, että tällaisissa tapauksissa keskimääräinen ajoaika on lyhyempi kuin pahimmassa tapauksessa, mutta näin ei välttämättä ole. Esimerkiksi Smith-Watermanin algoritmi vaatii kahden sekvenssin rinnastusta varten O(N 2 ) ajoaikaa. Toisin sanoen, algoritmin vaatima ajoaika on suhteessa sekvenssien pituuksien neliöön (tarkkaan ottaen N on tässä erikoistapauksessa pidemmän sekvenssin pituus). BLASTja FastA-algoritmit tekevät saman asian kuin Smith-Watermanin algoritmi ja vieläpä pahimmassa tapauksessa samassa ajassa O(N 2 ). Keskimäärin BLAST:in FastA:n ajoaika on kuitenkin huomattavasti lyhyempi kuin pahimmassa tapauksessa. 24 Bioinformatiikan perusteet BLAST onkin Smith-Watermania huomattavasti suositumpi algoritmi juuri keskimäärin lyhyemmän ajoaikansa vuoksi. 2.4 Kuinka paljon muistia ohjelma vaatii? Ohjelman tai algoritmin tilantarve mitataan paljolti samalla tavoin kuin ajoaikakin: tilantarve ilmoitetaan useimmiten syötteen koon (N) funktiona. Tämä on järkeenkäypää, sillä mitä suurempi syöte ohjelmalle annetaan, sitä enemmän tietokoneen keskusmuistia ongelman ratkaiseminen kuluttaa. Esimerkiksi, Smith-Watermanin algoritmi muodostaa rinnastettavista sekvensseistä N ∗ M -matriisin, jossa N ja M ovat rinnastettavien sekvenssien pituudet. Algoritmin tilantarve on siten O(N M). Jokaiseen taulukon soluun liittyy numero ja vektori, joka ilmoittaa mistä solusta ko. taulukon soluun saavuttiin. Tämä vie muutamia (3–4) tavuja tietokoneen keskusmuistia. Nykyisissä tietokoneissa on tyypillisesti 256–512 Mb (256000000 bittiä) keskusmuistia. Yksi tavu vastaa laskennallisesti kahdeksaa bittiä, joten teoriassa tietokoneen muistiin mahtuu 8–16 miljoonan solun tiedot. Käytännössä käyttöjärjestelmä, joka ohjaa tietokoneen toimintaa, ja sen oheisohjelmat kuluttavat helposti 100 Mb keskusmuistia, ja ohjelmien käyttöön jää loppuosa. Siten 256 Mb:n muistilla varustetulla tietokoneella on mahdollista rinnastaa Smith-Watermanin algoritmia käyttäen kaksi noin 2 200 nukleotidia pitkää DNA-sekvenssiä. Smith-Waterman algoritmin mainittiin kuluttavan O(N M) verran tilaa. Algoritmi on mahdollista sovittaa tilaan O(N) nerokkain ohjelmallisin ratkaisuin. Tällöin ajoaika kuitenkin likimain kaksinkertaistuu. Usein ajoajan ja tilantarpeen välillä vallitseekin vastaavanlainen yhteys, ja ainoastaan toinen voidaan kerrallaan minimoida. Ilmaiseen EMBOSS-ohjelmistopakettiin sisältyvä ohjelma water sisältää perinteisen Smith-Waterman algoritmin. Ohjelma matcher puolestaa sisältää version, joka käyttää vähemmän keskusmuistia, mutta on hitaampi suorittaa. 2.5 NP-ongelmat Jotkut ongelmat ovat laskennallisesti hyvin raskaita, ja nykyisin tietokoneita käyttäen niiden selvittäminen veisi äärettömästi aikaa. Tällaisia ongelmia kutsutaan NP-ongelmiksi. Tietojenkäsittelijät ovat yrittäneet ratkoa tällaisia ongelmia jo vuosikausia, mutta parhaatkin algoritmit vievät syötteen kokoon suhteutettuna vähintään eksponentiaalisesti aikaa (2 N ). NP-ongelmia ei tällä hetkellä voida ratkaista lyhyemmässä ajassa, lukuunottamatta niitä erikoistapauksia, joissa N on suhteellisen pieni. Vaikkei tarkkaa ratkaisua NP-ongelmiin voidakaan löytää, voidaan usein käyttää algoritmeja, jotka antavat likimääräisen ratkaisun. Näin löydetty ratkaisu ei kenties ole kaikkein paras mahdollinen, mutta nykyisiä työkaluja käyttäen paras saavutettavissa oleva ratkaisu. Useimmat laskennallisesti tärkeät ongelmat bioinformatiikassa näyttävät kuuluvan NP-ongelmien ryhmään. Tällaisia ovat esimerkiksi useiden sekvenssien rinnastaminen, fylogeneettisten puiden muodostaminen muun muassa parsimonia-menetelmää käyttäen ja proteiinien laskostumisen ennustaminen. Kaikkin näihin on löydetty likimääräisiä ratkaisuja, joita ongelmien ratkaisuun voidaan suhteellisen menestyksekkäästi käyttää. Fylogenetiikassa pyritään kuvaamaan eliöiden evoluutiohistoriaa puukaavion avulla. Keskeisenä ideana löytää sellainen puu, jossa on tapahtunut minimimäärä muutoksia ominaisuuksista toisiksi. Jotta tällainen lyhyin mahdollinen puu löydettäisiin, pitäisi tarkastella kaikki mahdolliset puut. Jos tutkittavien lajien määrä suhteellisen pieni, esimerkiksi alle 15, voidaan näin menetellä. Puiden lukumäärä kuitenkin kasvaa hyvin nopeasti lajien määrän kasvaessa, eikä suuremmilla lajimäärillä kaikkia mahdollisia puita voida käydä läpi. Niinpä puun muodostaminen onkin NP-ongelma, jonka ratkaisemiseksi on kehitetty useita likimääräisiä (heuris- 2 Laskennallisen biologian perusteet 25 tisia) menetelmiä. Toinen hyvin tunnettu, ja usein esimerkkinä käytetty ongelma, on kauppamatkustajan ongelma (the travelling salesman problem). Ideana on, että kauppamatkustajan täytyy käydä matkallaan N:ssä kaupungissa siten, että hän aloittaa ja lopettaa matkansa samaan kaupunkiin. Koska kaupparatsu joutuu kuluttamaan omia kengänpohjiaan matkallaan, hän haluaa löytää mahdollisimman lyhyen reitin. Ongelman tunnettu ratkaisu on algorimi, joka löytää ratkaisun ajassa 2 N . Muutamien kaupunkien tapauksessa ongelma ei ole vaikea, mutta jo 60 kaupungin kohdalla mahdollisia reittejä on 2 60 = 1,15 * 10 15 kappaletta. Nykyiset tietokoneet pystyvat helposti kokeilemaan noin 10 000 000 ratkaisua sekunnissa. Kaikkien ratkaisujen läpikäyminen vaatisi siis likimain 3 500 vuotta! Kauppamatkustajan ongelma on siinä mielessä mielenkiintoinen poikkeustapaus, että ongelmaan tunnetaan nopea ratkaisu: DNA-tietokone, jossa eri kaupunkeja vastaavat DNA-pätkät saavat hybridisoitua keskenään, ja paras ratkaisu saadaan selville elektroforeesin jälkeen (Adleman, 1994, 1998). 2.6 Rinnakkaislaskenta Rinnakkaislaskennalla tarkoitetaan sitä, että tiettyyn ongelmaan liittyvä laskenta jaetaan useammalle kuin yhdelle tietokoneelle tai prosessorille. Tavanomainen tietokone suorittaa laskennan peräkkäislaskentana: Seuraava ajo käynnistyy, kun edellinen on loppunut. Rinnakkaislaskennassa sama ajo pyörii yhtäaikaa usemmalla tietokoneella, ja valmistuu siten nopeammin kuin jos ajoon olisi käytetty vain yhtä tietokonetta. Esimerkiksi yllä mainittu 60 kaupunkia koskeva kauppamatkustajan ongelma voidaan ratkaista vuodessa, jos käytössä on 3500 rinnakkaislaskentaan soveltuvaa tietokonetta. Käytännössä rinnakkaislaskenta toimii nykyisin useimmiten Linux-käyttöjärjestelmällä toimivista PC-koneista (jokaisessa yksi prosessori), jotka on koottu yhteen niin sanotuksi klusteriksi. Jokainen klusteriin liitetty PC-kone on yksi solmu ("noodi"). Siten klusteri koostuu useista solmuista. Toinen rinnakkaislaskentaan soveltuva vaihtoehto on supertietokone, jossa on saman kuoren sisään rakennettuna useita prosessoreita, tyypillisesti 32 - 512. Rinnakkaislaskennan ydinajatuksena on yksinkertaistaen se, että samaan ongelmaan liittyvä ajo jaetaan usemmalle kuin yhdelle prosessorille laskettavaksi, jolloin suuriakin ongelmia saadaan ratkaistuksi järkevässä ajassa. NP-ongelmille tämä tarkoittaa esimerkiksi, että suurempi ongelma voidaan ratkaista tarkasti tai että vieläkin suurempaan ongelmaan saadaan likimääräinen vastaus tavanomaista nopeammin. Nykyisin klusterit ovat varsin suosittuja, koska PC-tekniikka on halpaa. Supertietokoneet ovat tietyissä laskentatehtävissä klustereita tehokkaampia, mutta ne ovat vastaavasti paljon klustereita kalliimpia. Toisaalta, varsinkin suuren klusterin ylläpitäminen vaatii huomattavasti enemmän käsitöitä kuin supertietokoneen, sillä tyypillisesti klusteriratkaisuissa on paljon enemmän rikkoutumiselle altista tekniikkaa kuin supertietokoneissa. Tänä johtuu yksinkertaisesti muun muassa siitä, että jokaisessa klusterin koneessa on oma kovalevy ja virtalähde, jotka voivat käytössä rikkoutua. Supertietokoneessa nämä voivat olla koko koneen yhteisiä, ja niitä on lukumääräisesti vähemmän, joten rikkoutuvia osia on siten vastaavasti vähemmän. 2.7 Dynaaminen ohjelmointi Dynaaminen ohjelmointi (dynamic programming) tai dynaaminen optimointi toistuu kerta toisensa perään bioinformatiivisessa kirjallisuudessa. Dynaaminen ohjelmointi juontaa juurensa 1950-luvulle, jolloin tietokoneohjelmien kirjoittaminen ei ollut jokapäiväistä rutiinia. Dynaamisella ohjelmoinnilla ei nimittäin ole mitään te- 26 Bioinformatiikan perusteet kemistä varsinaisen ohjelmoinnin kanssa, vaan se on eräs optimointimenetelmä. Tästä eteenpäin menetelmästä käytetäänkin nimeä dynaaminen optimointi. Dynaamista optimointi käytetään tyypillisesti erilaisten hakuongelmien, kuten sekvenssirinnastuksen, ratkaisuun. Kaikkien dynaamista optimointia käyttävien algoritmien taustalla on sama periaate. Suurempi ongelma jaetaan useiksi pienemmiksi ongelmiksi, jotka ratkaistaan erikseen ja lopuksi yhdistetään, jolloin alkuperäinen suurempikin ongelma tulee ratkaistuksi. Optimointi tarkoittaa sitä, että jokin ongelma pyritään ratkaisemaan mahdollisimman tarkasti, optimaalisesti. Dynaamisen optimoinnin ideaa valottanee seuraava esimerkki. Oletetaan, että haluamme löytää mahdollisimman lyhyen reitin Helsingin ja Tampereen välille. Koska matkassamme on yksi jos toinenkin kapsäkki, haluamme mieluiten käyttää autoa, joten reitin pitää noudatella autoteitä. Kaupunkien välisiä etäisyyksiä hahmottamme tavanomaisella kartalla, johon on merkitty kaikkien kaupunkien väliset etäisyydet. Lisäksi laadimme taulukon, jossa kaikki suoraan toisiinsa yhteydessä olevien kaupunkien välimatkat on ilmoitettu. Löytääksemme Helsingin ja Tampereen välisen etäisyyden, voimme pilkko ongelman kahteen osaan: etsitään lyhyin etäisyys Helsingistä Hämeenlinnaan ja Hämeenlinnasta Tampereelle. Tässä suurempi ongelma (Helsinki-Tampere) on pilkottu kahdeksi pienemmäksi osaongelmaksi (Helsinki-Hämeenlinna + Hämeenlinna-Tampere). Kun kapunkien etäisyydet Hämeenlinnasta on selvitetty, saadaan Helsingin ja Tampereen välinen etäisyys selville laskemalla etäisyydet yhteen. Ongelmat, jotka voidaan jakaa itsenäisiin, yksinään ratkaistaviin osaongelmiin, voidaan helposti rinnakkaistaa. Rinnakkaistaminen tarkoittaa sitä, että ohjelma tai algoritmi kirjoitetaan sellaiseen muotoon, että sen ratkaisemiseen voidaan käyttää rinnakkaislaskentaa. Eräs esimerkki dynaamisen optimoinnin soveltamisesta bioinformatiikassa on Smith-Watermanin algoritmi kahden sekvenssin rinnastamiseksi. 3 Esiteltävien menetelmien sovellusalueet 3 3.1 27 Esiteltävien menetelmien sovellusalueet Miksi esimerkkejä? Seuraavassa esitellään muutamien kirjassa esiteltävien menetelmien sovellusalueita ja mainitaan joitakin ohjelmia tai ohjelmistoja, joiden avulla menetelmiä voidaan soveltaa. Luvun lopuksi annetaan konkreettinen biologinen esimerkki SARSepidemian analysoinnista bioinformatiikan menetelmiä soveltaen. 3.2 Sekvenssien hankkiminen Nykyisin biologisista sekvenssitietokannoista, kuten Genbank/EMBL, löytyy jo varsin suuri valikoima sekvenssejä erilaisista eliöistä. Tällä hetkellä Genbank-tietokannasta löytyy vähintää yksi sekvenssi jo yli 100 000 erilaisesta eliöstä. Joitakin eliöitä, kuten ihminen ja kana, on jo kokonaan sekvensoitu, ja niiden genomi on saatavilla tietokannoista. Siten, helpoin tapa hankkia tutkimuksessa tarvittava sekvenssi onkin etsiä se sopivasta tietokannasta. Kaikkia mahdollisia sekvenssejä ei tietenkään ole saatavilla, jolloin joudutaan palaamaan laboratorioon ja sekvensoimaan haluttu eliön perimän osa. Sekvenssejä voi etsiä tietokannoista monella eri tavalla. Haku kannattanee aloittaa asiasanahaulla, jossa tietokannasta voidaan etsiä esimerkiksi kaikki ihmisen tRNA-geenit. Kun saatujen tulosten joukosta on valittu halutut geenit, voidaan niillä vielä sekvenssivalikoiman laajentamiseksi tehdä haku tietokantaan BLASTtai FastA-ohjelmaa käyttäen. BLAST- ja FastA-ohjelmia käytetään siis, jos tietokannasta halutaan etsiä tunnetun sekvenssin kaltaisia sekvenssejä esimerkiksi eri eliöistä. Yhdysvaltojen biotekniikan informaatiokeskuksen NCBI:n sivuilla on mahdollista tehdä hakuja moniin tietokantoihin: http://www.ncbi.nlm.nih.gov. Euroopassa samanlaisia palveluja tarjoaa Euroopan bioinformatiikan keskus EBI: http: //srs.ebi.ac.uk. 3.3 Sekvenssien ominaisuuksien selvittäminen Jatkoanalyyseja varten on monesti tarpeen tuntea sekvenssin ominaisuudet tarkemmin. Useimmat tietokannat kertovat sekvenssistä perustiedot, kuten sen pituuden tai molekyylipainon. Näiden lisäksi tietokannoissa on useimmiten tietoa myös sekvenssien sekundäärirakenteista, kuten proteiinimotiiveista tai DNA:n toiminnallisista osista, kuten introni-eksoni rajapinnoista. Tämän lisäksi voi olla tarpeen selvittää esimerkiksi restriktioentsyymien katkaisukohtia, DNA-sekvenssin GC% (guaniini- ja sytosiininukleotidien suhteellinen määrä) tai promoottorialueen alkukohdan selvittäminen. Lisäksi voi olla mielenkiintoista tarkastella esimerkiksi geenin vaihtoehtoisia silmukointimuotoja tai gee- 28 Bioinformatiikan perusteet nin ekspressiota säätelevien antisense-RNA-molekyylien tunnistaminen. Monia yllämainittuja analyysejä varten on jo kehitetty valmiita työkaluja, joita löytyy esimerkiksi ilmaisesta EMBOSS-ohjelmistokokoelmasta. EMBOSS-ohjelmistoja voi käyttää esimerkiksi osoitteessa http://bioweb.pasteur.fr/intro-uk.html. 3.4 Kahden sekvenssin rinnastus Parittaisen sekvenssirinnastuksen avulla voidaan helposti selvittää, mitkä osat kahdessa sekvenssissä ovat keskenään samankaltaisia ja millaisia evolutiivisia muutoksia kahdessa sekvenssissä on mahdollisesti tapahtunut. Rinnastuksella voidaan selvittää esimerkiksi sekvenssikohdat, joissa on tapahtunut mutaatioita, insertioita tai deleetioita. Lisäksi parittaisen rinnastuksen avulla voidaan selvittää, onko sekvensseissä tapahtunut kääntymiä (inversioita) tai onko sekvensseissä kopiojaksoja. Kahden sekvenssin rinnastukseen käytettävät menetelmät voidaan jakaa kolmeen pääluokkaan, pistematriisimenetelmään, sanakokomenetelmään ja dynaamiseen algoritmiin perustuvat menetelmät. Pistematriisimenetelmin on helppo saada visuaalinen kuva rinnastuksesta ja siten etsiä esimerkiksi kääntymiä. Kääntymien löytäminen ja huomioiminen on tärkeää, sillä ne eivät linjaudu oikein esimerkiksi dynaamista algoritmia käyttäen tai usean sekvenssin rinnastuksissa. Siksi lieneekin syytä tarkistaa tuntemattomat sekvenssit pistematriisimenetelmällä ennen tarkempien menetelmien soveltamista. Sanakokoon perustuvin menetelmin sekvenssit voidaan rinnastaa hyvin nopeasti, muttei kovinkaan tarkasti. Esimerkiksi sekvenssihaut tietokannoista soveltavat sanakokoon perustuvia menetelmiä. Dynaamisella algoritmilla saadaan tiettyä asetuksia käyttäen aina tuotettua kahden sekvenssin välinen paras mahdollinen rinnastus, mutta rinnastuksen muodostaminen kestää pidempään kuin muilla menetelmillä. Kahden sekvenssin rinnastus voidaan muodostaa esimerkiksi EMBOSS-ohjelmistopaketin työkaluilla tai ClustalX-ohjelmaa käyttäen. Clustal:ssa on mahdollista muodostaa rinnastus sanakokomenetelmää ja dynaamista algoritmia käyttäen. Clustal- ja EMBOSS-ohjelmia on mahdollista käyttää esimerkiksi osoitteessa http://bioweb. pasteur.fr/intro-uk.html. 3.5 Usean sekvenssin rinnastus Usean sekvenssin rinnastuksella on monia käyttötarkoituksia. Sen avulla voidaan esimerkiksi selvittää yhtäaikaisesti useiden sekvenssien keskinäinen samankaltaisuusaste. Vaikka samaan tulokseen päästään parittaisilla rinnastuksillakin, voidaan usean sekvenssin rinnastuksesta helpommin hahmottaa esimerkiksi kokonaista proteiiniperhettä luonnehtivia konservoituneita alueita. Monet proteiiniperheiden ja motiivien tai domeenien selvittämiseen kehitetyt menetelmät ja tietokannat, kuten PRINTS ja PROSITE, perustuvatkin usean sekvenssin rinnastuksen antamien tietojen soveltamiseen. Konservoituneet alueet vastaavat usein proteiinien toiminnallisia alueita, joten näiden alueiden vertaaminen proteiinin kolmiulotteiseen rakenteeseen voi antaa mielenkiintoista lisäinformaatiota proteiinin toiminnasta. Usean sekvenssin rinnastuksen perusteella voidaan konservoitumisen lisäksi päätellä myös sekvenssialueet, joilla esiintyy vaihtelua. Tällöin mielenkiinto keskittyy usein esimerkiksi väestötutkimuksissa sellaisten alueiden tai sekvenssikohtien löytämiseen, joilla esiintyy yhden nukleotidin vaihtelua (SNP) tai mahdollisia tautimutaatioita. Tällaisia muutoksia kartoitettaessa verrataan useiden eri geenien sekvenssien sijaan saman geenin sekvenssejä, jotka on selvitetty useilta eri yksilöiltä. Usean sekvenssin rinnastuksilla on myös keskeinen sijan evolutiivisissa tutkimuksissa (molekyylisystematiikassa), joissa jatkoanalyysit, esimerkiksi evoluutio- 3 Esiteltävien menetelmien sovellusalueet 29 historian tai virusepidemian selvittäminen, perustuvat sekvenssien rinnastukseen. Molekyylisystematiikan antamat tulokset ovat suoraan riippuvaisia rinnastuksen hyvyydestä, ja siihen tulisikin kiinnittää erityistä huomiota. Rinnastuksen laatua voidaankin arvioida ennen jatkoanalyysejä esimerkiksi sen konservoitumisastetta tai sekvenssiä vastaavaa tunnettua proteiinirakennetta käyttäen. Usean sekvenssin rinnastusta varten on olemassa useita erilaisia menetelmiä ja ohjelmistoja. Nykyisistä menetelmistä progressiivinen rinnastus on osoittautunut kaikkein tarkimmaksi ja "hinta-laatu-suhteeltaan parhaaksi. Suosituin rinnastustyökalu lienee edelleen Clustal, mutta kaikkein tarkimmaksi on viime aikoina osoittautunut Muscle. Clustalia voi käyttää esimerkiksi Pasteur Instituutissa (http: //bioweb.pasteur.fr/intro-uk.html), ja Musclen käyttöliittymä löytyy osoitteesta http://phylogenomics.berkeley.edu/cgi-bin/muscle/input_muscle. py. 3.6 Molekyylisystematiikka Perinteisesti systematiikan tarkoituksena on ollut selvittää eliöiden evoluutiohistoriaa. Molekyylisekvenssien selvittämisen helpotuttua on molekyylisystematiikka pitkälti korvannut perinteisen systematiikan. Erona on vain se, että kun morfologisiin piirteisiin turvautuva systematiikka selvittää eliöiden evoluutiosuhteita, kykenee molekyylisystematiikka selvittämään ainoastaan tutkittujen geenien evoluutiohistoriaa. Molekyylisystematiikan menetelmien sovellukset eivät kuitenkaan rajoitu systematiikkaan ja taksonomiaan, vaan ovat huomattavasti laajemmat. Itseasiassa suuri osa tutkimuksista, joissa menetelmiä käytetään ei ensisijaisesti pyri selvittämään eliöiden luokittelua. Muina sovelluskohteina voidaan mainita esimerkiksi molekyyliepidemiologia, jossa pyritään selvittämään esimerkiksi virusten aiheuttamien epidemioiden syntymistä ja etenemistä. Molekyyliepidemiologian sovellukset voivat liittyä myös oikeuslääketieteeseen sikäli, että esimerkiksi HIV-epidemioiden ja pernaruttokirjeiden alkuperää on selvitetty menetelmiä käyttäen. Menetelmiä voidaan soveltaa myös esimerkiksi geeniperheiden evoluution tutkimukseen, luonnonsuojelubiologiassa (esimerkiksi lajirikkaustutkimukset) ja populaatiogenetiikassa (esimerkiksi ihmislajin kehitys ja leviäminen maapallolla). Pasteur Instituutti (http://bioweb.pasteur.fr/intro-uk.html) tarjoaa mahdollisuuden käyttää monia molekyylisystematiikan ohjelmistoja. 3.7 SARS-epidemian selvittäminen SARS (severe acquired respiratory syndrome) puhkesi Guangdong-maakunnassa Hong Kongin lähistöllä loopuvuodesta 2002, ja levisi Hong Kongin kautta kulkeneiden liikemiesten ja turistien mukana ympäri maailmaa. Epidemia sai ilmeisesti alkunsa, kun kiinalainen lääkäri vieraili Guangdongin maakunnassa työmatkalla ja sai SARS-tartunnan. Hän yöpyi hongkongilaisessa hotellissa, ja tartutti sillä matkalla SARS:n muihin hotellissa yöpyneisiin matkalaisiin. Lääkärin hotellihuoneen ulkopuolelta löydettiin myöhemmin "hot zone"(tartuntavaarallinen alue), läikkä ihmisperäistä eritettä, jossa SARS-virusten (tai ainakin nukleiinihappojen) konsentraatio oli varsin suuri. Ilmeisesti SARS siirtyi muihin hotellivieraisiin heidän käveltyään läikän läpi, ja sormeiltuaan silmiään tai nenäänsä riisuttuaan SARS-virusta sisältäneet kenkänsä. Aluksi SARS-epidemian epäiltiin olevan bioaseisku, mutta kun tartunnan saaneista henkilöistä otetuista näytteistä eristettyjen virusten muoto ja perimä selvitettiin, voitiin huokaista helpotuksesta - virus oli luonnollinen koronavirus, joka oli sattunut siirtymään ihmiseen. Koska tartuntoja ei aikaisemmin ollut esiintynyt, oli virus hypännyt lajista toiseen vastikään. Koska Etelä-Kiinassa syödään kaikkea 30 Bioinformatiikan perusteet mikä liikkuu, esimerkiksi sivettikissoja, turvauduttiin aluksi laajamittaisiin teurastuksiin epidemian leviämisen ehkäisemiseksi. Epidemian alussa hyvin keskeistä sen seuraamiselle oli viruksen sekvenssin selvittäminen. Jopa viruksen perimän selvittäminen on suhteellisen työlästä, vaikkei enää viekään kovin kauaa aikaa. Viruksen sekvenssi selvitettiin aluksi Yhdysvalloissa, jossa työhön kului raporttien mukaan kokonaista viisi päivää. Aluksi perimä sekvensointiin lyhyissä pätkissä, koska sekvensointireaktio ei ole kovin tehokas, jos kerralla yritetään selvittää kovin pitkä sekvenssi. Näin saatiin luotua suuri määrä osittain päällekkäisiä sekvenssejä, joiden perusteella koottiin viruksen koko sekvenssi. Menetelmää, jossa sekvensoidaan satunnaisia sekvenssejä, ja niiden perusteella muodostetaan kokonainen sekvenssi, kutsutaan haulikkosekvensoinniksi (shotgun sequencing). Sekvenssien yhdistäminen ei ole laskennallisesti kovin helppoa, ja projektista kokonainen päivä kului sekvenssipätkien yhdistelemiseen, sillä SARS-viruksen perimä on suhteellisen suuri, kooltaan noin 30 kiloemästä. Sekvenssipätkien selvittyä ja tultua yhdistellyiksi, selveitettiin koko perimän avulla viruksen geenien ja niitä koodaavien aminohapposekvenssien rakenne. Tätä vaihetta kutsutaan geenien ennustamiseksi, ja on viruksilla suhteellisen yksinkertaista, koska niiden geeneissä ei yleensä esiinny introneita. Niinpä geenit ja aminohapposekvenssit voidaankin selvittää periaatteessa transloimalla koko viruksen perimä kaikissa mahdollisissa lukuraameissa aminohapposekvenssiksi, ja valitsemalla niistä parhaat ehdokkaat. Tämän jälkeen aminohapposekvenssejä verrattiin tietokannoissa jo oleviin sekvensseihin BLAST-ohjelmalla, ja havaittiin, että suurin osa niistä vastaa jo tunnettujen koronavirusten sekvenssejä, eikä SARS:ssa siten ollut mitään kummallista, eikä bioaseeseen viittaavaa. Seuraavassa vaiheessa eri henkilöiltä otettujen näytteiden perusteella pyrittiin seuraamaan epidemian kehittymistä ja selvittämään sen alkuperä. Epidemian selvittämiseksi virusnäytteitä kerättiin useita kymmeniltä henkilöiltä ympäri maailmaa, ja niiden koko sekvenssi selvitettiin. Tämän jälkeen fylogeneettisin menetelmin selvitettiin mitkä sekvenssit ovat toisilleen läheisempää sukua, ja siten voitiin päätellä, mitä reittiä epidemia on minnekin levinnyt. Seuraavassa on esitetty 32 SARS-näytteen sekvenssin perusteella muodostettu paras parsimoniapuu (Kuva 3.1). Virusnäytteet voidaan jakaa kahteen luokkaan: sellaisiin, jotka ovat suoraan yhteydessä hongkonglaiseen hotelliin, jossa kiinalainen lääkäri yöpyi ("linked to hotel M") ja sellaisiin, joilla tällaista suoraan linkkiä ei ole osoitettavissa ("no link to hotel M"). Tällaiset virukset voivat olla sellaisia, jotka ovat vasta siirtyneet alkuperäisestä isäntäeliöstään ihmiseen. Puun perusteella näyttää siltä, että epidemia sai alkunsa Hong Kongista tai Gunagdong-maakunnasta, ja siirtyi sieltä muualle. Tämä voidaan päätellä siitä, että kiinalaiset SARS-kannat ovat lähinnä puun juurta. Lisäksi esimrkiksi Frankfurtista eristetty kanta on läheistä sukua Singaporen kannoilla (Sin2677 ja Sin2774), joten Saksaan virus on todennäköisesti kulkeutunut Singaporesta. Eri viruskantojen välillä havaittiin myös huomattavia eroja kuolleisuudessa. Kannoilla, joilla on suora liittymä hotelliin M, on muita kantoja suurempi kuolleisuus. Jos tutkitaan kuvaan 160105-2 eri kuolleisuusryhmiin kuuluvien SARSvirusten sekvenssejä, havaitaan, että kutakin ryhmää karakterisoi aivan tietty mutaatioiden kirjo (Taulukko 3.2). Taulukon 3.2 perusteella voidaan päätellä, että viruksen pintaproteiinissa (S) olevat mutaatiot voisivat selittää, miksi eri ryhmiin kuuluvilla viruksilla on toisistaan eroava kuolleisuus. Erot voisivat selittyä esimerkiksi sillä, että eri mutaatiot sisältävät virukset sitoutuvat isäntäsolun reseptoriin eri tehokkuuksilla, eivätkä kaikki viruskannat siten aiheuta yhtä pahaa infektiota, eivätkä myöskään johda yhtä suurella todennäköisyydellä potilaan kuolemaan. Viruksen alkuperää selvitettäessä kerättiin näytteitä myös muista lajeista kuin ihmisestä, ja jälleen fylogeneettisiä menetelmiä käyttäen muodostettiin virusten evoluutiota kuvaava puu. Tällöin havaittiin, että kaikilla ihmisestä kerätyillä SARSvirsukannoilla on tismalleen sama 29 bp:n deleetio, jota muilla lajeilla ei esiin- 3 Esiteltävien menetelmien sovellusalueet 31 Kuva 3.1: SARS-viruksista muodostettu parsimoniapuu. Puuhun on merkitty eri virusryhmiin liittyvä kuolleisuus ja se, voidaanko viruksen alkuperä johtaa suoraan hongkongilaiseen hotelliin. Kuva 3.2: Kuvassa 3.1 eri kuolleisuusryhmiin kuuluvien SARS-viruskantojen mutaatiokirjot. 32 Bioinformatiikan perusteet ny. Tämä deleetio puuttui myös yhdeltä ihmiskannalta, ja kyseisen kannan ajateltiin olevan peräisin ensimmäisestä ihmisestä, jonka virus on infektoinut. SARSviruksen alkuperää ei ole pystytty aukottomasti osoittamaan, mutta sivettikissoista ja supikoirista eristetyt sekvenssit sijoittuvat puussa kaikkein lähimmäksi ihmisen SARS-virusten sekvenssejä. Tutkimuksissa on myös havaittu, että ihmisen SARS-viruksella on rekombinattinen polymeraasi. Tämä on selvitetty siten, että on verrattu polymeraasigeenin alkupään ja loppupään perusteella muodostettuja puita, ja havaittu, etä ne tuottavat erilaiset puut. Puissa nimittäin ihmisen SARS-viruksen polymeraasin alkupää sijoittuu tunnettujen koronavirusten joukossa eri kohtaan kuin polymeraasin loppupää. Tämä kertoo, että jossakin vaiheessa SARS-viruksen evoluutiota ainakin kaksi eri SARS-virusta on vaihtanut keskenään osia perimästään. Koska joidenkin muiden koronavirusten muodostamien proteiinien kristallirakenteita jo tunnettiin, mallitettiin tiettyjen SARS:n proteiinien rakennekin varsin nopeasti. Jos SARS-epidemiasta olisi tullut maailmanlaajuinen epidemia (pandemia), oltaisiin potilaita kenties voitu hoitaa tehokkaasti, sillä molekyylimallituksen avulla kyettiin ripeästi osoittamaan joitakin kenties SARS:ia vastaan tehokkaita proteinaasi-inhibiittoreita, joita oltaisiin voitu käyttää myös hoidoissa. Inhibiittoreien käyttö perustuu siihen, että ne estävät viruksen lisääntymisen soluissa. Lisäksi esimerkiksi pintaproteiinien mallituksen avulla selvitettiin alueet, jotka olisi viisainta valita kohdealueiksi mahdollista SARS-rokotetta kehitettäessä. Koska epidemia kuitenkin eteni nopeasti, ei rokotetta olisi ehkä ehditty kehittää, mutta samoja pintaproteiinin rakenteita vastaan oltaisiin voitu kehittää vasta-aineita, jotka sitoutuessaan virukseen olisivat puolestaan estäneet viruksen sitoutumisen isäntäsoluun ja siten myös taudin kehittymisen. Koska SARS sijoittui jo ennalta tunnettujen koronavirusten joukkoon, voitiin tutkimuksissa tehokkasti hyödyntää bioinformatiikan menetelmiä. Juuri vastaavankaltaisissa tilanteissa vapaasti saatavilla olevat genomisekvenssit ovatkin osoittaneet vahvuutensa. Virologiassa postgenomista aikakautta onkin eletty jo reilun vuosikymmenen, kun korkeampien eliöiden tutkimuksessa ollaan vasta hiljalleen pääsemässä samalle tasolle. SARS-tutkimuksessa on jouduttu soveltamaan monia seuraavassa esiteltäviä menetelmiä. Monet tutkimuksessa sovelletut menetelmät, kuten molekyylimallitus eivät valitettavasti edes ole mahtuneet tämän kirjan kansien väliin, mutta toivottavasti tämä luku on hahmottanut lukijalle hieman sitä, mihin eri menetelmiä voidaan käyttää, ja miten niitä voidaan soveltaa. Osa II Sekvenssianalyysi 34 4 Bioinformatiikan perusteet Sekvensointi ja DNA-sekvenssit 4.1 Sekvensointi Proteiini- ja DNA-sekvenssejä kerätään sekvensoimalla. Sekvenssi on joukko peräkkäisiä, sovitun aakkoston merkkejä, joilla kuvataan millaisessä peräkkäisessä järjestyksessä aminohapot ovat proteiinissa tai emäkset DNA-rihmassa. DNA-sekvenssi kuvataan useimmiten neljää emästä kuvastavien koodien A (adeniini), C (sytosiini), G (guaniini) ja T (tymidiini) avulla. Lisäksi käytössä on muutamia erikoismerkkejä, kuten N, joka tarkoittaa mitä tahansa emästä. Aminohapposekvenssejä kuvataan 20 merkistä koostuvalla aakkostolla. Sekä DNA- että aminohapposekvensseissä käytetyt koodit on lueteltu Taulukossa 4.1. Nykyisin sekvensoidaan useimmiten DNA:ta, sillä sitä varten on kehitetty suhteellisen yksinkertaisia, nopeita ja halpoja (noin 0,17 euroa / emäs) menetelmiä. Tarvittaessa DNA-sekvenssi voidaan kääntää aminohapposekvenssiksi, eikä proteiinien sekvensointi ole enää välttämättä tarpeen. Tosin, jos halutaan esimerkiksi selvittää millaista vaihtoehtoisen silmukoinnin (alternative splicing) aiheuttamaa pituusvaihtelua saman geenin tuottamissa proteiineissa esiintyy, voi olla tarpeen tutustua myös yksittäisten proteiinimolekyylien sekvensseihin. DNA:n sekvensointi hoidetaan useimmiten automaattisilla sekvensaattoreilla. Ennen näytteiden syöttämistä sekvensaattoriin, tehdään yksi sekvensointireaktio kutakin näytettä kohden. Sekvensointireaktiossa DNA-polymeraasi jatkaa lyhyttä DNA-aluketta käyttäen näyte-DNA:ta mallina periaatteessa samaan tapaan kuin normaalisti DNA:n kahdentuessa soluissa. Sekvensointireaktio on siis hyvin samankaltainen kuin tavanomainen PCR-reaktio. Tärkeimpänä erona on, että sekvensoinnissa käytetään vain yhtä aluketta, ja tavallisten deoksinukleotidien lisäksi reaktiossa on mukana dideoksinukleotideja. Dideoksinukleotideista puuttuu yksi OH-ryhmä molekyylin 3’-päästä. Tällaisen nukleotidin sattuessa kahdentuvan DNA-juosteen päähän, reaktio pysähtyy. Eri emäksiä vastaavat dideoksinukleotidit on leimattu fluoresoivilla väreillä. Sekvensaattori erottelee syntyneet DNA-juosteet koon mukaan, ja selvittää, mikä on kunkin DNA-juosteen viimeisen emäksen väri. Tietokone muuttaa värien voimakkuudet elektroferogrammiksi (Kuva 4.1), ja kääntää sen sekvenssiksi. Jokainen elektroferogrammin huippu vastaa yhtä nukleotidia. Usein jokaiselle nukleotidille annetaan luotettavuusarvo, joka ilmoittaa todennäköisyyden, että nukleotidi on tulkittu elektroferogrammista oikein. Yleensä säästetään ainoastaan tekstimuodossa oleva sekvenssi, mutta esimerkiksi perimän monimuotoisuutta tutkittaessa myös elektroferogrammin säilyttämisestä voi olla hyötyä. 4.2 Yleiset sekvensointivirheet Sekvensaattorit tuottavat sekvensseihin yleensä paljon virheitä. Jotta valmiista sekvensseistä saadaan poistettua menetelmällisistä syistä johtuvat virheet, pitää se- 4 Sekvensointi ja DNA-sekvenssit 35 Kuva 4.1: Applied Biosystems:in ABI Prism 377 -sekvensaattorin tuottaman elektroferogrammi. Kuvan alaosassa näkyvän käyrästön huiput vastaavat yksittäisiä nukleotideja. Nukleotidisekvenssi näkyy kuvassa ylimpänä. Kuva on tuotettu BioEdit-ohjelman mukana tulleesta sample.abi-tiedostosta mainitulla ohjelmalla. Taulukko 4.1: DNA- ja aminohapposekvenssien koodit ja niiden merkitykset. Merkki A B C D E F G H I K L M N P Q R S T V W X Y Z Emäs a, adeniini ei a c, sytosiini ei c g, guaniini ei g g tai t a tai c mikä tahansa a tai g c tai g t, tymidiini ei t a tai t c tai t tyrosiini Aminohappo alaniini asparagiini kysteiini aspartaatti glutamaatti fenyylialaniini glysiini histidiini isoleusiini lysiini leusiini metioniini asparagiini proliini glutamiini arginiini seriini threoniini valiini tryptofaani mikä tahansa Tyr glutamaatti Aminohappolyhenne Ala Asx Cys Asp Glu Phe Gly His Ile Lys Leu Met Asn Pro Gln Arg Ser Thr Val Trp Xaa Glx 36 Bioinformatiikan perusteet kvenssiä tarkastella silmämääräisesti. Useimmiten sekvenssin alussa on pitkähkö (40-100 bp) sekvenssialue, jolla sekvenssi on epäluotettavaa (Kuva 4.2). Tällaisen alueen tunnistaminen on helppoa, sillä elektroferogrammissa alueella olevat huiput eivät erotu toisistaan selkeästi, värien intensiteetti on alhainen ja tulkittu sekvenssi sisältää monia mitä tahansa emästä (N) tarkoittavia merkkejä. Toinen helposti tunnistettava sekvensointiongelma liittyy sekvenssin loppupäähän. Pitkän sekvenssin loppupäässä yksittäisiä emäksiä vastaavien huippujen erottuminen toisistaan on huonoa (Kuva 4.2). Tällaisilta elektroferogrammin alueilta tulkittu sekvenssi on huonolaatuista, koska emästen laadusta ei saada täyttä varmuutta. Sekä sekvenssin alkupäässä olevat 40-100 emästä, että sekvenssin loppupäässä oleva alue tulee poistaa lopullisesta sekvenssistä. Kuva 4.2: ABI:n 377-sekvensaattorin tuottama elektroferogrammi ja siitä tulkittu sekvenssi. Kuva on tuotettu BioEdit-ohjelman mukana tulleesta sample.abi-tiedostosta mainitulla ohjelmalla. Toisinaan sekvensointireaktiossa oleva korkea taustan intensiteetti antaa vääriä tuloksia, erityisesti jos pyritään löytämään polymorfisia kohtia (Kuva 4.3). Taustan korkea intensiteetti on helppo tunnistaa elektroferogrammista. Normaalisti emästen aiheuttamat piikit ovat elektroferogrammissa tasaisin väliajoin. Jos voimakkaimpien piikkien välissä on ylimääräisiä piikkejä epämääräisin väliajoin, on todennäköisesti kyseessä korkean taustan aiheuttama ongelma. Keskellä sekvenssiä esiintyviin N-merkkeihin kannattaa siis suhtautua varauksella, ja tutkia elektroferogrammia tarkasti. Edellämainittujen sekvensointivirheiden lisäksi on hyvin yleistä, että sekvenssi sisältää kloonausvektorin (DNA-molekyyli, johon yhdistettyä kiinnostavaa sekvenssiä on monistettu bakteereissa) jäänteitä. Nämä tulisi poistaa ennen sekvenssin sijoittamista tietokantaan. On kuitenkin varsin tavallista, ettei näin tehdä. Onkin arvioitu, että jopa 5% EMBL-tietokannan sekvensseistä on tosiasiassa kloonausvektorin sekvenssiä. Näin suuri määrä roskaa hankaloittaa muun muassa paikkan- 4 Sekvensointi ja DNA-sekvenssit 37 Kuva 4.3: Taustan korkea intensiteetti aiheuttaa näytteen tulkinnan (väärin) heterozygootiksi (nuoli). Kuva on tuotettu BioEdit-ohjelman mukana tulleesta sample.abi-tiedostosta mainitulla ohjelmalla. sapitävien sekvenssihakujen tekemistä tietokannoista. Kun vähintäänkin edellämainittujen ongelmien aiheuttamat mahdolliset virheet on poistettu sekvenssistä, se voidaan tarvittaessa tallentaa julkisiin tietokantoihin. 4.3 Sekvenssin tallentaminen EMBL-tietokantaan Sekvenssiaineiston ensisijainen tallennuspaikka on joko Eurooppalainen EMBLtai Yhdysvaltalainen Genbank-tietokanta. EMBL-, Genbank-, ja DDBJ tietokannat sisältävät tismalleen saman aineiston, joten sekvenssin lähettäminen jokaiseen erikseen ei ole tarpeen. Sekvenssien lähettäminen esimerkiksi Genbank-tietokantaan hoituu BankItpalvelun kautta (http://www.ncbi.nlm.nih.gov/Genbank). Genbank-tietokannan sivuilta löytyy myös työkaluja esimerkiksi plasmidikontaminaation havaitsemiseksi ja poistamiseksi. Vastaavanlainen palvelu, nimeltään WEBIN, löytyy myös Euroopan Bioinformatiikan Instituutin sivuilta (http://www.ebi.ac.uk/embl/Submission/ webin.html). Sekä BankIt että WEBIN on tarkoitettu käytettäväksi silloin, jos tietokantaan talletetaan korkeintaan muutamia sekvenssejä eivätkä sekvenssiä koskevat tiedot ole kovin monimutkaisia. Useiden kymmenien tai satojen sekvenssien tallentamiseen soveltuu parhaiten graafinen työkalu Sequin (Kuva 4.4), jolla voidaan lähettää sekvenssejä kaikkiin jäsentietokantoihin. Sequin on tarkoitettu käytettäväksi myös sellaisissa tapauksissa, joissa sekvenssin annotaatiotiedot ovat monimukaisia, eikä niiden syöttäminen BankIt- tai WEBIN-palvelua käyttäen onnistu. Kun sekvenssiä viedään tietokantaan, on oltava erityisen huolellinen ja annettava mahdollisimman paikkansapitävää informaatiota, sillä annettujen tietojen päivittäminen jälkikäteen on hieman konstikasta. Päivityspyyntö on nimittäin tehtävä tietokannan kuraattorille jokaisesta sekvenssistä erikseen, ja ainoastaan alkuperäisen sekvenssin lähettänyt henkilö saa muuttaa sitä koskevia tietoja. EMBL-, Genbank- tai DDBJ-tietokantoihin ei tällä hetkellä hyväksytä sekvenssejä, joiden pituus on alle 50 bp:ä tai jotka ovat alukesekvenssejä. Genomiset sekvenssit tulee esittää kokonaisuudessaan, intronit mukaanlukien. Sekvenssit eivät saa olla sekoituksia genomisesta ja lähetti-RNA-sekvenssistä, vaan puhtaasti jompaa kumpaa. Ribosomaalista-RNA:ta, siirtäjä-RNA:ta ja muista vastaavia sekvenssejä tietokantoihin hyväksytään, mutta EST- ja genomic survey (GSS) -sekvesseille on omat tietokantansa (dbEST ja dbGSS), joihin ne tulee sijoittaa. 4.4 Sekvenssin tallentaminen omaan käyttöön Kun sekvenssejä tallennetaan omaan käyttöön, riippuu tallennustapa käyttötarkoituksesta. Yksittäisten sekvenssien tallentamiseen käytetään erilaista tiedostomuotoa kuin esimerkiksi useiden sekvenssien rinnastusten tallentamiseen. Yhtäkaikki, 38 Bioinformatiikan perusteet Kuva 4.4: Esimerkki Sequin-ohjelman käyttöliittymästä. Ohjelmalla on mahdollista tutkia talletettavia sekvenssejä graafisessa muodossa, ja määritellä niille monimutkaisiakin annotaatiotietoja. sekvenssit tulee tallentaa tekstimuodossa (flatfile). Yleisin sekvenssimuoto, jota miltei kaikki nykyiset ohjelmat osaavat käsitellä, on Fasta. Fasta-muotoinen sekvenssi koostuu otsikkorivistä, joka alkaa >-merkillä, ja heti seuraavalta riviltä alkavasti sekvenssistä. Fasta-muotoa voidaan käyttää sekä yhden että useampien sekvenssien tallentamiseen. Myös usean sekvenssin rinnastukset taipuvat tarvittaessa Fasta-muotoon. Yhden sekvenssin tallentamiseen tarkoitettu sekvenssimuoto näyttää seuraavalta: >hXRCC1 NM_003425.2 CCACGCGTCCGGGCTCTCTGCTGAAGGGTCAAGTGGAATCTGGAATCCAG Usean sekvenssi tallentamiseen soveltuvassa Fasta-muodossa sekvenssit on lueteltu peräkkäin siten, että sekvenssejä erottaa tyhjä rivi. Esimerkiksi: >hXRCC1_1 NM_003425 CCACGCGTCCGGGCTCTCTGCTGAAGGGTCAAGTGGAATCTGGAATCCAG >hXRCC1_2 NM_003425 AGCCATGTGAAGCTGCAGACTCCAAGCAACAGAGAGACAAGATTTAGAA Fasta-muotoisten sekvenssien otsikkoriviä voi muotoilla mielensä mukaan, mutta sillä on hyvä säilyttää sekvenssin tunnistenumero, kuten ylläoleva NM_003425, jolla se voidaan aina yhdistää alkuperäiseen tietokannassa olevaan sekvenssiin. Muita sekvenssimuotoja esitellään muun muassa tietokantojen ja usean sekvenssin rinnatusmenetelmien yhteydessä. 4 Sekvensointi ja DNA-sekvenssit 4.5 39 Tietopankeissa olevien sekvenssien luotettavuus Useimmiten sekvenssit lähetetään tietopankkiin jo ennen varsinaisen artikkelin julkaisemista, eikä sekvenssien luotettavuutta mitenkään tarkasteta ulkopuolisten tahojen toimesta. Tämä asettaa paljon vastuuta tutkijan harteille. Jokaisen tutkijan velvollisuus onkin tarkistaa sekvensaattorin tuottaman sekvenssin luotettavuus, erityisesti jos sekvenssi on tarkoitus lähettää julkisiin tietopankkeihin. HUGO (Human Genome Organization) -projektissa sekvensseissä sallitaan yksi lukuvirhe 10 000 nukleotidia kohden. Tämä toimikoon hyvänä suuntaviivana sekvenssejä tietopankkiin lähetettäessä. Käytännössä vastaavaan tarkkuuteen pääseminen vaatii saman sekvenssialueen lukemista noin kymmeneen kertaan. Tietokannoista löytyy paljon sellaisia sekvenssjä, joiden luotettavuus ei ole parhaasta päästä. Toisinaan tämä johtuu menetelmällisistä syistä. Esimerkiksi EST (expressed sequence tags) -sekvenssit ovat usein varsin epäluotettavia ja sisältävät monia sekvensointivirheitä, koska jokainen näyte on sekvensoitu vain kertaalleen, jolloin sekvensseihin jää väkisinkin virheitä. Hyvin tyypillisesti EST-sekvenssit sisältävät lukukehyksen muuttamvia lukuvirheitä. EST-sekvenssejä on tietokannoissa useimmiten kuitenkin useita kappaleita, joiden huolellisella tarkastelulla useimmat lukuvirheet voidaan erottaa ja korjata. EST-sekvenssien epäluotettavuutta pahempi ongelma on, että suuri osa, noin 4-5% tietopankeissa olevista sekvensseistä, sisältää plasmidisekvenssien jäänteitä. Plasmidijäänteet vaikeuttavat tietopankkihakuja ja antavat suorastaan harhaanjohtavaa tietoa esimerkiksi monien geenien promoottorialueiden rakenteesta. Useimmiten plasmidisekvensseistä koituvat ongelmatkin on mahdollista ratkaista, kunhan malttaa tutkia tietopankista hakemiaan sekvenssejä riittävän huolellisesti. Plasmidisekvenssien havaitsemiseen ja poistamiseen on myös kehitetty useita tietokoneohjelmia. Tietokannasta haetussa sekvenssissä voi olla moniselitteisyyttä (ambiquity, Nmerkit). Ainakin sellaiset sekvenssialueet, joilla on paljon moniselitteisyyttä, on tulkittava epäluotettavaksi. Sekvenssin luotettavuutta voidaan usein parantaa muodostamalla useiden samankaltaisten sekvenssien perusteella konsensus-sekvenssi, johon on merkitty ainoastaan sellaiset nukleotidit, jotka ovat ainakin 50% alkuperäisistä sekvensseistä. Tietokantojen ylläpitäjät ovat tietoisia sekvenssien laatueroista. Kuratoidut tietokannat, kuten NCBI:n ylläpitämä nr, sisältävät kaikkein luotettavimmat sekvenssit, joskin niissäkin on yleisesti plasmidijäänteitä. 4.6 Sekvensseistä genomiksi Moniin tarkoituksiin riittää vain lyhyen sekvenssipätkän sekvensoiminen, mutta toisinaan on tarvetta selvittää pidempienkin DNA-pätkien sekvenssi. Esimerkiksi HUGO-projekti, joka tähtää koko ihmisen genomin sekvensointiin, joutui läpikäymään kolme miljardia emäsparia. Yleensä yhdellä sekvensointireaktiolla voidaan saada hyvälaatuista sekvenssiä korkeintaan noin tuhannesta emäsparista, joten parhaassakin tapauksessa HUGO-projektin toteuttaminen olisi vaatinut vähintään kolme miljoonaa sekvensointireaktiota. Kokonaisten genomien sekvenointiin sovelletaankin pääasiassa kahta erilaista sekvensointitaktiikkaa (Kuva 4.5), joiden molempien tarkoituksena on koota lyhyemmät sekvenssipätkät yhteen pidemmän sekvenssin selvittämiseksi. Lyhyemmistä sekvenssipätkistä yhteenkoottua pidempää sekvenssiä kutsutaan jatkumoksi (contig). Useiden jatkumoiden keskinäinen järjestys voidaan selvittää esimerkiksi samaan tapaan kuin lyhyempien sekvenssienkin. Kun riittävän monia jatkumoita on liitetty yhteen, selviää lopulta koko kromosomin sekvenssi. Useiden kromosomien sekvenssit muodostavat yhdessä koko eliön perimän sekvenssin. 40 Bioinformatiikan perusteet Kuva 4.5: Esimerkki kahdesta erilaisesta sekvensointitaktiikasta. Nykyisin yleisempi menetelmä on haulikkosekvensointi (shotgun sekvensointi). Haulikkosekvenssoinnissa (A) DNA pätkitään sopivan mittaisiksi pätkiksi, jotka sitten sekvensoidaan (ohuet mustat viivat). Alkuperäisen DNA-pätkän (paksu musta viiva) sekvenssi selviää, kun osittain toistensa kanssa päällekkäin menevät sekvenssipalaset sijoitetaan oikeaan järjestykseen. Perinteisessä menetelmässä (B) sekvensoidaan ensin tunnetun DNA-pätkän alusta lyhyt alue. Näin selvitettyä aluetta käytetään hyväksi seuraavaa aluetta sekvensoitaessa. Näin sekvensoitujen DNA-pätkien järjestys pysyy koko ajan tiedossa, eikä niiden keskinäisiä sijainteja tarvitse enää jälkikäteen selvitellä. Sekvenssipätkien järjestelyä kutsutaan sekvenssin kokoamiseksi (assembly). Kokoamisen jälkeen muodostetaan pätkien perusteella konsensussekvenssi, joka sisältää jokaisesta sekvenssikohdasta sen yleisimmän nukleotidin. 4.7 Genomin toiminnan selvittäminen Kun riittävän pitkä DNA-sekvenssi on selvitetty, pyritään myös sen toiminta selvittämään. Esimerkiksi, geenit (intronit ja eksonit), toistojaksot ja signaalisekvenssit pyritään paikallistamaan sekvenssistä. Tähän on useita erilaisia menetelmiä, joista osaa käsitellään tulevissa luvuissa. Eliön perimän selvittäminen on vasta ensimmäinen askel sen toiminnan ymmärtämisessä. Toiminnallinen (funktionaalinen) genomiikka pyrkii selvittämään geenien toimintaa ja toiminnan säätelyä. 4.8 Eri tyyppiset sekvenssit Sekvoisoimalla erilaisia lähtömateriaaleja tai esittämällä sekvenssi eri tavalla, voidaan tuottaa eri tyyppisiä sekvenssejä. Seuraavassa on esitelty muutamia tyypillisimpiä sekvenssimuotoja. Sekvensointiprojekteissa on useimmiten tavoitteena selvittää eliön kokonainen genominen sekvenssi. Genomisella sekvenssillä tarkoitetaan sekvenssiä, jossa kaikki genomin rakenneosat, intronit, eksonit, promoottorialueet ym., ovat mukana. Lähetti-RNA sekvenssi eroaa genomisesta sekvenssistä siten, että siitä puuttuvat intronit ja promoottorialue. Sekvensoitu lähetti-RNA vas- 4 Sekvensointi ja DNA-sekvenssit 41 taakin siten biologista lähetti-RNA:ta. Toisinaan ilmoitetaan, että on sekvensoitu cDNA:ta, mikä tarkoittaa sitä, että mRNA on ensin käännetty DNA:ksi, joka on sitten sekvensoitu. Käytännössä cDNA- ja mRNA-sekvenssit kuvaavat siis samaa molekyyliä. EST (expressed sequence tag) -sekvenssit on tuotettu lähetti-RNA:sta sekvensoimalla vain lyhyt pätkä mRNA:n alku- tai loppupäästä. STS (sequence tagged site) -sekvenssit liittyvät genomiseen sekvenssiin siten, että ne ovat lyhyitä, 200-500 bp:ä pitkiä yksilöllisiä sekvenssejä jostakin genomin kohdasta. Esimerkiksi ihmisen genomia sekvensoitaessa STS-sekvenssejä käytettiin merkkeinä osoittamaan sekvenssipätkien oikeaa järjetsystä genomissa. HTGS- tai HTG- (high throughput genomic sequence) -sekvenssit ovat viimeistelemättömiä sekvensoitiprojektien tuottamia sekvenssejä. Kun eliön genomia sekvensoidaan, tuotetaan usein hyvin nopeassa tahdissa sekvenssejä, joiden laatua tai paikkaa genomissa ei välttämättä tunneta. Tällaiset sekvenssit ovat HTGS-sekvenssejä, ja niitä käytetään viime vaiheessa koko eliön genomin selvitämiseen. HTGS-sekvenssit ovat siis genomiprojektien tuottamia viimeistelemättömiä tuloksia. GSS (genome survey sequence) -sekvessit vastaavat EST-sekvenssejä, mutta ne ovat peräisin genomisesta sekvenssistä. GSS-sekvenssit voivat olla esimerkiksi genomiprojekteissa käytettyjen YAC (yeast artificial chromosome) -kloonien alku- ja loppupäiden sekvenssejä. Tietokannoissa olevien sekvenssien yhteydessä saatetaan mainita, että sekvenssi on esimerkiksi peräisin lähetti-RNA:sta. Tällöin on syytä muistaa, että genominen sekvenssi on sille komplementaarista. Sama pätee esimerkiksi ribosomaalisiin RNA-sekvensseihin. Yleensä tietokannoissa ilmoitetaan aina sen rakenneyksikön sekvenssinä, josta se on peräisin, eikä suinkaan genomisena sekvenssinä, ellei näin erityisesti mainita. Toisin sanoen, jos tietokannassa sanotaan, että sekvenssi on rRNA:ta, on ilmoitettu sekvenssi todellakin rRNA-molekyylin sekvenssi, ei esimerkiksi sitä vastaavan geenin sekvenssiä. 42 5 Bioinformatiikan perusteet Biotietokannat 5.1 Mitä tietokannat ovat? Lyhyesti sanottuna tietokanta on kokoelma tietoja. Nykyisin käytössä on pääasiassa kahdenlaisia tietokoneistettuja tietokantoja, tekstitiedostopohjaisia (flat file) ja relaatiotietokantoja. Kolmas tietokantatyyppi, objektiorientoitunut tietokanta on vasta tulollaan. Mainittujen tietokantatyyppien välillä on tärkeitä eroja, jotka vaikuttavat paitsi tietokannan käytettävyyteen myös sen päivitettävyyteen. Seuraavassa esitellään lyhyesti tietokantojen päätyypit tarkemmin. 5.1.1 Flat file -tietokanta Flat file eli tekstitietokanta on kenties helpoimmin ymmärrrettävä tietokantamuoto, sillä se on kokoelma samassa standardimuodossa olevia tiedostoja. Tekstitietokannan voidaan ajatella vastaavan arkistokaappia, johon samalla tavalla muotoiltuja yhden paperin mittaisia tekstejä on talletettu sopivalla tavalla järjestettynä. Toisena esimerkkinä voidaan käyttää artikkelien tallentamista arkistoon. Artikkelit voi järjestää monella tavalla, aihealueen mukaan eri mappeihin, aakkostettuna tai vaikkapa käytetyn menetelmän mukaan. Ideana on kuitenkin, ettei aina jotakin artikkelia etsiessään tarvitse muistaa tarkkaan mihin sen pisti, vaan ainoastaan arkistosysteemin periaate, minkä avulla artikkeli sitten aina löytyy. Tekstitietokannoista tehdään usein sellaisia, että niihin talletettuja tiedostoja voidaan etsiä jotakin termiä käyttäen. Tällöin tietokannassa olevista tiedoista etsitään tietyltä kohtaa sanoja, joiden perusteella muodostetaan hakemisto (index) siitä, mistä kohtaa tietokantaa tieto löytyy. Hakemiston luomista kutsutaan indeksoinniksi. Arkistoanalogiaa käyttäen indeksin luomista voidaan ajatella esimerkiksi kortistona siitä, mistä mapista tai laatikosta tietty artikkeli tai paperi löytyy. Usein indeksejä luodaan eri tietoja käyttäen. Esimerkiksi artikkeliarkistolle voitaisiin luoda indeksi artikkelin ensimmäisen kirjoittajan mukaan ja aihealueen mukaan. Tällöin meillä olisi kaksi kortistoa, joiden perusteella voitaisiin tehdä hakuja esimerkiksi yhdisteltyjä hakuja. Esimerkkinä yhdistellystä hausta voisi olla "etsi kaikki artikkelit, jotka käsittelevät sekvenssianalyysiä ja joiden ensimmäisen kirjoittajan nimi alkaa C-kirjaimella". Esimerkkinä tekstitietokannan tietueesta eli yhdestä tietokantaan talletetusta "artikkelista"toimii EMBL-tietokannan kuvassa 5.1 esitetty kuvaus ihmisen hemoglobiinista. 5.1.2 Relaatiotietokanta Relaatiotietokannassa tiedot on talletettu taulukoihin. Kuhunkin taulukkoon talletetaan vain yhteen tai muutamiin asioihin liittyviä tietoja. Relaatiotietokannan taulua voi ajatella olevan kuin Excel-ohjelman taulukko. Tällaisessa taulukossa kullakin rivillä on mainittu yhteen tietokannan tietueeseen liittyviä tietoja, ja kukin sarake sisältää samasta tietueesta erilaista tietoa. Esimerkki relaatiotietokannasta voisi olla yrityshakemisto. Tällainen hakemisto voisi koostua esimerkiksi tauluista, joista 5 Biotietokannat 43 ensimmäisessä on lueteltu kaikki yritykset ja niiden yhteystiedot, ja toisessa kaikki firmojen työntekijät ja heidän yhteystietonsa. Kullekin yritykselle on yhdessa sarakkeessa annettu tunniste, jonka perusteella myös työntekijät toisessa taulussa tunnistetaan. Tämän tunnisteen perusteella voidaan tarvittaessa yhdistää yritys- ja henkilöstö-taulujen sisältämä informaatio. Relaatiotietokannan rakenne eli sen eri taulujen yhteydet toisiin tietokannan tauluihin kuvataan skeemaa (database scheme) käyttäen. Skeema on yleensä paperi, jolle kaikki tietokannan taulut on piirretty, ja niiden suhteet toisiin tauluihin kuvataan erilaisin nuolin. Skeeman tulkinta voi toisinaan olla haastavaa, varsinkin jos tietokanta on monimutkainen ja taulujen välillä on paljon yhteyksiä ja ristiviittauksia. Elektronisia relaatiotietokantoja hallinnoidaan esimerkiksi Oracle- tai MySQL -ohjelmistojen avulla. Ohjelmistojen avulla tietokantaa voidaan muun muassa luoda uusia tauluja, poistaa tarpeettomia tauluja ja tietueita ja etsiä tietoa järkevällä tavalla. Sekvenssi- ja muiden biologisten tietokantojen hallintatyökaluna on tullut tunnetuksia esimerkiksi SRS-järjestelmä, Lion Biosciences -yrityksen tuottama tietokantojen integrointiin tarkoitettu työkalu. Tietokantojen integrointi antaa mahdollisuuden hakea samaa informaatiota useista tietokannoista yhtäaikaa, esimerkiksi tehdä haku geenin nimellä yhtä aikaa sekä aminohappo- että nukleiinihapposekvenssitietokannoista. 5.2 Mitä molekyylibiologiset tietokannat ovat? Biologisiin tietokantoihin on talletettu muun muassa sekvenssejä, proteiinien motiiveja ja kiderakenteita, mutaatioita, tietoa geenien ja proteiinien ilmentymisestä kudoksissa, proteiinien välisiä interaktioita sekä reaktioteitä ja kuvauksia sairauksista. Primääritietokannoiksi kutsutaan DNA-sekvenssejä (EMBL, GenBank, DDBJ) ja aminohapposekvenssejä (PIR, MIPS, SWISS-PROT, TrEMBL, NRL-3D) sisältäviä tietokantoja, joihin on talletettu laboratoriokokeiden ensisijaiset tulokset. Sekundääriset (tunniste)tietokannat, kuten PROSITE ja BLOCKS, on johdettu primäärisistä, ja ne sisältävät esimerkiksi sekvensseille yhteisiä piirteitä, kuten proteiinien motiiveja tai sormenjälkiä. Yhdistelmätietokannat on muodostettu useiden alkuperäisten tietokantojen pohjalta kokoamalla tietoa yhteen. Tunnetuin yhdistelmätietokanta lienee NCBI:n ylläpitämä NRDB. Tietokantoihin talletettujen sekvenssien lukumäärä on kasvanut räjähdysmäisesti erityisesti viime vuosien aikana, eikä kasvun odoteta taittuvan vielä lähitulevaisuudessakaan. Vuoden 2002 lopulla EMBL-tietokanta sisälsi noin 31 miljardia nukleotidia 20 miljoonassa sekvenssissä. Tietokannan koko kaksinkertaistuu lähes vuosittain. Yli puolet sekvensseistä oli peräisin ihmisestä (Homo sapiens) tai hiirestä (Mus musculus). Useimmiten sekvenssitietokannoista etsitään tietoa asiasanan perusteella (tekstihaut) tai tunnettua sekvenssiä käyttäen (samankaltaisuushaut). Asiasanahaut on yleensä toteutettu jokseenkin samalla tavalla kuin kirjastojen hakukoneet tai Internethakukoneet, kuten Google (http://www.google.fi). Erona on, että haun nopeuttamiseksi valitaan yleensä aluksi tietokanta, jotka halutaan käyttää. Samankaltaisuushakuihin käytetään erityisesti tähän suunniteltuja ohjelmistoja, kuten BLAST:ia. Useimmista suurista tietokannoista on yhtä aikaa käytettävissä sekä uusin julkaisu että päivitys. Tietokannoista muokataan tietyin väliajoin, esimerkiksi kerran puolessa vuodessa, julkaisu, joka sisältää kaiken siihen mennessä tietokantaan talletetun informaation. Julkaisujen välillä tietokantaan lisätyt sekvenssit lisätään aluksi päivitykseen, joka sisällytetään varsinaiseen tietokantaan seuraavassa julkaisussa. Esimerkiksi EMBL-tietokannasta on tällä hetkellä (syyskuu 2005) levitykses- 44 Bioinformatiikan perusteet sä julkaisu (release) 84. Sekvenssit, jotka eivät sisälly varsinaiseen julkaisuun ovat saatavilla EMBL-tietokantapäivityksessä (update). Erityisesti vastikään kuvattujen geenien sekvenssejä etsittäessä onkin muistettava tehdä haut sekä julkaisusta että päivityksestä. Taulukossa 5.1 on lueteltu muutamia yleisimmin käytettyjä biologista aineistoa sisältäviä tietokantoja. Taulukko 5.1: Muutamien yleisesti käytettyjen biotietokantojen www-osoitteita. Tietokanta EMBL GenBank RefSeq UniGene LocusLink dbEST UniProt TrEMBL InterPro Ensembl NCBI Map Viewer PDB PubMed Internet-osoite http://srs.ebi.ac.uk http://www.ncbi.nih.gov/Genbank http://www.ncbi.nlm.nih.gov/RefSeq http://www.ncbi.nlm.nih.gov/UniGene http://www.ncbi.nlm.nih.gov/LocusLink http://www.ncbi.nlm.nih.gov/dbEST http://www.uniprot.org http://www.ebi.ac.uk/trembl http://www.ebi.ac.uk/interpro http://www.ensembl.org http://www.ncbi.nlm.nih.gov/mapview http://www.rcsb.org/pdb http://www.ncbi.nlm.nih.gov/Pubmed 5.3 Nukleotidisekvenssitietokannat 5.3.1 EMBL, GenBank ja DDBJ Yhdysvaltain, Euroopan ja Aasian ensisijaiset sekvenssitietokannat ovat GenBank, EMBL (European Molecular Biology Laboratory) ja DDBJ (DNA Data Bank of Japan). NCBI (National Center for Biotechnology Information), EBI (European Bioinformatics Institute) ja NIG (National Institute of Genetics) ylläpitävät tietokantoja yhteistyössä. Tietokantojen sisältö päivitetään keskenään ristiin joka yö (mitä se sitten tarkoittaakaan eri mantereilla oleville instituuteille), joten ne sisältävät viime hetken lisäyksiä lukuunottamatta kaikki samat sekvenssijoukon. Jokaiselle tietokannassa olevalle sekvenssille on annettu oma tunnistenumero, jolla siihen päästään käsiksi milloin tahansa. Tämä tunnistenumero ei muutu, ja saman sekvenssin löytäminen tietokannasta on edelleen mahdollista kymmenenkin vuoden kuluttua. Tämän vuoksi jokaisesta tietokannasta voi myös hakea tietoa samalla sekvenssiin liittyvällä tunnisteella (“GenBank accession number”). Tunnistenumero on kirjain- ja numerosarja, kuten X11122. Tutkimuksissa käytettyjen sekvenssien tunnistenumerot kannattaa ottaa talteen vaikkapa laboratoriokirjaan, sillä oikean sekvenssin löytäminen tietokannasta ei myöhemmin ole välttämättä helppoa pelkän ulkomuistin perusteella. EMBL, Genbank ja DDBJ ovat historiallisia tietokantoja siinä mielessä, että niihin on säilötty sellaiset sekvenssit, jotka tutkijat, tutkimusryhmät ja sekvensointiprojektit ovat niihin tallettaneet. Esimerkiksi tiettyä geeniä vastaava sekvenssi saattaa esiintyä tietokannassa useampina kopioina. Tarkoituksena ei myöskään ole ollut koota yksittäisistä sekvensseistä pitempiä yhtenäisiä jaksoja, esimerkiksi kokonaisia kromosomeja käsittäviä jatkumoita (contig). Niinpä tietokannassa oleva sekvensssi voikin olla miltei mitä tahansa lyhyestä cDNA-pätkästä kokonai- 5 Biotietokannat 45 seen kosmidiklooniin. Hyvin pitkät sekvenssit on kuitenkin pilkottu noin 350 000 nukleotidia pitkiksi pätkiksi niiden käsittelyn helpottamiseksi. Sekvensseihin liitetyt lisätiedot voivat olla hyvin epätäydellisiä ja epäluotettavia, sillä sekvenssin lähettäjä kirjaa ne tietokantaa sekvenssiä tallentaessaan, eikä niitä välttämättä enää sen koomin päivitetä. Niinpä mainituissa tietokannoissa oleviin annotaatioihin kannattaakin suhtautua varauksella. Kaikki EMBL-, GenBank- ja DDBJ-tietokannoissa olevat sekvenssit ovat julkisia, mikä ei kuitenkaan tarkoita sitä, että niitä voisi käyttää miten haluaa. Esimerkiksi sekvenssien julkaiseminen uudelleen www-sivuilla on kielletty. Sekvenssien julkisuus tarkoittaakin lähinnä, että kuka tahansa saa käyttää niitä veloituksetta tutkimuksissaan. EMBL-, GenBank-, ja DDBJ on jaettu edelleen osastoihin (division). Yhteen osastoon kootaan esimerkiksi tiettyyn eliöön liittyviä sekvenssejä (taulukko 5.2). Osastojakoa voidaan käyttää esimerkiksi samankaltaisuushakujen nopeuttamiseen, sillä halutun tuloksen löytäminen pienestä tietokannasta on helpompaa ja nopeampaa kuin suuresta. Lisäksi hakutulosten määrä on pienempi kuin koko tietokannasta saatujen tulosten määrä, eivätkä merkittävät BLAST-osumat huku taustakohinaan. Taulukko 5.2: EMBL-, GenBank-, ja DDBJ-tietokantojen sisältämien sekvenssien osastojaot. Osaston lyhenne HUM MUS ROD MAM VRT INV PLN FUN PRO VRL PHG ORG SYN EST HTG GSS HTC STS CON UNC Sisältö ihminen hiiri muut jyrsijät muut nisäkkäät muut selkärankaiset selkärangattomat kasvit sienet esitumalliset virukset bakteriofaagit soluelimet synteettiset (vektorit, plasmidit) expressed sequence tags high throughput genome (sekvensointiprojektit) genome survey sequences (sekvensointiprojektit) high throughput cDNA (sekvensointiprojektit) sequence tagged sites jatkumot (contigs) luokittelemattomat Koska tietokannoissa olevia sekvenssejä ei ole ylläpitäjien toimesta tarkastettu, ne sisältävät lukuisia sekvensointivirheitä, plasmideista peräisin olevaa sekvenssiä ja virheellisiä annotaatioita. Lisäksi samasta sekvenssistä on tietokannassa useimmiten useita kopioita. Näitä ongelmia on pyritty poistamaan muodostamalla GenBank-tietokannan perusteella uusi tietokanta, RefSeq. EMBL-, GenBank- ja DDBJ-tietokannoissa olevien sekvenssien tiedot (entry) näytetään käyttäjälle tietyssä, yhteisesti sovitussa ja standardoidussa muodossa (Text entry). Jokaisen sekvenssin tietokantamerkintä on jaettu kolmeen osaan (ku- 46 Bioinformatiikan perusteet va 5.1). Johdanto-osa koostuu sekvenssin nimestä, tunnistetiedoista, päivityshistoriasta, lyhyestä kuvauksesta, siihen liittyvistä artikkeleista ja tietokantojen ristiviittauksista. Johdanto-osan jälkeen kuvataan sekvenssin ominaisuudet (feature table). Tietokantamerkinnän lopusta löytyy itse sekvenssi, ja joitakin siihen liittyviä tilastotietoja, kuten nukleotidien runsaussuhteet. EMBL-tietokannassa sekvenssimerkinnän jokainen rivi alkaa kaksikirjaimisella lyhenteellä (taulukko 5.3), joka kertoo, millaista tietoa rivi sisältää. GenBankmerkinnässä rivien lyhenteet on korvattu selkokielisillä merkinnöillä. Nykyisin merkinnöistä on saatavilla myös ihmissilmille soveltuvammin muotoiltu versio (Emblentry), jossa rivikohtaiset tunnistetiedot on korvattu www-ympäristöön soveltuvalla graafisella merkintätavalla. Taulukko 5.3: Yleisimpien EMBL-tietokannassa käytettyjen sekvensseihin liittyvien merkintöjen lyhenteitä. Lyhenne ID AC DT DE KW OS OC RN RP RX RA RT RL DR CC FH FT SQ Merkitys Sekvenssin tunniste tietokannan nykyisessä julkaisuversiossa Sekvenssin yksilöllinen tunniste, accession number Sekvenssin julkaisu- ja päivityspäivämäärät Lyhyt kuvaus sekvenssistä Asiasanat, jotka liittyvät sekvenssiin Sen lajin nimi, josta sekvenssi on peräisin Lajin taksonominen luokittelu Sekvenssiin liittyvän julkaisun juokseva numero Julkaisuun liittyvät sekvenssialueet Sekvenssiin liittyvän julkaisun tietokantaviitteet Sekvenssiin liittyvän julkaisun kirjoittajat Sekvenssiin liittyvän julkaisun otsikko Sekvenssiin liittyvän julkaisun lehtiviite Linkit ulkoisiin tietokantoihin, kuten SWISS-PROT:iin Kommentit, jotka eivät sovi edellisiin kenttiin Ominaisuustietojen otsikko Ominaisuustiedot Sekvenssi 5.3.2 RefSeq NCBI:ssa perustetun Reference Sequence -projektin tarkoituksena on luoda tietokanta, jossa ei ole päällekkäisyyksiä. Kustakin geenin transkriptimuodosta (mRNA tai sitä vastaava proteiinisekvenssi) on tietokannassa vain yksi ainut kopio. RefSeqtietokannassa olevat tiedot ovat luotettavuudeltaan huippuluokkaa silloin, kun tietokantaa hoitavat kuraattorit ovat valitsevat tai koonneet parhaan sekvenssin ja tarkistaneet siihen liittyvät tiedot. RefSeq-sekvensseille annetaan omat tunnistenumerot tyyliin NM_123456, joiden perusteella ne voidaan tunnistaa. RefSeq-tietokannassa olevan sekvenssin tietue muistuttaa NCBI:n palvelimelta haettuna hyvin pitkälti edellä kuvattua EMBLmuotoa, mutta kuratoinnista on lisätty lyhyt kuvaus (kuva 5.2). Tällä hetkellä RefSeq-tietokannasta on saatavilla julkaisu 13, joka sisältää sekvenssejä 3060 eliöstä. Vertailun vuoksi mainittakoon, että GenBank-tietokannassa on sekvenssejä noin 100 000 eliöstä. 5 Biotietokannat ID XX AC XX SV XX DT DT XX DE XX KW XX OS OC HSAGLO1 47 standard; RNA; HUM; 575 BP. V00493; V00493.1 03-NOV-1982 (Rel. 02, Created) 11-JUN-2003 (Rel. 76, Last updated, Version 8) Homo sapiens messenger mRNA for hemoglobin alpha chain alpha-globin; HBA2 gene; hemoglobin alpha chain. Homo sapiens (human) Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; OC XX RN RP RX RX RA RA RT RT Eutheria; Primates; Catarrhini; Hominidae; Homo. RL XX DR DR DR DR XX FH FH FT J. Biol. Chem. 255(7):2807-2815(1980). FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT XX SQ [1] 1-575 MEDLINE; 80137531. PUBMED; 6244294. Wilson J.T., Wilson L.B., Reddy V.B., Cavallesco C., Ghosh P.K., Deriel J.K., Forget B.G., Weissman S.M.; "Nucleotide sequence of the coding portion of human alpha globin messenger RNA"; ENSEMBL; ENSG00000130654; ENST00000251595. ENSEMBL; ENSG00000130654; ENST00000320868. GOA; P01922. SWISS-PROT; P01922; HBA_HUMAN. Key Location/Qualifiers source 1..575 modified_base CDS polyA_site /db_xref="taxon:9606" /mol_type="mRNA" /organism="Homo sapiens" 1..1 /note="capped by m7G-ppp" /mod_base=m7g 38..466 /db_xref="GOA:P01922" /db_xref="SWISS-PROT:P01922" /product="hemoglobin alpha chain" /protein_id="CAA23752.1" /translation="MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFP HFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSH CLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR" 575..575 Sequence 575 BP; 101 A; 211 C; 158 G; 105 T; 0 other; actcttctgg tccccacaga ctcagagaga acccaccatg gtgctgtctc ctgccgacaa gaccaacgtc aaggccgcct ggggcaaggt tggcgcgcac gctggcgagt atggtgcgga 60 120 ggccctggag cctgagccac caacgccgtg cgcgcacaag gaccctggcc gttcctggct agcagttcct cttcctggtc 180 240 300 360 420 480 540 575 aggatgttcc ggctctgccc gcgcacgtgg cttcgggtgg gcccacctcc tctgtgagca cctgccagat tttgaataaa tgtccttccc aggttaaggg acgacatgcc acccggtcaa ccgccgagtt ccgtgctgac gggcctccca gtctgagtgg caccaccaag ccacggcaag caacgcgctg cttcaagctc cacccctgcg ctccaaatac acgggccctc gcggc acctacttcc aaggtggccg tccgccctga ctaagccact gtgcacgcct cgttaagctg ctcccctcct cgcacttcga acgcgctgac gcgacctgca gcctgctggt ccctggacaa gagcctcggt tgcaccggcc // Kuva 5.1: EMBL-tietokannan sisältämä informaatio ihmisen alfa-hemoglobiinin mRNAsekvenssistä. 48 Bioinformatiikan perusteet COMMENT REVIEWED REFSEQ: This record has been curated by NCBI staff. The reference sequence was derived from J00153.1. On Jun 15, 2001 this sequence version replaced gi:6715603. Summary: The human alpha globin gene cluster located on chromosome 16 spans about 30 kb and includes the following five loci: 5’zeta - pseudozeta - pseudoalpha-1 - alpha-2 - alpha-1 -3’. The alpha-2 (HBA2) and alpha-1 (HBA1) coding sequences are identical. These genes differ slightly over the 5’ untranslated regions and the introns, but they differ significantly over the 3’ untranslated regions. Two alpha chains plus two beta chains constitute HbA, which in normal adult life comprises about 97% of the total hemoglobin; alpha chains combine with delta chains to constitute HbA-2, which with HbF (fetal hemoglobin) makes up the remaining 3% of adult hemoglobin. Alpha thalassemias result from deletions of each of the alpha genes as well as deletions of both HBA2 and HBA1 respectively; some nondeletion alpha thalassemias have also been reported. COMPLETENESS: full length. Kuva 5.2: RefSeq-tietueen kuratoinnista tehty merkintä. 5.3.3 UniGene Koska GenBank sisältää yleensä useita kopioita samasta geenisekvenssistä, ja näissä kopioissa on paljon sekvensointivirheitä, on aineiston tehokas käyttö toisinaan mahdotonta. Ongelman poistamiseksi kehitettiin jo ennen RefSeq-projektia UniGenetietokanta, jossa GenBank-tietokannan EST- ja mRNA-sekvenssit on sijoitettu geenikohtaisiin ryhmiin. Jokaiseen ryhmään on liitetty tieto muun muassa geeniekspressiosta kudoksissa ja geenin sijainti eliön perimässä. Ryhmät on muodostettu automaattisesti, eikä tulosten paikkansapitävyyttä ole erikseen tarkistettu. Pitkään tunnetuilla geeneillä, joista on paljon sekvenssejä tietopankeissa, UniGene-tiedot ovat pysyneet vakaasti samoina. Sen sijaan luotettavuusongelmia voi ilmetä UniGeneryhmillä, joihin kuuluu vain muutama sekvenssi. Muodostetuille ryhmille on annettu UniGene-tunnistenumerot, jotka voivat kuitenkin muuttua tietokantajulkaisusta toiseen. UniGene-tunnisteita ei siis voi käyttää kuten GenBank-tunnistenumeroita, sekvenssien identifiointiin vaikkapa kymmenen vuoden kuluttua alkuperäisen kokeen tekemisestä. Laboratoriopäiväkirjassa pitäisikin ennemmin käyttää tiettyyn ryhmään kuuluvien sekvenssien GenBanktunnisteita. Kuvassa 5.3 on esitetty esimerkki UniGene-tietueesta. Tietue sisältää UniGenetunnisteen, geenin nimen ja kuvauksen, sen sijainnin kromosomistossa, ilmentymisen kudoksissa, vastaavan proteiinin eri malliorganismeissa (PROTSIM) sekä ryhmän muodostamiseen käytettyjen nukleotidisekvenssien ristiviittaukset eri tietokantoihin. 5.3.4 Locuslink LocusLink ei oikeastaan ole tietokanta, vaan se tarjoaa yhtenäistetyn käyttöympäristön, jonka avulla on mahdollista hakea tiettyyn geeniin liittyvää informaatiota. Locuslink sisältää informaatiota muun muassa geenien nimistä, sekvensseistä, sekvenssien tunnistenumeroista (ristiviitteet), UniGene-ryhmistä sekä geenin kromosomaalisesta sijainnista, annotaatioista (geenin funktiot) ja homologeista. Kaiken Locuslink:iin sisällytetyn aineiston pitäisi olla hyvin luotettavaa, sillä se on kuratoitu. Nykyisin NCBI:n Entrez Gene -palvelu on korvannut Locuslink-tietokannan. Sen tärkeimpänä erona Locuslinkiin on suurempi organismivalikoima. 5 Biotietokannat ID TITLE GENE CYTOBAND LOCUSLINK 49 Hs.424220 hemoglobin, alpha 1 HBA1 16p13.3 3039 EXPRESS Liver and Spleen ; placenta ; fetal spleen ; FETAL LIVER ; olfactory epithelium ; anaplastic oligodendroglioma with 1p/19q loss ; pre-eclamptic placenta ; frontal lobe ; PLACENTA COT 25-NORMALIZED ; breast ; blood ; pooled pancreas and spleen ; kidney ; PLACENTA ; Pituitary ; parathyroid tumor ; pooled colon, kidney, stomach ; pooled lung and spleen ; ovary ; insulinoma ... thyroid GNM_TERMINUS T CHROMOSOME 16 PROTSIM ORG=Homo sapiens; PROTGI=122412; PROTID=sp:P01922; PCT=100; ALN=142 PROTSIM ORG=Mus musculus; PROTGI=122441; PROTID=sp:P01942; PCT=85; ALN=142 PROTSIM SEQUENCE SEQUENCE SEQUENCE SEQUENCE SEQUENCE SEQUENCE ORG=Rattus norvegicus; PROTGI=122477; PROTID=sp:P01946; PCT=78; ALN=142 SCOUNT 1364 ACC=BC032122.1; NID=g21594678; PID=g21594679; SEQTYPE=mRNA ACC=R78046.1; NID=g853156; CLONE=IMAGE:145520; END=5’; LID=271; SEQTYPE=EST ACC=T54430.1; NID=g656291; CLONE=IMAGE:70389; END=5’; LID=250; SEQTYPE=EST ACC=R81591.1; NID=g858194; CLONE=IMAGE:147754; END=5’; LID=271; SEQTYPE=EST ACC=R70137.1; NID=g843654; CLONE=IMAGE:142528; END=5’; LID=271; SEQTYPE=EST ACC=T58693.1; NID=g660530; CLONE=IMAGE:69341; END=5’; LID=250; SEQTYPE=EST Kuva 5.3: Esimerkki ihmisen alfa-hemoglobiinin UniGene-tietueesta (vain muutama ensimmäinen SEQUENCE-kenttä esitettynä). 5.3.5 dbEST GenBankin EST-osaston sekvenssit on annotoitu alkuperäistä kattavammin ja talletettu dbEST-tietokantaan. Annotaatiot sisältävät tarkan kuvauksen laboratorionäytteistä, tutkijoiden yhteystiedoista, julkaisuista ja sekvenssin sijainnista perimässä. Lisäksi jokaiselle EST-sekvenssille on annettu uusi tunnistenumero ja joitakin ristiviitteita GenBank-tietokantaan. 5.4 Aminohapposekvenssitietokannat 5.4.1 UniProt UniProt (Universal Protein Resource) on tällä hetkellä maailman kattavin proteiinitietokanta. Se on muodostettu yhdistämällä SWISS-PROT:ssa, TrEMBL:ssä ja PIR:ssä olevat tiedot. UniProt koostuu kolmesta osasta: Knowledgebase (UniProt), Non-redundant reference (UniRef) ja Archive (UniParc). Uniprot on keskeisin tietokanta, joka sisältää kuratoitua tietoa proteiinin toiminnasta ja luokittelusta sekä kattavat ristiviittaukset toisiin tietokantoihin. Se koostuu SWISS-PROT- ja TrEMBLtietokannoista. UniRef on tietokanta, jossa kutakin proteiinia edustamaan on valittu yksi edustava sekvenssi, ja muut sekvenssit on luokiteltu sen alle. Tämä nopeuttaa hakuja tietokantaa vastaan. UniParc on kattava arkisto, jossa kunkin proteiinisekvenssin historia voidaan tarvittaessa jäljittää tarkkaan. UniProt on korvannut SWISS-PROT-tietokannan proteiinisekvenssien primaarisena säilytyspaikkana. Vaikka SWISS-PROT, TrEMBL ja PIR on nykyisin yhdistetty UniProt-tietokannaksi, esitellään seuraavassa kukin tietokanta kuitenkin vielä erikseen muun muassa historiallisista syistä, sillä esimerkiksi SWISS-PROT esiintyy terminä monissa artikkeleissa. Kaikki se mitä seuraavassa sanotaan SWISS-PROT-tietokannasta pätee myös UniProt-tietokantaan. 50 Bioinformatiikan perusteet 5.4.2 SWISS-PROT SWISS-PROT on EBI:n ja SIB:n (Swiss Institute of Bioinformatics) ylläpitämä laadukas aminohapposekvenssitietokanta. Sen sisältämissä sekvensseissä on vähän päällekkäisyyksiä, tiedot ovat asiantuntijoiden tarkistamia ja tietokannasta on kattavat ristiviittaukset 60 muuhun tietolähteeseen. Ristiviittausten avulla on mahdollista hakea esimerkiksi proteiinia vastaava DNA-sekvenssi EMBL-tietokannasta, proteiinin kiderakenne PDB-tietokannasta tai kuvaus proteiinin liittyvistä sairauksista OMIM (online Mendelian inheritance in man) -tietokannasta. SWISS-PROT:in suurin etu on, että jokainen sekvenssi tarkistetaan ja annotoidaan käsin. Tarvittaessa ylläpitäjät myös korjaavat ja päivittävät tietoja. SWISSPROT sisältääkin kaikkein luotettavinta tietoa muun muassa proteiinien rakenteista, funktioista, aktiivisista kohdista ja monimuotoisuudesta. SWISS-PROT-tietueen esitysmuoto muistuttaa läheisesti EMBL-tietueen muotoa (kuva 5.1), ja jokaisella sekvenssillä on oma tunnisteensa. Suurin ero näiden sekvenssimuotojen väliltä löytyy ominaisuustietojen kuvauksista (feature tablesta, FT-alkuiset rivit). 5.4.3 TrEMBL TrEMBL (Translated EMBL) sisältää kaikki sellaiset nukleotidisekvenssien translaatiot, joita ei vielä ole sisällytetty SWISS-PROT-tietokantaan. TrEMBL jaetaan normaalisti kahteen osaan, joista SPTrEMBL (SWISS-PROT TrEMBL) sisältää ne sekvenssit, jotka aiotaan sisällyttää SWISS-PROT:iin. REMTrEMBL (Remaining TrEMBL) sisältää ne sekvenssit, joita ei haluta sisällyttää SWISS-PROT:iin. Tällaisia ovat esimerkiksi immunoglobuliinit, T-solureseptorit, synteettiset sekvenssit ja pseudogeenit. SPTrEMBL-tietokannan sekvensseille on annettu tunnisteet, REMTrEMBL-sekvensseille sen sijaan ei. Toisin kuin SWISS-PROT, TrEMBL-tietokannat on annotoitu vain koneellisesti. Esimerkiksi arvio proteiinin mahdollisesta funktiosta, aktiivisista kohdista ja domeeneista perustuu InterPro-hakuihin. SPTrEMBL on myöskin osittain päällekkäinen SWISS-PROT:in kanssa, sillä monet sen sisältämistä sekvensseistä ovat kopioita SWISS-PROT:ssa jo olevista sekvensseistä. TrEMBL-tietokantojen tietueiden esitysmuoto muistuttaa paljolti EMBL-tietueen muotoa (Kuva 5.1). Tietokannat täydentävät hyvin SWISS-PROT tietokantaa, ja usein onkin hyödyllistä tehdä haku molemmista. 5.4.4 PIR PIR (Protein Information Resource) perustui alunperin Margaret Dayhoffin sekvenssikokoelmaan, joka sai alkunsa kirjasarjana Atlas of Protein Sequence and Structure. PIR ylläpiti tietokantaa yhdessä MIPS:n (Munich Center for Protein Sequences) ja JIPID:n (Japan International Protein Information Database) kanssa. PIR:n tavoitteena oli tuottaa päällekkäisyyksiä sisältämätön tietokanta, jonka annotaatiotiedot ovat hyvin luotettavia. Keskeinen osa PIR:n annotaatiota oli proteiinien luokittelu perheisiin sekvenssi-identtisyyden perusteella. Proteiinit oli jaetttu homologiadomeeniperheisiin, esimerkiksi kaikki immunoglobuliinit kuuluvat luokittelussa samaan perheeseen, koska niissä kaikissa on immunoglobuliinidomeeni. Tietokanta jakautui neljään osaan lähinnä historiallisista syistä. PIR1 ja PIR2 sisälsivät yli 99% kaikista sekvensseistä, eikä niiden välillä ollut mitään selkeää jakokriteeriä. PIR3 sisälsi sekvenssejä, joita ei ollut tarkistettu, yhdistetty, luokiteltu eikä annotoitu. PIR4:ssä olevat sekvenssit olivat tarkistettuja ja annotoituja, mutta niitä ei esiintynyt luonnossa. Tällaisia olivat synteettiset sekvenssit, pseudogeenien translaatiotuotteet ja lukuraamimutaatioiden tuotteet. PIR-tietokantaa ei nykyisin enää kehitetä, vaikka viimeisin julkaisu (31.12.2004) 5 Biotietokannat 51 onkin edelleen internetissä saatavilla. 5.5 Yhdistelmätietokannat Koska erillisten tietokantojen määrä on kasvanut hyvin suureksi, on joissakin tapauksissa päädytty muodostamaan yhdistelmätietokantoja, jotka sisältävät yksittäisten tietokantojen tiedot yhdistettynä. Tiedon hakeminen yhdistelmätietokannoista on siis helpompaa kuin saman tiedon etsiminen monesta yksittäisestä tietokannasta. Haun nopeus ja tarkkuus parantuu, jos tietokantaa muodostettaessa samasta sekvenssistä tallennetaan tietokantaan vain yksi ainoa kopio. NRDB (non-redundant database) tai lyhyesti NR on NCBI:ssa paikallisesti muodostettu tietokanta. NR proteins yhdistää koko GenBank-tietokannan translaation, RefSeq:in aminohapposekvenssit, PDB:n, SwissProtin ja muutamia muita tietokantoja. NR nucleotide sisältää GenBank-, RefSeq-, EMBL-, DDBJ- ja PDBsekvenssit, muttei kuitenkaan sisällä EST (expressed sequence tag)-, STS (sequence tagged site)-, GSS (genome survey sequence)- tai HTGS (high throughput genomic sequence) -sekvenssejä. Nykyisin NRDB ei ole enää ei-redundantti, vaan samasta kohteesta saattaa tietokannassa olla useampia, vaikkapa eri mittaisia kopioita. Samasta kohteesta saattaa NR-tietokannassa olla useampia kopioita, polymorfisia kohtia tai jopa suoranaisia sekvensointivirheitä sisältäviä tai eri mittaisia sekvenssejä. Vain täsmälleen 100on jätetty pois NR:stä. 5.6 Tunnistetietokannat Tunnistetietokannat ovat arvokkaista tietolähteitä, sillä niitä voidaan käyttää apuna tuntemattomien proteiinien funktioiden selvittämisessä tai proteiinin sijoittamisessa oikeaan proteiiniperheeseen tai -superperheeseen. Tunnistetietokantahauilla onkin mahdollista löytää hakusekvenssin kaukaisia sukulaisia tavanomaisia sekvenssihakuja tehokkaammin. Genomikartoitusprojektit käyttävät tunnistetietokantoja tuottamiensa sekvenssien toimintojen tai toiminnallisten osien (domeenit) kuvaamiseen. Tunnistetietokantoja kutsutaan myös sekundaaritietokannoiksi. PROSITE ja PRINTS ovat ensisijaiset tunnistetietokannat, sillä niiden sisältö on käsin tarkistettu, ja sekvenssien (motiivit, sormenjäljet) kuvaukset on tarkistettu. Ne siis sisältävät hyvin luotettavaa tietoa. Muut tunnistetietokannat luodaan joko näiden pohjalta, tai käyttäen pitkälti automatisoituja menetelmiä. Tällaisia tietokantoja ei voida pitää yhtä luotettavina kuin PROSITE:a ja PRINTS:ia. 5.6.1 PROSITE PROSITE on nykyisistä tunnistetietokannoista vanhin, ja siten myöskin kaikkein kattavin. PROSITE on muodostettu usean sekvenssin rinnastusten perusteella siten, että proteiiniperheen kuvaamiseksi on rinnastuksesta valittu yksi, kaikkein konservoitunein alue (motif, motiivi). Tällaiset motiivit tai blokit yleensä vastaavat alueita, joilla on tärkeitä biologisia toimintoja, kuten entsyymin aktiivinen kohta tai ligandin tai metalli-ionin sitoutumiskohta. PROSITE:n avulla pitäisi olla mahdollista sijoittaa tuntematon proteiini oikeaan perheeseen tai selvittää minkälaisia domeeneja tai toiminnallisia kohtia siinä esiintyy. Motiivit on tallennettu PROSITE:en säännöllisinä lausekkeina (regular expression), joita usein kutsutaan myös säännönmukaisuuksiksi (pattern). Säännölliset lausekkeet kuvaavat sekvensseissä esiintyvää vaihtelua melko karkealla tasolla, eivätkä välttämättä sovellu kovin kaukaisten sukulaissekvenssien tunnistamiseen. Esimerkiksi säännöllinen lauseke [AS] - D - G - DE - [FY]2 tarkoittaa, että ensimmäisessä paikassa saattaa olla joko A tai S, toisessa paikassa on D, kol- 52 Bioinformatiikan perusteet mannessa G ja neljännessä mikä tahansa paitsi D ja E, viidennessä ja kuudennessa paikassa kummassakin voi esiintyä joko F tai Y. Säännöllisiä lausekkeita voidaan tehdä joustavammiksi käyttämällä hyväksi tietoa aminohappojen ominaisuuksista eli niiden ryhmittelyä koon, varautumisen ynnä muun suhteen. Tällöin esimerkissä olevaa ensimmäistä [AS]-jäsentä voidaan laajentaa koskemaan myös esim. G, P ja T eli [ASGPT]. Näitä joustavampia säännöllisiä lausekkeita kutsutaan termillä fuzzy regular expression (sumea/epämääräinen säännöllinen lauseke). Mitä epämääräisempi lauseke on, sitä kaukaisempia sukulaisia se voi paljastaa. Toisaalta se lisää myös väärien sukulaisuuksien osuutta osumien joukossa. Sumeita säännöllisiä lausekkeita käytetään motiivien kuvailuun IDENTIFY-tietokannassa. Alkuperäisen lauseen muodostamisen jälkeen sillä tehdään haku koko SWISSPROT-tietokantaa vastaan, ja tutkitaan (käsipelillä) kuinka hyvin se toimii. Tässä vaiheessa väärien positiivisten osumien määrä pyritään minimoimaan, ja oikeiden positiivisten osumien määrä puolestaan maksimoimaan tarvittaessa lauseketta muuttelemalla. Toisinaan jotakin proteiiniperhettä ei voida kuvata vain yhdellä ainoalla motiivilla. Tällöin käytetään useampia motiiveja, jotka yhteisesti optimoidaan toimimaan tietokantahauissa parhaalla mahdollisella tavalla. 5.6.2 PRINTS Useimpia proteiiniperheitä on helpompi kuvailla useamman kuin yhden konservoituneen motiivin avulla. Tämä johtuu muun muassa siitä, että sama motiivi voi esiintyä hyvin monissa erilaisissa proteiineissa ilman, että proteiinit kuuluvat samaan perheeseen. Esimerkiksi ATP:n (energiaa kuljettava molekyyli) sitova motiivi esiintyy yleisesti hyvin monissa entsyymeissä, eikä sen käyttäminen perheiden erotteluun ole toimiva ratkaisu. Tämän vuoksi perustettiin PRINTS-tietokanta, joka käyttää proteiiniperheiden kuvailemiseen useita motiiveja (“sormenjäljet”, fingerprints). PRINTS-tietokannan motiivit ovat aukottomia (ungapped) paikallisia rinnastuksia, joissa yksittäisten sekvenssien tieto on säilytetty, eikä sitä ole puristettu kokoon esimerkiksi säännölliseksi lausekkeeksi kuten PROSITE-tietokannassa. Sormenjäljet on muodostettu iteratiivisella menetelmällä, jossa ensin tehdään pieni, alkuperäinen usean sekvenssin rinnastus. Tästä rinnastuksesta etsitään konservoituneet motiivit, tehdään niillä tietokantahaku SWISS-PROT:ia vastaan, ja tuloksista etsitään osumia sellaisiin uusiin sekvensseihin, joita ei alkuperäisessä rinnastuksessa vielä ollut. Uudet sekvenssit lisätään rinnastukseen, motiivit muodostetaan uudelleen, ja tietokantahaku toistetaan. Tätä prosessia toistetaan, kunnes senhetkisestä SWISS-PROT-tietokannasta ei löydy enää uusia sekvenssejä. Lopuksi valmiit sormenjäljet annotoidaan, eli tiedot niiden kuvaaman proteiiniperheen toiminnallisista ominaisuuksista liitetään sormenjäljen yhteyteen. PRINTS-tietokanta sisältää samankaltaisuusmatriiseja (identity matrix). Tällaiset matriisit sisältävät konservoituneimman sekvenssialueen rinnastuksen, mutta rinnastusta ei ole erityisesti pisteytetty. Sormenjäljet ilmaistaan yleensä frekvenssitaulukon muodossa (Kuva 5.4), jossa pystyrivillä on motiivi ja vaakarivillä aminohapot. Taulukon arvot vastaavat frekvenssejä, montako kertaa tietty aminohappo esiintyy tietyssä motiivin kohdassa. Tätä taulukkoa voidaan sitten käyttää hyväksi tietokantahauissa, kun halutaan tietää mihin proteiiniryhmään tutkittava sekvenssi kuuluu. Jos tutkittava sekvenssi sisältää kaikki tai osan motiiveista oikeassa järjestyksessä ja oikealla etäisyydellä toisistaan, katsotaan sen kuuluvaan motiiveja vastaavaan proteiiniperheeseen. 5.7 Tunnisteiden yhdistelmätietokannat - InterPro InterPro, joka sisältää informaatiota proteiinien domeenirakenteista ja toiminnoista, on muodostettu useista pienemmistä tunnistetietokannoista (PROSITE, Pfam, 5 Biotietokannat 53 INITIAL MOTIF SETS ALPHAHAEM1 Length of motif = 13 Motif number = 1 Alpha haemoglobin motif I - 1 DHVKGHEEAIGAE HBA1\_PLEWA 15 15 DHVKGHEDAFGHE HBA\_AMBME 16 16 GKVAGHLEEYGAE HBA\_CAICR 15 15 SKVCVHAEEYGAE HBA\_SPHPU 15 15 GKIGGHAGEYGAE HBA\_MESAU 15 15 Kuva 5.4: Esimerkkinä on globiinin sormenjälki, joka on haettu PRINTS-tietokannasta (http://www.bioinf.man.ac.uk/dbbrowser/PRINTS). Alla on annettu vain osa tulostuksesta, esimerkiksi kunkin motiivin kohdalla on annettu vain viisi globiiniperheeseen kuuluvaa sekvenssiä. Jokaisen motiivin kohdalla on annettu sen pituus (lenght of motif) ja motiivin numero (motif number). ST tarkoittaa motiivin alkamiskohtaa kyseisessä sekvenssissä ja INT sen aloituskohdan etäisyyttä edellisen motiivin lopetuskohdasta. PRINTS, ProDom, SMART ja TIGRFAMs). Ennen yhdistämistä asiantuntijat ovat käyneet läpi kaikkien tietokantojen tiedot, ja annotaatiot on saatettu ajantasalle. Viittaukset jäsentietokantoihin on säilytetty, joten alkuperäiseen informaatioon on mahdollista päästä käsiksi. InterProScan-palvelu mahdollistaa yhtäaikaisen haun kaikista jäsentietokannoista, mikä on kätevää, sillä kaikkien jäsentietokantojen läpikäyminen on aikaaviepää. Lisäksi kaiken saatavilla olevan tiedon yhtäaikainen tarkastelu saattaa tarjota uusia näkökulmia asiaan: Jos sama toiminnallinen alue löytyy useista tietokannoista, se luultavasti on oikeastikin olemassa. Kuvassa 5.5 on esitetty erään InterProScan-haun tulos. Kuva 5.5: InterProScan-haun tulos. Kuvassa keskellä on esitetty hakusekvenssiä vastaavan proteiinin domeenirakenne. Oikeassa reunassa ilmoitetaan domeenien nimet. Tunnistenumerot ja värilliset domeenipalkit toimivat linkkeinä tietokantoihin. 5.8 Genomitietokannat 5.8.1 Ensembl EBI:n ja Sanger Instituutin Ensembl-projekti ylläpitää tietokantaa, joka sisältää monisoluisten eliöiden genomeja. Genomeihin on koottu julkinen sekvenssiaineisto, joka sisältää tunnetut ja ennustetut geenit sekä geenien sijainnin kromosomistossa. Tietokannassa on aineistoa myös geenien monimuotoisuudesta ja ilmentymisestä sekä proteiineista. Ristiviitteet muihin tietokantoihin ovat erittäin kattavat. Geenituotteiden automaattinen annotointi perustuu pääasiassa InterPro-tietokantaan. 54 Bioinformatiikan perusteet Kuvassa 5.6 on esitetty Ensembl-tietokannan käyttöliittymää. Tällä hetkellä Ensembl-tietokannassa on saatavilla erityisesti monisoluisten eläinten genomeja. Tietokanta ei tule näillä näkymin juurikaan lisäämään valikoimiinsa yksisoluisten genomeja, eikä suunnitelmassa ole laajentaa valikoimaan myöskään kasvien suuntaan. Tietokannan avulla on mahdollista hakea esimerkiksi geenien oletettuja promoottorialuesekvenssejä. Tietokanta tarjoaa myös mahdollisuuden BLAST-hakuihin eri eliöiden genomeja vastaan. Tällöin haku rajautuu suoraan valittuihin eliöihin, mikä on toisinaan kätevää, erityisesti jos halutaan päästä eroon turhista ja vääristä osumista ei-mielenkiintoisiin lajeihin. 5.8.2 UCSC UCSC genome browser on toinen laajalti käytetty genomitietokanta. Se on Yhdysvaltalaisen UCSC-yliopiston (University of California, Santa Cruz) ylläpitämä. Esimerkiksi ihmisen genomin ollessa kysessä UCSC on yleensä ollut ensimmäinen genomitietokanta, joka on julkaissut uusimman genomiversion sen ollessa saatavilla. UCSC:n genomivalikoima on hieman laajempi kuin Ensembl:n, mutta pääpaino on kuitenkin monisoluisissa eläimissä. 5.9 Rakennetietokannat 5.9.1 PDB PDB on tärkein proteiinien rakenteita sisältävä tietokanta. Tällä hetkellä tietokannassa on yli 32 000 proteiinin kiderakenne. Tietokanta sisältää hyvin luotettavaa tietoa, sillä jokainen rakennekuvaus käy läpi hyvin tarkan laadunvalvonnan. Esimerkiksi, atomien väliset etäisyydet tarkistetaan ennen rakenteen lopullista sijoittamista tietokantaan. Myös NCBI tarjoaa käyttäjilleen rakennetietokannan, mutta sen sisältämä aineisto on epätäydellistä, ja molekyylimallituksessa onkin turvauduttava PDB:n tarkempiin rakennekuvauksiin. PDB:n ja NCBI:n lisäksi EBI:n ylläpitämä MSD-tietokanta sisältää proteiinirakenteita. Sen etuina PDB:hen verrattuna ovat kehittyneemmät hakutyökalut, kuten haku proteiinien ligandien perusteella ja listaukset mahdollisista konflikteista rakenteessa mainitun ja SWISS-PROT:ssa olevan vastaavan sekvenssin välillä. 5.10 Julkaisutietokannat 5.10.1 PubMed Maailma on pullollaan erilaisia julkaisutietokantoja, mutta biolääketieteellistä tutkimusta tekeville NLM:n (National Library of Medicine) MEDLINE on ylitse muiden. NCBI tarjoaa MEDLINE:n käyttöä varten oman palvelunsa, PubMed:in, joka on käyttäjille ilmainen. Se sisältää yli 4500 lehden julkaisutiedot tiivistelmineen alkaen vuodesta 1971. PubMed sisältää monipuoliset mahdollisuudet julkaisuhakujen muotoiluun ja rajaamiseen. Lisäksi useimmista tiivistelmistä on linkki elektronisiin julkaisuihin, joista monet ovat nykyisin ilmaisia. 5.11 Miten käytän tietokantoja? Erilaisten tietokantojen paljous voi aluksi tuntua hämmentävältä. Tässä esitettävien yksinkertaisten muistisääntöjen avulla pääsee nimittäin helposti alkuun. Esimerkit on jaoteltu sen mukaan, millä alkutiedoilla haut aloitetaan. 5 Biotietokannat 55 Kuva 5.6: Ensembl-tietokannan ContigView, jolla yksittäisen kromosomialueen geenistön tutkiminen on helppoa. Tutkittava kromosomialue on merkitty Chromosome- ja Overviewkenttiin punaisella laatikolla. Detailed View -kenttä näyttää geenien ja joidenkin kromosomimerkkien (marker) tarkemman sijainnin kromosomissa. 56 Bioinformatiikan perusteet 5.11.1 Mistä tietokannasta lähteä liikkeelle? Useimmiten uuden käyttäjän on hankala päättää, mistä tietokannasta mitäkin tietoa kannattaisi lähteä hakemaan. Tähän voidaan antaa muutamia helposti muistettavia pääsääntöjä, jotka tuskin tulevat tulevaisuudessakaan kovin radikaalisti muuttumaan. • DNA-sekvenssien, olivat ne sitten geenejä, EST-sekvenssejä tai vaikkapa ribosomaalista RNA:ta, hakemiseen soveltuu parhaiten GenBank- tai EMBLtietokanta. Erityisen hyvälaatuisia lähetti-RNA-sekvenssejä kannattanee etsiä RefSeq-tietokannasta. • Pidempien genomisekvenssien ja mahdollisesti myös promoottorisekvenssien hankkimiseen paras paikka on Ensembl. • Aminohapposekvenssien hankkiminen kannattaa aloittaa Swiss-Prot (UniProt) -tietokannasta. • Yhden emäksen muutosten (SNP) selvittämiseksi kannattaa suunnata Ensembltietokantaan, jossa on suuri määrä informaatiota SNP:stä. • Proteiinirakenteita on talletettu PDB-tietokantaan, ja molekyylimallitusta tai muuta vastaavaa tekevien kannattaa kohdistaa www-selaimensa sinne. • Sekvenssien annotoinnista kiinnostuneiden kannattanee suunnata Ensembl-, EMBL-, RefSeq- ja UniProt-tietokantoihin, joissa kussakin on suuri määrä informaatiota geenien toiminnasta ja sijainnista eliön genomissa. Ensisijaisena vaihtoehtona useimmille liki täysin sekvenoiduille eukarytooteille on Ensembl-tietokanta. Annotaatioiden haku onnistuu geenin nimen tai BLAST-haun perusteella. 5.11.2 Asiasanahaku Asiasana voi tarkoittaa tässä yhteydessä esimerkiksi geenin nimeä, artikkelin kirjoittajaa tai sekvenssin tunnistenumeroa. Useimmista tietokannoista on mahdollista tehdä hakuja asiasanaa käyttäen. Valittava tietokanta riippuu tietenkin siitä, minkälaista tietoa halutaan etsiä. Esimerkiksi, jos halutaan löytää ihmisen hemoglobiini alfan lähetti-RNA:n nukleotidisekvenssi, kannattaa suunnata EMBL-tietokantaan. Vastaavasti geenin paikallistaminen genomiin onnistuu LocusLink- tai Ensembltietokantoja käyttäen. Useimmiten asiasanahaulla halutaan päästä käsiksi tietyn geenin tai proteiinin sekvenssiin tai saada lisätietoja sen toiminnasta tai sijainnista genomissa. 5.11.3 Sekvenssihaku Aminohappo- ja nukleotidisekvenssien perusteella voidaan tehdä monimutkaisempia tietokantahakuja kuin pelkällä asiasanalla. Esimerkiksi, aminohapposekvenssin avulla on mahdollista selvittää proteiinin domeenirakenne, sen mahdollinen toiminta ja interaktiot muiden proteiinien kanssa (InterPro-tietokanta), sekä saada tietoa proteiinin liittymisestä tiettyihin ihmisen sairauksiin. Toisinaan on tarpeen selvittää nukleotidisekvenssiä vastaava proteiinisekvenssi. Tämä onnistuu helposti käyttäen EMBL-tietokantaa. Jokaisen EMBL-tietokannassa olevan nukleotidisekvenssin yhteyteen on nimittäin talletettu sen translaatiotuote. Lisäksi EMBL-tietueissa on ristiviite UniProt-tietokantaan talletettuun aminohapposekvenssiin. Tarvittaessa on tietenkin mahdollista kääntää nukleotidisekvenssi amonihapposekvenssiksi myös käsin. 5 Biotietokannat 57 Aminohapposekvenssin kääntäminen nukleotidisekvenssiksi ei onnistu, koska geneettisessä koodissa yhtä aminohappoa vastaa useampi DNA:n emäskolmikko (kodoni). Tällöin on tarpeen turvautua aminohapposekvenssitietokantojen ristiviitteisiin. Aminohapposekvenssin tunnistenumeron avulla on mahdollista löytää SWISS-PROT tietokannasta ristiviite EMBL-tietokantaan, josta puolestaan saa selville proteiinia vastaavan nukleotidisekvenssin. Kaikkein kattavimmat ristiviitteet löytyvät Ensembl- ja LocusLink-tietokannoista. Niistä voi tehdä hakuja sekä asiasanalla että sekvenssillä, joten kaiken muun epäonnistuessa kannattanee turvautua genomitietokantoihin tarvittavan tiedon löytämiseksi. Genomitietokannoista löytyvät myös ristiviitteet julkaisutietokantoihin, jolloin on mahdollista tutustua sekvensseihin liittyviin tieteellisiin artikkeleihinkin. 5.11.4 Tunnistenumerohaku Tunnistenumero liittyy aina yhteen tietokannassa olevaan sekvenssiin. Sillä on helppo päästä käsiksi alkuperäiseen informaatioon, kunhan tietää mistä tietokannasta sekvenssi on peräisin. Jos muistikuva alkuperäisestä tietokannasta on hukassa, kannattaa turvautua Ensembl-tietokantaan, josta voi tehdä hakuja hyvin monilla erilaisilla tunnistenumeroilla. Tämän jälkeen pääseekin käsiksi sekvenssiin ja muuhun informaatioon nopeasti, sillä Ensembl:ssä on hyvin kattavat ristiviitteet muihin tietokantoihin. Alkuperäisen tietokannan ollessa tiedossa voi sekvenssin käydä hakemassa suoraan sieltä. Sekvenssillä voi sitten jatkaa tarvittavien analyysien tekemistä. 5.12 Tunnistenumeroista Kun tietokantaan luodaan uusi tietue, joka tietokannasta riippuen sisältää esimerkiksi nukleiinihapposekvenssin ja sen annotaatiot (kuvauksen), luodaan tietueelle niin sanottu “accession number” (tunnistenumero). Toinen vastaavassa yhteydessä usein esiintyvä tietuetta vastaava tunniste on “id” (identification). Näiden periaatteellisena erona on, että id:n on tarkoitus olla ihmissilmin luettava ja ymmärrettävä ja tunnistenumeron on tarkoitus palvella tietokannan sisäistä käyttöä. Kaikissa tietokannoissa ei käytetä molempia, ja niissäkin, joissa molemmat ovat käytössä, on nykyisin usein tapana käyttää id:nä tunnistenumeroa. Tunnistenumeron käyttö on ajanut monesti id:n ohi siksi, että uusia sekvenssitietueita syntyy niin nopeasti, ettei tietokannan ylläpitäjillä ole ollut aikaa keksiä kaikille kuvaavia id:tä. Sekvenssien tunnistenumerot siis ovat tavallaan historiallisia, sillä ne on annettu tietueille, kun ne on tuotu tietokantaan, ja tunnistenumero pysyy monesti muuttumattomana, vaikka tietokantaa päivitetäänkin. Eräänä poikkeuksena tähän sääntöön ovat UniGeneja Locuslink-tietokannat, joissa sekvenssijoukon tunnistenumero voi muuttua eri julkaisujen välillä. Siksi niiden käytössä tulee olla varovainen, ja aina sekvensseihin viitattaessa on turvallisempaa käyttää jonkin primaaritietokannan tunnistenumeroa. Taulukossa 5.4 on esitetty muutamia esimerkkejä muutamien yleisesti käytettyjen tietokantojen tunnistenumeroista. Jos tapaa uuden tunnistenumeron, eikä ole varma mistä tietokannasta se on peräisin, voi asiaa pyrkiä selvittämään Ensemblgenomitietokannan avulla. Sen etusivulta löytyvään pikahakuruutuun voi kirjoittaa tunnistenumeron, ja jos se vastaa jotakin tietuetta jossakin Ensembl:n tunnistamassa tietokannassa, on tuloksena sekä itse tietue, että tieto mistä tietokannasta se on peräisin. 58 Bioinformatiikan perusteet Taulukko 5.4: Esimerkkejä muutamien tietokantojen tunnistenumeroista. Tunnistenumero XRCC1 M36089 P18887 XRCC1_HUMAN NM_006297 NP_006388 Hs.98493 ENSG00000073050 ENSO00000262887 7515 IPR002706 Tietokanta HUGO ID EMBL accession number UniProt accession number UniProt ID RefSeq, nukleotidisekvenssin accession number RefSeq, aminohapposekvenssin accession number UniGene ID Ensembl, geenisekvessin accession number Ensembl, aminohapposekvessin accession number Locuslink ID, Entrez Gene GeneID InterPro, motiivin accession number 6 Pisteytysmatriisit 6 6.1 59 Pisteytysmatriisit Pisteytysmatriisit Sekvenssirinnastuksessa on tärkeää erotella yhteensopivat parit, osumat (match), ja yhteensopimattomat parit, hudit. Osumat ovat toivottavampia kuin hudit, ja antavat rinnastusta pisteytettäessä myös korkeamman pistemäärän. Osumien ja hutien saamat pistemäärät ilmoitetaan pisteytysmatriisissa. Pisteytysmatriiseja käytetään myös fylogeneettisten menetelmien apuna määrittelemään mallin, jonka mukaan sekvenssien uskotaan evolvoituneen. Matriisi on rakenteeltaan kaksiulotteinen taulukko, jossa jokainen rivi ja jokainen sarake vastaa yhtä aminohappoa. Tietyn rivin ja sarakkeen yhtymäkohtaa kutsutaan taulukon soluksi tai matriisin alkioksi. Alkiota merkitään usein merkinnällä Ai j , jossa i tarkoittaa taulukon riviä ja j taulukon saraketta. Esimerkiksi A Ala,C ys tarkoittaisi siis taulukon kohtaa, jossa alaniini-rivi ja kysteiini-sarake yhtyvät (taulukko 6.1). Solu A Ala,C ys pistemäärän (-2), joka sekvenssirinnastukseen lisätään, jos alaniini ja kysteiini sattuvat kohdakkain. Diagonaalilla tarkoitetaan alkioiden muodostamaa ketjua, joka alkaa matriisin vasemmasta yläkulmasta ja päättyy taulukon vasempaan alakulmaan. Matriisit voivat olla symmetrisiä tai epäsymmetrisiä. Pisteytysmatriisit ovat useimmiten symmetrisiä, mikä tarkoittaa, että esimerkiksi alaniinin todennäköisyys muuttua kysteiiniksi on yhtä suuri kuin kysteiinin todennäköisyys korvautua alaniinilla. Taulukko 6.1: Esimerkki pisteytysmatriisin ensimmäisistä riveistä ja sarakkeista. Diagonaalialkiot (tai solut) on väritetty harmaiksi. Alkiota AAla,Cys vastaavat taulukon kohdat on ympyröity. Ala Arg Asn Asp Cys Ala 2 -2 0 0 -2 Arg -2 6 0 -1 -4 Asn 0 0 2 2 -4 Asp 0 -1 2 4 -5 Cys -2 -4 -4 -5 12 Yksinkertaisimmillaan pisteytysmatriisissa voidaan antaa yksi piste jokaisesta osumasta ja nolla pistettä jokaisesta hudista. Useimmiten pisteytysmatriisit kuitenkin perustuvat aminohappojen kemialliseen tai rakenteelliseen samankaltaisuuteen tai evolutiiviseen konservoitumiseen. Käytetyimmät pisteytysmatriisit ovat Dayhoffin PAM-matriisit (1978) ja Henikoffin BLOSUM-matriisit (1992). PAM-matriisit perustuvat evolutiiviseen ajatteluun ja BLOSUM-matriisit konservoituneiden proteiinisekvenssien (blokkien) samankaltaisuuksiin. 60 Bioinformatiikan perusteet 6.2 PAM-matriisit aminohapoille PAM (Percent Accepted Mutation) -matriisissa ilmoitetaan todennäköisyys, että homologisissa aminohapposekvensseissä aminohapot korvautuvat toisilla aminohapoilla tai pysyvät ennallaan evoluution kuluessa. Nykyisissä aminohapposekvensseissä voidaan havaita vain sellaisia muutoksia, joita luonnonvalinta ei ole karsinut. Tällaisia muutoksia kutsutaan hyväksytyiksi (accepted), mistä matriisien nimikin juontaa juurensa. Yksi hyväksytty aminohappomutaatio sataa aminohappo kohden vastaa yhtä PAM-yksikköä. Matriisit on nimetty sen mukaan, kuinka montaa hyväksyttyä muutosta sataa aminohappoa kohden se vastaa. Esimerkiksi matriisi PAM250 vastaa 250 tapahtunutta muutosta. Vastaavasti matriisi PAM1 vastaa vain yhtä ainutta mutaatiota sataa aminohappoa kohden. PAM-matriisit muodostavatkin sarjan, jossa pienet PAM-arvot (1-5) ilmoittavat suoraan tapahtuneiden muutosten määrän sataa aminohappoa kohden. Suuremmat arvot (>5) ottavat huomioon myös takaisinmutaatiot ja useammat samaan sekvenssikohtaan sattuneet mutaatiot. Tällöin PAMmatriisin arvo ei enää suoraan vastaa hyväksyttyjen muutosten määrää sataa aminohappoa kohden (taulukko 6.2). Taulukko 6.2: Sekvenssien samankaltaisuuksien ja niille sopivien PAM-matriisien vastaavuus. Huomaa, että PAM-matriisien kuvastaa vertailtavien sekvenssien erilaisuutta eikä samankaltaisuutta. Jos evolutiivinen etäisyys ei vastaa PAM-sarjan matriisia, on sopivan PAM-matriisin arvo ilmoitettu sulkeissa varsinaisen evolutiivisen etäisyyden jälkeen. Sekvenssien samankaltaisuus 99% 90% 80% 60% 40% 20% Evolutiivinen etäisyys (PAM-matriisi) 1 PAM 11 PAM 23 (20) PAM 56 (60) PAM 112 (120) PAM 246 (250) PAM Jos esimerkiksi kaksi proteiinia ovat 50% samankaltaisia (tai 50% erilaisia), on niiden kehittymiseen tarvittu 83 aminohappomuutosta, sillä 50% samankaltaisuutta vastaa PAM-matriisi 83. Toisin sanoen, vaikka korvautumisia on havaittu 50 sataa aminohappo kohden, on korvautumisia todellisuudesssa tapahtunut 83. Ylimääräiset 33 korvautumista ovat takaisinmutaatioita, joita ei voida kahden sekvenssin vertailulla edes havaita. Sekvenssirinnastusten pisteyttämiseen on tärkeää käyttää sellaista PAM-matriisia, joka vastaa sekvenssien havaittua samankaltaisuusastetta (taulukko 6.2). Samankaltaisuuden arvioiminen ennen sekvenssien rinnastamista on kuitenkin vaikeaa, joten yleensä käytetään jotakin arviokaupalla valittua matriisia. Kun ensimmäinen rinnastus on tehty, voidaan samankaltaisuusaste arvioida jo paremmin, ja sekvenssit voidaan rinnastaa uudelleen sopivampaa PAM-matriisia käyttäen. Kaukaisista sukulaisista peräisin oleville sekvensseille sopii aluksi PAM250-matriisi, keskimääräisille sekvensseille soveltuvat PAM120- ja PAM80-matriisit ja lähisukuisten sekvenssien rinnastuksen voi aloittaa PAM20-matriisilla. PAM-matriiseja on kritisoitu siitä, etteivät ne välttämättä ole parempia kuin yksinkertaiset pisteytysmatriisit, jotka perustuvat esimerkiksi aminohappojen kemialliseen ryhmittelyyn. Lisäksi PAM-matriisit on muodostetty pienten ja globulaaristen proteiinien, esimerkiksi globiinien, sekvensseistä, eivätkä oletettavasti sovellu erityisen hyvin kalvoproteiinien rinnastuksiin. Näiden ongelmien välttämiseksi voidaankin käyttää proteiiniperhekohtaisia pisteytysmatriiseja. Muita kritiikin aiheita ovat matriisien muodostuksessa käytetty mutaatioiden riippumattomuuso- 6 Pisteytysmatriisit 61 letus, käytetyn aineiston pienuus ja oletus, että mutaatioita tapahtuu samalla taajuudella koko sekvenssin pituudelta. 6.3 PAM-matriisien muodostaminen Dayhoffin PAM-matriisit on muodostettu 71 fylogeneettisen puun perusteella, jotka edustivat 34:ää proteiiniperhettä (Dayhoff, 1978). Puissa havaittiin yhteensä 1572 mutaatiota. Proteiiniperheiden sisäinen sekvenssien samankaltaisuusaste oli 85% luokkaa, joten havaitut mutaatiot eivät yleensä vaikuttaneet proteiinin toimintaan, eikä useita takaisinmutaatioita ollut oletettavissa. Havaituista mutaatioista muodostettiin A-matriisi (Accepted point mutations). A-matriisin alkio Aij kertoo kuinka monta kertaa aminohappo i on korvautunut aminohapolla j. Esimerkiksi, kaikista 1572 havaitusta korvautumisesta fenyylialaniini oli vaihtunut 260 kertaa tyrosiiniin. Eli, A Phe,T yr = 260. A-matriisin perusteella jokaiselle aminohapolle laskettiin mutatoitumisherkkyys (relative mutability), joka ilmoittaa kuinka yleistä kunkin aminohapon mutatoituminen ylipäätään on. Mutatoitumisherkkyys (taulukko 6.3) saatiin jakamalla aminohapossa i havaittujen mutaatioiden lukumäärä (A-matriisista saatu arvo) aminohapon i kokonaislukumäärällä. Taulukko 6.3: Aminohappojen mutatoitumisherkkyys. Dayhoffin alkuperäiseen aineistoon perustuvat arvot on ilmoitettu vuodelta 1978. Jonesin vuonna 1992 muodostamien JTT-matriisien arvot on ilmoitettu vertailun vuoksi. Lukuarvot on suhteutettu alaniiniin (100). Aminohappo A C D E F G H I K L M N P Q R S T V W Y 1978 100 20 106 102 41 49 66 96 56 40 94 134 56 93 65 120 97 74 18 41 1991 100 44 86 77 51 50 91 103 72 54 93 104 58 84 83 117 107 98 25 50 Mutatoitumisherkkyyden ja A-matriisin avulla jokaiselle aminohapolle laskettiin mutaatiotodennäköisyysmatriisi MPM (mutation probability matrix, taulukko 6.1). MPM-matriisin alkiot kertovat todennäköisyydet, että aminohappo sarak- 62 Bioinformatiikan perusteet keessa j korvautuu aminohapolla rivillä i. MPM-matriisi, joka vastaa yhtä PAMyksikköä, saadaan skaalaamalla (normalisoimalla) saadun MPM-matriisin alkiot siten, että kaiken kaikkiaan mikä tahansa aminohappo mutatoituu toiseksi 1% todennäköisyydellä (PAM1-matriisi). Kuva 6.1: PAM1-mutaatiotodennäköisyysmatriisi. Sarakkeet kertovat alkuperäisen aminohapon, rivit korvaavan aminohapon. Todennäköisyydet on taulukoinnin helpottamiseksi kerrottu 10 000:lla, joten esimerkiksi alaniini on korvautunut seriinillä 0,28% tapauksista. Muut PAM-matriisit saadaan kertomalla PAM1 itsellään n kertaa, jossa n vastaa halutun PAM-matriisin numeroa. PAM250 on siis saatu kertomalla PAM1 250 kertaa itsellään ja vastaa 250% muutosta aminohapposekvensseissä. Matriisien kertominen itsellään ei onnistu lukion matematiikan tiedoilla, vaan vaatii matriisilaskennan alkeiden opettelua. Onneksi myös monet matemaattiset ohjelmistot, kuten MatLab), osaavat matriisilaskentaa. Mutaatiotodennäköisyysmatriiseja ei kuitenkaan käytetä suoraan sekvenssien rinnastukseen, vaan saatuja todennäköisyyksiä verrataan todennäköisyyteen, että tietty aminohappomuutos johtuu ennemmin sattumasta kuin evoluutiosta. Sattuman todennäköisyys riippuu ainoastaan aminohapon suhteellisesta taajuudesta tutkitussa aineistossa. Todennäköisyys, että mutaatio on evoluution tulosta, voidaan siis laskea jakamalla aminohapon mutaatiotodennäköisyys sen taajuudella. Koska mutaatiotodennäköisyys on esitetty erikseen esimerkiksi mutaatioille Phe -> Tyr ja Tyr->Phe, ne jaetaan kumpikin omilla aminohappofrekvensseillään, ja saaduista luvuista otetaan keskiarvo. Lopputuloksena saatua relatedness odds-matriisia voidaan käyttää rinnastusten pisteyttämiseen. Rinnastuksen pistemäärä voidaan laskea kertomalla aminohappoparien relatedness odds-todennäköisyydet keskenään. Koska rinnastukset useimmiten lasketaan tietokoneella, ei relatedness odss-matriisia kuitenkaan käytetä, koska kertolasku kuluttaa varsin paljon laskenta-aikaa. Tästä syystä relatedness odds-matriisin todennäköisyyksistä lasketaan log of odds-matriisi (MD-matriisi). MD-matriisi muodostetaan ottamalla relatedness odds-matriisin arvoista kymmenkantainen logaritmi ja kertomalla logaritmiarvot kymmenellä kokonaislukujen saamiseksi. Käyttäen MD-matriisin logaritmisia arvoja, voidaan rinnastuksen pistemäärä saada yhteenlaskulla, mikä on tietokoneistettuna nopeampaa kuin kertolasku relatedness odssmatriisin arvoilla. MD-matriisissa positiiviset luvut merkitsevät (taulukko 6.2), että kahden aminohapon osuminen kohdakkain johtuu todennäköisemmin yhteisestä alkuperästä kuin sattumasta. Negatiiviset luvut merkitsevät, että kahden aminohapon rinnastus johtuu todennäköisesti sattumasta. Aminohappoparin saadessa arvon 0, on molempien tapahtuminen (evoluutio / sattuma) todennäköisyys sama. Valmiille MD (PAM) -matriiseille ilmoitetaan relatedness odss-matriisin muuntokaava (scale), pisteiden keskiarvo tai oletusarvo (expected score) ja entropia (entropy) niiden otsikossa (kuva ??). Muuntokaava ilmoittaa arvon, jolla relatedness 6 Pisteytysmatriisit 63 Kuva 6.2: PAM250-matriisi. Diagonaalialkiot kertovat todennäköisyydet, että aminohappo ei mutatoidu. Sarakkeen ja rivin leikkauskohdat ilmoittavat todennäköisyydet, että aminohappo muuttuu juuri tällä määrätyllä tavalla. odds-matriisin arvot on kerrottu PAM-matriisin tuottamiseksi. Oletusarvo on kahden täysin satunnaisen rinnastuksen saama pistemäärä. Oletusarvon tulee olla negatiivinen tilastollisista ja loogisista syistä: Satunnaisten sekvenssien ei tule rinnastua merkittävästi. Entropia kuvaa kahden emäksen rinnastuksen sisältämää informaatioarvoa. Informaatioarvo puolestaan kuvastaa matriisin tehokkuutta erottaa satunnaiset muutokset todellisista muutoksista. Matriisit, joilla on suuri entropia, ovat käyttökelpoisia lähisukuisille sekvensseille, ja matriisit, joiden entropia on pieni, soveltuvat parhaiten kaukaisten sekvenssien rinnastukseen. \# \# This matrix was produced by "pam" Version 1.0.6 [28-Jul-93] \# \# PAM 250 substitution matrix, scale = ln(2)/3 = 0.231049 \# \# Expected score = -0.844, Entropy = 0.354 bits \# \# Lowest score = -8, Highest score = 17 Kuva 6.3: PAM250-matriisin otsikkotiedot. PAM-matriisin entropia määritään seuraavasti. Matriisin suhteellinen entropia (H) ilmoittaa, kuinka hyvin matriisi erottelee todelliset sekvenssirinnatukset satunnaisista rinnastuksista. Yksittäisen aminohappoparin entropia lasketaan kertomalla sen si j (biteissä, log2-muunnettu relatedness odds-arvo) q i j :llä, joka on aminohapon esiintymistodennäköisyys alkuperäisessä aineistossa. Lopuksi aminohappopa- 64 Bioinformatiikan perusteet rien entropiat lasketaan yhteen matriisin suhteellisen entropian selvittämiseksi: H= 2 i 0 qi j si j i=1 j =1 PAM250-matriisin entropia on noin 0.36, PAM120:n 0.98 ja PAM160:n 0.70. 6.4 BLOSUM-matriisit aminohapoille Blosum-matriisit on muodostettu Blocks-tietokannasta, jonne on talletettu tietyille proteiiniperheille ominaisia sekvenssialueita, blokkeja (Henikoff, 1992). Matriisien muodostamiseen käytettiin liki 2000 blokkia, jotka kuuluivat yli 500 proteiiniperheeseen. Proteiiniperheeseen kuuluvat proteiinit ovat kemiallisilta toiminnoiltaan samankaltaisia. Samaan perheeseen kuuluvista proteiineistä löytyy usein konservoituneita alueilta, jotka voidaan rinnastaa ilman, että yhtäkään aukkoa tarvitsisi lisätä. Tällä tavoin rinnastuvia alueita kutsutaan blokeiksi. Blosum-matriisien muodostamiseksi blokeista laskettiin sarake kerrallaan tapahtuneiden mutaatioiden määrä. Lähisukuisissa sekvensseissä voi kuitenkin tapahtua muutoksia tavanomaista useammin, mikä voi johtaa mutaatioiden määrän yliarvioimiseen. Lähisukuisten sekvenssien vääristävän vaikutuksen poistamiseksi sekvenssit sijoitettiin ensin ryhmiin sekvenssien samankaltaisuuden perusteella. Esimerkiksi, sekvenssiryhmästä, jonka keskimääräinen samankaltaisuus oli 60% muodostettiin BLOSUM60-matriisi. Vastaavasti 80% samankaltaisten sekvenssien perusteella muodostettiin BLOSUM80-matriisi. Matriisin numeroarvon perusteella voidaankin päätellä, minkälaisten sekvenssijoukkojen rinnastamiseen sitä tulisi käyttää: BLOSUM60-matriisi soveltuu 60% samankaltaisten sekvenssien rinnastamiseen. Blosum-matriisit ilmoitetaan PAM-matriisien tapaan log of odds-matriisina, jossa aminohappojen korvautumistodennäköisyydet useimmiten ilmoitetaan bitteinä (log2) tai puolibitteinä (2 * log2). Taulukko 6.4 antaa esimerkin BLOSUM62matriisista. 6.5 PAM- ja Blosum-matriisien erot Tärkein ero PAM- ja Blosum-matriisien välillä on tapa, jolla ne on muodostetty. PAM-matriisit on muodostettu yli 85% samankaltaisista aminohapposekvensseistä, joista on ensin muodostettu proteiinien evolutiivisia suhteita kuvaava puukaavio. PAM-matriisien voidaankin kuvitella kuvaavan ensimmäisiä mutaatioita, jotka tapahtuvat proteiinien evolvoituessa (kehittyessä) yhteisestä kantamuodosta. Blosum-matriisit sen sijaan eivät perustu tarkkaan määritellylle evolutiiviselle oletukselle. Blosum-matriisien muodostamiseen on kuitenkin käytetty proteiineja, joiden biokemiallisten ominaisuuksien tiedetään olevan samanlaiset, joten voidaan olettaa, että proteiineilla on yhteinen kantamuoto, josta ne ovat kehittyneet. Tällaista evolutiivista oletusta voidaan kuvata tähtimäisellä puukaaviolla, jossa samasta pisteestä lähtee useita haaroja. Käytännölliseltä kannalta PAM- ja Blosum-matriisien käyttö eroaa juuri niiden muodostamisessa tarvittujen oletusten vuoksi. PAM-matriiseja käytetään usein proteiinievoluutiotutkimuksissa. Blosum-matriisit soveltuvat PAM-matriiseja paremmin sekvenssihakuihin, koska ne on erityisesti suunniteltu tunnistamaan proteiineille yhteisiä blokkeja. Lisäksi matriisien numeroimistapa on erilainen. PAMmatriisin numeroarvo ilmoittaa tapahtuneen evoluution määrän, eli verrattavien sekvenssien erilaisuusasteen. Blosum-matriisien numeroarvo puolestaan ilmaisee verrattavien sekvenssien samankaltaisuusasteen. 6 Pisteytysmatriisit 65 Kuva 6.4: BLOSUM62-matriisi. Diagonaalialkiot kertovat todennäköisyydet, että aminohappo ei mutatoidu. Sarakkeen ja rivin leikkauskohdat ilmoittavat todennäköisyydet, että aminohappo muuttuu juuri tällä määrätyllä tavalla. 6.6 Muut aminohappomatriisit PAM- ja Blosum-matriisien lisäksi yleisesti käytetään Gonnet- ja JTT-matriiseja. Gonnet-matriisi (Gonnet, 1992) perustuu koko tunnetun aminohapposekvenssitietokannan rinnastukseen. Rinnastuksesta tunnistettiin yhtenäiset, aukottomat alueet, ja matriisit muodostettiin jotensakin kuten Blosum-matriisit. JTT-matriisit (Jones, 1992) perustuvat myös koko aminohapposekvenssitietokantaan, ja ne on muodostettu kuten PAM-matriisit. Koska JTT-matriisit on muodostettu suuremmasta tietokannasta, kuvaavat JTT-matriisit PAM-matriiseja tarkemmin proteiinievoluutiota ja nykyistä sekvenssitietokannan sisältöä. Esimerkiksi, aminohappojen taajuudet tietokannassa vuosina 1978 ja 1992 ovat olleet hieman erilaiset (taulukko 6.3). Proteiinievoluutiotutkimuksissa olisikin nykyisin suotavaa käyttää enemmin JTTmatriiseja kuin PAM-matriiseja. Aminohappojen kemiallisten ominaisuuksien perusteella laadittuja matriiseja ei enää suosita, sillä empiiriset matriisit, kuten PAM ja Blosum, sisältävät saman informaation, mutta lisäinformaatiolla höystettynä. PAM-matriisi ilmoittaa, että kemialtaan samankaltaisten aminohappojen välillä tapahtuu enemmän vaihdoksia kuin kemiallisesti kovin erilaisten aminohappojen välillä. Lisäksi PAM-matriisit sisältävät informaatiota aminohappomuutosten evolutiivisestä tärkeydestä, joten se on tarkempi kuin pelkille kemiallisille eroille rakentuvat matriisit. 66 7 Bioinformatiikan perusteet Aukkosakot 7.1 Nykyisin käytetyt aukkosakkomallit Aukot, joiden voidaan ajatella merkitsevän insertioita ja deleetioita, aiheuttavat aina rinnastuksen pistemäärän laskua, jos ne huomioidaan. Aukkosakkojen avulla määritellään, kuinka paljon rinnastuksen pistemäärä laskee. Tietokonealgoritmit tekevät rinnastukseen aukkoja alueille, jotka eivät osu kovin hyvin kohdakkain. Tämä parantaa rinnastuksen kokonaispistemäärää, ja tuottaa siis optimaalisen rinnastuksen. Aukkojen muodostumista voidaan kuvata useilla tavoilla. Yksinkertaisimmassa aukkomallissa (Smith, 1981) sakotetaan vain aukon muodostamisesta. Tällöin rinnastuksen pistemäärästä vähennetään Wx = g ∗ x, jossa Wx on aukoista johtuva kokonaispistemäärästä tehtävä vähennys, g on yhdestä aukosta johtuva pistemäärän vähennys, ja x on aukkojen lukumäärä. Useimmiten jokaisesta rinnastukseen lisättävästä tavuviivasta (aukosta) vähennetään aukkosakko, vaikka uusi tavuviiva lisättäisiinkin jo olemassaolevan tavuviivan yhteyteen. Tämä ei ole biologisesti täysin realistista, sillä aukon syntyminen on evolutiivisesti kallista, eli aukot ovat yleensä varsin harvinaisia. Tällöin aukon avaamisesta ja sen jatkamisesta pitäisikin sakottaa erikseen. Tällainen malli (affine gap) onkin yleisimmin käytetty, ja se voidaan esittää muodossa Wx = g + r ∗ x tai yleisemmin käytetyssä muodossa Wx = g + r ∗ (x − 1), joissa Wx on aukoista johtuva kokonaispistemäärästä tehtävä vähennys, g on aukon muodostamisesta johtuva sakko, r on aukon laajennuksesta johtuva sakko ja x on aukon pituus. Yleensä aukon avaamisesta sakotetaan suhteessa enemmän kuin sen laajentamisesta. Monimutkaisempiakin aukkomalleja on kehitetty (Miller, 1988), mutta aukon pituuden mukaan muuttuva sakko on nykyisin yleisimmin käytetty. Aukkosakkoparametrit määräytyvät usein käytetyn pisteytysmatriisin perusteella. Aukkosakkojen arvoista ei ole olemassa mitään varsinaista sääntöä, mutta useimmat tietokoneohjelmat käyttävät sellaisia sakkoja, joiden on havaittu sopivan valittuun pistetysmatriisiin parhaiten. Esimerkiksi jos halutaan muodostaa kokonaisrinnastus, käytetään BLOSUM50-matriisin kanssa usein sakkoja -12 aukon avaamiselle ja -2 sen laajentamiselle. Vastaavat aukkosakot BLOSUM62-matriisille olisivat -14 ja -4 kokonaisrinnatusta muodostettaessa. Jos aukkosakot ovat korkeita pisteytysmatriisin keskimääräiseen pistemäärään nähden, rinnastus sisältää vähän aukkoja. Aukkosakkojen ollessa matalia suhteessa käytettyyn pisteytysmatriisiin, sisältää rinnastus vain vähän aukkoja. Jos kokonaisrinnastuksessa käytetään hyvin korkeita aukkosakkoarvoja, on tuloksena paikallinen rinnastus. Jos aukkosakot ovat sopivia tai matalia, on tuloksena tavanomainen kokonaisrinnastus. 7 Aukkosakot 67 Usein sekvenssirinnastuksen loppuun syntyy alue, jossa toinen sekvenssi päättyy aukkoon. Dynaamiset optimointimenetelmät tuottavat erilaisen tuloksen riippuen siitä, vähennetäänkö lopussa olevien aukkojen pistemäärä kokonaispistemäärästä vai ei. Jos vertaillaan kahta homologista ja samanpituista sekvenssiä, on syytä vähentää aukkojen pistemäärä kokonaispistemäärästä. Jos sen sijaan sekvenssit ovat eri mittaisia, ei aukoista sakottaminen ole mielekästä. Tuntemattomien sekvenssien tapauksessa aukkosakkojen vähentämisen vaikutus rinnastukseen on erikseen testattava. 68 8 Bioinformatiikan perusteet Kahden sekvenssin rinnastus 8.1 Kahden sekvenssin rinnastusmenetelmät Kahden sekvenssin rinnastuksen (pairwise alignment) päämääränä on selvittää, kuinka samanlaisia tai samankaltaisia sekvenssit ovat keskenään. Näin voidaan muun muassa selvittää, onko sekvensseissä samanlaisia toiminnallisia alueita (domains) tai sijaitsevatko proteiinien rakenteet (disulfidisillat) samoilla kohdin. Samankaltaisilla sekvensseillä voi olla samanlainen tehtävä, kolmiulotteinen proteiinirakenne tai yhteinen kantamuoto. Sekvenssejä, joilla on yhteinen kantamuoto, kutsutaan homologisiksi sekvensseiksi. Analogisiksi sekvensseiksi kutsutaan sellaisia, jotka ovat hyvin samankaltaisia, ja toimivat solussa samaan tapaan, mutta eivät ole kehittyneet yhteisestä kantamuodosta. Esimerkiksi samansuuntainen evoluutio tai horisontaalinen geeninsiirto voi johtaa analogisten sekvenssien kehittymiseen. Homologiset sekvenssit jaetaan usein edelleen kahteen ryhmään, joilla on erilainen evoluutiohistoria. Jos kahdella eri lajilla on samanlainen ja samantoiminen sekvenssi (useimmiten geeni), kutsutaan sitä ortologiseksi sekvenssiksi. Jos sekvenssien samankaltaisuus johtuu geenin kahdentumisesta yhden lajilinjan sisällä, kutsutaan näin syntyneitä sekvenssejä paralogisiksi. Esimerkiksi hiiren ja ihmisen alfa-hemoglobiinit ovat ortologisia, mutta alfa ja theta (alfan kaltainen hemoglobiini) paralogisia. Sekvenssejä, jotka muistuttavat toisiaan hyvin paljon, sanotaan samankaltaisiksi. Samankaltaisuutta voidaan mitata vaikkapa prosentteina. Sen sijaan homologia on joko-tai -tyyppien ominaisuus. Sekvenssit joko ovat homologisia tai eivät ole homologisia. Näiden väliin ei jää harmaata aluetta. Yleistäen voidaan sanoa, että mitän samankaltaisempia sekvenssit ovat, sitä suuremmalla todennäköisyydellä sekvenssit ovat myös homologisia. 8.2 Mikä on sekvenssirinnastus? Rinnastuksessa sekvenssit järjetetään allekkain niin, että samanlaiset (identical) tai samankaltaiset (similar) merkit ovat samassa sarakkeessa. Yhteensopimattomat merkit laitetaan joko samaan sarakkeeseen, jolloin kyseessä on huti (mismatch) tai eri sarakkeisiin, jolloin rinnastukseen syntyy aukko (gap). Parhaassa mahdollisessa rinnastuksessa on mahdollisimman monta samanlaista merkkiä allekkain ja mahdollisimman vähän yhteensopimattomia merkkejä ja aukkoja. Kuvassa 8.1 on esitetty kolme esimerkkiä kahden sekvenssin rinnastuksesta. Sekvenssirinnastus voidaan tehdä joko kokonaisrinnastuksena (global alignment) tai paikallisrinnastuksena (local alignment). Kokonaisrinnastuksessa pyritään rinnastamaan sekvenssit koko pituudeltaan. Paikallisrinnastuksessa puolestaan pyritään löytämään sekvensseistä kaikkain samankaltaisimmat alueet, jotka rinnastetaan. 8 Kahden sekvenssin rinnastus 69 ACGTACGT ACGTACGT || ||| | ACCTAC-T ACCTAC-T VEEGYR ||:| FEESYM Kuva 8.1: Vasemmassa reunassa on nukleotidisekvenssirinnastus, jossa on merkitty palkilla (|) yhteensopivat nukleotidit. Yhteensopimattomat nukleotidit on merkitty välilyönnillä ( ). Rinnastuksen vaatimaa aukkoa on merkitty katkoviivalla (-). Keskimmäinen rinnastus on samanlainen kuin vasemmanpuoleinen, mutta nukleotidien samankaltaisuus on jätetty erikseen korostamatta. Oikealla on esimerkki aminohapposekvenssirinnastuksesta, jossa samanlaiset aminohapot on merkitty palkilla (|) ja samankaltaiset kaksoispisteellä (:). Yhteensopimattomat aminohapot on merkitty välilyönnillä ( ). Kokonaisrinnastus sopii esimerkiksi sekvensseille, jotka ovat peräisin samasta geenistä, ja joissa ei ole suuria eroavia osia. Paikallisrinnastus sen sijaan soveltuu sekvensseille, jotka ovat eri mittaisia, ja joissa osa alueista on samankaltaisia, mutta jotka muuten voivat poiketa toisistaan. Paikallisrinnastusta käytetään erityisesti, jos kahdessa sekvenssissä olevat samankaltaiset alueet, esimerkiksi domeenit, halutaan rinnastaa toisiinsa niiden sijainnista riippumatta. Kuva 8.2 havainnollistaa kokonais- ja paikallisrinnastuksen eroja. Kuva 8.2: Kuvassa on esitetty neljän proteiinin rakenne domeeneina (neliöt, vinoneliöt ja kolmio). Kaksi ylintä sekvenssiä on kokonaisrinnastettu, jolloin domeenit osuvat kohdakkain ja rinnastukseen on syntynyt yksi aukko (ei viivaa). Alimmat sekvenssit muodostavat paikallisen rinnastuksen. Sekvenssejä yhdistää ainoastaan yksi samankaltainen domeeni (neliö), ja muilta osin sekvenssit eroavat, minkä vuoksi rinnastuksessa on useampia aukkoja. Useimmiten paikallisista rinnastuksista esitetään vain samankaltaiset alueet, ja muut alueet jätetään huomiotta. Kahden sekvenssin rinnastukseen käytetään lähinnä kolmea eri menetelmää, pistematriisia (dot plot), dynaamisia algoritmeja (dynamic programming) ja k-tuple (sanakoko) -menetelmää. Sanakokomenetelmiä, kuten BLAST ja FastA käytetään yleensä vain sekvenssihauissa tietokannoista. 70 Bioinformatiikan perusteet 8.3 Sekvenssirinnastusten kuvaaminen tietokoneelle Nykyisin suurin osa sekvenssirinnastuksista tuotetaan tietokoneella. Ihmissilmin on suhteellisen helppo havaita, että kuvan 8.1 aukollinen nukleotidisekvenssirinnastus on parempi kuin vastaava rinnastus ilman aukkoa. Hyvän sekvenssirinnastuksen kuvaaminen tietokoneelle ei kuitenkaan ole yhtä helppoa. Avuksi tarvitaankin pisteytysmatriisia ja aukkosakkoja, joilla määritellään kuinka rinnastus muodostetaan ja pisteytetään. Pisteytyksen perusteella valitaan parhaan pistemäärän saanut rinnastus optimaalisimmaksi. 8.4 Rinnastuksen pistemäärän laskeminen Paras rinnastus on sellainen, joka saa suurimman pistemäärän käytetyillä kriteereillä. Osumien ja hutien antama positiivinen tai negatiivinen pistemäärä määräytyy pisteytysmatriisin perusteella, ja mahdollisista aukoista muodostuva sakkoriippu valituista parametreista. Matemaattisesti tämä voidaan ilmaista seuraavasti kahdelle sekvenssille: Aukkosakko, jos sekvenssi 1 i = − tai sekvenssi 2i = − n Osuma, jos ei aukkoa j a sekvenssi 1 i = sekvenssi 2i i=1 H uti , jos ei aukkoa j a sekvenssi 1 i ¬sekvenssi 2i jossa n on pidemmän sekvenssin pituus. Eli, kun kahdesta sekvenssistä muodostetaan kokonaisrinnastus, tarkastellaan sekvenssejä koko pituudeltaan yksi sekvenssipaikka kerrallaan. Jokaisen paikan antama positiivinen tai negatiivinen arvo lisätään tai vähennetään rinnastuksen kokonaispistemäärästä. Korkeimman pistemäärän saanut rinnastus on optimaalinen valitulla pisteytysmatriisilla ja aukkosakkoarvoilla. Kuvassa 8.3 on esitetty neljä erilaista sekvenssirinnastusmahdollisuutta kahdelle sekvenssille. Jotta paras rinnastus voidaan valita, pitää kukin rinnastus pisteyttää. Ennen pisteytystä valitaan käytettävä pisteytysmatriisi ja siihen sopivat aukkosakot. Erilaisille aminohappomatriiseille on määritelty niiden kanssa erityisin hyvin sopivat aukkosakkoarvot, mutta DNA-sekvensseille ei ole yhtä selviä suosituksia. Yleensä käytetään aukonlaajennussakkoja, joka on noin 10% aukonavaussakosta. AATCTATA AATCTATA AATCTATA AATCTATA AAG-AT-A AA-G-ATA AA--GATA AAGATA-- Kuva 8.3: Neljä kahden sekvenssin rinnastusta. Rinnastukset vasemmalta oikealle: A, B, C, D. Valitaan tässä käytettäväksi BLAST-matriisi DNA-sekvensseille, ja aukon avaamissakoksi 11 ja laajennussakoksi 1. BLAST-matriisi antaa jokaiselle osumalle 5 pistettä ja hudeille -4 pistettä. Tällöin rinnastukset A-D saavat pistemäärät: A: 5 + 5 + (-4) + (-11) + (-4) + (-4) + (-11) + 5 = -19 B: 5 + 5 + (-11) + (-4) + (-11) + 5 + 5 + 5 = -1 C: 5 + 5 + (-11) + (-1) + (-4) + 5 + 5 + 5 = +9 D: 5 + 5 + (-4) + (-4) + 5 + 5 + (-11) + (-1) = 0 Parhaaksi rinnastukseksi valitaan näin rinnastus C, jossa on yksi pitkä aukko keskellä. Erilaisilla asetuksilla jokin toinen rinnastus olisi voinut saada parhaan piste- 8 Kahden sekvenssin rinnastus 71 määrän. Rinnastus onkin aina riippuvainen valituista asetuksista. Käytännössä sekvenssejä rinnastettaessa onkin syytä kokeilla useita erilaisia asetuksia, ja arvioida rinnastuksia silmämääräisesti, sillä tietokoneen ilmoittama paras rinnastus ei aina ole biologisesti parhain rinnastus. Sekvenssien pituuden (n) kasvaessa mahdollisten erilaisten rinnastusmahdollisuuksien määrä [(2n)!/(n!)2] kasvaa eksponentiaalisesti. Kaikkien mahdollisten vaihtoehtojen läpikäyminen tulee ennen pitkää mahdottomaksi. Ongelman ratkaisemiseksi onkin kehitetty dynaamiseen optimointiin perustuvia menetelmiä, jotka löytävät aina optimaalisen rinnastusratkaisun tietyille asetuksille. Ennen NeedlemanWunschin ja Smith-Watermanin dynaamisiin optimointialgoritmeihin perehtymistä tarkastellaan yksinkertaisinta rinnastusmenetelmää, pistematriisimenetelmää. 8.5 Pistematriisimenetelmä Pistematriisimenetelmä (dotplot) tarjoaa visuaalisen mahdollisuuden tarkastella kahden sekvenssin samankaltaisuutta. Pistematriisin avulla on helppo muodostaa karkea kuva suhteellisten samankaltaisten sekvenssien rinnastuvuudesta, ja samalla voidaan selvittää mahdollisten toistojaksojen ja inversioiden sijainti. Dynaamiseen optimointiin perustuvat menetelmät eivät osaa linjata inversioita sisältäviä sekvenssejä oikein, joten niiden olemassaolo on ennen varsinaisen optimaalisen rinnastuksen laatimista selvitettävä pistematriisimenetelmällä. Toistojaksot voivat häiritä sekvenssihakuja tietokannoista. Pistematriisimenetelmässä toinen rinnastettavista sekvensseistä sijoitetaan kaksiulotteisen taulukon vaakariville ja toinen pystyriville. Tämän jälkeen vaaka- ja pystyrivejä verrataan merkki kerrallaan, ja aina samanlaisten merkkien sattuessa kohdakkain merkitään taulukon soluun piste. Molemmissa sekvensseissä sijaitsevat samanlaiset tai samankaltaiset alueet muodostavat taulukkon halkaisijan suuntaisen suoran. Taulukon halkaisijalta sivuun sijoittuvat pisteet ovat sattuman tulosta ja tuovat pistematriisiin hälyä. Insertiot ja deleetion katkaisevat halkaisijan suuntaisen pistesuoran, joka saattaa jatkua hetken päästä oikealle tai alas siirtyneenä. Inversiot havaitaan kuvassa halkaisijaan kohtisuoraan sijoittuneina pisteriveinä. Kuvassa 8.4 on esitetty esimerkki yksinkertaisesta pistematriisista. Pistekartan havainnollisuutta voidaan usein parantaa suodattamalla hälyä, eli tarkastelemalla usean nukleotidin tai aminohapon jaksoja yksittäisten nukleotidien tai aminohappojen sijaan (Kuva 8.5). Tällöin sekvenssejä verrataan toisiinsa liukuvan ikkunan (sliding window) avulla. Sekvenssejä käydään läpi ikkunan mittaisissa palasissa niin, että ikkunaa liutetaan kohta kerrallaan eteenpäin sekvenssiä pitkin. Ainoastaan koko ikkunan mittaisen palasen vastatessa täysin toisen sekvenssin merkkijonoa, merkitään matriisin pistesuora. Usein ikkunakokoon perustuvaan vertailuun yhdistetään myös kynnysarvo. Tällöin pistematriisiin merkitään ikkunan pituinen pistejoukko vain, jos ikkunassa saavutetaan ennalta määrätty osumia. Aminohapposekvenssien vertailuissa ikkunan kokona käytetään usein kahta tai kolmea aminohappoa. Jos ikkunakooksi valittaisiin kolme ja osumien määräksi kaksi, merkittäisiin matriisin pistesuora vain, jos kolmen aminohapon mittaisen ikkunan sisällä vähintään kaksi aminohappo osuu kohdakkain verrattavissa sekvensseissä. Hyvin erilaisten proteiinien samankaltaisia alueita voidaan etsiä käyttämällä pitkää ikkunaa, mutta alhaista osumien määrää, esimerkiksi 20 ja 5. DNA-sekvensseille käytetään yleensä pitkiä ikkunoita, tyypillisesti 15 nukleotidia ja 10:tä osumaa. Yksinkertaisen huti/osuma -pisteytyksen sijaan voidaan osumien pisteyttämisen ikkunan sisällä käyttää myös pisteytysmatriiseja, kuten PAM250 tai Blosum62. Tällöin matriisin merkitään pistesuora ainoastaan silloin, kun rinnastuksen pistemäärä tai identtisten ja samanlaisten merkkien yhteenlaskettu lukumäärä (similarity score) ylittää määrätyn raja-arvon. Pistematriisimenetelmän asetuksille on hankalaa asettaa suoraviivaisia suunta- 72 Bioinformatiikan perusteet R K N E L G A S A G L E R * K * N * L * * G * * A * * S * A * G * * L * * E * * * Kuva 8.4: Esimerkki pistematriisista. Kun vaakarivin ja pystyrivin merkki täsmäävät, on pistematriisin merkitty tälle kohdin tähti. Vasemmasta yläreunasta oikeaan alareunaan etenevän halkaisijan katkaiseen yhden emäksen deleetio: pystysekvenssissä ei ole vastinetta vaakasekvenssin kohdassa 4 olevalle glutamaatille (E). Sekvensseissä olevan inversio (ELGASAGLE) piirtyy kuvaan vasemmasta alakulmasta lähtevänä pistesuorana, joka suuntautuu kohti oikeaa yläkulmaa. A D E R T S W Y S T A* D * D S * R * D E R T S W Y S T R * S * * W * * Y * * * T * S * W * S * S * T E A A* * Y * * S E * * Kuva 8.5: Ikkunan koon vaikutus pistematriisikuvion muodostumiseen. Vasemmanpuoleisessa rinnastuksessa on käytetty sanakokoa 1, jolloin merkkejä vaaka- ja pystyriveillä on verrattu yksitellen toisiinsa. Samalaisten merkkien sattuessa kohdakkain on taulukkoon merkitty tähti. Oikeanpuoleisessa rinnastuksessa on sekvenssejä verrattu toisiinsa kaksi merkkiä kerrallaan*. Merkkiparien ollessa molemmissa sekvensseissä samanlaiset, on kuvioon merkitty tähti. Sanakoon suurentaminen poistaa pistematriisikuviosta taustaa (hälyä), eli satunnaisten merkkien kohdakkain sattumisesta johtuvien halkaisijan ulkopuolelle sijoittuvien pisteiden määrää. *Ensimmäiseen ikkunaan kuuluvat vaakasekvenssin aminohapot A ja D. Kun niitä vastaavat sekvenssikohdat on pystysekvenssistä löydetty ja merkitty matriisiin, siirretään ikkunaan yhden aminohapon verran eteenpäin. Näin olleen seuraava ikkuna koostuu aminohapoista D ja E. Näin edetään sekvenssin loppuun saakka. Toisinaan käytetään myös ikkunoita, jotka eivät osu päällekkäin. Tällöin ikkunoina olisivat A ja D, seuraavassa vaiheessa E ja R, ja niin edelleen sekvenssin loppuun saakka edeten. 8 Kahden sekvenssin rinnastus 73 viivoja. DNA:lle kuitenkin käytetään yleensä pidempää ikkunaa ja suhteessa alhaisempaa kynnysarvoa kuin aminohapposekvensseille. Mitä suurempi ikkunakoko ja raja-arvon sen sisällä on, sitä tehokkaammin satunnaisten osumien aiheuttama häly pistematriisista poistuu. Samankaltaisten alueiden hahmottaminen pistematriisin avulla perustuu pitkälti yritys-ja-erehdys -menetelmään, jossa ihmissilmin pyritään tunnistamaan kuviossa olevat pitkät halkaisijan suuntaiset pistesuorat, ja niitä vastaavat sekvenssirinnastukset. 8.6 Dynaaminen optimointi Dynaamiseen optimointiin perustuvat Needleman-Wunsch- ja Smith-Watermanalgoritmit ovat kaikkein yleisimmin käytetyt kahden sekvenssin rinnastusmenetelmät. Needleman-Wunsch-algoritmi (Needleman, 1970) tuottaa kokonaisrinnastuksen ja Smith-Waterman-algoritmi (Smith, 1981) paikallisen rinnastuksen. Dynaamista optimointia käyttävät menetelmät löytävät takuuvarmasti kaikkein optimaalisimman sekvenssirinnastuksen tiettyä pisteytysmatriisia ja aukkosakkoparametreja käyttäen. Optimaalisimmalla sekvenssirinnastuksella tarkoitetaan tässä sellaista, joka saa kaikkein korkeimman laskennallisen pistemäärän. Optimaalisuus ei ole kuitenkaan universaalista, sillä optimaalisin rinnastus voi muuttua, jos rinnastuksen muodostamiseen käytettyjen parametrien arvoja muutetaan. Lisäksi on mahdollista, että on olemassa useita yhtä optimaalisia sekvenssirinnastuksia samalle sekvenssiparille. Seuraavassa esitellään sekä Needleman-Wunsch- että Smith-Watermanalgoritmien toiminta. 8.7 Needleman-Wunsch-algoritmi Needleman-Wunschin dynaamisessa optimointialgoritmissa kaksi sekvenssiä asetetaan taulukon pysty- ja vaakariveille samaan tapaan kuin pistematriisimenetelmässä. Erona on, että taulukon ensimmäinen rivi ja sarake varataan aukolle. Kuten pistematriisimenetelmässäkin, tavoitteena on muodostaa yhtenäinen pistesuora (kokonaisrinnastus) taulukon vasemmasta yläkulmasta oikeaan alakulmaan. Matriisi alustetaan laskemalla tietyn mittaisten aukkojen aiheuttamat aukkosakot, ja sijoittamalla ne taulukon ensimmäiselle riville ja sarakkeelle. Lisäksi taulukon jokainen solu täytetään pisteytysmatriisin nukleotidi- tai aminohappopareille antamilla pistemäärillä (tätä ei aina tehdä). Alustettuun matriisiin tullaan vasemmasta ylänurkasta. Tämän jälkeen seurataan korkeimpaan pistemäärän tuottavaa polkua matriisin oikeaan alanurkkaan. Matriisissa voidaan liikkua joko vaakasuoraan tai pystysuoraan, jolloin rinnastuksen pistemäärästä vähennetään aukosta johtuva sakko, tai vinottain, jolloin rinnastukseen lisätään osumaa vastaava pistemäärä. Paras polku matriisin läpi saavutetaan liikkumalla aina suurimman kokonaispistemäärän tuottavan solun suuntaan. Lopulta optimaalisin polku saadaan selville palaamalla takaisin vasempaan ylänurkkaan (traceback). Matemaattisesti Needleman-Wunschin algoritmi voidaan ilmaista seuraavasti. Taulukon muodostavat kaksi sekvenssiä, i ja j . Yhdelle riville tai sarakkeelle on sijoitettu yksi nukleotidi tai aminohappo. Jos tiettyä solua edeltävien solujen F(i − 1, j − 1), F(i − 1, j ) ja F(i , j − 1) arvot tunnetaan voidaan laskea solun F(i , j ) saama pistemäärä. Jos sarakkeessa ja rivillä olevat merkit täsmäävät, merkitään solun pistemääräksi F(i , j ) = F(i − 1, j − 1) + s(x i , y j ), jossa s(x i , y j ) on kohdakkain osuvien merkkien saama pistemäärä pisteytysmatriisin perusteella. Jos rivillä oleva merkki osuu kohdakkain sarakkeessa olevan aukon kanssa, tulee solun pistemääräksi F(i , j ) = F(i − 1, j ) − d, jossa d on aukon aiheuttama sakko. Vastaavasti rivillä sijaitsevan aukon kanssa kohdakkain osuva merkki aiheuttaa soluun pistemäärän F(i , j ) = F(i , j − 1) − d, jossa d on aukon aiheuttama sakko. Näistä kolmesta parhaan F(i , j ) pistemäärän aiheuttava vaihtoehto valitaan poluksi (ku- 74 Bioinformatiikan perusteet va 8.6). Kuva 8.6: Dynaamisen optimointialgoritmin selitys. Yhtälöä käytetään toistuvasti matriisin täyttämiseksi F(i , j ) -arvoilla. F(i , j )-arvojen laskemisessa edetään vasemmasta ylänurkasta oikeaan alanurkkaan, siten että jokaiselle neljän solun muodostamalle kokonaisuudelle lasketaan oikean alanurkan F(i , j )-arvo. Kyseiseen soluun merkitään kolmesta vaihtoehdosta se, joka maksimoi F(i , j ):n arvon. Taulukkoa täytettäessä pidetään myös kirjaa niistä soluista, joiden läpi taulukossa edettiin. Täytetyn taulukon viimeinen solu (oikeassa alanurkassa) kertoo optimaalisimman rinnastuksen saaman pistemäärän. Jotta varsinainen rinnastus saataisiin selville, edetään oikeasta alanurkasta takaisin kohti vasenta ylänurkkaa, eli tehdään takaisinjäljitys, traceback. Takaisinjäljityksessä liikutaan niiden solujen läpi, joista korkein pistemäärä muodostui (esimerkki ja kuva 8.7k). Samanaikaisesti muodostetaan rinnastus. Jos matriisissa liikuttiin halkaisijan suuntaisesti, merkitään rinnastukseen osuma tai huti. Liikuttaessa vaaka- tai pystysuoraan, merkitään jokaista näin liikuttua solua kohden merkitään aukko vastaavaan sekvenssiin. Takaisinjäljitys tuottaa tässä kuvatussa muodossaan ainoastaan yhden ainoa optimaalisen sekvenssirinnastuksen, vaikka oikeasti niitä voisi olla useampiakin. Tämä johtuu siitä, että algoritmin kohdatessa tilanteen, jossa rinnastuksessa voitaisiin edetä useampaan yhtä hyvään suuntaan, valitaan etenemissuunta mielivaltaisesti. Algoritmin modifioiminen sellaiseen muotoon, että yhtäaikaisesti voidaan muodostaa useampia optimaalisia rinnastuksia on kuitenkin helppoa. Kaikkien mahdollisten yhtä hyvien rinnastusten kuvaaminen onnistuukin suhteellisen yksinkertaisesti käyttämällä sekvenssigraafirakennetta (sequence graph structure). 8.7.1 Esimerkki Needleman-Wunsch-algoritmista Muodostetaan kokonaisrinnastus kahden nukleotidisekvenssin (ACTCG ja ACAGTAG) välille. Valitaan tässä käytettäväksi BLAST-matriisi (osuma, 5 pistettä; huti, -4 pistettä) ja aukon avaamissakoksi -11 ja laajennussakoksi -1. Muodostetaan aluksi sekvensseistä matriisi ja alustetaan se (kuva 8.7a). Optimaalisen polun ensimmäinen askel on helppo: liikutaan vasemman ylänurkan solusta oikealla alas, jolloin A-emästen kohdakkain osuminen tuottaa kokonaisrinnastukselle +5 pistettä (kuva 8.7b). Jos jommankumman sekvenssin ensimäinen kohta tulisi aukoksi, saisi kokonaisrinnastus -11 pistettä. Ensimmäisen askeleen jälkeen on jokaiselle neljän solun muodostaman jou- 8 Kahden sekvenssin rinnastus 75 kon oikean alanurkan solulle laskettava vastaavalla tavalla pistemäärä. Alanurkan soluun merkitään korkein pistemäärä, jonka rinnastus saa, kun soluun liikutaan yläviistosta tai suoraan vasemmalta tai ylhäältä. Näistä suunnista valitaan se, joka tuottaa suurimmaan pistemäärän. Esimerkiksi miltei kaikki toisen rivin ja sarakkeen solut saavat negatiivisen arvon (kuva 8.7c), vaikka niihin liikutaankin halkaisijan suuntaisesti korkeimman pistemäärän saavuttamiseksi. Rinnastuksen pistemäärään laskemista jatketaan, kunnes päästään taulukon oikean alakulman soluun (kuvat 8.7d-i). Tämä solu kertoo kokonaisrinnastuksen pistemäärän (tässä -5). Kun on päästy taulukon oikeaan alareunaan, suoritetaan takaisinjäljitys. Takaisinjäljityksessä liikutaan oikean alanurkan solusta kohti vasenta ylänurkkaa. Oikean alanurkan solusta liikutaan takaisinpäin sellaiseen soluun, josta alanurkan solun pistemäärä on voinut saada alkunsa (aina kohti suurinta pistemäärää). Pistemäärän -5 (G,G-solu) aikaansaaminen onnistuu vain yhdellä tavalla (solusta C,A etenemällä), joten liikutaan takaisinpäin halkaisijaa pitkin. Vastaavasti C,A-solusta liikutaan halkaisijaa taaksepäin T,T-soluun, koska ainoastaan siitä solusta etenemällä on voitu saavuttaa C,A-solun pistemäärä -10. Näin edetään, kunnes kohdataan matriisin vasen ylänurkka (kuva 8.7k). Vasta takaisinjäljityksen perusteella on mahdollista muodostaa oikea, lopullinen sekvenssirinnastus: ACTCG-ACAGTAG 8.8 Smith-Waterman-algoritmi Paikallisten rinnastusten muodostamiseen käytetään Smith-Watermanin dynaamista optimointialgoritmia. Sen avulla voidaan verrata erimittaisia sekvenssejä, ja se löytää hyvinkin erilaisista sekvensseistä yhteneväiset alueet. Matemaattisesti algoritmi eroaa Needleman-Wunschin algoritmista ainoastaan siinä, että jos pistemäärä jossakin solussa saa negatiivisen arvon, se muutetaan nollaksi, eli 0 F(i − 1, j − 1) + s(x i , y j ) F(i , j ) = F(i − 1, j ) − d F(i , j − 1) − d Negatiivisten arvojen korvaaminen nollalla vastaa uuden rinnastuksen aloittamista: On parempi aloittaa uusi rinnastus kuin jatkaa vanhaa. Lisäksi erona on, että vaikka Smith-Waterman-algoritmissa matriisi käydään läpi kuten NeedlemanWunsch-algoritmissa, aloitetaan takaisinjäljitys etsimällä korkein pistemäärä koko matriisista, ei oikeasta alanurkasta. Jotta paikallinen rinnastus dynaamisella optimoinnilla onnistuisi, tulee kahden satunnaisesti kohdakkain sattuvan nukleotidin tai aminohapon saaman pistemäärän olla keskimäärin negatiivinen. Jos näin ei ole, saattaa pitkä sekvenssialue saada korkean pistemäärän rinnastuksessa vain siitä syystä, että se on pitkä. Tämä vastaa käytännössä sitä, että paikalliseen rinnastukseen käytettävän pisteytysmatriisin entropian tulee olla negatiivinen. 8.9 Esimerkki Smith-Waterman-algoritmitmista Käyttäen samaa esimerkkiä kuin Needleman-Wunsch-algoritmin yhteydessä, on helppo osoittaa, että rinnastettavien sekvenssien välillä voidaan muodostaa vain yksi merkittävä paikallinen rinnastus (Kuva 8.8). 76 Bioinformatiikan perusteet Kuva 8.7: A-J. Needleman-Wunsch algoritmin käyttö DNA-sekvenssien rinnastamiseen. Punainen väri ilmaisee matriisin läpi kuljetun reitin; K. Needleman-Wunsch algoritmilla tehdyn DNA-sekvenssirinnastuksen takaisinjäljitys. Nuolilla on merkitty takaisinjäljityksessä käytetty polku. Punainen väri ilmaisee etenemisen aikana taitetun polun. Huomaa, että takaisinpäin edetessä on edetty matriisin täytön yhteydessä syntynyttä polkua pitkin. 8 Kahden sekvenssin rinnastus 77 Kuva 8.8: Esimerkki Smith-Watermanin paikallisrinnastusalgoritmista. Ensivaiheessa matriisi alustetaan pisteytysmatriisista saaduilla arvoilla, ja negatiiviset arvot korvataan nollilla. Punaisella on merkitty etenemisreitti matriisissa, joka tässä tapauksessa vastaa myös paikallisen rinnastuksen takaisinjäljitysreittiä ja sekvenssirinnastusta. Tässä tapauksessa yksinkertaisen takaisinjäljityksen jälkeen voidaan muodostaa paikallinen rinnastus, joka on tässä tapauksessa: AC AC 8.10 Sekvenssirinnastuksen tilastollinen merkitsevyys Dynaamiset algoritmit löytävät optimaalisen kahden sekvenssin rinnastuksen, ja ilmoittavat sen saaman pistemäärän. Rinnastuksen pistemäärä ei kuitenkaan kerro, ovatko sekvenssit tilastollisesti merkitsevästi samankaltaisia. Pelkän rinnastuksen pistemäärän perusteella ei voida siis päätellä, ovatko sekvenssit todennäköisesti homologisia keskenään vai onko samankaltaisuus sattuman aiheuttamaa. Alunperin rinnastusten tilastollisen merkitsevyyden määrittäminen perustui olettamukseen, että rinnastusten saamat pistemäärät ovat normaalisti (niiden jakauma muodostaa kellokäyrän) jakautuneita. Näin ei kuitenkaan ole, vaan pistemäärät noudattavat ennemminkin Gumbelin äärevien arvojen jakaumaa (Gumbel extreme value distribution). Paikallisten rinnastusten merkitsevyyden määrittäminen on matemaattisesti paremmin määritelty ja helpommin ratkaistava ongelma. Paikallinen rinnastus etsii rinnastettavista sekvensseistä sellaiset alueet, jotka eniten muistuttavat toisiaan. Tällaisia alueita esiintyy vain harvoin, jos rinnastetaan satunnaisia tai kovin erilaisia sekvenssejä. Joten, jos aidossa rinnastuksessa on samankaltaisia alueita, on niiden löytyminen jo itsessään merkittävää. Samankaltaisten alueiden esiintyminen satunnaisten sekvenssien rinnastuksissa on helppo laskea. Kokonaisrinnastuksissa kaksi sekvenssiä sijoitetaan kohdakkain koko pituuk- 78 Bioinformatiikan perusteet siltaan, ja usein tällaiset rinnastukset saavat hyvinkin korkeita pistemääriä. Samaa pätee myös satunnaisille sekvensseille, sillä Needleman-Wunschin algoritmi pyrkii aina luomaan rinnastukseen mahdollisimman monia sellaisia sarakkeita, joissa samanlaiset merkit osuvat kohdakkain. Siten kokonaisrinnastusten tilastollisen merkitsevyyden laskeminen on vaikeampaa kuin paikallisten rinnastusten. Kokonaisrinnastusta ei tulisikaan käyttää sekvenssien homologisuuden selvittämiseen. Onkin ensin parempi tunnistaa jokseenkin yhtäpitkät ja samankaltaiset sekvenssialueet paikallisilla rinnastusmenetelmillä, ja sen jälkeen rinnastaa nämä alueet uudelleen kokonaisrinnastusmenetelmin. Paikallinen rinnastus ei nimittäin välttämättä tuota samaa tulosta kuinkokonaisrinnastus samoille sekvensseille, ja kun sekvenssien tiedetään olevan homologisia, tulisi ne rinnastaa kokonaisrinnastusmenetelmin. 8.10.1 Paikallisen sekvenssirinnastuksen tilastollinen merkitsevyys Rinnastuksen saaman pistemäärän perusteella ei voida suoraan päätellä rinnatuksen tilastollista merkitsevyyttä, sillä pistemäärä on verrannollinen rinnastuksen pituuteen. Lisäksi käytetty pisteytysmatriisi vaikutta rinnastusten saamiin pistemääriin. Jotta pistemäärän perusteella voitaisiin määrittää rinnastuksen merkitsevyys, on tunnettava pistemäärän jakauma silloin, kun samankaltaisuus johtuu sattumasta. Koska rinnastuksessa ollaan kiinnostuneita vain parhaasta rinnastuksesta, on jakauma määritettävä useiden rinnastusten parhaille pistemäärille. Nämä arvot noudattavat äärevien arvojen jakaumaa, joka on johdettu matemaattisesti aukottomista paikallisista rinnastuksista useille erilaisille pisteytysmatriiseille. Jakauman perusteella voidaan määrittää todennäköisyys sille, että havaittu pistemäärä saataisiin kahden satunnaisen sekvenssin rinnastuksessa. Tämä todennäköisyys on (Karlin ja Altschul, 1990) E = K ∗ m ∗ n ∗ e −λ∗S , jossa rinnastettujen sekvenssien pituudet ovat m ja n, e on Neperin luku (≈2,71828) S on rinnastuksen pistemäärä, ja K ja λ ovat skaalaustekijöitä, joiden arvot riippuvat käytetystä pisteytysmatriisista ja aukkosakkojen arvoista. K :n likiarvona voidaan käyttää 0,1:tä, ja λ:n arvot vaihtelevat tyypillisesti välillä 0,1-0,3. Menetelmä on alunperin kuvattu aukottomille rinnastuksille, mutta sen soveltuvuus myös aukkoja sisältävien rinnatusten tilastollisen merkitsevyyden arviointiin on sittemmin osoitettu. K ja λ voidaan määrittää esimerkiksi seuraavasti. Luodaan suuri joukko satunnaisia sekvenssejä sekoittamalla toisen rinnastettavan sekvenssin merkkien järjestys. Satunnaistettu sekvenssi rinnastetaan entisellään säilytetyn kanssa, ja rinnastuksen saama pistemäärä pannaan merkille. Muodostetaan esimerkiksi 10 000 rinnastuksen pistemääristä frekvenssihistogrammi, joka vastaa havaittua pistemäärien jakaumaa. Havaittua jakaumaa verrataan äärevien arvojen jakaumaan K :n ja λ:n arvojen määrittämiseksi, sillä K ja λ ovat itseasiassa parametreja, jotka määrittelevät äärevien arvojen jakauman. Esimerkiksi mikä on todennäköisyys, että rinnastettaessa kahta 150 aminohapon mittaista sekvenssiä PAM250-matriisia käyttäen suurilla aukkosakoilla (λ=0,229), saadaan rinnastuksen pistemääräksi 50? Sijoittamalla yllä esiteltyyn kaavaa saadaan: E = K ∗ m ∗ n ∗ e −λ∗S = 0, 1 ∗ 150 ∗ 150 ∗ 2, 71828 −0,229∗50 = 0, 024 Todennäköisyys, että satunnaisten sekvenssien rinnastus saisi vastaavan pistemäärän on siis hyvin pieni. Luultavasti sekvenssien välinen samankaltaisuus on siis todellista eikä sattuman aiheuttamaa. Jotta rinnastuksen todennäköisyyden laskemiseen tarkoitettua kaavaa voitaisiin turvallisesti soveltaa, tulee pisteytysmatriisin keskimääräisen pistemäärän (expected score) olla negatiivinen. Rinnastuksen tilastollisen merkitsevyyden arvioiminen käy nopeammin, jos 8 Kahden sekvenssin rinnastus 79 oletetaan, että K =1 ja tilastollinen merkitsevyystaso (p-value) on 0,05. Tällöin nimittäin laskentakaava yksinkertaistuu muotoon S > log2(n ∗ m), jossa n ja m ovat rinnastettavien sekvenssien pituudet. Jos rinnastuksen saama pistemäärä (S) on suurempi kuin laskennallisesti määritetty arvo, on rinnastus tilastollisesti merkitsevä riskitasolla 0,05. Tällaisella riskitasolla joka kahdeskymmenes (1 / 0,05) kerta arvioimme sattumalta, että pistemäärä on merkitsevä, vaikka todellisuudessa näin ei olekaan. 8.10.2 Kokonaissekvenssirinnastuksen tilastollinen merkitsevyys Kokonaisrinnastusten pistemäärien jakaumalla ei ole olemassa yhtä hyvin tunnettua tilastollista mallia kuin paikallisten rinnastusten pistemäärille. Esimerkiksi, ei ole vielä selvää, ovat satunnaisten sekvenssien kokonaisrinnastuksien pistemäärät normaalisti jakautuneet vai seuraavatko ne äärevien arvojen jakaumaa. Useita erilaisia menetelmiä kokonaisrinnastuksen tilastollisen merkitsevyyden arvioimiseksi on kuitenkin kehitetty, mutta minkään antamat tulokset eivät ole täysin tyydyttäviä. Yksinkertaisin menetelmä perustuu toisen rinnastettavan sekvenssin satunnaistamiseen (permutaatiotestaus). Tällöin muodostetaan suuri joukko satunnaisia sekvenssejä, jotka sitten rinnastetaan satunnaistamattoman sekvenssin kanssa. Näiden satunnaisten rinnastusten pistemäärin perusteella muodostuu jakauma, jota voidaan käyttää varsinaisen rinnastuksen merkitsevyyden arviontiin. Tällaista analyysia kutsutaan permutaatiotestiksi. Ideana on, että jos alkuperäisen rinnastuksen saama pistemäärä sijoittuu yli kolmen keskihajonnan päähän satunnaisten rinnastusten saamien pistemäärin keskiarvosta, tulkitaan alkuperäinen rinnastus tilastollisesti merkitseväksi. Vaikkei permutaatiotesti annakaan kovin tarkkaa kuvaa rinnastuksen todellisesta tilastollisesta merkittävyydestä, on sen käyttäminen silti perusteltua edes likimääräisen merkitsevyysarvion saamiseksi. 8.11 Rinnastuksen asetusten määrittäminen Sekvenssejä rinnastettaessa tulisi aina käyttää sellaista pisteytysmatriisia, joka kuvaa rinnastettavien sekvenssien samankaltaisuutta. Esimerkiksi 80% samanlaisille aminohapposekvensseille tulisi käyttää esimerkiksi BLOSUM80-matriisia. Tämän arviointi on luonnollisesti vaikeaa ennenkuin sekvenssejä on varsinaisesti edes rinnastettu, mutta aluksi on valittava jokin matriisi joko arvaamalla tai aiempaa, esimerkiksi artikkeleista hankittua, tietoa käyttämällä. Kun sekvenssit on kertaalleen rinnastettu sellaisella matriisilla, joka on edes vähän oikeaan suuntaan, voidaan sekvenssien samankaltaisuudet arvioida ja käyttää uudelleenrinnastuksessa oikeampaa matriisia. Sama pätee periaatteessa myös nukleotidisekvensseille, vaikka niille onkin yleensä tarjolla huomattavasti suppeampi valikoima erilaisia pisteytysmatriiseja kuin aminohapposekvensseille. Aukkosakkoparametrien määrittäminen on jo huomattavasti hankalampaa. Yleisenä sääntönä voidaan sanoa, että haluttaessa aukon jatkamissakko vaikutta aukkojen pituuteen ja aukon avaamissakko niiden yleisyyteen. Mitä korkeammaksi avaamis- ja jatkamissakot määritetään sitä harvempia ja lyhyempiä aukkoja rinnastukseen muodostuu. On olemassa muutamia sääntöjä siitä, miten luonnolliset aukkosakot (natural gap weights) voidaan määrittää (Thorne, 1991). Ongelmaa mutkistaa se, ettei luonto ole matemaattisesti optimoitu. Aukkosakkojen määrittämiseksi voidaan esittää muutamia nyrkkisääntöjä: • Aukko ja sen pituus ovat kaksi eri asiaa. Niille pitää antaa eri parametrit (aukon avaamissakko ja jatkamissakko). 80 Bioinformatiikan perusteet • Rinnastuksessa tulisi ottaa huomioon, että kaikki substituutiot eivät ole yhtä yleisiä. Esimerkiksi DNA:ssa transitiot ovat transversioita yleisimpiä. Aminohappotasolla puolestaan Ile->Val on Ile->Arg todennäköisempi muutos. • Jos sekvenssit eivät ole alku- ja loppupäistään selkeästi samanlaisia, ei sekvenssien alku-ja loppupäiden aukoista tulisi sakottaa. • Ellei sekvenssien tiedetä olevan homologisia koko pituudeltaan, on parempi tehdä paikallinen rinnastus kuin kokonaisrinnastus. • Optimaalinen rinnastus ei välttämättä ole tilastollisesti merkitsevä. Rinnastuksen merkitsevyys tulisikin jollakin tapaa arvioida. • Rinnastus kuvaa ainoastaan sekvenssien samankaltaisuutta, eikä välttämättä tarkoita homologiaa. Sekvenssit voivat olla samankaltaisia sattumalta tai samansuuntaisesta evoluutiosta johtuen. Lisäksi on hyvä muistaa, ettei tilastollisesti merkitseväkään rinnastus välttämättä ole biologisesti merkittävä. Sekvenssijoukon biologian tunteminen on ensiarvoisen tärkeää niiden rinnastuvuutta arvioitaessa. Tietoa konservoituneista alueista ja laskostumisesta on syytä käyttää apuna sekvenssejä rinnastettaessa milloin se suinkin on mahdollista. 9 Sekvenssihaut 9 9.1 81 Sekvenssihaut Sekvenssihaku on monille jokapäiväinen työkalu Sekvenssihaut lienevät käytetyimpiä bioinformatiikan sovelluksia. Sekvenssihauilla etsitään sekvenssitietokannoista hakusekvenssiä vastaavaa tunnettua sekvenssiä. Esimerkiksi sekvensointi- ja EST-projektit käyttävät laajamittaisesti sekvenssihakuja tuntemattomien sekvenssien toiminnan selvittämiseksi. Jos nimittäin tietokannasta löytyy hakusekvenssiä riittävästi muistuttava tunnettu sekvenssi, voidaan olettaa, että hakusekvenssin toiminta solussa vastaa tai muistuttaa tunnetun sekvenssin toimintaa. Jos tuntematon aminohapposekvenssi on yli 50% samankaltainen kuin tunnettu sekvenssi, toimivat sekvenssit suurella todennäköisyydella samalla tavalla solussa. Alle 50% samankaltaisten, mutta samalla tavalla toimivien proteiinien vertaamiseksi on käytettävä muita menetelmiä (esimerkiksi, tunnistetietokannat, proteiinirakenteiden vartaaminen) kuin yksinkertaista sekvenssihakua. Sekvenssihakuja käytetään myös muun muassa saman geenin tunnistamiseen lähisukuisista lajeista, kahdentuneiden geenien tunnistamiseen samasta eliöstä, ja PCR-alukkeiden suunnitteluun. Esimerkiksi, hyvin suunniteltujen PCR-alukkeiden tulee sitoutua genomissa vain yhteen ainoaan paikkaan, sillä muutoin voi syntyä epäspesifisiä PCR-tuotteita. Erityisen tärkeää alukkeen sitoutumispaikan tarkistaminen on, jos tehdään sekvensointireaktioita, joissa käytetään vain yhtä ainutta aluketta kahden sijaan. 9.2 Kuinka tietohakuja tehdään? Tietokantahauissa voidaan verrata yksittäistä sekvenssiä tai matriisia tietokantaan. Hakuja voidaan tehdä myös iteratiivisesti, jolloin aluksi verrataan yhtä sekvenssiä tietokantaan. Saaduista osumista muodostetaan matriisi, jota verrataan uudelleen koko tietokantaan. Näin toimii esimerkiksi PSI-BLAST-ohjelma. . Ensimmäisen haun tuloksista voidaan myös poimia mielenkiintoisimmat tai samankaltaisimmat sekvenssit, ja käyttää niitä uusina hakusekvensseinä. Yksittäistä sekvenssiä käyttäen tietohakuja voidaan tehdä FastA- ja BLAST-ohjelmilla. Jos tietokantahauissa käytetään profiileja, voidaan hakuihin käyttää hmmsearch-ohjelmaa (käyttää kätkettyjä Markovin malleja) tai muita vastaavia ohjelmia. Nykyisille sekvenssitietokannoille on tyypillistä suuri koko ja nopea sekvenssien määrän lisääntyminen. Tämä vaikuttaa suoraan sekvenssihakujen nopeuteen. Käytetyllä hakualgoritmilla onkin suurempi vaikutus tietokantahaun nopeuteen kuin tietokoneen nopeudella. Karkeasti voidaan sanoa, että mitä herkemmin menetelmä tunnistaa sekvenssien samankaltaisuuden, sitä kauemmin haku kestää. Hyvä menetelmä pystyy myös tunnistamaan suurimman osan hakusekvenssin kaltaisista sekvensseistä sisällyttämättä tuloksiin vääriä tuloksia eli sekvenssejä, jotka eivät todellisuudessa ole samankaltaisia kuin hakusekvenssi. Nykyisin käytetään sekvenssihakuihin miltei yksinomaan FastA- ja BLAST-ohjelmia, mutta muitakin menetelmiä on. Nopeutensa ja käänteisesti herkkyytensä perusteella sekvenssihakualgoritmit voidaan järjestää seuraavasti: BLAST, FastA, SSEARCH (Smith-Waterman) 82 Bioinformatiikan perusteet ja BBA. BLAST ja FastA ovat heuristisia menetelmiä, SSEARCH on dynaaminen optimointialgoritmi, ja BBA käyttää Bayesilaista lähestymistapaa. Sekvenssihauissa tulee harkita käytettävä tietokanta ja/tai divisioona tarkoin, sillä sopivaa tietokantaa ja osastoa käyttäen haku nopeutuu huomattavasti. Lisäksi on valittava riittävän nopea algoritmi siten, että haun herkkyys riittää toivotun tuloksen saavuttamiseen, kuitenkin siten ettei haku kestä tolkuttoman kauan. Myös hakukoneen ominaisuuksiin kannattaa kinnittää huomiota. Kaikki hakukoneet ovat eniten kuormitettuja keskellä työpäivää (10.00-16.00 paikallista aikaa), joten ajankohdasta riippuen kannattaa mahdollisesti käyttää eri hakukonetta. Esimerkiksi, NCBI:n BLAST-palvelut on erittäin hyvin optimoitu hakuja ajatellen, mutta niitä kannattaa käyttää vain suhteellisen aikaisin aamulla, ennen amerikkalaisten töihintuloa. Haut alkavat selvästi hidastua jo heti puolenpäivän jälkeen, jolloin tutkijat Yhdysvaltain länsirannikolla palailevat töihin. Periaatteessa haut paikalliselta koneelta tai kansalliselta palvelimelta (CSC, gepardi.csc.fi) ovat tehokkaampia kuin haut Internetin kautta, mutta tehokkuus saattaa vaihdella palvelimen käyttöasteen mukaan. Käytännössä Gepardi-palvelin on osoittautunut noin kymmenen kertaa NCBI:n palvelinta nopeammaksi vuorokaudenajasta riippumatta, mutta sen käyttäminen vaatii käyttölupahakemuksen täyttämistä. Jos halutaan löytää hakusekvenssille homologinen sekvenssi sekvenssihakua käyttäen, kannattaa ensin kääntää DNA-sekvenssi aminohapposekvenssiksi (Kuva 9.1). Eliöissä esiintyy vaihtelua esimerkiksi kodonien käytössä ja nukleotidien runsaussuhteissa, mikä voi aiheuttaa ongelmia tietokantahauissa. Ongelman merkitys pienenee, jos haku tehdään aminohapposekvenssiä käyttäen. Käännöksen voi tehdä samanaikaisesti tietokantahaun yhteydessä esimerkiksi FastX- tai BLASTxohjelmilla. Jos halutaan verrata tunnettua sekvenssiä esimerkiksi saman eliön kaikkiin EST-sekvensseihin, on DNA-sekvenssin käyttö kuitenkin perusteltua. Vaikkei DNA-sekvenssi koodaisikaan proteiinia tai se sisältää introneita, voidaan se kuitenkin kääntää aminohapposekvenssiksi käyttäen kaikkia kuutta mahdolista lukukehystä. Näin tehdyistä käännöksistä voidaan etsiä avoimet lukukehykset, jotka ovat yleensä vähintään 100:n aminohapon mittaisia, ja joita voidaan käyttää sekvenssihauissa. Sopivasti valittu BLAST-ohjelma tekee tämän myös automaattisesti. 9.3 BLAST BLAST (Basic local alignment search tool) (Altschul, 1990) on nykyisin käytetyin sekvenssihakuohjelma (algoritmi). BLAST on nopeampi kuin Fasta mutta teoreettisesti ottaen sen sensitiivisyys eli kyky löytää oikeat sekvenssit on heikompi kuin FastA:n. Käytännössä tällä erolla ei ole suurta merkitystä. Etuna BLAST:ssa on, että se poistaa automaattisesti (jos käyttäjä niin haluaa) sellaiset alueet (lowcomplexity regions) hakusekvenssistä, jotka aiheuttaisivat paljon vääriä tuloksia. Nämä alueet, joiksi luetaan esimerkiksi pitkät toistojaksot sekä SINE (short intersperced nuclear element)- ja LINE (long intersperced nuclear element)-elementit, ovat yleisiä genomin eri osissa kautta eliökunnan. BLAST käyttää samankaltaista hakualgoritmia (Kuva 9.3) kuin Fasta. BLAST:in hakualgoritmi siis pilkkoo hakusekvenssin aluksi lyhyiksi sanoiksi, joiden oletuspituus on kolme aminohappoa tai 11 nukleotidia. Tätä kutsutaan sanakooksi. Sekvenssistä poimitaan sanakoon mittaisia sanoja järjestyksessä. Esimerkiksi jos aminohapposekvenssi on PQGLLGQP, ensimmäinen sana on PQG, toinen QGL ja niin edelleen. Jokaista sanaa verrataan tietokantaan, ja löydetyt osumat pisteytetään käyttäen valittua pisteytysmatriisia ja kynnysarvoa (neighborhood word score threshold, T-arvo). Vain ne osumat, joiden pistemäärä ylittää valitun kynnysarvon valitaan jatkoon. Esimerkiksi käytettäessä BLOSUM62-matriisia ja kynnysarvoa 13, sana PQG ylittää kynnysarvon osuessaan tietokannassa kohdakkain esimerkiksi sanojen PQG (18 pistettä) ja PEG (15 pistettä) kanssa. Sama toistetaan kaikille 9 Sekvenssihaut 83 Kuva 9.1: Tietokantahakujen päätäntäkaavio homologisten sekvenssien löytämiseksi. Kuva on muokattu Mountin (2001) esimerkin pohjalta. 84 Bioinformatiikan perusteet sekvenssistä muodostetuille sanoille (Kuva 9.2). Kuva 9.2: Esimerkki Blast-haun siemennyksestä. Hakusekvenssi pilkotaan sanakoon (W) mittaisiksi sanoiksi, joille etsitään vastineita tietokannan kaikista sekvensseistä. Valittujen sanojen avulla muodostetaan hakupuu, jota käytetään tietokantahaussa. Hakusekvenssin ensimmäisen sanan paikka (PQG) saa osuman, jos tietokannan vertailun kohteena olevassa sekvenssissä esiintyy esimerkiksi PQG tai PEG, mutta ei jos siinä esiintyy esim. PQA. Tarpeeksi lähellä olevat osumat yhdistetään toisiinsa ja yhdistettyjä osumia jatketaan kummastakin päästä (Kuva 9.4 niin kauan kunnes pistemäärä kasvaa (Kuva 9.5. Näitä jatkettuja sekvenssin osia kutsutaan HSP:hen (high-scoring segment pair). Näille HSP-alueille lasketaan tilastollinen merkitsevyys. Ohjelma tulostaa sekvenssit, joissa olevat HSP-alueet ylittävät tietyn merkitsevyystason (E-arvo). Löydetyjen sekvenssien ja hakusekvenssien välille tehdään lopuksi rinnastus käyttämällä Smith-Waterman algoritmia. Rinnastuksessa sallitaan aukot, jolloin kaksi tai useampi HSP-alueista voidaan sisällyttää samaan rinnastukseen. Hakusekvenssissä olevat yksinkertaiset alueet (low-complexity) ja toistojaksot voidaan poistaa ennen varsinaista hakua. Näin voidaan tehokkaasti vähentää biologisesti merkityksettömien samankaltaisuuksien löytymistä. Yksinkertaisia alueita ovat esimerkiksi proliinirikkaat ja happamat tai emäksiset aminohapposekvenssin alueet. Samaan suodatusmenetelmää käyttäen voidaan poistaa myös ihmisen nukleotidisekvensseissä yleisesti esiintyvät LINE- ja SINE-toistojaksot. Suodatetut alueet merkitään automaattisesti BLAST-ohjelman tulostukseen X:llä tai N:llä riippuen siitä, käsitelläänkö aminohappo- vai nukleotidisekvenssejä. Suodatus perustuu siihen, että sekvenssiä tarkastellaan koko pituudeltaan liukuvan ikkunan periaatteella. Liukuvalla ikkunalla tarkoitetaan sitä, että aluksi tarkastellaan esimerkiksi sekvenssikohtia 1-12, sitten 2-13, 3-14, ... siten, että ikkunaa siirretään aina yhden nukleotidin tai aminohapon verran eteenpäin. Ikkunan pituus on BLAST-suodatuksen yhteydessä yleensä 12 nukleotidia tai aminohappoa. Jokaisen ikkunan sisällä sekvenssille lasketaan kompleksisuutta kuvaava lukuarvo kaavalla: 1 L! K = ∗ log N ( ), L ni ! jossa N=4 nukleotidisekvensseille ja N=20 aminohapposekvensseille. K vaihte- 9 Sekvenssihaut 85 Kuva 9.3: BLAST-haun vaiheet. Vaiheessa A käyttäjä syöttää hakusekvenssin (musta) BLAST-ohjelmalle. Vaiheessa B BLAST-algorimi pilkkoo hakusekvenssin määrätyn (sanakoon) mittaisiksi pätkiksi. Pätkät menevät toistensa kanssa päällekkäin siten, että ensimmäinen sana muodostuu esimerkiksi sekvenssin kohdista 1, 2 ja 3 ja seuraava kohdista 2, 3 ja 4 ja niin edelleen, kunnes koko hakusekvenssin on käyty läpi. Tätä kutsutaan seeding:ksi. Vaiheessa C sanakoon mittaisille pätkille etsitään paras vastaavuus tietokannan sekvensseistä (harmaa). Tämä tehdään muodostamalla samanlainen etsintätaulukko kuin FastA-menetelmässäkin, sillä se nopeuttaa hakua huomattavasti. Jatkoon valutaan vain sellaiset sekvenssipätkät, joiden saama pistemäärä ylittää määrätyn raja-arvon (threshold in seeding). Vaiheessa D haku- ja tietokannan sekvenssin välistä rinnastusta pyritään jatkamaan päistään (ohuet mustat viivat). Rinnastusta jatketaan vain niin kauan kuin rinnastuksen saama pistemäärä jatkaa kasvuaan. Kun rinnastuksen drop of score putoaa riittävän alhaiseksi, rinnastuksen katsotaan päättyvän. Jos esimerkiksi drop-off scoreksi on asetettu -1, ja rinnastus saa tietyssä sekvenssikohdassa pistemääräksi -2, päättyy rinnastus siihen. Tällaisia jatkettuja rinnastusalueita kutsutaan HSP-alueiksi (high-scoring segment pair). HSP-alueille lasketaan tilastollinen merkitsevyys, ja ohjelma tulostaa vain sellaiset HSPrinnastukset, joiden merkitsevyys ylittää määrätyn raja-arvon (E-value threshold). Lopuksi tietokannan ja hakusekvenssin välille tehdään HSP-alueilla rinnastus Smith-Watermanin menetelmällä (vaihe E). BLAST-algoritmi sallii aukkojen esiintymisen sekvensseissä (vaihe E), jolloin useampia HSP-alueita voidaan sisällyttää samaan rinnastukseen. Kuva 9.4: Kun tietokannasta on löydetty hakusekvenssin sanoille osumia, pyritään hakusekvenssin ja tietokannan sekvenssin välistä rinnastusta jatkamaan. 86 Bioinformatiikan perusteet Kuva 9.5: Sanoja jatketaan vain niin kauan kuin rinnastuksen saama pistemäärä jatkaa kasvuaan. Kasvu määritellään drop-off score:n avulla. Drop-off score kasvaa aina, kun rinnastuksen päähän lisätään peräkkäisiä negatiivisen pistemäärän saavia aminohappoja tai nukleotideja. Kun drop-off score ylittää määrätyn raja-arvon (X), lopetetaan myös rinnastuksen jatkaminen. lee välillä 0-1 riippuen sekvenssin kompleksisuudesta. Esimerkiksi sekvensseille AAAA ja ACGT kompleksisuus lasketaan seuraavasti: L! = 4! = 4 × 3 × 2 × 1 = 24, A A A A− > n a = 4, n c = 0, n g = 0, n t = 0, n i ! = 4 × 3 × 2 × 1 × 0! × 0! × 0! = 24 × 1 × 1 × 1 = 24, K = 1/4 × log4(24/24) = 0 L! = 4 × 3 × 2 × 1 = 24, AC GT − > n a = 1, n c = 1, n g = 1, n t = 1, n i ! = 1! × 1! × 1! × 1! = 1 K = 1/4 × log4(24/1) = 0.573 Sekvenssi AAAA on selvästi kompleksisuudeltaan alhainen, ja poistettaisiin hakusekvenssistä koodaamalla sitä vastaavat nukleotidit tuntemattomiksi (NNNN). BLAST-ohjelmistopaketissa on useampia eri ohjelmia, joita käytetään erilaisiin tarkoituksiin (Taulukko 9.1). Muutama esimerkki ohjelmien käytöstä valottanee niiden käyttöalueita paremmin. Blastn-ohjelmaa käytetään usein esimerkiksi geenian annotaatioiden etsimisen tietokannoista tai oligonukleotidien sijainnin selvittämiseen pidemmässä sekvenssissä. Blastp-ohjelmalla puolestaa voidaan helposti selvittää proteiinien yhteiset rakenteet, sillä parittaiset rinnastukset vastaavat usein proteiinien toiminnallisia osia. Blastx-ohjelmalla on kätevää etsiä esimerkiksi proteiineja koodaavia geenejä tietokannoista. Tblastn-ohjelma soveltuu hyvin transkriptien tunnistamisen, erityisesti jos tämä halutaan tehdä useita lajeja käyttäen. Tblastx-ohjelman käyttö kohdistuu lähinnä proteiinitietokannoista puuttuvien geenien tunnistamiseen sekä eri geenien lajien väliseen vertailuun. Blastp-ohjelman tuloste on esitetty kuvassa 9.6. Yleensä BLAST-hauissa käytetään BLOSUM62-pisteytysmatriisia, mutta muitakin matriiseja voidaan käyttää. Erilaisille matriiseille on myös määritetty toimivimmat aukkosakkoparametrien arvot (Taulukko 9.2). Useimmiten haku kannattaa aloitaa aukkosakkojen oletusasetuksilla, sillä ne on havaitu hyviksi homologisten sekvenssien tunnistamiseen. Niitä voi kuitenkin olla tarpeen muuttaa, jos ollaan esimerkiksi etsimässä homologia kovin kaukaisista sukulaisista, sillä tällöin rinnastuksessa voi olla tavanomaista enemmän aukkoja. Tällöin aukkosakkoja tulisi pienentää. 9 Sekvenssihaut 87 BLASTP 2.2.1 [Apr-13-2001] Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schäffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. RID: 1011278262-1325-31515 Query= gi|2842712|sp|Q92889|XPF_HUMAN DNA-REPAIR PROTEIN (905 letters) Database: Non-redundant SwissProt sequences 102,387 sequences; 37,391,913 total letters If you have any problems or questions with the results of this search please refer to the BLAST FAQs Taxonomy reports Distribution of 10 Blast Hits on the Query Sequence Tästä puuttuu kuva Score (bits) Sequences producing significant alignments: gi|2842712|sp|Q92889|XPF_HUMAN DNA-REPAIR PROTEIN COMPLEMEN... gi|548659|sp|P36617|RA16_SCHPO DNA REPAIR PROTEIN RAD16 gi|3914026|sp|Q24087|MEI9_DROME MEI-9 PROTEIN (MEIOTIC-9 PR... gi|131810|sp|P06777|RAD1_YEAST DNA REPAIR PROTEIN RAD1 gi|3915469|sp|Q58900|YF05_METJA PUTATIVE ATP-DEPENDENT RNA ... gi|3915778|sp|P10587|MYHB_CHICK gi|1170385|sp|P44669|HSCA_HAEIN 1656 478 334 227 59 MYOSIN HEAVY CHAIN, GIZZARD... CHAPERONE PROTEIN HSCA HOMOLOG 32 31 0.0 e-134 4e-91 8e-59 5e-08 4.1 10.0 Alignments Poistettu rinnastus itsensä kanssa. >gi|3914026|sp|Q24087|MEI9_DROME MEI-9 PROTEIN (MEIOTIC-9 PROTEIN) Length = 926 Score = 334 bits (857), Expect = 4e-91 Identities = 168/349 (48%), Positives = 244/349 (69%), Gaps = 9/349 (2%) Query: 554 ALTRVLHEVEPRYVVLYDAELTFVRQLEIYRASR---PGKPLRVYFLIYGGSTEEQRYLT 610 AL +L +++P YVV+Y+ +T +RQLE++ A R P ++VYFLI+ + EEQ YLT Sbjct: 529 ALEHMLEQLQPHYVVMYNMNVTPIRQLEVFEARRRLPPADRMKVYFLIHARTVEEQAYLT 588 Query: 611 ALRKEKEAFEKLIREKASMVVPEEREGRDETNLDLVR--GTASADVSTDTRKAGGQEQNG 668 +LR+EK AFE +I K+ MV+P+ ++G+ + L++ D + +R+AGGQ Sbjct: 589 SLRREKAAFEFIIDTKSKMVIPKYQDGKTDEAFLLLKTYDDEPTDENAKSRQAGGQAPQA 648 Query: 669 TQQS--IVVDMREFRSELPSLIHRRGIDIEPVTLEVGDYILTPEMCVERKSISDLIGSLN 726 T+++ ++VDMREFRS+LP LIH+RG+++ P+T+ +GDYILTP++CVERKSISDLIGSLN Sbjct: 649 TKETPKVIVDMREFRSDLPCLIHKRGLEVLPLTITIGDYILTPDICVERKSISDLIGSLN 708 Query: 727 NGRLYSQCISMSRYYKRPVLLIEFDPSKPFSLTSRGALFQEIS--SNDISSKLTLLTLHF 784 +GRLY+QC+ M R+Y +P+LLIEFD +KPF L + L Q+ S + DI KL LLTLHF Sbjct: 709 SGRLYNQCVQMQRHYAKPILLIEFDQNKPFHLQGKFMLSQQTSMANRDIVQKLQLLTLHF 768 Query: 785 PRLRILWCPSPHATAELFEELKQSKPQPDAATALAITADSETLPESEKYNPGPQDFLLKM 844 P+LR++W PSP+ATA+LFEELK KP+PD TA A+ +D E +N G DFLL++ Sbjct: 769 PKLRLIWSPSPYATAQLFEELKLGKPEPDPQTAAALGSDEPMAGEQLHFNSGIYDFLLRL 828 Query: 845 PGVNAKNCRSLMHHVKNIAELAALSQDELTSILGNAANAKQLYDFIHTS 893 PGV+ +N L+ ++ +L SQ EL +L + +AK LYD +H + Sbjct: 829 PGVHTRNIHGLLRKGGSLRQLLLRSQKELEELLQSQESAKLLYDILHVA 877 E Value 88 Bioinformatiikan perusteet Esimerkki yksinkertaisen alueen maskeeraamisesta. Query: 304 ATEKAFGQNSGWLFLDSSTSMFINARARVYHLPDAXXXXXXXXXXXXXXXXXXXXXXXLV 363 +TE A NSGW LD++ +F +R RV++ Sbjct: 297 STEYAL-SNSGWTLLDAAEQIFKLSRQRVFN-----------------------GQQEFE 332 Database: Non-redundant SwissProt sequences Posted date: Jan 15, 2002 6:20 AM Number of letters in database: 37,391,913 Number of sequences in database: 102,387 Lambda 0.320 K H 0.136 Gapped Lambda K 0.267 0.0410 0.394 H 0.140 Matrix: BLOSUM62 Gap Penalties: Existence: 11, Extension: 1 Number of Hits to DB: 59,562,868 Number of Sequences: 102387 Number of extensions: 2382147 Number of successful extensions: 6449 Number of sequences better than 10.0: 13 Number of Number of Number of Number of length of length of effective effective effective HSP’s better than 10.0 without gapping: 6 HSP’s successfully gapped in prelim test: 7 HSP’s that attempted gapping in prelim test: 6415 HSP’s gapped (non-prelim): 22 query: 905 database: 37,391,913 HSP length: 116 length of query: 789 length of database: 25,515,021 effective search space: 20131351569 effective search space used: 20131351569 T: 11 A: 40 X1: 16 ( 7.4 bits) X2: 38 (14.6 bits) X3: 64 (24.7 bits) S1: 41 (21.8 bits) S2: 69 (31.2 bits) Kuva 9.6: Esimerkki blastp-ohjelman tulosteesta. Haussa käytettiin SwissProt tietokantaa, ja ihmisen XPF-DNA-korjausentsyymin aminohapposekvenssiä. Ohjelma tulostaa kaikki ne sekvenssit, joiden E-arvo on sama tai korkeampi, kuin ohjelman ajomäärittelyissä annettu arvo kohdassa ’Expect’. Fasta-hakuun verrattuna BLAST ei raportoinut (tai löytänyt) YIS2_YEAST -geeniä. Sekvenssit, joilla on hyvin korkea merkitsevyys, löytyvät kummassakin haussa. Score in bits tarkoittaa pistearvoa tai z-arvoa, joka perustuu kaksikantaiseen logaritmiin log2 (ei kymmenkantaiseen kuten Fastassa). Tämän lisäksi alkuperäistä z-arvoa on muokattu niin, että se ottaa huomioon käytetyn pisteytysmatriisin eli on pisteytysmatriisista riippumaton. Myöhemmin linjauksien kohdalla alkuperäinen ’score in bits’ on esitetty suluissa. E-arvo kertoo odotusarvon, kuinka monta sekvenssiä saisi saman pistearvon pelkän sattuman vaikutuksesta. Tämän jälkeen esitetään löytyneiden sekvenssien rinnastukset. Jokaisesta sekvenssistä ilmoitetaan kuinka suuri osa aminohapoista on identtisiä ("identities"), kuinka paljon on aminohappoja, jotka ovat joko identtisiä tai odotettuja korvautumisia BLOSUM62-matriisiin perustuen (ne korvautumiset, joissa pistearvo on positiivinen, "positives") ja mikä on aukkojen osuus rinnastuksessa. Lopuksi ohjelma tulostaa haun aikana käytettyjä parametreja ja välituloksia. 9 Sekvenssihaut 89 Taulukko 9.1: Eri BLAST-ohjelmaversioiden käyttötarkoitukset. Ohjelma blastn tblastx blastx blastp tblastn Hakusekvenssi nukleotidi nukleotidi nukleotidi aminohappo aminohappo Tietokanta nukleiinihappo käännetty nukleiinihappo proteiini proteiini käännetty nukleiinihappo Taulukko 9.2: BLAST-hakuihin parhaiten soveltuvien pisteytysmatriisien ja aukkosakkoparametrien yhdistelmät. Aukkosakot on esitetty muodossa (9,1), jossa ensimmäinen lukuarvo tarkoittaa avaamisesta koituvaa sakkoa, ja jälkimmäinen aukon jatkamisesta koituvaa sakkoa. Haun pituus <35 35-50 50-85 >85 9.4 Pisteytysmatriisi PAM-30 PAM-70 BLOSUM-80 BLOSUM-62 Aukkosakot (9,1) (10,1) (10,1) (11,1) PSI-BLAST Monissa BLAST-hakupalveluissa on normaalin sekvenssihaun lisäksi mahdollista tehdä niin sanottu PSI-BLAST-haku (position specific iterated blast) (Altschul, 1997). Haku on iteratiivinen ja perustuu PSS-matriisiin. Ensimmäisessä vaiheessa omalla hakusekvenssillä tehdään normaali BLAST-haku. Tulokset, joiden Earvo on alle annetun kynnysarvon (expect), rinnastetaan keskenään. Rinnastuksesta tehdään PSS-matriisi. Paikkakohtaisen pisteytysmatriisin avulla tietokannasta haetaan uusia (samaan perheeseen kuuluvia) sekvenssejä. Löydetyt sekvenssit lisätään usean sekvenssin rinnastukseen, jos ne ylittävät annetun kynnysarvon (the expect value for inclusion in PSI-BLAST iteration), joka on oletusarvoisesti 0,001. Uusien tulosten perusteella luodaan uusi paikkakohtainen pisteytysmatriisi. Iteraatioita voidaan tehdä niin monta kuin halutaan. Tällä tavoin alkuperäisen sekvenssin ja jokaisessa haussa löydettyjen samankaltaisten sekvenssien informaatio yhdistetään tehtäessä uutta hakua. Tämä lisää haun sensitiivisyyttä. Ongelmana PSIBLAST:n käytössä on, että se voi helposti johtaa harhaan, jos samankaltaisuus on pelkästään sattuman aiheuttamaa, eikä kuvasta sekvenssien sukulaisuutta. Tehtäessä useita iteraatiokierroksia väärät sekvenssit voivat kasata uusia vääriä sekvenssejä, ja näin johtaa koko haun väärille urille. Toimiessaan hyvin, PSI-BLAST:in avulla on mahdollista löytää suuri osa samaan proteiiniperheeseen kuuluvista proteiineista. 9.5 PHI-BLAST PHI-BLAST (pattern-hit initiated BLAST) toimii pitkälti samalla tavalla kuin PSIBLAST, mutta hakusekvenssistä etsitään ensin käyttäjän antama säännönmukaisuus (pattern). Säännönmukaisuus esitetään ohjelmalle säännöllisen lauseen muodossa. Säännöllisiä lauseita on koottu PROSITE-tietokantaan. Tietokantaan kohdistuvat haut rajoitetaan vain alueille, joilta säännönmukaisuus löytyi. Siten PHIBLAST antaa mahdollisuuden tutkia yhdessä tietyssä sekvenssikohdassa esiintyvää vaihtelua tietokantasekvensseissä. 90 Bioinformatiikan perusteet 9.6 Sekvenssihaut Smith-Waterman-algoritmilla Smith-Watermanin paikallisen rinnastuksen algoritmia voidaan käyttää myös sekvenssihakujen tekemiseen. Käytännössä algoritmi on noin sata kertaa BLAST:ia hitaampi, ja sen käyttö on tullut mahdolliseksi vasta viime vuosina, kun tietokoneiden laskentakapasiteetti on kehittynyt huimasti. Smith-Waterman-haku näyttää soveltuvan kaukaisten sukulaisten löytämiseen BLAST:ia ja FastA:ta paremmin, johtuen kenties siitä, että Smith-Waterman-algoritmi muodostaa sekvenssien vällille parhaan mahdollisen rinnastuksen. BLAST ja FastA eivät puolestaan välttämättä löydä parasta mahdollista rinnastusta, jolloin vähäisemmät samankaltaisuudet voivat jäädä huomaamatta. Smith-Waterman-hakuja ei vieläkään käytetä kovin usein, sillä tuloksia saattaa joutua odottamaan useita tunteja nopeallakin koneella. Tällöin oikean tietokannan tai sen osasen (divisioonan) valitseminen tuleekin entistä tärkeämmäksi. 9.7 BLAST:n ja FastA:n Hakuparametrien asettamisesta Sekä FastA- että BLAST-algorimit antavat mahdollisuuden vaikuttaa hakuun ohjelman parametreja muuttamalla. Parametreja on miltei pakko toisinaan muuttaa. Esimerkiksi, jos haluaa löytää lyhyen sekvenssin (vaikkapa 20bp) ihmisen genomista, on parametreja muutettava, sillä oletusarvoisilla asetuksilla ajaminen ei useinkaan tuota minkäänlaista tulosta. Yleistäen voidaan sanoa, että käyttötarkoituksesta riippuen, haku kannattaa aina aloittaa oletusasetuksilla, ja jos tulokset eivät ole tyydyttäviä, voidaan asetuksia muuttaa sopivampaan suuntaan. Seuraavassa on esitetty muutamia suuntaviivoja, joita käyttäen hakuaan voi muokata sopivammaksi. Suuntaviivat on annettu lähinnä blastn- ja blastp-ohjelmia ajatellen, mutta ovat hyödyllisiä pitkälti myös muita BLAST-ohjelmia käytettäessä. 9.7.1 Rajoita haku vain kiinnostavaan tietokantaan Kaikkein tärkeintä on valita tarkoitukseen sopiva tietokanta tai tietokannan osa. Esimerkiksi, jos halutaan löytää ihmisen sekvenssi, kannattaa haku rajoittaa pelkästään ihmisen sekvensseihin, sillä tämä nopeuttaa hakua ja parantaa sen tarkkuutta. On myös mahdollista rajoittaa haku vain tiettyyn eliöryhmään, kuten nisäkkäisiin. 9.7.2 Suodata hakusekvenssi Ihmisen ja nisäkkäiden sekvensseistä kannattaa yleensä poistaa sekä "low complexity regions"että toistojaksot (human repeats), paitsi jos on erityisen kiinnostunut toistojaksoista tai esimerkiksi Alu,- SINE- ja LINE-jaksoista tai muista yleisesti ihmisen genomissa esiintyvistä virussekvensseistä. 9.7.3 Lyhyiden sekvenssien hakeminen Jos tarkoituksena on löytää lyhyt sekvenssi, on valittava tiukat asetukset, eli sellaiset, jotka sallivat ainoastaan hyvin samankaltaisten osumien löytämisen. Tällöin on syytä lyhentää sanakokoa, ja suurentaa E-arvoa. Lyhyet sekvenssit nimittäin tuottavat sattumaltakin useita osumia tietokantaan, ja jos E-arvo on liian alhainen ei oikeitakaan osumia raportoida. Lisäksi on mahdollista muuttaa käytettävää pisteytysmatriisia, jos hakuna käytetään aminohapposekvenssiä. Etsittäessä lyhyitä sekvenssejä, tulisi pisteytysmatriisina käyttää sellaista, joka soveltuu hyvin lähisukuisille sekvensseille. Esimerkiksi matriiseja PAM30, BLOSUM80 ja BLOSUM90 voi kokeilla (NCBI:n palvelimella advanced option esimerkiksi -M PAM30). Esimerkiksi sanakoolla 7 ja E-arvolla 10 pitäisi löytyä paljon osumia tietokantaan, jos käytetään nukleotidisekvenssiä. Vastaavasti aminohapposekvenssiä käytettäessä voidaan 9 Sekvenssihaut 91 asetuksiksi valita sanakoko 2, E-arvo 100 ja matriisiksi PAM30. Jos ollaan hakemassa genomista esimerkiksi PCR-alukkeiden sitoutumiskohtia, voi olla syytä muuttaa sanakokoa siten, että sanakoko on saman mittainen kuin itse alukekin. Tällöin otetaan huomioon vain sellaiset kohdat, joita aluke täydellisesti vastaa. Jos tämä ei ole mahdollista, voi myös aukkosakkojen muuttaminen suuremmiksi auttaa tekemään haun spesifisemmäksi. 9.7.4 Homologien tunnistaminen Jos halutaan löytää samankaltaisia tai homologisia sekvenssejä muista eliöistä on syytä käyttää löysempiä asetuksia, mutta E-arvoa ei kannata kasvattaa kovin suureksi, tai mukaan alkaa tulemaan paljon roskaa. Esimerkiksi etsittäessä hiivasta vastinetta jollekin ihmisen sekvenssille, kannattaa käyttää kaukaisille sekvensseille sopivaa pisteytysmatriisia, kuten PAM250, BLOSUM62 tai jopa BLOSUM40. Aukkosakkoparametrien muuttaminen suuremmiksi voi olla järkevää, jos tuloksena saadut rinnastukset näyttävät kovin aukkoisilta; koodaavalla alueella, oli sekvenssi sitten DNA:ta tai aminohappoja, on yleensä suhteellisen vähän aukkoja. Tuloksia kannattaa tulkita harkiten, sillä erityisesti eri lajeja verrattaessa voi sekvensseissä olla duplikaatioita, inversioita tai muita uudelleenjärjestelyitä, joiden tunnistaminen voi olla hankalaa. 9.7.5 Eksonien määrittäminen Suurin osa eksoneista on pituudeltaan oli 50 bp:tä, joten haussa voidaan käyttää suurta sanapituutta. Esimerkiksi sanapituus 15 toimii yleensä varsin hyvin. Ennen hakua sekvenssistä kannattaa suodattaa toistojaksot, ja käyttää alhaista E-arvoa. Koska BLAST tekee paikallisen rinnastuksen, on rinnastus yleensä eksoni-intronirajapinnassa muutamia nukleotideja pidempi kuin todellinen eksoni. Tarkan eksonin sijainnin määrittäminen onnistuu esimerkiksi Smith-Watermanin algoritmia käyttäen tai tarkastelemalla BLAST-rinnastuksen päitä. Introneissa on yleensä tyypillinen splice-sekvenssi, joka rajaa eksonin ja intornin. 9.7.6 Pääsäännöt Haun spesifisyyteen ja sensitiivisyyteen vaikuttavat käytettävä sanakoko, pisteytysmatriisi ja E-arvo. Pääsääntöisesti näiden asetuksia muuttamalla voidaan suurelta osin vaikuttaa löytyvien sekvenssien määrään (E-arvo) ja laatuun (pisteytysmatriisi ja sanakoko). Lisäksi sanakoko vaikuttaa haun nopeuteen siten, että suuremmilla sanakoon arvoilla haku nopeutuu lyhyempiin sanakokoihin verrattuna. Aukkosakkoparametrien arvoja muuttamalla voidaan vaikuttaa haun antaman sekvenssirinnastuksen pituuteen sekä haun spesifisyyteen. Mitä suurempia aukkoja parametrit sallivat avattavan, sitä kaukaisempiakin sukulaisia hakusekvenssille voidaan löytää. Käytännössä on havaittu, että BLOSUM-matriisit toimivat PAM-matriiseja paremmin tietokantahauissa. Yleisimmin käytetään BLOSUM62ja BLOSUM50-matriiseja, jotka ovat tavallaan yleiskäyttöisiä matriiseja. BLOSUM62matriisille sopivat aukkosakot ovat -8 avaamiselle ja -2 jatkamiselle (-8/-2"). Vastaavasti BLOSUM50-matriisille sopivat parhaiten asetukset -12/-2 tai -14/-2. 9.7.7 Suunnittele haut! BLAST-hakuihin kannattaa suhtautua vakavasti, kuten laboratoriokokeisiinkin. Aivan kuten laboratoriossakin, BLAST vastaa vain esitettyihin kysymyksiin. Jos esimerkiksi olet kiinnostunut löytämään geenejä, jotka ovat homologisia ihmisellä ja sukkulamadolla, ei kannattane käyttää esimerkiksi NCBI:n BLAST-palvelun oletusasetuksia (osuma +1, huti -3 pistettä), jotka on säädetty löytämään 99% identtisiä sekvenssejä. 92 Bioinformatiikan perusteet Aiemmin esitelty Karlin-Altschulin menetelmä rinnastuksen merkitsevyyden laskemiseksi auttaa myös BLAST-hakujen suunnittelussa. Oletetaan, että halutaan löytää eksoneita, jotka ovat konservoituneet sekä ihmisessä, että pallokalassa. Tyypillisiä hakuparametrejä käyttäen tulee yhden 50 bp:n mittaisen eksonin pistemääräksi n. 27,5, ja jos ihmisen ja pallokalan genomit ovat kooltaan 1,5 Gbp ja 450 MB, tulee tulokseksi, että noin 230 000 osumaa saadaan pelkästään sattumalta. Näistä satunnaisista osumista eroon pääsemiseksi voidaan siis joko pidentää etsitävän eksonin kokoa tai rajoittaa hakua esimerkiksi pelkkiin geenisekvensseihin. Useimmiten BLAST-haun tuloksena saadaan joko liikaa osumia tai ei lainkaan osumia. Liian useiden osumien karsiminen onnistuu useimmiten ylläolevien vinkkien mukaan, mutta jos osumia ei saada lainkaan, on syytä tutkia BLAST-tuloksen alaviitettä (Kuva 9.6. Ensimmäisenä kannattaa tutkia, mikä on sanapituus joka tosin ei käy ilmi NCBI:n BLAST-tuloksen alaviittestä. Jos sanakoko on liian suuri, ei hakusekvenssistä kovasti erovia sekvenssejä löydetä. Lisäksi kannattaa tarkastaa käytetty pisteytysmatriisi. Jos se on kovin tiukka, ei hakusekvenssistä kovasti erovia sekvenssejä löydetä. Lisäksi kannattaa tarkistaa, mikä oli seeding-vaiheessa käytetty raja-arvo (threshold), sillä jos se on kovin suuri, ei tällöinkään hakusekvenssistä kovasti erovia sekvenssejä ole mahdollista löytää. Lisäksi kompleksisuussuodatus voi aiheuttaa sen, että tietyt sekvenssit eivät saa merkitsevää E-arvoa. Yleensä joidenkin näistä parametreistä muuttaminen auttaa, ja osumia alkaa löytymään. Tuloksia tulkittaessa kannattaa suhtautua varovaisesti hypoteettisiin proteiineihin, ja erityisesti lyhyisiin sellaisiin. Lisäksi monilla sekvensseillä on väärä Nterminaali, sillä useimmiten proteiinisekvenssiä käännettäessä ensimmäisen metioniinin tulkitaan aloittavan proteiinituotteen, mutta näin ei välttämättä ole. Myös EST-sekvensseihin kannattaa suhtautua varauksella, sillä niissä on paljon sekvensointivirheitä, eivätkä ne aina edes vastaa geenin transkriboitavaa aluetta. On varsin helppoa löytää merkityksettömiä osumia BLAST-haulla. Tyypillinen tilanne, jossa tällaisia syntyy, on liian alhaisten aukkosakkojen käyttö. Tällöin hyvin huonotkin osumat saavat korkean E-arvon, ja ne näyttävät merkityksellisiltä. Huonot osumat on helppo tunnistaa suuren aukkomäärän perusteella, ja sellaisista on syytä hankkiutua eroon nostamalla aukkosakkoparametrejä. Kompleksisuussuodatuksen käyttämättäjättämälläkin on mahdollista tuottaa hyvinkin mielenkiintoisia tuloksia. Useimmiten suodattamaton sekvenssi löytää ainakin jonkinlaisen, huononkin, osuman tietokannasta jotakin sellaista geeniä vastaan, että se näyttää mielenkiintoiselta. Tällaisiin tuloksiin kannattaa suhtautua hyvin skeptisesti. 9.8 Pitkät sekvenssit - vaihtoehtoiset lähestymistavat Pitkien sekvenssien vertailu muodostaa FastA:lle, Blastille ja Smith-Waterman algoritmeille ongelman. Smith-Waterman -algoritmi on aivan liian hidas. FastA, Blast, Wu-Blast, Psi-Blast ja SIM puolestaan käyttävät suuria määriä muistia. SENSEI on edellä mainittuja hieman nopeampi ja käyttää huomattavasti vähemmän muistia, mutta rajoittuu tällä hetkellä ainoastaan aukottomiin rinnastuksiin. MegaBlast toimii suhteellisen tehokkaasti, sillä se käyttää pitkää sanakokoa (28) ja pitkille sekvensseille optimoituja aukkosakkoja, mutta se ei sovellu hyvin valtaville sekvensseille, eikä pääse suoritustasoltaan Blastin tasolle. MegaBlast onkin optimoitu sekvensseille, jotka eroavat toisistaan vähän (esimerkiksi sekvensointivirheet). Se on noin kymmenen kertaa muita Blast-ohjelmia nopeampi ja sopii siten hyvin kahden suuren sekvenssijoukon keskinäiseen vertailuun. MUMmer, QUASAR ja REPuter eivät käytä hauissa sana (ktup) -perusteisia menetelmiä, vaan suffiksipuita (suffix trees). Suffiksipuiden ongelmana on, että ne on tarkoitettu tarkkojen osumien löytämiseen, ja niiden käyttöalue rajoittuukin hyvin samankaltaisten sekvenssien vertailemiseen. Ne myös vaativat suuria määriä muistia. 9 Sekvenssihaut 93 9.8.1 Uusi ratkaisu - PatternHunter PatternHunter -ohjelma perustuu periaatteessa Blast-algoritmiin, jota on muunneltu siten, että nopeammat ja suuremmilla sekvensseillä toimivat haut ovat mahdollisia (Ma, 2002). Ohjelmaa on käytetty muun muassa ihmisen ja hiiren koko genomien vertailuun (Waterston, 2002). PatternHunterin lähestymistapa perustuu sanakokoon, kuten Blastinkin. Siinä missä Blast etsii ensivaiheessa peräkkäisiä sanakoon (k) mittaisia osumia, etsii PatternHunter k:n mittaisia ei-peräkkäisiä osumia. Voidaan osoittaa, että parhaan pistemäärän antava osuma löytyy aina peräkkäisiä k:n mittaisia sanoja etsien. Ei-peräkkäisiä sanoja käyttäen parasta osumaa ei voida taata. Tähän perustuukin PatternHunterin lähestymistapa: siinä toteutettu algoritmi osaa etsiä ei-peräkkäiset osumat siten, että paras osuma varmasti löytyy. PatternHunterin sensitiivisyys ja spesifisyys näyttävät olevan omaa luokkaansa. MegaBlast on suunniteltu erityisesti hakujen nopeutta ajatellen ja Blastn sensitiivisyyttä ajatellen. Näyttää siltä, että PatternHunter samanaikaisesti pieksee Blastn:n sensitiivisyydessä ja MegaBlastin nopeudessa (pitkillä sekvensseillä), ja molemmat käytetyn muistin määrässä. Käytännössä PatternHunter mahdollistaa kokonaisten ihmisen kromosomien käsittelyn tavanomaisella pöytäkoneella, joka on varustetty 2 GB:lla keskusmuistia. 94 Bioinformatiikan perusteet 10 Usean sekvenssin rinnastus 10.1 Mikä on usean sekvenssin rinnastus? Aiemmin on käsitelty kahden sekvenssin rinnastuksia. Niissä käytetyt menetelmät voidaan laajentaa soveltumaan myös useampien sekvenssin rinnastukseen. Usean sekvenssin rinnastuksen avulla voidaan selvittää esimerkiksi proteiinien samankaltaisuuksia (muodostaa fylogeneettisiä puita), jolloin sekvenssiltään samankaltaiset proteiinit saattavat olla evolutiivisesti sukua keskenään tai niillä saattaa olla sama biokemiallinen tehtävä. Rinnastuksen avulla voidaan muodostaa konsensussekvenssejä, joita voidaan käyttää saman geeniperheen muiden jäsenten etsintään tietokannoista, tai niiden avulla voidaan suunnitella PCR-alukkeita. Tärkeä sovellus on myös genomien sekvenssointi, jossa lyhyistä DNA-sekvensseistä pyritään muodostamaan koko genomin kattava esitys (haulikko-menetelmä). Tällöin on olemassa vain yksi oikea konsensussekvenssi, joka pyritään löytämään tarpeeksi usean päällekkäin menevän lyhyen sekvenssin avulla. Sekvenssirinnastuksen perusteella voidaan myös määrittää sekvenssijoukon konservoituneimmat alueet, jotka usein vastaavat jotakin proteiinin toiminnalle keskeistä rakennetta. Sekvenssirinnastuksissa tulee jossakin vaiheessa vastaan tilanne, ettei riittävän muista eroavaa sekvenssiä voida enää rinnastaa luotettavasti tai lainkaan. Usein tämä tilanne tulee vastaan, kun proteiinisekvenssien samankaltaisuus on alle 20%, nukleiinihapposekvensseille sama raja tulee vastaan huomattavasti aiemmin, noin 75% tienoilla. Mainittua rajaa kutsutaan toisinaan nimellä twilight zone (hämärän rajamaa). Kuvassa 10.1 on esitetty esimerkki usean sekvenssin rinnastuksesta. I A T G G A A - T A II A T G G - - - T A T T III C G G G T C C T A T IV C T - G T C C G A C V C G G G A A C G A T C T G G A/T A/C C T A T Kuva 10.1: Esimerkki viiden lyhyen sekvenssin rinnastuksesta. Alimpana konsensussekvenssi. Kuten kahden sekvenssin rinnastuksissakin, ei usean sekvenssin rinnastuksissakaan ole välttämättä yhtä oikeaa vaihtoehtoa, vaan rinnastusparametreja muuttamalla voidaan useinkin tuottaa erilaisia rinnastuksia samalle sekvenssijoukolle. Useiden rinnastusten tuottaminen ja niiden tarkastelu ja mahdollisesti käsin muok- 10 Usean sekvenssin rinnastus 95 kaaminen jälkikäteen on viisasta. Ohjelmien oletuasetukset eivät välttämättä tuota parasta rinnastusta, vaan niitä on muuteltava! Edellisissä kappaleissa esitettyä dynaamista ohjelmointia voidaan käyttää myös usean sekvenssin rinnastuksessa, mutta usein tämä on mahdollista vain muutaman lyhyen sekvenssin kanssa, koska laskenta-aika kasvaa nopeasti. Tämän vuoksi usean sekvenssin rinnastukseen on kehitetty approksimaalisia menetelmiä. Näitä ovat progressiiviset menetelmät, joissa rinnastusta laajennetaan asteittain kahdesta sekvenssistä kaikkia sekvenssejä koskevaksi, ja iteratiiviset menetelmät. Tutustutaan ensin tarkemmin dynaamiseen optimointiin ja sen jälkeen approksimaalisiin menetelmiin. 10.2 Usean sekvenssin rinnastus dynaamista optimointia käyttäen Dynaamista optimointia voidaan käyttää usean sekvenssin rinnastuksen luomiseen, mutta menetelmä ei sovellu kovin suurille sekvenssijoukoille. Aiemmin ylärajana pidettiin 3-4 sekvenssiä, mutta nykyisin menetelmää voidaan laskentaympäristöstä riippuen käyttää jopa 10-20 sekvenssille. Dynaamisen optimoinnin käyttöä rajoittaa se, että rinnastettavat sekvenssit sijoitetaan taulukkon, jossa jokainen akseli vastaa yhtä sekvenssiä. Kahden 300 aminohappoa pitkän sekvenssin rinnastaminen vaatii 300*300 = 90 000 soluisen taulukon, ja kolmen vastaavan mittaisen aminohappoketjun rinnastaminen 27 000 000 soluisen taulukon. Jos sekvenssejä on useampia kuin kolme, joudutaan kuvittelemaan vieläkin useampiulotteinen taulukko, ja tarvittavien solujen (vertailujen) määrä kasvaa nopeasti sekvenssien määrän ja pituuden kasvaessa. Nykyisin usean sekvenssin rinnastus dynaamista optimointia soveltaen tapahtuu siten, että jokaiselle sekvenssiparille lasketaan ensin optimaalinen rinnastus Needleman-Wunshin algoritmilla (Gupta, 1995) (kuva 10.2). Parittaisten rinnastusten perusteella voidaan päätellä taulukosta sellainen alue, jolla optimaalisin rinnastus todennäköisesti sijaitsee, vaikka tällaisia rinnastuksia olisikin mahdollisesti useita (kuva 10.3). Parittaisten rinnastusten perusteella arvioitujen sekvenssien välisistä samankaltaisuuksista muodostetaan puu kuten progressiivisessa rinnastuksessa. Puun perusteella muodostetaan sekvenssirinnastus, joka ei ole välttämättä optimaalinen, mutta määrittää taulukossa sen alueen, jolle usean sekvenssin kaikkein optimaalisin rinnastus todennäköisesti sijoittuu. Tällä menettelyllä läpikäytävien taulukon solujen lukumäärä saadaan pienentymään murto-osaan alkuperäisestä määrästä, mikä sekä tarkentaa että nopeuttaa usean sekvenssin rinnastuksen laskemista. Kun näin rajattu alue läpikäydään Needleman-Wunschin menetelmällä, saadaan optimaalinen usean sekvenssin rinnastus selvitettyä (kuva 10.4). Taulukon soluihin sijoitettavien pistemäärien arvo saadaan parisummamenetelmällä (sum of pairs, SP measure). Jokaiseen soluun sijoitetaan parittaisten rinnastusten saamien pistemäärien summa. Optimaalinen rinnastus määritetään NeedlemanWUnschin menetelmällä parisummia käyttäen siten, että suurimman yhteenlasketun parisumman saanut rinnastus tulkitaan optimaalisimmaksi usean sekvenssin rinnastukseksi. Parittaisten rinnastusten pistemäärien ja parisummien laskemisessa käytetään pisteytysmatriisia ja aukkosakkoja, kuten Needleman-Wunsch-menetelmässä. Käytetyin ohjelma MSA käyttää ainoastaan aukon avaamisesta johtuvaa sakkoa, eikä avatun aukon jatkamisesta enää sakoteta lisää. 96 Bioinformatiikan perusteet Kuva 10.2: Rinnastettaessa usean sekvenssin rinnastusta dynaamista optimointia käyttäen muodostetaan aluksi sekvenssien väliset parittaiset rinnastukset (katkoviiva). Parittaisen rinnastuksen voidaan ajatella olevan usean sekvenssin rinnastuksen (yhtenäinen viiva) peilaus kahden sekvenssin suhteen yhdelle taulukon sivulle. Esimerkissä rinnastetaan kolme sekvenssiä, joten kahden sekvenssin rinnastuksen voidaan ajatella olevan usean sekvenssin rinnastuksen kuvaus yhdellä kuution sivulla. Kuution sivulle syntyvät kuvan voidaan ajatella muodostuvan kuution läpäisevästä usean sekvenssin rinnastuksesta, jos kuutiota valaistaan riittävän kaukaa lampulla, jolloin parittainen rinnastus heijastuu kuution yhdelle sivulle. Kuva on julkaistu tekijän (Fuellen, 1997) luvalla. 10.3 Progressiiviset menetelmät eli asteittain etenevät menetelmät Progressiivisissa menetelmissä sekvenssien rinnastus tehdään asteittain kolmessa osassa (Thompson, 1987). Ensimmäisenä rinnastetaan kaikki sekvenssit toisiaan vasten. Tämä voidaan tehdä mitä hyvänsä kahdelle sekvenssille soveltuvaa kokonaisrinnastusmenetelmää käyttäen, vaikkapa pistematriisimenetelmää käyttäen, mutta usein käytetään dynaamista optimointia. Seuraavassa vaiheessa muodostetaan sekvenssien välisten etäisyyksien perusteella puu jotakin puun muodostamiseen soveltuvaa menetelmää käyttäen. Yleensä käytetään UPGMA- tai neighbor joining-menetelmää, joita käsitellään tarkemmin molekyylisystematiikan osuudessa. Viimeisessä vaiheessa rinnastetaan sekvenssit toisiaan vasten puun määrämässä järjestyksessä siten, että ensimmäisenä rinnastetaan kaikkein samankaltaisimmat sekvenssit. 10.3.1 Clustal-perhe Seuraavassa tarkastellaan hieman tarkemmin Clustal-perheen (Higgins, 1988) ohjelmissa toteutettua progressiivista rinnastusmenetelmää. • Aluksi kaikki sekvenssit rinnastetaan keskenään, jotta niiden välinen samankaltaisuusaste saadaan määritettyä (Kuva 10.5). Rinnastuksessa voidaan soveltaa joko aiemmin esiteltyä dynaamista algoritmia (slow-accurate -optio) tai nopeampaa BLAST:in kaltaista k-tuple -menetelmää (fast-approximateoptio). Kun kaikki sekvenssit on rinnastettu, lasketaan sekvenssien väliset samankaltaisuusasteet ja muodotetaan niiden perusteella etäisyysmatriisi. Sekvenssien väliset etäisyydet arvioidaan sellaisten rinnastuksen kohtien perusteella, joissa ei esiinny aukkoja (parittainen poisto, pairwise deletion). 10 Usean sekvenssin rinnastus 97 Kuva 10.3: Kun kaikki rinnastettavat sekvenssit on rinnastettu pareittain (katkoviivat), ne määrittelevät kuution läpäisevän alueen, jolla usean sekvenssin rinnastus todennäköisesti sijaitsee (yhtenäinen viiva). Näin saadaan supistettua kuution tarkasteltavien solujen lukumäärää, mikä nopeuttaa rinnastuksen löytymistä. Kuva on julkaistu tekijän (Fuellen, 1997) luvalla. Näin saadaan arvioitua sekvenssien välisten erojen suhteellinen osuus (samankaltaisuus). Suhteellinen osuus (K) ilmoitetaan "prosentteina"välillä 01. Periaatteessa sekvenssien väliset etäisyydet voitaisiin laskea vähentämällä samankaltaisuus 1:stä (1-K). Mitä samankaltaisempia sekvenssit ovat, sitä pienempi etäisyys niiden välillä on (Kuva 10.6. Käytännössä Clustalissa voi valita halutaanko sekvenssien välinen etäisyys ilmoittaa prosenttiosuutena (K) vai samanlaisten emästen tai aminohappojen absoluuttisena määränä. Jos sekvensseissä on suurta pituusvaihtelua, kannattanee enemmin käyttää prosenttiosuusmittaa. • Etäisyysmatriisia käyttäen muodostetaan puu (guide tree) (Kuva 10.7). Puu muodostetaan neighbor joining- menetelmässä, jota käsitellään tarkemmin luvussa 16. Puun avulla kullekin sekvenssille määritetään sen painoarvo eli sekvenssin suhteellinen vaikutus koko rinnastuksen pistearvoon. Painoarvot skaalataan siten, että suurin painoarvo on aina yksi ja muut on suhteutettu väliltä 0-1 siihen. Puun sisempien oksien pituudet vaikuttavat ulompia oksia vähemmän kunkin sekvenssin painoarvoon. Oksien pituudet jaetaan siis luvuilla, jotka kertovat, kuinka moni sekvenssi jakaa tämän yhteisen kantamuodon kussakin puun haarautumiskohdassa. • Laskettuja painoarvojen perusteella muodostetaan lopullinen usean sekvenssin rinnastus (Kuva 10.8). 98 Bioinformatiikan perusteet Kuva 10.4: Kun parittaisten rinnastusten määrittelemä aöue on läpikäyty NeedlemanWunschin kokonaisrinnastusmenetelmällä, muodostuu usean sekvenssin rinnastus. Kuvion perusteella määritetty kokonaisrinnastus on VSN-S -SNAS ---AS Kuva on julkaistu tekijän (Fuellen, 1997) luvalla. Kuva 10.5: Rinnastettavien sekvenssien parittaiset rinnastukset. 10 Usean sekvenssin rinnastus 99 Kuva 10.6: Rinnastettujen sekvenssien väliset etäisyydet eri tavoin laskettuna. Clustal käyttää oletusarvoisesti sekvenssien välisiä prosenttiosuuseroja, mutta joissakin toisissa ohjelmissa voidaan käyttää Jukes-Kantorin (JC) -etäisyyttä. Clustal-perheen ohjelmissa aukkojen sakotusta on muutettu siten, että käyttäjän määräämiä alkuperäisia avaamis- ja jatkamiss akkoja muutetaan sekvenssien pituuksien, samankaltaisuuksien ja painokertoimien perusteella. Tämän lisäksi aukkosakot riippuvat siitä, mihin kohtaan rinnastusta aukkoja sijoitetaan. Uuden aukon avaaminen jo olemassa olevan aukon sisään saa pienemmän sakon kuin uuden aukon avaaminen aiemmin aukottomalle alueella. Samaten esimerkiksi uuden aukon avaaminen alle kahdeksan aminohapon päähän jo olemassa olevasta aukosta saa tavanomaista korkeamman aukkosakon. Tällainen aukkosakkojen muuntelu edesauttaa konservoituneiden alueiden löytymistä. Hydrofiiliset aminohapposekvenssialueet sijaitsevat usein proteiinien silmukkarakenteissa, ja niitä vastaavissa sekvensseissä aukot ovat yleisiä. Niinpä hydrofiilisille alueille muodostettavien aukkojen sakotusta on pienennetty normaalitilanteeseen verrattuna. Aukkosakkoja muunnetaan myös sen mukaan, mitä muita aminohappoja aukkokhdassa esiintyy. Esimerkiksi aukosta isoleusiinin kanssa sakotetaan vähemmän kuin jos aukko sijaitsee rinnastuksessa samassa sarakkeessa kuin glysiini. Progressiivisen menetelmän suurin heikkous liittyy parittaisten rinnastusten muodostamiseen. Parittaisissa rinnastuksissa tehdyt virheet nimittäin moninkertaistuvat rinnastuksen edetessä. Erityisesti kaikkein samankaltaisimpien sekvenssien rinnastusten paikkansapitävyys vaikuttaa voimakkaasti koko usean sekvenssin rinnastuksen lopputulokseen. Parittaisen rinnastuksen aiheuttamia ongelmia pyritään poistamaan muun muassa siten, että kaikkein erilaisimpien sekvenssin lisäämistä usean sekvenssin rinnastuksen pyritään myöhäistämään. Koska kovin erilaisen sekvenssin lisääminen rinnastukseen aikaisessa vaiheessa voi aiheuttaa suuren aukkomäärän avamisen. Koska aukkoja ei rinnastuksen myöhemmissä enää voida poistaa, voi tämä aiheuttaa suuria virheitä rinnastukseen. Clustalissa voidaan määrittää parametri, jolla määritetään myöhäistettävien sekvenssin samankaltaisuus (delay divergent sequences). 10.3.2 T-Coffeen menetelmä T-Coffee (tree-based consistency objective function for alignment evaluation) käyttää rinnastusta muodostaessaan kahtalaista aineistoa: Samoista sekvensseistä muodostettua usean sekvenssien rinnastusta sekä parittaisista rinnastuksista muodos- 100 Bioinformatiikan perusteet Kuva 10.7: Esimerkki Clustal-ohjelman tarvitsemasta ohjepuusta. 10 Usean sekvenssin rinnastus 101 Kuva 10.8: Esimerkki sekvenssirinnastuksen muodostamisesta viidelle esimerkkisekvenssillemme. tettua valikoimaa, rinnastuskirjastoa (Notredame, 2000). T-Coffee yhdistää näiden aineistolähteiden antaman informaation usean sekvenssin rinnastukseen siten, että rinnastuksessa sekvenssit on rinnastettu siten, että se parhaiten sopii parittaisten rinnastusten antamaan tietoon sekvenssien samankaltaisista alueista. Menetelmä siis yhdistää paikallisen ja kokonaisrinnastuksen hyvät puolet. Aluksi rinnastettavista sekvensseistä muodostetaan parittaisten rinnastusten valikoima jotakin soveltuvaa ohjelmaa, esimerkiksi Lalign:ia (FastA-paketista), käyttäen. Lisäksi muodostetaan usean sekvenssin rinnastus Clustal:ia käyttäen. Seuraavaksi parittaisia rinnastuksia käyttäen jokaiselle mahdolliselle nukleotidi-nukleotiditai aminohappo-aminohappo -rinnastusparille määritetään painoarvo. Esimerkiksi rinnastuksissa parille, jossa adeniini ja adeniini osuvat kahdessa sekvenssissä kohdakkain voitaisiin määrätä painoarvo 0,1. Painoarvot määrätään eri pareille sen mukaan, kuinka samankaltaisia olivat ne sekvenssit, joista pari oli lähtöisin. Rinnastuksi käyttäen muodostetaan kaksi primäärikirjastoa painoarvoineen, toinen parittaisten rinnastusten perusteella ja toinen usean sekvenssin rinnastuksen perusteella. Seuraavassa vaiheessa kahden primäärikirjaston sisältämät painoarvot pyritään yhdistämään. Jos sama pari esiintyy molemmissa kirjastoissa, se saa painoarvokseen noissa kirjastoissa saamiensa painoarvojen yhteenlasketun arvon. Tämän jälkeen painoarvot vielä optimoidaan ("library extension") eräänlaista heuristista menetelmää käyttäen. Lopputuloksena on esimerkiksi aminohapposekvensseille BLOSUM-matriisia muistuttava matriisi, jossa kullekin muutokselle on ilmoitettu sen saama arvo rinnastusta muodostettaessa. Lopullinen usean sekvenssin rinnastus T-Coffeessa muodostetaan siten, että kaikkien sekvenssien välille lasketaan niiden etäisyydet toisistaan, ja muodostuvan parittaiset etäisyydet sisältävän matriisin perusteella muodostetaan neighborjoining puu. Sekvenssit rinnastetaan sitten dynaamista optimointia (kuten Clustal:ssakin) käyttäen toisiinsa tämän puun määräämässä järjestyksessä. Rinnastusten saamia pistemääriä, siis niiden hyvyyttä määritettäessä käytetään edellä kuvatulla tavalla muodostettuja painoarvoja. Koska aukkosakkoja on käytetty jo aiemmissa vaiheissa, nimittäin rinnastuskirjaston ja Clustal:in usean sekvenssin rinnastusta muodostettaessa, ei aukkosakkoja enää tarvitse erikseen määrittää T-Coffeen muo- 102 Bioinformatiikan perusteet dostaessa usean sekvenssin rinnastuksen. T-Coffee on Clustal:ia huomattavasti tarkempi menetelmä, mutta myös noin kymmenen kertaa hitaampi. Vaikka T-Coffee voikin tuottaa Clustal:ia parempia rinnastuksi, näyttää niiden molempien ohi ajaneen vieläkin uudempi menetelmä, joka on toteutettu ohjelmassa Muscle. Sen toimintaan tutustutaan hieman tarkemmin seuraavassa kappaleessa. 10.3.3 Muscle-menetelmä Muscle (Edgar, 2004) on uusimpia progressiivista rinnastusmenetelmää käyttäviä ohjelmia. Siinä progressiivinen rinnastus suoritetaan kolmessa vaiheessa: • Vedosrinnastus • Rinnastus • Parannettu rinnastus Vedosrinnastusta muodostettaessa on tarkoituksena vain nopeasti muodostaa rinnastus, jonka tarkkuudella ei ole niin väliä, ainoastaan nopeudella. Tässä vaiheessa lasketaan ktup-etäisyys kaikkien rinnastettavien sekvenssien välille. Ktupetäisyyttä laskettaessa jokainen sekvenssi pilkotaan tietyn mittaisiksi pätkiksi (ktup), ja etäisyys vastaa kahden sekvenssin välillä olevin samanlaisten pätkien lukumäärää. Näin saadan nopeasti laskettua etäisyysmatriisi, jonka perusteella muodostetaan UPGMA-puu. Sekvenssit rinnastetaan UPGMA-puun perusteella edellä kuvattua progressiivista menetelmää käyttäen. Rinnastusta muodostettaessa lasketaan sekvenssien välinen etäisyys ktup-etäisyyttä tarkempaa Kimura-etäisyyttä käyttäen. Tällöin sekvenssien välisten parittaisten etäisyyksien arviointiin käytetään vedosvaiheessa muodostettua usean sekvenssin rinnastusta. Parittaisten etäisyyksien perusteella muodostetaan jälleen UPGMA-puu, jonka perusteella muodostetaan rinnastus. Rinnastusta muodostettaessa optimoidaan rinnastus uudelleen ainoastaan sellaisille sekvensseille, joiden sijoitus vedosvaiheen ja rinnastusvaiheen puissa oli erilainen. Tällaisia sekvenssejä voi olla useampiakin, joten rinnastuksessa voidaan joutua optimoimaan uudelleen kokonaisia ryhmiäkin. Parannettua rinnastusta muodostettaessa valitaan rinnastusvaiheen puusta satunnaisesti yksi sisäinen oksa, jonka perusteella puu jaetaan kahdeksi pienemmäksi puuksi. Näiden pienempien puiden perusteella muodostetaan profiili, jotka sitten rinnastetaan ja näin muodostuu jälleen usean sekvenssin rinnastus. Tämä uusi rinnastus säilytetään, jos se on parempi kuin alkuperäinen rinnastus (sen saama pistemäärä on parempi kuin alkuperäisen rinnastuksen). Tätä paranteluvaihetta toistetaan kunnes rinnastusta ei voida enää parantaa tai kunnes käyttäjä käskee ohjelmaa lopettamaan puun parantelun. Musclessa rinnastus voidaan tallettaa missä tahansa vaiheessa. Näin samoista sekvensseistä voidaan saada käyttöön kolme erilaista rinnastusta: vedos, varsinainen rinnastus ja parenneltu rinnastus. Riippuen käyttötarkoituksesta ainakin rinnastuksen ja parannellun rinnastuksen käytölle on varmasti tarvetta, mutta epätarkan vedosrinnastuksen käytölle jatkoanalyyseissä on vaikea nähdä suoraan tarvetta. Ennen Musclen julkistusta T-Coffeeta pidettiin tarkimpana ja parhaana rinnastusohjelmistona. Muscle näyttää kuitenkin pieksevän T-Coffeen, ei ylivoimaisesti, mutta tarkkuudella mitattuna noin kahdella prosentilla (Edgar, 2004). T-Coffee oli tarkka, mutta huomattavasti Clustal:ia hitaampi. Muscle näyttää pääsevän TCoffeen tarkkuuteen vaikkei rinnastuksen paranteluvaihetta käytettäisikään. Rinnastuksesta riippuen Muscle näyttää saavuttavan Clustal:in nopeuden joko paranteltelun vaihetta käyttäen tai ilman sitä. 10 Usean sekvenssin rinnastus 10.4 103 Usean sekvenssin rinnastuksen pistemäärän laskeminen Eri ohjelmat käyttävät usean sekvenssin rinnastuksen pistemäärän laskemiseen hieman eri menetelmiä, mutta periaate on useimmissa sama. Clustal-perheen ohjelmat toimivat jokseenkin seuraavasti. Pistemäärään laskettaessa tarkastellaan vain yhtä sekvenssikohtaa kerrallaan. Kaikkien mahdolisten sekvenssienparien saamat pistemäärät tässä sekvenssipaikassa lasketaan yhteen (Kuva 10.9). Kun kaikille mahdollisille sekvenssikohdille on laskettu pistemäärä, summataan kaikkien kohtien pistemäärät yhteen, ja näin saadaan koko rinnastuksen pistemäärä. Clustal skaalaa pistemäärää siten, että kunkin sekvenssin painoarvo pistemäärää laskettaessa on yhtä suuri kuin sen painoarvo guide tree:ssä. Clustalin antamat rinnastusten pistemäärät voivatkin olla desimaalilukuja. Kuva 10.9: Esimerkki kolmen sekvenssin rinnastuksen pistemäärän laskemisesta. 10.5 Iteratiiviset menetelmät Iteratiiviset menetelmät muistuttavat progressiivisia menetelmiä siten, että molemmissa tehdään alustava fylogeneettinen puu kahden sekvenssin rinnastuksiin perustuen (Notredame, 1996). Puun avulla lasketaan myös eri sekvenssien painokertoimet, ja niiden (ja puun) mukaan luodaan usean sekvenssin rinnastus. Iteratiiviset menetelmät menevät tästä eteenpäin siten, että saadun usean sekvenssin rinnastuksen avulla muodostetaan uusi puu, josta taasen lasketaan sekvenssien painokertoimet ja muodostetaan uusi usean sekvenssin rinnastus. Tätä jatketaan niin kauan kunnes rinnastus ei enää muutu edellisestä kierroksesta. Iteratiiviset menetelmät eivät ole yhtä herkkiä alkuperäisille kahden sekvenssin rinnastuksille kuin puhtaat progressiiviset menetelmät. Geneettisiin algoritmeihin perustuvat menetelmät ovat uusimpia iteratiivisia menetelmiä. Geneettinen algoritmi ei nimestään huolimatta liity genetiikkaan, vaan on yleisnimi tietojenkäsittelytieteessa käytettävälle laskennalliselle algoritmille. Näillä algoritmeilla tapahtumia mutatoidaan ja rekombinoidaan. Usean sekvenssin rinnastus geneettisen algoritmin avulla tapahtuisi seuraavasti. Ensin luodaan joukko satunnaisia usean sekvenssin rinnastuksia, esimerkiksi 100 kappaletta. Näille lasketaan pistearvot. Pistearvoltaan parhaimmat (esimerkik- 104 Bioinformatiikan perusteet si 50 parasta) valitaan seuraavalle kierrokselle sellaisenaan. Loput 50 rinnastusta valitaan arpomalla siten, että rinnastukset, joilla on paras pistemäärä, tulevat valituksi todennäköisemmin kuin rinnastukset, joilla on huono pistemäärä. Nämä satunnaisesti valitut rinnastukset joutuvat alttiiksi mutaatioille ja rekombinaatiolle. Mutaatio tarkoittaa, että rinnastuksiin lisätään aukkoja. Satunnaisen pituisia aukkoja lisätään satunnaisiin paikkoihin, mutta otetaan huomioon, mitkä sekvenssit ovat evolutiivisesti lähempänä toisiaan perustuen fylogeneettiseen puuhun. Lähellä toisiaan olevien sekvenssien aukko sijoitetaan samaan kohtaan. Jo olemassa olevien aukkojen kohtia voidaan myös muuttaa mutaatioilla. Rekombinaatiolla eri rinnastusten osia vaihdetaan keskenään, ja luodaan uusia rinnastuksia. Mutaatioiden ja rekombinaation avulla luodut uudet rinnastukset pisteytetään, ja jälleen valitaan parhaat rinnastukset sellaisinaan seuraavalle kierrokselle, ja satunnaisesti valitulle rinnastusten joukolle tehdään taas mutaatioita ja rekombinaatioita. Kuvattua sykliä toistetaan (iteroidaan) esimerkiksi 100-1000 kertaa, ja valitaan paras rinnastus. Koko prosessi aloitetaan uudestaan luomalla 100 uutta satunnaista rinnastusta ja useiden mutaatio-rekombinaatiokierrosten jälkeen saadaan taas paras rinnastus. Kun tätä koko operaatiota on toistettu riittävän monta kertaa, poimitaan paras rinnastus. Algoritmi ei kuitenkaan takaa, että saatu rinnastus olisi kaikkein paras mahdollinen rinnastus. Geneettisissä algoritmeissa on se hyvä puoli, että algoritmin avulla voidaan helposti ottaa talteen esimerkiksi 20 parasta sekvenssirinnastusta yhdellä kertaa parametreja muuttamatta. Tämä on etu, sillä yleensä joudutaan muuttamaan rinnastusohjelman parametreja useaan kertaan, jotta saadaan riittävä määrä erilaisia rinnastuksia tarkasteltavaksi. 10.6 Proteiineja koodaavien DNA-sekvenssien rinnastaminen Proteiineja koodaavien DNA-sekvenssien rinnastaminen on eräs sekvenssirinnastusten erikoistapaus, joka kannattaa huomioida. On usein varsin epätodennäköistä, että DNA:ssa tapahtuneet muutokset johtavat geenin lukukehyksen muuttumiseen. Jos DNA:ssa tapahtunut insertio tai deleetio ei vaikuta lukukehykseen, on sen pituus kolmella jaollinen. Tämä täytyy ottaa huomioon rinnastusta muodostettaessa joko siten, että käytetään sopivaa ohjelmaa tai muokataan rinnastusta käsin siten, että aukkojen sijainti ja pituus sopivat tähän oletukseen. On myös mahdollista rinnastaa ensin vastaavat aminohapposekvenssit, ja vasta näin muodostetun rinnastuksen perusteella DNA-sekvenssit, jolloin aukoista tulee väkisinkin sen mittaisia, että ne ovat kolmella jaollisia. 10.7 Aminohapposekvenssirinnastuksen editointi käsin Koska aminohapposekvenssi vastaa yhtä toiminnallista proteiinia, josta mahdolisesti tunnetaan jopa sen 3D-rakenne, on aminohapposekvenssien rinnastaminen toisinaan helpompaa kuin DNA-sekvenssien. Aminohapposekvenssien rinnastuksessa voidaan nimittäin käyttää apuna tietoa sitä vastaavan proteiinin sekundäärirakenteesta, toiminallisen keskuksen sijainnista ja rakenteesta ja mahdollisesta 3Dkristallirakenteesta. Aminohapposekvenssirinnastuksen muodostaminen kannattaa aloittaa siten, että antaa ensin tietokoneen tuottaa sekvensseistä rinnastuksen, jota sitten editoidaan käsin. Aminohapporinnastusta editoitaessa, kuten aina rinnastusta editoitaessa, on edettävä hitaasti askel kerrallaan, sillä virheitä syntyy helposti. Koska tavoitteena on muodostaa rinnastus, jossa suurin osa sarakkeista on mahdollisimman konservoituneita, ja käyttää apuna proteiinin mahdollisesti tunnettuja rakenteita, voidaan rinnastuksen laatuakin arvioida editoinnin edetessä, ja siten korjata huonolaatuisia alueita paremmiksi. 10 Usean sekvenssin rinnastus 105 Usein tunnettu proteiinin sekundäärirakenne kannattaa ottaa huomioon jo tietokonerinnastusta muodostettaessa, sillä tällöin tietokoneen tekemä rinnastus on jo suhteellisen lähellä oikeaa. Esimerkiksi Clustal-ohjelmissa proteiinin sekundäärirakenne voidaan huomioida rinnastusta muodostettaessa. Clustal-ohjelma myös antaa erilaisia hyvyysparametreja eri rinnatuskohdille, joita voidaan käyttää apuna rinnastusta muokattaessa. Clustal esimerkiksi raportoi jokaisen rinnastussarakkeen konservoitumisasteen, ja sitä apuna käyttäen voidaan pyrkiä editoimisen edetessä maksimoimaan koko rinnastuksen konservoitumisaste. Lisäksi rinnastuksen hyvyyden arviointiin voidaan esimerkiksi käyttää vertaamista konsensussekvenssiin. Esimerkiksi, tietyssä sekvenssikohdassa sijaitseva aminohappo ei kenties kuulu siihen rinnastuksen sarakkeeseen, jos se on kovin kaukana sarakkeen konsensussekvenssistä. Rinnastuksesta voidaan myös muodostaa profiili, jota käyttäen rinnastuksen laadun arviointi voi myös onnistua. Aluksi muodostetusta rinnastuksesta laaditaan profiili. Tämän jälkeen jokainen sekvenssin vuorollaan poistetaan rinnastuksesta, ja jäljellejääneestä rinnastuksesta muodostetaan uusi profiili. Rinnastuksesta poistettua sekvenssiä verrataan nyt tähän uuteen profiiliin, ja jos jokin muutamia aminohappoja pidempi sekvensialue saa negatiivisen arvon profiilia vastaan verrattaessa, on sen rinnastus väärä. Kun sekvenssin rinnastus on korjattu, voidaan profiilit laskea uudelleen, ja jälleen korjata mahdollisesti vääriä rinnastusalueita. Tätä toistetaan, kunnes rinnastus on riittävän hyvä. Rinnastuksen lopuksi on syytä tarkastella "lopullista"rinnastusta vielä kriittisesti. Jos aukkokohdat sijaitsevat tunnetuilla (tai estimoiduilla) sekundäärirakennealueille, ne on voitu sijoittaa väärin. Jos aukot sijaitsevat etupäässä satunnaisrakenteissa, on niiden sijoittelu parempi. Jos proteiineista tunnetaan niiden aktiivinen keskus, tulee siihen kuuluvien aminohappojen todella olla rinnastuksessakin samassa sarakkeessa ja esiintyä yhdessä. Lisäksi niiden tulee olla saavutettavissa ei hautautuneena proteiinin ytimeen. 10.8 Sekvenssirinnastuksen laadun arviointi Jos rinnastettavat sekvenssit ovat aminohapposekvenssejä tai DNA-sekvenssit koodaavat proteiineja, voidaan sekvenssirinnastuksen onnistumista arvioida proteiinin rakenteen perusteella (Kuva 10.10). Esimerkiksi kaseiinisekvenseissä on kaseiinimotiivi heti sekvenssin alussa. Lisäksi motiivi SSSEE esiintyy sekvensseissä myöhemmin. SSSEE-motiivi on tärkeä kaseiiniproteiinin laskostumisen ja koossapysymisen kannalta. Nämä rakennepiirteet löytyvät kaikista kaseiineista kaikilta nisäkkäiltä, joten niiden pitäisi myös sijoittua rinnastuksessa kohdakkain. Jos rakennepiirteet eivät osu kohdakkain, on rinnastus huono, ja sitä pitää parannella käsin tai käyttää jotakin muuta koneen tuottamaa rinnastusta. Jos sekvenssirinnastuksen apuna ei ole mitään ulkopuolista tietoa, on paras rinnastus valittava esimerkiksi konservoitumista käyttäen. Erityisesti on kiinnitettävä huomiota aukkojen määrään ja sijaintiin. Usein suhteellisten kaukaistenkin sukulaissekvenssien rinnastuksessa muodostuu konservoituneita alueita, joilla on voinut tapahtua substituutioita muttei insertioita tai deleetioita. Tällaisten sekvenssirinnastusalueiden määrä pitäisi pitää mahdollisimman suurena. Aukkojen määrässä pitäisi tähdätä minimimäärään. Evolutiivisesti ajatellen aukot ovat suhteellisen kalliita, ja niitä esiintyy sitä harvemmin mitä lähisukuisempia sekvenssit ovat. 10.9 Clustal-perheen tekemiä tyypillisiä virheitä Erityisesti Clustal-ohjelmat tekevät hyvin yleisesti sellaisia rinnastusvirheitä, joissa rinnastettavien aminohapposekvenssien ensimmäinen aminohappo (metioniini) ei ole kohdakkai. Koska miltei kaikki tunnetut proteiinit alkavat metioniinilla, tulisi niiden myös rinnastuksessa sijoittua kohdakkain. Jälleen, jos näin ei käy, on rinnas- 106 Bioinformatiikan perusteet Kuva 10.10: Esimerkki neljästä erilaisesta kaseiinisekvenssien rinnastuksesta, joissa jokaisessa on kuusi sekvenssiä eri nisäkäslajeista. Näistä neljästä rinnastuksesta paras on numero 2 (toinen ylhäältä). tusta korjattava, sillä virhe on selkeästi ohjelmasta johtuva, eikä kuvasta sekvenssien tunnettua biologiaa. Seuraavat esimerkit on muokattu bioinfo-core -sähköpostilistalla käydystä keskustelusta. Alkuperäinen rinnastus Muokattu rinnastus Sekvenssi 1 MVHLTPEEKS MVHLTPEEKS Sekvenssi 2 -VHLTPEEKS -VHLTPEEKS Sekvenssi 3 -MVLSPADKT MV-LSPADKT Sekvenssi 4 -MVLSPADKT MV-LSPADKT Toinen Clustalin, muttei Tree-Coffeen yleisesti tekemä virhe liittyy sekvenssirinnastuksen keskellä oleviin pitkiin aukkoihin. Usein Clustal sijoittaa pitkän aukkokohdan siten, että aukon jälkeen tulevan ensimmäisen aminohapon pitäisi itse asiassa olla viimeinen aminohappo enne aukkoa. Alla olevassa rinnastuksessa aminohappo Q on siirtynyt virheellisesti aukon alusta aukon loppuun. Tällaisetkin virheet on rinnastuksen laadun varmistamiseksi korjattava ennen jatkoanalyysejä. VARIANT_1 FDPTITDASLSLPSRRMQNDTAENETTEKEEKSESRQERYEIEETETVTKSYQKNDWRDA VARIANT_2 FDPTITDASLSLPSRRMQNDTAENETTEKEEKSESRQERYEIEETETVTKSYQKNDWRDA ************************************************************ VARIANT_1 EENKKEDKEKEEEEEEKPKRGSIGEN---------------------------------VARIANT_2 EENKKEDKEKEEEEEEKPKRGSIGENQVEVMVEEKTTESQEETVVMSLKNGQISSEEPKQ ************************** VARIANT_1 -----------------------------------------------------------VARIANT_2 EEEREQGSDEISHHEKMEEEDKERAEAERARLEAEERERIKAEQDKKIADERARIEAEEK VARIANT_1 -----------------------------------------------------------VARIANT_2 AAAQERERREAEERERMREEEKRAAEERQRIKEEEKRAAEERQRIKEEEKRAAEERQRIK VARIANT_1 -----------------------------------------------------------VARIANT_2 EEEKRAAEERQRARAEEEEKAKVEEQKRNKQLEEKKRAMQETKIKGEKVEQKIEGKWVNE VARIANT_1 -----------------------------------------QIKDEKIKKDKEPKEEVKS 10 Usean sekvenssin rinnastus 107 VARIANT_2 KKAQEDKLQTAVLKKQGEEKGTKVQAKREKLQEDKPTFKKEEIKDEKIKKDKEPKEEVKS :****************** VARIANT_1 FMDRKKGFTEVKSQNGEFMTHKLKHTENTFSRPGGRASVDTKEAEGAPQVEAGKRLEELR VARIANT_2 FMDRKKGFTEVKSQNGEFMTHKLKHTENTFSRPGGRASVDTKEAEGAPQVEAGKRLEELR ************************************************************ Toisinaan myös kahden liki täydellisesti samankaltaisten sekvenssien välinen rinnastus voi mennä pieleen, jos mukaan otetaan jompaa kumpaa sekvenssiä vastaava sekvenssifragmentti. Tällöin fragmentin jälkeinen rinnastuksen osa voi olla siirtynyt yhden aminohapon verran siten, että kaikki fragmentin jälkeiset aminohapot ovat huteja, sillä koko sekvenssi on siirtynyt yhden pykälän eteenpäin. Tämä johtuu siitä, että rinnastukseen tarvittavasta aukosta on tehty yhden aminohapon verran liian pitkä. Edellä mainittuihin ongelmiin ei ole yksinkertaista ratkaisua Clustalissa sikäli, että ne eivät poistu rinnastusparametreja muuttelemalla, vaan ainoa tapa on tutkia rinnastusta silmämääräisesti ja korjata huomatut virheet. 108 Bioinformatiikan perusteet 11 DNA-sekvenssin ominaisuuksien selvittäminen 11.1 Mitä DNA:sta voidaan selvittää? Ensivilkaisulla DNA-sekvenssit saattavat näyttää vähän tylsiltä, mutta on useita menetelmiä joiden avulla DNA-sekvenssistä saadaan paljon mielenkiintoista ja tärkeää tietoa. Tiettyä entsyymiä koodaavasta DNA-sekvenssistä ei välttämättä voida etsiä toiminnallisia rakenteita yhtä helposti kuin aminohapposekvenssistä, mutta esimerkiksi restriktioentsyymien katkaisukohtia ja kodonien käyttöä ei voida analysoida aminohapposekvenssin perusteella. Tässä luvussa käsitellään muutamia sellaisia yleisesti käytettyjä menetelmiä, joiden avulla DNA-sekvenssejä analysoidaan. 11.2 Restriktioentsyymien katkaisukohtien löytäminen Molekyylibiologisessa laboratoriossa on usein tarpeen siirtää tietty DNA-pätkä bakteerissa monistuvaan plasmidi-vektoriin.Toisinaan on tarpeen määrittää myös plasmidin pituus ja koostumus restriktioentsyymien katkaisukohtia käyttäen. Myös SNP:ien määrityksissä voidaan käyttää PCR-RFLP-menetelmää, joka perustuu siihen, että restriktioentsyymien agaroosigeeliin luomaa katkoskuviota tulkitsemalla tulkitaan yksilön genotyyppi tietyn SNP:n suhteen. Tällaisia menetelmiä varten on tarpeen määrittää tunnetun DNA-sekvenssin sisältämät restriktioentsyymien katkaisukohdat. Katkaisukohtien määrittäminen ei ole bioinformatiivisesti hankala tehtävä. Periaatteessa analyysi voidaan tehdä vaikkapa tekstinkäsittelyohjelmassa, jos restriktioentsyymin katkaisukohdan sekvenssi tunnetaan. Tekstinkäsittelyohjelma soveltuu tarkoitukseen kuitenkin vain, jos etsitään yhden tietyn tai muutamien entsyymien katkaisukohtia. Jos halutaan etsiä sekvenssistä kaikkien mahdollisten entsyymien katkaisukohdat, on paras turvautua tähän tehtävään erityisesti suunniteltuihin ohjelmiin. Käytännössä tällaiset ohjelmistot sisältävät tietokannan kaikkien tunnettujen restriktioentsyymien katkaisukohdista, ja ne vertaavat katkaisukohtia esimerkiksi säännöllisiä lauseita käyttäen hakusekvenssiin (kuva 11.1). Toiset ohjelmat käyttävät katkaisukohdista laadittuja profiileja, mutta lopputulos on sama, ja profiilien ja säännöllisten lauseiden käytön välinen valinta on usein tehty laskennallisen nopeuden tai henkilökohtaisten mieltymysten perusteella. 11 DNA-sekvenssin ominaisuuksien selvittäminen Hakusekvenssi: ...ACTTCGACCAGGTACCTG... SexA I: A-C-C-[AT]-G-G-T 109 A/CCWGGT TGGWCC/A ACCTGGT ACCTGGT ACCTGGT ACCTGGT ACCTGGT CGACCAGGTAC ACCAGGT ACCAGGT ACCAGGT ACCAGGT ACCAGGT Tulos: SexA I | CGACCAGGTAC Kuva 11.1: Restriktioentsyymin katkaisukohdan etsiminen säännöllistä lausetta käyttäen kaavamaisesti esitettynä. SexA I -entsyymin katkaisukohdan sekvenssissä /-merkillä on osoitettu sekvenssikohta, johta entsyymi katkaisee DNA-kaksoiskierteen. Katkaisukohta on symmetrinen. Entsyymin katkaisukohdan keskellä on voi olla joko A tai T. Etsittäessä katkaisukohtaa hakusekvenssi (lihavoitu) käydään läpi käyttäen molempia mahdollisia tunnistesekvenssimuotoja tai säännöllistä lausetta A-C-C-[AT]-G-G-T. Kun katkaisukohta on löydetty, saadaan sen sijainti laskettua hakusekvenssin alkuun suhteutettuna. Tekstimuotoisessa tuloksessa katkaisukohdan sijainti ilmoitetaan usein sille kohtaa, josta entsyymin tunnistekohta alkaa. 110 11.3 Bioinformatiikan perusteet Nukleotidien ja kodonien runsaussuhteiden arviointi Nukleotidien runsaussuhteiden selvittäminen on tärkeää esimerkiksi DNA:n sulamislämpötilan selvittämiseksi. Lisäksi mono-, di-, ja trinukleotidifrekvenssejä analysoimalla voidaan tutkia varsin tarkasti tietyillä genomialueilla tapahtuvia evolutiivisia muutoksi. Esimerkiksi, CpG-saarekkeiden avulla voidaan tutkia metylaation vaikutusta mutaatioihin: Ihmisellä metylaatio tapahtuu CpG-dinukleotidin Cnukleotidissa. Metylaatio lisää C->T mutaatioiden frekvenssiä. Jos siis suurin osa tunnetuista mutaatioista (sairauksia aiheuttavat mutaatiot, SNP:t) erityisesti CpGsaarekkeissa on tapahtunut C:stä T:ksi, voidaan olettaa, että tämä on seurausta metylaatiosta. CpG-saarekkeet ovat pituudeltaa 0,5-2 kbp, ja niitä esiintyy erityisesti geenien promoottorialueilla. Metylaatio on tärkeä geenisäätelyn muoto ainakin nisäkkäillä. Arvioimalla kodonien runsaussuhteita proteiineja koodaavissa geeneissä, voidaan arvioida esimerkiksi tapahtuneiden mutaatioiden neutraalisuutta. Toisin sanoen, ovatko mutaatiot mistä tahansa nukleotidista miksi tahansa nukleotidiksi kaikki yhtä yleisiä. Tällaiset tutkimukset ovat tulleet entistä tärkeämmiksi erityisesti genomiikassa. Myös eri genomien ja yksittäisten kromosomialueiden GC% vaihtelee suuresti. Eliön GC% voi riippua esimerkiksi sen elinympäristön lämpötilasta: Kuumissa lähteissä kasvavien bakteerien perimän GC-pitoisuus on usein tavanomaista suurempi. Nisäkkäiden genomeissa on alueita, joiden GC-pitoisuus vaihtelee jopa 30 prosenttiyksikköä. Eri alueiden välillä ei ole selviä rajoja, mutta GC-pitoisuus korreloi usein kromosomivärjäyksessä (Giemsa) muodostuvien raitojen kanssa. Tällaisia eri tavalla värjäytyviä kromosomialueita on perinteisesti kutsuttu isokooreiksi, ja GC-pitoisuus näyttää olevan eräs värjäytyvyyteen vaikuttava seikka. Nukleotidien A, C, G ja T runsaussuhteet on helppoa arvioida sekvenssin perusteella. Jokaisen nukleotidin lukumäärä sekvenssissä lasketaan, ja yksittäisen nukleotidin frekvenssi on prosenttilukuna: p(A) = fA , fN jossa p(A) on esimerkiksi adenosiinin prosenttiosuus kaikista nukleotideista, f A adenosiinien lukumäärä sekvenssissä ja f N sekvenssin pituus. GC% lasketaan laskemalla C:n ja G:n prosenttiosuudet yhteen. Mitä korkeampi on sekvenssin GC%, sitä korkeammassa lämpötilassa se sulaa, ja sen sekvensointi voi myös olla vastaavasti vaikeampaa. Dinukleotidien taajuuksilla tarkoitetaan kahden nukleotidin mittaisten sanojen esiintymistaajuutta sekvenssissä. Esimerkiksi sekvenssistä ATGGCGATGCTG voidaan lukea seuraavat dinukleotidit: AT, GG, CG, AT, GC ja TG. Vastaavasti sekvenssistä voidaan lukea seuraavat trinukleotidit (kodonit): ATG, GCG, ATG, CTG. Yleensä trinukleotidien frekvenssillä tarkoitetaankin juuri eri kodonien frekvenssejä, ja ne voidaan arvioida vain proteiineja koodaavista geeneistä. Eri kodonien yleisyyden arviointi voi olla tärkeää esimerkiksi, kun jonkin toisen eliön proteiinia yritetään tuottaa bakteerissa. Jos bakteerin ja siirtogeenin isäntäeliön kodonien käytössä (frekvensseissä) on suuria eroja, ei geeni välttämättä toimi bakteerissa. 11.4 DNA-sekvenssin translointi aminohapposekvenssiksi DNA-sekvenssiä vastaavan aminohapposekvenssi tunteminen avaa uusia ulottuvuuksia esimerkiksi sekvenssin toiminnan selvittämiseksi. Lisäksi proteiineja ei nykyisin enää juuri sekvensoida, sillä DNA:n sekvensointi on nopeampaa ja yksinkertaisempaa, joten ainoa vaihtoehto aminohapposekvenssin saamiseksi voi olla sen translointi DNA-sekvenssistä. Jos translaation aloituskohta (ATG-kodoni) 11 DNA-sekvenssin ominaisuuksien selvittäminen 111 tiedetään varmasti, on DNA-sekvenssin transloiminen helppoa: aloitetaan kääntäminen ATG-kodonista eteenpäin ja lopetetaan se ensimmäiseen loputuskodoniin. Yleensä translaatioaloitukohtaa ei kuitenkaan ennalta tunneta tarkasti, joten DNAsekvenssi onkin transloitava kaikissa mahdollisissa lukuraameissa (Kuva 11.2). Tätä kutsutaan oikean lukukehyksen (ORF, open reading frame) etsimiseksi. DNA-sekvenssin transloimiseen käytetään useimmiten lähetti-RNA -sekvenssiä tai cDNA:ta, bakteereilla myös genomista sekvenssiä. Bakteereilla ei nimittäin juurikaan esiinny introneja. Jos monisoluisista eliöistä saatavilla on ainoastaan genominen sekvenssi, joka sisältää sekä eksonit että intronit, on ensin selvitettävä eksonien sijainti, jotta saadaan selville lähetti-RNA:ta vastaava sekvenssi. Yllä esitetyllä menetelmällä on mahdollista tunnistaa ja löytää oikea lukukehys ja sitä vastaava aminohappoketju arviolta 80-90% tapauksista. Jos tunnistettava proteiinituote on hyvin lyhyt, eri geenien lukukehykset menevät päällekäin tai sijaitsevat eri DNA-juosteissa tai translaation aloituskodonin tarkkaa sijainti ei tunneta, on käytettävä tehokkaampia menetelmiä. Eräs tallainen menetelmä on ohjelmoitu GeneMark-tietokoneohjelmaan. Tällaisia menetelmiä käsitellään tarkemmin luvussa Geenien rakenteen selvittäminen. 11.5 DNA:n käänteiskomplementarisointi DNA:ssa on kaksi juostetta, joista toinen kulkee 5’->3’ suuntaan, ja toinen on tälle vastakkainen. Tämän säännön perusteella voidaan tunnettu DNA-sekvenssi muuttaa käänteiseksi (takaperoiseksi), komplementaariseksi (vastinjuoste) tai käänteiskomplemetaariseksi (takaperoinen vastinjuoste). Periaate on kuvattu kuvassa 11.3. 11.6 Eksonien ja intronien määrittäminen Eksonien ja intronien tunnistaminen genomisesta sekvenssistä on tärkeää, jotta geeniä vastaavan aminohappoketjun koostumus saadaan selville. Myös vaihtoehtoisen silmukoinnin selvittämiseksi on tarpeen tuntea geenin tarkempi rakenne. Tässä esitettävä yksinkertainen menetelmä perustuu oletukseen, että genomisen sekvenssin lisäksi käytettävissä on muutakin tietoa geenialueesta. Jos käytössä on ainoastaan genominen sekvenssi, on turvauduttava menetelmiin, joita käsitellään tarkemmin luvussa Geenien rakenteen selvittäminen. Jos geenistä tunnetaan sekä genominen sekvenssi että lähetti-RNA -sekvenssi, onnistuu eksonien tunnistaminen helposti rinnastamalla lähetti-RNA -sekvenssi genomisen sekvenssin kanssa. Tällöin genomisen sekvenssin alueet, jotka rinnastuvat lähetti-RNA:n kanssa vastaavat geenissä olevia eksoneita. Sekvenssit voidaan rinnastaa joko pistematriisimenetelmällä (kuva 11.4), jolloin saadaan visuaalinen tulos eksonien sijainnista, tai paikalliseen rinnastukseen soveltuvilla menetelmillä, Smith-Waterman-algoritmilla tai BLAST-algoritmilla (Kuva 11.5). 11.7 Vaihtoehtoinen silmukointi Saman geenin tuottaman lähetti-RNA:n vaihtoehtoinen silmukointi (alternative splicing) on luultavasti hyvin tärkeä geenisäätelyn muoto. Vaihtoehtoista silmukointia käyttäen solu voi ilmentää erilaista proteiinia solun eri osissa, vaikka kaikki muodot ovatkin peräisin yhdestä ja samasta geenistä. Vaihtoehtoisessa silmukoinnissa nimittäin tuotetaan erilaisia lähetti-RNA -muotoja siten, että yksi tai useampia eksoneita, jotka ovat olemassa alkuperäisessä geenissä, poistetaan lähetti-RNA:sta. Toinen tärkeä geenisäätelyn muoto on luultavasti vaihtelevan ensimmäisen eksonin käyttö. Joistakin geeneistä tunnetaan vaihtoehtoisia muotoja, joista geenin ensimmäinen eksoni puuttuu. Vaihtoehtoisen silmukoinnin tunnistaminen biokemiallisia tutkimusmenetelmiä käyttäen on hankalaa, joten useimmiten asian selvittämiseen 112 Bioinformatiikan perusteet SHOWORF of ECRECA from 1 to 1391 ---------|---------|---------|---------|---------| 1 agagaagcctgtcggcaccgtctggtttgcttttgccactgcccgcggtg 50 F1 1 R F2 1 E E A K C P R V H G R T L V V W C F F A C F H A C T P A R R * G F3 1 R S L S A P S G L L L P L P A V R1 48 S F G T P V T Q N A K A V A R P R2 24 R3 18 L L S R A D Q A R G C D R P R K T S Q K K G Q S W G Q A G 16 E 17 16 33 T R 9 H 3 ---------|---------|---------|---------|---------| 51 aaggcattacccggcgggatgcttcagcggcgaccgtgatgcggtgcgtc 100 F1 1 F2 18 R H F3 17 K A L P R1 32 S P M V R2 8 R3 2 G F Y I A L P T N C A R G * S P A F A M R P G C D G R G G R I P S S G A D A L Q R R A E A A S H * K R L R T P P S R H S R C G I H R V R C T G A M * V R D V P A R 17 V 33 A S 4 H T 16 A T D 3 R 2 ---------|---------|---------|---------|---------| 101 gtcaggctactgcgtatgcattgcagaccttgtggcaacaatttctacaa 150 F1 18 F2 34 V Q F3 5 S R1 15 T R2 2 R3 1 R A R G * S * A Y R C S P A L Y L D T L Q V A M L H Q C V C I A R I C Q T A H Y M A T R D N C P T K Q N A Q R V Q G V G S W C L L A L P A H F N L F Q Y T I S T L L K * V C I C E N 33 K 50 K 21 L 19 V R 14 C 32 ---------|---------|---------|---------|---------| 151 aacacttgatactgtatgagcatacagtataattgcttcaacagaacata 200 F1 34 N F2 51 T F3 22 H L I L Y E H T V * L L Q Q N I R1 18 V S S V T H A Y L I I A E V S C R2 13 F R3 31 T F * L C V Y D K Q C T I M V S Y S * Y Q I A S I C L Q Y M Y S V C N I T Y C I Y F A N L N S S Q R T * K T E C L F L Y H V 14 I 11 6 3 M 6 Y 15 Kuva 11.2: Eräs kolibakteerin geeni transloituna kuudessa eri lukuraamissa. Lukukehyksiin on merkitty tähdellä (*) translaation lopetuskohdat. Todennäköisin lukukehys antaa pisimmän yhtäjaksoisen aminohapposekvenssin. Aloitusaminohappona käytetään liki aina metioniinia, joten transloidun aminohappoketjun pitäisi alkaa M:llä. Toisen lukukehyksen tuottama aminohapposekvenssi (lihavoitu) vastaa tunnettua proteiinia, ja onkin oikea tulos. Useimmiten translaation tulosta arvioidaan vielä siltä kannalta, että lyhyimmät tunnetut proteiinit ovat 50-100 aminohappoa pitkiä, joten lyhyemmät translaatio tuotteet ovat luultavasti vääriä. 11 DNA-sekvenssin ominaisuuksien selvittäminen Alkuperäinen sekvenssi: 113 5’-ACG GCT TGC-3’ Komplementaarinen sekvenssi: 3’-TGC CGA ACG-5’ Käänteinen sekvenssi: 3’-CGT TCG GCA-5’ Käänteiskomplementaarinen sekvenssi: 3’-GCA AGC CGT-5’ Kuva 11.3: DNA:n rakenteeseen perustuva sekvenssin manipulointi. Kuva 11.4: Genomisen ja lähetti-RNA -sekvenssin pistematriisimenetelmällä toteutettu rinnastus. Vaaka-akselilla on ihmisen alfa 1 -hemoglobiinin genominen sekvenssi, ja pystyakselilla sitä vastaava lähetti-RNA -sekvenssi. Geenissä näyttää olevan kolme eksonia (poikittaiset viivat) ja kaksi intronia. käytetään tietokannoissa olevia EST-sekvenssejä. EST-sekvenssit ovat lyhyitä pätkiä pidemmästä lähetti-RNA -sekvenssistä. Monissa tietokannoissa on jo tietoa eri geenien vaihtoehtoisista silmukointimuodoista (Kuva 11.6), mutta analyysien perusajatus käsitellään tässä kuitenkin lyhyesti (Modek, 2001). Vaihtoehtoisten silmukointitulosten tunnistaminen perustuu laajamittaiselle ESTsekvenssien käytölle. EST-sekvenssejä verrataan genomiseen DNA-sekvenssiin. Jos jonkin eksonialueen havaitaan puuttuvan EST-sekvenssien joukosta, voidaan sen mahdollisesti olettaa olevan vaihtoehtoinen silmukointituote. Aiemmissa tutkimuksissa vastaavaa menetelmää käyttäen on havaittu, että vähintään noin viidesosalla ihmisen geeneistä vaihtoehtoista silmukointia tapahtuu. Tässä kuvattavaa menetelmää varten tarvitaan ihmisen genominen sekvenssi, joka on tätä kirjoitettaessa helposti saatavissa vaikkapa Ensembl-tietokannasta. Lisäksi tarvitaan tutkittavaa geeniä vastaavat EST-sekvenssit, jotka voidaan selvittää BLAST-haulla EMBL-tietokannasta. Tietty geeniä vastaavat EST-sekvenssit voi myös suoraan kopioida UNIGENE-tietokannasta. UNIGENE-tietokannan etuna on, että se on annotoitu, eikä sen pitäisi sisältää paralogisia sekvenssejä, jotka voivat aiheuttaa vääriä tuloksia analyysissä. BLAST-haun jälkeen paralogiset sekvenssit pitää itse poistaa analyysistä. Tämän jälkeen genomisesta sekvenssistä selvitetään eksonien paikat, joko rinnastamalla geeniä vastaavat mRNA- ja EST-sekvenssit sen kanssa tai tietokannasta saatuja annotaatioita käyttäen. Eksonit voidaan siis tunnistaa mRNA- ja EST- 114 Bioinformatiikan perusteet Kuva 11.5: Ihmisen alfa 1 -hemoglobiinin genomisen ja lähetti-RNA sekvenssien rinnastus NCBI:n BLAST-algoritmia ja -palvelinta käyttäen. BLAST palauttaa kuvan sekvenssien rinnastuvuudesta ja rinnastuvien alueiden parittaiset rinnastukset. Tästä on pistematriisimenetelmään verrattuna se etu, että eksoni-introni-rajojen määrittäminen käy helposti yhden nukleotidin tarkkuudella. sekvenssien kanssa tehdystä rinnastuksesta, koska rinnastuvia alueita löytyy ainoastaan eksoneista. Alueet, joille ei löydy vastinetta mRNA- tai EST-sekvensseistä ovat introneita. Eksonien selvittämisen jälkeen mRNA- ja EST-sekvenssit rinnastetaan joka tapauksessa genomisen sekvenssin kanssa. Vaihtoehtoiset silmukointimuodot voidaan tunnistaa EST-rinnastuksista pitkinä insertioina (kuva ??). Jos EST-sekvenssit vastaavat täydellisesti (sekvensointivirheet armahtaen) genomista sekvenssiä mahdollisen vaihtoehtoisen silmukointikohdan molemmin puolin, ja tällaisen täydellisen osuman sisällä on pitkä insertio, voi kysymyksessä olla vaihtoehtoinen silmukointi. Vaihtoehtoisen silmukoinnin vahvistamiseksi intronin pitää alkaa GT-sekvenssillä ja päättyä AG-sekvenssiin. Intronin silmukoinnissa nämä donoriksi ja akseptoriksi kutsutut lyhyet sekvenssialueet osallistuvat silmukan muodostukseen. Täydelliset sekvenssit ovat itseasiassa AGGTAAGT intronin alussa ja (Py)nNCAGG intronin lopussa. Lisäksi oikeaan silmukointiin tarvitaan adeniini intronin keskellä. 11.8 Promoottorialueen tunnistaminen Periaatteessa aitotumallisten eliöiden, kuten ihmisen, geenien promoottorialueiden tunnistaminen ja niiden sekvenssien hakeminen esimerkiksi Ensembl-tietokannasta on helppoa. Jos geeni, geenin nimi tai siihen liittyvän sekvenssin tunnistenumero tunnetaan, voidaan promoottorialueen sekvenssi hakea näitä tietoja käyttäen Ensembltietokannasta. Vaikka tämä kuulostaa helpolta, ei asia ole näin yksinkertainen. Ihminen geenikartta ei ole vielä täysin vakiintunut, joten promoottorialue ei välttämättä ole juuri etsitystä geenistä. Lisäksi Ensembl-tietokanta sisältää epätarkkuuksia: sama geeni voi palauttaa useampia promoottorialueita jopa eri kromosomeista! 11 DNA-sekvenssin ominaisuuksien selvittäminen 115 Kuva 11.6: BLAT-ohjelmalla osoitteessa http://genome.ucsc.edu/ suoritetun haun tulos. Hakusekvenssinä oli ihmisen RAB-geeniä vastaava sekvenssi (EMBL-tunniste BG334944). Kuvassa on esitetty geenirakennetta tukeva tieto ylimpänä erivärisin nuoliviivoin, ja näiden alla geeniä vastaavat EST-sekvenssit mustilla nuoliviivoilla. Nuoliviivojen keskellä sijaitsevat värilliset tai mustat laatikot vastaavat eksoneita. Jotkin EST-sekvenssit eivät olet täysmittaisia, jolloin nuoliviivasta puuttuu pala. EST-sekvenssien perusteella voidaan tehdä johtopäätöksiä vaihtoehtoisen silmukoinnin vaikutuksesta lähetti-RNA:n ja sitä vastaavan proteiinin rakenteeseen: Esimerkiksi EST-sekvenssistä W52533 näyttävät puuttuvan kaikki eksonin kolme jälkeiset eksonit. Yhtä EST-sekvenssiä lukuunottamatta kaikissa sekvensseissä esiintyvät eksonit yksi ja kaksi. Jokaisesta EST-sekvenssistä on myös saatavilla lisätietoja, jolloin saattaa olla mahdollista myös päätellä, millaisiin solutyyppeihin tai tautitiloihin tietynlaisten geenimuotojen ilmeneminen voi liittyä. Sellaisten lajien kohdalla, joista koko perimää ei tunneta, ongelma on vielä huomattavasti vaikeampi. Promoottorialueen pituus vaihtelee eri eliöillä ja eri geeneillä. Esimerkiksi hiivalla promoottorialueet ovat useimmiten korkeintaan 500-1000 bp:n mittaisia, kun ihmisellä promoottorialueet ovat yleensä korkeintaan 3 500 bp:a. Promoottorialueen tarkkaa pituutta on myös vaikea arvioida, jollei esimerkiksi tunneta tutkittavaa geeniä edeltävän geenin sijaintia. Promoottorialueeseen ei nimittäin haluta ottaa mukaan edeltävän geenin eksoneita tai 3’-pään UTR-alueita. Kaikista geeneistä ei myöskään tiedetä, esiintyykö niillä vaihtoehtoista silmukointia, jossa geenin ensimmäinen eksoni ei aina ilmene proteiinissa. Geenillä voi myös olla vaihtoehtoisia transkription aloituskohtia esimerkiksi siten, että geenistä tuotetaan jo transkriptiossa kahta eri muotoa, sellaista joka alkaa eksonilla 1, ja sellaista joka alkaa eksonilla 2. Tällaisissa tapauksissa promoottorialueen määrittely on entistä vaikeampaa, koska TATA-sekvenssialue, joka vastaa polymeraasin sijoittamisesta juuri transkription aloiutskohtaan, sijaitsee aina liki täsmälleen 10 bp:a ylävirtaan transkription aloituskohdasta. Geenisäätelyyn osallistuvat sekvenssialueet voivatkin sijaita introneissa tai jopa alavirtaan transkription aloituskohdasta. Seuraavassa käytetään kuitenkin promoottorialueesta seuraavaa määritelmää: promoottorialue sijaitsee geenin ensimmäisestä eksonista ylävirtaan tietyn matkaa. 116 Bioinformatiikan perusteet A. >Genomic ctcagcctgggctgcacag.ga.g.caggtaaggacacttcttctggggactctcccttc >Hs#S1714 >Hs#S3280631 >Hs#S2416307 >Hs#S5344 >Hs#S3590010 >Hs#S3584920 >Hs#S3590058 >Hs#S3281340 >Hs#S3583980 ctcagcctgggctgcacag.ga.g.cag................................ ctcagcctgggctgcacag.gaagacaggt.............................. ctcagcctgggctgcacag.ga.g.cag................................ ctcagcctgggctgcacag.ga.g.cag................................ ctcagcctgggctgcacag.ga.g.cag................................ ctcagcctgggctgcacag.ga.g.cag................................ ctcagcctgggctgcacag.ga.g.cag................................ ctcagcctgggctgcacag.ga.g.cag................................ ctcagcctgggctgcacag.ga.g.cag................................ >Genomic >Hs#S1714 >Hs#S3280631 >Hs#S2416307 >Hs#S5344 >Hs#S3590010 >Hs#S3584920 >Hs#S3590058 >Hs#S3281340 >Hs#S3463410 ........aggtggctt.cgtgg.cccatgtggaaa.gcac.ctgtctgttg.g.a.tga ........aggtggctt.cgtgg.cccatgtggaaa.gcac.ctgtctgttg.g.a.tga ........ag..ggttttcgtggacccatgtggaaatgcgcactgtctgttgcgcagtga ........aggtggctt.cgtgg.cccatgtggaaa.gcac.ctgtctgttg.g.a.tga ........aggtggctt.cgtgg.cccatgtggaaa.gcac.ctgtctgttg.g.a.tga ........aggtggctt.cgtgg.cccatgtggaaa.gcac.ctgtctgttg.g.a.tga ........aggtggctt.cgtgg.cccatgtggaaa.gcac.ctgtctgttg.g.a.tga ........aggtggctt.cgtgg.cccatgtggaaa.gcac.ctgtctgttg.g.a.tga ........aggtagatt.cgtgg.cacatgtggaaa.gcgc.ctgtctgttg.g.a.tga ........aggtggctt.cgtgg.cccatgtggaaa.gcac.ctgtctgttg.g.a.tga B. >Genomic >Hs#S1714 >Hs#S1827422 g.gtagagc..aca.tt.gggg.ct.cct.ga.gccc..at.ccttcg..gg.actggag g.gtagagc..aca.tt.gggg.ct.cct.ga.gccc..at.ccttcg..gg.actgga. g.gtagagc..aca.tt.gggg.ct.cct.ga.gccc..at.ccttcg..gg.actgga. >Genomic taagtgtatggcagatggatggaattagggtcaaagcagagaaaatgagatgtggatcga >Genomic tacatggtacatggtagacagcgaagtgctgaaaatggggactgagtctggaggaactta >Genomic aaggacacatgggag..............................atctagatgtagaag >Hs#S3130488 ...............cggaccggcata.....ctggac.ttctacatctagatgtagaag >Hs#S3130536 ...........................catacctggaccttctacatctagatgtagaag >Genomic >Hs#S3719681 >Hs#S182107 gagctgggataaaggaccttttaacccactgagaggtggctgcaataaatggaattgccc gagctgggataaaggaccttttaacccactgagaggtggctgcaataaatggaattgccc gagctgggataaaggaccttttaacccactgagaggtggctgcaataaatggaattgccc >Genomic >Hs#S1714 tgggggtgagcaacagaaactgggtcaagtaagtttctattttttgcagcacc.tggg.c .................................................cacc.tggg.c >Hs#S1592422 .................................................cacn.tggg.c Kuva 11.7: Esimerkki vaihtoehtoisten silmukointimuotojen tunnistamisesta sekvenssirinnastuksesta. Kohdassa A on esitetty intronin tunnistaminen, kun vaihtoehtoista silmukointia ei esiinny. Genomiselle sekvenssille ei löydy vastinetta EST-sekvensseistä, ja introni alkaa sekvenssillä GT ja loppuu sekvenssiin AG (lihavoitu). Kohdassa B on tilanne, jossa vaihtoehtoista silmukointia todennäköisesti esiintyy. Introni alkaa normaalisti sekvenssillä GT ja loppuu sekvenssiin AG (lihavoitu). Tämän jälkeen rinnastus jatkuu alueella, joka vastaa genomista sekvenssiä. Tämän osuman jälkeen tulee uusi lyhyehkö sekvenssialue, jolta ei löydy EST-sekvenssiä, ja joka päättyy sekvenssiin AG. Tällainen kahden pisteillä merkityn sekvenssialueen välinen alue saattaa vastata vaihtoehtoisen silmukoinnin aikana poistettavaa eksonia. 11 DNA-sekvenssin ominaisuuksien selvittäminen 117 Jos ei halua luottaa Ensembl-tietokannan tuloksiin, voi promoottorialueen määrittää seuraavalla tavalla itsekin. Tätä menetelmää voi käyttää myös sellaisille lajeille, joiden koko perimää ei tunneta. Jos geenistä on saatavilla RefSeq-mRNA, onnistuu promoottorialueen selvittäminen rinnastamalla lähetti-RNA vastaavan genomisen sekvenssin kanssa (Kuva 11.8). Toisinaan myös RefSeq-mRNA-sekvensseissä on epätäydellisyyksi ja virheitä, sillä esimerkiksi ihmisen genomia ja geenien eri transkriptiomuotoja ei vielä tunneta täydellisesti. Jos RefSeq-sekvenssiä ei ole saatavilla, voi tavanomaista mRNA-sekvenssiäkin käyttää, mutta tällöin on suuri riski tehdä virhepäätelmiä, jollei ensin tutkita, esiintyykö geenissä vaihtoehtoista silmukointia. Query: 1 aggacggcgggaagaggagtgcggaacccgcgggagg 37 ||||||||||||||||||||||||||||||||||||| Sbjct: 2022 aggacggcgggaagaggagtgcggaacccgcgggagg 2058 1 agaaccgtaa gatcagtgca tgtgtacagc agggagaaag aaattgtgct ttggtggaaa 61 cctctgcctc atcttggcca cactttctca cgtgctcctt acggttcata cagacgtaga 121 gtatttctgt gctattaaga gttcgttaca ccataaatac aattttcacg tgtcaactta 181 aaagtaaatt ttaaaaaaga tgaaggagga tgattggcgg aaagtgtcta aaaagactcc 241 tcatggtggc gatactgggg agaggtgggc agcactggtc tcaactctcc aggacacgct 301 cagtgaccgg tgatggctcc gtacactgta gatgccagag acacttcccc agagtcactc 361 gaattccgtc ctgtccccga ggctctgtgg ccgctcaccc cccaccaggc ctccaaccaa 421 gcttcaatga acccagtcaa ttagtgctac tttgacttct tgaacctagt tccaacgtct 481 gcttagttct atcactgagg gaattaaacg aatctgtaac acgtgttaag tatgaaagtc 541 atattacaaa aattcttttt ctcccccaat ttttttttta tcgtggtaaa atccacagaa 601 cagaaactgg acacacctgt tagcgcacag ccagtgggat taaatgcact cggggccttc 661 ccagttggcc aaggggctgg tgtgaggcaa aggcacctcc gatcaggtca cagggaaccc 721 cacgggaggc ccagcggatg gcctggctca gggaccccac gcccacgccc caatgtctgc 781 aggagtggcc tgggcaactc ctgccgtgtc tgggcccatg ggaaacgggt gcaaatctgc 841 ggtctccttc aaactgtcca gtgggcgact gcgacctcgc ttccgaggtg gagggtggta 901 tagacgaagg gaaacggggg gcagcctggc ccgcagactg ggtcctggcc ctccttccga 961 gcaggaggtg gcttcggaac cggccacccg cccgcggcac cgacgcctcc cccggttccc 1021 gggagggacc cctgcggggc cgccagctcc agcgcttccg cggacagcac gcgccctccc 1081 caccgagcct gcgaggaagg cgctccgcct tccactttct cgggagcgag ccccagctct 1141 1201 1261 1321 1381 1441 1501 1561 1621 1681 cgggacgcag cccccgggac tcctgccctc gtaggagcct gccggctggg cggggccggg cctccttgtc gttcgggcac cggacacctc ccctcgccca tccacacgcg cagcccgcgc ccgggacccc gaggcggcgg gaaggggccg ccggggcggc cgggacccac catgcgcagg ggaggacatg gcccggggca ctagcccagc cccgcacccc cgcaccggga cccggggacg cccggaggcg ggggcgggtc tgcggctcct ccgctcgggg acgccgcctc ccgcccgccc acgaaccggc gcctcccggc caccgcgcgc cggccaacct gaggggtcgt ggaggcgctg ccaggccgaa agcgcaccag agcctctcgg cgccccggtc ctcgggcagg gcccgccctg ctcccgccct gggagagagc cgcgggagcc gccggggcga cgggcttccg cttcttggcg ccagcggccc cgcgcgcggc gccgcaccca gacaggtgcc ccccgcgggc gggggcgggg tggaagcccg cggccaccca aaggcgcggt tcgcggcgcg cgcacccggc tgacagcgcc 1741 1801 1861 1921 1981 ggcgtccaat atcgctgccc aatcggcggc gattggttag agggtgctag cgccaagccc tctccaatcc gagggctggc ttagtcagtc gcgcctattg gccacggagc gtgtaagggc ccgggtacgc acgttagcgc gaggagaagg gcggactaat accgcccctg tccgcccctc cgcttcgtct ccgagaggag cggagcttga actccgcccc caaccctgag gtcgatcacc tcagggagat tgagactttg ctgattggtg tagcccactc c aggacggcg ggaagaggag Kuva 11.8: Promoottorialueen määrittäminen RefSeq-lähetti-RNA:ta ja sitä vastaavaa genomista sekvenssiä käyttäen. Ihmisen XRCC3-proteiinia koodava lähetti-RNA (NM_005432) rinnastettiin genomisen sekvenssin (AF508041) kanssa. Rinnastuvasta alueesta ylävirtaan sijaitsee geenin promoottorialue. Ylimpänä on esitetty ensimmäisen eksonin paikka geenissä sekvenssirinnastuksen perusteella määritettynä. Rinnastuvan alueen alku on merkitty lihavoituna alempana esitettyyn promoottorialueen sekvenssiin. Promoottorialueella on tavanomaista korkeampi GC-pitoisuus. Huomaa, että varsinainen TATAsekvenssialue puuttuu, koska XRCC3 on taloudenpitogeeni, jota ekspressoidaan kudoskissa jatkuvasti. Jos genomista sekvenssiä geenistä ei ole suoraan saatavilla, voidaan se kaivaa esiin esimerkiksi koko eliön perimästä tai siitä kromosomista, jossa geenin tiedetään sijaitsevan. Tällöin tehdään paikallinen rinnastus esimerkiksi lähetti-RNA- 118 Bioinformatiikan perusteet sekvenssiä käyttäen koko eliön perimää vastaan. Ennen rinnastusta saattaa olla syytä pilkkoa eliön perimä pienemmiksi palasiksi, jotta rinnastus sujuu nopeammin ja tehokkaammin. Rinnastuksen tuloksia on tulkittava huolellisesti ja varoen, sillä varsin monista geeneistä esiintyy pseudogeenikopioita, joiden erottelu pelkän rinnastuksen perusteella on toisinaan hankalaa. Periaatteena voi käyttää ainakin sitä, että mRNA- ja genomisen sekvenssin tulisi rinnastua täydellisesti ilman aukkoja ja huteja geenin toiminnalliseen kopioon. Yksi huti tuhatta emäsparia kohden voitaneen kuitenkin sallia. Jos geeni toiminta tunnetaan huonosti, eikä siitä ole saatavilla EST-sekvenssejä vaihtoehtoisen silmukoinnin tutkimiseksi, voidaan promoottorialue tunnistaa fylogeneettistä päättelyä käyttäen. Jos esimerkiksi ihmisen vastaavan geenin rakenne tunnetaan, ja promoottorialueen sijainti on määritelty, voidaan tätä tietoa käyttää hyväksi esimerkiksi hiiren tai rotan geenin tutkimiseksi. Jos hiiren sekvenssi rinnastetaan ihmisen sekvenssin kanssa, eivät erot esimerkiksi eksonien ja intronien sijoittumisessa yleensä ole suuria. Tällöin voidaan rinnastuksen perusteella päätellä myös hiiren geenin rakenne ja sitä kautta myös promoottorialueen ja transkription aloituskohdan sijainti. Menetelmän tehokkuutta voi entisestään parantaa käyttämällä suurempaa määrää eliöitä, esimerkiksi hiirtä, rottaa, koiraa ja simpanssia. On kehitetty myös laskennallisia menetelmiä promoottorialueiden tunnistamiseen genomisesta sekvenssistä. Ne toimivat enimmäkseen samaan tapaan kuin luvussa Geenien rakenteen selvittäminen kuvatut menetelmät, joilla pyritään löytämään geenin eksonit ja intronit. Uusimmissa ja tehokkaimmissa menetelmissä käytetään EST-sekvenssien antamaan tietoa geenin rakenteesta hyödyksi (Liu, 2002). 11.9 Antisense-RNA Antisense-RNA:lla tarkoitetaan sellaista RNA:ta, joka on komplementaarinen lähettiRNA:lle (sense-RNA). Antisense-RNA:n kautta tapahtuva geenisäätely näyttää olevan, ainakin nisäkkäillä ja joillakin kasveilla, jokseenkin yleinen tapa säädellä geenien ilmentymistä transkription jälkeen. Antisense-RNA muodostaa kaksijuosteisen RNA-molekyylin lähetti-RNA:n kanssa. Koska monilla viruksilla on kaksijuosteinen RNA-genomi, on soluille kehittynyt tapoja tunnistaa ja hajottaa tällainen molekyyli solulimassa, sillä samalla voidaan estää viruksen lisääntyminen solussa. Antisense-RNA:n avulla tapahtuva geenisäätely luottaa samaan mekanismiin: kaksijuosteiset RNA-molekyylit hajotetaan, eikä niitä ikinä transloida proteiiniksi. RNA:n avulla tapahtuvaa geenisäätelyä kutsutaan RNA-häirinnäksi (RNA interference tai RNAi). RNA-häirinnän tutkiminen laboratoriomenetelmin oli vaivalloista ennen DNAsiruteknologian kehittymistä. Nykyisin DNA-sirujen avulla voidaan tutkia tuhansien lähetti-RNA- ja antisense-RNA-molekyylien ilmentymistä soluissa yhtäaikaisesti. Myös bioinformatiikan menetelmät ovat olleet tärkeitä RNAi-ilmiöta tutkittaessa, mutta kuten yleensäkin, on tulokset varmennettava laboratorimenetelmin. Yksinkertaisin menetelmä antisense-RNA:n tunnistamiseen on käyttää BLASThakua. BLAST-haussa voidaan käyttää sellaista sekvenssiä, joka vastaa lähettiRNA:lle komplementaarista juostetta. Tällöin löytyvät hakutulokset saattavat vastata soluissa ilmentyviä antisense-RNA-molekyylejä. Tällä tavalla on kuitenkin löydetty vain harvoja lähetti-RNA - antisense-RNA -pareja, sillä EST-sekvenssit on jätetty analyysien ulkopuolelle. Tutkimuksissa, joissa EST-sekvenssit ovat mukana, on löytynyt lukuisampia pareja. Yelin (2003) kuvaa menetelmän lähetti-RNA - antisense-RNA -parien tunnistamiseen. Tätä menetelmää voidaan menestyksekkäästi käyttää mille tahansa aitotumalliselle organismille. Menetelmän ongelmana on luultavasti suuri väärien tulosten määrä, sillä tuloksia ei ole korjattu pseudogeenien ja geeniperheiden (paitsi immunoglobuliinit ja T-solureseptorit) suhteen. Menetelmä toimii seuraavasti. Tutkimusta varten Genbank-tietokannassa olevista lähetti-RNA- ja EST-sekvensseistä 11 DNA-sekvenssin ominaisuuksien selvittäminen 119 poistettiin päissä sijaitsevat vektori-DNA:n jäänteet ja poly-A- ja poly-T-sekvenssit. Sekvenssit, joiden keskellä oli vektori-DNA-kontaminaatio, tai sellaiset, jotka kuuluvat runsaslukuisiin geenieperheisiin (immunoglobuliinit ja T-solureseptorit), poistettiin sekvenssijoukosta. Toistoalueet ja low complexity regions jätettiin hauissa pois käsittelystä. Esikäsitellyillä sekvensseillä tehdään Blast-haku ihmisen genomia vastaan. Tulokset rinnastetaan siten, että rinnastuksen keskellä sallitaan pitkät aukkokohdat, jotka kuvastavat introneja. Alhaisen luotettavuustason alueet sekvenssien lopuissa leikataan rinnastusvaiheessa pois. Ainoastaan sekvenssejä, jotka ovat vähintään 94% samankaltaisia genomisen sekvenssin kanssa, käytetään jatkoanalyyseissä. Jatkoanalyyseissä sekvenssirinnastusta, joka sisältää kaikki saman genomisen lokuksen kanssa rinnastuvat sekvenssit kutsutaan ryhmäksi (cluster). Seuraavaksi ryhmät syötetään tietokoneohjelmaan, joka kykenee erottelee samasta lokuksesta, mutta eri juosteista tuotetut transkriptit toisistaan. Kun transkriptia vastaava oikea juoste on tunnistettu, rinnastetaan sekvenssit oikean juosteen kanssa. Eri juosteista peräisin olevien transkriptien erottamiseksi käytetään apuna sekvenssien annotaatiotietoja sekä silmukointikohtien sijaintia ja sekvenssien poly-A-häntiä tai poly-T-päitä. Annotaatiotiedoissa kerrotaan cDNA-klooneista useimmiten, onko cDNA peräisin lähetti-RNA:n 5’-päästä vain 3’-päästä. cDNA-pätkien kloonauksessa käytetään usein NotI-entsyymidigestiota. NotI-kohdat keskittyvät erityisesti geenin 5’päähän ja ensimmäiseen eksoniin (CpG-saarekkeet), joten jos EST-sekvenssissä esiintyy NotI-entsyymin tunnistekohta, voidaan sen olettaa olevan sekvenssin 5’pää. Silmukointikohtien sijainti on kenties luotettavin tapa tunnistaa se DNA-juoste, josta transkripti on peräisin. Noin 98% ihmisen geenien introneista rajautuu binukleotidisekvensseihin GT (alku) ja AG (loppu). Käänteiskomplementaarisessa juosteessa vastaavat sekvenssit ovat CT (alku) ja AC (loppu). Kun transkriptia vastaava sekvenssi on rinnastettu genomisen sekvenssin kanssa oikein, voidaan introni-eksoni-rajat määrittää. Jos silmukointikohdat ovat GT...AG, on sekvenssi oikein päin, jos silmukointikohdat ovat CT...AC, on sekvenssi väärin päin (tai kotoisin käänteiskomplementaarisesta juosteesta). Poly-A-häntiä voidaan myös käyttää sekvenssin oikean suunnan määrittämiseen. Lähetti-RNA päättyy poly-A-häntään, joten sen monistamiseen käytetään usein poly-T-aluketta. Tällöin tietokannan sekvenssissä on usein poly-T-alkupää. Poly-A-häntä siis kertoo, kummasta juosteesta transkripti on kotoisin. Jos saman genomisen lokuksen molempien juosteiden sekvensseihin rinnastuu mRNA, cDNA tai EST-sekvenssejä, tuottaa lokus todennäköisesti sekä proteiinia vastaavaa mRNA:ta että mRNA:n ekspressiota säätelevää lyhyttä siRNA:ta (antisense-RNA:ta). Tässä kuvattu menetelmä ei kuitenkaan kykene löytämään sellaisia antisense-RNA:ta, jotka eivät koodaa proteiinia, eivät osallistu silmukointiin tai joita ei poly-adenyloida. 120 Bioinformatiikan perusteet 12 Aminohapposekvenssin ominaisuuksien selvittäminen 12.1 Mitä aminohapposekvensseistä voidaan ennustaa? Aminohapposekvenssin perusteella voidaan tehdä monia hyödyllisiä ennustuksia vastaavan proteiinin ominaisuuksista ja selvittää mitä toiminnallisia osasia proteiinissa on. 12.2 Aminohappokoostumuksen selvittäminen Aminohapposekvenssin koostumuksen selvittäminen tapahtuu likipitäen samaan tapaan kuin DNA-sekvenssi koostumuksen selvittäminen. Yksittäisten aminohappojen absoluuttiset ja suhteelliset osuudet voidaan määrittää helposti laskemalla yksittäisten aminohappojen määrä tietyn mittaisessa aminohapossa. Aminohappokoostumus vaihtelee eliöiden välillä, ja on yhteydessä kodonien käyttöön. Usein ihmisen proteiinin ilmentäminen bakteerissa on ongelmallista siksi, että bakteerin perimässä kodonien taajuudet ovat erilaiset kuin ihmisen perimässä, eikä lähettiRNA:ta synny tarpeeksi. Toisaalta ongelmia voi tuottaa myös ihmisen proteiinin erilainen aminohappokoostumus, mikä aiheuttaa sen, ettei proteiini laskostu bakteerissa oikein, eikö toiminnallista proteiinia siten ikinä muodostu. 12.3 Sekundäärirakenteen ennustaminen Aminohapposekvenssin perusteella voidaan yrittää päätellä, millaisia sekundäärirakenteita tietty aminohappoketju laskostuneessa proteiinissa omaksuu. Tällaisten ennustusten perusteellä pyritään päättelemään esimerkiksi mitkä alueet proteiinista ovat hydrofobisia, ja siten mahdollisesti lipidikalvon läpäiseviä proteiinin osia, tai mitkä alueet muodostavat hydrofiilisten aminohappojen ketjuja, jotka voivat vastata proteiinin pinnan rakenteita. Myös alfaheliksien muodostamien coiled-coil alueiden tunnistaminen saattaa olla mielenkiintoista, sillä tällaiset alueet usein osallistuvat proteiinien välisiin vuorovaikutuksiin. Lisäksi coiled-coil-alueet voivat tuottaa vääriä tuloksia sekvenssihauissa, joten niiden poistaminen hakusekvenssistä saattaa olla tarpeellista. 12.3.1 Coiled-coil alueiden tunnistaminen Coiled-coil-alueiden tapahtuu vertaamalla hakusekvenssiä tietokannassa oleviin sekvensseihin. Vertailun perusteella lasketaan samankaltaisuusarvio. Kun tätä samankaltaisuusarviota verrataan globulaaristen (esimerkiksi globiinit) ja coiled-coil-proteiinien 12 Aminohapposekvenssin ominaisuuksien selvittäminen 121 (esimerkiksi, myosiini, kinesiinit ja keratiinit) tunnettuihin samankaltaisuusarvojen jakaumiin, voidaan laskea todennäköisyys, että proteiini omaksuu coiled-coilmuodon. COILS-ohjelma on vanhimpia tähän tarkoitukseen kehitettyjä ohjelmia, ja se tunnistaa parhaiten alueet, jotka koostuvat kahdesta alfaheliksistä ja sijaitsevat proteiinin pinnalla (Lupas, 1996). 12.3.2 Hydrofobisten alueiden tunnistaminen Hydrofobisten ja -fiilisten alueiden tunnistaminen tapahtuu yleensä liukavan ikkunan menetelmillä (kuva 12.1). Liukuvan ikkunan menetelmässä valitun mittaista ikkunaa liutetaan aminohapposekvenssin yli siten, että ikkunan mittaisen sekvenssialueen sisällä lasketaan aminohappojen keskimääräinen hydrofobisuus. Nykyisin käytetyin hydrofobisuusindeksi lienee Kyten (1982), mutta muitakin tapoja tarkastella aminohappojen hydrofobisuutta on kehitetty. Kyten ehdottamat hydrofobisuusarvot eri aminohapoille on esitetty taulukossa 12.1, joten aminohapposekvenssin tarkatsellu käsipelilläkin on mahdollista, joskin tietokone tekee saman asian huomattavasti nopeammin. Kuva 12.1: Liukuvan ikkunan periaate ja esimerkki tuloksista. Ylimpänä on esitetty liukuvan ikkunan periaate. Liukuvan ikkunan kooksi on tässä valittu neljä aminohappoa. Ensimmäisen ikkunan sisällä lasketaan aminohappoketjun hydrofobisuus, ja merkitään se kuvaan. Tämän jälkeen ikkunaan siirretään neljä aminohappo eteenpäin ja sama toistetaan kunnes sekvenssi on käyty kokonaan läpi. Analyysin tuloksena muodostuu alimpana esitetyn kaltainen kuva. Tässä on analysoitu halobakteerin bakteriorodopsiinin (SWISSPROT P33972) hydrofobisuutta. Bakteriorodopsiini näyttää koostuvan seitsemästä hydrofobisesta alueesta (A-G), joiden onkin biokemiallisissa tutkimuksissa havaittu läpäisevan solukalvon. 122 Bioinformatiikan perusteet Taulukko 12.1: Kyten (1982) aminohapoille empiirisesti määrittämät hydrofobisuusarvot. Positiivinen arvo merkitsee, että aminohappo on hydrofobinen ja negatiivinen arvo, että se on hydrofiilinen. Aminohappo A C D E F G H I K L M N P Q R S T V W Y Hydrofobisuus 1,8 2,5 -3,5 -3,5 2,8 -0,4 -3,2 4,5 -3,9 3,8 1,9 -3,5 -1,6 -3,5 -4,5 -0,8 -0,7 4,2 -0,9 -1,3 12.3.3 Sekundäärirakenteiden selvittäminen Sekundäärirakenteen ennustamiseen tarkoitetut tietokoneohjelmat käyttävät kuka mitäkin algoritmia. Toiset soveltavat neuroverkkoja tai kätkettyjä Markovin malleja, muutamat muut puolestaan lähimmän naapurin menetelmää (nearest neighbor classification). Uusimmat sovellukset, kuten Predator, muodostavat aluksi tutkittavasta sekvenssistä ja sen lähisukulaisista parittaisia sekvenssirinnastuksia. Rinnastuksen perusteella voidaan päätellä kunkin aminohapposekvenssin kohdan konservoitumisaste. Konservoitumisasteen ja tunnetuista proteiineista johdettujen vetysidossääntöjen avulla voidaan oikein ennustaa arviolta 68% (yhden sekvenssin perusteella) ja 75% (parittaisten rinnastusten perusteella) alfahelikseistä ja betalevyistä. Uudemmista menetelmistä Jpred käyttää aluksi useita erilaisia menetelmiä sekundäärirakenteen ennustamiseen ja muodostaa sitten näiden tulosten perusteella oman konsensusarvionsa (Kuva 12.2). Chou-Fasman -menetelmä Perinteinen sekundäärirakenteiden ennustamiseen käytetty menetelmä on ChouFasman (Chou 1974a, Chou 1974b), jossa jokaiselle aminohapolle on määrätty todennäköisyys, että se kuuluu osaksi alfaheliksiä, betalevyä tai satunnaisrakennetta. Todennäköisyydet on määritetty tunnettujen proteiinien perusteella. Eri rakenteet tunnistetaan seuraavalla tavalla: 1. Alfaheliksit tunnistamiseksi etsi aluksi kaikki sellaiset alueet, joilla kuuden aminohapon mittaisella alueella vähintään 4 aminohaposta saa P(alfaheliksi)- 12 Aminohapposekvenssin ominaisuuksien selvittäminen 123 Kuva 12.2: Jpred-ohjelman antama tulos kuva 7010 bakteriorodopsiinista. Kuvassa ylimpänä on muutamien samankaltaisten sekvenssien BLAST-rinnastus. Tämän jälkeen luetellaan eri menetelmien (jalign, jfreq, jhmm, jnet, jpssm) antamien ennustusten tulokset. Näiden alapuolella on Jpred:n laatima konsensusarvio (jpred). Eri sekvenssikohdille on laskettu myös ennustuksen luotettavuus, joka löytyy riviltä Jnet Rel. Luotettavuusrivillä suuri luku merkitsee ennustuksen hyvää luotettavuutta. Yksittäisten ohjelmien antamissa ennustuksissa H (helix) vastaa alfaheliksiä ja E (extented) betalevyä. Jpred:in ennustamat alfaheliksit sijoittuvat suunnilleen samoilla alueille kuin hydrofobisuuden perusteella (kuva 12.1) ennusteut solukalvon läpäisevät alueet. 124 Bioinformatiikan perusteet arvokseen yli 100 (taulukko 12.2). Jokaista näin tunnistettua sekvenssialuetta kohden jatketaan aluetta päistään kunnes neljän peräkkäisen aminohapon P(alfaheliksi)-arvo tippuu alle sadan. Jokaista näin jatkettua aluetta kohden, laske sekä P(alfaheliksi)- että P(betalevy)-arvojen summa. Jos alue on yli viisi aminohappoa pitkä, ja P(alfaheliksi)-arvojen aumma on suurempi kuin P(betalevy)-arvojen summa, tulkitaan alue alfaheliksiksi. 2. Betalevyjen tunnistaminen etenee samaan tapaan kuin alfaheliksien, mutta nyt P(alfaheliksi)-arvojen sijaan käytetään P(betalevy)-arvoja. 3. Jos edellä ennustetut alfaheliksit ja betalevyt menevät päällekkäin, niin päällekkäin menevän alueen ennustetaan kuuluvan heliksiin, jos P(alfaheliksi)arvojen summa on suurempi kuin P(betalevy)-arvojen summa sillä alueella. Jos P(betalevy)-arvojen summa on suurempi kuin P(alfaheliksi)-arvojen summa, tulkitaan alue betalevyksi. 4. Satunnaisrakenteiden määrittäminen etenee edellisestä poikkevalla tavalla neljän aminohapon ryhmissä. Jokaista neljän aminohapon ryhmää kohden lasketaan niiden f(i)...f(i+3) -arvojen summa P(t) (taulukko 12.3). Nelikon ensimmäinen aminohappo saa arvon f(i), sitä seuraava f(i+1) ja niin edelleen. Satunnaisrakenne (hairpin) alkaa kohdasta i, jos summa P(t) on suurempi kuin 0.000075, nelikon P(satunnaisrakenne) (taulukko 12.2) arvojen keskiarvo on yli 100, ja P(satunnaisrakenne)-arvojen summa on nelikossa suurempi kuin P(alfaheliksi)- tai P(betalevy) -arvojen summa. Lähimmän naapurin menetelmät Lähimmän naapurin menetelmät (nearest neighbor methods) etsivät hakusekvenssiä muistuttavan sekvenssin, jota vastaava proteiinirakenne on tunnettu. Tunnetun rakenteen perusteella voidaan myös hakusekvenssin sekundäärirakenteet selvittää. Suuresta määrästä sekvenssejä (100-400), joita vastaava proteiinirakenne tunnetaan ja joiden keskinäinen samankaltaisuus on mahdollisimman pientä, muodostetaan joukko lyhyita sekvenssipätkiä liuttamalla tietyn mittaista (esimerkiksi 17 aminohappoa) ikkunaa sekvenssin päällä. Jokaisen ikkunan mittaisen aminohappopätkän keskimmäisen aminohapon sekundäärirakenne merkitään muistiin. Hakusekvenssi pätkitään samaa ikkunakokoa käyttäen ja pätkiä käyttäen tunnistetaan 50 parasta vastinetta tunnetuista sekvensseistä muodostetuista pätkistä. Parhaiden vastineiden tunnistaminen tapahtuu usein laskemalla hakusekvenssin pätkän ja tunnettujen sekvenssipätkien samankaltaisuus pisteytysmatriiseja (BLOSUM) käyttäen, mutta muitakin menetelmiä, kuten usean sekvenssin rinastukseen perustuvat menetelmät, on kehitetty. Hakusekvenssin pätkien keskimmäisten aminohappojen sekundäärirakenne voidaan parhaiden vastineiden tunnistamisen jälkeen selvittää käyttäen tietoa tunnettujen sekvenssipätkien keskimmäisten aminohappojen jakautumisesta luokkiin alfaheliksi, betalevy ja satunnaisrakenne. Kuten edellä esitetyissä menetelmissä, näin saadut raakaennusteet varmennetaan jotakin sääntöä tai neuroverkkosovellusta käyttäen. Yi (1993) kuvasi menetelmän, jolla voidaan arvioida aminohappojen esiintymistiheydet kussakin sekundäärirakennen ryhmässä tarkasti, jolloin menetelmän antamien ennusteiden paikkansapitävyys paranee huomattavasti. Tätä menetelmää käyttäen parhaat 28% ennusteista antoivat oikean tuloksen 86% varmuudella, ja parhaat 43% ennusteista 81% tarkkuudella. Predator-ohjelma, joka käyttää lähimmän naapurin menetelmää, pääsee ennusteissa noin 68-75% paikkansapitävyyteen. Neuroverkkomenetelmät Neuroverkkomenetelmät ovat saaneet nimensä siitä, että ne pyrkivät matkimaan älykkyyttä tiettyjä laskennallisia keinoja käyttäen. Neuroverkkomenetelmät perus- 12 Aminohapposekvenssin ominaisuuksien selvittäminen 125 Taulukko 12.2: Chou-Fasmanin eri aminohapoille määrittämät todennäköisyydet, että aminohappo kuuluu alfaheliksiin, betalevyyn tai satunnaisrakenteeseen. Mitä suurempi lukuarvo aminohapolla on, sitä todennäköisempää on, että se kuuluu tiettyyn rakenteeseen. Esimerkiksi alaniinilla on todennäköisyys 142, että se kuuluu alfaheliksiin, ja 83, että se lukeutuu osaksi betalevyä. On siis paljon todennäköisempää, että jos aminohapposekvenssissä havaitaan alaniini, se kuuluu osaksi alfaheliksiä. Aminohappo Alaniini Arginiini Asparagiini Asparagiinihappo Kysteiini Glutamiinihappo Glutamiini Glysiini Histidiini Isoleusiini Leusiini Lysiini Metioniini Fenyylialaniini Proliini Seriini Treoniini Tryptofaani Tyrosiini Valiini P(alfaheliksi) 142 98 67 101 70 151 111 57 100 108 121 114 145 113 57 77 83 108 69 106 P(betalevy) 83 93 89 54 119 37 110 75 87 160 130 74 105 138 55 75 119 137 147 170 P(satunnaisrakenne) 66 95 156 146 119 74 98 156 95 47 59 101 60 60 152 143 96 96 114 50 tuvatkin siihen, että menetelmälle (tai tietokoneohjelmalle) opetetaan tai se opettelee itse millaisia aminohappoja tunnettujen sekundäärirakenteiden alueella sijaitsee, ja miten tällaiset alueet eroavat aminohappokoostumukseltaan alueista, joilla sekundäärirakennetta ei ole. Opetukseen käytetään sellaisia aminohapposekvenssejä, joita vastaavan proteiinin kristallirakenne tunnetaan. Neuroverkkomenetelmät perustuvat liukuvan ikkunan sovelluksiin. Tietyn mittaista (13-17 aminohappoa) liukuvaa ikkunaa liutetaan hakusekvenssillä. Näin saadut sekvenssipätkät syötetään neuroverkkosovellukseen, joka on aiemmin opetettu tunnistamaan mihin kolmesta sekundäärirakenneluokasta (alfaheliksi, betalevy, joku muu) sekvenssipätkän keskimmäinen aminohappo kuuluu. Neuroverkkosovellus käyttää tässä apuna keskimmäistä emästä edeltäviä ja sen jälkeen tulevia 68 aminohappoa. Neuroverkkosovelluksen antama ennustus varmennetaan tiettyjen sääntöjen, kuten alfaheliksin on oltava vähintään 4 aminohappoa pitkä, tai toisen neuroverkkosovelluksen avulla. PHD lienee nykyisin käytetyin neuroverkkosovellus. Sen antamat alfaheliksejä koskevat ennusteet (Rel-arvo 9) ovat liki 100% luotettavia, mutta betalevyjen ennusteet (Rel-arvo 9) ovat vähemmän (noin 75%:sti) luotettavia. 126 Bioinformatiikan perusteet Taulukko 12.3: Chou-Fasmanin eri aminohapoille määrittämät todennäköisyydet, joita käytetään satunnaisrakenteiden tunnistamiseen. Aminohappo Alaniini Arginiini Asparagiini Asparagiinihappo Kysteiini Glutamiinihappo Glutamiini Glysiini Histidiini Isoleusiini Leusiini Lysiini Metioniini Fenyylialaniini Proliini Seriini Treoniini Tryptofaani Tyrosiini Valiini 12.4 f(i) 0.060 0.070 0.161 0.147 0.149 0.056 0.074 0.102 0.140 0.043 0.061 0.055 0.068 0.059 0.102 0.120 0.086 0.077 0.082 0.062 f(i+1) 0.076 0.106 0.083 0.110 0.050 0.060 0.098 0.085 0.047 0.034 0.025 0.115 0.082 0.041 0.301 0.139 0.108 0.013 0.065 0.048 f(i+2) 0.035 0.099 0.191 0.179 0.117 0.077 0.037 0.190 0.093 0.013 0.036 0.072 0.014 0.065 0.034 0.125 0.065 0.064 0.114 0.028 f(i+3) 0.058 0.085 0.091 0.081 0.128 0.064 0.098 0.152 0.054 0.056 0.070 0.095 0.055 0.065 0.068 0.106 0.079 0.167 0.125 0.053 Motiivien ja domeenien tunnistaminen Motiivien ja domeenien tunnistaminen proteiinista onnistuu nykyisin helpoimmin käyttämällä apuna valmiita tietokantoja, kuten InterPro, SCOP, CATH ja Dali. 12.5 Translaation jälkeisten modifikaatiokohtien tunnistaminen Prosite-tietokanta sisältää lyhyitä, proteiineja kuvaavia säännöllisiä lauseita, joita voidaan käyttää myös translaation jälkeisten modifikaatiokohtien tunnistamiseen. Monet Prosite-tietokannan säännöllisistä lauseista kuvaavat nimittäin juuri sellaisia alueita, joilla modifikaatio tapahtuu. 12.6 Rakenteiden rinnastaminen Proteiineja, joiden rakenne on selvitetty, on PDB-tietokannassa tällä hetkellä yli 20 000 kappaletta. Siinä missä sekvenssirinnastuksia käyttäen selvitetään sekvenssien samankaltaisuutta, käytetään rakennerinnastuksia (structural alignment) samankaltaisten rakenteiden tunnistamiseen. Rakennerinnastuksilla ja sekvenssirinnastuksilla on kuitenkin yksi tärkeä ero. Jos proteiinien aminohapposekvenssit ovat hyvin samankaltaisia, voidaan niillä olettaa olevan yhteinen evoluutiohistoria. Sama ei päde rakennerinnastuksiin. Samankaltaiset rakenteet ovat hyvin yleisiä, eikä niiden esiintyminen kahdessa eri proteiinissa välttämättä kerro mitään proteiinien evolutiivisista suhteista. Proteiineilla voi olla yhteinen kantamuoto, jos rakenteiden rinnastuvuuden lisäksi saadaan muuta oletusta tukevaa tietoa: Proteiinien sekundääri- 12 Aminohapposekvenssin ominaisuuksien selvittäminen 127 rakenteet esintyvät samassa järjestyksessä ja niiden välimatkat ovat eri proteiineissa likipitäen samanlaiset ja proteiinien hiiliselkärankojen atomit sopivat keskenään kohdakkain. Rakennerinnastuksen menetelmät ovat samankaltaisia kuin sekvenssirinnastuksessa käytetyt, mutta koska proteiinien rakenne on kolmiulotteinen, joudutaan ottamaan huomioon muutamia ylimääräisiä seikkoja. Sekvenssejä rinnastettaessa sijoitetaan kohdakkain kahdessa aminohapposekvenssissä olevia kirjaimia. Proteiineja rinnastettaessa toimitaan kolmiulotteisessa avaruudessa, jossa vertaillaan atomien keskinäistä sijaintia eri proteiineissa. Rakennerinnastusmenetelmät tutkivat ensin sekundäärirakenteiden lukumäärää, tyyppiä ja keskinäistä sijaintia sen määrittämiseksi, ovatko rakenteet samankaltaisia tai onko proteiineilla samankaltainen rakenne. Seuraavaksi jokaisen aminohapon hiiliatomien sijaintia tutkitaan, jotta saadaan selville kuinka hyvin proteiinien selkärangat voidaan sijoittaa kohdakkain. Jos muutamat rakenteet voidaan rinnastaa (asettaa kohdakkain), ja niitä yhdistävät suurinpiirtein samanlaiset satunnaisrakenteet, voidaan todeta, että proteiineilla on yhteinen laskos (fold). Mitä paremmin rinnastettavien proteiinien rakennepiirteet voidaan asettaa kohdakkain, sitä merkitsevämmäksi ja vakuuttavammaksi proteiinien samankaltaisuus tulee. Proteiinien rakennerinnastus perustuu siihen, että proteiinissa olevia kolmiulotteisia rakenteita kuvataan vektoreilla (tässä matemaattisessa merkityksessä), jotka kertovat kunkin sekundäärirakenteen sijainnin, pituuden ja suunnan. Useimmiten vektorin muodostamiseen käytetään proteiinin selkärankaa (aminohappojen hiiliatomien sijainnit). Näin muodostettuja vektoreita käyttäen voidaan arvioida ovatko sekundäärirakenteet eri proteiineissa samoilla kohdin. Vektoreiden lisäksi proteiinien välisen samankaltaisuuden (etäisyyden) laskemiseen käytetään selkärangan hiiliatomien antamaa tietoa. Lisäksi voidaan verrata myös aminohappojen sivuketjujen sijaintia, atomien välisiä etäisyyksiä ja sidoskulmia toisiin atomeihin. Proteiinien rinnastaminen on hankalampaa kuin sekvenssien, sillä samanlainen kolmiulotteinen rakenne voi syntyä monella eri tavalla. Samaa sekundäärirakennetta voi siis vastata varsin moni erilainen proteiiniselkärangan muoto. Tästä syystä samankaltaiset alueet eivät aina sijaitse proteiineissa samassa järjestyksessä tai samankaltaisten alueiden välissä voi olla pitkiä satunnaisrakenteita. Usein on myös niin, että sekundäärirakenteen keskikohta on säilynyt muuttumattomana, mutta rakenteen päissä on voinut tapahtua huomattavia muutoksia. Tästä johtuvien ongelmien välttämiseksi useimmiten verrataankin useita proteiineja kerrallaan, ja muodostetaan niiden perusteella jonkinlainen keskimääräinen arvio samankaltaisista alueista. Nykyisin on käytössä useita menetelmiä proteiinirinnastusten tekemiseen. Koska kahden kolmiulotteisen rakenteen rinnastaminen ei vielä onnistu, joudutaan käyttämään laskennallisia oikoreittejä. Seuraavassa käsitellään näistä kahta, SSAP- ja DALI-algoritmeja, hieman tarkemmin. 12.6.1 SSAP-algoritmi SSAP-algoritmia (secondary structure alignment program) on menestyksekkäästi käytetty muun muassa CATH-tietokannan muodostamiseen. Nykyisin uudet rakenteet lisätään tietokantaan SSAP-algoritmia käyttäen täysin automaattisesti. Varsinainen algoritmi on sekvenssirinnastukseen käytettävän dynaamisen optimoinnin sovellus. Aluksi jokaisen aminohapon sijainti ja ympäristö määritellään, ja algoritmi etsii samankaltaisimmat proteiinialueet vertailemalla näitä sijainti- ja ympäristötietoja. Aminohapon ympäristön määrittelyyn käytetään tietoa sekundäärirakenteesta, johon aminohappo kuuluu, sekä tietoa aminohapon ja sen sijaintipaikan hydrofobisuudesta. Aminohapon sijainnin määrittämiseen käytetään proteiinin selkärangan määrittävien hiiliatomien avulla muodostettuja vektoreita. Vektorit muodostetaan piirtämällä vektori vuorollan jokaisen aminohapon hiiliatomin sijainnista kaikkien muiden aminohappojen hiiliatomien sijaintipaikkoihin. Jos proteiinin geometrista muotoa kuvaavat vektorit ovat samankaltaiset, täytyy silloin proteii- 128 Bioinformatiikan perusteet nien rakenteidenkin olla samankaltaisia. Koska SSAP-algoritmi vertailee aminohappoja pareittain siinä järjestyksessä kuin ne proteiinissa esiintyvät, on proteiinien tunnistaminen samankaltaisiksi mahdollista vain, jos samat sekundäärirakenteet sijaitsevat suunnilleen samoilla kohdin molemmissa proteiineissa. Jos samankaltaisten alueiden välissä on satunnaisrakenteita, jotka eivät osu kohdakkain on samankaltaisuuden tunnistaminen SSAPalgoritmilla hankalaa. Tällaisia tilanteita varten onkin kehitetty muunnos SSAP1, joka vastaa käsitteellisesti paikallisen rinnastuksen muodostamista aminohapposekvensseille. Algoritmin toimintaa nopeuttaa huomattavasti, jos verrataan keskenään vain sellaisia aminohappoja, joiden sidoskulmat ja hydrofobisuus on samankaltaisia. 12.6.2 DALI-algoritmi DALI (distance alignment tool) muodostaa aluksi molemmista verrattavista proteiineista etäisyysmatriisin, joka ilmoittaa, kuinka lähekkäin proteiinin hiiliselkärangan atomit rakenteessa sijaitsevat. Proteiinien yhteiset rakennepiirteet selvitetään sitten asettamalla näissä etäisyysmatriiseissa olevat samankaltaiset alueet kohdakkain. Etäisyysmatriisissa proteiinin aminohapposekvenssi on kirjoitettu sekä vaakaettä pystyakselille, ja numeroarvot ilmaisevat hiiliatomien väliset etäisyydet proteiinin kolmiulotteisessa rakenteessa. Pienimmät etäisyydet vastaavat sekundäärija tertiäärirakeiteissa sijaitsevia hiiliatomeja. Matriisiin merkitään piste niille kohdin, joilla on kaikkein lyhin etäisyys, jotta tällaiset alueet on helpompi havaita myös silmämääräisesti. Proteiinien välisten rakenteiden (hiiliselkärangan) samankaltaisuus selvitetään sijoittamalla matriisiin muodostuneet pistekuviot mahdollisimman tarkoin kohdakkain siten, että proteiinien hiiliatomien välisten etäisyyksien summa on mahdollisimman pieni. SSAP-menetelmällä muodostettu rinnastus sai samankaltaisuusarvokseen dynaamisella optimoinnilla saavutetun suurimman taulukoidun lukuarvon. Vastaavankaltainen samankaltaisuusarvo voidaan muodostaa myös DALI-menetelmällä tehdyille rinnastuksille. Oletetaan, että proteiinissa A on kaksi alfaheliksiä (a ja b), jotka sijaitsevat hyvin lähekkäin. Oletetaan edelleen, että proteiinissa B on kaksi alfaheliksiä (a ja b ), jotka voidaan rinnastaa proteiinin A heliksien kanssa. Proteiinin A alfahelikseissä sijaitsee kaksi hiiliatomia (i A ja j A ), joiden välinen etäisyys on di j A , ja vastaavasti proteiinissa B hiiliatomien (i B ja j B ) on di j B . Samankaltaisuusarvo voidaan siten laskea kaavalla |di j A − di j B | , di j ∗ jossa di j ∗ on di j A :n ja di j B :n keskiarvo. Jos kaksi aminohappoa voidaan sijoittaa tismalleen kohdakkain, niille annetaan raja-arvo 0,20, muutoin raja-arvo saadaan vähentämällä samankaltaisuusarvo 0,20:stä. Raja-arvo 0,20 vastaa tilannetta, jossa vierekkäisten betalevyjen hiiliatomien välinen etäisyys on 1 ånström (Å) ja alfaheliksien etäisyys 2-3 Å. Yhteensopivien rakenteiden osalta raja-arvot lasketaan yhteen kuitenkin siten, että kaukaisempien atomien raja-arvojen painoarvo kesiarvossa vähennetään, mikä sallii osaltaan proteiinirakenteen taipumisen. Tästä muunnoksesta on se hyötyä, sillä sen jälkeen raja-arvojen summa kasvaa rinnastuksen pituuden kasvaessa. Osa III Molekyylisystematiikka 130 Bioinformatiikan perusteet 13 Johdatus molekyylisystematiikkaan 13.1 Mitä molekyylisystematiikka on? Tässä luvussa käsitellään eliöiden ja niiden geenien sukulaisuussuhteiden selvittämistä lähinnä sekvenssiaineistoja käyttäen. Sukulaisuussuhteilla tarkotetaan tässä kohdin eliöiden tai geenien evolutiivisen kehittymisjärjestyksen selvittämistä. Vaikka luvun otsikkona on molekyylisystematiikka, on seuraavassa kuvattavilla menetelmillä sovelluksia monella muullakin tutkimusalalla, kuten virologiassa (molekyyliepidemiologia), populaatiogenetiikassa (populaatioiden muuttumisen seuraaminen ja eliöiden leviämisen tutkiminen) ja geenitutkimuksessa (homologisten geenien selvittäminen yms.). Molekyylisystematiikka on tieteenala, joka tutkii eliöiden sukulaisuussuhteiden ja luokittelun teoreettisia ongelmia erityisesti siltä osin kuin eliöiden geenejä ja proteiineja voidaan käyttää asian selvittämiseen. Taksonomia on molekyylisystematiikkaa laajempi termi, ja sisältää myös työn käytännön puolen, kuten maastotyöskentelyn ja näytteiden keräämisen sekä näytteiden analysoinnin laboratoriossa. Jotkut karsovat, että systematiika ja taksonomia ovat likipitäen synonyymejä, mutta tässä kirjassa jako on selkeä, emmekä aio tutustua taksonomiseen työskentelyyn. Usein (molekyyli)systematiikasta kuulee puhuttavan myös fylogenetiikkana. Nimitys on sikäli hiukan harhaanjohtava, että fylogenetiikka tarkoittaa varsinaisesti ainoastaan yhtä systematiikan suuntausta, kladistiikkaa, ja sen käyttämiä menetelmiä. Toisaalta nimitys fylogenetiikka on sikäli osuva, että fylogenia kuvaa eliöryhmän kehityshistoriaa. Jos siis uskomme, että kladistiikan lisäksi muutkin menetelmät, kuten suurimman uskottavuuden menetelmät (ML) ja etäisyysmenetelmät, tuottavat kehityshistoriaa kuvaavia tuloksia, voimme kaiketi puhua myös fylogenetiikasta. Tässä kirjassa kuitenkin käytetään koko tieteenalasta ainoastaan nimitystä molekyylisystematiikka. 13.2 Fylogeneettinen puu Fylogeneettinen puu kuvaa eliöryhmän kehityshistoriaa. Fylogeneettistä puuta yleisemmin voimme puhua vain puusta, joka koostuu lehdistä, oksista, haaroista ja juuresta, kuten mikä tahansa luonnossa esiintyvä puukin (Kuva 13.1). Puiden esitysmuodoiksi on vakiintunut joko tekstimuotoinen sulkukaavio tai sitä vastaava graafinen esitys. Graafinen esitys ja sulkukaavio voidaan milloin tahansa muuttaa toisikseen, esimerkiksi Vennin diagrammeja käyttäen (Kuva 13.2). Puun oksiin ja haaroihin voi liittyä erilaista informaatiota. Esimerkiksi parsimoniamenetelmä pyrkii määrittämään puun sisäisten haarautumiskohtissa olevien hypoteettisten kantamuotojen ominaisuuksien tasot käyttäen apuna tunnettujen lajien ominaisuuksien tasoja. Tässä ominaisuudella voidaan tarkoittaa esimerkiksi silmien väriä, ja ominaisuuden tasolla vaikkapa sitä, minkä väriset silmät todella ovat, siniset, vihreät, ruskeat vain kenties punaiset. Useimmat menetelmät pyrkivät 13 Johdatus molekyylisystematiikkaan 131 Kuva 13.1: Yksinkertainen puu, joka koostuu neljästä lajista (A-D). Jokainen puun lehti vastaa yhtä lajia. Tarkemmin sanoen, jokainen kirjain A-D vastaa yhtä tietystä lajista määritettyä sekvenssiä tai ominaisuusjoukkoa; ne kuitenkin kuvaavat lajin olemusta, joten jatkossa pitäydytään puhumaan lajeista, vaikka tarkoitettaisiinkin molekyylisekvenssiä. Kuvaan on merkitty joitakin keskeisimpiä puihin liittyviä suomen- ja englanninkielisiä termejä. Kuva 13.2: Puun muodon esittäminen Vennin diagrammin (sisäkkäiset, hierarkkisesti järjestetyt joukot, merkitty sinisellä) ja sulkukaavion avulla. 132 Bioinformatiikan perusteet myös arvioimaan kuinka paljon muutoksia kussakin puun haarassa on tapahtunut. Tästä saadaan puun oksien haarojen pituudet, jotka voidaan esittää puukaaviossa tai olla esittämättä (Kuva 13.3). Toisinaan samasta puusta saadaan hyvinkin erilaisia esityksiä piirtämällä puu eri tavoin (Kuva 13.4). Sellaista puuta, jonka haarojen pituudet tunnetaan, kutsutaan toisinaan myös nimellä painotettu puu (weighted tree). Jos jokin puun sisäinen haara saa pituudekseen nolla, mikä voi tarkoittaa esimerkiksi sitä, ettei yhdenkään ominaisuuden taso ole tuossa puun haarassa muuttunut, syntyy puuhun polytomia (Kuva 13.5). Kuva 13.3: Puukaavioiden yleisimmät esitysmuodot. Puut A ja B ovat kladogrammeja, sillä ne eivät sisällä oksien pituuksia. Ne ilmoittavat ainoastaan haarautumisjärjestyksen, joka puussa on. Kladogrammin esitysmuoto A on erityisesti morfologia tuntomerkkejä käyttävien tutkijoiden suosima, esitysmuot B puolestaan on molekyylejä käyttävien tutkijoiden mieleen. Puut C ja D ovat fenogrammeja, sillä niissä oksien pituuksilla on merkitys. Ne kertovat kussakin oksassa tapahtuneen evoluution määrän, esimerkiksi eri tuntomerkkien tasojen muutosten määrän kyseisessä puun haarassa. Puu C on juurtamaton puu, sillä sille ei ole määrätty juurta. Juurtamattoman puu tunnistaa helposti tähtimäisestä muodosta. Puu D on juurrettu puu. Puissa A, B ja C liikkuminen pystysuunnassa (alhaalta ylös) ei tarkoita mitään. Kahden haaran välinen välimatka tässä suunnassa on piirtretyn mittainen yksin piirtoteknisistä syistä. Ainoastaan liike vaakasuunnassa (vasemmalta oikealle) kuvaa evoluution kulkua tai mittaa tapahtuneiden muutosten määrää. Usein käytetään myös nimityksiä additiivinen puu ja ultrametrinen puu. Additiiviseksi puuksi kutsutaan sellaista fenogrammia, jonka oksat voivat olla eri mittaisia. Ultrametrinen puu puolestaan tarkoittaa fenogrammia, jonka kaikki lehdet ovat yhtä kaukana juuresta. Additiiviselle ja ultrametriselle puulle on olemassa myös tarkemmat matemaattiset määritelmänsä, joihin palataan tarkemmin myöhemmin. Puut voivat olla juurrettuja tai juurtamattomia. Juurretussa puussa on juuri, joka on fylogeneettisistä puista puhuttaessa kaikkien puussa olevien lajien (hypoteettinen) kantamuoto. Siten puu, jossa on juuri, on myös suunnattu puu, sillä juuri kertoo, mihin suuntaan aika (evoluutio) puussa etenee. Juurtamaton puu on suuntaamaton puu, eikä sen avulla voida esimerkiksi päätellä eri lajien kantamuototytärlajisuhteita, mikä juurrettuja puita käyttäen on mahdollista. Fylogeneettisistä puista puhuttaessa juuri luodaan useimmiten ulkoryhmävertailun avulla, sillä liki kaikki puiden muodostamiseen käytettävät laskennalliset menetelmät luovat juurtamattoman puun. Ulkoryhmäksi valitaan jokin tutkittaval- 13 Johdatus molekyylisystematiikkaan 133 Kuva 13.4: Kuvassa olevat kladogrammit voidaan molemmat esittää sulkukaaviolla (A (B (C D))), vaikka niiden graafinen esitys onkin hämäävän erilainen. Huomaa, että puut ovat kladogrammeja, eikä oksien pituuksilla ole merkitystä. Puun muodosta toiseen muuttamista voi kuvitella mielessään esimerkiksi siten, että kuvittelee puun saunavihdaksi. Jos tarttuu vihdan kantaan (A) ja roikuttaa vihtaa alassuin, valahtavat oksat B, C ja D alas. Oksat valahtavat alas samalla tavalla riippumatta siitä roikutetaanko vasenta puuta vai oikeaa puuta, joten puut ovat pohjimmiltaan saman puun erilaisia graafisia esityksiä. Puiden vertaileminen onkin yllättävän hankalaa ja vaivalloista sekä aikaaviepää juuri siitä syystä, että tismalleen sama puu voidaan esittää graafisesti varsin monella eri tavalla. Kuva 13.5: Kuvan kladogrammi sisältää yhden polytomia. Polytomialla tarkotetaan sellaista puun haaraa josta lähtee useampia kuin kaksi oksaa. Tässä puussa tälläisesta haarasta lähtevät lajeihin C, D ja E johtavat oksat, joten tätä polytomiaa voidaan kutsua myös trikotomiaksi. Tällaisille tapauksille on annettu erikoisnimitys, sillä perusoletuksena analyyseissä on aina, että pyritään luomaan sellainen puu, jonka kaikki haarautumiset ovat dikotomisia, tai siis, että jokaisesta oksasta lähtee tasan kaksi haaraa. Trikotomia voi aiheutua puuhun kahdesta seikasta: joko oksassa ei ole tapahtunut yhtäkään muutosta minkään ominaisuuden tasosta toiseksi tai sitten kantamuoto on lajiutunut siten, että siitä on yhtäaikaisesti syntynyt kolme tytärlajia. Vaikka perusoletuksena onkin, että kaikki haarat ovat dikotomisia, voidaan polytomioista saada mielenkiintoista informaatiota lajien evoluutiosta. Paljon tavallisempaa kuitenkin on, ettei dataa ole riittävästi, jotta sen perusteella voitaisiin arvioida kaikki puun oksan pituudet, ja polytomioita esiintyykin tyypillisesti puissa, jotka on muodostettu vähäisen tai vaikeasti tulkittavan aineiston perusteella. 134 Bioinformatiikan perusteet le joukolle läheinen laji siten, ettei ulkoryhmä kuitenkaan kuulu tutkittavien lajien joukkoon. Puuta muodostettaessa ulkoryhmää käsitellään kuten mitä tahansa tutkittavaa lajiakin (jotka yhdessä muodostavat sisäryhmän), mutta analyysin lopuksi puu esitetään siten, että ulkoryhmä muodostaa sille juuren. Voidaankin sanoa, että juuri sitoo muodostetun lajiryhmän evoluutiota kuvaavan puun koko eliöhistoriaa kuvaavaan puuhun, ja kertoo mistä kohtaa elämänpuuta tutkittava lajijoukkomme haarautui. Esimerkiksi, jos tutkisimme vanhan maailman apinoiden (ihminen, simpanssi, gorilla, oranki) evoluutiota, voisimme käyttää ulkoryhmänä vaikkapa jotakin muuta nisäkästä, kuten hiirtä. Ulkoryhmän käyttöä analyysissä voi pitää myös nerokkaana tapana tuoda ulkopuolista informaatiota analyysiin. Ulkoryhmän käyttö kuitenkin vaatii, että todella tiedämme jotakin lajiryhmän evoluutiosta jo ennen varsinaista analyysiämme. Vaikka ulkoryhmän käytölle on esitettävissä yllämainittuja pääperiaatteita, jotkut kuitenkin käyttävät jotakin sisäryhmän lajia laskennallisena ulkoryhmänä, ja esittävät tuloksena juurretun puun. Tämä ei kuitenkaan ole rohkaistava menettelytapa. Edellä on määritelty, että fylogeneettinen puu on suunnattu puu, joka haarautuu dikotomisesti. Jos meillä on n kappaletta lajeja, voidaan erilaisten mahdollisten puiden lukumäärä laskea seuraavia kaavoja käyttäen. Juurtamattomia puita (U) on n:lle lajille olemassa U = (2n − 5)(2n − 7)...(3)(1), kun n>2. Juurrettujen puiden (R) määrä saadaan kaavasta R = (2n − 3)(2n − 5)...(3)(1) = (2n − 3)U Taulukkoon 13.1 on taulukoitu juurtamattomien ja juurrettujen puiden määriä eri lajimäärillä. Taulukosta on helppo huomata, että mahdollisten puiden määrä kasvaa eksponentiaalisesti lajilukumäärän kasvaessa. Jos lajilukumäärä on yli 15-20, ei nykyisin menetelmin voida käydä kaikkia mahdollisia puita läpi. Tämä onkin eräs keskeinen ongelma molekyylisystematiikassa, ja sen ratkaisemiseksi on kehitetty menetelmiä, jotka lähestyvät ongelmaa varsin moninaisista näkökulmista. Menetelmiin tutustutaan tarkemmin heurististen hakujen yhteydessä. Taulukko 13.1: Juurtamattomien ja juurrettujen puiden lukumäärä muutamilla 2-10:lle lajille. Lajimäärä 2 3 4 5 6 7 8 9 10 13.3 juurtamattomia puita 1 1 3 15 105 945 10395 135135 2027025 juurrettuja puita 1 3 15 105 945 10395 135135 2027025 34459425 Lajien ja tuntomerkkien evoluutio Edellä kuvattu molekyylisekvenssejä käyttäen muodostettu puu kuvaa molekyylisekvenssien evoluutiota, eikä ole välttämättä yhtäpitävä lajien evoluutiota kuvaavan 13 Johdatus molekyylisystematiikkaan 135 puun kanssa. Tämä tarkoittaa sitä, ettei lajien evoluutiota voida välttämättä selvittää sekvenssien perusteella. Esimerkiksi geenisekvenssien evoluutioon vaikuttaa moni muukin seikka kuin eliöiden lajiutumisjärjestys. Geenit muodostavat usein geeniperheitä, jotka ovat syntyneet alkuperäisestä geenin kantamuodosta kopioitumalla. Jotta eri tavoin evolvoituneet geenit voidaan erotella toisistaan, on syytä esitellä muutamia käsitteitä. Fylogeneettinen puu muodostetaan homologisten tuntomerkkien perusteella. Homologia tarkoittaa sitä, että rakenteet tekevät samaa asiaa eri eliöissä. Keskenään homologisten morfologisten tuntomerkkien tunnistamiseen voidaan käyttää tietoa rakenteen kehityksestä yksilönkehityksessä, sen paikasta aikuisessa eliössä ja sen toiminnasta. Sama homologiaoletus pätee myös sekvenssiaineistoihin. Oletamme, että analyysiin valitsemamme geenit ovat keskenään homologisia, ja että sekvenssirinnastuksen jälkeen olemme saaneet keskenään homologiset nukleotidit, kodonit tai aminohapot kohdakkain. Molekyylisystematiikka perustuukin sekvenssirinnastuksille, ja pitkälti niiden laadusta on kiinni myös lopullisen puun laatu. Sellaisia geenejä, jotka ovat keskenään homologisia siksi, että ne ovat kulkeutuneet evoluution kuluessa eri eliöihin suoran polveutumisen kautta (ei siis esimerkiksi horisontaalisella geeninsiirrolla eliöstä toiseen), kutsutaan keskenään ortologisiksi. Geenejä, jotka ovat keskenään homologisia siksi, että ne ovat kahdentuneet yhden lajin sisällä, kutsutaan paralogisiksi (Kuva 13.6). Tutkittaessa geenien ja geeniperheiden evoluutiota on syytä tutkia sekä paralogeja että ortologeja, mutta selvitettäessä lajien evoluutiota on pitäydyttävä ainoastaan ortologisissa sekvensseissä. Kuva 13.6: Esimerkki ortologisten ja paralogisten geenimuotojen syntymisestä. Keskenään ortologiset geenikopiot syntyvät lajiutustapahtumien yhteydessä, paralogiset kopioitumalla yhden lajilinjan sisällä. Tyypillisesti erilaisten geenimuotojen syntymisestä on käytetty esimerkkinä nisäkkäiden hemoglobiineja. Alkuperäinen geenimuoto nisäkkäillä on hemoglobiini alfa. Siitä on istukallisten nisäkkäiden erotessa pussieläimistä muodostanut keskenään ortologiset geenikopiot, yksi alfa-globiini pussieläimiin ja yksi kopio istukallisiin nisäkkäisiin. Istukallisten nisäkkäiden lajiutuessa edelleen, on alfa-globiinista muodostunut toinen geenikopio, beta-globiini. Alfa- ja beta-globiini ovat keskenään paralogisia geenejä. Tässä on kuitenkin huomattava, että kaikki globiinit ovat keskenään homologisia, paralogia ja ortologia ovat vain homologian erilaisia asteita. Homologisten geenien erotteleminen paralogeiksi ja ortologeiksi ei välttämättä onnistu ennen molekyylisystemaattista analyysiä, ja oletuksia voidaan joutua tarkistamaan analyysin jälkeen. Tämä on aivan normaalia, sillä homologia on aina 136 Bioinformatiikan perusteet pelkkä oletus ennen analyysitulosten tulkintaa. Voimme esimerkiksi olettaa ihmisen käden ja lepakon siiven olevan homologisia rakenteita (mitä ne oikeasti ovatkin), mutta ennen fylogeneettistä analyysiä emme voi olla tästä vakuuttuneita. Siksi homologiaoletukset voivatkin muuttua analyysin jälkeen. Tämä pätee yleensä vain morfologisiin tuntomerkkeihin ja kokonaisten geenien homologiaoletuksiin, muttei niinkään yksittäisten sekvenssikohtien homologiaoletuksiin. On kuitenkin olemassa menetelmiä, jotka laajentavat homologiaoletusten analyysin jälkeisen tarkastelun koskemaan myös yksittäisiä sekvenssikohtia (tietokoneohjelmat Treealign ja POY). Siinä missä homologia perustuu oletukseen ennen analyysiä, on analyysin tuloksena saatava puukin oletus, kunnes muu riippumaton aineisto joko tukee tai ei tue muodostettu fylogeniaa. Jokaista puuta on käsiteltävä hypoteesina siitä, miten geeni- tai eliöjoukon evoluutio on edennyt. Hypoteesit ovat avoimia tieteelliselle testaukselle, ja uusien aineistojen valossa saatuja tuloksia voidaan joutua tarkistamaan. Edellä korostettiin, että fylogeneettinen analyysi on perustettava homologisille piirteille. Homologia ei ole kuitenkaan riittävä edellytys lajien sukulaisuussuhteiden selvittämiseksi. Ominaisuus voi olla tutkittavilla lajeilla homologinen, mutta sen homologisuus voi olla niin vanhaa perua, ettemme näe ominaisuuden kehittymistä tutkittavien lajiemme joukossa. Tällaisia ominaisuuksia kutsutaan plesiomorfioiksi, ja vaikka ne eivät anna suorastaan harhaanjohtavaa tietoa lajien fylogeniasta, ne haittaavat analyysiä, sillä ne eivät tarjoa mitään lisäinformaatiota lajien evoluutiosta (antavat epätäsmällistä tietoa). Plesiomorfiat on yleensä suhteellisen helppo tunnistaa, sillä ne ovat ominaisuuksia, joissa sama taso esiintyy sekä ulkoryhmällä että ainakin osalla sisäryhmän lajeista. Apomorfiset piirteet puolestaan ovat sellaisia, jotka ovat homologisia, ja joiden ilmestymisen näemme tutkittavien lajiemme joukossa. Lajien luotettava luokittelu voidaan perustaa ainoastaan apomorfisille piirteille. Apormorfisia piirteitä kutsutaan toisinaan suomeksi evolutiivisiksi uutuuksiksi. Jos apomorfia havaitaan ainoastaan yhdessä ainoassa lajissa, sitä kutsutaan synapomorfiaksi. Ominaisuudet voivat olla myös homoplasisia tai homoplasioita. Tällaisia ovat ominaisuudet, jotka eivät periydy yhteiseltä kantamuodolta, mutta vaikuttavat ensisilmäyksellä siltä, että ne saattaisivat olla peräisin yhteiseltä kantamuodolta. Homoplasia antaa harhaanjohtavaa tietoa lajien sukulaisuussuhteista, jos sitä ei kyetä erottamaan homologiasta. Homoplasiaa voi syntyä esimerkiksi samansuuntaisen evoluution seurauksena. Esimerkiksi hylje ja kala näyttävät päällisin puolin pitkälti samanlaisilta. Ne ovat ruumiinrakenteeltaan pitkulaisia, niillä on evät, ja ne oleilevat pitkiä aikoja veden alla, kalat jopa koko elämänsä. Ulkoinen samankaltaisuus on kuitenkin sopeuma samaan elinympäristöön, veteen, ja siten piirteet eivät ole homologisia vaan homoplasisia. DNA-sekvensseissä homoplasiaa aiheuttaa usein se, että mahdollisia nukleotideja on ainoastaan neljä kappaletta, ja kahdessa sekvenssisä voi olla samalla kohtaa tismalleen sama nukleotidi puhtaasti sattumalta. Voidaankin sanoa, että homoplasisten tuntomerkkien erottaminen homologisista on koko fylogeneettisen analyysin ydinajatus. Oletetaan, että on olemassa vain yksi oikea puu, joka kuvaa tutkittavien lajien evoluutiota. Jos eri ominaisuudet tukevat eri puita, sanotaan, että ominaisuuksien välillä on yhteensopimattomuutta (incongruence). Kahden ominaisuuden yhteensopimattomuus tarkoittaa sitä, että ainakin toinen ominaisuuksista on homoplasinen. Lajien luokittelussa samaa ryhmään, esimerkiksi sukuun, pyritään sijoittamaan sellaiset lajit, jotka muodostavat monofyleettisen ryhmän. Monofyleettinen ryhmä tarkoittaa sellaista ryhmää, jota luonnehtivat apomorfiset ominaisuudet. Parafyleettisiä ryhmiä luonnehtivat plesiomorfiat ja polyfyleettisiä ryhmiä homoplasiat (Kuva 13.7). Luonnollinen luokittelu (lajien luokittelu niiden kehityshistorian perusteella) perustuu monofyleettisten ryhmien muodostamiseen. Monofyleettinen ryhmä voidaan tunnistaa siten, että se voidaan erottaa muusta puusta leikkamalla poikki ainoastaan yksi puun oksa. Parafyleettisen ryhmän 13 Johdatus molekyylisystematiikkaan 137 Kuva 13.7: Lajien luokittelu monofyleettisiin, parafyleettisiin ja polyfyleettisiin ryhmiin. Kuvassa on seurattu yhden ominaisuuden tasoja fylogeneettisessä puussa. Punaisella on kuvattu ominaisuuden tason vaihtuminen siten, että se eroaa mukana olleesta ulkoryhmästä (ei kuvassa). poistaminen puusta vaatii tasan kaksi oksan katkaisua, ja polyfyleettisen ryhmän poistamiseksi tarvitaan vähintään kaksi poikkaistua oksaa. 13.4 Lajit luokitellaan monofyleettisiin ryhmiin Nykyinen, alunperin Linnean kehittämä eliöiden luokittelusysteemi perustuu eliöiden sijoittamiseen monofyleettisiin ryhmiin. Samaan ryhmään sijoitetaan siis kaikki sellaiset eliöt, jotka evoluutiohistoriallisesti lähempänä toisiaan kuin muita eliöitä. Luokittelusysteemi perustuu eri tasoihin, jotka ovat hierarkkisesti riippuvaisia toisistaan, eli ne voidaan esittää tai järjestää puun muotoon. Esimerkiksi koirat ja kissat voidaan sijoittaa luokittelusysteemiin seuraavalla tavalla (huomaa laijinimen kursivointi): Luokittelutaso Kunta Pääjakso Luokka Lahko Heimo Suku Laji Kissa Animalia Chordata Mammalia Carnivora Felidea Felis Felis catus Koira Animalia Chordata Mammalia Carnivora Canidea Canis Canis familiaris Kaikkia sukulaisuussuhteen perusteella nimettyjä eliöryhmiä kutsutaan yleinimellä taksonominen yksikkö tai lyhyemmin taksoni. Toisinaan lajitason yksiköitä kutsutaan myös operatiivisiksi taksonomiksi yksiköiksi, otuksiksi (operational toxonomic unit, OTU). Taksoneiksi luetaan kuitenkin vain sellaiset ryhmät, jotka on virallisesti kuvattu ja joilla on hyväksytty tieteellinen nimi. Siten esimerkiksi Carnivora on lahkotason ja Felis sukutason taksoni. Nykyisin eri tasojen väliin sijoittuu monia välitasoja, esimerkiksi alaheimoja ja -lahkoja, lähinnä siitä yksinkertaisesta syystä, että nykyinen luokittelujärjestelmä on liian vähäportainen kaikkien tunnettujen lajien sukulaisuussuhteiden luotettavaan kuvaamiseen. Ongelman ratkaisemiseksi on ehdotettu esimerkiksi Phylocode-nimistä uutta luokittelujärjestelmää, mutta se ei kuitenkaan kykene luomaan järjestystä nykyiseen kaaokseen. Phylocoden käyttöönotto luultavasti sekoittaisikin lajien luokittelua entisestään. Tieteelle uusien lajien kuvaaminen käy jokseenkin seuraavasti. Kuvaus uudesta lajista julkaistaan jossakin kansainvälisesti arvostetussa taksonomian alan lehdessä ja lajia vastaava näyteyksilö talletetaan johonkin luonnontieteelliseen museoon. 138 Bioinformatiikan perusteet Museossa se säilyy vertailunäytteenä, jota vastaan kaikkia uusia mahdollisesti samaa lajia edustavia yksilöitä voidaan verrata. Lisäksi näyte tietenkin palvelee eliöryhmästä kiinnostuneita tutkijoita. Lajien nimeämisestä on sovittu yhteisesti, ja monille eliöryhmille, kuten kasveille, eläimille ja bakteereille on oma nimeämiskäytäntönsä. Esimerkiksi kasvien luokittelussa ei puhuta pääjaksoista vaan kaarista ja bakteerien lajinimiä ei toisinaan kursivoida (esimerkiksi streptokokit). Uutta lajia kuvattaessa se sijoitetaan osaksi jo jotakin olemassa olevaa taksonia. Kuten on tullut jo esille, edustavat taksonit sellaisia ryhmiä, joita karakterisoivat apomorfiat. Käytännössä siis sellaiset piirteet, joilla on yhteinen evoluutiohistoria. Tällaisia ryhymiä kutsutaan monofyleettisiksi. Nykyisessä luokittelusysteemissä pyritään luomaan vain monofyleettisiä ryhmiä ja välttämään sekä paraettä polyfyleettisiä ryhmiä. Uusi tieto ryhmästä voi tietenkin aina muuttaa ryhmän luokittelua, ja jälkikäteen voidaan esimerkiksi havaita, ettei kuvattu ryhmä ollutkaan oikeasti monofyleettinen. Asian korjaamiseksi havaittu parafyleettinen ryhmä voidaan esimerkiksi pilkkoa kahdeksi erilliseksi monofyleettiseksi ryhmäksi, jotka sitten nimetään sopivalla tavalla uudelleen. Periaatteessa nykyisin siis jokaisen taksonin pitäisi vastata yhtä jollakin tasolla monofyleettistä ryhmää. Aina monofyleettiseen ryhmittelyyn ei kuitenkaan päästä. Klassinen esimerkki lienee ihmisen ja ihmisapinoiden luokittelu (kuva 12008). Perinteisesti simpanssi, gorilla ja oranki on sijoitettu parafyleettiseen ryhmään nimeltä Pongidae. Vaikka ihminen on lähempänä simpanssia ja gorillaa kuin kumpikaan niistä on orankia, sijoitetaan ihminen omaan heimoonsa (Hominidae). Kladistinen eli luonnollinen luokittelu, johon nykyisin pyritään, vaatii, että Pongidae pilkotaan kahdeksi tai kolmeksi monofyleettiseksi heimotason taksoniksi. Ongelmia aiheuttaa lähinnä se, että ihmisen aseman korostaminen ei ole luonnollisen luokittelun mukaista. Nykyisin ongelmaa on yritetty poistaa lukemalla ihminen, simpanssi, gorilla ja oranki Hominidae-ryhmäksi. Gibbonit muodostavat edelleen Hylobatidae-ryhmän. Parafyleettisiin ryhmiin liittyvän ongelman korostaminen saattaa vaikuttaa yhdentekevältä, mutta sillä on merkitystä evoluutiomeknismien kannalta. Esimerkiksi, jos sanotaan, että ihminen kehittyi apinoista sen sijaan, että sanottaisiin ihmisellä ja apinoilla on yhteinen kantamuoto, asettaa kantamuotoryhmän (apinat) välittömästi parafyleettisen ryhmän asemaan. Kladistikot käyttävät yhteisestä kantamuodoista kehittyneistä taksoneista nimitystä sisartaksonit tai sisarryhmät. Esimerkiksi ihmisen, simpanssin ja gorillan muodostama ryhmä kuvassa 13.8 on orangin sisarryhmä. 13.5 Molekyylisystematiikan suuntaukset Nykyisin molekyylisystematiikassa käytetään pääsääntöisesti jotakin neljästä menetelmästä, etäisyysmenetelmät (distance methods), parsimonia, suurimman uskottavuuden menetelmät (maximum likelihood) ja Bayesilaiset menetelmät (Taulukko 13.9). Suurimmaksi osaksi tutkimuksissa käytetään edelleen kolmea ensiksi mainittua, mutta Bayesilaiset menetelmät ovat jatkuvasti lisänneet suosiotaan. Kaikki menetelmät olettavat, että evoluutiota voidaan kuvata dikotomisesti haarautuvalla puulla, joskin polytomiat sallitaan. Tällainen kuva evoluutiosta vastaa varmasti hyvin esimerkiksi eläinten evoluutiota, mutta on täysin riittämätön muun muassa bakteerien evoluution esittämiseen. Bakteerit vaihtavat perintöainesta keskenään horisontaalisella geeninsiirrolla, jolloin puurakenteen sijasta joudutaan käyttämään verkostoa, jos horisontaalinen geeninsiirto halutaan ottaa huomioon. Tällaisten tapausten analysointiin on joitakin menetelmiä ("splits"), mutta niiden kehitys ei ole vielä toivottavalla tasolla. Toisen ongelman dikotomisesti (kaksijakoisesti) haarautuville puille aiheuttaa anageneesi, eli evolutiivinen tapahtuma, jossa jo olemassa oleva laji muuttuu toiseksi ilman haarautumista. Tällöin on hankala sanoa, missä alkuperäinen laji lakkaa olemasta ja uusi on syntynyt. Kladistikoille lajikäsitys ei ole tässä mielessä ongelma, sillä uuden lajin (tai muun takso- 13 Johdatus molekyylisystematiikkaan 139 Kuva 13.8: Ihmisen, simpanssi, gorillan, orangin ja gibbonin vanha, polyfyleettinen luokittelu, josta nykyisin on pyritty pääsemään eroon. Kuva 13.9: Eräs tapa luokitella molekyylisystematiikassa käytettyjä menetelmiä sekvenssiaineiston käsittelytavan ja parhaan puun valintakriteerin mukaan. Etäisyysmenetelmät, kuten UPGMA ja neighbor joining, tiivistävät sekvenssien väliset erot yhdeksi etäisyysmitaksi. Parsimonia- ja suurimman uskottavuuden menetelmät sen sijaan käsittelevät yksittäisiä sekvenssikohtia erikseen toisistaan riippumatta. Yksittäisiä sekvenssikohtia käsittelevät menetelmät kulkevat myös nimellä optimaalisuuskriteeriä soveltavat menetelmät. 140 Bioinformatiikan perusteet nin) katsotaan syntyneen silloin, kun puussa havaitaan haarautuminen. Dikotomisen evoluution lisäksi oletetaan, että evoluutio on tapahtunut mahdollisimman yksinkertaisella tavalla, mutta tämäkään oletus ei välttämättä pidä paikkaansa. Kuitenkin, jos tätä yksinkertaisuusoletusta ei tehtäisi, voisimme valita mielivaltaisen puun eliöryhmän evoluutiota kuvaamaan. Oletamme evoluution tapahtuneen mahdollisimman yksinkertaisesti juuri siksi, että meillä olisi jokin objektiivinen lähtökohta, jonka perusteella voimme arvottaa erilaisia sukupuuehdokkaita. Perinteisimpiä yllä mainituista menetelmistä ovat etäisyysmenetelmät, joiden periaatteena on laskea tuntomerkkien perusteella eri eliöiden väliset etäisyydet (= 1 - samankaltaisuusaste), ja muodostaa näiden perusteella yleensä hierarkkista ryhmittelyanalyysiä käyttäen puu. Menetelmiä kutsutaan myös feneettisiksi menetelmiksi, ja niihin lukeutuvat sellaiset (ryhmittelyanalyysi) menetelmät kuin UPGMA (unweighted pair-group method using arithmetic averages) ja NJ (neighborjoining). Etäisyysmenetelmin voidaan periaatteessa käsitellä mitä tahansa sellaista aineistoa, joka on muunnettavissa lajien eroja kuvaaviksi etäisyyksiksi. Näin voidaan tehdä varsin monenlaisille aineistoille DNA-hydribisaatiotutkimusten antamista sulamislämpötiloista ja restriktiofragmenttien pituuksista DNA-sekvensseihin ja morfologisiin tuntomerkkeihin. 1970-luvulla ja erityisesti 1980-luvun alussa parsimoniamenetelmää soveltavat kladistikot tekivät selkeän eron feneetikkoihin. Pesäeron kladistikot tekivät erityisesti Steven Farrisin johdolla. Parsimoniamenetelmien periaatteena on Occamin partaveitsi: se puu, joka selittää aineiston vähimmin muutoksin (kaikkien ominaisuuksien tasojen yhteenlaskettujen muutosten määrä), on kaikkein parsimonisin, "paras puu". Ideaa voidaan soveltaa varsin monenlaisiin aineistoihin morfologisista tuntomerkeistä sekvenssiaineistoihin ja geeniduplikaatioihin. Suurimman uskottavuuden menetelmät alkoivat muuttua suosituiksi 1990-luvulla, jolloin tehokkaiden tietokoneiden markkinoille tulo mahdollisti menetelmien soveltamisen. Toki idea oli esitetty jo aiemmin. Suurimman uskottavuuden menetelmien ideana on löytää sellainen puu, jonka uskottavuus on kaikkein suurin. Uskottavimman puun etsiminen vaatii määrittelemään evoluutiomekanismin, jolla aineiston uskotaan evolvoituneen. Tällaisia evoluutiomalleja ovat DNA-sekvensseille esimerkiksi Jukes-Cantorin malli ja proteiineille mallina voidaan käyttää jotakin aminohappokorvautumismatriisia, kuten PAM tai JTT. Pääasiassa suurimman uskottavuuden menetelmiä sovelletaan sekvenssiaineistoihin, mutta viime vuosina on kehitetty joitakin morfologisille tuntomerkeillekin sopivia malleja. Bayesilaiset menetelmät ovat molekyylisystematiikan uusinta uutta. Ne eroavat suurimman uskottavuuden menetelmistä vain hiukan. Bayesilaisen kaavan mukaan tapahtuman A todennäköisyys voidaan kaavasta, jossa nimittäjä (kaavan jakoviivan yläpuolinen lauseke) vastaa suurimman uskottavuuden estimaattia. Käytännössä Bayesilaisia menetelmiä on tähän mennessä sovellettu menestyksekkäästi lähinnä DNA-sekvenssiaineistoille. Niiden heikkoudeksi on sanottu, että vastemuuttujan (tässä puu) nollahypoteesin mukainen jakauma (puille tuntematon) täytyy tietää, jotta analyysi päätyy oikeaan lopputulokseen. Asia ei kuitenkaan ole niin, sillä Bayesilaiset menetelmät ovat juuri siitä syystä niin hyviä, etteä ne päätyvät jokseenkin robustisti (lue: aine) oikeaan lopputulokseen, vaikkei alkuperäistä niin sanottua á priori -jakaumaa tunnettaisikaan. Eri suuntausten välillä, nykyisin enää lähinnä parsimonia- ja suurimman uskottavuuden meentelmiä suosivien tutkijoiden välillä, on toisinaan käyty varsin kiihkeäsanaistakin mielipiteiden vaihtoa siitä, mikä menetelmä on milloinkin paras, ja mille filosofisille periaatteille mikäkin menetelmä perustuu. Nykyisin kiivasluontoisuus on hiukan laimentunut, johtuneeko sitten siitä, että alkuperäiset puuhamiehet ovat kummallakin puolella rajalinjaa seestyneet, vai jostakin muusta. Tosiseikka kuitenkin on, että hieman yli puolet julkaistuista sukupuista on muodostettu parsimoniamenetelmää käyttäen. Toisesta liki puolikkaasta vastaavat siten etäisyysmenetelmät, suurimman uskottavuuden menetelmät ja bayesilaiset menetelmät yhdessä, joskin näistä leijonanosan omivat suurimman uskottavuuden menetelmät. 13 Johdatus molekyylisystematiikkaan 141 Aiemmin tieteen filosofinen keskustelu etäisyys-, suurimman uskottavuuden ja prasimoniamenetelmien keskinäisestä paremmuudesta on keskittynyt pitkälti sen ympärille, tuottavatko ne monofyleettisiä ryhmittelyitä. Tilanne on tällä hetkellä se, ettei etäisyysmenetelmien katsota tuottavan monofyleettisiä ryhmiä, mutta sen sijaan suurimman uskottavuuden menetelmät ja parsimonia katsotaan sikäli samanarvoisiksi, että niiden käyttö on vaihtoehtoista. Molemmat optimoivat jotakin kriteeriä (puun pituus tai sen uskottavuus), mutta laskennallinen lähtökohta on hieman erilainen. Nykyisin keskustelu eri menetelmien käytöstä pyörii hyvin pitkälti niiden sovellettavuuden ympärillä: milloin parsimoniamenetelmä antaa väärän vastauksen, missä tilanteessa jokin tietty evoluutiomalli, jota suurimman uskottavuuden menetelmät käyttävät erehtyy, ja mikä puun luotettavuuden arviointiin käytetyistä menetelmistä oikeastaan on käyttökelpoinen. Simuloiduilla aineistoilla on tutkimuksissa pystytty osoittamaan joitakin eri menetelmien heikkoja kohtia, mutta tulosten yleistäminen biologisesti relevanteille tutkittavien lajien määrille voi olla hyppy tuntemattomaan. Suurin osa simulaatiotutkimuksista on nimittäin tehty neljää lajia käyttäen. Simulaatiotutkimusten antamia tuloksia käsitellään tarkemmin omassa luvussaan. 142 Bioinformatiikan perusteet 14 Tavanomaisen analyysin eteneminen 14.1 Yksinkertaisen analyysin työvaiheet Jatkossa keskitytään miltei yksinomaan biologisten sekvenssiaineistojen analysointiin, ja tällöin on syytä pitää mielessä, että olemme muodostamassa geenipuuta, joka ensisijaisesti kuvaa geenien evoluutiota. Geenipuu voi olla tai olla olematta yhtäpitävä lajien evoluutiota kuvaavan puun kanssa. Yleensä kuitenkin oletamme, että geenipuu kuvaa myös lajien evoluutiota. Tällöin on kuitenkin oltava erityisen tarkkana, ettei analyysissä ole sotkettu paralogisia ja ortologisia sekvenssejä keskenään. Jos tutkitaan geenien evoluutiota, voi tietysti olla kiinnostavaa yhdistää sekä paralogiset että ortologiset sekvenssit samaan analyysiin, mutta lajien evoluutiota tutkittaessa niillä ei ole oikeastaan mitään paikkaa samassa analyysissä. Tavanomainen analyysi etenee jokseenkin siten, että valitaan ja hankitaan tutkittavista lajeista sopivat sekvenssit. Tämän jälkeen sopivaa evoluutiomallia käyttäen rinnastetaan sekvenssit. Sekvenssirinnastus analysoidaan valitulla analyysimenetelmällä (etäisyys, parsimonia, suurin uskottavuus, Bayesilainen), ja lopuksi muodostetun puu luotettavuutta pyritään arvioimaan. Alla on kuvailtu lajien sukulaisuusushteiden määrittämiseen keskittyvä analyysi pääpiirteissään. 14.2 Sekvenssien valinta Seuraavassa oletetaan, että työtä aloittava tutkija tuntee tutkimansa lajijoukon hyvin, ja tietää millaisia aikaisempia tuloksia niiden evoluutiosta ja sukulaisuussuhteista on mahdollisesti aiemmin julkaistu. Tämä voi tarkoittaa huomattavaa kenttäja laboratoriotyöjaksoa ennen varsinaisen tietokoneistetun analyysin aloittamista. Molekyylisekvensseillä, olivatpa ne sitten DNA:ta tai aminohappoja, tehtävä analyysi alkaa tietenkin sekvenssien hankkimisella. Nykyisin sekvenssitietokannoista, kuten EMBL tai NCBI:n taxonomy, löytyy jo varsin suuri määrä erilaisia sekvenssejä noin 100 000 eri lajista tai kannasta. Onkin tullut tavaksi ensin tarkistaa, millaisia sekvenssejä julkisisssa tietokannoissa on, ja sen jälkeen tarvittaessa täydentää aineistoa uusista näytteistä saaduilla sekvensseillä. Tutkimuksessa käytettäviin sekvensseihin kohdistuu muutamia oletuksia. Ensinnäkin niiden on evolvoiduttava sopivalla nopeudella. On toivottavaa, että sekvensseissä on tapahtunut riittävä määrä muutoksia, että lajit voidaan luotettavasti erottaa toisistaan, mutta toisaalta sekvenssit eivät ole saaneet eriytyä liikaa. Jos samassa sekvenssipaikassa on tapahtunut useita muutoksia, ne usein peittävät toisensa, ja analyysi saattaa vääristyä. Monia lajiryhmiä on tutkittu siksi paljon, että tunnetaan “yleiskäyttöön” soveltuvat geenit. Esimerkiksi, bakteerien tapauksessa käytetään usein 16S rRNA molekyylin sekvenssiä, sillä se evolvoituu suhteellisen nopeasti, ja se löytyy varmasti kaikilta bakteerikannoilta ja lajeilta. Kasveilla voidaan vastaavasti käyttää esimerkiksi rbcL-geenin (ribuloosi-1,5-bisfosfaattikarboksylaasi) sekvenssiä, sillä 14 Tavanomaisen analyysin eteneminen 143 se koodaa kloroplastien toiminnalle oleellista entsyymiä (toimii C O 2 -molekyylien muuttamisessa orgaanisiksi yhdisteiksi). Eläimillä valinta voi kohdistua esimerkiksi ribosumin suuren alayksikön sekvenssi, sillä se on jokseenkin samanlainen useimmilla eläimillä. Käytännössä yhden ainoan geeni- tai proteiinisekvenssin perusteella saatu puu ei välttämättä ole kovin luotettava, joten nykyisin on yleistymässä käytäntö, jossa samassa analyysissä käsitellään useampia sekvenssejä. Yhdistettyyn analyysiin liittyviä ongelmia ja ratkaisumalleja käsitellään omassa luvussaan. Lajien välisten sukulaisuussuhteiden selvittämiseksi useimmiten myös otetaan näyte ainoastaan yhdestä lajin yksilöstä, jolloin koko lajia edustaa analyysissä vain yksi ainoa sekvenssi. Tällöin muun muassa lajin sisäinen polymorfia (monimuotoisuus) jää havaitsematta, mikä voi aiheuttaa ongelmia, jos lajilla on kovin läheisiä sukulaisia. Parempi tapa olisikin ottaa näyte useammasta yksilöstä, mutta aina se ei ole teknisestikään mahdollista. Populaation monimuotoisuuden selvittämiseen tähtäävissä tutkimuksissa näytteitä tietenkin luonnostaankin kerätään useista tai useista kymmenistä yksilöistä, jolloin ainakin yleisimmät polymorfiat saadaan selvitettyä. 14.3 Sisäryhmän valinta ja ulkoryhmän käyttö Sisäryhmä koostuu niistä lajeista, joiden sukulaisuussuhteista olemme kiinnostuneita. Tutkittavien lajien valintaa säätelevät usein käytännön seikat. Esimerkiksi, jos tutkitaan uutta lajiryhmää, niin miten näytteitä on saatavilla, onko näytteiden keräämiseen tarjolla tarpeeksi resursseja ja tunnetaanko tutkittavaa ryhmää jo ennalta. Tutkittavien lajien valinta voi nimittöin vaikuttaa analyysituloksiin, mutta tällä hetkellä ei tunneta tarkkaan miten paljon ja millä tavalla. Parhaassa tapauksessa taksoniotanta kattaa tutkittavan ryhmän tasaisesti ilman suuri puutteita tai hyppäyksiä joidenkin ryhmien yli. Tällaisen otannan avulla saattaa olla mahdollista havaita kaikki sekvensseissä tapahtuneet substituutiot ja toisaalta se myös helpottaa polymorfian havaitsemista ja tulkintaa. Lisäksi taaja taksoniotanta pienentää long brach attraction (LBA) -ongelmaa. LBA johtuu siitä, että monet menetelmät, myös parsimonia ja suurimman uskottavuuden menetelmät, ryhmittelevät pitkät oksat yhteen siitä huolimatta ovatko ne oikeasti toistensa lähisukulaisia vai eivät. Ulkoryhmä on tutkittavan ryhmän läheinen sukulainen, tarkoituksenmukaisimmillaan erityisesti sisäryhmän sisarryhmää edustava laji. Esimerkki tällaisesta olisi esimerkiksi gibbonin käyttö ulkoryhmänä tutkittaessa ihmisen, simpanssin, gorillan ja orangin sukulaisuussuhteita (Kuva 13.8). Useimmiten käytetään useita ulkoryhmiä, mikä mahdollistaa ulkoryhmiin kohdistuvien ongelmien ja analyysivirheiden havaitsemisen ja poistamisen (Kuva 14.1). Toisinaan ulkoryhmä aiheuttaa LBA-ongelman (ulkoryhmä sijoittuu sisäryhmään), mikä saattaa olla mahdollista poistaa tai ainakin havaita käyttämällä useita ulkoryhmiä. Ulkoryhmän käytöllä analyysissä on oikeastaan kahtalainen tarkoitus. Ulkoryhmän avulla luodaan puuhun juuri, sillä useimmat menetelmät eivät muodosta juurrettua puuta (poikkeuksena UPGMA). Tällöin alkoryhmää käsitellään puussa kuten mitä tahansa lajia, mutta analyysin päätteeksi ulkoryhmä siirretään puun uloimmaksi oksaksi, tai ulkoryhmä kiinnitetään heti analyysin aluksi uloimmaksi oksaksi. Ulkoryhmän avulla siis tuodaan analyysiin mukaan jo tunnettua tietoa lajien välisistä sukulaisuussuhteista. Ulkoryhmän säilyttäminen puussa juuren muodostamisen jälkeen saattaa tuntua turhalta, mutta sen tarkoituksena on myös antaa tietoa sisäryhmän yhteisen kantamuodon ominaisuuksista. Tätä tietoa tarvitaan erityisesti morfologisten ominaisuuksien yhteydessä arvioitaessa ominaisuustasojen muutosten suuntaa evoluutio kuluessa. 144 Bioinformatiikan perusteet Kuva 14.1: Esimerkki useiden ulkoryhmien käytöstä analyysissä. Mustalla neliöllä merkityt lajit muodostavat ulkoryhmän (valittu aikaisempien tulosten perusteella), ja muilla väreillä merkityt sisäryhmän. Tutkittavat lajit ovat Alveolata-ryhmään kuuluvia yksisoluisia eukaryootteja. Ulkoryhmän muodostavat siliaatit ja hiiva, sisäryhmän panssarisiimalevät (dinoflagelaatit). Muut ulkoryhmät sijoittuvat oletuksemme mukaisesti puun juureksi, mutta Oxyrrhis marina sijoittu panssarisiimalevien joukkoon. Tulos on oikea, ja johtunee siitä, ettei Oxyrrhis:in oikeaa luokittelua vielä tunneta. Toisin sanoen, sen asema puussa on varmaankin oikea, mutta sen lukeminen ulkoryhmäksi oli lähtökohtaisesti väärin. (Tuimala, 2004) 14 Tavanomaisen analyysin eteneminen 14.4 145 Evolutiivisen mallin valinta ja sekvenssien rinnastaminen Kun analysoitavat lajit ja niitä vastaavat sekvenssit on hankittu, siirrytään varsinaisesti tietokoneistettuun työvaiheeseen. Ensimmäisenä on päätettävä millaista evoluutiomallia (evolutiivista mallia) haluamme käyttää. Evoluutiomallilla tarkoitetaan niitä perusoletuksia, joita haluamme sekvenssien evoluutiosta tehdä. Tässä ei tarkoiteta minkäänlaista puuta, vaan yksinomaan oletuksia esimerkiksi siitä, miten yleistä adeniinin muuttuminen sytosiiniksi on tai miten yleisiä insertiot ja deleetiot sekvensseissä ovat. Proteiinisekvensseille evoluutiomalli tarkoittaa yleensä jotakin korvautumismatriisia, kuten PAM- tai JTT-matriisia. DNA-sekvensseille evoluutiomallit ovat yleensä matemaattisia kuvauksia siitä, kuinka yleisiä erilaisten nukleotidimuutosten uskotaan olevan. Tällaisen matemaattisen mallin parametrit (muutostodennäköisyydet) arvioidaan yleensä aineiston perusteella. Aminohapposekvenssien evoluutiomallit on esitelty tarkemmin luvussa Pisteytysmatriisit ja aukkosakot. DNAsekvenssien evoluutiomallit esitellään tarkemmin seuraavissa luvuissa. Evoluutiomalliin liittyy myös insertioiden ja deleetioiden yleisyys sekvensseissä. Perinteisessä menetelmässä sekvenssit on rinnastettu ensin, ja sitten on valittu analyysiin sopiva evoluutiomalli, mutta samaa evoluutiomallia tulisi käyttää sekä sekvenssirinnastuksessa että analyysissä. Proteiinisekvenssien osalta tämäon helppo ratkaista: käytetään rinnastukseen samaa korvautumismatriisia kuin analyysiinkin. DNA-sekvenssien osalta ongelma on hankalampi, sillä DNA:lle tarkoitetut pisteytysmatriisit, joita rinnastuksessa käytetään, ovat yliyksinkertaistettuja, eikä ongelmaa ole oikeastaan mitään hyvää ratkaisua nykyisissä rinnastusohjelmissa. Ainoa tällä hetkellä käytössä oleva menetelmä, joka suoraan yhdistaa sekä rinnastuksen että puun muodostamisen, on saatavilla tietokoneohjelma POY:ssa (Wheeler, 1996). POY:ta käsitellään myöhemmin tarkemmin. Evoluutiomallin valinnan jälkeen sekvenssit aluksi rinnastetaan sitä käyttäen. Molekyylisystematiikkaa varten laaditaan kustakin käytettävästä sekvenssijoukosta niiden globaalirinnastus. Paikallinen rinnastus ei anna riittävästi tietoa sekvenssien eroista. Sekvenssirinnastuksen tarkoituksena on selvittää, mitkä nukleotidit tai aminohapot kussakin sekvenssissä vastaavat toisiaan. Toisin sanoen, sekvenssirinnastuksella pyritään luomaan hypoteesi eri nukleotidien ja aminohappojen homologiasta. Sekvenssirinnastus ei ole siinä mielessä yksioikoista, että valitut rinnastusparametrit, erityisesti pisteytysmatriisi ja aukkosakot, vaikuttavat usein suuresti lopputulokseen. Erilaiset sekvenssirinnastukset antavat usein varsin erilaisia tuloksia lajien evoluutiohistoriasta, joten rinnastukseen on kiinnitettävä huomiota. Useimmiten oletetaan, että proteiinin rakenteeseen perustuva rinnastus antaa oikeamman lopputuloksen kuin sokkona tehty rinnastus. Jos siis rinnastetaan aminohapposekvenssejä, lienee syytä käyttää apuna tietoa proteiinin kolmiulotteisesta rakenteesta. Tämä tieto on helppo syöttää esimerkiksi Clustal-ohjelmaan. Jos puolestaan rinnastetaan RNA-molekyyliä, kuten ribosomaalista RNA:ta, voidaan käyttää hyväksi tietoa sen silmukkarakenteesta. Rinnastettaessa proteiinia koodaavia DNAsekvenssejä lienee helpointa ensin rinnastaa vastaavat proteiinisekvenssit, ja sitten näin saadun rinnastuksen perusteella DNA-sekvenssit. On nimittäin tunnettua, että proteiineja koodaavissa geeneissä insertiot ja deleetiot usinkin esiintyvät kolmikkoina, siis yhden kodonin mittaisina (muutoinhan geenin lukuraami muuttuisi, ja tuotettu proteiini voisi olla toimimaton). Aina ei kuitenkaan ole mahdollista käyttää rakennetietoa avuksi. Tällainen tilanne tulee vastaan esimerkiksi transloitumattomia pseudogeenejä rinnastettaessa. Tällöin voi olla syytä vaihdella aukkosakkojen arvoja, esimerkiksi 50% kerrallaan ylös ja alaspäin, ja sitten silmämääräisesti verrata tuotettuja rinnastuksia toisiinsa. Tässä menetelmässä on heikkous, että parhaan rinnastuksen arviointi joudutaan perustamaan yksinomaan samankaltaisuuden maksimointiin, mikä ei aina ole tyydyttävä ratkaisu. Samaa menetelmää voi tietysti käyttää myös sellaisille sekvensseil- 146 Bioinformatiikan perusteet le, joista rakenneinformaatio on tiedossa. Jokaisesta tuotetusta rinnastuksesta muodostetaan sitten puu, ja puiden välisiä eroja tarkastelemalla pyritään päättelemään kuinka paljon rinnastus vaikutti tuloksiin, ja mikä on kaikkein luotettavin puu. Rinnastuksen muodostaminen yksinomaan käsin on hiukan arveluttavaa, sillä tällöin analyysiin tuodaan huomattava määrä subjektiivisuutta, mikä ei ole tieteellisesti perusteltavissa. Eri ihmiset nimittäin muodostavat varsin erilaisen rinnastuksen samoista sekvenssesitä. Parempi tapa onkin muodostaa rinnastus tietokoneella, ja ilmoittaa käytetyt parametrit raportissa, jotta kuka tahansa muukin voi toistaa tuloksen. Tämä lähestymistapa on siinä mielessä ongelmallinen, että monet rinnastusohjelmat tekevät virheitä, joita ei ole mukava jättää analysoitaviin sekvensseihin. Monet tällaiset rinnastuksen aikana syntyvät virheet ovat tunnettuja, ja ne lienee syytä korjata ennen varsinaista analyysiä, vaikka ne määritelmän mukaan tuovatkin subjektiivisuutta analyysiin. Kaikki eivät myöskään usko, että proteiinin rakenteen käyttäminen rinnastuksen apuna parantaa rinnastusta merkittävästi. Tämä perustuu lähinnä siihen, että heidän mielestään on väärin käyttää analyysissä staattista, muuttumatonta sekvenssirinnastusta. Tarkkaan ottaen näin ehkä onkin, sillä esimerkiksi morfologisten tuntomerkkien homologia on aina pelkkä hypoteesi ennen varsinaisen analyysituloksen (puu) tarkastelua. Jos puu antaa aihetta olettaa, että jotkin ominasuudet eivät olekaan keskenään homologia, homologiahypoteesia muutetaan, ja analyysi tehdään uudelleen muutetulla aineistolla. Sama pätee kenties myös sekvensseihin. Rinnastuksessa muodostetaan eri sekvenssikohtien homologiahypoteesi, jota voi olla syytä muuttaa analyysitulosten perusteella. Esimerkiksi, POY-ohjelma toimii juuri näin. Usein kuulee sanottavan, ettei parsimoniamenetelmä käytä mitään evoluutiomallia, ja on siksi niin erinomainen menetelmä (yksinkertaisuusoletus). Tämä on kuitenkin virhekäsitys, sillä parsimoniamenetelmä käyttää kyllä eräänlaista, joskin hyvin yksinkertaista evoluutiomallia: se olettaa, että kaikki muutokset ovat yhtä yleisiä. Sankoff-matriisien avulla parsimoniamenetelmässäkin voidaan toki painottaa erilaisia muutoksia eri painoarvoin. 14.5 Analyysimenetelmän valinta Usein analyysimenetelmä on lyöty lukkoon jo ennen tutkimuksen aloittamista. Myös tutkimukseen perustuvan artikkelin julkaisijalla voi olla oma vahva mielipiteensä siitä, mitä menetelmää tutkimuksessa olisi pitänyt käyttää. Laskennalliselta kannalta kaikilla menetelmillä on omat vaatimuksena, jotka voivat rajoittaa menetelmän valintaa. Etäisyysmenetelmät ovat hyvin nopeita, eivätkä vaadi paljon laskentaa, poislukien minimievoluutiomenetelmä. Muistin tarve on hieman suurempi, sillä aluksi kaikkien sekvenssien parittaisten etäisyyksien laskemiseen tarvittava muistimäärä riippuu lajien lukumäärästä. Yksittäinen parsimonia-ajo tuottaa myös suhteellisen nopeasti tuloksen, eikä muistintarvekaan ole suuri. Suurimman uskottavuuden menetelmät puolestaan kuluttavat suunnilleen saman verran muistia kuin parsimoniamenetelmä, mutta huomattavasti enemmän laskenta-aikaa. Bayesilaiset menetelmät kuluttavat hieman suurimman uskottavuuden menetelmiä vähemmän aikaa, mutta huomattavasti enemmän muistia. Ensisijaisena valintana on aina jollekin optimaalisuuskriteerille perustuva menetelmä, mikä rajaa etäisyysmenetelmät pois pääasiallisten menetelmien joukosta. Nykyisin ei pitäisikään olla mitään syytä käyttää etäisyysmenetelmiä, sillä parsimoniamenetelmällä pystytään nykyisin helposti käsittelemään sadoista tai tuhansista lajeista koostuvia aineistoja (TNT-ohjelma, Goloboff, 1999; Nixon, 1999). Tämä johtuu viimeaikaisesta laskenta-algoritmien kehityksestä. Myös suurimman uskottavuuden menetelmiä on kehitetty tähän suuntaan (esimerkiksi MetaPIGA-ohjelma, Lemmon ym., 2002). Jossakin vaiheessa, olkoon raja sitten sadoissa tai tuhansissa 14 Tavanomaisen analyysin eteneminen 147 sekvensseissä, laskenta-aika tai muistintarve kuitenkin kasvaa varsin suureksi. Tällöin on kaksi vaihtoehtoa, joko siirtyä laskemaan tehokkaammalla tietokoneella tai vaihtaa esimerkiksi etäisyysmenetelmiin. Nykyisin tuntuu olevan tapana analysoida sama aineisto useammalla menetelmällä, ja raportoida kaikkien antamat tulokset. Usein tuloksia vieläpä vertaillaan keskenään, ja todetaan, että jokin menetelmä antoi parhaan tuloksen. Tämä on oikeastaan laskenta-ajan hukkaamista, ja parempi tapa olisikin valita yksi menetelmä, jolla aineisto analysoidaan. Useampaa menetelmää käyttäen voidaan toki selvittää, minkälaisia ongelmia aineistossa on, sillä eri menetelmät ovat herkkiä erilaisia aineistossa oleville virheille. Analyysin alkuvaiheessa pilottikoe eri menetelmiä käyttäen tämä voi ohjata oikean menetelmän käyttöön, mutta on turhaa analysoida aineisto perinpohjin joka ainoaa saatavilla olevaa menetelmää käyttäen, sillä useidenkaan eri menetelmien käyttö ei anna lisätietoa siitä, kuinka robusti saatu tulos oikeasti on. 14.6 Tuloksen luotettavuuden arviointi Kun puu on muodostettu jotakin sopivaa analyysimenetelmää käyttäen, pyritään sen luotettavuutta yleensä arvioimaan. Puun luotettavuuden arviointiin on esitetty käytettäväksi useita erilaisia menetelmiä, joista käytetyimmät lienevät bootstrapping, jackknifing ja Bremerin tukiarvo (Bremer support). Bayesilaisten menetelmien yhteydessä käytetään usein eri ryhmien esiintymistiheyksiä posteriori-jakaumassa tukiarvon mittana. Suuri osa viimeaikaisesta molekyylisystematiikan menetelmien ympärillä vellovasta keskustelusta keskittyy tukiarvoihin. Bootstrapping-menetelmän alkuperäisenä tarkoituksena on ollut laskea puulle luottamusväli. Luottamusväli on tilastotieteessä käytetty otannan tarkkuuden mittari. Esimerkiksi puolueiden kannatusluvuille, jotka on mitatty kyselytutkimuksessa (gallupissa), voidaan laskea luottamusväli. Sanotaan esimerkiksi, että Kokoomuksen kannatus kunnallisvaaligallupissa oli 20% ja sen luotttamusväli 18-22%. Tällöin, jos Kokoomuksen kannatus mitataan vaikkapa sadassa gallupissa, sen oikean kannatuksen kunnallisvaaleissa koko Suomessa oletetaan osuvan välille 18-22%. On hieman kyseenalaista, voidaanko puille laskea vastaavalla tavalla luottamusvälejä. Yhtä kaikki, bootstrapping- ja jackknifing-menetelmiä kuitenkin käytetään puun saaman tuen mittaamiseen. Koska luottamusvälitulkinta on puille hieman ongelmallinen, puhutaan puiden yhteydessä mieluummin tukiarvosta kuin luottamusvälistä. Bootstrapping-tukiarvo muodostetaan siten, että alkuperäisen aineiston (sekvenssirinnastus) perusteella arvotaan joukko uusia satunnaisia sekvenssirinnastuksia. Jokaisen alkuperäisen rinnastuksen sekvenssikohta voidaan valita yhden tai useamman kerran kuhunkin satunnaiseen rinnastukseen. Muodostetut satunnaiset rinnastukset analysoidaan kuten alkuperäinen aineistokin, ja muodostetuista puista lasketaan kuinka monessa saman ryhmä esiintyy. Näin saadaan laskettua prosenttiarvo kullekin puunhaaralle. Tätä kutsutaan bootstrapping-tukiarvoksi. (Felsenstein, 1985) Tukiarvojen laskentaa ja teoriaa käsitellään tarkemmin myöhemmin. Jos tukiarvo on suuri, se kertoo, että analysoidun aineiston perusteella näyttää siltä, että kyseinen ryhmä voidaan oikeasti muodostaa. Jos taas ryhmän saama tukiarvo on pieni, ei aineiston perusteella voida varmasti sanoa, että tuloksena muodostettu ryhmä siinä oikeasti esiintyy (Kuva 21.2). 148 Bioinformatiikan perusteet 15 Evoluutiomallit 15.1 Mikä on evoluutiomalli? Evoluutiomalli on kuvaus siitä, millaisia muutoksia ja millä taajuudelle muutosten odotetaan tapahtuvan esimerkiksi aminohaposta tai nukleotidista toiseksi. Evoluutiomalli voi olla myös kodonitasoinen, jolloin kuvataan, miten eri kodonit muuttuvat toisikseen. Periaatteessa evoluutiomalliin kuuluu myös insertioiden ja deleetioiden käsittely, mutta niille ei ole luotu mitään yksinkertaista matemaattista kuvausta evoluution kulkua kuvaamaan. Aminohapposekvensseille evoluutiomallina käytetään yleensä jotakin pisteytysmatriisia, kuten PAM- tai JTT-matriisia. Yleensä evoluutiomallia valittaessa valinta kohdistuu juuri PAM tai JTT-matriisiin, sillä ne on muodostettu evoluutioajatus mielessä. Esimerkiksi BLOSUM-matriisisarja on koostettu BLOCKS-tietokannan perusteella eikä ota evoluution suuntaan ja aikaskaalaa huomioon. Siten BLOSUMmatriisi kuvanneekin evolutiivisia aminohapposekvenssin muutoksia PAM- ja JTTmatriiseja huonommin. DNA-sekvensseille evoluutiomallina käytetään yleisimmin jotakin matemaattista yhtälöä, joka ilmoittaa kuinka yleisiä muutoksia nukleotidista toiseksi ovat. Matemaattisen mallin parametrit arvioidaan yleensä tutkittavasta aineistosta, sillä ne vaihtelevat huomattavasti aineistosta toiseen. Suurimmassa osassa DNA-evoluutiomalleja otetaan myös huomioon eri nukleotidien frekvenssit, joskaan ei kaikissa. 15.2 Mihin evoluutiomallia käytetään? Edellä on korostetty sitä, että sekvenssirinnastus ja analyysi eivät varsinaisesti ole erillisiä vaiheita, vaan niiden pitäisi muodostaa saumaton analyysijatkumo. Tämä tarkoittaa sitä, että samaa evoluutiomallia tulisi käyttää sekä sekvenssien rinnastamiseen että varsinaisen rinnastuksen analysointiinkin. Aminohapposekvensseille tämä onkin pisteytysmatriisin osalta mahdollista, DNA-sekvensseille ei. Tällä hetkellä kummallekaan sekvenssityypille ei voida käyttää samoja oletuksia insertioiden ja deleetioiden frekvensseistä (aukkosakot) sekä rinnastuksessa että analyysissä. Sekvenssirinnastuksen lisäksi evoluutiomallia siis käytetään apuna varsinaisessa analyysissä. Parsimonia-analyysissä ei välttämättä käytetä evoluutiomallia (muuta kuin sisäänrakennettua yksinkertaista oletusta), joskin sellainen on mahdollista määrittää Sankoff-matriisia käyttäen. Etäisyysmenetelmissä evoluutiomallia käytetään eri sekvenssien välisten etäisyyksien laskemiseen. Suurimman uskottavuuden menetelmät ja bayesilaiset menetelmät käyttävät evoluutiomallia muodostettavan puun uskottavuuden tai posteriori-todennäköisyyden laskemiseen. Evoluutiomallilla on siis hyvin keskeinen sija koko analyysissä, ja lopputulos riippuukin usein tehdyistä oletuksista siis suoraan evoluutiomallista. Evoluutiomalli on mahdollista valita tyystin väärin, jolloin myös tulokset ovat voivat olla virheellisiä. Oikean evoluutiomallin valintaan ei kuitenkaan ole olemassa mitään yleispätevää sääntöä. Seuraavassa käydään läpi erilaisia evoluutiomalleja, ja lopuk- 15 Evoluutiomallit 149 si kerrotaan, miten aineistolle sopivin evoluutiomalli pyritään valitsemaan. 15.3 Aminohapposekvensseille sopivat evoluutiomallit Aminohapposekvensseille soveltuvat evoluutiomallit on käyty kattavasti läpi jo luvussa Pisteytysmatriisit ja aukkosakot. Yleensä valinta kohdistuu PAM- tai JTTmatriisiin. Muitakin matriiseja on käytössä, mutta ne ovat saatavilla varsin harvoissa ohjelmissa, ja ovat usein jollekin proteiinisuperperheelle tai muulle proteiinijoukolle räätälöityjä. Suurimman uskottavuuden menetelmät ja bayesilaiset menetelmät käyttävät yksinomaan jotakin pisteytysmatriisia evoluutiomallina, mutta etäisyysmenetelmät voivat käyttää jotakin yksinkertaisempaa menetelmääkin. Katsahdetaanpa ensin aminohapposekvenssien välisten etäisyyksien laskemiseen. Kahden sekvenssin välinen samankaltaisuus on niiden aminohappojen prosenttiosuus kaikista aminohapoista, jotka ovat molemmissa sekvensseissä tismalleen samanlaisia. Jos esimerkiksi kaksi sadan aminohapon mittaista sekvenssiä rinnastetaan, ja niissä havaitaan olevan 95 tismalleen samanlaista aminohappoa, voidaan niiden välinen samankaltaisuus laskea kaavalla: ps = n s /n, jossa p on sekvenssien välinen samankaltaisuus, n s on samanlaisten aminohappo määrä ja n on rinnastuksen pituus. Siis, p = 95 / 100 = 0.95. Vastaavasti kahden sekvenssin välinen erilaisuus (etäisyys) voitaisiin laskea kaavalla pd = n d /n, jossa n d on kahdessa sekvenssissä olevien erilaisten aminohappojen määrä ja n on rinnastuksen pituus. Saman tuloksen antava kaava voitaisiin kirjoittaa myös hieman eri tavalla: pd = (n − n s ) . n Yllä kuvattua etäisyyttä p d kutsutaan toisinaan myös p-etäisyydeksi (p distance). Usein p-etäisyyttä laskettaessa aukkokohdat jätetään kokonaan huomiotta tai käsitetään eroiksi sekvenssien välillä. Siitä, kummin aukkokohtia käsitellään, riippuu käytetystä tietokoneohjelmasta. Kahden sekvenssin välillä tapahtuneiden muutosten absoluuttista määrää kutsutaan Hamiltonin etäisyydeksi. Esimerkiksi sekvenssien KIMMO KIMMA Hamiltonin etäisyys on 1, ja niiden p-etäisyys on 1 / 5 = 0,2. Hamiltonin etäisyys on hyvin lähellä niin sanottua edit-etäisyyttä, jossa lasketaan sekvenssien välillä tapahtuneiden muutosten määriä, aukkokohdat mukaan lukien. Siten sekvenssien KIMMO TI-MO Hamiltonin etäisyys olisi 1 ja p-etäisyys 1 / 4 = 0,25, jos aukkokohdat jätetään huomiotta, mutta edit-etäisyys olisi 2. Tuohon edit-etäisyyteen päädytään laskemalla sekvenssien välillä tapahtuneiden aminohappomuutosten (1) ja mahdollisten insertioiden ja deleetioiden lukumäärä (1) yhteen (2). 150 Bioinformatiikan perusteet Johtuen siitä, että ajan kuluessa samaan sekvenssikohtaan sattuu todennäköisesti useampia kuin yksi substituutio, ei pd tarkkaan ottaen mittaa sekvenssien välisen evoluution määrää kovinkaan tarkasti, erityisesti kun edetään tarpeeksi kauaksi ajassa sekvenssien yhteisestä kantamuodosta (Kuva 15.1). Tällöin paremman arvion sekvenssien välisestä etäisyydestä antaa Poisson-korjattu etäisyys (PC): V (d p ) = pd /[(1 − pd )n], Jossa pd on sekvenssien välinen p-etäisyys ja n on rinnastuksen pituus. Kuva 15.1: Ajan kuluessa samaan sekvenssikohtaan kohdistuu useampia muutoksia, jolloin havaittu ja odotettu etäisyys eroavat toisistaan sitä enemmän, mitä enemmän muutoksia sekvenssissä ylipäätään on tapahtunut. Yksinkertaisimmillaan havaittujen ja odotettujen etäisyyksien välisten erojen korjaamiseen voidaan käyttää Poisson-korjattua etäisyyttä, V (d p ). Sama ongelma ja ratkaisu koskee niin aminohappo- kuin DNA-sekvenssejäkin. Myös Kimuran esittämä kaava ottaa huomioon samassa sekvenssikohdassa tapahtuneet useammat muutokset: d = −ln(1 − p − 0, 2 p 2), jossa p on niiden aminohappojen prosenttiosuus (0>p>1), jotka eroavat kahden sekvenssin välillä. Tämä malli ei ota huomioon sitä, että eri aminohapot korvautuvat toisillaan eri taajuuksilla, joten malli ei vastaa todellisuutta kovinkaan hyvin. 15 Evoluutiomallit 151 Jos oletetaan lisäksi, että sekvenssien korvautumisnopeus eri sekvenssikohdissa vaihtelee, voidaan käyttää gamma-etäisyyttä. Se perustuu siihen, että gammajakauma on hyvin monimuotoinen jakauma, jonka muoto määräytyy alfa-parametrin perusteella (Kuva 15.2). Pienillä alfan arvoilla gamma-jakauma muistuttaa Poissonjakaumaa (suurin osa sekvenssikohdista on sellaisia, joissa on tapahtunut vain hyvin vähän muutoksia), ja suurilla alfan arvoilla sen muoto lähenee normaalijakaumaa. Gamma-etäisyys voidaan laskea kaavalla: dg = a[(1 − pd )−1/a − 1], jossa a on gamma-jakauman muotoparametri, ja p d on proteiinien välinen petäisyys. Muotoparametri arvioidaan yleensä aineiston perusteella. Kuva 15.2: Gamma-jakauma eri muotoparametreilla. Pienillä arvoilla gamma-jakauma muistuttaa Poisson-jakaumaa (alfa=2), suurilla normaalijakaumaa (alfa=10). Dayhoff ryhmineen kuvasi 1978 kuinka PAM-matriiseja käyttäen voidaan laskea kahden proteiinin välinen etäisyys. PAM-matriisin avulla laskettua etäisyyttä voidaan estimoida yllä kuvatulla d g -kaavalla, kun a:n oletetaan olevan 2,25, eli: d P AM = 2, 25[(1 − p d )−0.44 − 1], jossa pd on kahden proteiinin välinen p-etäisyys. Sekvenssien välisiä etäisyyksiä laskettaessa on jätettävä huomiotta sellaiset sekvenssikohdat, joissa jommassakummassa sekvenssissä on aukko. Jos näin ei menetellä ei etäisyydelle voida laskea järkevää mittaa. 15.4 DNA-sekvensseille soveltuvat evoluutiomallit DNA:lle laaditut evoluutiomallit ovat aminohapposekvensseille laadittuja malleja monimutkaisempia, sillä DNA-mallit ovat matemaattisia malleja, jotka pohjautuvat oletuksiin sekvenssien evoluutiosta. DNA-sekvensseille ei juurikaan käytetä PAMmatriisien tapaisia pisteytysmatriiseja, vaikka periaatteessa sellaisia olisi mahdollista laatia. Niiden huonona puolena on kuitenkin huono yleistettävyys, ja siksipä mallien parametrit onkin tapana arvioida analysoitavasta datasta. 152 Bioinformatiikan perusteet Kuten aminohapposekvenssien tapauksessa, niin myös DNA-sekvenssien tapauksessa mallien käyttö eroaa eri menetelmien kesken. Etäisyysmenetelmille riittää, että sekvenssien väliset etäisyydet voidaan jollakin luotettavalla tavalla arvioida. Parsimoniamenetelmät soveltavat yleensä DNA-sekvensseille menetelmää, jossa kaikki muutokset otetaan huomioon samalla painoarvolla, siis muutos A->T saa saman painoarvon (lasketaan puun pituutta määritettäessä yhdeksi muutokseksi) kuin muutokset A->C ja A->G. Suurimman uskottavuuden menetelmissä ja Bayesilaissa menetelmissä evoluutiomallia sovelletaan keskeisenä osana koko menetelmää. DNA-sekvensseille p-etäisyys lasketaan samalla tavalla kuin aminohappo-sekvensseillekin: pd = n d /n, jossa n d on kahdessa sekvenssissä olevien erilaisten aminohappojen määrä ja n on rinnastuksen pituus. P-etäisyys ei kutenkaan mittaa oikeaa, sekvensseissä tapahtuneiden muutosten määrää kovinkaan tarkasti. Ongelma on DNA-sekvensseille korostuneempi kuin aminohapposekvensseille, sillä DNA-sekvensseissä on käytössä vain neljä erilaista kirjainta. Siksipä DNA-sekvensseille yleensä käytetäänkin jotakin tarkemman etäisyysarvion antavaa mittaa. Ennen monimutkaisempien etäisyysmittojen esittelyä on tarpeen selvittää, mitä tarkoitetaan transversioilla ja transitioilla. Jos tarkastellaan yhtä homologista nukleotidikohtaa kahdessa eri sekvenssissä, voi nukleotidimuutos tapahtua kahdellatoista eri tavalla. Transitioiksi lasketaan muutokset kemiallisesti samanlaisten nukleotidien välillä (A->G, G->A; C->T, T->C) ja transversioiksi muutokset, joissa nukleotidin kemiallinen rakenne muuttuu (A->C, C->A; A->T, T->A; G->C, C->G; G->T, T->G). Jos kaikki muutokset olisivat yhtä todennäköisiä, olisi transitioiden (P) ja transversioiden (Q) suhde (R = P / Q) suunnilleen puoli. Käytännössä transversiot ovat yleensä transitioita yleisempiä, ja transitio/transversio suhteen arvo vaihteleekin normaalisti tumageeneille välillä 0,5-2,0. Mitokondrion geeneissä suhde voi olla vieläkin suurempi, jopa 15. Jotkin evoluutiomallit ottavat huomioon transitio/transversio suhteen, toiset taas eivät. Seuraavassa esitellään joitakin yleisimmin käytettyjä DNAevoluution malleja. DNA-evoluutiomallit ovat useimmiten symmetrisiä, jolloin frekvenssi, jolla esimerkiksi adeniini muuttuu sytosiiniksi oletetaan yhtä suureksi kuin frekvenssi, jolla sytosiini muuttuu adeniiniksi. Evoluutiomallit on tullut tavaksi esittää taulukonmuodossa siten, että rivillä mainitun nukleotidin katsotaan muuttuvan sarakkeessa mainituksi nukleotidiksi näiden leikkauskohdassa sijaitsevassa solussa esitetyllä frekvenssillä (Taulukko reffig:dnamallit). Jukes-Cantorin malli (JC69) on käytetyistä evoluutiomalleista yksinkertaisin. Se olettaa, että muutokset mistä tähansa nukleotidista miksi tahansa muuksi nukleotidiksi ovat kaikki yhtä yleisiä (transitiot ja transversiot ovat yhtä yleisiä). Lisäksi mallissa oletetaan, että kaikki nukleotidit ovat yhtä yleisiä. Sinällään JukesCantorin malli vastaa perinteisen parsimonia-analyysin tekemään oletusta muutosfrekvensseistä. Parsimonia-menetelmän yhteydessä tällainen malli tuottaa väkisin jotakin muullatavaoin muutoksia painottavaa mallia parsimonisemman tuloksen, mutta esimerkiksi suurimman uskottavuuden menetelmiin ei päde sama. DNAsekvenssien biologiaa ajatellen Jukes-Cantorin mallin tekemät oletukset ovat jokseenkin epärealistisia, ja siksi malli ei sovellu ainakaan yleiskäyttöön. Kimuran kahden parametrin (K2P) malli sallii transitioiden ja transversioiden esiintyä eri taajuuksilla, mutta olettaa edelleen, että kaikki nukleotidit ovat yhtä yleisiä. Felsensteinin 1981 esittämä malli (F81), jota enää harvoin missään näkee, muistuttaa Kimuran kahden parametrin mallia sikäli, että se sallii nukleotidien esiintyä eri taajuuksilla, mutta olettaa, että kaikki muutokset ovat yhtä yleisiä. HKY85-malli yhdistää Kimuran kahden parametrin mallin ja F81-mallin tekemät oletukset ja sallii sekä nukleotidien esiintyä eri taajuuksilla että transitio/transversio- 15 Evoluutiomallit 153 Kuva 15.3: Eräitä yleisimmin käytettyjä evoluutiomalleja DNA-sekvensseille. A. JukesCantorin malli, B. Kimuran kahden parametrin malli (Kimura 2-parameter), C. HKY-malli (Hasegawa, Kishino, Yano -malli), D. symmetrinen yleismalli (General time reversible). Tällaista evoluutiomallin esitystä kutsutaan myös Q-matriisiksi. Taulukoissa ga , gc , gg , ja gt vastaavat nukleotidien yleisyyksiä, sekä α ja β ja a , b, c, d , e ja f nukleotiden muutostodennäköisyyksiä. suhteen vaihdella. Se on ensimmäinen biologiselta kannalta riittävän realistinen malli, sillä se ottaa huomioon kaksi tärkeintä DNA-sekvenssien evoluutioon vaikuttaa tekijää. Felsensteinin esittämä F84-malli vastaa käytännössä HKY85-mallia. Symmetrinen yleismalli laajentaa HKY85-mallia siten, että se antaa mahdollisuuden määritellä kaikille symmetrisille muutoksille omat frekvenssiparametrit, siis sen, kuinka usein ne korvautuvat jollakin tietyllä toisella nukleotidilla. Lisäksi malli antaa että transitio/transversio-suhteen vaihdella. Symmetrisestä yleismallista voidaan muodostaa mikä tahansa muista edellämainituista malleista, kunhan frekvenssiparametrit ja nukleotidifrekvenssit määritellään sopivalla tavalla. Tämä symmetrisen yleismallin taipuisuus kannattaa muistaa, sillä joissakin tietokoneohjelmissa ei ole vaihtoehtona muita malleja kuin yleismalli, jolloin käyttäjän tulee itse osata määrittää mallin parametrit sopivalla tavalla, jos jotakin muuta mallia halutaan käyttää. LogDet-malli on DNA:lle sopivien evoluutiomallien erikoistapaus, sillä sitä voi käyttää ainoastaan etäisyysmenetelmien yhteydessä, ei lainkaan suurimman uskottavuuden mallien kanssa. Edellämainitut mallit olettavat, että kaikissa analyysiin valituissa sekvensseissä nukleotidien määräsuhteet ovat samanlaiset. Tämä oletus ei kuitenkaan useinkaan pidä paikkaansa, vaan nukleotidit esiintyvät eri sekvens- 154 Bioinformatiikan perusteet seissä eri frekvensseillä. Koska tämä voi vaikuttaa analyysin tuloksiin, voidaan ongelman korjaamiseksi soveltaa LogDet-mallia, jos osaa korjata nukleotidien eri määräsuhteista johtuvan virheen. Haittana LogDet-mallissa on, ettei se osaa ottaa huomioon sitä, että eri sekvenssikohtiin voi sattua mutaatioita eri todennäköisyyksillä. Eri mallit muodostavat hierarkkisen järjestelmän, jossa yksinkertaisin JukesCantorin malli on symmetrisen yleismallin erikoistapaus. Mallit voidaan esittää kaavamaisesti seuraavalla tavalla (Kuva 15.4. Kuvassa Ti/Tv-suhteella tarkoitetaan transitioiden ja transversioiden lukumääräsuhdetta. Kuva 15.4: Kahden DNA-sekvenssin välinen etäisyys voidaan laskea esimerkiksi JukesCantorin mallia käyttäen seuraavasti: dx y = −(3/4)ln(1 − 4/3D), jossa dx y on kahden sekvenssin välinen etäisyys ilmoitettuna muutosta sekvenssikohtaa kohden, D on kahden sekvenssin välillä havaittujen muutosten määrä (prosentteina), ja 3/4 ja 4/3 kuvastavat sitä, että sekvensseissä esiintyy neljää nukleotidia, jotka voivat kukin muuttua toisikseen kolmella eri tavalla. Siten kahden sekvenssin maksimaalinen etäisyys Jukes-Cantorin mittaa käyttäen on 75%. Esimerkiksi, jos kaksi sekvenssiä on 95% samanlaisia (5% erilaisia), saa JukesCantorin mitta arvon d x y = −3/4ln(1 − 4/30.05) = 0.0517, mutta jos sekvenssit ovat vain 50% samanlaisia saa etäisyys arvon d x y = −3/4ln(1 − 4/30.50) = 0.824. Mitä erilaisempia sekvenssit ovat, sitä enemmän menetelmä korjaa niien välistä etäisyyttä: kaavassa oleva logaritmi korjaakin juuri useampien samaan sekvenssipaikkaan osuneiden muutosten aiheuttamia ongelmia. Samaan tapaan kuin aminohapposekvenssien välisille etäisyyksille, voidaan DNA-sekvesseillekin käyttää gamma-jakaumaan perustuvaa korjausta. Jos siis mutaatioiden määrä kahden sekvenssin välillä noudattaa esimerkiksi Jukes-Cantorin 15 Evoluutiomallit 155 mallia, ja substituutioiden määrä eri sekvenssikohdissa vaihtelee gamma-jakauman mukaisesti, tulee sekvenssien välisen gamma-etäisyyden arvoksi d = (3/4)a[(1 − (4/3) p) −1/a − 1], jossa a on gamma-jakauman alfa-parametri (muotoparametri), ja p on sekvenssien välillä havaittujen muutosten prosenttiosuus. Evoluutiomalleissa on siis erotettavissa varsinainen evoluutiomalli ja siihen lisätty gamma-jakaumaan perustuva korjaus useiden samanpaikkaisten mutaatioiden varalle. Tämä tärkeää huomata, sillä gamma-jakaumaan perustuva korjaus ei ole mitenkään elimellisesti sisäänrakennettuna malleihin, ja jos sitä haluaa käyttää, on se analyysiohjelmistoissa itse käännettävä päälle. Käytännössä gammajakauman muotoparametri arvioidaan aineistosta ennen analyysiä. Esimerkiksi ohjelmat PAUP ja TreePuzzle osaavat arvioida muotoparametrin, ja periaatteessa se onnistuu Phylip-paketin ohjelmiakin käyttäen, vaikkei toiminto olekaan niissä suoraan optiona löydettävissä. Jos sekvenssien välinen etäisyys on pieni, arviolta alle 0,25, antavat kaikki edellä esitetyt DNA:lle soveltuvat evoluutiomallit likipitäen saman arvion sekvenssien välisistä etäisyyksistä. Sen sijaan suuremmilla etäisyyksillä mallien erot korostuvat, ja oikean mallin valinta korostuu. Oikean mallin valintaa helpottamaan on kehitetty muun muassa ohjelma nimeltään Modeltest, joka PAUP-ohjelmaa käyttäen muodostaa puun suurimman uskottavuuden menetelmällä eri malleja ja korjauksia käyttäen, ja ilmoittaa sitten käyttäjälle tulokset. Tämän jälkeen käyttäjän on osattava valita sopivin malli. Ohjelma ilmoittaa jokaisesta mallista sekä todennäköisyysosamäärätestin (likelihood ratio test) tulokset että Akaiken informaatikriteerin (Akaike information criteria) arvon. Todennäköisyysosamäärätesti ottaa huomioon ainoastaan mallien antamat todennäköisyydet, mutta Akaiken kriteeri huomioi myös mallin kompleksisuuden; se korjaa (pienentää) todennäköisyyksiä sitä enemmän, mitä monimutkaisempi evoluutiomalli on. Siten, mallin valinnassa kannattanee keskittyä tutkimaan lähinnä Akaiken kriteerin antamia tuloksia, ja valita sovellettava malli sen perusteella. 15.5 Parsimoniamenetelmä ja evoluutiomalli Usein kuulee väitettävän, ettei parsimoniamenetelmä käytä mitään evoluutiomallia, ja on siten menetelmänä ylivertainen muihin verrattuna, koska ei tee mitää yksinkertaistavia oletuksia evoluutio kulusta. Perusmuodossaan parsimoniamenetelmä kuitenkin olettaa, että kaikki muutokset ovat yhtä todennäköisiä, ja että jokainen sekvenssirinnastuksen kohta on riippumaton sitä edeltävistä tai seuraavista kohdista. Parsimoniamenetelmää (tai mallia), joka käyttää jotakin muuta evoluutiomallia kuin "kaikki muutokset yhtä todennäköisiä-mallia, kutsutaan painotetuksi parsimoniaksi. Painotetuksi parsimoniaksi kutsutaan myös sellaista analyysiä, jossa osa sekvenssirinnastuksen kohdista otetaan huomioon, mutta toisia ei. Siten, myös eri sekvenssikohdat voivat saada toisistaan eriävän painotuksen. On toistaiseksi hieman epäselvää, tulisiko muutoksia painottaa jollakin tapaa, ja jos ei niin miksei. Jos ollaan tarkkoja, niin jo "kaikki muutokset yhtä todennäköisiä-malli painottaa muutoksia; kaikkienhan oletetaan olevan yhtä todennäköisiä. Toinen mahdollinen painotusmalli voisi olla esimerkiksi antaa transversioille ja transitioille erilaiset painoarvot. Voitaisiin määrittää, että puun pituutta laskettaessa transitiot saavat kaksi kertaa suuremman painoarvon (2) kuin transversiot (1), jolloin puun pituus kasvaisi jokaista transitiota kohden kahdella, mutta vain yhdellä jokaista transversiota kohden. Jos koko analyysin ohjaavana tekijänä käytetään parsimoniaa, eli pyritään kaikkein pienimpään määrään muutoksia, on painottamaton parsimonia ylivertainen. 156 Bioinformatiikan perusteet Millään painotuksella ei ole mahdollista saada aikaiseksi lyhyempää puuta kuin tasaisella painotuksella. Siten, itse menetelmä puhuu sen puolesta, että painotuksen käytöstä tulisi luopua. Jos painotusta kuitenkin halutaan käyttää, se voidaan toteuttaa Sankoffin parsimonialla. Tällöin määritetään jo ennen analyysiä miten erilaisia nukleotidimuutoksia halutaan analyysissä painottaa. Useimmiten painotukset esitetään taulukossa, jossa sekä sarakkeet että rivit muodostuvat nukleotideista, ja taulukon soluissa esitetään muutosten saamat painoarvot. Mukaan voidaan ottaa myös viides sarake/rivi, nimittäin aukot. Toisin kuin esimerkiksi suurimmaan uskottavuuden menetelmien yhteydessä, ei parsimoniamenetelmän yhteydessä kuitenkaan ole kovin hyviä kriteereitä parhaan mallin valinnalle, ellei kriteerinä sitten käytetä mudostetun puun pituutta. Tällöin tulokset kuitenkin käytännössä aina puhuvat tasaisen painotuksen puolesta. 15.6 Aukkokohtien käsittely Evoluutiomalliin kuuluvaksi voidaan laskea myös aukkokohtien käsittelyn. Aukkokohtien käsittely lähtee niiden sijoittamisesta sekvenssirinnastukseen. Useimmiten käytetään aukkosakkomallia, jossa aukkojen avaaminen ja jo avattujen aukkojen jatkaminen saavat erilliset sakot sekvenssirinnastuksen aikana. Kun aukot on avattu sekvenssirinnastukseen, voidaan niitä käsitellä eri tavoin analyysin aikana. Yleisin tapa käsitellä aukkoja on jättää aukkoja sisältävät sekvenssirinnastuksen kohdata (kokonaiset sarakkeet) kokonaan pois analyysistä. Sarakkeet voidaan joko deletoida pareittain, jolloin esimerkiksi sekvenssien väliset etäisyydet lasketaan vain niistä sarakkeista, joissa aukkoja ei esiinny. Parittaista deletointia käytetään analyysissä vain harvoin, sillä se voi vaikuttaa esimerkiksi etäisyyksien laskemisen haitallisesti, koska käytetty aineisto ei kaikkien sekvenssien osalta ole sama. Aukkoja sisältävät sarakkeet voidaan myös deletoida kerralla kaikista sekvensseistä, jolloin sarake poistetaan analyysistä kokonaan, jos yhdessäkin sekvenssissä esiintyy siinä aukko. Aukkojen poistaminen analyysistä, joko pareittain tai kaikista sekvensseistä yhtäaikaa aiheuttaa usein sen, että suuri osa aineistosta heitetään hukkaan. Siksipä monesti aukkokohtia käsitelläänkin analyysissä viidentenä nukleotidina. Tällöin jokaiselle muutokselle nukleotidista aukoksi on määrätty oma todennäköisyytensä. Menetelmässä on kuitenkin se haitta, että aukot eivät välttämättä koostu yksittäisistä yhden nukleotidin mittaisista aukoista, vaan evoluution kuluessa rinnastukseen aukon aiheuttava deleetio on voinut tapahtua kerralla. Siis, esimerkiksi kymmenen nukleotidin kokoinen aukko on voinut syntyä kerralla eikä kymmenen pienemmän deleetion tuloksena. Jos tällaisessa tapauksessa jokaiselle yhden nukleotidin muutokselle annetaan tietty muutoskulu (evoluutiomallissa), voi tuloksena olla epärealistisen suuri muutoskulu koko aukolle. Aukot voidaan myös koodata analyysissä puuttuviksi havainnoiksi, mutta tämä on väärä tapa analysoida aineistoa. Esimerkiksi DNA-sekvenssien tapauksessa puuttuvat havainnot käsitellään N-nukleotideina, siis siten, että ko. sekvenssikohdassa saattaisi esiintyä mikä tahansa nukleotidi. Analyysissä N:n paikalle sitten sijoitettaisiin yksi kerrallaan kukin nukleotideista, ja tuloksiin parhaiten sopiva nukleotidi valittaisiin siihen analyysin ajaksi. Jos siis esimerkiksi adeniinin sijoittaminen puuttuvan havainnoin paikalle muodostaisi lyhyimmän parsimoniapuun, oletettaisiin, että puuttuva havainto oikeasti olisi adeniini. Eräs suhteellisen harvoin käytetty tapa käyttää aukkojen antamaa tietoa lajien suhteista hyödyksi on koodata aukot erillisiksi ominaisuuksiksi, ja analysoida ne siten rinnastuksen ohella (Kawakita, 2003). Tällöin aukot useimmiten deletoidaan analyysistä kokonaan, mutta niiden antama informaatio on mukana analyysissä binaarisissa ominaisuuksissa. Jos esimerkiksi ihmisellä ja simpanssilla on sekvensseissä aukko samalla kohtaa, mutta gorillalta ja orangilta aukko puuttuu, tukee au- 15 Evoluutiomallit 157 kon esiintyminen rinnastuksessa ihmisen ja simpanssin sijoittamista puussa yhteen. Analyysissä aukon esiintyminen voidaan sitten koodata esimerkiksi omaisuuteen aukko, joka saa siten lajeille arvot 1100 (ihminen, simpanssi, gorilla, oranki). Koska aukkokohdat todennäköisesti ovat oikeita evolutiivisia tapahtumia, varsinkin jos ne esiintyvät hyvin konservoituneilla alueilla, joiden rinnastuksessa ei ole epäelvyyksiä, on perusteltua käyttää niiden sisältämää informaatiota analyysissä hyödyksi. Kaikki aukkojen käsittelyyn käytetyt yllä esitellyt menetelmät ovat epätyydyttäviä. Aukkojen poistaminen analyysistä aiheuttaa usein mittavan aineiston pienenemisen, joskin jos aukkoja on rinnastuksessa vain vähän, ei ongelma ole suuri. Aukkojen käsitteleminen viidentenä nukleotidina on biologisesti arveluttavaa, eikä juuri perusteltavissa sekvenssirinnastuksen menetelmälliseltä kannaltakaan. Aukkojen kohteleminen puuttuvina havaintoina on epäilyttävää, ja vaikka aukkojen sisältämä informaatio lajien sukulaisuussuhteista koodattaisiin binaarisiin muuttujiinkin, on aineiston radikaali pieneneminen silti haittana. Ei siis ole olemassa yhtä oikeaa tai ehdottomasti parasta menetelmää käsitellä aukkokohtia analyysissä. Lähinnä on pyrittävä löytämään tasapaino aineiston hukan ja analyysin tulevan epätarkkuuden välillä. Suuntaaviivana voidaan sanoa, että aukkokohtien deletoiminen koko rinnastuksesta kerrallaan on parempi menettelytapa kuin parittainen deletoiminen. Kuitenkin, jos aukkokohtia on vään voidaan parittaistakin deletointia käyttää. Deletoitujen aukkokohtien sisältämä informaatio pitäisi kuitenkin pyrkiä lisäämään analyysiin vaikkapa binaarisina muuttujina. 158 Bioinformatiikan perusteet 16 Etäisyysmenetelmät 16.1 Mitä etäisyysmenetelmät ovat Etäisyysmenetelmät ovat nykyisistä evolutiivisten puiden muodostamiseen käytetyistä menetelmistä kaikkein vanhimpia. Alunperin etäisyysmenetelminä käytettiin tilastolliseen tiedonlouhintaan kehitettyjä hierarkkisen ryhmittelyanalyysin menetelmiä, joiden tarkoituksena oli luoda feneettinen puu (fenogrammi) eri lajien samankaltaisuusasteiden perusteella (Sokal ja Mitchener, 1958; Sneath ja Sokal 1973). Kaikki etäisyysmenetelmät perustuvat sille idealla, että sekvenssirinnastuksen perusteella lasketaan kaikkien mahdollisten sekvenssiparien väliset etäisyydet ("parittaiset etäisyydet") jotakin evoluutiomallia käyttäen. Tulokset taulukoidaan, ja niiden perusteella muodostetaan puu haluttua menetelmää käyttäen. Siten etäisyysmenetelmillä tarkoitetaan puun koostamismenetelmää. Etäisyysmenetelmät voidaan jakaa kolmeen ryhmään, ultrametriset puut, additiiviset puut ja pienimmän neliösumman puut. 16.2 Ultrametriset puut Myöhemmin samoja menetelmiä käytettiin ultrametristen puiden luomiseen. Ultrametrisen puun ominaisuutena on, etä mille tahansa puussa olevalle taksonille, A, B ja C, pätee sääntö: d AC = max(d AB , d BC ), jossa d AC , d AB ja d BC ovat kahden lajin välisiä etäisyyksiä. Lajien tai niitä edustavien sekvenssien väliset etäisyydet saadaan laskettua jotakin evoluutiomallia käyttäen, ja etäisyyksien laskeminen on esitetty edellisessä luvussa. Ultrametrisyyden vaatimus täyttyy, kun kaksi etäisyyttä ovat yhtä suuria ja vähintään yhtä suuria kuin kolmas etäisyys. Ultrametriset puut ovat juurrettuja puita, joissa jokainen laji (tai siitä määritetty sekvenssi) on yhtä kaukana juuresta. Tämä on tietenkin mahdollista vain olettaen, että evoluutio on edennyt kellomaisesti. Käsite tunnetaan myös molekyylikellon nimellä, ja tarkoittaa toisin sanoen sitä, jokaisessa lajissa oletetaan tapahtuneet niiden yhteisestä kantamuodosta eroamisen jälkeen yhtä suuri määrä mutaatioita. 16.2.1 UPGMA ja WPGMA Ultrametrisiä puita voidaan muodostaa esimerkiksi UPGMA (unweighted-pair group method with arithmetic mean)- ja WPGMA (weighted-pair group method with arithmetic mean) -menetelmillä. Jos analysoitava aineisto on todella ultrametrista, antavat UPGMA ja WPGMA saman tuloksen. Jos aineisto ei ole ultrametrista, voivat menetelmien antamat tulokset erota toisistaan. UPGMA- ja WPGMA-mnetelmiä käytettiin aiemmin paljon evolutiivisten puiden muodostamiseen sekvenssidataa käyttäen, mutta nykyisin menetelmät ovat aut- 16 Etäisyysmenetelmät 159 tamattomasti vanhentuneita. Ne olettavat sekvenssien evolvoituneen molekyylikelloa noudattaen, mikä on käytännössä osoittautunut paikkansapitämättömäksi oletukseksi. Jos aineisto ei noudata analyysimenetemän tekemiä oletuksia, ovat sen antamat tulokset väistämättä ainakin jossakin määrin vääriä. Niinpä UPGMA- ja WPGMA-menetelmät antavatkin usein vääriä tuloksia. Ei-ultrametriset etäisyydet on periaatteessa mahdollista muuttaa ultrametrisiksi kalibroimalla ne ulkoryhmän sekvenssiä vastaan, mutta tälle on nykyisin enää vähän tarvetta, sillä ongelman ratkaisemiseksi on parempiakin menetelmiä, esimerkiksi minimievoluutio ja neighborjoining. 16.3 Additiiviset puut Koska tavanomaisissa ryhmittelyanalyysimenetelmissä esiintyy ongelmia, muun muassa molekyylikello-oletuksen vuoksi, kehitettiin niin sanottuja additiivisia menetelmiä, jotka muodostavat additiivisen puun. Additiivinen puu on sellainen, jossa oksien pituudet noudattavat neljän pisteen metriikkaa: mille tahansa neljälle lajille A, B, C ja D additiivisuus määritellään d AB + dC D = max(d AC + d B D , d AD + d BC ), jossa dx y määrittelevät kahden lajin välisen etäisyyden. Vain additiiviset etäisyydet voidaan sijoittaa puuhun täydellisesti siten, että evoluutiomallin antama kahden sekvenssin välinen etäisyys vastaan puun oksien yhteenlaskettuja pituuksia. Tällöin muodostuu juurtamaton puu. Jos lajien väliset etäisyydet ovat ultrametrisiä, ovat ultrametrinen puu ja additiivinen puu yhtäpitäviä jos additiivinen puu juurretaan samasta kohdasta kuin ultrametrinen puukin. Jos sekvenssien väliset etäisyydet eivät ole ultrametrisiä, sopii additiivinen puu miltei aina ultrametrista paremmin aineistoon. Koska analysoitavat sekvenssit ovat yleensä suhteellisen lyhyitä, saattaa niihin sattuman vaikutuksesta kertyä mutaatioita siten, että sekvenssien väliset etäisyydet eivät olekaan additiivisia. Esimerkiksi, jonkin lajin sekvenssiin saattaa sattumalta sattua enemmän mutaatioita kuin oletettaisiin, mikä voi rikkoa additiivisuus oletuksen. Tällöin muodostettu puukin voi olla väärä. 16.3.1 Minimievoluutiomenetelmä Minimievoluutiomenetelmää ei tule sekoittaa parsimoniamenetelmään, josta toisinaan puhutaan myös minimievoluutiomenetelmänä. Tässä kirjassa minievoluutiomenetelmällä käsitetään kuitenkin vain seuraavassa esiteltävää etäisyysmenetelmää. Menetelminä parsimonia ja minievoluutio ovat hyvin erilaisia, vaikka niiden taustalla oleva idea onkin varsin samanlainen. Minievoluutiomenetelmässä tarkoituksena on muodostaa sellainen puu, jonka oksien (vi) yhteenlaskettu pituus (S) on mahdollisimman lyhyt. Toisin sanoen, S= 2n−3 vi , i=1 jossa n on aineistossa (puussa) olevien lajien määrä. Jokaiselle mahdolliselle puun topologialle (muodolle) voidaan laskea oksien pituudet arvioimalla kahden sekvenssin väliset etäisyydet jotakin evoluutiomallia käyttäen. Käymällä kaikki mahdolliset puut läpi on periaatteessa mahdollista löytää puu, jonka oksien yhteenlaskettu pituu on lyhin. Tämä periaate vertautuu parsimoniamenetelmään, jossa oksien pituuksinä käytetään eri sekvenssien välillä tapahtuneiden substituutioiden absoluuttista määrää. 160 Bioinformatiikan perusteet Perinteisesti etäisyysmenetelmät ovat käyneet läpi kaikki mahdolliset puuvaihtoehdot, mutta kun tutkittavien lajien määrä paisuu riittävän suureksi, ei kaikkia mahdollisia puita voida enää käydä läpi. Tällöin voidaan siirtyä käyttämään jotakin puun uudelleenjärjestelymenetelmää (ks. vastaava luku), jolla voidaan pyrkiä heuristisesti löytämään paras puu. Heuristiset menetelmät eivät kuitenkaan takaa, että paras puu löytyy, mutta käytännössä se kyllä pääsevät aika lähelle lyhyintä mahdollista puuta. 16.3.2 Neighbor-joining Neighbor-joining (NJ) on heuristinen menetelmä, joka pyrkii estimoimaan minimievoluutiomenetelmää. Se ei siis välttämättä anna samaa tulosta kuin varsinainen minievoluutiomenetelmä. NJ on menetelmällisesti hyvin lähellä aiemmin kuvatuja ryhmittelyanalyysimenetelmiä, mutta se ei oleta sekvenssievoluution olevan kellomaista. NJ on nykyisin käytetyin etäisyysmenetelmä, osittain siitä syystä, että se antaa suhteellisen hyviä tuloksia ja varsin nopeasti. NJ eroaa minimievoluutiomenetelmästä siinä, että kun minimievoluutiomenetelmä pyrkii minimoimaan koko puun oksien yhteenlasketun pituuden, minimoi NJ kerrallaan vain kahta puun samaan haaraan kuuluvaa sekvenssiä erottavien oksien yhteenlasketun pituuden. Koska puun pituutta ei edes yritetä minimoida globaalisti, voivat NJ:n ja minimievoluutiomenetelmän tuottamat puut erota toisistaan, erityisesti jos sekvenssien väliset (parittaiset) etäisyydet eivät ole additiivisia. Uusimmat NJ-menetelmän muunnokset BIONJ ja weighbor (saatavilla saman nimisinä ohjelmina) olettavat, että suurien parittaisten etäisyyksien keskihajonta (etäisyyksille voidaan laskea niiden keskihajonta) on suurempaa kuin lyhyiden parittaisten etäisyyksien. Tämä menettely näyttää johtavan perinteistä NJ-menetelmää suurempaa tarkkuuteen, erityisesti jos mukana on muista sekvensseistä kovasti eroavia sekvenssejä. 16.4 Pienimmän neliösumman menetelmät Pienimmän neliösumman menetelmät perustuvat sille periaatteelle, että tietylle puun topologialle voidaan laskea sen oksien pituuksien ero sekvenssien ja tietyn evoluutiomallin perusteella lasketuista oksien pituuksien arvioista. Useimmiten nimittöin sattuu, että puun oksien yhteenlasketu pituus eroaa sekvenssien perusteella arvioiduista oksien pituuksista. Tänä ero (patristic distance) johtuu siitä, että oksien arvioidut pituudet aina hieman eroavat täydellisestä additiivisuudesta. Siinä missä minievoluutiomenetelmä pyrkii löytämään puun, jonak oksien yhteenlaskettu pituus on pienin mahdollinen, pyrkivät pienimmän neliösumman menetelmät löytämään puun, jonka oksien pituuksien ero sekvenssien perusteella arvioiduista etäisyyksistä on pienin. Pienimmän neliösumman menetelmät siis minimoivat hyvyysmittaa F: F= wi j (Di j − di j )2 , ij jossa Di j on sekvenssien perusteella arvioitu oksan pituus, d i j on sekvenssejä erottavan oksan pituus puussa ja w i j riippuu käytetystä menetelmästä. Esimerkiksi Fitch-Margoliash-menetelmässä w i j = 1/Di2j , ja Cavalli-Sforzan ja Edwardsin menetelmissä wi j = 1. Kun tutkittavien lajien lukumäärä nousee yli kymmeneen, ei kaikkia mahdollisia puita enää voida käydä läpi parhaan mahdollisen löytämiseksi, vaan on turvauduttava heuristiseen puun uudelleenjärjestelymenetelmiin. 16 Etäisyysmenetelmät 16.5 161 Molekyylisystematiikka ja etäisyysmenetelmät Historiallisesti etäisyysmenetelmien merkitys molekyylisystematiikassa on ollut hyvin merkittävä, mutta menetelmien ja tietokoneiden parannuttua ja nopeuduttua ei etäisyysmenetelmiä enää suosita samassa mittakaavassa. Eräs etäisyysmenetelmien keskeisimmistä ongelmista on, että ne tiivistävät suuren määrän informaatiota yhteen ainoaan lukuarvoon, kahden sekvenssin väliseen etäisyysarvioon. Siten etäisyysmenetelmät hukkaavat suuren määrän informaatiota, jota voitaisiin analyysissä käyttää hyödyksi. Etäisyysmenetelmien ei myöskään voida katsoa välttämättä muodostavan fylogeneettistä puuta, siis sellaista, joka kuvastaisi lajien välisiä evolutionäärisiä suhteita. Etäisyysmenetelmät eivät nimittäin millään tapaa erottele homologisia ja homoplasisia tuntomerkkejä toisistaan, vaan menetelmät perustuvat yksinomaan sekvenssien samankaltaisuudelle. Nykyisin etäisyysmenetelmien sijaan käytetään mieluummin parsimonia- ja suurimman uskottavuuden menetelmiä, sillä ne näyttävät yleensä saavuttavan etäisyysmenetelmiä parempia tuloksia samoilla sekvenssijoukoilla. Toisinaan myös etäisyysmenetelmien antamien oksien tai puiden pituuksien tulkinta voi olla hankalaa. Esimerkiksi puu voi olla pituudeltaan 100,5 nukleotidisubstituutiota pitkä. Ongelma on siinä, että nukleotidi joko on muuttunut tai se ei ole muuttunut, joten 0,5:n muutoksen tulkinta on hieman hankalaa. Puolikas substituutio voidaan kuitenkin selittää esimerkiksi siten, että puun pituus kuvastaa odotettujen muutosten määrää. Siten puun oikea pituus voisi olla esimerkiksi joko 100 tai 101, jolloin 100,5 on puun pituuden odotusarvo, ja siten järkevästi tulkittavissa. Negatiiviset oksien pituudet ovat kuitenkin hankalampi ongelma, ja niitä esiintyy tuloksissa suhteellisen usein. Negatiivisille oksien pituuksilla ei ole biologisessa mielessä järkevää tulkintaa. Periaatteessa niiden käsittelyyn on muutamia vaihtoehtoja. Luonnollisesti negatiivissista oksanpituuksista voidaan olla välitämättä, mutta tämä tuskin on tyydyttävä ratkaisu. Negatiiviset oksanpituudet voidaan asettaa nollaksi, ja niiden pituus voidaan siirtää puussa toiseen oksaan tai negatiivisista pituuksista voidaan ottaa niiden itseisarvo, ja käyttää sitä oksanpituuden arviona. Jokatapauksessa oksien pituuksien arvioihin tule mitä hyvänsä negatiivisten arvojen kohtelumenetelmää käyttäen jonkin verran virhettä. Etäisyysmenetelmin muodostetun puun oksat voivat olla lyhyempiä kuin varsinaisen aineiston perusteella havaitut sekvenssien väliset etäisyydet. Siten myös koko puu voi olla lyhyempi kuin aineistossa havaittujen muutosten yhteenlaskettu kokonaismäärä. Tämä on biologisesti ajatellen järjetöntä, ja johtuu etäisyysmenetelmien laskennallisista välivaiheista. Etäisyysmenetelmien käyttöä puolustava seikka on se, etteivät tavanomaiset evoluutiomallit osaa ottaa huomioon että analyysiin valituissa sekvensseissä nukleotidien määräsuhteet voivat olla erilaiset. Jos määräsuhteet eroavat toisistaan eri sekvensseissä, voidaan ongelmaa korjata käyttämällä LogDet-evoluutiomallia, jonka käyttö onnistuu vain etäisyysmenetelmien yhteydessä. 16.6 Etäisyyspuun luotettavuuden arviointi Etäisyysmenetelmin muodostetun puun luotettavuutta voidaan arvioida samoin menetelmin kuin muilla menetelmillä muodostettujen puidenkin. Suosittuja menetelmiä ovat bootstrapping ja jackknifing, joita molempia käsitellään jäljempänä luotettavuuden arviointiin tarkoitettuje menetelmiä esittelevässä luvussa. 162 Bioinformatiikan perusteet 16.7 Molekyylikello-oletuksen testaaminen etäisyysmenetelmin Olemme jo lyhyesti sivunneet molekyylikello-oletusta, ja miten se vaikuttaa etäisyysmenetelmien sovellettavuuteen. Molekyylikello-oletuksen pitävyyttä voidaan formaalisti testata monin tavoin, joista seuraavassa esitetään menetrelmä, joka perustuu pienimmän neliösumman menetelmien antamien tulosten vertailuun. Ennen varsinaista tilastollista testaamista muodostetaan puu pienimmän neliösumman menetelmää soveltaen kahdella eri tavalla: olettaen, että sekvenssit evolvoituvat kellomaisesti (kaikki lajit yhtä kaukana juuresta), ja siten että sekvenssit eivät evolvoidu kellomaisesti (lajit voivat olla eri pituuksien päässä juuresta). Esimerkiksi Phylippaketin ohjelmat Fitch (ei kello-oletusta) ja Kitsch (kello-oletus) tekevät juuri tämän. Ohjelmien antamista tuloksista merkitään ylös neliösummat, joita tässä merkitään SS f itch ja SSkitsch . Seuraavassa esimerkissä esitetään, kuinka testisuureen arvo lasketaan eräille neliösummien arvoille. Oletetaan, että SS f itch = 0,26008 ja SSkitsch = 0,938. Testisuureen osoittaja lasketaan kaavalla SSkitsch − SS f itch = 0, 67792, n−2 jossa n on analysoitavien sekvenssien määrä. Testisuureen nimittäjä lasketaan kaavalla SS f itch n(n−1) 2 − (2n − 3) = 0, 04335, jossa n on jälleen analysoitavien sekvenssien määrä. Nyt varsinainen testisuure lasketaan osoittajan ja nimittäjän osamääränä: F = 0,67792 / 0,04335 = 15,64. Testisuureen F antaman tuloksen tulkitsemiseksi lasketaan vielä F-jakauman vapausasteiden lukumäärä seuraavasti (n on sekvenssien lukumäärä). d f1 = n − 2 d f2 = n(n − 1) − (2n − 3) 2 Esimerkissämme analysoimme kuusi sekvenssiä, joten d f 1 = 4, ja d f 2 = 6. Tämän jälkeen F-testisuureen arvoa verrataan F-jakauman taulukoituihin arvoihin, ja jos testisuureen arvo on taulukoitua arvoa suurempi, hylätään kello-oletus. Nyt laskemamme F-testisuureen arvo on taulukoitua arvoa (F = 4.53, p = 0,05) selvästi suurempi, joten näyttää siltä, etteivät analysoidut sekvenssit ole evolvoituneet kellomaisesti. 16.8 Laskennalliset esimerkit Seuraavassa esitetään laskennallinen esimerkki sekä UPGMA-menetelmästä. Sekvenssijoukon paritteiset etäisyydet lasketaan ensin Jukes-Cantorin-evoluutiomallia käyttäen. Parittaisten etäisyyksien perusteella muodostetaan sitten puu UPGMAmenetelmää käyttäen. 16.8.1 Parittaisten etäisyyksien laskeminen Seuraavan sekvenssirinnastuksen pohjalta 16 Etäisyysmenetelmät ihminen ACGTACGTCC simpanssi ACCTACGTCC gorilla ACCACCGTCC oranki ACCCCCCTCC makaki CCCCCCCCCC 163 voidaan sekvenssien väliset parittaiset etäisyydet laskea. Seuraavassa taulukossa on esitettynä kuinka moni nukleotidi kahden tarkastellun sekvenssin välillä eroaa. ihminen simpanssi gorilla oranki makaki ihminen 1 3 4 6 simpanssi gorilla oranki makaki 2 3 5 2 4 2 - Erovaisuuksien määrä voidaan ilmaista myös prosentteina koko sekvenssien pituudesta: ihminen simpanssi gorilla oranki makaki ihminen 0,1 0,3 0,4 0,6 simpanssi gorilla oranki makaki 0,2 0,3 0,5 0,2 0,4 0,2 - Jo tätä voidaan pitää sekvenssien välisenä etäisyytenä, mutta se on vain karkea arvio oikeasta etäisyydestä. Tarkempi etäisyys voidaan arvioida Jukes-Cantorinevoluutiomallia käyttäen. Tällöin etäisyysarvioille (d) saadaan seuraavan taulukon mukaiset arviot. Huomaa, etä arvioita on korjattu havaittuihin arvoihin nähden sitä enemmän, mitä enemmän sekvenssit eroavat. Näitä etäisyysarvioita käyttäen piirretään seuraavaksi puut. Ihminen Simpanssi Gorilla Oranki Makaki ihminen 0,107 0,383 0,571 1,207 simpanssi gorilla oranki makaki 0,232 0,383 0,823 0,232 0,571 0,232 - 16.8.2 Puun muodostaminen UPGMA-menetelmällä Aluksi etsitään parittaisten etäisyyksien joukosta kaikkein pienin arvio, joka tässä tapauksessa on ihmisen ja simpanssin välillä. Nyt muodostettavassa puussa yhdistetään ensimmäiseksi ihminen ja simpanssi. Puuhun piirrettävien oksien pituudet saadaan jakamalla lajien välinen etäisyys kahdella (0,107 / 2 = 0,0537). 164 Bioinformatiikan perusteet Ihminen Simpanssi Gorilla Oranki Makaki ihminen 0,107 0,383 0,571 1,207 simpanssi gorilla oranki makaki 0,232 0,383 0,823 0,232 0,571 0,232 - Tämän jälkeen päivitetään etäisyystaulukko siten, että nyt muodostetun ryhmän ja muiden lajien väliset etäisyydet lasketaan edellisen (nyt alkuperäisen) taulukon etäisyysarvioiden keskiarvoina. Esimerkiksi, ihmisen ja simpanssin muodostaman ryhmän etäisyys gorillaan lasketaan seuraavasti: d(ihminen,simpanssi)gorilla = (d(ihminen,gorilla) +d(simpanssi,gorilla) )/2 = (0, 383+0, 232)/2 = 0, 3075 Kun vastaavalla tavalla on laskettu kaikkien lajien etäisyydet muodostetusta ryhmästä, saadaan uusi taulukko. Tästä uudesta taulukosta etsitään nyt uusi lyhyin etäisyys. Taulukossa voidaan edetä joko ylävasemmalta alaoikealle tai päinvastoin. Tällä on vaikutusta silloin, kun taulukosta löytyy kaksi tismalleen yhtä suurta etäisyyttä, ja eri tavoin edetessä voivat tuloksetkin olla hieman erilaiset. Esimerkissämme etenemissuunta vaikuttaisin tuloksiin. Etenemme taulukossa ylävasemmalta alaoikealle, joten seuraavaksi yhdistetään gorilla ja oranki. ihminen-simpanssi gorilla oranki makaki ihminen-simpanssi 0,3075 0,477 1,015 gorilla oranki makaki 0,232 0,571 0,232 - Puuhun tulevien gorillaan ja orankiin vievien haarojen pituudet saadaan taas 16 Etäisyysmenetelmät 165 puolittamalla lajien välinen etäisyysarvio (0,232 / 2 = 0,116). Muodostuva puu näyttää tämän jälkeen seuraavalta: Päivitetty etäisyystaulukko näyttää gorillan ja orangin yhdistämisen jälkeen seuraavalta, joten seuraavaksi puussa yhdistetään ihminen-simpanssi ja gorilla-oranki. ihminen-simpanssi gorilla-oranki Makaki ihminen-simpanssi 0,3923 1,015 gorilla-oranki makaki 0,4015 - Kutsutaan ihminen-simpanssi- ja gorilla-oranki -ryhmiä yhdistävää puun oksaa U:ksi. Siten etäisyys U-(gorilla-oranki) = 0,3923 / 2 = 0,1962. Vastaavasti etäi- 166 Bioinformatiikan perusteet syys U-(ihminen-simpanssi) on 0,1962. Etäisyyksien perusteella muodostuva puu näyttää seuraavalta: Viimeinen päivitetty taulukko näyttää seuraavalta, ja viime vaiheessa puuhun yhdistetään makaki. ihminen-simpanssi-gorilla-oranki makaki ihminen-simpanssi-gorilla-oranki 0,7083 makaki - Valmis UPGMA-puu on siten muodoltaan ja oksan pituuksiltaan seuraavanlainen: 16 Etäisyysmenetelmät 167 WPGMA eroaa ylläesitetystä UPGMA:sta vain siten, että päivitettäessä taulukkoa, eri ryhmille annetaan niiden sisältämien lajien mukainen painoarvo. Toisin sanoen, jos UPGMA:ssa kahden ryhmän (A:ssa 2 ja B:ssä 5 lajia) etäisyys lasketaan (a + b) / 2, niin WPGMA:ssa tuo keskiarvo laskettaisiin (a*2 + b*5) / (2 + 5). Kaavoissa a ja b vastaavat eri ryhmien etäisyyksiä. Käyttäen yllä esitettyä esimerkkiä ihminen-simpanssi-ryhmän ja gorillan välisen etäisyyden laskemisesta, laskettaisiin sama etäisyys WPGMA:ta käytten seuraavasti: d(ihminen,simpanssi)gorilla = (2 ∗ d(ihminen,gorilla) + d(simpanssi,gorilla) )/2 = (2 ∗ 0, 107 + 0, 232)/3 = 0.1487 Etäisyys on tässä tapauksessa pienempi kuin UPGMA:aa käyttäen. Jos etäisyydet olisivat täysin ultrametrisiä, olisivat UPGMA:n ja WPGMA:n antamat tulokset täysin yhdenpitäviä. Koska ne eivät tässä ole, voidaan päätellä, ettei aineisto ole ultrametrinen, ainakaan kaikkien sekvenssien osalta. 168 Bioinformatiikan perusteet 17 Parsimoniamenetelmä 17.1 Mikä on parsimoniamenetelmä? Parsimoniamenetelmä on pysytellyt suosituimpana systematiikan ja molekyylisystematiikan menetelmänä aina 1970-luvun alusta viime vuosiin saakka. Parsimoniamenetelmä perustuu Occamin partaveitseen: aja pois kaikki mitä et tarvitse. Siten parsimoniamenetelmän ideana onkin etsiä sellainen puu tai useampia sellaisia puita, joilla aineisto (sekvenssirinnastus) voidaan selittää vähimmin muutoksin. Sekvenssirinnastusten tapauksessa parsimonisin puu (lyhyin tai paras puu) olisi siis sellainen, joka selittäisi havaitun rinnastuksen vähimmin substituutioin. Usein parsimoniamenetelmän käyttöä perustellaan filosofisin perustein, esimerkiksi juuri Occamin partaveitsellä. Myös Karl Popperin töiden on uskottu osoittavan, että parsimoniamenetelmä on ainut menetelmä, joka soveltuu käytettäväksi tieteellisessä hypoteettis-deduktiivisessä työskentelyssä. Parsimoniamenetelmän ja yksinkertaisuusoletuksen välinen yhteys ei kuitenkaan ole kovin yksioikoinen. Tuffley ja Steel nimittäin osoittivat, että parsimonia ja suurimman uskottavuuden kriteeri ovat yhtäpitäviä, jos molemmissa käytetään äärettömän moniparametrista evoluutiomallia, jossa jokaiselle sekvenssirinnastuksen sarakkeelle ("ominaisuus") on määrätty oma parametrin muodostettavan puu jokaisessa haarassa. On oikeastaan väärin puhua parsimoniamenetelmästä, sillä parsimoniamenetelmä sisältää monia erilaisia menetelmiä, joita kaikkia yhdistää sama päämäärä, pyrkimys selittää aineisto pienimmällä mahdollisella muutosten määrällä. Siten parsimoniamenetelmä luetaan optimaalisuuskriteeriä käyttäviin menetelmiin. Menetelmällähän on kriteeri, jonka avulla erilaisia puita voidaan arvottaa ja vertailla, ja jonka arvo pyritään minimoimaan. Parsimoniamenetelmästä esiintyy monia muunnelmia, jotka käyttävät hieman erilaista tapaa optimoida (optimaalisuuskriteeriä) muutokset tiettyyn puun topologiaan. Tässä yhteydessä optimointitapa voidaan tulkita myös evoluutiomallina, sillä esimerkiksi Fitch-parsimonia olettaa, että kaikki muutokset ovat yhtä todennäköisiä, ja että palautuvat muutokset sallitaan. Fitch-parsimoniaa käytetäänkin usein sekvenssidatalle, joka sopii luonteeltaan Fitch-parsimonian tekemiin oletuksiin. Muita vastaavankaltaisia menetelmiä ovat esimerkiksi Wagner-, Dollo- ja Camin-Sokalparsimonia. On myös olemassa generalisoitu optimointimenetelmä, joka tunnetaan Sankoffin algoritmina. Siinä muutokset ominaisuuden tasosta toiseksi voivat saada mielivaltaisen, ennaltapäätetyn painoarvon, ja siten Sankoffin parsimoniamenetelmässä voitaisiin hyvin käyttää esimerkiksi PAM-matriiseja proteiinisekvenssien ollessa kyseessä. 17.2 Parsimoniapuun muodostamisen periaate Parsimoniapuun muodostamiseksi tarvitaan ominaisuusmatriisi, esimerkiksi usean sekvenssin rinnastus, jossa jokainen rivi vastaa yhtä lajia, ja jokainen sarake vastaa yhtä ominaisuutta. Yhdellä ominaisuudella voi olla useita tasoja. Esimerkkinä ominaisuusmatriisista voisi toimia esimerkiksi seuraava rinnastus. Rinnastuksessa 17 Parsimoniamenetelmä 169 eri sarakkeet on numeroitu niistä puhumisen helpottamiseksi. 0123456789 ihminen ACGTACGTCC simpanssi ACCTACGTCC gorilla ACCACCGTCC oranki ACCCCCCTCC makaki CCCCCCCCCC Esimerkiksi sarake 0 on yksi ominaisuus, jolla on kaksi tasoa tai ilmenemismuotoa, A ja C. Parsimoniamenetelmää on perinteisesti sovellettu erityisesti morfologisten tuntomerkkien analysointiin, jolloin ominaisuudet ovat usein olleet vain kaksitasoisia: joko eliöllä on mainittu ominaisuus tai sillä ei ole mainittua ominaisuutta. Periaatteessa mikä tahansa monitasoinen ominaisuus voidaan koodat useammalla kaksitasoisella ominaisuudella, mutta ei ole täysin selvää onko kannattavampaa analysoida yksi monitasoinen kuin useampia kaksitasoisia ominaisuuksia. Parsimoniamenetelmä käyttää analyysissä periaatteessa vain niin sanottuja informatiivisia ominaisuuksia. Informatiivisia ovat vain sellaiset ominaisuudet, joissa vähintään kahdella lajilla on tismalleen sama ominaisuuden taso. Esimerkkirinnastuksemme tapauksessa siis ominaisuudet 0-2, 5 ja 7-9 eivät ole informatiivisia ja ne voidaan jättää kokonaan pois analyysistä. Kladogrammin muodostamiseen ominaisuusmatriisin perusteella on olemassa kaksi vaihtoehtoista tapaa, Hennigin argumentaatio ja Wagnerin menetelmä. Kun puu on muodostettu jompaa kumpaa tapaa käyttäen, lasketaan sen pituus jotakin optimaalisuuskriteeriä käyttäen. Wagnerin puunkoostamismenetelmää ei tule sotkea Wagner-parsimoniaan, joka on optimaalisuuskriteeri. Wagner-parsimonia esitellään tarkemmin jäljempänä, ja seuraavassa tutustumme Wagnerin puunkoostamismenetelmään. 17.3 Hennigin argumentaatio Koska menetelmän ymmärtäminen on helpompaa, jos käytäme suhteellisen yksinkertaista aineistoa, on esimerkkirinnastustamme karsittu seuraavaan hieman. Nyt rinnastus, josta on poistettu gorilla ja muutamia ominaisuuksia, näyttää seuraavalta, ja koostuu vain kolmesta ominaisuudesta. Makaki toimii ulkoryhmänä, ja muut lajit kuuluvat sisäryhmään. 123 ihminen AGA simpanssi ACA oranki ACC makaki CCC Hennigin argumentaatio ei vaadi epäinformatiivisten ominaisuuksien poistamista aineistosta ennen analyysiä, ja perustuu siihen, että jokainen apomorfinen ominaisuus tai sen olemassaolo määrittelee ryhmän. Sen sijaan ominaisuuden puuttuminen ei määrittele ryhmää. Esimerkiksi karvapeitteen ilmestyminen evoluutiossa määrittelee ryhmän nisäkkäät, mutta sen puuttuminen ei määrittelee ryhmää, joka sisältää muut eliöt, paitsi nisäkkäät. Hennigin argumentaatiossa jokaista ominaisuutta tarkastellaan aluksi yksinään, ja lopullinen puu saadaan muodostettu näiden yhdistelmänä. Esimerkkirinnastuksemme perusteella voidaan muodostaa siis kolme erillistä puuta, joista ensimmäinen sisältää makakin, toinen ihmisen ja kolmas yhdistää ihmisen ja simpanssin. Jos lähdetään liikkeelle puskasta, näyttää alkutilanne seuraavalta: 170 Bioinformatiikan perusteet Ensimmäisen ominaisuuden lisäämisen jälkeen puu näyttää seuraavalta. Toisen ominaisuuden lisäämisen jälkeen puu näyttää seuraavalta. Ja kolmannen eli viimeisen ominaisuuden lisäämisen jälkeen puu näyttää seuraavalta. 17 Parsimoniamenetelmä 171 Esimerkissämme ulkoryhmänä käytettiin makakia, jonka avulla ominaisuudet polarisoitiin. Polarisoinnilla tarkoitetaan sitä, että ulkoryhmää käyttäen ominaisuudet jaetaan alkukantaisiin ja siitä kehittyneisiin ominaisuuksiin. Esimerkiksi ominaisuuden nolla alkumuoto oli sytosiini, ja siitä kehittyi adeniini, joka on yhteinen kaikille sisäryhmän (ihminen, simpanssi, oranki) lajeille. Koska ulkoryhmän avulla voidaan päätellä ominaisuuksien kehittymissuunta, auttaa sen ottaminen analyysiin puun muodostamisessa tarvittavaa päättelyä. Hennigin argumentaatiossa siis puuhun lisätään ominaisuuksia yksi kerrallaan, ja samalla puuhun luodaan tarvittaessa uusia haarautumiskohtia. Siten Hennigin menetelmä soveltuu suhteellisen pienille ja yksinkertaisille aineistoille, joissa on vähän tai ei lainkaan homoplasiaa. Aineistoille, joissa on paljon homoplasiaa, Hennigin argumentaatio ei kykene löytämään kaikkein lyhyintä mahdollista parsimoniapuuta, ja vaikka se löytäisikin lyhyimmän puu, ei se kykene löytämään kaikkia lyhyimpiä puita, jos sellaisia sattuisikin olemaan useampia analysoitavalle aineistolle. 17.4 Wagnerin menetelmä Kladogrammi voidaan muodostaa myös yhdistämällä puuhun yksi taksoni kerrallaan, kunnes kaikki taksonit on sijoitettu puuhun. Taksoni lisätään puussa siihen paikkaan, johon sijoitettuna se minimoi puun pituuden. Useissa ohjelmistoissa parsimoniapuu muodostetaan yllä kuvatulla Wagnerin menetelmällä. Havainnollistetaan Wagnerin menetelmää seuraavan esimerkin avulla. Oletetaan, että olemme jälleen analysoimassa samaa, jo edellä tutuksi tullutta sekvenssirinnastusta, jossa makaki toimii ulkoryhmänä, ja muut lajit kuuluvat sisäryhmään. 012 kehittyneitä ominaisuuksia ihminen AGA 3 simpanssi ACA 2 oranki ACC 1 makaki CCC 0 Orangilla on ulkoryhmään verrattuna vähiten kehittyneitä ominaisuuksia, joten se yhdistetään puussa ulkoryhmään. Muodostuva saa siis seuraavan muodon: 172 Bioinformatiikan perusteet Seuraavaksi puuhun lisätään seuraavaksi vähiten kehittyneitä ominaisuuksia sisältävä taksoni, siis simpanssi. Se yhdistetään orankiin johtavaa oksaan, ja muodostuvaa haaraa merkitään näille lajeille yhteisten ominaisuuksien tasot. Muodostuva puu saa seuraavan muodon: Puun haaraan merkittyä lajeille yhteistä piirrettä kutsutaan optimoinniksi, ja sillä pyritään minimoimaan puun pituus. Optimointiin palataan jäljempänä tarkemmin. Nyt haaraan merkitty piirre on muodostettu siten, että tietystä ominaisuudesta on valittu kehittynein taso, joka orankia ja simpanssi yhdistää. Ominaisuudet 0 ja 1 saavat siten merkinnät A ja C. Kolmannen ominaisuuden taso poikkeaa simpanssilla ja orangilla, ja haaraan merkittävään piirteeseen on merkitty ulkoryhmän taso, koska mikään kehittynyt ominaisuuden taso ei yhdistä simpanssia ja gorillaa. Seuraavaksi puuhun liitetään jälleen seuraavaksi eniten kehittyneitä ominaisuuksia sisältävä taksoni, siis ihminen. Ihminen voidaan sijoittaa puussa neljään eri kohtaan. Näistä kohdista valitaan se, joka vaatii vähimmän määrän muutoksia. Mahdolliset neljä puuta näyttävät seuraavilta: 17 Parsimoniamenetelmä 173 Näistä vaihtoehtoisista puista parhaalta näyttää hypoteesi 2, sillä siinä puun pituus kasvaa vain yhdellä, muissa tapauksissa kahdella. Näille neljälle lajille paras parsimoniapuu on siis hypoteesin 2 mukainen puu, ja analyysi voidaan päättää tähän. 174 Bioinformatiikan perusteet Wagnerin menetelmä on selvästi Hennigin argumentaatiota tehokkaampi tapa etsiä lyhyintä parsimoniapuuta. Wagnerin menetelmä ei kuitenkaan takaa kaikkein lyhyimmän puun löytymistä monimutkaisille aineistoille, mutta löytää varmasti lyhyimmän puu, jos aineistossa ei ole lainkaan homoplasiaa, joka sekoittaisi analyysiä. 17.4.1 Wagnerin kaava Wagnerin menetelmä voidaan helposti yleistää koskemaan myös aineistoja, joissa ulkoryhmä ei ole eksplisiittisesti määriteltynä. Tällöin muodostetaan etäisyysmatriisi eri taksonien välille, ja lajit yhdistetään tätä matriisia käyttäen. Etäisyysmatriisia muodostettaessa lasketaan vain absoluuttisten muutosten määriä (patristinen etäisyys), eikä havaintoja pyritä korjaamaan ueiden samaan paikkaan sattuneiden substituutioiden suhteen. Patristinen etäisyys voidaan laskea Wagnerin kaavalla seuraavasti. Wagnerin kaava ilmoittaa, kuinka monta muutosta tietyn taksonin liittäminen toiseen taksoniin vie, ja muutosten määrä voidaan laskea helposti kaavalla d A,B = |X(A i ) − X(Bi )|, jossa d on muutosten määrä kahden taksonin A ja B välillä, X(A i ) on tietyn ominaisuuden taso taksonilla A ja X(B i ) on saman ominaisuuden taso taksonilla B. Ominaisuuksien tasojen muutokset siis lasketaan yhteen kaikkien eri ominaisuuksien yli, ja tämä on taksonien välinen niin kutsuttu patristinen tai Hamiltonin etäisyys. Esimerkiksi, jos tutkimme jälleen viittä kädellislajia, ja havaitsemme seuraavan taulukon mukaiset määrät muutoksia eri lajien välillä, yhdistettäisiin ensimmäiseksi puuhun ihminen ja simpanssi. ihminen simpanssi gorilla oranki makaki ihminen 1 3 4 6 simpanssi gorilla oranki makaki 2 3 5 2 4 2 - Ihmisen ja simpanssi yhdistämisen jälkeen taulukko päivitetään. Taulukkoa päivitettäessä jo yhdistettyjen lajien etäisyys toistaiseksi yhdistämätömiin lasketaan seuraavasti. Esimerkiksi D(ihminen,simpanssi),gorilla = |dgorilla,ihminen + dgorilla,simpanssi − dihminen,simpanssi |/2 = |3 + 2 − 1|/2 = 2 Päivitetty taulukko näyttää seuraavalta. ihminen-simpanssi gorilla oranki makaki ihminen-simpanssi 2 3 5 gorilla oranki makaki 2 4 2 - 17 Parsimoniamenetelmä 175 Seuraavaksi puuhun yhdistetään se laji, jonka etäisyys jo muodostettuun ihminensimpanssi -ryhmään on kaikkein pienin. Esimerkissämme puuhun sijoitettaisiin siis seuraavaksi gorilla, ja muodostuva puu näyttäisi seuraavalta: Taulukon päivittämistä ja lajien yhdistämistä puuhun jatkettaisiin kunnes kaikki lajit on yhdistetty puuhun. 17.5 Optimaalisuuskriteeri Parsimoniamenetelmä valitsee sen puu, jossa on tapahtunut pienin määrä muutoksia. Edellä esitettiin kaksi vaihtoehtoista tapaa muodostaa kladogrammi. Ennen puun muodostamista on kuitenkin tarpeen määrittää jokaisen ominaisuuden tasojen välisten muutosten määrä. Esimerkiksi, jos ominaisuuden taso muuttuu adeniinista sytosiiniksi, määrittelee optimaalisuuskriteeri lasketaanko tuo yksi muutos puuta muodostettaessa yhdeksi muutokseksi vain kenties useammaksi. Tätä optimaalisuuskriteeriä voidaan pitää parsimoniamenetelmien yhteydessä evoluutiomallina vastaavalla tavalla kuin esimerkiksi Jukes-Cantorin malli saattoi toimia evoluutiomallina etäisyysmenetelmien yhteydessä. Erilaisia optimaalisuuskriteereitä on useita. Kaikkein yleistetyin kriteeri käyttää Sankoffin matriisia, jossa voidaan määrittää minkä tahansa ominaisuustasojen väliset muutoskulut. Sankoffin matriisi muistuttaa siten esimerkiksi PAM-matriiseja, ja niitä käytetäänkin usein sekvenssiaineistojen yhteydessä. Sankoffin algoritmin avulla voidaan optimoida parsimoniapuu, joka käyttää Sankoffin matriisia. Optimaalisuuskriteeri on siis oikeastaan hypoteesi siitä, miten oletamme tutkittavien ominaisuuksien evolvoituneen. Erilaiset hypoteesit tuottavat erilaisia tuloksia, ja toiset hypoteesit ominaisuuksien evoluutiosta on yksinkertaisesti vääriä tai järjetömiä. Seuraavassa esitellään yleisimmät optimaalisuuskriteerit sekä muutamia niiden käyttöalueita. 17.5.1 Wagnerin optimaalisuuskriteeri Wagnerin optimaalisuuskriteeri on eräs yksinkertaisimmista kriteereistä. Se olettaa, että muutokset ovat additiivisia eli summautuvia siten, että muutos 0->1 tulkitaan yhdeksi muutokseksi, mutta muutos 0->2 kahdeksi muutokseksi, sillä evoluution nollasta kakkoseksi tulkitaan kulkeneen välillä ykkösen kautta. Muutokset voivat olla palautuvia, joten muutos 0->1 tulkitaan yhdeksi muutokseksi kuten myös muutos 1->0. Wagnerin kriteeriä käytetään usein morfologisten tuntemerkkien kanssa. Esimerkiksi nisäkkäiden raajat eivät ole ilmestyneet yhtäkkiä, vaan ne ovat kehittyneet 176 Bioinformatiikan perusteet vaiheittain kalan evistä. Raajat voivat kuitenkin hävitä tai surkastua, kuten valailla on tapahtunut, joten palautuvat muutokset ovat sallittuja. Puun pituus Wagnerin kriteeriä käyttäen lasketaan seuraavasti. Tutkitaan jälleen viittä kädellislajia. Jokaiselta lajilta on nyt selvitetty tietyn morfologisen ominaisuuden taso, ja tuloksista voidaan muodostaa seuraava matriisi. ihminen 1 simpanssi 2 gorilla 2 oranki 4 makaki 0 Nyt voimme laskea tietoja käyttäen seuraavan puun pituuden: Tässä puun pituutta laskettaessa (tai puuta optimoidessa) käytetään ulkoryhmänä makakia. Jos aineistossa ei olisi yhtään taksonia, joka olisi vartavasten valittu ulkoryhmäksi, valittaisiin puun pituuden laskemista varten jokin keinotekoinen ulkoryhmä, jona voi toimia mikä tahansa tutkittavista taksoneista. Tämä keinotekoinen valinta ei vaikuta puun pituuden laskemiseen. Puussa edetään ylhäältä alas, ja jokaiseen haaraan merkitään haarassa sijaitsevan hypoteettisen kantamuodon ominaisuuden tasot. Tätä vaihetta puun pituuden laskemisessa kutsutaan downward pass:ksi. Jos kahdessa hypoteettistä kantamuotoa ylempänä olevissa taksoneissa tai haaroissa on sama ominaisuuden taso, merkitään niitä yhdistävään haaraan niiden pienin mahdollinen suljettu väli. Jos taksoneilla tai haaroilla on ominaisuuden suhteen eri tasot, merkitään niiden hypoteettiselle kantamuodolle molemmat (unioni). Ylhäältä alaspäin edettäessä ensimmäisille kantamuodoille merkittäisiin siis ominaisuuden taso [2,4] ja [1,2]: 17 Parsimoniamenetelmä 177 Koska ominaisuuksien katsotaan oleva summautuvia, lisää ominaisuuden taso [2,4] puun pituuteen kaksi (4 - 2 = 2). Vastaavasti ominaisuuden taso [1,2] lisää puun pituutta yhdellä. Seuraavassa vaiheessa edetään jälleen puussa alemmas, ja seuraavalle hypoteettiselle kantamuodolle merkitään [2,4]:n ja [1,2]:n pienin suljettu väli (tässä sama kuin leikkaus), siis 2: Koska nyt käsiteltävää hypoteettistä kantamuotoa edeltävillä kantamuodoilla oli ominaisuus 2, ei puun pituutta nyt kasvateta. Puussa on jäljellä vielä yksi kantamuoto, jonka ominaisuuden tasoja ei ole määritelty, ja sille merkitään nyt makakin (0) ja sitä edeltävän kantamuodon (2) pienin suljettu väli, koska tasot eivät ole samanlaiset: 178 Bioinformatiikan perusteet Puun pituus voidaan nyt laskea, sillä viimeisen kantamuodon ominaisuuden tasot tunnetaan, ja e lisää puun pituutta kahdella (2 - 0 = 2) eli puun kokonaispituudeksi muodostuu viisi. Downward pass ei riitä sen päättelemiseksi, mikä on parsimonisin valinta hypoteettisten kantamuotojen ominaisuuden tasoksi. Tämän määrittämiseksi on tarpeen tehdä vielä upward pass. Siinä puussa edetään alhaalta ylöspäin, ja jokaiselle hypoteettiselle kantamuodolle merkitään sitä edeltävien kantamuotojen perusteella ominaisuus. Jos hypoteettisellä kantamuodolla on vain yksi ominaisuuden taso, ei sitä muuteta, muutoin merkitään tarkasteltavan kantamuodon ja sitä edeltävän kantamuodon leikkaus: Nyt kaikille kantamuodoille on asettu niille sopivin ominaisuuden taso, ja puun pituus on edelleen viisi. Tämä menetelmä toimii hyvin, jos ominaisuudessa tai ominaisuuksissa ei ole lainkaan homoplasiaa. Jos homoplasiaa esiintyy, voi yhtä hyviä kantamuotojen ominaisuuksien tasojen rekonstruointeja esintyä useita. Tällöin vaihtoehtoja on kaksi, ACCTRAN (accelerated transformation) ja DELTRAN (delayed transformation). Jos tarkastellaan puuta juuresta kohti lehtiä, sijoitetaan ACCTRAN:ssa muutokset hypoteettisille kantamuodoille mahdollisimman aikaisin eli mahdollisimman lähelle juurta. DELTRAN:ssa muutokset puolestaan sijoitetaan kantamuodoille niin myöhään kuin mahdollista eli mahdollisimman kauaksi juuresta. Puun pituuden tai kantamuotojen ominaisuuksien määrittämiseksi tarvittavat työvaiheet voidaan tiivistää siis seuraavasti: 17 Parsimoniamenetelmä 179 • Downward pass 1. Jos molemmilla taksoneilla on sama ominaisuuden taso, merkitään se myös yhteiselle kantamuodolle (leikkaus). 2. Jos taksoneilla on ominaisuuden suhteen eri taso, merkitään niiden yhteiselle kantamuodolle molemmat (unioni) 3. Jos toisella taksonilla on useampia ominaisuuden tasoja, ja toisella vain yksi, merkitään niiden yhteiselle kantamuodolle se, joka on niille yhteinen (leikkaus). • Upward pass 1. Jos hypoteettisellä kantamuodolla on jokin yksittäinen ominaisuuden taso, sitä ei muuteta. 2. Jos hypoteettisellä kantamuodolla on molemmat ominaisuuden tasot, ja sitä edeltävällä kantamuodolla vain toinen, merkitään hypoteettiselle kantamuodollekin vain se taso, joka on molemmille yhteinen (leikkaus). 17.5.2 Fitchin optimaalisuuskriteeri Fitchin kriteeri on siinä mielessä samankaltainen kuin Wagnerin kriteeri, että palautuvat muutokset ovat sallittuja. Sen sijaan Fitchin kriteerin mukaan ominaisuuksien tasojen ei katsota olevan summautuvia, vaan jokainen muutos tulkitaan yhdeksi muutokseksi. Esimerkiksi muutos 0->1 tulkitaan yhdeksi muutokseksi, kuten myös muutos 0->2. Fitchin kriteeriä käytetään usein sekvenssiaineistoille, sillä periaatteessa mikä tahansa aminohappo tai nukleotidi voi suoraan korvautua millä tahansa toisella ilman, että välissä tarvittaisiin muita välivaiheita. Siten esimerkiksi adeniini voi suoraan vaihtua sytosiiniksi ilman, että välissä pitäisi käydä esimerkiksi guaniini kautta. Fitchin kriteeri tuottaa samalle aineistolle aina suuremman määrä yhtä lyhyitä puita kuin Wagnerin kriteeri. Fitchin kriteeriä käyttäen puun pituus lasketaan kuten Wagnerin kriteeriä käytettäessäkin, mutta hypoteettisen kantamuodon ominaisuuden tasoksi määritetään sen ja sitä edeltävän kantamuodon ominaisuuksien leikkaus eikä pienin suljettu väli. Jos leikkaus on tyhjä, eli kantamuodoilla ei ole yhtään yhteistä ominaisuuden tasoa, määrätään tarkasteltavan kantamuodon ominaisuuden taso mielivaltaisesti sille mahdollisten ominaisuuden tasojen joukosta. 17.5.3 Dollon optimaalisuuskriteeri Dollo havaitsi jo 1800-luvun lopulla, että evoluutio harvoin palaa takaisin aiempaan muotoon. Nykyisin tämä tunnetaan Dollon sääntönä. Esimerkkinä toiminee hyvin vaikkapa nisäkkäiden eturaaja. Eri luiden tarkka järjestys on Dollon mukaan voinut evolvoitua vain kerran, koska on erittäin epätodennäköistä, että niin monimutkainen rakenne olisi evoluutiossa syntynyt toisistaan riippumatta useita kertoja. Jos tarkastellaan eturaajaa ominaisuutena, tulee siinä esiintyvä homoplasia tulkita siten, että rakenne on eliöltä hävinnyt. Dollon kriteerin ei salli ominaisuuksissa palautuvia muutoksia. Dollon kriteerin ongelmaksi voidaan katsoa, että se olettaa evoluution etenevän tiettyä mallia käyttäen. Kriteeriä kuitenkin käytetään morofologisten ominaisuuksien kanssa. Lisäksi kriteerille on käyttöä esimerkiksi jos tarkallaan restriktioentsyymien katkaisukohtien esiintymistä DNA-sekvensseissä. On nimittäin huomattavasti todennäköisempää, että katkaisukohta katoaa mutaation seurauksena kuin että mutaatio loisi 180 Bioinformatiikan perusteet uuden katkaisukohdan. Jos Dollon kriteerin tekemät oletukset eivät päde tutkittavalle ominaisuusjoukolle, tullaan puun pituus ja homoplasian määrä yliarvioitua runsaasti. 17.5.4 Camin-Sokalin optimaalisuuskriteeri Camin-Sokalin kriteeri olettaa, että kun ominaisuus on kerran saatu, ei se voi koskaan hävitä. Homoplasiat selittyvät kriteerin mukaan siten, että ominaisuus on kehittynyt useita kertoja toisistaan riippumatta. Kriteeriä käytetään hyvin harvoin, koska sen tekemät oletukset ovat jokseenkin epärealistisia. 17.5.5 Yleistetty optimaalisuuskriteeri Yleistetty optimaalisuuskriteeri vastaa matriisia, jossa on esitetty eri ominaisuuden tasojen vaihtumisesta toiseksi johtuvan puun pituuden kasvu. Tällaisen matriisin avulla voidaan esittää millainen optimaalisuuskriteeri tahansa. Esimerkiksi edellä esitellyt kriteerit näyttävät matriisein esitettyina seuraavilta. Wagner 0 1 2 3 0 1 2 3 1 1 1 2 2 2 1 1 3 3 2 1 - Fitch 0 1 2 3 Dollo 0 0 1 1 2 2 3 3 Wagner 0 1 2 3 0 1 1 1 1 1 1 1 1 1M 1 2 0 ∞ ∞ ∞ 2 1 1 1 3 1 1 1 - 2 2M 1M 1 1 1 ∞ ∞ 2 2 1 ∞ 3 3M 2M 1M 3 3 2 1 - Dollon kriteerin yhteydessä käytetään jotakin mielivaltaisen suurta arvoa M, jolla varmistetaan se, että ominaisuuden taso esiintyy apomorfiana puussa vain yhden ainoan kerran. Camin-Sokal kriteerissä palautuvat muutokset on kokonaan estetty käyttämällä niille äärettömän suurta painoarvoa. Menetelmä, jolla minkä tahansa puun pituus yleistettyä optimaalisuuskritee- 17 Parsimoniamenetelmä 181 riä käyttäen voidaan laskea, tunnetaan Sankoffin algoritmina (Sankoff ja Rousseau, 1975). Sankoffin algoritmi on toteutettu dynaamisen optimoinnin tapaan siten, että suurempi ongelma, siis puun pituuden laskeminen on siinä pilkottu pienemmiksi osaongelmiksi, jotka sitten ratkaistaan siten, että koko ongelman ratkaisu muodostuu optimaaliseksi. Käytännössä siis vastaavalla tavalla kuin Fitchin kriteerilläkin: tarkastellaan yhtä ominaisuutta kerrallaan. Tarkastellaan esimerkiksi seuraavaa aineistoa: ihminen g simpanssi a gorilla c oranki c Ja seuraavaa matriisia, joka kuvaa vaihdosten saamat painoarvot: a c g t a 2 1 2 c 2 2 1 g 1 2 2 t 2 1 2 - Esimerkissämme siis transversiot ovat kaksi kertaa yleisempiä kuin transitiot. Lasketaan nyt Sankoffin algoritmia käyttäen seuraavan puu pituus: Tarkoituksena on kuten Fitchin ja Wagnerin kriteerien yhteydessäkin, löytää kaikkein parsimonisin ominaisuuden taso kullekin puun sisäiselle haaralla, siis hypoteettisille kantamuodoille. Sankoffin algoritmillä valinta tapahtuu siten, että spesifioitua kriteeriä käyttäen lasketaan, mikä hypoteettisen kantamuodon ominaisuuden tason tulisi olla, jotta puun pituus kasvaisin mahdollisimman vähän. Tällöin pyritään minimoimaan muutossumma (esimerkiksi 1->ihminen + 1->simpanssi) jokaiselle kantamuodolle. Jos muutosta ominaisuuden tasossa siirryttäessä kantamuodosta havaittuun taksoniin ei tapahdu (ominaisuus pysyy muuttumattomana), ei puun pituus kasva käytetystä kriteeristä huolimatta. Ensimmäiseen haaraan (1) liittyvät laskutoimituksen ovat siten: a− > g + a− > a = 1 + 0 = 1 c− > g + c− > a = 2 + 2 = 4 g− > g + g− > a = 0 + 1 = 1 t− > g + t− > a = 2 + 2 = 4 Nyt puun haaraan merkitään niin sanottu S-vektori, joka siis koostuu eri vaihtoehtojen saamista arvoista: Samaan tapaan S-vektori voidaan laskea haaralle 2: a− > c + a− > c = 2 + 2 = 4 c− > c + c− > c = 0 + 0 = 0 182 Bioinformatiikan perusteet g− > c + g− > c = 2 + 2 = 4 t− > c + t− > c = 1 + 1 = 2 Ja vastaava puu saa siten seuraavan muodon: Nyt kaikkien lajien yhteisen hypoteettisen kantamuodon eri ominaisuuksien tasot saadaan suoraan yhteen edelliset S-vektorit. Tarkemmin sanoen, puun pituuden laskemiseksi kaikki mahdolliset kombinaatiot haarasta 3 lähtevissä alapuissa olisi tullut tarkastella, mutta koska esimerkkipuussamme on vain kaksi kantamuotoa ennen haaraan 3 saapumista, on kaikki mahdollisuudet jo tarkasteltu. Tuloksena on seuraava puu: Nyt haaran 3 S-vektorista voidaan suoraan lukea puun pituus. Tässä tapauksessa puun pituus on neljä, koska se on haaran 3 S-vektorin pienin arvo. Puuhun voitaisiin periaatteessa merkitä näkyviin hypoteettisten kantamuotojen ominaisuuden tasot: Yleisen optimaalisuuskriteerin käytössä on muutamia käytännön ongelmia. Ensinnäkin, on hankalaa määrittää eri muutosten saamat "painoarvot"ennen varsinaista analyysiä. Painoarvojen valinta liittyy tietysti hyvin läheisesti siihen miten uskomme ominaisuuksien evolvoituneen. Jos ei ole erityisen hyvää syytä olettaa, että ominaisuuksien evoluutio on edennyt jotakin tiettyä reittiä, tulisi monimutkaisten matriisien käyttöä välttää. Toiseksi, Sankoffin algoritmillä tapahtuva laskenta on hitaampaa kuin jotakin toista optimaalisuuskriteeriä käyttäen, joten suurilla aineistoilla voi tietokoneen suorituskykykin muodostua sen käytön esteeksi. 17.6 Lyhyimmän mahdollisen puun etsintä Edellä esitellyt menetelmät, kuten Wagnerin menetelmä käyttäen Fitchin optimaalisuuskriteeriä, eivät välttämättä löydä aineistoon sopivaa kaikkein lyhyintä mahdollista parsimoniapuuta, jos aineistossa esiintyy homoplasiaa. Koska parsimoniame- 17 Parsimoniamenetelmä 183 netelmän tarkoituksena on löytää nimenomaan kaikkein lyhyin mahdollinen puu, joka kuvaa ominaisuuksien evoluutiota, on yleensä tarpeen turvautua muihin keinoihin lyhyimmän puun löytämiseksi. Yksinkertaisimmillaan voidaan käydä läpi kaikki mahdolliset puu, jotka aineistolle voidaan muodostaa, laskea niiden pituudet vaikkapa Fitchin optimaalisuuskriteeriä käyttäen, ja siten löytää kaikkein lyhyin mahdollinen puu. Tällaista menetelmää kutsutaan nimellä exhaustive search, koska kaikki mahdolliset vaihtoehdot käydään läpi. Kun sekvenssien määrä nousee yli 10-20:n, ei exhaustive search-menetelmää enää voida käyttää, sillä laskenta-aika muodostuu millä tahansa nykyisellä tietokoneella turhan pitkäksi. Silloin turvaudutaan heuristisiin niin sanottuihin puun uudelleenjärjestelymenetelmiin. Heuristiset menetelmät eivät takaa, että ne löytävät kaikkein lyhyimmän mahdollisen puun, mutta käytännösä tulokset ovat usein varsin tyydyttäviä. Heuristisiin menetelmiin tutustutaan tarkemmin puun uudelleenjärjestelymenetelmiä käsittelevässä luvussa. Niitä käytettäessä on hyvä tiedostaa, että järjestys, jossa sekvenssit menetelmää syötetään, saattaa vaikuttaa tuloksiin. Niinpä sekvenssien syöttöjärjestys usein arvotaankin ennen varsinaista analyysiä, käytännössä satoja, jopa tuhansia kertoja. Yhdestä satunnaistamisesta käytetään useimmiten nimistystä random addition sequence (RAS) tai jumble. Heuristisille hakumenetelmille annetaan puu, jonka pituus jo tunnetaan. Tällainen puu voidaan muodostaa esimerkiksi Hennigin argumentaatiota tai Wagnerin menetelmää käyttäen, mutta muitakin mahdollisia menetelmiä on olemassa. Tämän jälkeen heuristiset menetelmät järjestelevät puun haaroja uudelleen, ja pyrkivät siten löytämään alkuperäistä puuta lyhyemmän puun. Käytännössä analyysi etenee siis siten, että sekvenssien syöttöjärjestys arvotaan vaikkapa sata kertaa ("100 RAS"). Jokaiselle satunnaistetulle syöttöjärjestykselle muodostetaan Wagnerin menetelmää käyttäen alkuperäinen puu. Nämä puut syötetään edelleen heuristisille uudelleenjärjestelymenetelmille, ja koko joukosta pyritään etsimään kaikkein lyhyin aineistoon sopiva puu. Huomaa, että tässä satunnaistetaan vain sekvenssien syöttöjärjestys, eikä RAS:lla ole mitään tekemistä esimerkiksi bootstrapping-menetelmän kanssa. 17.7 Muodostettujen puiden kuvailu ja vertailu 17.7.1 Puun pituus Puun pituus kuvaa tiettyä puun topologiaa, ja kertoo kuinka monta kertaa mikä tahansa ominaisuuden taso on muuttunut toiseksi koko aineistossa. Mitä paremmin puu kuvaa aineistoa sitä vähemmän homoplasioita aineiston selittämiseen tarvitaan, ja sitä lyhyempi on myös puun pituus. Siten lyhyempi puu siis sopii aineistoon premmin kuin pidempi puu. Siksi taksonien välistä evoluutiota kuvaavaksi hypoteesiksi valitaan aina lyhyin puu. Siksi myös lyhyimmän puun löytäminen on niin oleellisen tärkeää. Tarkastellaan jälleen esimerkiksi seuraavaa sekvenssirinnastusta. 123 184 Bioinformatiikan perusteet ihminen AGA simpanssi ACA oranki ACC makaki CCC Voimme verrata esimerkiksi kahta seuraavaa puuta keskenään laskemalla niille pituuden, ja valitsemme sitten parhaaksi hypoteesiksemme lyhyemmän puun. Puun pituus on 3 (puussa on kolme poikkiviivaa). Puun pituus on neljä. Näistä puista siis ensimmäinen (pituus 3) on parempi eliöiden evoluutiohistoriaa kuvaava puu. 17.7.2 Yhdenmukaisuusindeksi Yhdenmukaisuusindeksi (consistency index, CI) mittaa suhteellisen homoplasian määrää tietyssä puussa. CI ilmoitetaan prosentteina, ja odotettujen (m) ja puussa havaittujen muutosten osamääränä (s). Odotettujen muutosten määrä on sama asia kuin evolutiivisten muutosten pienin mahdollinen määrä. Yhdelle ominaisuudelle CI voidaan laskea seuraavasti: m ci = s Ja kokonaiselle puulle kaava muuttuu muotoon: 17 Parsimoniamenetelmä 185 m CI = s Odotettujen muutosten määrä voidaan laskea aineiston perusteella, ja vastaa suurinta määrää muutoksia, joka missään puussa voitaisiin aineiston perusteella havaita. Yksitäiselle binääriselle (0/1) ominaisuudelle odotettujen muutosten määrä on korkeintaan 1. Samaiselle binääriselle ominaisuudelle havaittujen muutosten määrä puolestaa riippuu siitä, kuinka monta kertaa sen havaitaan muuttaneen tasoaan puussa. Monitasoisille ominaisuuksille odotettujen muutosten määrä voidaan laskea kaavalla m = n − 1, jossa n on ominaisuuden tasojen lukumäärä. Esimerkiksi, seuraavassa puussa ominaisuuden a ci = 1 / 1 * 100 = 100. Sen sijaan puussa, jossa ominaisuuden a taso on vaihtunut kahdesti, CI on edellistä pienempi eli ci = 1 / 2 *100 = 50. Tietyn ominaisuuden yhdenmukaisuusindeksin saadessa arvon 100, sopii ominaisuus täydellisesti puuhun, eikä siinä esiinny lainkaan homoplasiaa. CI:n ollessa sataa pienempi, esiintyy ominaisuudessa homoplasiaa. Samaan tapaan voidaan CI tulkita myös kokonaisille puille. Mitä surempi CI sitä vähemmän puussa esiintyy homoplasiaa. 186 Bioinformatiikan perusteet 17.7.3 Synapomorfiaindeksi Synapomorfiaindeksi (retention index, RI) on yhdenmukaisuusindeksin ohella toinen yleisesti käytetty suhteellisen homoplasian mitta. Synapomorfiaindeksi mittaa sen synapomorfian määrää, joka aineiston perusteella havaitusta synapomorfiasta havaitaan myös muodostetussa puussa. RI lasketaan yhdelle ominaisuudella kaavalla: ri = g−s , g−m ja kokonaiselle puulle ja sitä vastaavalle aineistolle g− s , RI = g− m joissa g on evolutiivisten muutosten suurin mahdollinen määrä, m on muutosten pienin mahdollinen määrä, ja s evolutiivisten muutosten todellinen määrä tietyssä puussa. Muuttujan m arvo saadaan laskettua kuten yhdenmukaisuusindeksin tapauksessakin, ja s voidaan tietenkin lukea suoraan puusta. Muuttujan g arvo saadaan suoraan ominaisuusmatriisista. Esimerkiksi binäärisillä ominaisuuksilla se on sellaisten ominaisuuden tasojen määrä, joita käsiteltävässä ominaisuudessa on vähiten. Esimerkiksi seuraavalle aineistolle synapomorfiaindeksi on helppo määrittää. Ennen indeksin laskemista nukleiinihappoaineisto koodattiin binäärisiksi muuttujiksi sen seikan korostamiseksi, etä kyseissä aineistossa kaikki ominaisuudet todella olivat binäärisiä eivätkä monitasoisia, vaikka nukleiinihapposekvenssirinnastukset usein sisältävätkin monitasoisia ominaisuuksia. 123 123 ihminen AGA simpanssi ACA -\ 101 111 oranki ACC -/ 100 makaki CCC 000 123 ihminen 111 simpanssi 101 oranki 100 makaki 000 m 111 (binäärisille muuttujille aina 1) s 112 (luettu puusta) g 112 17 Parsimoniamenetelmä 187 Koko puun synapomorfiaindeksiksi muodostuu siten RI = 4−4 0 = =0 4−3 1 ja yhdenmukaisuusindeksiksi CI = 3 ∗ 100 = 75 4 Vaikka CI:n mukaan puussa ei ole paljoakaan homoplasiaa, antaa RI silti epätyydyttävän tuloksen, ja kertoo, ettei puussa ole yhtään synapomorfiaakaan. CI ei ota huomioon ominaisuuksien tasojen jakaumista tutkittavien taksonien kesken. RI on kehitetty ottamaan tämä seikka huomioon. Se nimittäin painottaa sellaisia ominaisuuksia, joiden perusteella voidaan muodostaa suuri monofyleettisiä ryhmiä enemmän kuin ominaisuuksia, joiden perusteella muodostuu vain pieniä monofyleettisiä ryhmiä. Ominaisuudet, joissa on tapahtunut muutos lähellä puun juurta saavat siis RI:tä laskettaessa suuremman painon kuin ominaisuudet, joissa muutos on tapahtunut lähellä lehtiä (taksoneita). 17.7.4 Muokattu yhdenmukaisuusindeksi Muokattu yhdenmukaisuusindeksi (rescaled consistency index, rc) lasketaan yhdenmukaisuusindeksi ja synapomorfiaindeksin tulona seuraavasti r c = ci ∗ ri yhdelle ominaisuudelle ja seuraavasti RC = C I ∗ R I koko aineistolle. Siten ylläolevan puun RC = 0,75 * 0 = 0. 17.7.5 Indeksien ongelmista Epäinformatiiviset ominasuudet (autapomorfiat) vaikuttavat CI:n laskemiseen huomattavasti. Usein epäinformatiiviset ominaisuudet saavat hyvin korkea CI:n arvon, mikä vääristää tuloksia. Siksi onkin tavallista, että epäinformatiiviset ominaisuudet jätetään huomiotta CI:n arvoa laskettaessa. Useimmat tietokoneohjelmat osaavat huomioida tämän ongelman, mutta tuloksia kannattanee tulkita varovaisesti, jollei ole varma minkä arvon CI:lle ohjelma ilmoittaa. 188 Bioinformatiikan perusteet CI:n arvo myös usein pienenee sitä mukaa kuin analysoitavien taksonien määrä kasvaa, vaikkei aineiston informatiivisten ominaisuuksien määrässä tapahtuisi lainkaan muutosta. Tämä on odotettavaakin, koska CI on homoplasian määrän suhteellinen mittari ja siten suhteutettu aineiston kokoon. CI:n arvo ei myöskään voi koskaan saavuttaa nollaa, edes silloin, kun ominaisuuden homoplasia on täydellistä: Jos ominaisuudesta esiintyy aineistossa vain kahta eri tasoa, täytyy aineistoa vastaavassa puussa olla tapahtunut ominaisuudelle ainakin yksi muutos, jolloin ci = 100. Jos puussa on tapahtunut muutoksia esimerkiksi sata, on ci:n arvo 1. Vastaavasti, tapahtuipa muutoksia kuinka monta hyvänsä, ei ci:n arvo ikinä saavuta nollaa. 17.8 Ominaisuuksien painotus analyysissä Erilaisten muutosten, esimerkiksi transversioiden ja transitioiden, painottaminen on luonnollista suurimman uskottavuuden menetelmiä käytettäessä, sillä niiden yhteydessä pitää eksplisiittisesti valita jokin käytettävä evoluutiomalli. Parsimoniamenetelmien yhteydessä ominaisuuksien painottaminen voidaan tehdä Sankoffin matriisia käyttäen. On kuitenkin epäselvää, tulisiko ominaisuuksia painottaa parsimoniaanalyysin yhteydessä, ja jos tulisi, niin miten. Ominaisuuksien painotuksessa voidaan erottaa kaksi tapaa, a priori- ja a posteriori -painotus, mikä tarkoittaa sitä, että ominaisuuksille voidaan määrätä painotus joko ennen tai jälkeen analyysin. DNA-sekvenssien painotus analyysissä on useimmiten a priori-painotusta, sillä ominaisuuksille tai tarkemmin sanoen ominaisuuksien tasojen muutoksille määritetyt painoarvot määrätään yleensä jo ennen analyysiä sen perusteella, miten sekvenssien uskotaan evolvoituneen tai minkälaisten evoluutiovoimien katsotaan aineistossa olevan merkittäviä. DNA-sekvenssille voidaan käyttää esimerkiksi seuraavia painotuksia: • A priori 1. Kaikki nukleotidit saavat saman painoarvon (tasainen painotus) 2. Epätasainen painotus – Painotus riippuu nukleotidin sijainnista kodonissa (kolmannet positiot voivat saada muita positioita alhaisemman painoarvon analyysissä) – rRNA:n varsi- ja silmukka-alueet saavat erilaiset painoarvot analyysissä. – Transitio-transversio epäsuhteesta riippuva painotus – Painotus, jossa painoarvot määrätään havaittujen 12 erilaisen substituution määräsuhteiden mukaan. – Synonyymiset ja ei-synonyymiset substituutiot saavat eri painoarvon. • A posteriori 1. Painoarvot määrätään ominaisuuksille niiden havaitun homoplasian määrän suhteen. Samaa painotusta voidaan käyttää myös morfologisille ominaisuuksille. Painotukset voivat siis olla kahdella eri tasolla: analyysissä voidaan painottaa joko yksittäisiä ominaisuuksia tai yksittäisiä muutoksia, esimerkiksi muutoksia nukleotidista toiseksi. Näillä painotuksilla on hyvin erilainen tarkoitus. Usein analyysissä näkee painotetun kodonien kolmansia positioita muita vähemmän. Kodonien kolmannet positiot vaihtelevat kahteen muuhun verrattuna huomattavasti enemmän, koska kolmannessa positiossa tapahtuneet muutokset ovat 17 Parsimoniamenetelmä 189 useimmiten synonyymisiä, eivätkä siis aiheuta muutosta geeniä vastaavan proteiinin aminohappoketjussa. Kolmansissa positioissa kuitenkin huomattavasti informaatiota, joskin informaatio on suhteellisen homplasista, mutta niiden jättäminen analyysistä saattaa tuottaa huonompia tuloksia kuin jos ne pidetään analyysissä. Toinen usein DNA-sekvensseille käytetty ennen analyysiä suoritettava painotus perustuu transitio-transversio-suhteeseen. Pelkästään sattumalta voitaisiin olettaa, että sekvensseissä tapahtuu enemmän transversioita kuin transitioita, koska transitio voi tapahtua vain kahdella eri tavalla, mutta transitio kahdeksalla eri tavalla. Totuus on kuitenkin usein toinen, ja transitioita havaitaan useinkin tapahtuneen huomattavasti runsaammin kuin transversioita. Tällöin voidaan käyttää painotusta, joka poistaa eri substituutiomuotojen välisen runsaussuhde-eron (transversioita siis painotetaan enemmän kuin transitioita). Eri ominaisuuksien yhteensopivuus näyttää olevan parempi, jos analyysiin käytetään vain transversioita, verrattuna tilanteeseen, jossa analyysiin käytetään sekä transitioita että transversioita. Pelkkien transversioiden käyttö analyysissä tunnetaan nimellä transversioparsimonia. Myös eri muutosten painottamista suhteessa niiden yleisyyteen käytetään suhteellisen usein. Tällöin painoarvoista muodostuu Sankoffin matriisi, jonka analysointia on käsitelty jo aikaisemmin. A posteriori -painotuksessa on usein kyse siitä, että sellaiste ominaisuudet, jotka tuovat analyysiin enimmäkseen hälyä, saavat vain pienen painoarvon, ja hyvin informatiiviset ominaisuudet saavat suuremman painoarvon. Painotus tehdään vasta analyysin jälkeen käyttäen apuna muokattua yhdenmukaisuusineksiä. Jos ominaisuus sopii täydellisesti puuhun, on sen muokattu yhdenmukaisuusindeksi RC = 1. Jos ominaisuus sen sijaan on homoplasinen, on sen RC < 1. Jokaiselle ominaisuudelle voidaan laskea RC analyysin jälkeen. Kutakin ominaisuutta painotetaan seuraavaksi suhteessa sen saamaan RC-arvoon (arvot voidaan skaalata esimerkiksi välille 0-10), ja analyysi toistetaan käyttäen näin määrättyjä painoarvoja. Painoarvoja on käytetty useampien yhtä hyvien parsimoniapuiden erottelemiseen toisistaan. Esimerkiksi, tasaista painotusta käyttäen analyysi tuottaa kolme yhtä lyhyttä parsimoniapuuta (pituus 150). Näiden välillä ei voida tehdä eroa muulla keinoin, joten sovelletaan analyysiin painoarvoja: transversioita ja transitioita painotetaan eri tavoin. Nyt tuloksena on enää kaksi puuta (jotka ovat miltei samanlaisia kuin alkuperäisen analyysin tuottamat puut), joista toisen pituus tasaista painotusta käyttäen olisi 151 ja toisen 152. Siten voisimme kenties valita tuon 151 muutoksen mittaisen parsimoniapuun analyysimme tuottamaksi parhaaksi puuksi vaikkapa seuraavalla päättelyllä: painotetussa puussa ominaisuudet ovat tasaista painotusta yhteensopivampia muodostetun puun kanssa, ja siten 151 muutoksen mittainen puu on alkuperäisestä analyysistä saatua parempi. Painoarvojen käyttö ei sen sijaan välttämättä vähennä analyysin tuottamien yhtä lyhyiden parsimoniapuiden määrää, eikä painotusta pitäisi siihen käyttää. 190 Bioinformatiikan perusteet 18 Suurimman uskottavuuden menetelmä ja bayesilainen menetelmä 18.1 Mitä ovat suurimman uskottavuuden menetelmät? Suurimman uskottavuuden (maximum likelihood, ML) menetelmät ovat etäisyysja parsimoniamenetelmien ohella kolmas suuri menetelmäperhe, jonka avulla pyritään muodostamaan eliöiden suhteita kuvaava puu. Siinä missä parsimoniamenetelmässä optimaalisuuskriteerinä käytettiin puun pituutta, käytetään ML-menetelmissä kriteerinä uskottavuutta. Uskottavuus on todennäköisyys, että havaitsemme aineiston, jonka olemme koonneet, olettaen tietyn hypoteesin. Sama voidaan merkitä matemaattisesti muotoon L = P(D|H ), L on uskottavuus, P merkitsee todennäköisyyttä, D aineistoa, H hypoteesia ja merkintä D|H luetaan "aineisto ehdolla hypoteesi"siis aineiston todennäköisyys olettaen tietyn hypoteesin. Otetaan esimerkiksi joukko DNA-sekvenssejä. Suurimman uskottavuuden menetelmien tapauksessa hypoteesin muodostavat yhdessä evoluutiomalli (nukleotidien esiintymistiheydet, niiden muutostodennäköisyydet, ym.) ja puu, jonka uskotaan kuvaavan sitä, miten sekvenssit ovat evolvoituneet. Kun parsimoniamenetelmässä laskettiin puun pituus ehdolla aineisto (pituus | aineisto), käsitellään suurimman uskottavuuden menetelmien yhteydessä varsinaisesti todennäköisyyttä, että havaitsemamme aineisto on syntynyt hypotetisoimaamme mallia käyttäen. Koska nukleotidien frekvenssit ja muutostodennäkösiyydet yleensä arvioidaan datasta, ne pysyvät koko analyysin ajan muuttumattomina. Samaten aineistomme säilyy muuttumattomana, joten voimme myös turvallisesti puhua puun todennäköisyydestä, koska analyysin kuluessa ainut, jota muutamme on puun topologia. Eri puun topologiat voivat saada erilaisia uskottavuusarvoja, ja koko analyysi perustuu sellaisen puun muodon löytämiseen, jolla on suurin mahdollinen uskottavuus. Tässä apuna käytetään puunuudelleenjärjestelymenetelmiä. Suurimman uskottavuuden menetelmien yhteydessä käsitellään lukuja, jotka ovat välillä 0-1. Puun uskottavuutta laskettaessa joudutaan näitä desimaalilukuja kertomaan keskenään, usein hyvinkin monia kertoja. Tällöin muodostuvasta luvusta tulee hyvin pieni, eli siinä on hyvin monia desimaalinollia. Koska tietokoneiden laskentakapasiteetti loppuu kesken, kun luvussa on useita nollia, ja koska tietokoneella kertominen on hitaampaa kuin yhteenlaskeminen, käytetäänkin laskutoimituksissa useimmiten lukujen logaritmeja. Esimerkiksi todennäköisyyksien 0,0001 ja 0,00001 tulo on 0,000000001. Jos alkuperäisistä luvuista otettaisiin nyt 10-kantainen logaritmi, saataisiin luvut -4 ja -5. Vastaavasti luvun 0,00000001 10kantainen logaritmi on -9 (-4 + (-5) = -9). Laskettaessa siis pienten desimaalilukujen logaritmeilla, voidaan todennäköisyyttä laskettaessa toimia tulon sijaan summilla. Siksi puiden todennäköisyyskin useimmiten ilmoitetaan negatiivisena luku- 18 Suurimman uskottavuuden menetelmä ja bayesilainen menetelmä 191 na, joka on todennäköisyyden 10-kantainen logaritmi. Siten, mitä lähempänä nollaa eli mitä suurempi luku ilmoitettu todennäköisyys on, sitä uskottavampi kyseinen puu on. 18.2 Uskottavuuden käyttö todennäköisyyden arviointiin Oletetaan, että haluamme määrittää, millä todennäköisyydellä saamme kruunan heittämällä rahaa n kertaa. Voimme tietenkin etukäteen olettaa, että kruunan todennäköisyys on puoli (1/2). Entäpä, jos rahasta riippuu, voitammeko suuren röykkiön rahaa vai emme? Rahahan voi olla painotettu, minkä haluamme toki tietää, jos voittomme riippuu siitä veikkaammeko heiton tuloksen oikein. Tällöin voisimme määrittää todennäköisyyden empiirisesti suurimman uskottavuuden menetelmää käyttäen seuraavasti. Heitetään rahaa vaikkapa 11 kertaa (Felsenstein, 2003). Tällöin saamme tulokseksi seuraavan sarjan: kruuna, kruuna, klaava, klaava, kruuna, klaava, kruuna, kruuna, klaava, klaava, klaava. Jos nyt merkitsemme kruunan todennäköisyyttä p:llä, ja klaavan todennäköisyyttä 1-p:llä (näin voidaan menetellä, koska todennäköisyydet summautuvat aina ykköseen), voimme laskea saamamme sarjan. Jos oletamme, että heitot ovat toisistaan riippumattomia, saadaan koko sarjan todennäköisyys kertomalla yksitäisten heittojen todennäköisyydet keskenään. Kertomalla todennäköisyydet keskenään muodostuu seuraava lauseke: L = p ∗ p ∗ (1 − p) ∗ (1 − p) ∗ p ∗ (1 − p) ∗ p ∗ p ∗ (1 − p) ∗ (1 − p) ∗ (1 − p) = p 5 ∗ (1 − p)6 Lausekkeen perusteella voitaisiin määrittää kruunan suurin uskottavuus näiden havaintojen perusteella derivoimalla ylläoleva lauseke ja ratkaisemalla sen nollakohta. Useimmiten uskottavuudet muutetaan logaritmeiksi, jolloin ylläoleva lauseke muuttuisi muotoon: lnL = 5lnp + 6ln(1 − p), jonka derivaatta on d(lnL)/d( p) = 5/ p − 6/(1 − p), josta ratkaisemalla saadaan tulokseksi, että p ≈ 0.454. Samaan tulokseen oltaisiin tässä esimerkissä päädytty myös huomaamalla, että kruuna havaittiin viidessä tapauksessa yhdestätoista heitosta (5 / 11 ≈ 0.454). Sama esimerkki voidaan esittää uskottavuusfunktiona kuvan 18.1 mukaisesti. Käyrän huippu ilmoittaa kruunan todennäköisyyden tai uskottavuuden, ja sijaitsee kohdassa p = 5 / 11 ≈ 0.454. 18.3 Puun uskottavuuden laskeminen 18.3.1 Evoluutiomallin määrittäminen DNA-sekvensseille Erilaisten evoluutiomallien yhteydessä esiteltiin erilaisia nukleotidievoluutiota kuvaavia evoluutiomalleja, kuten Jukes-Cantor ja Kimuran kahden parametrin malli. Tässä yhteydessä esiteltiin evoluutiomalli niin sanottuna Q-matriisina, joka esimerkiksi Jukes-Cantorin mallille näyttää seuraavalta: A C G T A α α α C α α α G α α α T α α α - 192 Bioinformatiikan perusteet Kuva 18.1: Esimerkki uskottavuusfunktiosta. Q-matriisissa on esitetty yhdellä ajanhetkellä havaitut taajuudet, joilla kukin nukleotidi muuttuu toiseksi. Tietyn mittaisen puun haaran uskottavuuden laskemiseksi tarvitsemme kuitenkin matriisin, jossa on yleistäen esitetty kunkin nukleotidin muutostoennäköisyys toiseksi nukleotidiksi. Tällaista matriisia kutsutaan Pmatriisiksi. Q- ja P-matriisien välillä vallitsee suhde P(t) = e Qt , jossa P(t) on P-matriisi, e on Neperin luku, Q on Q-matriisi, ja t on oksan pituus ("aika"). Ratkaisemalla yhtälö, voidaan P-matriisi esimerkiksi Jukes-Cantorin mallille esittää seuraavasti. Jos muutos tapahtuu samasta nukleotidista samaksi (i = j), saadaan Pi j (t) = 1/4 + 3/4e −µt , ja jos muutos tapahtuu joksikin muuksi nukleotidiksi (i = j), saadaan Pi j (t) = 1/4 − 1/4e −µt , joissa µ on aineistosta havaittu muutosfrekvenssi, ja t on puun oksan pituus. Edellä esitettyjä kaavoja käyttäen voidaan muodostaa P-matriisi Jukes-Cantorin mallille. Jukes-Cantorin mallissa oletetaan, että kaikki nukleotidit ovat yhtä yleisiä (a = c = g = t = 0.25), ja että kaikki muutokset yhtä todennäköisiä. Oletetaan lisäksi, että kussakin sekvenssikohdassa tapahtuu vain 0,1 muutosta (oksan pituus = µ = 0,1). Tällöin Pi j (t)[i = j ] = 1/4 + 3/4e −µt = 0, 25 + 0, 75 ∗ e −0,25∗0,1 = 0, 9815 Pi j (t)[i = j ] = 1/4 − 1/4e −µt = 0, 25 − 0, 25 ∗ e −0,25∗0,1 = 0, 0062 Sama voidaan ilmoittaa P-matriisina seuraavasti. A C G T A 0,9815 0,0062 0,0062 0,0062 C 0,0062 0,9815 0,0062 0,0062 G 0,0062 0,0062 0,9815 0,0062 T 0,0062 0,0062 0,0062 0,9815 18 Suurimman uskottavuuden menetelmä ja bayesilainen menetelmä 193 Rivit summautuvat ykköseen, mikä on huojentavaa, sillä todennäköisyyksien pitääkin. Sarakkeetkin summautuvat Jukes-Cantorin mallia käytettäessä ykköseen, mutta muita malleja käytettäessä eivät välttämättä mihinkään erityiseen lukuun. Diagonaalilla sijaitsevat luvut ovat varsin lähellä ykköstä, mikä kertoo siitä, että nukleotidin pysyminen muuttumattomana on paljon todennäköisempää kuin sen muuttuminen. Jos P-matriisi kerrotaan riittävän monta kertaa itsellään, on tuloksena matriisi, joka sisältää nukleotidifrekvenssit: A C G T A 0.2577311 0.2560318 0.2560318 0.2560318 C 0.2560318 0.2577311 0.2560318 0.2560318 G 0.2560318 0.2560318 0.2577311 0.2560318 T 0.2560318 0.2560318 0.2560318 0.2577311 P-matriisiin on siis sisäänrakennettu nukleotidien frekvenssit. 18.3.2 Uskottavuuden laskeminen Edellä muodostettua P-matriisia ja nukleotidien runsaussuhteita käyttäen voidaan laskea mille tahansa puulle sen uskottavuus. Suurimman uskottavuuden menetelmät olettavat, että ominaisuudet (rinnastuksen eri kohdat) evolvoituvat toisistaan riippumatta, ja että eri sekvenssit evolvoituvat toisistaan riippumatta. Uskottavuus voidaan laskea kaavalla (i) L = P(D|T ) = m i=1 P(D |T ), (i) jossa D on kussakin kohdassa sekvenssikohdassa havaittu aineisto. Koska yksittäisten sekvenssikohtien uskottavuudet kerrotaan keskenään, laskeaksemme koko puun uskottavuuden meidän tarvitsee vain osata laskea yhden sekvenssikohdan uskottavuus. Yhden sekvenssikohdan todennäköisyys saadaan kertomalla keskenään siinä havaitun nukleotidin runsaus ja sen todennäköisyys muuttua puussa nukleotidista toiseksi. Jos oletamme, että evoluutio on jatkunut jo pitkään tiettyä mallia noudattaen, voimme pitää nukleotidin runsautta arviona siitä, että sekvenssijoukossa sattumalta havaitsisimme kyseisessä kohdassa tietyn nukleotidin. 18.3.3 Kahden taksonin puu Jos esimerkiksi tutkisimme kahta sekvenssiä (acct ja gcct), jotka voidaan tietenkin sijoittaa puuhun vain yhdellä tavalla (acct-gcct), voisimme laskea havaitsemamme aineiston todennäköisyyden edellä muodostettua P-matriisia ja nukleotidien runsaussuhteista (a = c = g = t = 0,25) käyttäen seuraavasti. P(ACC T , GCC T ) = 0, 25 ∗ 0, 0062 ∗ 0, 25 ∗ 0, 9815 ∗ 0, 25 ∗ 0, 9815 ∗ 0, 25 ∗ 0, 9815 ≈ 0, 00002289932 log(0, 00002289932) ≈ −4, 64 Muodostimme edellä P-matriisin siten, että se kuvasi oksaa, jossa on tapahtunut 0,1 muutosta kutakin sekvenssikohtaa kohden. Sanotaan, että tämä matriisi kuvasi yhden ced:n mittaista oksaa (ced = certain evolutionary distance). Muilla oksan pituuksille todennäköisyys voidaan laskea muodostamalla P-matriisi eri ced-pituuksille. Tämä tapahtuu kertomalla matriisi itsellään haluttu määrä kertoja. Esimerkiksi pituudelle ced = 2, matriisi näyttää seuraavalta. 194 Bioinformatiikan perusteet A C G T A 0.96345757 0.01224748 0.01224748 0.01224748 C 0.01224748 0.96345757 0.01224748 0.01224748 G 0.01224748 0.01224748 0.96345757 0.01224748 T 0.01224748 0.01224748 0.01224748 0.96345757 Nyt kahden ced:n mittaiselle oksalle voidaan laskea uskottavuus kuten edelläkin, siis P(ACC T , GCC T ) = 0, 25 ∗ 0, 0122 ∗ 0, 25 ∗ 0, 9634 ∗ 0, 25 ∗ 0, 9634 ∗ 0, 25 ∗ 0, 9634 ≈ 0, 00004261277 Todennäköisyydet eri mittaisille oksille voidaan taulukoida seuraavasti ced 1 5 10 15 20 25 30 uskottavuus 0,00002289932 0,00008743635 0,0001260524 0,0001378325 0,0001355449 0,0001264883 0,0001147375 Uskottavuuksista on tarkoitus etsiä kaikkein suurin. Oksan pituus ced-yksikköinä määräytyy siis sen mukaan, millä ced:n arvolla oksan uskottavuus maksimoituu. Uskottavuudet voidaan piirtää ced:n suhteen kuvaan 18.2, jonka perusteella on suhteellisen helppo määrittää, että suurimman uskottavuuden saa oksa, jonka pituus on 15 ced-yksikköä. Koska yksi ced vastasi 0,1 muutosta kutakin sekvenssikohtaa kohden, saa suurimman uskottavuuden arvon oksa, jossa on tapahtunut keskimäärin 1,5 muutosta kutakin sekvenssikohtaa kohden. 18.3.4 Kolmen taksonin puu Edellä laskimme yksioksaisen puun uskottavuuden, ja optimoimme oksan pituuden. Seuraavassa esitetään, miten uskottavuus voidaan laskea puulle, jossa on kolme haaraa. Oletetaan, että haluamme laskea seuraavan puun uskottavuuden: Aineiston, jota olemme analysoimassa näyttää seuraavalta. A acct B gcct C agct Puuhun on merkitty oksien pituudet. Tarvitsemmekin uskottavuuden laskemista varten nyt P-matriisit ekä oksan pituudelle 0,1, että 0,2. Matriisit on esitetty seuraavassa taulukossa. Puun uskottavuus voidaan laskea nyt helpoiten laskea puun sisäisen haaran O suhteen. Koska O:n ominaisuuksien tasoja ei tunneta, pitää laskuissa tarkastella kaikki vaihtoehdot. Jos oletetaan, että O:n ensimmäisen ominaisuuden taso olisi A, näyttäisi sen perusteella muodostettu uskottavuus seuraavalta. Kunkin nukleotidin runsautta merkitään p:llä, ja oksanpituutta vastaavasta P-matriisista luettua todennäköisyyttä P:llä. L = π A ∗ P(0,1,A−>A) ∗ P(0,2,A−>G) ∗ P(0,1,A−>A) 18 Suurimman uskottavuuden menetelmä ja bayesilainen menetelmä Kuva 18.2: Esimerkki uskottavuusfunktion maksimoinnista. 195 196 Bioinformatiikan perusteet Taulukko 18.1: t=0,1 A C G T A 0,9815 0,0062 0,0062 0,0062 C 0,0062 0,9815 0,0062 0,0062 G 0,0062 0,0062 0,9815 0,0062 T 0,0062 0,0062 0,0062 0,9815 t=0,2 A C G T A 0.96345757 0.01224748 0.01224748 0.01224748 C 0.01224748 0.96345757 0.01224748 0.01224748 G 0.01224748 0.01224748 0.96345757 0.01224748 T 0.01224748 0.01224748 0.01224748 0.96345757 Uskottavuutta laskettaessa otetaan siis huomioon jokaisen haaran pituus siten, että käytetään laskutoimituksissa ko. haaran pituutta varten laskettua P-matriisia ja sen lukuarvoja. Sekvenssirinnastuksen ensimmäisen kohdan uskottavuutta laskettaessa tulee kuitenkin tutkia kaikki vaihtoehdot, jotka taksonilla O on, ja täydellinen lauseke näyttäisi seuraavalta: L = π A ∗ P(0,1,A−>A) ∗ P(0,2,A−>G) ∗ P(0,1,A−>A) + πc ∗ P(0,1,C−>A) ∗ P(0,2,C−>G) ∗ P(0,1,C−>A) + πg ∗ P(0,1,G−>A) ∗ P(0,2,G−>G) ∗ P(0,1,G−>A) + πt ∗ P(0,1,T −>A) ∗ P(0,2,T −>G) ∗ P(0,1,T −>A) + = 0, 25 ∗ 0, 9815 ∗ 0, 0122 ∗ 0, 9815 + 0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062 + 0, 25 ∗ 0, 0062 ∗ 0, 9635 ∗ 0, 0062 + 0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062 = 0, 0003 Seuraavaksi sama laskutoimitus tehdään erikseen jokaiselle sekvenssikohdalle, ja näin saadut todennäköisyydet kerrotaan keskenään. Tulokseksi saadaan koko puun uskottavuus eli L = (π A ∗ P(0,1,A−>A) ∗ P(0,2,A−>G) ∗ P(0,1,A−>A) + πc ∗ P(0,1,C−>A) ∗ P(0,2,C−>G) ∗ P(0,1,C−>A) + πg ∗ P(0,1,G−>A) ∗ P(0,2,G−>G) ∗ P(0,1,G−>A) + πt ∗ P(0,1,T −>A) ∗ P(0,2,T −>G) ∗ P(0,1,T −>A) ) ∗ (π A ∗ P(0,1,A−>C) ∗ P(0,2,A−>C) ∗ P(0,1,A−>G) + πc ∗ P(0,1,C−>C) ∗ P(0,2,C−>C) ∗ P(0,1,C−>G) + πg ∗ P(0,1,G−>C) ∗ P(0,2,G−>C) ∗ P(0,1,G−>G) + πt ∗ P(0,1,T −>C) ∗ P(0,2,T −>C) ∗ P(0,1,T −>G) ) ∗ (π A ∗ P(0,1,A−>C) ∗ P(0,2,A−>C) ∗ P(0,1,A−>C) + πc ∗ P(0,1,C−>C) ∗ P(0,2,C−>C) ∗ P(0,1,C−>C) + πg ∗ P(0,1,G−>C) ∗ P(0,2,G−>C) ∗ P(0,1,G−>C) + πt ∗ P(0,1,T −>C) ∗ P(0,2,T −>C) ∗ P(0,1,T −>C) ) ∗ (π A ∗ P(0,1,A−>T ) ∗ P(0,2,A−>T ) ∗ P(0,1,A−>T ) + πc ∗ P(0,1,C−>T ) ∗ P(0,2,C−>T ) ∗ P(0,1,C−>T ) + πg ∗ P(0,1,G−>T ) ∗ P(0,2,G−>T ) ∗ P(0,1,G−>T ) + πt ∗ P(0,1,T −>T ) ∗ P(0,2,T −>T ) ∗ P(0,1,T −>T ) ) ≈ (0, 25 ∗ 0, 9815 ∗ 0, 0122 ∗ 0,9815 + 0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062 + 0, 25 ∗ 0, 0062 ∗ 0, 9635 ∗ 0, 0062 + 18 Suurimman uskottavuuden menetelmä ja bayesilainen menetelmä 197 0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062) ∗ (0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062 + 0, 25 ∗ 0, 9815 ∗ 0, 9635 ∗ 0, 0062 + 0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 9815 + 0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062) ∗ (0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062 + 0, 25 ∗ 0, 9815 ∗ 0, 9635 ∗ 0, 9815 + 0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062 + 0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062) ∗ (0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062 + 0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062 + 0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062 + 0, 25 ∗ 0, 9815 ∗ 0, 9635 ∗ 0, 9815) ≈ 0, 0000002356 log(0, 0000002356) ≈ −15, 26 Jos puun oksien pituuksia ei tunnettaisi, voitaisiin niiden pituus optimoida kuten kahden sekvenssin tapauksessakin. Tämä tapahtuisi siis kokeilemalla erilaisille oksan pituuksille laskettuja P-matriiseja, ja valitsemalla kullekin oksalle se matriisi (siis oksan pituus), joka maksimoi oksan uskottavuuden. 18.3.5 Neljän taksonin puun uskottavuuden laskeminen Edellä kuvatuille kahta ja kolmea sekvenssiä yhdistäville puille on helppo laskea uskottavuus, sillä puut koostuvat käytännössä vain muutamista haaroista. Suuremmalle puulle uskottavuuden laskeminen muodostuu huomattavasti työläämmäksi, sillä puun oksien pituuksien optimoimiseksi, tulee puun sisäisiin haaroihin optimoida niissä sijaitsevien hypoteettisten kantamuotojen sekvenssit. Esimerkiksi, neljän taksonin suhteita kuvaava juurtamaton puu voidaan piirtää kolmella eri tavalla, joista yksi on muodoltaan ((A,B)(C,D)). Jos tarkastellaan yhtä ominaisuutta, havaitaan, että A:lla ja B:llä sen taso on adeniini (A) ja C:llä ja D:llä tymiini (T). A:ta ja B:tä yhdistävää haaraa kutsutaan X:ksi, ja C:tä ja D:tä yhdistävää haaraa Y:ksi. Puu näyttää siis seuraavalta: Puun molempiin sisäisiin haaroihin kokeillaan kaikkia mahdollisia nukleotideja (A, C, G ja T), joten erilaisia ominaisuusyhdistelmiä muodostuu puun sisäisiin haaroihin yhteensä 16 kappaletta. Jos laskuissa käytetään edellä muodostettua Pmatriisia, tulee todennäköisimmäksi puuksi sellainen, jossa haarassa X on adeniini, ja haarassa Y tymiini. Neljälle lajille kaikkein uskottavimman puun läpikäyminen vaatisi 16*3 = 48 puun läpikäymistä, ja ominaisuuksien sekä oksan pituuksien optimoimista niihin. Suurimman uskottavuuden menetelmät ovat laskennallisesti varsin raskaita, ja niiden käyttö rajoittuu edelleenkin suhteellisen pieniin aineistoihin (<100 taksonia). 198 Bioinformatiikan perusteet 18.3.6 Ominaisuuksien evoluutionopeuden vaihtelun ottaminen huomioon Monesti sekvenssien eri kohdat muuttuvat eri nopeuksilla siten, että tietyissä paikoissa tapahtuu enemmän mutaatioita kuin muissa. Evoluutiomallien yhteydessä oli puhetta tästä ilmiöstä, ja sitä voidaan mallittaa esimerkiksi käyttäen gammajakaumaa. Usein jotkin sekvensikohdat eivät ole muuttuneet lainkaan, vaan kaikilla analysoitavilla taksoneilla on niissä sama nukleotidi. Tällaisia sekvenssikohtia kutsutaan nimellä vaihtelematon (invariant), ja ne voidaan huomioida gammajakaumaa käytettäessä. Jos eri sekvenssikohtien muutosnopeutta mallitetaan gammajakaumalla, liitetään käytetyn evoluutiomallin perään usein merkintä . Siten esimerkiksi merkintä JC + tarkoittaisi Jukes-Cantorin mallia, jossa ominaisuuksien muutosnopeuksien vaihtelu on mallitettu gammajakaumaa käyttäen. Jos mallissa käytetään pelkkää gammajakaumaa, ei tällöin varsinaisesti oleteta, että jokin osa sekvenssikohdista ei voisi muuttua. Jos kuitenkin voidaan olettaa, että jotkin kohdat eivät vaihtele, tulee malliin lisätä myös kyseinen (invariant) oletus. Useimmiten tämä merkitään mallin yhteyteen kirjaimella I. Siten merkintä JC + + I tarkoittaa Jukes-Cantorin mallia, jossa eri sekvenssikohtien muutosnopeuksien eroja mallitetaan gammajakaumalla, ja lisäksi oletetaan, että osa kohdista ei vaihtele. Yleensä gammajakaumasta käytetään diskreettiä muotoa, millä tarkoitetaan sitä, että muutostodennäköisyys voi kuulua johonkin ryhmään. Diskreetillä jakaumalla tarkoitetaan ylipäätään sitä, että jakauma ei ole jatkuva vaan koostuu yksittäistä ryhmistä. Asian hahmottamista voi auttaa, jos tarkastelee kuvaa 15.2. Siinä on kuvattu muutamia erilaisia jatkuvia gammajakaumia. Jos nyt sama jakauma haluttaisiin piirtää histogrammia käyttäen, voitaisiin histogrammiin piirtää vaikkapa 20 pylvästä. Nyt tuo histogrammi olisi tavallaan diskreetti gammajakauma, jossa on 20 luokkaa. Diskreettiä jakaumaa käytetään laskutoimituksissa yleensä siksi, että sitä käyttäen laskutoimitukset ovat yksinkertaisempia ja nopeampia suorittaa. Jos gammajakaumaa käytetään sekvenssikohtien vaihtelutodennäköisyyden mallintamiseen, se vaikuttaa myös edellä kuvatuihin laskutoimituksiin. Jokaiselle gammajakauman luokalle voidaan määrätä todennäköisyys, jolla jokin sekvenssikohta on peräisin kyseisestä gammajakauman luokasta. Laskutoimituksissa tämä näkyy siten, että todennäköisyys havaitulle muutokselle (vaikkapa yhdelle puun oksalle) lasketaan erikseen jokaista gammajakauman luokkaa käyttäen, ja eri vaihtoehtojen tuottamat tulokset lasketaan yhteen. Esimerkiksi ylläkuvatulle kahdesta sekvenssistä koostuvalle yksioksaiselle puulle todennäköisyys lasketaan seuraavasti, kuten jo aiemmin on todettu. P(ACC T , GCC T ) = π A P(0,1,A−>G) πC P(0,1,C−>C) πC P(0,1,C−>C) πT P(0,1,T −>T ) = 0, 25 ∗ 0, 0062 ∗ 0, 25 ∗ 0, 9815 ∗ 0, 25 ∗ 0,9815 ∗ 0,25 ∗ 0, 9815 ≈ 0, 00002289932 log(0, 00002289932) ≈ −4, 64 Jos oletetaan, että kahden gammajakauman luokan todennäköisyydet ovat 0,8 ja 0,2, muodostuu todennäköisyydeksi P(ACC T , GCC T ) = (π A P(0,1,A−>G) 1 + π A P(0,1,A−>G) 2 ) ∗ (πC P(0,1,C−>C) 1 + πC P(0,1,C−>C) 2 ) ∗ (πC P(0,1,C−>C) 1 + πC P(0,1,C−>C) 2 ) ∗ (πT P(0,1,T −>T ) 1 + πT P(0,1,T −>T ) 2 ) = (0, 25 ∗ 0, 0062 ∗ 0, 8 + 0,25 ∗ 0, 0062 ∗ 0, 2) ∗ (0, 25 ∗ 0, 9815 ∗ 0,8 + 0, 25 ∗ 0, 9815 ∗ 0, 2) ∗ (0, 25 ∗ 0, 9815 ∗ 0,8 + 0, 25 ∗ 0, 9815 ∗ 0, 2) ∗ (0, 25 ∗ 0, 9815 ∗ 0,8 + 0, 25 ∗ 0, 9815 ∗ 0, 2) = 0, 00002289932 Jos analyysissä käytetään gammajakaumaa, on analyysiaika huomattavasti pidempi kuin analyysissä, jossa gammajakaumaa ei käytetä. Tämä johtuu siitä, laskutoimitusten tarve kutakin sekvenssikohtaa kohden kasvaa, mikä tietnkin lisää myös 18 Suurimman uskottavuuden menetelmä ja bayesilainen menetelmä 199 laskenta-ajan tarvetta. Monet ohjelmat käyttävät edelleen gammajakaumaa, mutta esimerkiksi PHYLIPpaketin suurimman uskottavuuden menetelmää soveltavat ohjelmat, esimerkiksi dnaml, toteuttavat saman idean kätkettyjä Markovin malleja (HMM) käyttäen. Periaatteessa HMM:ä käyttäen voitaisiin sekvenssikohdat jakaa mihin tahansa ryhmiin. Esimerkiksi voitaisiin haluta erotella proteiinia koodaavan geenin kodonien ensimmäiset, toiset ja kolmannet positiot toisistaan. Tämäkin on mahdollista esimerkiksi dnaml-ohjelmassa (käyttäen optiota C ja categories-tiedostoa, jossa ei sekvenssikohdat sijoitetaan eri kategorioihin). HMM:ien käyttö poistaa tai oikeastaan vain löyhentää menetelmään sisäänrakennettua oletusta siitä, että sekvenssin vierekkäiset nukleotidit ovat riippumattomia toisistaan. HMM:ssä on mahdollista käyttää oletustä, että vierekkäiset nukleotidit korreloivat keskenään, eivätkä siten ole riippumattomia, mutta nukleotideista voidaan myös tehdä riippumattomia. Ohjelmassa dnaml tämä on mahdollista optiota A käyttäen. Jos HMM on otettu ohjelmassa käyttöön, voidaan lisäksi asettaa sekvenssikohtien autokorrelaatio (autocorrelation). Option asetuksena käytetään sen sekvenssipätkän pituutta, jolla oletetaan HMM:ssä olevan sama evoluutionopeus. Jos pituus on 1, käsitellään sekvenssikohtia käytännössä toisistaan riippumattomina, mutta jos pituusasetus on suurempi, esimerkiksi 10, oletetaan HMM:ssä, että aina keskimäärin 10 nukleotidilla on sama muuttumisnopeus. 18.3.7 Evoluutiomallin määrittäminen aminohapposekvensseille Kuten aiemminkin on ollut puhetta, käytetään evoluutiomallina aminohapposekvensseille yleensä jotakin empiiristä matriisia, kuten PAM- tai Blosum-matriisia. Nämä matriisit kuvataan yleensä log-odds muodossa, jolloin niissä esitetyt luvut ovat pyöristettyjä kokonaislukuja. Molekyylisystematiikan työskentelyä varten tarvitaan kuitenkin hieman tarkempi esitys, ja tällöin käytetäänkin mutation probability matrix (M) -matriisia. Tästä oli puhetta jo, kun PAM-matriisien muodostaminen selitettiin. Se on muodostettu siten, että perusmatriisi vastaa tilannetta, jossa puun oksan pituus olisi 0,01. Matriisi voidaan muuttaa koskemaan pidempiä oksan pituuksia kertomalla se tarpeellinen määrä kertoja itsellään (kuten yllä on tehty DNAsekvenssimallie yhteydessä). Koska matriisi vastaa käytännössä DNA-mallien Pmatriisia on kertolaskutoimituksen antama tulos itseasiassa approksimaalinen, ja parempi tapa olisikin ensin muuttaa P-matriisi Q-matriisiksi, ja sitten kertoa Qmatriisi itsellään haluttu määrä kertoja. Käytännössä ero on useimmiten todennäköisyyksissä alle 1matriisin kertomisen P-matriisia käyttäen, toiset Q-matriisia käyttäen. 18.4 Kuinka paras puu löydetään Suurimman uskottavuuden menetelmillä paras eli uskottavin puu etsitään kuten parsimoniamenetelmilläkin. Aluksi muodostetaan yksi puu jollakin nopealla tavalla, esimerkiksi kokoamalla puu siten, että sekvenssit lisätään puuhun yksi kerrallaan, ja jokainen uusi sekvenssi sijoitetaan puussa siihen kohtaan, jossa se maksimoi muodostuvan puun uskottavuuden. Toisinaan alkuperäinen puu voidaan myös muodostaa etäisyys- tai parsimoniamenetelmin. Alkuperäistä puuta muodostettaessa on tärkeää satunnaistaa sekvenssien lisäysjärjestys. Sekvenssien lisäysjärjestys nimittäin vaikuttaa tuloksiin, vaikka jokainen sekvenssi sijoitetaankin aina kohtaan, joka maksimoi puun uskottavuuden (Kuva 18.3). Tätä sekvenssien lisäysjärjestyksen satunnaistamista kutsutaan random addition sequence:ksi tai jumble:ksi, ja asiaan tutustutaan tarkemmin puun uudelleenjärjestelymenetelmien yhteydessä. Kun alkuperäinen puu on muodostettu, pyritään sitä uudelleenjärjestelemään jollakin menetelmällä, ja siten maksimoimaan puun uskottavuus. Jokaisen uudel- 200 Bioinformatiikan perusteet Kuva 18.3: Ylärivillä on kuvattu alkuperäinen, rinnastettu aineisto, ja puun muodostus sen perusteella vaihe vaiheelta. Rinnastuksesta valitaan puuhun liitettäväksi ylhäältä alaspäin lukien aina seuraava sekvenssi puussa vielä olematon. Kussakin vaiheessa seuraavana vuorossa olevan sekvenssi on lisätty puussa siihen paikkaan, jossa puun uskottavuus maksimoituu. Alarivillä on kuvattu, mitä voi tapahtua, kun sekvenssien lisäysjärjestys satunnaistetaan. Jossakin puun koostamisvaiheessa jotkin lajit vaihtavat paikkaa alkuperäisen järjestyksen perusteella muodostettuun puuhun nähden. leenjärjestelyn jälkeen puun uskottavuus lasketaan uudelleen, ja kun kaikki uudeleenjärjestelyt on kokeiltu, otetaan talteen vain uskottavin puu. Puun uudelleenjärjestelymenetelmät on esitelty omassa luvussaan. Monissa ohjelmissa suurimman uskottavuuden menetelmien yhteydessä voidaan käyttää joko NNI-, SPR- tai TBRmenetelmiä, toisissa TBR-menetelmä ei ole saatavilla. Lisäksi joissakin uudemmissa ohjelmissa on saatavilla esimerkiksi geneettisiin algoritmeihin perutuvia uudelleenjärjestelymenetelmiä. Esimerkki tällaisesta ohjelmasta on metaPIGA (metapopulation genetic algorithm). Koska sekä parsimonia- että suurimman uskottavuuden menetelmien tarkoituksena on optimoida jotakin, siis joko puun pituutta tai sen uskottavuutta, on molemmissa menetelmissä tärkeää pyrkiä aktiivisesti etsimään parasta puuta. MLmenetelmien yhteydessä tämä ei ole yhtä helppoa, koska jo yhden uudelleenjärjestelyn jälkeen puun uskottavuuden uudelleenlaskeminen voi olla työläs ja aikaaviepä prosessi. Siksi ML-menetelmissä, etenkään hiukankaan suuremmilla aineistoilla, ei useinkaan löydetä kaikkein uskottavinta puuta, yksinkertaisesti siitä syystä, ettei sitä ole etsitty riittävän tarmokkaasti, koska ajoaika on analyysin suorittamista rajoittava tekijä. Eräs tapa kiertää pitkän ajoajan aiheuttamia hankaluuksia on muodostaa aluksi aineistolle optimaalisin parsimoniapuu, ja jatkaa sitten uudelleenjärjestelyitä tällä puulla ML-menetelmää optimaalisuuskriteerinä käyttäen. Optimaalisin parsimoniapuu on usein suhteellisen lähellä optimaalisinta ML-puuta, joten parsimoniapuun perusteella aloitettu heuristinen haku löytänee parhaan ML-puunkin suhteellisesti huomattavasti nopeammin kuin jos analyysi olisi suoritettu alusta loppuun ML-menetelmää käyttäen. 18.5 Mitä ovat bayesilaiset menetelmät? Bayesilaiset menetelmät ovat hyvin lähellä suurimman uskottavuuden menetelmiä, ja siten niiden käsittely ML-menetelmien yhteydessä onkin perusteltua. Bayesilaiset menetelmät ovat edelleen varsin kiisteltyjä, vaikka alkuperäinen idea on esitetty jo 1790. Bayesin teoreeman mukaan hypoteesin (H) todennäköisyys, kun havaitaan data (D) saadaan kaavasta P(H |D) = P(H)P(D|H) P(D) Huomaa, että osoittajan toinen tekijä, P (D | H) on itseasiassa hypoteesimme uskottavuus. Bayesin teoreeman avulla voidaan muuttaa jokin oletuksemme asiain 18 Suurimman uskottavuuden menetelmä ja bayesilainen menetelmä 201 tilasta (priori-jakauma) asiaintilan todennäköisyydeksi, kun olemme keränneet aineiston (posteriori-jakauma). Bayesin teoreema on juuri siksi niin houkutteleva, että sen avulla voimma laskea erilaisten hypoteesien, kuten erilaisten puiden, todennäköisyydet havaitsemallamme aineistolla. Vaikka bayesilaisia menetelmiä on sovellettu molekyylisystamatiikan ongelmiin aiemminkin, käyttivät Rannala ja Yang (1996) ensimmäisenä täydellistä bayesilaista lähestysmistapaa. Se oli kuitenkin laskennallisesti varsin raskas, ja soveltui siten vain pienille sekvenssimäärille. Nykyisin bayesilaiset menetelmät onkin toteutettu Markov Chain Monte Carlo (MCMC) - menetelmää käyttäen, joka on laskennallisesti huomattavasti kevyempi (Yang, 1997). MCMC-menetelmät valitsevat posteriori-jakaumasta, siis tässä tapauksessa puista, tietyn kokoisen satunnaisotoksen. Siten "todellisen"puun todennäköisyyksistä voidaan vetää suoraan johtopäätöksiä. Jos esimerkiksi valituista puista 96perustuu tietenkin aineiston perusteella vedyttyihin johtopäätöksiin, jotka ovat vain yhtä hyviä kuin aineistomme. MCMC-menetelmän ideana on vaeltaa satunnaisesti kaikkien mahdollisten puiden muodostamassa avaruudessa siten, että loppujen lopuksi puujakaumalla on posteriori-jakauman ominaisuudet. Kuvittele puuavaruus, josta valitaan yksi puu (T1). Yhden uudelleenjärjestelyn päässä siitä on puu T2. Puiden todennäköisyyksien suhde (puun todennäköisyys voidaan laskea kuten ML-menetelmien yhteydessä haluttua evoluutiomallia käyttäen) lasketaan, ja jos suhde on suurempi kuin 1, jatketaan puuavaruudessa vaeltelua puusta T2. Jos suhde on pienempi kuin 1, voidaan satunnaisesti valita puuksi myös T1. Tämä vaelteluprosessi ei ikinä pääty, mutta hakeutuu lopulta tasapainotilaan, jossa todennäköisyys, että puusta T2 jatketaan on yhtä suuri kuin että puusta T1 jatketaan. Vaihetta, jossa vaeltelu hakeutuu tasapainotilaan, kutsutaan burn-in -vaiheeksi. Burn-in -vaiheessa voidaan käydä läpi vaikkapa 5 000 puuta. Tämän jälkeen puuavaruudesta löydetyistä puista poimitaan vaikkapa joka sadas, kunnes 100 000 puuta on käyty läpi. Puut voidaan tämän jälkeen vetää yhteen käyttäen ryhmätodennäköisyyksiä: Jos esimerkiksi valituista puista 96% esiintyy ryhmä (ihminen, simpanssi), voimme sanoa, että ryhmä on monofyleettinen todennäköisyydellä 96%. Lisäksi näin muodostetulle puulle voidaan estimoida oksien pituudet ML-menetelmiä käyttäen. Bayesilaista menetelmää soveltava ohjelma MrBayes toimii kuten edellä on hahmoteltu, muissa ohjelmissa voi olla toisenlaisia toteutustapoja. Bayesilaisten menetelmien kritiikki perustuu lähinnä siihen, että ennen menetelmän soveltamista täytyy määrittää millaista puiden priori-jakaumaa käytetään. Usein käytetään erilaisia rajoituksia esimerkiksi oksien pituuksille ja nukleotidien muutostodennäköisyyksille. Lisäksi on mahdollista olettaa, että kaikki puut ovat yhtä todennäköisiä (flat prior) tai niiden todennäköisyyksiä voidaan rajoittaa esimerkiksi määrittelemällä puuhun monofyleettisiä ryhmiä. Menetelmän antamat tulokset voivat riippua käytetystä priori-jakaumasta, eikä jakauman valintaa ole olemassa mitään yleispätevää sääntöä - kuinka puiden todennäköisyyksistä voitaisiinkaan hypotetisoida paljonkaan mitään varmaa. Usein bayesilaiset menetelmät näyttävät olevan suhteellisen robusteja tehtyjen alkuoletusten suhteen, mutta oletusten vaikutusta tuloksiin ei ole vielä tutkittu kovin kattavasti. 202 Bioinformatiikan perusteet 19 Superpuumenetelmät 19.1 Mitä superpuumenetelmät ovat? Superpuumenetelmät ovat molekyylisystematiikan lähestymistapa, jossa pyritään yhdistämään ominaisuusmatriisien sijasta puita siten, että tuloksena on alkuperäisiä puita kattavampi tulos. Superpuumenetelmät eroavatkin esimerkiksi konsensusmenetelmistä, joissa useammissa samat lajit sisältävissä puissa oleva informaatio pyritään esittämään yksinkertaisemmassa muodossa: superpuumenetelmien soveltamiseksi kaikissa yhdistettävissä puissa ei tarvitse olla mukana samoja lajeja, joskin mitä suurempi päällekkäisyys, sitä tarkempi tulos. Superpuussa onkin yleensä useampia lajeja kuin yhdessäkään sen muodostamiseen käytetyssä yksittäisessä puussa. Supermatriisimenetelmiin, joissa yksittäisten tutkimusten tuottamat ominaisuusmatriisit yhdistetään ja analysoidaan yhtenä aineistona, perustuvat analyysit ovat tähän mennessä parhaimmillaankin kattaneet vain muutamia tuhansia lajeja. Supermatriisimenetelmin tuskin onkaan koskaan mahdollistaa koota koko eliökunnan sisältävää puuta, vaan tällaisen puun muodostamiseen tarvitaan miltei välttämättä superpuumenetelmiä, jotka ainakin periaatteessa kykenevät käsittelemään analyysissä hyvinkin suuria lajimääriä. Superpuumenetelmät ovat tällä hetkellä noin 15 vuoden ikäisiä, ja siten edelleen varsin aktiivisen kehitystyön alla. Osittain siksi menetelmät ovat saaneet myös osakseen huomattaa ja voimakasta kritiikkiä, joka liittyy keskusteluun "taksonominen vai ominaisuuksien yhteensopivuus", jota on käsitelty tarkemmin luvussa "Molekyylisystematiikan avoimia kysymyksiä". 19.2 Olemassa olevat superpuumenetelmät Superpuumenetelmiä on olemassa varsin suuri joukko, joilla, kuten monilla muillakin menetelmämuunnoksilla, on kullakin hyvät ja huonot puolensa. Tällä hetkellä käytössä olevat tai ainakin algoritmitasolla esitellyt superpuumenetelmät ovat: • Yhteensopivuusmenetelmät – – – – – – – Gordon’s strict MinCutSUPERTREE Ranked tree Semi-labelled Ancestral build Semi-strict Strict consensus merger • Optimointimenetelmät – Average consensus 19 Superpuumenetelmät 203 – Bayesian supertrees – Gene tree parsimony – Matrix representation with compatibility (MRC) – Matrix representation with flipping (MRF) – Matrix representation with parsimony (MRP) – Quartet supertrees Mainituista superpuumenetelmistä Quartet supertrees esiteltiin jo puun uudelleenjärjestelymenetelmien käsittelyn yhteydessä. Seuraavassa keskitytään tarkastelemaan MRP-menetelmää hieman tarkemmin. 19.3 MRP-menetelmän periaate MRP-menetelmän kuvasivat yhtäaikaa toisistaan riippumatta Baum, Doyle ja Ragan (1992). MRP onkin vanhin toimiva superpuumenetelmä. Baum ja Ragan mainitsevat motiiveikseen kehittää supermenetelmiä muun muassa tarpeen yhdistellä erilaisia aineistoja, joita ei muutoin voida yhdistää (sekvenssit, morfologia ja hybridisaatiotulokset) ja tarve menetelmille, jotka pystyvät tuottamaan tuloksia, vaikka esimerkiksi tarvittavaa sekvensiä ei tunnettaisikaan kaikille lajeille. Tilanne 1990luvun alussa oli nykyistä heikompi myös laskentakapasiteetin suhteen: suuria yhdistettyjä aineistoja ei yksinkertaisesti voitu käsitellä tehokkasti, ja samaan lopputulokseen pääsemiseksi tarvittiin muita keinoja. MRP-menetelmä koostuu viidestä vaiheesta (Kuva 19.1). 1. Valitaan eri aineistojen perusteella muodostettujen puiden joukosta ne, jotka halutaan ottaa mukaan analyysiin. 2. Juurretaan kaikki puut samalla taksonilla. Jos sama taksoni ei esinny kaikissa analysoitavissa puissa, luodaan pseudo-ulkoryhmä, jonka ominaisuudet koodataan seuraavissa vaiheissa kaikissa puissa nollalla. 3. Koodataan puiden muoto binaarisiksi adiitiivisiksi ominaisuuksiksi. 4. Yhdistetään kaikkia puita kuvaavat ominaisuumatriisit. 5. Yhdistetty ominaisuusmatriisi analysoidaan parsimoniamenetelmää käyttäen. MRP-superpuiden laskeminen voi kestää paljon pitempään kuin esimerkiksi MinCutSUPERTREE-puiden laskeminen. Tämä johtuu siitä, että MRP-menetelmän vaativa laskentaaika kasvaa eksponentiaalisesti aineiston kokoon nähden, MinCutSUPERTREEmenetelmän vain polynomiaalisesti. MRP-menetelmän vaatimaa laskenta-aikaa voidaan kuitenkin nykyisin jo pienentää käyttäen esimerkiksi Markov chain Monte Carlo (MCMC) -menetelmiä parsimonia-analyysiin. Tällaisia menetelmiä löytyy esimerkiksi ohjelmasta MrBayes. Jos analyysissä syntyy useita yhtä hyviä parsimoniapuita, kuten usein käy, voidaan niiden sisältämä informaatio tiivistää yhteen puuhun jollakin konsensusmenetelmällä. Usein on käytetty tiukkaa konsensusta, mutta se johtaa varsin usein erotuskyvyn huononemiseen (polytomioihin). Jos polytomiota syntyy superpuuanalyysissä, voidaan ne tulkita johtuvan alkuperäisten aineistojen yhteensopimattomuudesta. 204 Bioinformatiikan perusteet Kuva 19.1: MRP-superpuumenetelmän toiminta. A, B Superpuun muodostamiseen käytettävät lähtöpuut. C Lähtöpuiden perusteella koodattu ominaisuusmatriisi. Jos taksonit esiintyvät puussa yhdessä, ne koodataan ykkösellä, muutoin nollalla. Jos taksoni ei esiinny tarkasteltavassa puussa, sen ominaisuuden arvo koodataan kysymysmerkillä (puuttuva tieto). Puun ulointa haaraa (ulkoryhmää) ei koodata mukaan analyysiin. Lähtöpuiden perusteella muodostetut ominaisuusmatriisit yhdistetään, ja analysoidaan. D Yhdistetyn ominaisuusmatriisin perusteella muodostettu paras parsimoniapuu. 19 Superpuumenetelmät 19.4 205 MRP-menetelmän muunnokset MRP-menetelmää voidaan muunnella esimerkiksi käyttämällä heuristisissa parsimoniaanalyysin hauissa jotakin muuta optimaalisuuskriteeriä kuin Fitchin mallia. Fitchin malli on yleisimmin käytetty malli, mutta Dollo-parsimoniaa on myös sovellettu. Dollon mallia soveltavaa MRP-menetelmää kutsutaan irreversiibeli-MRPmenetelmäksi. Koska MRP-menetelmä perustuu parsimoniamenetelmään, voidaan sitä muunnella myös ominaisuuksien erilaisella koodaamisella ja ominaisuuksien painottamisella. Erilaisia ominaisuuksien painotuksia onkin testattu jo aiemmin: Esimerkiksi koodausta, jossa kukin MRP-analyysiin koodattu ominaisuus saa painoarvonsa sen mukaan, kuinka paljon tukea sen kuvastama taksoniryhmä sai alkuperäisessä analyysissä, kutsutaan yksinkertaisesti painotetuksi MRP-menetelmäksi. Toinen vaihtoehto voisi olla painottaa ominaisuuksia sen mukaan, kuinka hyvin ne sopivat muodostuvaan parsimoniapuuhun (successive weighting). 19.5 Menetelmän edut Verrattuna yhdistettyyn analyysiin, superpuumenetelmissä analysoitavat ominaisuusmatriisit ovat useinkin kertaluokkaa pienempiä, mikä nopeuttaa analyysiä. Ominaisuuksien muodostamisessa käytetty binäärinen koodaus aiheuttaa sen, että kukin alkuperäinen aineisto saa tasapuolisemman mahdollisuuden vaikuttaa tuloksiin kuin yhdistetyssä analyysissä olisi mahdollista. Superpuumenetelmät voivat myös yhdistellä aineistoa varsin erilaisia lähtöaineistoja. Esimerkiksi sekvenssiaineiston, morfologisten tuntomerkkien ja taksonien välisten serologisten etäisyyksien yhdistäminen samaan analyysiin ei tuota ongelmia. Näiden aineistojen yhdistäminen muita menetelmiä käyttäen on toistaiseksi mahdotonta. 19.6 MRP-menetelmään kohdistettu kritiikki Koska MRP-menetelmä on sekä suosituin että ensimmäisenä käyttöönotettu menetelmä, on suurin osa superpuumenetelmiin kohdistetusta kritiikistä kohdistunut juuri siihen. Monet MRP:n jälkeen kehitetyistä menetelmistä on itseasiassa kehitetty MRP:n heikkouksia silmälläpitäen, siis niiden korjaamiseksi. Systemaatikoiden keskuudessa MRP-menetelmässä käytetty parsimonia-periaate yhdistetään tiiviisti kladistiikan kanssa. Varsin suuri osa kritiikistä kohdistuukin menetelmään, kun sen käyttöä on yritetty tarkastella kladistiselta katsantokannalta. Esimerkiksi, on väitetty, ettei MRP-menetelmä voi toimia, koska siinä käytetyillä ominaisuuksilla ei ole olemassa apomorfian ja homoplasian kaltaisia tulkintoja. Apomorfia ja homoplasia ovat kuitenkin ominaisuuksiin kohdistettuja tulkintoja, eivätkä ne sinällään vaikuta itse parsimoniamenetelmän algoritmiseen toimintaan. MRP-superpuumenetelmään liittyy kuitenkin muutamia systemaattisia virheitä, joiden merkitystä tai vaikutusta tuloksiin ei vielä tiedetä. Esimerkiksi, MRPmenetelmä näyttää painottavan eri kokoisia puita eri tavoin, siten että suuremmat puuta saavat suhteessa pienempiä puita suuremman painoarvon analyysissä. Myös symmetrisistä puista saadut ominaisuudet näyttävät vaikuttavan analyysin tuloksiin epäsymmetrisiä puita enemmän. Pahiten menetelmän luotettavuus kärsii, jos analyysin valitut puut eivät jostakin syystä ole toisistaan riippumattomia. Yleensä puut ovat toisistaan riippumattomia, jos ne on muodostettu eri lähtömateriaalien perusteella. Useimmiten tutkimuksiin kuitenkin sisällytetään sekä jo olemassaolevaa aineistoa esimerkiksi tietokannoista sekä uutta materiaalia, jotka kuitenkin analysoidaan yhdessä. Tällöin vanhan materiaalin perusteella tehty analyysi ja uusi, enemmän aineistoa sisältävä tutkimus eivät ole toisistaan riippumattomia. MRPmenetelmä, eivätkä superpuumenetelmät ylipäätäänkään, ei myöskään kykene sel- 206 Bioinformatiikan perusteet ventämään polytoimioiden varsinaista haarautumisjärjestystä yhtä tehokkaasti kuin supermatriisimenetelmä. 20 Parhaan puun etsiminen ja puun uudelleenjärjestelymenetelmät 207 20 Parhaan puun etsiminen ja puun uudelleenjärjestelymenetelmät 20.1 Mitä puun uudelleenjärjestelymenetelmät ovat? Puun uudelleenjärjestelymenetelmät ovat heuristisia menetelmiä, joiden avulla pyritään löytämään kaikkein paras puu, joko lyhyin parsimoniapuu tai kaikkein uskottavin puu. Jos analysoidaan alle 20 taksonia kerrallaan, on mahdollista käyttää menetelmiä, jotka takaavat lyhyimmän puun löytymisen. Tällaisia ei-heuristisia menetelmiä ovat exhaustive search- ja branch-and-bound -menetelmät, ja ne käyvät periaatteessa kaikki mahdolliset puut läpi ja löytävät siten takuuvarmasti kaikkein lyhyimmän puun. Jos analyysissä on useita kymmeniä taksoneita, on käytännössä pakko käyttää jotakin heuristista menetelmää. Heuristiset menetelmät eivät käy kaikkia mahdollisia vaihtoehtoja läpi, eivätkä siten takuuvarmasti löydä kaikkein parasta kaikkien puuta mahdollisten puiden joukosta. Heuristisia menetelmiä ovat perinteiset menetelmät nearest neighbor interchange (NNI)-, subtree pruning and regrafting (SPR)ja tree bisection and reconnection (TBR). Lisäksi viime vuosina on otettu käyttöön useita uudempia tekniikoita, kuten (parsimony) ratchet, tree drifting, tree fusing, sectorial search ja divide-and-conquer. Heuristisissa menetelmissä ideana on joko pilkkoa puu useampiin osiin, ja vaihtaa niiden paikkaa lyhyimmän puu löytämiseksi tai pilkkoa puu useammiksi pienemmiksi osasiksi, joiden pituus tai uskottavuus optimoidaan erikseen ja sitten muodostaa näiden pikkupuiden perusteella kaikki taksonit sisältävä puu. Uudelleenjärjestelymenetelmät toimivat siten, että niille annetaan jollakin tapaa muodostettu "alkuperäinen"puu, jonka pituutta tai uskottavuutta pyritään sitten optimoimaan alkuperäistä paremmaksi. Jos menetelmille annettava alkuperäinen puu on varsin lähellä puuta, joka on aineistolle kaikkein paras, löytyy tuo paras puu yleensä varsin nopeasti. Jos alkuperäinen puu sen sijaan on kovin kaukana parhaasta mahdollisesta puusta, voi sen löytämiseen mennä hyvinkin kauan. Siksi alkuperäien puun koostamismenetelmällä on vaikutusta, jollei välttämätä suoranaisesti analyysin tuloksiin, niin ainakin analyysiin vaatimaan ajoaikaan. Käytännössä esimerkiksi parsimoniamenetelmää käytettäessä alkuperäinen puu usein muodostetaan Wagnerin menetelmää käyttäen. Sekä parsimonia- että suurimman uskottavuuden menetelmässä on tarkoituksena löytää analysoitavalle aineistolle kaikkein paras puu. Perinteiset puunuudelleenjärjestelymenetelmät ovat saatavilla sekä parsimonia- että suurimman uskottavuuden menetelmille, mutta uudemmat tekniikat ovat toistaiseksi yleistyneet runsaammissa määrin vain parsimonia-analyysien yhteydessä. 208 20.2 Bioinformatiikan perusteet Menetelmien käyttö Koska käytettävät menetelmät ovat useimmiten heuristisia, on niiden käyttöön kiinnitettävä hieman huomiota. Ensinnäkin, kun alkuperäistä puuta muodostetaan, voi sekvenssien syöttöjärjestys vaikuttaa tuloksiin, mikä saattaa edelleen kasaantua puunuudelleenjärjestelymenetelmiä käytettäessä. Siksi onkin muodostunut tavaksi sekoittaa sekvenssien syöttäjärjestys satoja tai tuhansia kertoja. Tämä tapahtuu siis siten, että esimerkiksi ennen puun muodostamista Wagner-menetelmällä, sekoitetaan sekvenssien syöttöjärjestys. Yhtä tällaista satunnaistamista kohden saadaan siten yksi Wagner-puu (toisinaan useampiakin). Kun satunnaistaminen ja alkuperäisen puun muodostus Wagnerin menetelmää käyttäen toistetaan sata kertaa, on tuloksena sata alkuperäistä puuta, jotka voidaan syöttää puunuudelleenjärjestelymenetelmille. Tällaista sekvenssien syöttöjärjestyksen satunnaistamista ja siihen liittyvää toistuvaa alkuperäisen puun muodostamista kutsutaan nimellä random addition sequence (RAS) tai jumble. Ainakin parsimonia- ja suurimman uskottavuuden menetelmän yhteydessä sekvenssien syöttöjärjestys vaikuttaa tuloksiin, todennäköisesti myös bayesilaisten menetelmien tapauksessa. Käytännössä RAS-toistoja tehdään parsimonia-analyyseissä hyvin usein 100-1000 kertaa, suurimman uskottavuuden menetelmää käytettäessä näkee usein käytettävän vain kymmentä toistoa. Vähintään sadan RAS-toiston käyttö voi pitää milteipä suosituksena käytti kumpaa menetelmää hyvänsä. Heuristiset puunuudelleenjärjestelymenetelmät tunnetaan myös nimellä "hill climbing methods", koska niiden avulla voidaan löytää jostakin maastosta korkein kohta. Kaikkien mahdollisten puiden muodostama ryhmä, puuavaruus, voidaan käsittää maastoksi, jossa on huippuja ja kukkuloita. Analyysin tarkoituksena on löytää sellainen puu, joka sijaitsee maastossa mahdollisimman korkealle, ja on siis pituudelta lyhyin tai uskottavuudeltaan kaikkein suurin. Asian havainnollistamiseksi tehdään seuraava ajatusleikki. Kuvitellaan, että haluamme löytää maapallon korkeimman kohdan, ja käytössämme on sokeita laskuvarjohyppääjiä, jotka jollekin maastonkohdalle laskeuduttuaan kykenevät etsimään sen lähistöltä korkeimman kohdan siten, että he aina etenevät ylämäkeen, eivät ikinä alamäkeen (Kuva 20.1). Kuten tiedämme, on maapallon korkein kohta Mount Everest. Jos käytössämme on yksi sokea laskuvarjohyppääjä ja tiputamme hänet koneesta jossakin satunnaisessa maapallon kohdassa, on varsin epätodennäköistä, että hän löytää Mount Everestin. Sanotaan, että hyppääjä tippuu Kilpisjärven kirkonkylälle. Jos hän nyt etenee systemaattisesti kohti lähimaaston korkeinta kohtaa, hän saapuu ennen pitkää Saanan, Suomen toiseksi korkeimman huipun laelle. Jos meillä olisi käytössämme sata laskuvarjohyppääjää, olisi todennäköisyys löytää Mount Everest jo huomattavasti suurempi, tai ainakin melko suurella varmuudelle edes yksi hyppääjä löytäisi Saanaa korkeamman kohdan, esimerkiksi Haltin. Jos meillä olisi niin paljon laskuvarjohyppääjiä, että voisimme tiputtaa yhden hyppääjän jokaiselle maapallon neliömetrille, voisimme olla liki varmoja, että korkein kohta löytyisi. Nyt voimme vetää uudelleenjärjestelymenetelmien ja laskuvarjohypääjien välille seuraavan analogian. Jokainen laskuvarjohyppääjä toimii kuin yksi RAS-toisto. Sen sijaan laskuvarjohypääjän eteneminen kohti korkeinta lähimaaston huippua vastaa jonkin uudelleenjärjestelymenetelmän käyttöä. Riippuen käytetystä uudelleenjärjestelymenetelmästä, laskuvarjohyppääjä etenee hitaasti tai hyvin tehokkaasti kohti huippua. Myös maaston ja puuavaruuden välille voidaan vetää yhtäläisyyksiä. On helppo ymmärtää, että maapallon pinta koostuu yksittäisistä saarekkeista, siis yksinäisistä muita korkeammista huipuista, vähän samaan tapaan kuin järvessä on saaria, jotka pistävät veden pinnan yläpuolelle. Osa näistä saarekkeista on suuria metsäisiä saaria, toisille mahtuu vain yksi kitukasvuinen mänty. Puuavaruus koostuu tismalleen samanlaisista saarekkeista. Yhdessä puuavaruuden saarekkeessa tosin esiintyy useimmiten vain yhdenmittaisia puita, jotka voivat kuitenkin olla topologialtaan 20 Parhaan puun etsiminen ja puun uudelleenjärjestelymenetelmät 209 Kuva 20.1: Menetelmä, jolla maapallon korkein kohta löytyy sokeiden laskuverjohypääjien avulla. Mustalla on merkitty hyppääjän tiputuspaikka ja vihreällä paikka, johon hän päätyy (tiputuspaikan lähimaaston korkein kohta). hyvinkin erilaisia. Esimerkiksi kaikki parsimoniapuut, joiden pituus on 100, saattavat muodostaa yhden saarekkeen, joskin puiden muoto voi erota toisistaan, yleensä ei kuitenkaan kovin paljon. Koska yhden laskuvarjohyppääjän käyttäminen ei riitä kaikkein korkeimman huipun löytämiseksi maapallolta, on analogiaamme vedoten molekyylisystemaattisessa analyysissäkin käytettävä useita RAS-toistoja. Näin voimme kartoittaa suuren osan puuavaruudessa olevista saarekkeista. Koska samalla saarekkeella puut ovat keskenään varsin samanlaisia, yleensä riittää, että saarekkeelle osutaan yhden kerran, ja saarekkeesta löydetyn yhden puun perusteella voidaan sitä uudelleenjärjestelemällä haluttaessa löytää kaikki muutkin samalla saarekkeella sijaitsevat puut. Useimmiten on kuitenkin hedelmällisempää kartoittaa mahdollisimman suuri osa saarekkeista kuin samalla saarekkella olevista puista. Jos siis laskenta-aika rajoittaa analyysiä, on kannattavampaa käyttää tuo aika useiden RAS-toistojen tekoon kuin yhden RAS-toiston (puun) analysointiin hyvin tehokkaista uudelleenjärjestelymenetelmiä käyttäen. Käytännössä on nimittäin havaittu, että aineistolle kaikkein paras puu löytää parhaiten juuri yllä hahmoteltua menetelmää käyttäen. Jos tutkitaan vain yhtä RAS-toistoa, niin sille varmasti löydetään tuossa käytettävissä olevassa ajassa varsin hyvä puu, mutta se ei välttämättä ole aineistolle kaikkein paras puu, mikä olisi löytynyt, jos olisi tehty useampia RAS-toistoja. Paras tilanne on tietenkin silloin, kun ainesto voidaan analysoida esimerkiksi sataa RAS-toistoa käyttäen siten, että kullekin toistolle kyetään etsimään paras puu jotakin uudelleenjärjestelymenetelmää käyttäen. 20.2.1 Perinteinen haku Seuraavassa hahmotellaan vielä perinteisen hakustrategian toiminta parsimoniaanalyysiä esimerkkinä käyttäen. Perinteinen hakustrategia toimii hyvin suhteellisen pienille aineistoille, siis sellaisille, joissa on korkeintaan 50-100 taksonia. 1. Sekoitetaan sekvenssien järjestys 100-10000 kertaa (RAS-toistot), ja muodostetaan jokaiselle Wagner-menetelmää käyttäen puu. 2. Etsitään jokaiselle RAS-toistolle lyhyin puu käyttäen uudelleenjärjestelymenetelmiä. 210 Bioinformatiikan perusteet • Alle 20 taksonia -> täydellinen haku tai rajatu haku • 21-100 taksonia -> NNI-, SPR- tai TBR-uudelleenjärjestely. – NNI ei ole kovin tehokas uudelleenjärjestelymenetelmä – SPR on tehokkaampi kuin SPR – TBR on perinteisistä menetelmistä tehokkai uudelleenjärjestelymenetelmä – Laskenta-aika: NNI < SPR < TBR 3. Säilytetään haun eri välivaiheissa muistissa vain pieni määrä puita, esimerkiksi yksi lyhyin parsimoniapuu kutakin RAS-toistoa kohden. Periaatteessa useampiakin puita voitaisiin säilyttää, mutta se paranna tuloksia oleellisesti, kuluttaa vain enemmän aikaa. Kaikkia mahdollisia puita ei siten tarvitse säilyttää muistissa, sillä jo pieneekin puiden määrään perustuva konsensusdiagrammi välittää saman inormaation kuin suuremmaan puumäärän perusteella muodostettu, mutta vain jos konsensuspuuhun yhdistetyt puut edustavat erillisiä saarekkeita puuavaruudessa. 4. Haku voidaan keskeyttää, esimerkiksi jos kymmenen ensimmäistä RAS-toistoa tuottavat kaikki tulokseksi saman puun. Toisaalta hakua kannattaa jatkaa, jos esimerkiksi vain joka sadas RAS-toisto löytää saman puun. Niinpä kerrallaan kannattanee tehdä esimerkiksi vain 100 RAS-toistoa, ja tulokset kannattanee tarkistaa ennen seuraavan sadan toiston ajamista. Analyysi voidaan toteuttaa perinteisellä hakustrategialla esimerkiksi tietokoneohjelmia PAUP (NNI, SPR ja TBR) ja PHYLIP (NNI ja SPR) käyttäen. 20.2.2 Uudempia menetelmiä käyttävä haku Uudemmilla menetelmillä, kuten parsimony ratchet, toteutettua hakua on välttämätöntä käyttää, kun aineiston koko kasvaa kohtuullisen suureksi, käytännössä jos aineistossa on yli 100-500 taksonia. Perinteinen menetelmä ajautuu suurten aineistojen kohdalla ongelmiin, sillä suuressa puussa kaikkien yksittäisten osien tulisi olla mahdollisimman edullisella tavalla järjestettyjä, jotta koko puu muodostuisi mahdollisimman yksinkertaiseksi. Uudempia menetelmiä käyttävä haku etenee kuten perinteinen hakukin, mutta NNI-, SPR- ja TBR-uudelleenjärjestelymenetelmien sijasta käytetään edellä lueteltuja tehokkaampia menetelmiä. Käytännössä esimerkiksi hakustrategia, jossa uudelleenjärjestelymenetelmänä käytetään jotakin seuraavista on usein osoittautunut toimivaksi: • ratchet • consensus based sectorial search + tree fusing (CSS + TF) • CSS + TF + tree drifting (CSS + TF + DFT) Ratchet tuottaa usein yksinäänkin hyviä tuloksia, mutta sen vaatima ajoaika on kahta muuta yhdistelmää selvästi pidempi, jos halutaan päästä lopputuloksena samaan, yhtä lyhyeen puuhun. CSS + TF toimii varsin hyvin monenlaisille aineistoille, mutta kovin monimutkaisille aineistolle on enemmin syytä käyttää CSS + TF + DFT -menetelmää. Siten, nykyinen suositeltavin, suurille aineistoille soveltuva uudellenjärjestelymenetelmä yhdistelee simuloitua jäähdytystä (simulated annealing, tree drifting), geneettistä algoritmia (tree fusing) ja divide-and-conquer -algoritmiä (sectorial search). Uudet hakustrategiat ovat kuvanneet Goloboff (1999) ja Nixon (1999). Ratchet on saatavilla sekä ohjelmissa PAUP että ohjelmassa TNT. Muut yllämainitut 20 Parhaan puun etsiminen ja puun uudelleenjärjestelymenetelmät 211 menetelmät löytyvät TNT-ohjelmasta. Lisäksi ohjelma POY käyttää algoritmeja lyhyimmän parsimoniapuun löytämiseen. Yllämainitujen uudempien menetelmien lisäksi on kehitetty useita muitakin vaihtoehtoja, joista ainakin Rec-I-DCM3-ohjelman sisältämä disc-covering method, joka on eräänlainen divide-and-conquer -algoritmin muunnos, näyttää erityisesti TNT:n (CSS + TF + DFT) kanssa yhdistettynä näyttää toimivan erittäin tehokkaasti (Roshan ja Moret, 2004). Ohjelman kehittäjien testeissä TNT-ohjelma ei enää kyennyt löytämään kaikkein lyhyintä puuta aineistolle, jossa oli yli 4500 16S rRNA-sekvenssiä. Ainoastaan Rec-I-DCM3:n kanssa yhdistettynä analyysi tuotti hyväksyttävän tuloksen. Siten näyttääkin siltä, että TNT:n sisältämät menetelmät eivät välttämättä suoriudu enää yli 2000-3000 sekvenssiä sisältävien aineistojen analysoinnista täysin moitteettomasti. 20.3 Miten menetelmät toimivat? 20.3.1 Täydellinen haku Täydellisen hauan idean on yksinkertainen: muodostetaan kaikki mahdolliset puut, lasketaan niiden pituudet, ja valitaan kaikkien läpikäytyjen puiden joukosta SE kaikkein lyhyin puu. Tietenkin yhtä lyhyitä puita voi löytyä useita, mutta täydellinen haku takaa, että lyhyin puu tai kaikki lyhyimmät puut varmasti löytyvät. Täydellinen haku vie kuitenkin runsaasti aikaa, ja nopeallakin tietokoneella on tällä hetkellä mahdollista analysoida vain noin 20 sekvenssin aineisto täydellistä hakua käyttäen. Pienemmille aineistoille sen käyttäminen on mahdollista, ja jopa heuristisia menetelmiä suotavampaa, koska heuristiset eivät välttämättä löydä kaikkein lyhyintä puuta. Täydellisen haun periaate on vielä kuvattu kuvassa 20.2 viittä taksonia käyttäen. Kuva 20.2: Täydellinen haku. Kuva: Jaakko Hyvönen, mukaellen Swoffordia (1996). 212 Bioinformatiikan perusteet 20.3.2 Rajattu haku Rajattu haku, kuten täydellinen hakukin, takaa että lyhyin tai kaikki lyhyimmät puut löydetään. Rajattu haku on kuitenkin parannus täydelliseen hakuun nähden siinä mielessä, että rajatussa haussa ei kaikkia mahdollisia vaihtoehtoja käydä läpi, vaan osa vaihtoehdoista karsitaan pois turhina läpikäytävinä. Kuvassa 20.3 on havainnollistettu menetelmä toimintaa. Turhien vaihtoehtojen karsiminen toimii sillä periaatteella, että jos esimerkiksi puun IIb havaitaan olevan pidempi kuin mikään puista IIIa-IIIe, ei puusta IIb kehittyviä puita kannata tutkia enää tarkemmin. Päättely perustuu siihen, että kun puuhun lisätään uusi taksoni, voi sen pituus ainoastaan lyhentyä, ei pidentyä, joten IIb:stä erkanevat viiden taksonit puut kaikki pidempiä kuin yksikään IIIa-IIIe puista, ja siten niitä turha enää tarkastella tarkemmin. Kuva 20.3: Rajattu haku. Kuva: Jaakko Hyvönen, mukaellen Swoffordia (1996). 20.3.3 Nearest neighbor interchange Nearest neighbor interchange (NNI) menetelmää kutsutaan toisinaan myös nimellä "local rearrangement"tai "local branch-swapping". Se on yksinkertaisin heuristisista puunuudelleenjärjestelymenetelmistä. NNI menetelmä perustuu siihen, että jokainen binaarisen puun sisäinen haara jakaa puun neljään "nearest neighbor"(lähinaapuri) oksaan. Kuvassa 20.4 tämä on havainnollistettu. Punaisin täplin merkitty puun sisäinen haara jakaa puun neljään lähinaapurioksaan, jotka ovat (A,B), C, D ja (E,F). Yksi NNI koostuu kahden lähimmän naapurin keskinäisestä vaihdosta. Toinen naapureista valitaan puun sisäisen oksan vasemmalta ja toinen oikealta puolelta. Yllä olevassa kuvassa on esitetty kaksi mahdollista NNI:tä. Kullekin puun sisäiselle oksalle on itseasiassa mahdollista tehdä vain kaksi erilaista NNI:tä. NNI toistetaan jokaiselle puun sisäiselle oksalle, ja näin muodostuvien puiden pituudet lasketaan, ja niiden joukosta valitaan lyhyin tai lyhyimmät. NNI ei ole kovin tehokas uudelleenjärjestelymenetelmä, eikä siten kovinkaan hyvin löydä aineistolle kaikkein lyhyintä mahdollista puuta. 20 Parhaan puun etsiminen ja puun uudelleenjärjestelymenetelmät 213 Kuva 20.4: NNI-haku. Kuva: Jaakko Hyvönen, mukaellen Swoffordia (1996). 20.3.4 Subtree pruning and regrafting Subtree pruning and regrafting (SPR) tunnetaan myös nimellä "global branch-swapping". Se on NNI:tä tehokkaampi, ja löytää siten useimmiten samalle aineistolle lyhyemmän puun kuin NNI yksinään. SPR perustuu siihen, että puu pilkotaan tietystä puun sisäisestä oksasta kahteen osaan, joista toinen on juurrettu, ja toinen juurtamaton. Sitten juurrettu puun osa istutetaan uudelleen (juuresta) jokaiseen juurtamattoman puun oksaan. Sama toistetaan jokaiselle puun sisäiselle oksalle, ja näin muodostettuista puista valitaa lyhyin tai lyhyimmät. Kuvassa 20.5 menetelmän toiminta on esitetty kuvallisesti. Puu (A,B) on juurrettu puu, ja se istutetaan jokaiseen juurtamattoman (((E,F),D),C) oksaan. Kuvassa on esitetty vain yksi mahdollinen istutus. 20.3.5 Tree bisection and reconnection Tree bisection and reconnection (TBR) toimii samaan tapaan kuin SPR, mutta puun puolikkaat muodostuvat juurtamattomiksi. Toinnen irroitetuista oksista juurretaan uudelleen ennen en istuttamista takaisin jäljellejääneeseen (juurtamattomaan) puuhun. Allaolevassa kuvassa 20.6 on esitetty TBR:n toiminta tarkemmin. Kuvassa taksonien (A,B,C) muodostama oksa juurretaan B:n ja (A,C):n välistä, ja liitetään takaisin jäljellejääneeseen puuhun. TBR on usein varsin tehokas uudelleenjärjestelymenetelmä lyhyimmän puun löytämiseksi. Sen vaatima ajoaika on kuitenkin huomattavasti pidempi kuin NNI:n ja SPR:n vaatima aika. NNI-, SPR- ja TBR-uudelleenjärjestelymenetelmät eivät kykene löytämään lyhyintä puuta, jos menetelmälle annetun puun ja lyhyimmän puun välillä ei ole yksittäisistä uudelleenjärjestelyistä muodostuvaa polkua. Jos esimerkiksi jossakin vaiheessa tulisi kulkea sellaisen puun kautta, joka on tismalleen yhtä pitkä kuin puu, jota uudelleenjärjesteltiin, ei lyhintä puuta löydetä, jos ainoastaan edellistä paremmat vaihtoehdot hyväksytään eli jos vain edellistä lyhyemmät puut säästetään, ja niitä uudelleenjärjestellään. Ratkaisuna on tietenkin säästää kaikki yhdellä uudelleenjärjestelykierroksella (siis kun on tehty yksi NNI, SPR tai TBR) löydetyt yhtä hyvät puut, ja järjestellä kaikkia niitä edelleen seuraavalla kierroksella. Menetelmät eivät myöskään löydä lyhintä puuta, jos syötepuun ja lyhintä puuta erottavat tarvittavat muutokset sijaitsevat puun eri osissa. Ratkaisuna tähän ongelmaan on jakaa puu uudelleenjärjestelyiden aikana (SPR ja TBR) useampaan 214 Bioinformatiikan perusteet Kuva 20.5: SPR-haku. Kuva: Jaakko Hyvönen, mukaellen Swoffordia (1996). kuin kahteen osaan. Tällainen vaihtoehto löytyy esimerkiksi ohjelmasta Nona, mutta analyysin laskenta-aika voi muodostua varsin pitkäksi, ja nykyisin uudemmat menetelmät, joita esitellään seuraavassa ovat pitkälti korvanneet tämän menetelmän. 20.3.6 Ratchet Seuraavassa käsitellään ratchet-menetelmää siten kuin se toimii parsimoniamenetelmän yhteydessä, mutta samalla periaatteella ratchet-analyysi voidaan toteuttaa myös suurimman uskottavuuden menetelmää käyttäen. Usein heuristinen haku juuttuu paikalliseen optimiin, esimerkiksi kuvassa 301204-1 hyppääjä 5 ei löydä kaikkein korkeinta huippua, koska se ei ole laskeutumispaikan lähimaastossa, eikä hyppääjä voi ylittää laskeutumispaikkansa ja korkeimman huipun välistä solaa. Ratchet mahdollistaa sen, että hypääjät voivat ylittää myös solia, joten sitä käyttäen pitäisi todennäköisyyden, että lyhyin puu löydetään analysoitavalle aineistolle, olla suurempi kuin perinteisiä hakumenetelmiä käyttäen. Ratchet koostuu seuraavista vaiheista: 1. Usein ratchet-analyysi tehdään noin 200:aa RAS-toistoa käyttäen. Jokaiselle toistolle muodostetaan Wagnerin menetelmällä puu, jonka pituus optimoidaan TBR-uudelleenjärjestelymenetelmällä. Näin löydetyistä lyhyimmistä puista säilytetään yksi tai kaksi. Nämä puut siirretään vaiheeseen 2, ja sama toistetaan jokaisesta RAS-toistosta saaduille lyhyimmille puille, siis yhteensä 200-400:lle puulle. 2. Valitaan satunnaisesti alkuperäisen rinnastuksen informatiivisista ominaisuuksista, useimmiten noin 5-25% kerrallaan, ja muutetaan niiden painotusta, esimerkiksi kaksinkertaistaen niiden painoarvo analyysissä. Tämä tarkoittaisi siis sitä, että normaalisti yhdeksi muutokseksi tulkittava mutaatio lisäisikin yhden asemasta puun pituutta kahdella. 20 Parhaan puun etsiminen ja puun uudelleenjärjestelymenetelmät Kuva 20.6: TBR-haku. Kuva: Jaakko Hyvönen, mukaellen Swoffordia (1996). 215 216 Bioinformatiikan perusteet 3. Vaiheesta 1 saatu puu uudelleenjärjestellään vaiheessa 2 muodostettua painotettua aineistoa käyttäen, ja näin saatavan uuden puun pituus lasketaan. Tyypillisesti uudelleenjärjestelyyn käytetään TBR-menetelmää, ja vain yksi puu mahdollisesti useampienkin yhtä lyhyiden puiden joukosta säilytetään. Tässä vaiheessa muodostettu puu siis sellainen, ettei sen pituutta voida käytetyllä uudelleenjärjestelymenetelmällä enää enempää lyhentää. 4. Aineiston painoarvot palautetaan alkuperäisen aineiston mukaisiksi, ja vaiheessa 3 löydetty puu alistetaan jälleen uudelleenjärjestelyille esimerkiksi TBR-menetelmää käyttäen, nyt siis alkuperäistä aineistoa käyttäen. Näin pyritään jälleen löytämään mahdollisin lyhyt puu alkuperäiselle aineistolle. 5. Kun optimaalinen puu on vaiheessa 4 löytynyt, siirrytään jälleen takaisin vaiheeseen 2, ja tätä toistetaan jokaiselle vaiheessa 1 löydetylle puulle muutamia kertoja. Iteraatioiden jälkeen jokaisesta RAS-toistosta säilytetään vain yksi puu, siis yhteensä 200 puuta, jotka ovat käyneet vaiheet 2-4 läpi muutamia kertoja. 6. Kun kaikki RAS-toistot on käyty läpi, valitaan kaikkien 200 lyhyimmän puu joukosta kaikkein lyhyin, ja sailytetään se. 20.3.7 Tree fusing Tree fusing -menetelmässä on ideana vaihtaa kahden puun välillä kaksi oksaa (Kuva 20.7). Näissä oksissa sijaitsevien taksonien tulee olla molemmissa puissa identtiset, joskaan oksien topologian ei tarvitse olla identtinen, mihin koko menetelmän toimivuus perustuukin. Parhaiten menetelmä toimii, jos sille syötetään kerrallaan useita puita, ja näitä yhdistellään pareittain seuraavasti: 1. Valitse satunnaisesti yksi puu. Tätä kutsutaan kohdepuuksi. 2. Valitse satunnaisesti toinen puu. Tätä kutsutaan lähdepuuksi. Jos yhtään yhdisteltäviä puita ei ole jäljellä (kaikki mahdollisuudet on jo kokeiltu), tee puulle SPR-uudelleenjärjestelyt, talleta näin muodostunut puu uudeksi puuksi, ja siirry kohtaan 1. 3. Tarkastele lähdepuuta ja kohdepuuta, ja vaihda jokin yhteensopiva oksa niiden välillä. Siirry sitten takaisin vaiheeseen 2. 4. Vaihe 1 toistetaan useita kertoja, tyypillisesti 3-5. 5. Lopuksi kaikkien puiden pituudet lasketaan, ja niiden joukosta valitaan lyhyin puu. Tree fusing on hyvin samankaltainen kuin Moilasen (1999) kuvaama geneettiseen algoritmiin perustuva menetelmä. 20.3.8 Tree-drifting Tree-drifting-menetelmässä hyväksytään puuta uudelleenjärjestellessä myös puun pituutta huonontavia uudelleenjärjestelyitä, tosin suhteellisen pienellä todennäköisyydellä. Tällaisten suboptimaalisten ratkaisujen hyväksyminen on usein vaikeiden ongelmien ratkaisuun käytetty menetelmä, ja tunnetaan paremmin nimellä simuloitu jäähdytys (simulated annealing). Tree-drifting -menetelmässä suboptimaalisten uudelleenjärjestelyiden hyväksymiseen käytetään RFD:tä (relative fitness difference) ja puun pituutta. RFD voidaan laskea kahden puun (A ja B) välille kaavalla R F D AB = (F − C)/F, 20 Parhaan puun etsiminen ja puun uudelleenjärjestelymenetelmät 217 Kuva 20.7: Tree fusing-menetelmän periaate: tietyt oksat vaihdetaan kahden puun välillä. Kuva: Jaakko Hyvönen. 218 Bioinformatiikan perusteet jossa F on puuhun A parhaiten sopivien ominaisuuksien suhteen laskettu puiden välinen pituusero, ja C on sama puulle B. Suboptimaalinen uudelleenjärjestely hylätään (sitä ei tehdä), jos RFD on suurempi kuin Z, joka saadaan kaavasta Z = X/(F + J − C), jossa X on satunnaisnumero väliltä 0-99, J on alkuperäisen puun ja uudelleenjärjestelyn seurauksena syntyvän puun pituuksien erotus, ja C on puuhun tehtyjen muutosten kokonaismäärä. Tree-drfiting, jota voidaan käyttää minkä tahansa muun uudelleenjärjestelymenetelmän kanssa, useimmiten TBR-menetelmän yhteydessä, toimii seuraavasti. 1. Laske lähtöpuun pituus (saatu esimerkiksi RAS-toistosta Wagnerin menetelmällä). 2. Laske RDF ja Z samalle puulle mahdollisen uudelleenjärjestelyn jälkeen. Uudelleenjärjestely hyväksytään, jos RFD < Z. Puuhun tehdään uudelleenjärjestely, ja niiden kokonaismäärää C kasvatetaan yhdellä. RFD:hen ja Z:taan käytettävät puun pituudet määritetään uudelleenjärjesteltävänä olevan puu ja siitä uudelleenjärjestelynä muodostuvan puun välille. Kun puuhun on tehty tietty määrä uudelleenjärjestelyitä (C), yksi tree-drifting kierros päättyy. 3. Vaiheessa 2 muodostettu puu alistetaan uudelleen vaiheeseen 2, eli tree-drifting toistetaan puulle, yleensä muutamia (3-5) kertoja. 20.3.9 Sectorial searches Sectorial searches (SS) perustuu puun pilkkomiseen pienemmiksi osasiksi. Suuremmasta puusta irrotetaan pieni osa, siis yksi oksa, jonka pituus sitten optimoidaan perinteisiä menetelmiä käyttäen (Kuva 20.8). Jos tuloksena on pituudeltaan alkuperäistä oksaa lyhyempi oksa, puun alkuperäinen oksa korvataan näin löydetyllä uudella oksalla. SS:n tehokkuus perustuu siihen, että pienempien puiden uudelleenjärjestely ja optimointi on huomattavasti suuria puita nopeampaa. Puusta valittavat oksat, sektorit, voidaan valita joko käyttäen satunnaismenetelmää (RSS) tai konsensuksen perusteella (CSS). Myös näiden yhdistelmää voidaan käyttää (MSS). Random sectorial search (RSS) RSS-menetelmä toimii seuraavasti. 1. Valitse puusta sellainen sektori, että siihen kuuluu S taksonia. Sopiva määrä näyttää käytännössä olevan 35-55 taksonia. 2. Tee R kappaletta RAS+TBR-toistoja tämän sektorin muodostamalle pikkuaineistolle. Jos nämä R kappaletta toistoja tuottavat kaikki saman pituisen puun kuin alkuperäinen sektorikin oli, siirry vaiheeseen 3, muutoin tee vielä r kappaletta RAS+TBR-toistoja. Jos sektorin koko oli 35-55 taksonia, ovat R=3 ja r=3 sopivat asetuksen tässä vaiheessa. 3. Valitse R + r -toiston tuottamista puista paras, ja sijoita se takaisin sektorin paikalle alkuperäiseen puuhun. Siirry vaiheeseen 4. 4. Tee muodostuneelle puulle yksi kierros TBR-uudelleenjärjestelyitä, mutta vain, jos vaiheessa 3 puuhun on tehty uudelleensijoituksia yli X kertaa. Siirry vaiheeseen 1 ja toista tämä N kertaa. X:n arvoksi sopivat hyvin arvot väliltä 5-10, ja N:n määräksi noin 20-25, riippuen tietenkin paljon analysoitavasta aineistosta. 20 Parhaan puun etsiminen ja puun uudelleenjärjestelymenetelmät 219 Kuva 20.8: Sectorial search:in periaate. Kuva: Jaakko Hyvönen. Consensus-based sectorial searches (CSS) CSS on hyvin samankaltainen kuin RSS, mutta sektorin valinta perustuu aiemmin laskettuun konsensuspuuhun. Konsensuspuu on laadittu ennen menetelmän soveltamista esimerkiksi kaikista muistissa (tehty vaikkapa RAS+TBR-menetelmällä) olevista puista. CSS:ää varten valitaan sellaisia sektoreita, joissa konsensuspuussa esiintyy polytomioita. Polytomiathan ovat sellaisia puun alueita, joilla aineistossa esiintyy eri ominaisuuksien välisiä konflikteja. On epätodennäköistä, että alle kymmen taksonin muodostama sektori olisi puussa suboptimaalisesti muodostettu, joten CSS-menetelmälle sektorin koko S = 10. Valittavien sektorien määrä riippuu siitä, kuinka monessa kohdassa puussa esiintyy polytomioita. 20.3.10 Mixed sectorial searches (MSS) MSS on RSS:n ja CSS:n yhdistelmä. Jokainen MSS-toisto alkaa RAS+SPR-haulla. Kun SPR on valmis, lasketaan siitä ja edellisen toiston parhaasta puusta konsensus, jota käytetään sitten rajoitteena (constrain) TBR-uudelleenjärjestelyssä. Tämä vastaa CSS-menetelmää, ja kun se on valmistunut, tehdään puulle vielä RSS. Koska MSS:ssä käytetään yhdistelmänä sekä RSS:ää että CSS:ää, se tuottaa parempia tuloksia kuin kumpikaan menetelmistä yksinään. 20.4 Superpuumenetelmät Superpuumenetelmät (supertree methods) ovat menetelmiä, joiden avulla useammista pienemmistä puista kootaan yksi suuri kaikki analysoitavat taksonit käsittävä puu. Superpuumenetelmien kehitykseen kohdistuu suuria odotuksia, sillä pienempien aineistojen analysoiminen on suurempia yksinkertaisempaa ja nopeampaa, ja jos tällaisten pienten aineistojen antamat tulokset voitaisiin helposti yhdistyy yhteen puuhun, olisi siitä suurta apua. Superpuumenetelmät voidaan käsittää divide-and-conquer -algoritmien (DCM) 220 Bioinformatiikan perusteet erikoistapauksiksi. DCM on yleinen ohjelmointi- tai ongelmienratkontatekniikka, jonka avulla voidaan ratkoa vaikeita optimointitehtäviä. Siksi sen soveltaminen systematiikkaan on luonnollista; lyhyimmän parsimoniapuun tai uskottavimman puun löytäminen ei ole laskennallisesti yksinkertainen tehtävä. Menetelmä esitellään tässä, vaikka se ei olekaan varsinainen puunuudelleenjärjestelymenetelmä. DCM toimii molekyylisystematiikan menetelmien yhteydessä jokseenkin seuraavasti. 1. Jaa alkuperäinen aineisto pienempiin, osittain päällekkäisiin aineistoihin. 2. Muodosta haluttua menetelmää käyttäen puu jokaiselle näistä aineistoista. 3. Yhdistä pienemmistä aineistoista saadut puut yhdeksi suureksi, koko aineistoa kuvaavaksi puuksi. Näin saatu puu voi sisältää polytoimioita. 4. Uudelleenjärjestele vaiheessa 3 muodostettua puuta lyhyimmän binäärisen puun löytämiseksi. DCM ei rajoitu mihinkään tiettyyn analyysimenetelmään, vaan sitä voidaan soveltaa niin parsimonia- kuin suurimman uskottavuuden menetelmänkin kanssa. Tllä hetkellä kenties tunnetuin DCM:ää soveltava menetelmä on quartet puzzling (Strimmer, 1996), joka on toteutettu suurimman uskottavuuden menetelmää soveltavassa TreePuzzle-ohjelmassa. Toinen vastaavankaltaista DCM:ää soveltava parsimoniaohjelma on Rec-I-DCM (Roshan, 2004). DCM:ää käyttäen saadaan usein tavallista nopeammin muodostettua puu, jonka pituus tai uskottavuus voidaan sitten muilla menetelmillä optimoida. Esimerkiksi Rec-I-DCM:n tapauksessa näyttää myös siltä, että menetelmä tuottaa nykyisten menetelmien (TNT-ohjelma) kanssa yhdistettynä erinomaisia tuloksia. Koska molemmat ohjelmat soveltavat parsimoniamenetelmää, on niiden vaatima ajoaika huomattavasti lyhyempi kuin esimerkiksi TreePuzzle-ohjelman ajoaika. Sekä Rec-I-DCM- että TreePuzzle-ohjelmissa siis muodostetaan DCM:ää käyttäen superpuu, jota sitten uudelleenjärjestlymenetelmin pyritään parantamaan. Kummassakaan ohjelmassa ei ole varsinaisia uudelleenjärjestelymenetelmiä, mutta RecI-DCM:n tuloksia on käsitelty esimerkiksi PAUP- ja TNT-ohjelmissa, TreePuzzlen tuottamia tuloksia voi hyvin optimoida niinikään PAUP-ohjelmaa käyttäen. 21 Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit 221 21 Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit 21.1 Puun luotettavuuden arviointi Kun paras puu on löydetty, yleensä on tapana tutkia, kuinka luotettava se on. On oikeastaan väärin puhua puun luotettavuuden arvioinnista, sillä menetelmät eivät niinkään arvioi kuinka luotettava itse puu on, vaan ne lähinnä kertovat kuinka luotettava tai hyvä tai käyttökelpoinen on keräämämme aineisto. Tämän perusteella pystytään tietenkin päättelemään jotakin myös puusta, sillä muodostettu puu on ainoastaan niin hyvä kuin aineisto, jonka perusteella on se on muodostettu. Puun luotettavuuden arviointiin käytetään nykyisin pääosin kolmea menetelmää, bootstrapping, jackknifing ja Bremerin tukiarvo (Bremer support, decay index). Bootstrapping on usein erityisesti etäisyys- ja suurimman uskottavuuden menetelmiä soveltavien tutkijoiden suosiossa, ja parsimoniamenetelmää soveltavat tutkijat tukeutuvat useammin Bremerin tukiarvoon tai jackknifing-menetelmään kuin bootstrapping-menetelmään. Lisäksi käytössä on muitakin harvinaisempia menetelmiä, kuten permutation tail probability (PTP), kladogrammien pituusjakauma (distribution of cladogram lengths, DCL) ja parametrinen bootstrapping, mutta niitä näkee käytettävän vain suhteellisen harvoin. Lisäksi ne eivät mittaa yksittäisten ryhmien saamaa tukea, vaan koko puun saamaa tukea tai luotettavuutta. Bootstrapping, jackknifing ja bremerin tukiarvo määritetään siten, että aluksi aineisto analysoidaan jotakin haluttua menetelmää käyttäen. Sen jälkeen samaiselle aineistolle tehdään luotettavuusanalyysi, ja sen tulokset siirretään alkuperäisen analyysin tuottamaan puuhun. Käytännössä tämä tapahtuu siten, että bootstrappinganalyysin tulokset, siis tukiarvot ilmoitetaan alkuperäisen analyysin perusteella muodostetun puun haaroissa. Esimerkiksi pelkkä bootstrapping-analyysi ei siis riitä aineiston analyysiksi, vaan sen tarkoituksena on tukea varsinaista analyysia. Seuraavassa esitetään tarkemmin eri menetelmien toiminta. 21.2 Bootstrapping Bootstrapping-menetelmä on tilastollinen satunnaistamismenetelmä, joka avulla voidaan arvioida luottamusvälejä. Tavallisesti toimitaan siten, että väestöstä kerätään useita otoksia, joista jokainen koostuu esimerkiksi 20 henkilöstä, ja näiden otosten keskiarvojen perusteella saadaan määritettyä sekä väestön keskipituus etä keskipituuden luottamusväli. Bootstrapping-menetelmässä väestön keskipituus ja sen luottamusväli pyritään arvioimaan yhden ainoan otoksen perusteella (Kuva 21.1). Siitä menetelmä on saanut nimensäkin, mikä tarkoittaa suunnilleen “vetää itsensä kengännauhoista ylös”. Systematiikan aineistoille sovellettuna bootstrapping poimii ominaisuusmat- 222 Bioinformatiikan perusteet Kuva 21.1: Bootstrapping-menetelmän periaate. Kuva: Jaakko Hyvönen. riisista, esimerkiksi sekvenssirinnastuksesta, satunnaisesti ominaisuuksia uuteen, satunnaistettuun ominaisuusmatriisiin (Felsenstein, 1985). Osa ominaisuuksista poimitaan satunnaistettuun matriisiin kertaalleen, jotkut useampia kertoja ja jotkut eivät tule valituiksi lainkaan. Osa ominaisuuksista siis deletoidaan analyysistä satunnaisesti, ja osaa muista ominaisuuksista painotetaan satunnaisesti (valitaan useampia kertoja). Satunnaismateriiseja luodaan tällä tapaa tyypillisesti 100-1000 kappaletta. Jokainen satunnaismatriisi analysoidaan kuten alkuperäinen aineistokin. Siten jokaista satunnaismatriisia kohden muodostuu vähintään yksi puu; jos useampia yhtä hyviä puita löytyy, otetaan niistä yleensä talteen vain yksi. Satunnaisaineistojen pohjalta muodostettujen puiden sisältämä informaatio tiivistetään enemmistökompromissipuuksi (majority rule consensus). Puussa jokaiselle puun haaralle ilmoitetaan numeroarvo, joka on niiden satunnaisaineistojen tuottamien puiden määrä, joissa kyseinen ryhmä esiintyy (Kuva 21.2). Usein numeroarvo muutetaan lopuksi prosenteiksi. Numeroarvot tulkitaan siten, että jos arvo on esimerkiksi 95%, sanotaan sen bootstrapping-tukiarvon olevan 95%. Ei ole täysin selvää, mikä voidaan tulkita merkittäväksi boostrapping-tukiarvoksi, mutta yleensä arvojen väliltä 70-100 katsotaan tukevan tietyn ryhmän esiintymistä puusta. Kuten sanottu, ei tukiarvo kerro varsinaisesti puun oikeellisuudesta, vaan siitä miten hyvin aineisto tukee kyseistä puun muotoa. Siten bootstrapping-arvot voitaisiin tulkita siten, että jos arvo on korkea, näyttää aineiston perusteella siltä, että kyseinen ryhmä kuuluu puuhun sellaisenaan. Bootstrapping-tukiarvojen tulkitaan sisältyy muutamia hankaluuksia. Jotta tietylle ryhmälle saatu tukiarvo voitaisiin suoraan tulkita luottamusvälinä, olisi analyysissä pitänyt määrittää kyseinen ryhmä monofyleettiseksi, mutta käytännössä näin menetellään vain harvoin. Siksi bootstrapping-tukiarvoja tuskin voidaan tulkita varsinaisina luottamusväleinä. Lisäksi, jotta bootstrapping-arvot voitaisiin tulkita luottamusväleinä, pitäisi analysoitavan aineiston olla suuri. Käytännössä tämä tarkoittanee noin 1000-10000 ominaisuutta käsittävää aineistoa, mikä on hankala saavuttaa jopa sekvenssejä käyttäen; muuntelemattomat ominaisuudet kun eivät anna tietoa lajien välisistä suhteista. 21 Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit 223 Kuva 21.2: Boostrapping-menetelmän periaate käytettäessä taksonomista ominaisuusmatriisia ja parsimoniamenetelmää. Kuva: Jaakko Hyvönen. Bootstrapping-arvojen voidaan katsoa myös kuvastavan tiettyä ryhmää tukevien ominaisuuksien määrää. Jos monet ominaisuudet tukevat jotakin tiettyä ryhmää, sen voidaan otaksua esiintyvän tavallista useammin myös satunnaistettujen aineistojen perusteella muodostetuissa puissa ja saavan siten korkean bootstrappingtukiarvon. Esimerkiksi parsimoniamenetelmää käytettäessä tämä tulkinta on hieman ongelmallinen, sillä jos jotakin ryhmää tukee vain yksi ainut ominaisuus, mutta ryhmää vastaan ei puhu yksikään ominaisuus (jolloin sen pitäisi muodostua monofyleettiseksi ryhmäksi puuhun), on hyvin epätodennäköistä, että kyseinen ryhmä löytyy bootstrapping-puusta tai saa edes korkeaa tukiarvoa. Bootstrapping näyttääkin tekevän vain yksisuuntaisen testi: ryhmät, jotka ovat aineiston perusteella tuettuja, saavat korkean tukiarvon, mutta ryhmien, jotka eivät ole edustettuna bootstrapping-puussa ei voida katsoa olevan tukemattomia (ja siten hylättäviä). Mainittujen ongelmien poistamiseksi Goloboff (2003) on kehittänyt uuden bootstrapping-menetelmän muunnelman, symmetrisen bootstrappingin, jossa ominaisuuksien saamat painoarvot tai määritelty evoluutiomalli eivät vaikuta tukiarvoihin. Tukiarvo voidaan esimerkiksi ilmoittaa sellaisten otosten suhteena, joissa ryhmä esiintyy ja jotka ovat ryhmän kanssa ristiriidassa. Tällaista tukiarvoa kutsutaan GC-tukiarvoksi, ja se näyttää antavan tavanomaista paremman kuvan muun muassa vähäisesti tuettujen ryhmien saamasta todellisesta tuesta. Bootstrapping-menetelmä olettaa, että aineistoon valitut ominaisuudet ovat satunnainen otos kaikista mahdollisista ominaisuuksista. Tämä ei kuitenkaan pidä paikkaansa, ei ainakaan morfologisten ominaisuuksien ollessa kyseessä, sillä ne on yleensä huolellisesti valittu ja mahdolisesti karsittu useiden vaihtoehtojen joukosta. Samaa tapaan esimerkiksi proteiineja koodaavien geenien vierrekkäiset nukleotidit eivät ole toisistaan riippumatomia, eivätkä siten välttämättä edusta satunnaista otosta kaikista mahdollisista ominaisuuksista. Jos ominaisuudet eivät edusta satunnaista otosta kaikista mahdollisista ominaisuuksista, ei niitä voida tulkita luottamusväleinä. Tätä bootstrapping-menetelmän ominaisuutta voidaan kiertää käyttämällä block-bootstrapping-menetelmää. Block-bootstrapping-menetelmässä pyritään aineiston ominaisuuksien riippu- 224 Bioinformatiikan perusteet vuus toisistaan ottamaan huomioon. Esimerkiksi proteiineja koodaavien geenien tapauksessa kolme peräkkäistä nukleotidi muodostaa aminohappoa koodaavan kodonin, ja nukleotidit ovat siten riippuvaisia toisistaan. Tällöin block-bootstrappingmenetelmässä voitaisiin valita blokin kooksi kolme, jolloin satunnaisia aineistoja muodostettaessa ominaisuudet poimitaan aina kolmen nukleotidin erissä. 21.3 Jackknifing Jackknifing-menetelmä on varsin samantapainen kuin bootstrapping. Siinä missä bootstrapping-menetelmässä satunnaiset aineistot muodostettiin käyttämällä takaisinpanoa, ei jackknifing:ssa käytetä takaisinpanoa, vaan jokainen ominaisuus voi tulla valituksi samaan satunnaiseen aineistoon korkeintaan yhden kerran. Siksi jackknifing-menetelmällä muodostetut satunnaisaineistot ovat aina pienempiä kuin alkuperäinen aineisto. Tilastollisesti jackknifingin avulla ei pyritä arvioimaan luottamusvälejä, vaan saamaan varianssille pienemmän arvion kuin muutoin olisi mahdollista yhtä ainoaa aineistoa käyttäen saavuttaa. Jos satunnaista aineistoa luotaessa poistetaan vain yksi ominaisuus (first-order jackknifing, ensimmäisen asteen jackknifing), testaa näin suoritettu jackknifing vain sitä, tukeeko jotakin tiettyä ryhmää enemmän kuin yksi ominaisuus tai apomorfia, jos puhutaan parsimonia-analyysistä. Jos poistetaan kerrallaan useampia ominaisuuksia, menetelmä oikeastaan vain laajentaa samaa testiä kuin jos olisi poistettu vain yksi ominaisuus. Käytännössä jackknifing-tukiarvojen tulkinta on hyvin samanlainen kuin bootstrapping-arvojenkin. Viime kädessä vain sellaiset ryhmät, joita tukee vähintään yhtä moni ominaisuus kuin analyysissä on lajeja, tulevat analyysissä esiin. Farris (1996) ehdotti parsimonia-ementelmän ohessa käytettäväksi jackknifingmenetelmää, jossa jokaisen ominaisuuden todennäköisyys tulla valituksi on e −1 , jossa e on Neperin luku (likimain 2.73), ja e −1 ≈ 0.37 (Kuva ??). Tällöin aineistosta, jossa ei ole puuttuvia havaintoja, voidaan laskea jackknifing-tukiarvon odotusarvo kaavalla 1 − e k , jossa k on ryhmää G tukevien homoplasiattomien ominaisuuksien määrä. Bootstrapping-menetelmän antamat tukiarvot lähestyvät tätä odotusarvoa, kun aineiston koko on hyvin suuri. Jackknifing-menetelmää voidaan soveltaa myös lajeille. Tällöin useimmiten muodostetaan satunnaisaineistoja poistamalla vain yksi taksoni kerrallaan. Jos aineistossa ei ole lainkaan homoplasiaa, yhden taksonin poistaminen analyysistä ei vaikuta ainakaan parhaan parsimoniapuun muotoon muutoin kuin siten, että siitä tietenkin puuttuu analyysistä poistetty taksoni. Jos aineistossa sen sijaan esiintyy homoplasiaa, ei tuloksena välttämättä olekaan sama kuin alkuperäisen analyysin tuottama puu. Homoplasia voidaan paljastaa, kun jackknifing-menetelmällä luotujen satunnaisaineistojen tuloksista muodostetaan strict consensus -puu. Tavallinen strict consensus -menetelmä kuitenkin jättää huomiotta ne taksonit, jotka eivät esiinny kaikissa puissa, joten tuloksena olisi vain ulkoryhmän muodostama puu. Siksi usein käytetäänkin menetelmän moifikaatiota jackknife strict consensus, joka tuottaa puun, jossa esitetään ryhmät, jotka esiintyvät kaikissa satunnaistetuiden aineistojen perusteella laadituissa puissa. 21.4 Bremerin tukiarvo Bremerin tukiarvoa on kutsuttu nimillä Bremer support, branch support, lenght difference, clade stability, support index ja decay index. Bremerin tukiarvon on ehdotettu olevan muita tukiarvoja parempi, sillä siihen vaikuttavat vain sellaiset ominaisuudet, jotka tukevat tietyn ryhmän esiintymistä puussa. Bremerin tukiarvo onkin puun, josta ryhmä puuttuu (se on mukana vain polytomiana muiden kanssa eikä ole siten monofyleettinen), pituuden erotus parhaaseen aineistoa kuvaavaan puuhun 21 Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit 225 Kuva 21.3: Jackknifing-menetelmän periaate käytettäessä taksonomista ominaisuusmatriisia ja parsimoniamenetelmää. Vertaan kuvaan 21.2. Kuva: Jaakko Hyvönen. nähden. Jos siis puu, josta tietty ryhmä puuttuu, on pituudeltaan yhden muutoksen pidempi kuin paras puu, saa ryhmä Bremerin tukiarvokseen 1. Bremerin tukiarvoa käytetään vain parsimonia-puiden yhteydessä. (Bremer, 1988) Käytännössä Bremerin tukiarvot tietylle puulle saadaan määritettyä siten, että aluksi aineistolle etsitään kaikkein lyhyin parsimoniapuu. Tämän jälkeen etsitään kaikki puut, jotka ovat yhden muutokset verran tätä parasta puuta pidempiä. Näiden lyhyempien ja parhaan puun sisältämä informaatio tiivistetään strict consensuspuuhun. Etsittävien huonompien puiden pituutta lisätään yhdellä, ja sama analyysi toistetaan. Tätä jatketaan kunnes tietyn mittaisia, kaikkein lyhyintä puuta pidempiä puita löytyy aineistolle ainoastaan yksi. Kun tällainen puu löytyy, kaikkien jäljelläolevien puunhaarojen tukiarvojen täytyy olla >1, ja analyysi voidaan siten lopettaa. Jos saman pituisia yhtä hyviä puita löytyy aineistolle useampiakin, aloitetaan Bremerin tukiarvojen laskeminen muodostamalla puista strict konsensus -puu. Tällöin ainakin osa ryhmistä katoaa (ne eivät esiinny konsensuspuussa muutoin kuin polytomioina) ja sellaisten ryhmien Bremerin tukiarvoksi tulee 0. Puun oksan pituutta voidaan tietenkin myös käyttää kyseisen ryhmän saaman tuen arviointiin (jos yksikään apomorfia ei tue ryhmää, on siihen johtavan haaran pituus puussa nolla), mutta Bremerin tukiarvolla on pituuteen nähden muutamia etuja. Kun kaikki ominaisuudet ovat täysin yhteensopivia (ei homoplasiaa), löytyy aineistolla ainoastaan yksi kaikkein lyhyin parsimoniapuu, ja Bremerin tukiarvo kussakin puun haarassa vastaa siihen johtavan oksan pituutta. Jos ominaisuuksissa esiintyy homoplasiaa, tukiarvo pienenee suhteessa siihen kuinka paljon erilaisia yhtä hyviä puita aineistolle löytyy. Bremerin tukiarvoa on käytetty myös kokonaistukiarvon laskemiseen. Kokonaistukiarvo on kaikkien yksittäisten puun haarojen Bremerin tukiarvojen yhteenlaskettu summa. Kokonaistukiarvo voidaan skaalata mielekkäästi, sillä sen suurin mahdollinen arvo on puun pituus. Tämä on seurausta siitä, ettei yhden haaran saama tukiarvo voi ylittää siihen johtavan oksan pituutta. Kokonaistukiarvo siis skaalataan puun pituutta käyttäen välille 0-1 seuraavasti: 226 Bioinformatiikan perusteet kokonai stuki ar vo = br emeri ntuki ar vot puunpi tuus Jos kaikki puun haarat ovat täysin yksikäsitteisiä eli aineistossa ei esiinny homoplasiaa, on kokonaistukiarvo 1. Jos muodostuvat puu on täysin puskamainen, on tukiarvo 0. Bremerin tukiarvossa on sama heikko kohta kuin bootstrapping- ja jackknifingmenetelmissäkin, sillä se mittaa ainoastaan tiettyä puun haarautumiskohtaa tukevien ominaisuuksien määrää, eikä ota huomioon, että jotkin ominaisuudet voivat myös puhua haarautumiskohtaa vastaan. Tämä epäkohta on huomioitu, ja relative fit difference -tukiarvo (RFD) ottaa sekä haarautusmiskohtaa tukevat että sitä vastaan puhuvat ominaisuudet huomioon. Jos haaran saama RFD-arvo on esimerkiksi 0,25, se merkitsee, että 25% ominaisuuksista (siis haaraan johtavan oksan pituudesta) tukee haaraa ja 75% ei tue haaraa (ovat siis homoplasisia). RFD-arvon laskeminen on käsitelty tarkemmin puunuudelleenjärjestelymenetelmien, erityisesti tree drifting-menetelmän yhteydessä. 21.5 Puun pituuksien jakauma (DCL) Puun pituuksien pituusjakaumaa (distribution of cladogram lenghts) tutkittu suhteellisen vähän, mutta sitä pidetään aineistossa olevan fylogeneettisen signaalin mittana. Toisin sanoen DCL siis mittaa aineiston informatiivisuutta tai puumaisuutta. Puumaisuudella tarkoitetaan sitä, miten hyvin aineiston perusteella voidaan muodostaa täydellisesti kahtiajakoinen (binäärinen) puu. DCL:llä puolestaan tarkoitetaan tarkkaan ottaen kaikkien mahdollisten tietylle aineistolle muodostettavissa olevien binääristen puiden pituusjakaumaa. Jos puiden pituusjakauma on symmetrinen, on suurin osa puista vain yhden tai korkeintaan muutaman askelen toisiaan lyhyempiä, ja aineiston fylogeneettinen signaali on heikko. Jos pituusjakauma sen sijaan on vasemmalle vino, eli sillä on vasemmalle suuntautuva pitkä häntä, on olemassa vain muutamia puita, jotka ovat lyhyintä puuta hieman pidempiä, ja aineiston fylogeneettinen signaali on voimakas. DCL:ää voidaan käyttää formaalin tilastollisen testin kasaamiseen (Hillis, 1991). Testiä varten generoidaan nollahypoteesi (aineisto), jossa kaikki ominaisuuden tasot ilmenevät yhtä usein. Näin luodusta aineistosta määritetään DCL, ja jos oikean aineistomme vinousparametri g1 on pienempi kuin 95%:ia nollahypoteesiaineistojen vinousparametrien arvoista, voimme vetää johtopäätöksen, että aineistossamme on voimakas fylogeneettinen signaali (Kuva 21.4). Tulos voi kuitenkin johtua esimerkiksi siitä, että ominaisuuksien tasot ovat jakaantuneet nollahypoteesiaineistossa epätasaisesti eri taksonien kesken. Ominaisuudet, jotka jakavat tutkittavan taksoniryhmän kahtia tapaavat tehdä DCL-jakaumasta symmetrisemmän. Vastaavasti ominaisuudet, joiden perusteella voidaan muodostaa pieniä ryhmiä, tekevät DCLjakaumasta vasemmalle vinon. Simulaatioissa on havaittu, että aineistot, jotka tuottavat vain yhden lyhyimmän parsimoniapuun, tuottavat myös myös hyvin vasemmalle vinon puiden pituusjakauman. Aineistot, joiden perusteella on mahdollista muodostaa useampia yhtä hyviä parsimoniapuita, tuottavat symmetrisemmän jakauman. Mainittujen simulaatioiden tulokset tosin tarkkaan ottaen pätevät vain, jos ominaisuuden muutostodennäköisyys on kussakin puun oksassa sama. Mitä symmetrisempi jakauma, sitä lähempänä nollaa vinousparametri g1 on. Vasemmalle vinoilla aineistoilla g1 on negatiivinen, ja useimmat aineistot, jopa satunnaiset aineistot saavat negatiivisen g1:n arvon. DCL:n ongelmana on, että g1-parametri määräytyy pitkälti puiden pituusjakauman keskusmassan perusteella. Jakauman keskustassa on yleensä enemmän havaintoja (puita) kuin sen hännissä, ja sama pätee vasemmalle vinoon jakaumaan. 21 Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit Exhaustive search completed: Number of trees evaluated = 34459425 Score of best tree found = 423 Score of worst tree found = 501 Number of trees retained = 1 Time used = 57.86 sec Frequency distribution of tree scores: 423 424 425 426 mean=474.754044 sd=8.726937 g1=-0.790417 g2=0.839645 /--------------------------------------------------------------+ (1) <---- paras puu + (3) + (10) + (24) 427 428 429 430 431 432 433 434 435 436 + + + + + + + + + + 437 438 439 440 441 442 443 444 445 446 + (5732) + (7395) + (9407) <---- ylimmän promillen raja + (11846) +# (14493) +# (17210) +# (20475) +# (24070) +# (29233) +# (34473) 447 448 449 450 451 452 453 454 455 456 +# (41547) +## (50171) +## (60411) +### (72904) +### (88022) +#### (105289) +#### (124883) +##### (148696) +###### (175854) +####### (206653) 457 458 459 460 461 462 463 464 465 466 +######## (239733) +########## (276467) +########### (314149) +############ (355512) +############## (400644) +################ (447037) +################# (497778) +################### (553867) +###################### (617542) +######################## (687123) 467 468 469 470 471 472 473 474 475 476 +########################### (763846) +############################## (851871) +################################# (947834) +##################################### (1057813) +######################################### (1171285) +############################################# (1291741) +################################################# (1414835) +##################################################### (1529707) +######################################################### (1635266) +############################################################ (1721583) 477 478 479 480 481 482 483 484 485 486 +############################################################## (1780030) +############################################################### (1809134) +############################################################### (1795837) +############################################################# (1741252) +######################################################### (1645527) +#################################################### (1505693) +############################################### (1342997) +######################################## (1158322) +################################# (961727) +########################### (772788) (72) (180) (348) (629) (857) (1235) (1734) (2284) (3215) (4204) 487 +##################### (595936) 488 +############### (442508) 227 228 Bioinformatiikan perusteet 489 490 491 492 493 +########### (315584) +####### (214729) +##### (141568) +### (87300) +## (51883) 494 495 496 497 498 499 500 501 +# (28934) +# (15509) + (7747) + (3381) + (1317) + (416) + (100) + (13) -------------------------------------------------------------- Kuva 21.4: Esimerkki DCL-testin tuloksesta. Jakaumassa on esitetty kaikkien 11 lajille laskettujen puiden pituusjakauma. Lyhyin parsimoniapuu on pituudeltaan 423. Koska jakauma on generoitu käyttäen täydellistä hakua, on tämä takuuvarmasti lyhyin parsimoniapuu. Lyhyin parsimoniapuu sijoittuu jakaumassa selvästi ylimmän 5% sisään (jopa ylimmän promillen sisään), ja siten analysoidut ominaisuudet ovat hyvin yhteensopivia ja aineistossa on voimakas fylogeneettinen signaali ("p-arvo« 0,001). Jakauma on tuotettu PAUP* 4.0b10-ohjelman alltrees-komennolla. Pienille aineistoille (alle 12 taksonia) tämä ei ole ongelma, koska kaikki puut voidaan käydä läpi, mutta suuremmille aineistoille g1:n määrittäminen on ongelmallisempaa. Kun erilaisten puiden määrä on suuri, pitää niistä kerätä satunnaisotos g1:n laskemiseksi. Satunnaisotoksessa on se huono puoli, että mitä suuremmaksi mahdollisten puiden määrä kasvaa, sitä pienempi satunnaisotos kaikista mahdollisista puista voidaan kerätä ja sitä pienemmäksi tulee myös todennäköisyys, että satunnaisesti valitsemamme puu osuu pituusjakauman häntään. Koska tällöin jakauman keskusmassan vaikutus g1:n määrittämisessä korostuu entisestään, on epäselvää, miten pitkälle meneviä päätelmiä satunnaisotosten perusteella voidaan vetää. Voihan nimittäin olla, että paras puu näyttää entistä paremmalta DCL-analyysin perusteella vain siitä syystä, ettei satunnaisotokseemme sattunut riittävästi puita pituusjakauman hännästä. Yllämainittu ongelma on DCL-menetelmän vakavin ongelma. Otetaan esimerkiksi aineisto, joka koostuu 43 taksonista. 43 taksonille voidaan muodostaa jo varsin lukuisa määrä erilaisia binäärisiä puita. Aineiston perusteella muodostettu lyhyin parsimoniapuu oli pituudeltaan 48, mutta 10 miljoonaan satunnaisen puun perusteella muodostettu satunnaisjakauma ei vielä päässyt lähellekään parhaan puun pituutta; satunnaisjakauman lyhyin puu oli pituudeltaan 79. Jos haluttaisiin päästä lähemmäksi parhaan puun pituutta, pitäisi satunnaisten puiden määrää lisätä moninkertaisesti, kenties useita kertaluokkia. Yhden kertaluokan lisääminen noin kymmenkertaistaa analyysin vaatima tietokoneajan, joten testin tuloksellinen tai luotettava suorittaminen voi vaatia hyvin pitkiä ajoja. 21.6 Permutaatiohännäntodennäköisyys (PTP) Toinen aineiston puumaisuutta mittava testi on permutaatiohännäntodennäköisyys (permutation tail probability, PTP). Sen avulla on pyritty ratkaisemaan esimerkiksi CI- ja RI-indekseihin liityvää ongelmaa: Indeksit, kuten DCL:kin, eivät ota huomioon kuinka moni ominaisuus tiettyä puuta tukee. Tiettyä puuta voi tukea hyvin eri määrä ominaisuuksia kahdessa eri aineistoissa, vaikka molemmat aineistot saisivatkin samat CI- ja RI-indeksien arvot. 21 Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit 229 CI- ja RI-indeksien heikko kohta voitaisiin välttää, jos ominaisuuksien lukumäärä ja niiden tasojen jakauma eri taksonien kesken voitaisiin ottaa tukiarvoa laskettaessa yhtäaikaisesti huomioon. CI:n arvo saavuttaa maksiminsa, jos aineistossa ei ole lainkaan homoplasiaa. Kaikkein lyhyimmät parsimoniapuut, jotka sisältävät paljon homoplasiaa, voivat olla peräisin aineistoista, joiden ominaisuudet ovat niin heikkolaatuisia, että vähintään samanpituinen ellei lyhyempikin puu voitaisiin muodostaa samankaltaisen satunnaistetun aineiston perusteella (Faith, 1991). Jos satunnaistettu aineisto tuottaisi alkuperäistä paremman tuloksen, voitaisiin alkuperäisen analyysin tulos kyseenalaistaa. Tämän tutkimiseksi sovelletaan PTP-testiä. PTP-testissä alkuperäinen aineisto permutoidaan (uudelleenjärjestellään tai satunnaistetaan) siten, että jokaisen ominaisuuden tasot satunnaistetaan sisäryhmään kuuluvien taksonien kesken. Ulkoryhmän ominaisuuksien tasoihin ei kosketa. Ominaisuudet satunnaistetaan siten, että niide runsaussuhteet pysyvät samanlaisina kuin alkuperäisessä aineistossakin. Esimerkiksi, jos viiden sisäryhmän taksonin yhden ominaisuuden tasot olisivat 00111, niin eräs permutaation näistä voisi olla 10110. Sama toistetaan jokaiselle taksonille, ja näin saadaan muodostettua yksi permutoitu aineisto. Permutoituja aineistoja muodostetaan ueimmiten 100-1000. Jokainen näistä permutoiduista aineistoista analysoidaan kuten alkuperäinen aineistokin, ja lopuksi alkuperäisen aineiston tuottaman puun pituutta verrataan permutoitujen aineistojen tuottamien puiden pituusjakaumaan. PTP-arvoksi kutsutaan niiden permutoitujen aineistojen tuottamien puiden osuutta, jotka ovat yhtä lyhyitä tai lyhyempiä kuin alkuperäisen aineiston tuottama puu (Kuva 21.5). PTP-arvo voidaan tulkita todennäköisyydeksi, että aineisto, jonka ominaisuuksien yhteisvariaatio (ominaisuuksien tasojen yhteisesiintyvyys) on satunnaistettu, tuottaa vähintään yhtä lyhyen puu kuin alkuperäinen aineisto. Testin nollahypoteesina voidaan pitää oletusta, ettei aineistossa ole muuta puumaisuutta kuin sattumalta esiintyvä puumaisuus (jotkut ominaisuudet aina sattumaltakin esiintyvät samoilla taksoneilla ja luovat aineistoon puumaisuutta). Nollahypoteesi voidaan hylätä, jos permutoitujen aineistojen tuottamista puista korkeintaa 5% on lyhyempiä kuin alkuperäisen aineiston tuottama puu. Pieni PTP-arvo on siis toivottavaa ja kielii siitä, että alkuperäisessä aineistossa on huomattava fylogeneettinen signaali. Koska PTP-testi perustuu lyhyimpien puiden etsimiseen jokaisesta permutoidusta aineistosta, voi testin ajoaika muodostua pitkäksi. Pienillä aineistoilla voidaan käyttää täydellistä hakua tai rajoitettua hakua, mutta suuremmilla aineistoilla joudutaan turvautumaan heuristisiin hakuihin, ja niiden ei voida taata löytävän kaikkein lyhyintä puuta, mikä voi aiheuttaa virhettä PTP-testin tuloksien tulkintaan. Lisäksi testin antama merkitsevyystaso (PTP-arvo) ei voi ylittää arvoa 1/(W + 1), jossa W on permutaatioiden määrä. Jos halutaan päästä 1% tasolle (PTP-arvo 0,01), pitää permutaatioita siten tehdä vähintää 99 kappaletta. PTP-testiä vastaan esitetty kritiikki perustuu pitkälti siihen, että ominaisuuksien ei voida otaksua kovarioivan satunnaisesti, sillä jokainen ominaisuus on mahdollinen synapomorfia, joka määrittelee puuhun yhden monofyleettisen ryhmän. Jos puuhun ylipäätään voidaan muodostaa monofyleettisiä ryhmiä, seuraa siitä automaattisesti, että jotkin ominaisuudet sisältävät väkisinkin hierarkkista informaatiota taksonien välisistä suhteista. Juuri ominaisuuksien hierarkkisen rakenteen vuoksi aineiston sisältämä informaatio voidaan kuvata puun muodossa. Koska permutoiduissa aineistoissa ei ole tällaista sisäsyntyistä taksonomista rakennetta, on niiden perusteella luotu nollahypoteesin mukainen jakauma väärä, ja siten myös PTP-testi testaa väärää nollahypoteesia. Voikin olla, että PTP-testin tuloksia tulisi tulkita ennemmin lisätukena analyysille kuin varsinaisena mittana aineiston puumaisuudesta: jos PTP-testin tulos on hyvin merkitsevä (pieni PTP-arvo), voimme luottaa analyysimme tuloksiin enemmän kuin jos testin tulos olisi ollut ei-merkitsevä. 230 Bioinformatiikan perusteet 10000 permutation test replicates completed Time used = 51.26 sec Results of PTP test: Number of Tree length replicates ------------------------423* 1 436 1 437 1 438 8 439 17 440 35 441 70 442 120 443 241 444 364 445 572 446 822 447 1049 448 1297 449 1353 450 1258 451 1087 452 790 453 465 454 264 455 134 456 32 457 19 * = length for original (unpermuted) data P = 0.000100 Kuva 21.5: Permutaatiotestin tulokset. Alkuperäinen aineisto saa PTP-arvon ("p-arvon") 0,0001, sillä yksikään tuotetuista permutoiduista aineistoista ei tuottanut alkuperäistä puuta lyhyempää puuta. Permutoitujen aineistojen perusteella muodostettujen puiden pituusjakauma on tuotettu PAUP* 4.0b10-ohjelman permute-komennolla. 21 Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit 21.7 231 Topologia-riippuvainen permutaatiohännäntodennäköisyys (T-PTP) Topologia-riippuvainen permutaatiohännäntodennäköisyys-testi (T-PTP) on PTPtestin laajennus, ja sen avulla voidaan testata, onko jokin tietty puun ryhmä monofyleettinen vai ei. Ryhmän monofylian katsotaan olevan voimakkaasti tuettua, jos kaikkein parsimonisin puu, jossa ryhmä on monofyleettinen on merkitsevästi lyhyempi kuin kaikkein lyhyin puu, jossa ryhmä ei ole monofyleettinen. Käytännössä testi toteutetaan siten, että tehdään PTP sekä aineistolle (puulle), jossa ryhmä on analyysin ajaksi pakotettu monofyleettiseksi (topological constraint), että aineistolle (puulle), jossa ryhmä ei ole monofyleettinen. Näin saatujen puiden pituuksisista muodostuu pituusjakauma. Tätä jakaumaa vastaan verrataan sen lyhyimmän parsimoniapuun, jossa ryhmä oli monofyleettinen, ja sen lyhyimmän parsimoniapuun, jossa ryhmä ei ollut monofyleettinen, pituuksien erotusta. Jos alkuperäisten puiden pituuksien erotus sijoittuu permutoiduista aineistoista muodostettujen puiden pituusjakauman lyhimmän 5% joukkoon, voidaan katsoa, että ryhmän monofylia on aineistossa hyvin tuettu. 21.8 Parametrinen bootstrapping Parametrisen bootstrapping-analyysin (PB) idea on hieman samantapainen kuin PTP-testin. PB:tä varten pitää ensin selvittää, mikä evoluutiomalli kuvastaa parhaiten alkuperäistä aineistoa; analyysiä käytetäänkin suurimman uskottavuuden menetelmien yhteydessä. Kun aineistoon parhaiten sopiva malli on valittu, tuotetaan sitä käyttäen akuperäisen rinnastuksen kokoisia, satunnaisia sekvenssirinnastuksia, tyypillisesti 100-1000 kappaletta. Jokainen näistä satunnaisista rinnastuksista analysoidaan kuten alkuperäinen aineistokin, ja näin saatujen uskottavuuksien jakauma selvitetään. Jakaumaa vastaan verrataan alkuperäisestä analyysistä saatua puuta, ja jos alkuperäisen puun uskottavuus on satunnaisista rinnastuksista muodostettujen puiden uskottavuusjakauman uskottavimman 5% joukossa, voidaan sanoa, että testin perusteella aineistossa on selkeä signaali, joka tukee muodostettua puuta. PB:tä voidaan käyttää myös hypoteesien, kuten tietyn eliöryhmän monofyliaoletuksen todenmukaisuuden testaamiseen (Huelsenbeck, 1996). Huelsenbeckin alunperin esittämä menetelmä on kuitenkin laskennallisesti raskas, ja useimmiten käytetäänkin Ruedin esittämää kevyempää muunnosta (Ruedi, 1998). Tällöin testaaminen suoritetaan pääpiirteissään seuraavasti. Aluksi valitaan aineistoon parhaiten sopiva evoluutiomalli, ja sitä käyttäen suoritetaan analyysi käyttäen kahta puuta: toisessa ryhmät saavat muodostua vapaasti, toisessa tietty ryhmä on kiinnitetty monofyleettiseksi. Lopuksi lasketaan puiden välisten uskottavuuksien erotus. Tämän jälkeen simuloidaan 100-1000 sekvenssirinnastusta käyttäen aineistolle parhaiten sopivaa evoluutiomallia. Näin saadut aineistot analysoidaan kahta puuta käyttäen, kuten alkuperäinen aineistokin. Simuloitujen aineistojen pohjalta muodostettujen puiden uskottavuuksien erotuksista muodostuu jakauma, johon alkuperäisen aineiston perusteella saatujen puiden uskottavuuksien erotusta verrataan. Jos vähintään 95% simuloitujen aineistojen perusteella lasketuista uskottavuuksien erotuksista on pienempiä kuin alkuperäisen aineiston perusteella laskettu erotus, on tulos merkitsevä 5%:n riskitasolla (p-arvo=0,05). Esimerkiksi, jos simuloiduista 1000:sta erotuksesta viisin on suurempia kuin alkuperäinen erotus, on tulos merkitsevä riskitasolla 5 / 1000 = 0,005. Parametrisen bootstrapping-analyysin onnistuminen riippuu valitun evoluutiomallin oikeellisuudesta. Jos valittu malli on väärä, ovat PB:n tuottamat tuloksetkin vääriä. Menetelmää kohtaa esitetty kritiikki onkin pitkälti perustunut mallin valintaan. Lisäksi menetelmän soveltamisella on käytännön ongelmia, sillä tavanomaisen suurimman uskottavuuden menetelmiä soveltavan analyysin tekeminen suurel- 232 Bioinformatiikan perusteet le aineistolle voi viedä jopa viikkoja. Nyt sama aikaaviepä analyysi pitäisi toistaa useille kymmenille tai sadoille aineistoille. Tähän ei ole helppoa ratkaisua, ja sama ongelma koskettaa monia muitakin uudelleenotantamenetelmiä, mukaan lukien tavanomainen (ei-parametrinen) bootstrapping. 21.9 Konsensuspuut Usein analyysissä, erityisesti parsimonia-analyysissä löytyy aineistolle useampia yhtä hyviä puita. Näiden puiden sisältämä informaatio voidaan kiteyttää yhteen puuhun käyttäen konsensuspuumenetelmiä. Konsensuspuusta voidaan havaita esimerkiksi ne taksoniryhmät, joille aineistosta ei löydy riittävää tai yksiseltteistä tukea. Tällaiset ryhmät voivat nimittäin näyttäytyä konsensuspuussa polytomioina. Toinen merkittävä konsensuspuiden käyttökohde on uudelleenotantamenetelmien tulosten muodostaminen. Esimerkiksi bootstrapping-analyysin tuloksen saatujen puiden sisältämä informaatio tiivistetään yhdeksi majority rule -konsensuspuuksi. Lisäksi konsensuspuiden avulla voidaan tiivistää eri aineistojen perusteella muodostettujen puiden sisältämä informaatio helpommin käsittävään muotoon, jossa myös eri analyysien väliset erot tulevat helpommin esiin konsensuspuun polytomioina. Kaikki konsensus-menetelmät kadottavat informaatiota, eikä konsensuspuuta voida yleensä tulkita esitykseksi taksonien evoluutiohistoriasta, vaan konsensuspuu esittää vain useampien puiden sisältämän informaation tiiviimmässä muodossa. Erilaisia konsensus-menetelmiä on kehitetty varsin monia, mutta seuraavassa käsitellään vain joitakin yleisimmin käytetyistä menetelmistä, kuten strict, semistrict, majority-rule, Nelson- ja Adams-konsensus sekä agreement subtrees. 21.9.1 Strict konsensus Strict eli tiukka konsensuspuu sisältää vain ne ryhmät, jotka ovat kaikille alkuperäisille puille (niille, joista konsensus muodostetaan) yhteisiä. Esimerkiksi kahdesta puusta (Kuva 21.6 voidaan muodostaa tiukka konsensuspuu (Kuva 21.7. Molemmissa puissa esiintyivät vain ihminen ja simpanssi yhdessä, muiden lajien sijoittuminen vaihteli, joten ne esitetään puussa polytomiana. Analyysimenetelmät voivat tuottaa esimerkiksi useampia saman mittaisia parsimoniapuita, koska ominaisuudet voidaan toisinaan optimoida samaan puuhun usella eri tavalla (vrt. ACCTRAN ja DELTRAN). Tällöin puiden haarautumisjärjestyskin voi hiukan muuttua. Oletetaan, että saamme analyysin tuloksena kaksi puuta, jotka ovat täysin binäärisiä, mutta joiden välillä on eroa jonkin ryhmän koostumuksessa. Kun puista muodostetaan tiukka konsensuspuu, alkuperäisiä puita erottava ryhmä muodostaa polytomian. Jos ero alkuperäisten puiden välillä johtui yksinomaan siitä, että ominaisuudet on optimoitu niihin hiukan eri tavoin, on puissa tällöin ollut sellaisia haaroja, joissa ei ole tapahtunut yhtään ominaisuuden tason muutosta. Tällaiset haarat on konsensuspuussa poistettu, ja konsensuspuun pituus ei eroa alkuperäisen puun pituudesta. Tässä tapauksessa konsensuspuun voidaan katsoa olevan paras esitys taksonien välisistä suhteista, koska se on kaikkein lyhyin puu sekä tarkkaan ottaen ainut aineiston suoraan tukema puu. Jos sen sijaan konsensuspuun ja alkuperäisten puiden pituudet eroavat, on syynä aineistossa oleva homoplasia, ei analyysin keinotekoinen tuote. 21.9.2 Semi-strict konsensus Semi-strict eli puolitiukka konsensuspuu sisältää sellaiset ryhmät, jotka eivät välttämättä esiinny kaikissa alkuperäisissä puissa, mutta ovat kuitenkin keskenään yhteensopivia. Tällaisia ryhmiä voi esiintyä, jos jossakin alkuperäisitä puista on ollut yksikin polytomia. Jos kaikki alkuperäiset puut ovat täysin binäärisiä (niissä ei ole 21 Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit 233 Kuva 21.6: Puut, joiden perusteella muodostettu strict konsensus on esitetty kuvassa 21.7. Kuva 21.7: Strict konsensus -puu 234 Bioinformatiikan perusteet polytomioita) eikä ominaisuuksia voida optimoida niihin kuin yhdellä tavalla, ovat tiukka ja puolitiukka konsensuspuu yhtäpitäviä. 21.9.3 Majority-rule konsensus Majority-rule eli enemmistökompromissipuussa esitetään vain sellaiset ryhmät, jotka ovat esiintyneet vähintään 50% alkuperäisistä puista. Prosenttiosuutta voidaan muuttaakin, mutta jos se kasvatetaan yli 50%:in, ei voida enää puhua varsinaisesta enemmistökompromissipuusta. Enemmistökompromissipuuta käytetään esimerkiksi tiivistämään bootstrapping-analyysin tulokset. Enemmistökompromissipuuta hyvin läheisesti muistuttava menetelmä on mediaanikonsensuspuumenetelmä. Siinä puiden samankaltaisuuden vertaamiseen käytetään jotakin puiden välisen etäisyyden laskemiseen soveltuvaa menetelmää, esimerkiksi symmetristä etäisyyttä. Käytettäessä symmetristä etäisyyttä mediaanikonsensuspuu on yhtäpitävä enemmistökompromissipuun kanssa, mutta muilla menetelmillä välttämättä ei. 21.9.4 Nelson-konsensus Nelson-konsensuspuussa esitetään vain sellaiset ryhmät, joita tukevat ominaisuudet eivät ole ristiriidassa keskenään (niissä ei siis ole homoplasiaa). Lisäksi esitettävien ryhmien tulee olla keskenään yhteensopivia. Siten Nelson-konsensuspuussa voi esiintyä myös ryhmiä, jotka ovat joidenkin alkuperäisten puiden kanssa ristiriidassa. Menetelmällisesti Nelson-konsensus on hyvin lähellä enemmistökonsensusmenetelmää. 21.9.5 Adams-konsensus Adams-konsensuspuissa esitetään sellaiset ryhmät, jotka muodostuvat, kun alkuperäisissä puissa keskenään ristiriidassa olevat taksonien ryhmittelyt ratkaistaan siirtämällä keskenään ristiriidassa olevat taksonit lähimpään puun haaraan, joka on molemmille yhteinen. Sietn Adams-konsensuspuu sisältää kaikki sisäkkäiset (nested) ryhmät, jotka ovat yhteisiä kaikille alkuperäisille puille. Jos alkuperäisten puiden joukkoon lisätään puu, joka on samankaltainen jonkin jo joukossa mukana olevan puun kanssa, voi enemmistökompromissipuu muuttua. Adams-konsensuspuu ei tässä tapauksessa sen sijaan muutu, mikä on menetelmän vahvuus. Heikkoutena on, että Adams-konsensus on määritelty vain juurretuille puille, ja tulos riippuu siitä, mikä taksoneista valitaan juureksi. Menetelmää voidaan siis käyttää vain sellaisille aineistoille, joille ulkoryhmä on erityisesti määritelty. 21.9.6 Agreement subtrees Agreement subtree eli yksimielisyyspuu sisältää sellaiset ryhmät, jotka ovat kahdelle puulle yhteisiä. Nämä kaksi puuta voivat olla hyvinkin erilaisia, mutta niiden tulee sisältää samat taksonit (sama vaatimus on tietysti muillakin konsensusmenetelmillä), ja yksimielisyyspuu sisältää ryhmät, jotka löytyvät niistä kaikista. Yksimielisyyspuu löydetään siten, että puista pudotetaan yksi kerrallaan yksi taksoni pois, kunnes kaikille puille yhteinen topologia (ryhmä) on löydetty. Tällä tapaa muodostuu itseasiassa taksonimäärältään alkuperäisiä puita pienempi alapuu (subtree), joka ei kuitenkaan toivottavasti ole kovin paljon alkuperäisiä pienempi. Eräänä yhden alkuperäisen puun ja yksimielisyyspuun välisenä mittana voidaan käyttää poistettujen taksonien lukumäärää. 21 Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit 21.10 235 Tilastolliset testit Seuraavassa esitellään muutamia tilastollisia testejä, joilla voidaan selvittää, onko muodostettujen puiden välillä, jos niitä on useampia, merkitsevää eroa. Tällaisia testejä ovat Kishino-Hasegawan ja Templetonin testit, todennäköisyysosamäärätesti sekä puiden välisten etäisyyksien laskeminen, joka ei varsinaisesti ole tilastollinen testi, vaan pyrkii lähinnä kuvailemaan puiden välisiä eroja. Lisäksi esitellään incongruence lenght difference (ILD) -testi, jonka avulla voidaan selvittää, pitäisi kaksi erillistä aineistoa yhdistää analyysi varten yhdeksi suureksi aineistoksi vai olisiko ne syytä pitää erillään. 21.10.1 Kishino-Hasegawa Kishino-Hasegawa testi (KHT) soveltuu suurimman uskottavuuden menetelmällä muodostettujen puiden vertailuun. Testi suoritetaan seuraavasti. Oletetaan, että olemme saaneet analyysin tuloksena kaksi miltei samanlaista uskottavinta puuta. Näiden puiden uskottavuuksien erotus on 3. Uskottavuuksien erotuksen varianssi (arvioidaan aineiston perusteella) on 0,05, ja analysoitavassa rinnastuksessamme on 200 kohtaa, joten kokonaisvarianssi √ on 0,05*200 = 10. Koska keskihajonta on varianssin neliö, on keskihajonta siten 10 ≈ 3, 16. Testissä käytettävän testisuureen z arvo saadaan laskettua jakamalla puiden uskottavuuksien erotus sen kokonaiskeskihajonnalla eli z = 3/3, 16 ≈ 0, 95. Testisuureen z oletetaan olevan normaalisti jakautunut, jolloin normitetun normaalijakauman tiheysfunktion arvoja tarkastelemalla huomaamme, että todennäköisyys, että normaalisti jakautunut muuttuja on yli 0,95 keskihajonnan päässä keskiarvostaan (tässä 0) on 0,329. Koska näin saatu todennäköisyys on suurempi kuin yleisesti raja-arvona käytetty 0,05, voimme sanoa, että puiden välillä ei näytä olevan merkitsevää eroa, joten molemmat ovat yhtä hyviä hypoteeseja taksonien evoluutiohistoriasta. KHT-testi ei anna oikeaa tulosta, jos verrattavia puita on useita, koska se ei korjaa tesisuuretta useiden tehtyjen vertailujen suhteen. Tavanomaisen tilastollisen testauksen yhteydessä tällainen korjaus voitaisiin tehdä esimerkiksi Bonferronikorjausta käyttäen. Puiden tapauksessa Bonferroni-menetelmää ei voi käyttää, vaan korjauksessa käytetään uudelleenotantamenetelmiä. Useiden vertailujen suhteen korjattua testiä kutsutaan Shimodaira-Hasegawa (SH) -testiksi. Toinen KHT-testin "muunnos"on RELL-testi, jossa alkuperäisen aineiston perusteella muodostetaan suuri määrä (10000) satunnaisia aineistoja bootstrappingmenetelmällä. Jokaiselle aineistolle lasketaan niiden uskottavuuksien erotus kahden tutkittavan topologian suhteen. Jokaisesta erotuksesta tutkitaan, onko se positiivinen vai negatiivinen. Esimerkkitapauksessamme 8350 satunnaisaineistoa 10000:sta tuotti positiivisen erotuksen. Tämä vastaisi kaksisuuntaisen testi merkitsevyyttä (1 - 0,8350) * 2 = 0,33. RELL-testi on kenties luotettavin tilastollinen testi, joka suurimman uskottavuuden menetelmillä muodostetuille puille voidaan suorittaa, mutta sen huonona puolena on sen usein vaatima pitkä ajoaika. 21.10.2 Templeton Templetonin testiä sovelletaan useimmiten parsimoniapuille, koska se käsittelee verrattavien puiden pituuksien erotusta. Jokaiselle aineiston ominaisuudelle lasketaan sen muutosten määrä kummassakin verrattavassa puussa (puita voi toki olla useampiakin), ja muutosten määrästä muodostetaan erotus. Nämä erotukset järjestetään arvonsa mukaan, ja negatiivisen erotuksen saaneiden ominaisuuksien järjestysnumerot lasketaan yhteen. Näin saatuja järjestylukujen summaa merkitään seuraavassa T:llä. Järjestysnumeroiden √ (n kappaletta) summan odotusarvo 1/4 ∗ n(n + 1), ja summan keskihajonta on (n(n + 1)(2n + 1)/24. Tässä oletetaan, etä aineisto koostuu yli 16 ominaisuudesta, jolloin testissä voidaan normaaliapproksimaa- 236 Bioinformatiikan perusteet tiota. Jos ominaisuuksia on vähemmän, voidaan normaalijakauman sijaan käyttää Wilcoxonin testisuureen jakaumaa, koska Templetonin testi on oleellisesti sama kuin Wilcoxonin testi. Erona Wilcoxonin testiin on lähinnä se, ettei testisuuretta laskettaessa käytetä epäjatkuuvuskorjausta. Varsinainen testisuure saadaan kaavasta z= |T − summanodostusar vo| summankeski ha j onta Testisuureen arvoa verrataan sitten normitetun normaalijakauman tiheysfunktion taulukoituihin arvoihin. 21.10.3 Todennäköisyysosamäärätesti Todennäköisyysosamäärätesti (likelihood ratio test, LRT) voidaan muodostaa kahden kilpailevan hypoteesin välille seuraavasti: L RT = 2[ln(L 1 ) − ln(L 0 )], jossa L 0 on nollahypoteesi ja L 1 vaihtoehtoinen hypoteesi ja ln on luonnollinen logaritmi. Monet suurimman uskottavuuden menetelmää soveltavat ohjelmat raportoivat uskottavuudet jo valmiiksi logairitmisina arvoina, joten ne voidaan suoraan sijoittaa testisuureen kaavaan. LRT-testisuureen voidaan olettaa olevan jakautunut X 2 -jakauman mukaan, jolloin vertaamalla testisuureen arvoa jakauman taulukoituihin arvoihin, voidaan määrittää testin p-arvo eli tilastollinen merkitsevyys. LRT-testiä voidaan käyttää esimerkiksi molekyylikello-oletuksen testaamiseen, jolloin X 2 -jakauman vapausasteiden (df) määrä voidaan laskea kaavalla n −2, jossa n on aineistossa olevien sekvenssien lukumäärä. Vapausasteita tarvitaan testin parvon määrittämiseen. LTR-testi olettaa, että nollahypoteesi ja vaihtoehtoinen hypoteesi ovat sisäkkäisiä (nested hypothesis). Esimerkiksi molekyylikello-oletuksen testaamisessa LTR:ää käyttäen tämä oletus ei tarkkaan ottaen pidä paikkaansa, jolloin testisuurekaan ei välttämättä noudata X 2 -jakaumaa. Testisuureen jakauma voidaan kuitenkin selvittää parametrista bootstrapping-menetelmää käyttäen (Goldman, 1993). LTR-testin avulla voidaan kuitenkin menestyksekkäästi selvittää, mikä evoluutiomalli sopii tutkittavaan aineistoon parhaiten. Erilaiset evoluutiomallit ovat toisilleen sisäkkäisiä, ja tällöin niiden vertaamisen keskenään voidaan käyttää LTRtestiä. LTR-testisuuretta vastaavan p-arvon määrittämiseksi lasketaan vapausasteiden määrä eri mallien vapaiden parametrien erotuksena. Vapaiden parametrien määrä riippuu käytetystä evoluutiomallista, ja ne on esitelty tarkemmin evoluutiomalleja tarkastelevassa luvussa. 21.11 Puiden välinen etäisyys Puiden välinen etäisyys voidaan laskea esimerkiksi sellaisten oksien määränä, jotka puiden välillä eroavat. Tällöin puhutaan symmetrisestä etäisyydestä (symmetric difference). Puiden välinen etäisyys voidaan laskea myös oksien pituuksia käyttäen, jolloin menetelmää kutsutaan pituuseroetäisyydeksi (branch-lenght distance, BLD). Symmetrinen etäisyys käyttää laskennassa vain puun muotoa, mutta pituuseroetäisyys ottaa sen lisäksi huomioon myös puun oksien pituudet. Puiden välisillä etäisyysmitoilla ei ole mitään varsinaista tilastollista tulkintaa, sillä niiden perusteella ei esimerkiksi voida päätellä, onko jokin puu toista puuta tilastollisesti merkitsevästi pidempi. 21 Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit 237 21.11.1 Symmetrinen etäisyys Symmetrisen etäisyyden laskeminen lienee helpointa havainnollistaa seuraavaa esimerkkiä käyttäen (Felsenstein, Phylip-dokumentaatio), jossa etäisyys lasketaan kahden puun välille. Oletetaan, että olemme saaneet analyysistämme tulokseksi seuraavat kaksi puuta: ((A,C),(D,(B,E))) (((A,D),C),(B,E)) Molemmissa puissa on kaksi sisäistä haaraa (merkitty alla olevaan kuvaan punaisella ja mustalla) sekä viisi terminaalista, lehtiin johtavaa haaraa. Sisäisten haarojen perusteella puut voidaan jakaa kahtia seuraavasti: (A,C | D,B,E) (A,D | C,B,E) (A,C,D | B,E) (A,D,C | B,E) Lisäksi terminaalisten haarojen perusteella kummastakin puusta voidaan muodostaa seuraavat puut: (A | B,C,D,E) (B | A,C,D,E) (C | A,B,D,E) (D | A,B,C,E) (E | A,B,C,D) Jos jakopuissa olevat taksonit sijoitetaan vielä aakkosjärjestykseen, saadaan molemmille puille seuraavat jaot: (A,C | B,D,E) (A,D | C,B,E) (A,C,D | B,E) (A,C,D | B,E) (A | B,C,D,E) (A | B,C,D,E) (B | A,C,D,E) (B | A,C,D,E) (C | A,B,D,E) (C | A,B,D,E) (D | A,B,C,E) (D | A,B,C,E) (E | A,B,C,D) (E | A,B,C,D) Symmetrinen etäisyys voidaan nyt laskea niiden jakojen määränä, joka puita erottaa. Ylläolevassa esimerkissä molemmille puille yhteisiä jakoja on yhteensä 12, ja niitä erottavia jakoja 2, joten puiden symmetrinen etäisyys on 2. 238 Bioinformatiikan perusteet 21.11.2 Pituuseroetäisyys Pituuseroetäisyys jatkaa siitä, mihin symmetrinen etäisyys jäi, ja ottaa huomioon puiden etäisyyttä laskettaessa myös oksien pituudet. Havainnollistetaan pituuseräetäisyyden laskemista seuraavan esimerkin avulla (Felsenstein, Phylip-ohje). Oletetaan, että olemme saaneet analyysistä tulokseksi seuraavat kaksi puuta. ((A,C),(D,(B,E))) (((A,D),C),(B,E)) Näille voidaan jälleen muodostaa puista löytyvät jaot seuraavasti. (A,C | B,D,E) (A,D | C,B,E) (A,C,D | B,E) (A,C,D | B,E) (A | B,C,D,E) (A | B,C,D,E) (B | A,C,D,E) (B | A,C,D,E) (C | A,B,D,E) (C | A,B,D,E) (D | A,B,C,E) (D | A,B,C,E) (E | A,B,C,D) (E | A,B,C,D) Lisäksi voidaan muodostaa vielä seitsemän jakoa, joita kummastakaan puusta ei löydy. (A,B | C,D,E) (A,E | B,C,D) (B,C | A,D,E) (B,D | A,C,E) (C,D | A,B,E) (C,E | A,B,D) (D,E | A,B,C) Jos puut, joihin oksien pituudet on merkitty ovat seuraavat (((B:0,3,E:0.8):0.2,D:0.25):0.2,(A:0.1,C:0.01):0.2) (((A:0.1,D:0.25):0.05,C:0.01):0.2,(B:0.3,E:0.8):0.2), voidaan kuhunkin jakoon liittyvän oksan pituus taulukoida seuraavasti: (A,C | B,D,E) (A,D | C,B,E) (A,C,D | B,E) (A | B,C,D,E) (B | A,C,D,E) (C | A,B,D,E) (D | A,B,C,E) (E | A,B,C,D) ((A,C),(D,(B,E))) 0,4 0,4 0,1 0,3 0,01 0,25 0,8 (((A,D),C),(B,E)) 0,05 0,4 0,1 0,3 0,01 0,25 0,8 Puista löytymättömiin seitsemään jakoon liittyvien oksien pituudet ovat nollia. Nyt kahden puun välinen etäisyys saadaan laskettua oksien pituuksien erotuksien neliöiden summana. Jos jakoa ei esiinny puussa, korvataan sen pituus laskutoimituksissa nollalla. 21 Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit 239 pi tuus = (0, 4 − 0)2 + (0 − 0, 05)2 + ... + (0, 8 − 0, 8)2 = 0, 16 + 0, 0025 = 0, 1625 Tässä esitetty pituuseroetäisyys on laskettu, kuten Kuhner ja Felsenstein ovat sen esittäneet. Toista vastaavankaltaista etäisyysmittaa, Robinson-Fouldsin etäisyysmittaa laskettaessa ei oksien pituuksien erotuksia neliöidä, vaan niistä otetaan itseisarvot. Pituuseroetäisyysmitan liittyminen symmetriseen etäisyyteen tulee selvimmin esille, jos takastellaan taulukkoa, jossa oksien pituudet kummallekin puulle ja kullekin jaolle on lueteltu. Symmetrinen etäisyys vastaa suoraan kyseissä taulukossa olevien miinusmerkkien (-) lukumäärää. 21.12 Incongruence lenght difference Incongruence length difference (ILD) -testin avulla voidaan testata, ovatka kaksi eri aineistoa riittävän yhteensopivia, jotta ne voitaisiin yhdistää samaan analyysiin. Testin tarkoituksena on selvittää, kannattaisi aineistot analysoida erikseen, ja lopuksi yhdistää tulokset puutasolla (taksonominen yhteensopivuus) vai ennemmin analysoida erilliset aineistot yhtenä suurena aineistona (ominaisuuksien yhteensopivuus). On edelleen keskustelun alla, pitäisikö analyysissä painottaa taksonomista vai ominaisuuksien yhteensopivuutta, ja ongelmaa tarkastellaan tarkemmin luvussa Molekyylisystematiikan avoimia kysymyksiä. Jos halutaan esimerkiksi tutkia, tulisiko kaksi aineistoa yhdistää vain analysoida erikseen, ILD etenee seuraavasti. Aluksi etsitään lyhyin mahdollinen parsimoniapuu yhdistetylle aineistolle, siis sellaiselle, jossa molemmat aineistot analysoidaan yhdessä ja muodostavat siten vain yhden aineiston. Sitten molempien erillisten aineistojen perusteella muodostetaan lyhyin mahdollinen parismoniapuu, ja niiden pituudet lasketaan yhteen. Testisuureen arvo saadaan vähentämällä yhdistetyn analyysin tuottaman parhaan puun pituudesta (L c ) yksittäisten aineistojen tuottamien parhaiden puiden pituuksien summa ( L i ): I = Lc − Li Testisuuretta laskettaessa siis yksittäisten aineistojen tuottamista puista vain lyhyin valitaan testiin, ja jos aineistolle löytyy useampia yhtä lyhyitä puita, vain yksi (tai sen pituus) valitaan. Testisuureen I nollahypoteesin mukainen jakauma määritetään muodostamalla yhdistetyn aineiston perusteella suuri määrä satunnaisia aineistoja. Esimerkissämme tutkimme kahta aineistoa, joten I:n jakaumaa muodostettaessa yhdistettyyn aineistoon kuuluvat ominaisuudet jaettaisiin satunnaisesti kahteen eri aineistoon, jotka ovat kooltaan alkuperäisten aineistojen kokoisia. I lasketaan jokaiselle näin muodostetulle satunnaiselle aineistolle, ja alkuperäisten aineistojen perusteella muodostettua I:n arvoa verrataan satunnaisten aineistojen perusteella lasketujen I:n arvojen jakaumaan. Jos alkuperäinen I on suurempi kuin 95% satunnaisten aineistojen perusteella saaduista I:n arvoista, voidaan sanoa, että aineistoissa on huomattavaa yhteensopimattomuutta, enemmän kuin voitaisiin olettaa johtuvan pelkästään satunnaisista seikoista. Tällöin voi olla parempi analysoida aineistot erikseen, ja tukeutua taksonomiseen yhteensopivuuteen ominaisuuksien yhteensopivuuden sijaan. 21.13 Likelihood heterogeneity test Suurimman uskottavuuden menetelmiä soveltaen voidaan muodostaa ILD:tä likeisesti muistuttavat testi, likelihood heterogeneity test (LHT). LHT-testisuure lasketaan kaavalla δ = 2(lnL 1 − lnL 0 ), jossa L 0 on puun uskottavuus, kun saman puun 240 Bioinformatiikan perusteet voidaan katsoa olevan kaikkien aineistojen taustalla (yhdistetty analyysi), ja L 1 on puun uskottavuus, kun eri puut voivat selittää eri aineistot (Huelsenbeck, 1996). Testisuureen d jakauma selvitetään parametrista bootstrapping:iä käyttäen siten, että muodostetaan satunnaisia yksittäisten alkuperäisten aineistojen kokoisia aineistoja. Simuloituja aineistoja muodostettaessa parametrisen bootstrapping:in parametreina käytetään alkuperäisten aineistojen perusteella estimoituja arvoja. LHT-testisuureen käytöstä Huelsenbeck antaa seuraavan esimerkin, jossa tutkitaan neljän eläinryhmän tai tarkemmin sanoen niitä edustavan taksonin (lintu, alligaattori, lisko, nisäkäs) taksonomiaa. Neljästä taksonista voidaan muodostaa kolme erilaista juurtamatonta puuta, jotka ovat: Aineistomme koostuu viidestä eri geenistä, 12S, 16S, 18S ja 28S rRNA sekä tRNA (Val.). Yhdistetty analyysi suosii puuta I. Erinäisistä syistä johtuen epäilemme, että 18S rRNA saattaa tuottaa yhdistetyssä analyysissä ongelmia, joten LHTtestiä käyttäen selvitämme, onko asia todella näin. Testi voidaan suorittaa vaikkapa Jukes-Cantorin evoluutiomallia käyttäen, jolloin saamme seuraavat tulokset 21.1. 21 Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit 241 Taulukko 21.1: Puu 1 2 3 12S -2451.37 -2458.43 -2453.23 16S -3606.93 -3623.90 -3628.92 18S -2089.59 -2091.62 -2072.38 28S -447.30 -454.53 -454.53 tRNA -223.98 -224.27 -223.43 Taulukossa on esitetty eri geenien suhteen kullekin puulle laskettu suurin uskottavuus, ja jokaisen geenin kohdalla suurin uskottavuus on korostettu. Yhdistetystä aineistosta saadun puun uskottavuus on -8816.19. Nyt voimme muodostaa testisuureen arvon seuraavasti: δ = 2(lnL 1 − lnL 0 ) = 2∗[−2451.37 + (−3606.93) + (−2072.38) + (−447.30) + (−223.43)] − (−8816.19) = 2 ∗ [(−8798.43) − (−8816.19)] = 35.52 Kun testisuureen δ jakauma on selvitetty parametrista bootstrapping:iä käyttäen, saamme testi p-arvoksi 0,03. Kun 18S rRNA jätettiin pois yhdistetystä analyysistä, saatiin tulokseksi, ettei geenien välillä ole heterogeenisuutta (p = 0,15), joten ne voidaan analysoida yhdistetyssä analyysissä. 18S rRNA sen sijaan pitää analysoida erikseen, sillä testin perusteella näyttää siltä, että siihen ovat vaikuttaneet erilaiset evoluutiovoimat kuin muihin tutkittaviin geeneihin. Tulos säilyy samana, vaikka testeissä käytettäisiin jotakin muuta evoluutimallia, kuten HKY-mallia gamma-korjauksella. 242 Bioinformatiikan perusteet 22 Molekyylisystematiikan avoimia kysymyksiä 22.1 Taksonominen vai ominaisuuksien yhteensopivuus? Molekyylisystematiikassa on yhä tavallisempaa, että samoista taksoneista on saatavilla useampia eri sekvenssejä, jotka edustavat esimerkiksi eri geenejä. Lisäksi monista taksoneista on saatavilla morfologisia tuntomerkkejä. Yhdistetyssä analyysissä kaikki aineisto, joka taksoneista on saatavilla yhdistetään yhdeksi aineistoksi ja analysoidaan yhdessä. Tällöin pyritään saavuttamaan mahdollisimman hyvä ominaisuuksien yhteensopivuus eri aineistojen kesken. Jos aineistot puolestaan analysoidaan jokainen erikseen, ja analyyseistä saadut puut yhdistetään jotakin konsensusmenetelmää käyttäen, puhutaan taksonomiseen yhtensopivuuteen pyrkimisestä. Kysymys, pitäisikö aineistot analysoida yhdessä vai erikseen on eräs nykyaikaisen molekyylisystemaattisen analyysin keskeisimmistä keskustelunaiheista (Huelsenbeck, 1996). Yhdistettyä analyysia kannattavat tutkijat katsovat, että analyysin tarkoituksena on maksimoida aineiston selitysvoima. Parsimonia-analyysin termejä käyttäen yhdistetyssä analyysissä pyritään selittämään kaikkien tunnettujen ominaisuuksien jakauma eri taksoneissa kaikkein parsimonisimmalla tavalla. Erillisessä analyysissä puolestaan oletetaan, että on olemassa todella toisistaan riippumattomia aineistoja, jotka pitää analysoida erikseen. Esimerkiksi morfologiset aineistot ja sekvenssiaineistot eroavat erillistä analyysiä kannattavien katsantokannan mukaan, ja siksi ne tulisi analysoida erikseen. Perusteluna voidaan lisäksi käyttää sitä, että erilliset aineistot (ja niiden tulokset) voivat toimia toistensa testinä. Jos siis eri aineistojen analyyseissä esiintyy toituvia ryhmiä, voidaan tämän katsoa tukevan ryhmien olemassaoloa. Seuraavassa tarkastellaan molempia katsantokantoja hieman tarkemmin. 22.1.1 Erillinen analyysi Erillisen analyysin perusteluna käytetään usein sitä, että uskotaan olevan olemassa aineistoja joissa on perustavaa laatua olevia eroja. Tällaisia toisistaan riippumattomia aineistoja voivat olla esimerkiksi morfologiset aineistot, joiden perusteella voidaan muodostaa lajipuu ja sekvenssiaineistot, joiden perusteella voidaan muodostaa geenipuu. Aineistot siis kuvastavat samojen lajien evoluutiohistoriaa hieman eri tavoin. Samantapaisia toisistaan eroavia aineistoja on helppo kuvitella enemmänkin: esimerkiksi yksinomaan äidiltä periytyvät mitokondriosekvenssit ja molemmilta vanhemmilta periytyvät tumasekvenssit tai proteiineja koodaavat ja proteiineja koodaamattomat geenit. Yksittäiset ominaisuudet voivat siis evolvoitua erilaisten mekanismien ajamina eri aineistoissa. Jos mutaatiomekanismit vaikuttavat eri sekvensseihin eri tavoin, voi mutaatiomekanismien suhteen eroavien aineistojen erillinen analyysi olla perusteltua. Ongelmaksi muodostuu, miten tällaiset erilaiset mekanismit tunnistetaan, 22 Molekyylisystematiikan avoimia kysymyksiä 243 ja kuinka hienolla tasolla niitä tulisi tarkastella. Suurimman uskottavuuden menetelmissä mutaatiomekanismit on sisällytetty evoluutiomalliin, mutta parsimoniaanalyysin yhteydessä sopivan mallin (painotuksen) määritteleminen voi olla vaikeampaa. Simulaatiotulosten perusteella näyttää siltä, että jos käsillä on kaksi erilaista aineistoa, joista toisen sekvenssit muuttuvat nopeasti, ja toisen hitaasti, voi erillinen analyysi antaa tulokseksi luotettavamman puun kuin yhdistetty analyysi. Tämä tulos pätee olettaen, että molemmissa aineistoissa kaikkia ominaisuuksia on painotettu tasaisesti. Jos nopeammin evolvoituvia sekvensejä painotetaan vähemmän kuin hitaasti evolvoituvia kuitenkin siten, että molemmat aineistot saavat yhtä suuren yhteenlasketun painoarvon analyysissä, ongelma poistuu, ja yhdistetty analyysi tuottaa luotettavamman tuloksen. Yhdistetyssä analyysissä eri kokoiset aineistot voivat vaikuttaa tuloksiin siten, että jos kaikkia ominaisuuksia painotetaan tasaisesti, suurempi aineisto voi vaikuttaa tuloksiin pientä aineistoa enemmän. Koska suuressa aineistossa on enemmän ominaisuuksia, voi pienessä aineistossa oleva informaatio hukkua suuremman aineiston alle. Erillisessä analyysissä tätä ongelmaa ei ole, vaan molemmat aineistot vaikuttavat tuloksiin yhtä paljon. 22.1.2 Yhdistetty analyysi Yhdistetyn analyysin etuna verrattuna erilliseen analyysiin on, että muodostuvan puun haarautumisjärjestys on miltei aina paremmin tunnettu eli siinä on vähemmän polytomioita kuin erillisen analyysin tuloksena saatu konsensuspuu. Yhdistetyllä analyysillä on erillista analyysiä parempi selitysvoima, mikä onkin menetelmän käytön tärkein perustelu. On kuitenkin mahdollista, että erillisen analyysin tuottama konsensuspuu on konservatiivinen arvio lajien välisistä suhteista, ja siten sen käyttämiseen liittyy pienempi vaara vetää vääriä johtopäätöksiä. Yhdistetyssä analyysissä kyetään välttämään eri konsensusmenetelmistä aiheutuvat erot tuloksissa. Jos jokaisesta erillisestä aineistoista saadaan usemapia puita, ja niiden sisältämä informaatio tiivistetään jokaisesta aineistosta eri konsensusmenetelmää käyttäen, on tällaisten eri menetelmin muodostettujen konsensuspuiden yhdistäminen erillisen analyysin päätteeksi hankalaa. Yhdistetyssä analyysissä sen sijaan useat yhtä hyvät puut voidaan tiivistää yhdeksi konsensuspuuksi käyttäen yhtä ja samaa konsensusmenetelmää. Näin voidaan tietysti tehdä erillisessä analyysissäkin. 22.1.3 Ehdollinen aineistojen yhdistäminen Ehdollisella aineistojen yhdistämisellä tarkoitetaan sitä, että ennen kuin aineistot yhdistetään, tutkitaan ovatko ne yhteensopivia. Aineistojen yhteensopivuuden testaamiseen voidaan käyttää ILD- tai LHT-testejä, jotka on esitelty tarkemmin tilastollisia testejä käsittelevässä luvussa. Jos aineistot ovat testin perusteella yhteensopivia, ne yhdistetään ja analysoidaan yhtenä aineistona. Jos sen sijaan aineistoissa on huomattavaa yhteensopimattomuutta, ne analysoidaan erillisinä aineistoina, ja tulokset tiivistetään konsensuspuuksi. Aineistojen yhteensopivuuden testaaminen on tärkeää erityisesti suurimman uskottavuuden menetelmien tapauksessa, jolloin väärän evoluutiomallin käyttäminen analyysissä vaikuttaa tuloksiin epäsuotuisasti. Jos eri aineistoihin näyttävät LHT-testin perusteella vaikuttavan erilaiset evoluutiovoimat ei aineistoja kannata yhdistää, koska saman evoluutiomallin käyttäminen kaikille aineistoille vääristäisi tuloksia. Sama pätee myös parsimonia-analyysiin, jos evoluutiomallista (erilaisten nukleotidimuutosten painoarvoista, ym.) halutaan erityisesti olettaa jotakin. 244 Bioinformatiikan perusteet 22.1.4 Käytännön ehdotuksia Erillisen analyysin ongelmana on, että jos kaikissa aineistoissa eivät esiinny samat taksonit, muodostuu konsensuspuun muodostamisesta ongelma. Tällöin pitää turvautua superpuiden laatimiseen tarkoitettuihin menetelmiin, joihin liittyy omia ongelmiaan. Oletetaan, että tutkimme neljää erilaista sekvenssiä, joiden perusteella pyrimme hahmottamaa koiraeläinten evoluutiohistoriaa. Yhdistetyn analyysin ongelmaksi muodostuu yhdistetyn ominaisuusmatriisin muodostaminen, jos yhdeltä tai useammalta taksonilta puuttuu jokin sekvensseistä. Tällöin on mahdollista valita analyysiin vain sellaiset taksonit, joista kaikki sekvenssit löytyvät, mutta näin voidaan joutua uhraamaan suuri osa aineistosta. Toinen vaihtoehto on koodata puuttuvat sekvenssit puuttuvina havaintona analyysiä varten. Useimmissa analyysiohjelmissa tämä tapahtuu korvaamalla koko puuttuva sekvenssi kysymysmerkeillä. Puuttuvien sekvenssien korvaaminen puuttuvilla havainnoilla mahdollistaa kaiken aineiston käyttämien yhdistetyssä analyysissä, mutta en huonona puolena on, että puun luotettavuus, esimerkiksi bootstrapping-arvoilla tarkasteltuna kärsii. Yhdistetyssä analyysissä ongelmia voivat tuottaa myös polymorfiset ominaisuudet, siis sellaiset ominaisuudet, joista esiintyy yhdellä tai useammalla taksonilla vähintää kahta eri muotoa. Monista taksoneista on edelleen saatavilla vain yksi ainut sekvenssi, mutta joistakin analyysiin valituista taksoneista sekvenssejä voikin olla saatavilla useita. Tämä voi vääristää analyysiä, koska emme tiedä ominaisuuksien polymorfisuudesta mitään sellaisilla taksoneilla, joilla analyysiin on valittu vain yksi ainut sekvenssi. Tällaisissa tapauksissa lienee parasta poistaa analyysistä sellaiset ominaisuudet, joissa esiintyy polymorfiaa yhdessäkin taksonissa. Koska yhdistetty analyysi antaa taksonien välisistä suhteista tarkempaa tietoa, lienee menetelmän suosiminen erillisen analyysin kustannuksella paikallaan. Yhdistettyä analyysiä ei kuitenkaan kannata suosia varauksetta, vaan sen oletusten täyttyminen pitää testata esimerkiksi ILD- tai LHT-testiä käyttäen. Felsenstein johtaa kirjassaan (2004) parsimonia-analyysissä sovellettavat ominaisuuksien painoarvot parsimonian suurimman uskottavuuden ominaisuuksia soveltaen. Tällöin ominaisuudet, joissa on tapahtunut eniten muutoksia saavat pienimmän painoarvon. Tämä on periaatteessa suurimman uskottavuuden menetelmien käyttämä "painotus", mutta Felsenstein yleistää saman painotuksen koskemaan myös parsimonia-analyysiä. Sama idea voidaan Felsensteinin mukaan edelleen yleistää koskemaan myös eri sekvenssejä. Tällöin analyysissä eri ominaisuuksien saamiin painoarvoihin vaikuttaisivat yhdessä sekä itse ominaisuus, siis siinä tapahtuneiden muutosten määrä, että sen sekvenssin ominaisuudet, johon ominaisuus kuuluu. Tällöin tuloksena olisi painotettu parsimonia-menetelmä, joka yhtäaikaiesti toimisi sekä kokonaisaineistomenetelmänä (yhdistetty analyysi) että muistuttaisi läheisesti konsensusmenetelmää (erillinen analyysi). Sama menettelyä voidaan soveltaa myös suurimman uskottavuuden menetelmiin kätkettyjä Markovin malleja käyttäen. 22.2 Analyysiin DNA- vai proteiinisekvenssit? Koska DNA-sekvenssi sisältää toiminnallisen proteiinin tuottamiseen tarvittavan informaation, usein molekyylisystematiikassakin käytetään analyysiin DNA-sekvenssejä. Koska valinta kuitenkin tapahtuu pitkälti proteiinitasolla, voi toisinaan olla tarpeen analysoida aminohapposekvenssejä DNA-sekvenssien sijaan. DNA:han kohdistuvat valintapaineet voivat (tuotetun proteiinin pitää olla toiminnallinen, GC% korkeissa lämpötiloissa kasvavissa eliöissä) olla monimutkaisempia kuin aminohappotasolle kohdistuvat valintapaineet, jolloin tarvittavan evoluutiomallin valinta voi muodostua vaikeaksi. Tämän lisäksi aminohapposekvenssin valintaa puolustavat muutkin seikat, joista seuraavassa tarkastellaan muutamia. 22 Molekyylisystematiikan avoimia kysymyksiä 245 Aminohapposekvenssien avulla kyetään kurkistamaan pidemmälle ajassa taaksepäin kuin DNA-sekvenssejä käyttäen, koska niisä tapahtuu huomattavasti vähemmän muutoksia kuin DNA-sekvensseissä. Proteiineja koodaavissa DNA-sekvensseissä suurin osa muutoksista tapahtuu kodonin kolmannessa kohdassa, ja muutokset ensimmäisessä tai toisessa kohdassa ovat harvinaisempia, koska ne saattavat aiheuttaa aminohappomuutoksen muodostuvassa proteiinissa. Aminohapposekvenssien analysointi vastaakin pitkälti DNA-sekvenssin kodonien kolmansien kohtien poistamista analyysistä. Eräs tapaus, jossa kodonien kolmansien kohtien jättäminen analyysistä, niiden muita kohtia vähäisempi painotus analyysissä tai aminohapposekvenssien analysointi DNA-sijaan, on kodonien kolmansissa kohdissa tapahtuneiden muutosten saturoituminen (Kuva 22.1). Kuva 22.1: Proteiinia vastaavan geenin kodonin eri kohtien muutosten saturaatioasteen tutkiminen. Kuvassa on esitetty transitioiden (s) ja transversioiden (v) osuus eri kodonien kohdissa F84-evoluutiomallin perusteella lasketun etäisyyden suhteena. Sekä transitioiden että transversioiden lukumäärän oletetaan kasvavan etäisyyden kasvaessa kuitenkin siten, että transitioiden lukumäärän odotetaan kasvavan transversioiden lukumäärää nopeammin. Ajan kuluessa samaan sekvenssikohtaan sattuu sattumalta useita muutoksia, jolloin transversioiden lukumäärä ajaa transitioiden lukumäärän ohi. Tämä kielii kodonissa tapahtuneesta saturaatiosta, jota evoluutiomalli ei kykene korjaamaan. Kuvan perusteella kodonien kolmansissa kohdissa esiintyy saturaatiota, ja ne voidaan jättää esimerkiksi pois analyysistä. Kuva on tuotettu DAMBE 4.2.13 -ohjelmalla. Jos siis DNA-sekvenssit näyttävät kovin erilaisilta (niitä ei voida luotettavasti rinnastaa) tai niissä esiintyy huomattavaa saturaatiota, jolloin DNA-sekvenssien analysoiminen voi antaa hyvinkin harhaanjohtavia tuloksia, voi olla parempi analysoida aminohapposekvenssejä DNA-sekvenssien sijaan. DNA-sekvenssien ongelmana on, että kahdessa satunnaisessa sekvenssissä voidaan olettaa olevan sama nukleotidi samassa paikassa noin 25% todennäköisyydellä. Proteiineissa samat aminohapot esiintyvät samassa paikassa sattumalta vain noin 5% todennäköisyydellä. Siten aminohapposekvenssien käyttö DNA-sekvenssien sijaan saattaa vähentää aineistossa olevaa hälyä, ja mahdollistaa voimakkaamman analyysin. Aminohapposekvenssien ongelmana on, ettei niitä käyttäen voida useinkaan tutkia kovin läheisiä lajeja tai esimerkiksi virusinfektion epidemiologiaa, sillä näis- 246 Bioinformatiikan perusteet sä tapauksissa aminohapposekvensseissä ei välttämättä havaita tarpeeksi muutoksia luotettavaa analyysia varten. Valinta DNA- ja aminohappoaineistojen välillä on siten häilyvä, ja riippuu viime kädesä tutkittavista eliöistä tai eliöryhmistä. Valintaa ei välttämättä ole mahdollista tehdä etukäteen, vaan valinta joudutaan usein tekemään yrityksen ja erehdyksen kautta. DNA-sekvenssit siis sisältävät huomattavasti enemmän informaatiota kuin aminohapposekvenssit, mutta niiden sisältämä informaatio voi olla harhaanjohtavaa, siis suuri osa aineiston ominaisuuksista voi olla homoplasisia, erityisesti kodonien kolmannet kohdat. On kuitenkin niin, että homoplasisetkin ominaisuudet tuovat analyysiin lisäinformaatiota taksonien välisistä suhteista, joskaan eivät yhtä paljon ominaisuutta kohden kuin synapomorfiat. Siksi onkin tarkkaan harkittava, onko analyysissä syytä siirtyä käyttämään aminohapposekvenssejä DNA-sekvenssien sijaan. Eräs osittainen ratkaisu ongelmaan voi olla proteiiniparsimonia, jossa analysoidaan aminohapposekvenssejä, mutta muodostettavassa puussa muutokset optimoidaan käyttäen tietoa aminohappoja vastaavista lähetti-RNA-sekvenssin kodoneista. Eräs tällainen proteiiniparsimoniamenetelmä löytyy PHYLIP-paketin PROTPARSohjelmasta. PROTPARS-ohjelmassa pyritään muodostamaa aminohapposekvenssien perusteella parismoniapuu, joka minimoi lähetti-RNA:ssa tapahtuneiden muutosten määrän. Synonyymiset muutokset, siis DNA-sekvenssin sellaistet, jotka eivät aiheuta aminohappomuutosta, eivät lisää puun pituutta. Esimerkiksi PROTPARSohjelmassa muutos lysiinistä (AAA) arginiiniksi (AGA) laskettaisiin yhdeksi muutokseksi, mutta muutos lysiinistä (AAA) proliiniksi (CCA) kahdeksi, koska välillä pitää käydä glutamminia koodaavan kodonin (CAA) kautta. Jotkin muutokset vaativat kolme nukleotidimuutosta, mutta ne lasketaan vain kahdeksi, koska muutoksiin sisältyy synonyymisiä muutoksia. Esimerkiksi muutos fenyylialaniinista (AAA) leusiinin (GAA) ja leusiinin (GAT) kautta glutamiiniksi (GTT) laskettaisiin vain kahdeksi muutokseksi. Tietenkin sekvenssit voidaan analysoida muitakin menetelmiä tai tavanomaista parsimoniaa (yksi aminohappomuutos lisää puun pituutta yhdellä) käyttäen, mutta PROTPARS voi tarjota näille mielenkiintoisen DNA- ja aminohapposekvenssien välimaastoon sijoittuvan menetelmän. Eräs aminohapposekvensseihin liittyvä mielenkiintoinen yksityiskohta on, että jos parsimonian halutaan olevan tarkentuva (consistent), mikä tarkoittaa sitä, että aineiston koon lisääntyessä menetelmän tulee saavuttaa oikea tulos varmemmin ja varmemmin, tulee yhdessä oksassa tapahtuneen muutoksen todennäköisyyden olla suhteellisen pieni. Tämä johtaa puolestaan siihen, että jokaisessa ominaisuudessa muutoksien täytyy olla suhteellisen harvinaisia. Jos siis DNA-sekvensseissä on tapahtunut suuri määrä muutoksia tai ne ovat jopa saturoituneet, puolustaa tämä aineiston transloimista aminohapposekvensseiksi ja analysoimista niitä käyttäen. 22.3 Long branch attraction Long branch attraction (LBA) on molekyylisystematiikassa tunnettu ongelma, johon ei ole olemassa yhtä ja oikeaa, yksiselitteitä ja joka tilanteeseen sopivaa selitystä. LBA:lla tarkoitetaan tilannetta, jossa muodostetussa puussa samaan ryhmään sijoitetut taksonit ovat yhdessä vain siksi, että niihin johtavat oksat ovat pitkiä. Tällöin taksonien sijoittelu samaan ryhmään on siis väärä, koska se perustuu vain siihen, että pitkät oksat vetävät analyysissä toisiaan puoleensa. Parsimoniamenetelmä näyttää olevan suurimman uskottavuuden menetelmiä herkempi LBA:lle, mutta sitä voi esiintyä minkä tahansa menetelmän yhteydessä. LBA:n tunnistamista varten on ehdotettu neljää sääntöä (Huelsenbeck, 1997): 1. "Yhteen houkuteltuihin"taksoneihin johtavien oksien tulee olla hyvin pitkiä muihin verrattuna. 2. Pitkäoksaisten taksonien yhteenkuuluvuuden täytyy saada korkea tukiarvo. 22 Molekyylisystematiikan avoimia kysymyksiä 247 3. Oksien täytyy olla riittävän pitkät, jotta ne voisivat vetää toisiaan puoleensa. 4. Jonkin toisen menetelmän, jonka tiedetään olevan käytettyä menetelmää vähemmän herkkä LBA:lle täytyy muodostaa puu, jossa pitkät oksat eivät sijoitu puussa yhteen. Säännön 2 mukaan meidän pitäisi siis luottaa vähemmän sellaisiin taksonien ryhmittelyihin, joihin johtaa pitkä oksa ja jotka saavat korkean tukiarvon. Paradoksaalisesti tämä tarkoittaisi sitä, että mitä suurempi määrä ominaisuuksista tukee tiettyä ryhmittelyä (korkea tukiarvo), sitä vähemmän meidän pitäisi siihen luottaa. Sääntöä 3 voidaan käytännössä testata parametrisella bootstrapping-analyysillä. Aineistosta arvioituja parametreja (muun muassa puuta ja sen oksien pituuksia sekä nukleotidien muutostodennäköisyyksiä) käyttäen simuloidaan aineistoja, jotka sitten analysoidaan kuten alkuperäinen aineisto. Simulaatioissa epäilystä herättävä(t) oksa(t) sijoitetaan puussa eri kohtiin (esimerkiksi erilleen toisistaan), ja jos pitkät oksat sijoituksestaan simulaatiopuussa riippumatta aina sijoittuvat analyysin jälkeen muodostuvassa puussa yhteen, ne ovat riittävän pitkiä houkuttaakseen toisiaan analyysissä. Parametrista bootstrapping-menetelmää LBA:n testaamiseksi on arvosteltu (Siddall, 1999), ja parempi tapa sen selvittämiseen voisikin olla muuttaa alkuperäistä aineistoa siten, että pitkän oksan päässä sijaitsevan taksonin ominaisuuksista osa (jopa kaikki) korvattaisiin satunnaisesti siten, että oksa tulisi alkuperäistä pidemmäksi. Kun tämä tehdään useita kertoja ja näin muodostetut aineistot analysoidaan, voidaan niiden perusteella tutkia houkuttaako taksoni, jonka ominaisuudet on korvattu, johdonmukaisesti jotakin muuta taksonia. Sääntö 4 tarkoittaa sitä, että puu pitäisi muodostaa esimerkiksi sekä suurimman uskottavuuden menetelmää että parsimoniamenetelmää käyttäen, ja jos suurimman uskottavuuden menetelmässä tuotetussa puussa pitkät oksat eivät houkuta toisiaan, mutta parsimoniapuussa houkuttavat, voi tulos johtua LBA:sta. Ongelmia voi aiheuttaa jälleen oikean evoluutiomallin valinta. Kaikkein tarkimpana mallina pidetään yleismallia (GTR), joka sisältää eniten parametrejä, joten se kuvastanee evoluutiota parhaiten. Jos sen sijaan kaikki muutkin, esimerkiksi Jukes-Cantorin malli, tuottavat GTR-mallin mukaisen tuloksen, ei syynä välttämättä olekaan LBA, vaan parsimonia ja suurimman uskottavuuden menetelmien sisäsyntyinen ero. Parar LBA-testi on, että jos analyysissä on esimerkiksi kaksi taksonia, jotka sijoittuvat analyysissä yhteen, ja syyksi epäillään LBA:ta, voidaan toinen jättää analyysistä, ja tutkia vaikuttaako tämä tuloksiin. Kaksi pitkäoksaista taksonia eivät voi vetää toisiaan puoleensa, jos vain toinen niistä on kerrallaan analyysissä mukana. Analyysin tuloksia voi tosin hankaloittaa runsas homoplasia, koska homoplasian vuoksi analyysitulos, jossa taksoni on mukana voi erota huomattavasti tuloksesta, jossa taksoni ei ole mukana. Toisinaan on havaittu, että suurimman uskottavuuden menetelmän yhteydessä väärä evoluutiomalli lisää todennäköisyyttä löytää oikea puu, mutta tämä johtunee lähinnä siitä, että väärän mallin käyttä lisää LBA:n mahdollisuutta. Mainituissa tutkimuksissa pitkät oksat todellisuudessa kuuluivat puuhun vierekkäin, joten väärän mallin käyttö ja sitä kautta LBA lisäsi todennäköisyyttä löytää puu, jonka tiedettiin olevan oikea. Havainto johtuu siis LBA:sta eikä liene millään tavalla yleistettävissä analyysia koskevaksi suositukseksi. LBA on otettava huomioon tuloksia analysoitaessa, jos näyttää siltä, että pitkät oksat sijoittuvat muodostetussa puussa toistensa naapureiksi huolimatta mahdollisista oletuksistamme (esimerkiksi morfologisen aineiston perusteella) ettei näin tulisi tapahtua. Yllä lyhyesti esiteltyjen testien lisäksi voidaan analyysia varten kerätä lisää aineistoa, jolla pyritään löytämään mahdollisesti pitkien oksien väliin sijoittuvia taksoneita. Jos uudet taksonit sijoittuvat pitkien oksien väliin, voidaan LBA turvallisesti sulkea laskuista. Taksoniotantaa käsitellään seuraavassa kappaleessa tarkemmin. 248 22.4 Bioinformatiikan perusteet Taksoniotanta ja häly - miten ne vaikuttavat analyysiin? 22.4.1 Taksoniotanta Taksoniotannalla tarkoitetaan tutkimukseen valittavien taksonien valintaa. Hyvä taskoniotanta kattaa tutkittavan ryhmän riittävällä tarkkuudelle siten, etei tutkimuksessa jätetä huomiotta esimerkiksi kokonaisia tutkimukseen piiriin selvästi kuuluvia eliöryhmiä. Jos tätä periaatetta noudatetaan, on eliöryhmän taksoniotanta kattava ("tasainen"). Useinkaan kattavaan otantaan ei päästä, sillä kaikki ryhmään kuuluvia taksoneita ei tunneta, niistä ei ole saatavilla näytteitä tai tutkimuksessa on muita esteitä mahdollisimman laajan taksoniotannan saavuttamiselle. Eräs peruste kattavan taksoniotannan käyttämiselle on, että sen avulla voidaan mahdollisesti välttää long brach attraction (LBA) ja sen tuottamat virheet analyysissä. Kun taksoneita kerätään tasaisesti koko eliöryhmästä, ovat jotkin taksonit voineet evolvoitua muita nopeammin, ja niiden sekvensseissä tavataan runsaammin muutoksia. Tällaiset taksonit saattaisivat muodostetussa puussa sijoittua yhteen LBA:sta johtuen, mutta tasaisella taksoniotannalla voidaan pitkiä oksia pyrkiä pilkkomaan pienemmiksi, jolloin LBA:n todennäköisyyskin pienenee. Kattavan taksoniotannan vuoksi LBA:n mahdollisuus näyttää pienenevän juuri siksi, että terminaalisten oksien siis lehtiin (taksoneihin) johtavien oksien pituudet tulevat keskimärin lyhyemmiksi, kun analyysiin mukaan otettujen taksoneiden lukumäärää kasvatetaan (Rannala, 1998). Tällöin homoplasian havaitseminen tulee helpommaksi kuin pienempää taksonimäärää käyttäen. Tämä puolestaan johtaa luotettvampaa tulokseen. Suuren taksonimäärän valitseminen analyysiin todellakin näyttää tekevän luotettavan puun helpommaksi kuin pienemmällä taksonimäärällä (Hillis, 1996). Rosenbergin (2001) mukaan epätäydellinen taksoniotanta ei kuitenkaan aiheuta ongelmia, ja analyysistä saadaan luotettavampi analysoitujen sekvenssien pituutta kasvattamalla ei lisäämällä taksoneita analyysiin. Lisäksi näyttää siltä, ettei satunnainen taksonien lisääminen analyysiin paranna sen luotettavuutta. Jos sen sijaan taksoneita lisätään jo tunnettuihin monofyleettisiin ryhmiin, saatetaan näin saavuttaa lisäetua sellaiseen analyysiin verrattuna, jossa on ollut vähemän taksoneita. Vaikka taksoniotannan laajuudesta on hieman ristiriitaisia tuloksia evoluutiohistorian selvittämistä ajatellen, on taksoniotantaan kuitenkin kiinnitettävä huomiota esimerkiksi sekvenssien evoluutiota kuvaavien parametrien arvioinnissa. Parametrit, kuten nukleotidimuutosten todennäköisyyksien arviot saattavat riippua suuresti tutkimukseen valituista taksoneista, joten tällöin kannattanee pyrkiä mahdollisimman kattavaan tai tasaiseen taksoniotantaan. 22.4.2 Häly Molekyylisystemaatisessa analyysissä hälyllä (noise) tarkoitetaan satunnaista aineistoa. Vaikka satunnaisten ominaisuuksien perusteella voikin muodostua säännönmukaisuutta sattumalta, ei taustalla ole taksonomista informaatiota tai ominaisuuksien valinnassa ilmennyttä systemaattista virhettä. Hälyllä ei siis tarkoiteta tässä suoraan homoplasiaa, sillä homoplasia voi johtua esimerkiksi samansuuntaisesta evoluutiosta kahdessa eri puun osassa sijaitsevissa taksoneissa. Wenzel (1999) on tutkinut aineistoon lisätyn hälyn vaikutusta parsimoni-analyysin tuloksiin. Hälyä lisättiin aineistoon joko lisäämällä ominaisuusmatriisiin satunnaisia ominaisuuksia tai korvaamalla satunnaisesti osa ominaisuusmatriisin havainnoista. Kun ominaisuusmatriisin kanssa yhdistettiin samankokoinen pelkästään hälystä koostuva matriisi, ei häly häirinnyt analyysiä kovin merkittävästi, kunhan alkuperäisessä ominaisuusmatriisissa oli riittävästi synapomorfioita (1-3) taksonien välisten suhteiden määrittämiseksi. Samansuuntaisia tuloksia saatiin, kun osa ominaisuuksista (20%) korvattiin hälyllä. 22 Molekyylisystematiikan avoimia kysymyksiä 249 Usein hälyn poistamiseksi on ehdotettu käytettävän erilaisia ominaisuuksien painotuksia. Näyttää kuitenkin siltä, ettei niistä olisi hälyn kannalta juuri mitään hyötyä, pikemminkin päinvastoin. Wenzel (1999) nimittäin raportoi tutkimuksessaan, että luotettavimmat tulokset saatiin, kun analyysiin käytettiin DNA-sekvenssiä kokonaisuudessaan, kaikki kodonin kohdat mukaanluettuina. Vaikka kodonien kolmannet positiot ovatkin usein mutaatioiden määrällä mitattuna saturoituneita, ja siten sisältävät paljon homoplasiaa, lisäävät ne kuitenkin analyysiin enemmän informaatiota kuin hälyä taksonien suhteista. Siten kodonien kolmansien positioiden poistaminen analyysistä ei välttämättä ole perusteltua. Koska häly ei vaikuttanut häiritsevästi puun muodostamiseen, kunhan ominaisuusmatriisissa oli riittävästi synapomorfioita monofyleettisten ryhmien muodostamiseksi, ei erilaisia aineistojen yhdistettäessäkään luultavasti kohdata ongelmia. Useinhan huolena on ollut, että molekyylisekvesseissä on niin paljon hälyä, että siitä johtuva ristiriitainen informaatio taksonien välisistä suhteista peittää alleen sekvenssisineistoon yhdistettävän morfologisia tuntomerkkejä sisältävän huomattavasti kooltaan pienemmän aineiston. Wenzelin (1999) tutkimukseen nojaten, huoli näyttää turhalta. Tämä johtunee siitä, että aineistoja yhdistettäessä taksonien suhteista kerovan signaalin määrä moninkertaistuu esimerkiksi suhteessa aineistojen kokoihin, mutta hälyn määrä ainoastaan summautuu. Signaalin määrä siis näyttää kasvavan aineistoja yhdistettäessä hälyä nopeammin. 22.5 Sekvenssirinnastus ja POY Molekyylisekvenssien rinnastaminen, jota on käsitelty sekvenssirinnastusluvussa, ei ole helppoa eikä välttämättä objektiivistakaan, varsinkin jos sekvenssejä rinnastaa käsin. Eri henkilöt nimittäin muodostavat samoista sekvensseistä varsin erilaisia rinnatuksia, ja molekyylisystemattisen analyysin antamat tulokset voivat eri rinnastuksista tehtyinä olla hyvinkin erilaisia. Sekvenssirinnastus on kuitenkin keskeinen osa molekyylisystemaattista analyysiä, ja se saattaa vaikuttaa saatuihin tuloksiin huomattavasti (Morrison, 1997; Mugridge, 2000). Voidaankin sanoa, että analyysitulos on korkeintaan niin hyvä kuin rinnastus, jonka perusteella se on saavutettu. Rinnastukseen liittyvä ongelma voidaan ratkaista joko perinteisellä lähestymistavalla tai POY-tietokoneohjelmaa käyttäen. Molemmilla tavoilla on sekä hyviä että huonoja puolia, ja molemmat menetelmät esitellään seuraavassa lyhyesti. 22.5.1 Perinteinen lähestymistapa Rinnastuksen editointi käsin tuo analyysiin subjektiivisuutta, ja siksi molekyylisystematiikan työskentelyä varten lieneekin parempi rinnastaa sekvenssit useita erilaisia rinnastusohjelman asetuksiä käyttäen ja sitten analysoida nämä kaikki rinnastukset tai vain niistä parhaaksi katsottu. Tuloksia raportoidessa tulisi myös ilmoittaa rinnastuksissa käytetyt asetukset, ja mahdollisuuksien mukaan samoja asetuksia, esimerkiksi evoluutiomallia (PAM-matriisia vaikkapa), tulisi käyttää sekä sekvenssejä rinnastettaessa että rinnastusta analysoitaessa. Koska jo muutamasta sekvenssistä voidaan muodostaa hyvin suuri määrä erilaisia rinnastuksia, on kaikkien mahdollisten sekvenssirinnastusten analysointi mahdotonta. Jos sekvenssit on rinnastettu vaikkapa yhdeksää eri asetusyhdistelmää käyttäen, voidaan jokainen rinnastus analysoida erikseen, ja lopuksi yhdistää tulokset konsensuspuumenetelmiä käyttäen. Vaihtoehtoiseksi tavaksi on ehdotettu rinnastusten yhdistämistä ja analysoimista yhtenä aineistona, mutta tämä muodostaa eräänlaisen painotuksen, jossa parhaiten rinnastuvat alueet (tai ominaisuudet) saavat suurimman painoarvon. Lisäksi aineiston määrää lisäämällä analyysin tulokset tulevat esimerkiksi bootstrapping-arvoilla mitattuna luotettavammiksi eikä tukiarvoilla siten ole välttämättä suoraa tulkintaa sitä ajatellen, että oikeasti käsissämme on vain 1/9:n kokoinen alkuperäinen aineisto. 250 Bioinformatiikan perusteet Tiivistäen, voidaan ehkä suositella, että rinnastuksia tehdessä tulisi kokeilla erilaisia asetuksia, ja sitten analysoida kaikki tuloksena saadut rinnastukset. Rinnastuksia ei tulisi korjailla käsin, sillä se tuo analyysiin mukaan subjektiivisuutta. Useimmiten rinnastusvirheet eivät ole kovin suuria, korkeintaan muutamien nukleotidien kokoisia siirtymiä, eivätkä siten vaikuta analyysiin. Rinnastukset tulisi sitten analysoida erikseen, ja näin saadut tulokset yhdistää konsensusmenetelmiä käyttäen. Jos puun oksien pituudet halutaan selvittää, voitaisiin ne kenties arvioida aineistojen antamien tulosten keskiarvoina. Useimmat yhä edelleen poistavat sekvenssirinnastuksessa olevat aukkokohdat analyysistä. Näin menetetään helposti paljon informaatiota, mikä saattaa vaikeuttaa sellaisten ryhmien hahmottamista, joita aineistossa tukee vain muutama ominaisuus (Mugridge, 2000). Jos uskotaan, että rinnastusohjelmisto on sijoitellut aukkokohdat oikeille kohdin, voidaan aukkokohtien sisältämä informaatio koodata mukaan analyysiin, yleensä siten, että kutakin aukkokohtaa käsitellään binäärisenä muuttujana (joko taksonilla on kyseinen aukko tai sitten ei). Tällainen koodaus voi tuoda analyysiin huomattavaa lisäarvoa, sillä aukkokohtien ollessa luotettavia, voidaan niiden katsoa vastaavan oikeita indel-tapahtumia, ja siten myös kuvastavan taksonien evoluutiohistoriaa yksittäisiä nukleotidimuutoksia paremmin. Monet rinnastusmenetelmät muodostavat hyvin eri mittaisia rinnastuksi samoille sekvensseille. Rinnastuksen pituus ei kuitenkaan kerro sen perusteella muodostettujen puiden topologiasta vielä mitään. Hyvinkin eri mittaiset rinnastukset voivat päätyä tismalleen samaan puun muotoon. Esimerkiksi MALIGN-ohjelma näytti tutkimuksissa tuottavan hyvin pitkän rinnastuksen, mutta verrattaessa sen ja muiden ohjelmien tuottamien rinnastusten perusteella tuotettuja puita rakennerinnastuksen perusteella muodostettuun puuhun, tuotti MALIGN:n rinnastus eniten rakennerinnastusta muistuttavan puun (Morrison, 1997). Sekvenssirinnastuksessa tarkoituksena on sijoittaa samaan sarakkeeseen samanlaiset nukleotidit tai aminohapot. Tarkoituksena on siis maksimoida sekvenssien välinen samankaltaisuus. Sekvenssirinnastuksella luodaan hypoteeseja eri sekvenssikohtien homologiasta. Samassa sarakkeessa olevien sekvenssikohtien oletetaan olevan keskenään homologisia. Eri mittaisiin sekvesseihin sijoitettavien aukkojen vuoksi homologiahypoteesien muodostaminen ei aina ole yksiselitteistä tai helppoa. Asian ratkaisemiseksi onkin ehdotettu käytettäväksi esimerkiksi suoraa kohdistusoptimointia (direct optimization), joka on toteutettu esimerkiksi ohjelmassa POY. POY:n käytön perusteena on, että sekvenssirinnastusohjelmat (MALIGN-ohjelmaa lukuunottamatta, sillä POY on tavallaan MALIGN-ohjelman laajennus) pyrkivät maksimoimaan sekvenssien välisen samankaltaisuuden, eivät sekvenssien välistä homologiaa. Esimerkiksi Clustal-perheen ohjelmat käyttävät optimaalisuuskriteerinään sekvenssien välistä samankaltaisuutta. Siten ne eivät välttämättä kykenekään optimoimaan sekvenssien välistä homologiaa. Lisäksi ohjelmat käyttävät haussa heuristista menetelmää, joka ei myöskään takaa optimaalista tulosta. POY ja MALIGN käyttävät optimaalisuuskriteerinään rinnastusta vastaavan parismoniapuun pituutta, ja siten ne pyrkivät suoraan optimoimaan myös sekvenssien välisen homologian. Niiden hakumenetelmät ovat edelleen heuristisia, eivätkä siten takaa parasta mahdollista tulosta, mutta pääsevät varsin lähelle sitä. Aikaisempiin Needleman-Wunch-algoritmin usena sekvenssin rinnastuksia koskeviin laajennuksiin verrattuna niiden ajoajat ovat huomattavan pieniä, ja ero tarkkuudessa verrattuna Needleman-Wunchin algoritmia käyttäviin ohjelmiin on pieni. 22.5.2 POY:n ratkaisumalli POY on suhteellisen uusi tietokoneohjelma, jonka tarkoituksena on osaltaan ratkaista sekvenssirinnastuksen ja sitä vastaavan puun laatimiseen liittyviä ongelmia (Wheeler, 1996). Ideana on, että koska rinnastus ja sitä vastaava puu (eliöhistoria) eivät ole toisistaan riippumatomia, ne voidaan ratkaista yhtäaikaa. Lisäksi, koska 22 Molekyylisystematiikan avoimia kysymyksiä 251 ominaisuuksien homologiahypoteesi ei ole kiveen hakattu, vaan analyysin jälkeen sitä tulisi tarkastella kriittisesti, toteuttaa POY eräänlaisen sekvenssirinnastuksen homologiahypoteesien tarkastelun puun muodostamisen jälkeen, ja jos on syytä muuttaa joidenkin sekvenssikohtien homologiahypoteesia, siis rinnastusta, se tehdään niin, että rinnastus sopii muodostettuun puuhun paremmin. Optimointikohdistus (direct optimization) POY käyttää sekä puuta että sitä vastaavaa rinnastusta (implied alignment) muodostaessaan molemmissa vaiheissa samaa mallia. Ohjelmalle voidaan antaa jokin Sankoffin matriisi, jonka avulla määritetään eri muutoksien hinta, ja lisäksi aukkojen avaamiselle ja jatkamiselle voidaan määrittää omat muutoskulunsa. Näin puun muodostaminen ja rinnastus muodostavat saumattoman jatkumon. Ideana on, että kun löydetään paras puu, löydetään myös väistämättä paras rinnastus, sillä puun muodostaminen ja sekvenssien rinnastaminen liittyvät toisiinsa vähän samalla tapaa kuin progressiivisess rinnastuksessakin. Erona progressiiviseen rinnastukseen optimointikohdistuksessa on, että se kykenee tarkastelemaan rinnastukseen lisättyjä aukkoja kriittisesti eivätkä rinnastukseen sijoitetut aukkokohdat ole stationäärisiä, vaan niiden sijoittelua voidaan muttaa vielä rinnastuksen edetessä. Näin optimointikohdistus välttää progressiivien rinnastuksen aukkokohtien sijoitteluun liittyvän ongelman. Sekvenssit optimoidaan tiettyyn puun topologiaan Sankoffin optimointia käyttäen, jos optimaalisuuskriteerinä käytetään parsimoniaa (Wheeler, 1996). Optimoinnissa edetään, kuten tavallisessa Sankoff-optimoinnissakin, lehdistä kohden puun juurta (down-pass). Jokaisessa puun haarassa muodostetaan sen jälkeläissekvenssien rinnastus käyttäen Needleman-Wunchin algoritmia, mikä takaa rinnastuksen optimaalisuuden käytetyillä rinnastusparametreilla (muutoskulut ja aukkosakot). Jos aukko sijoitetaan toisessa sekvenssissä samalle kohtaa kuin se jo toisessa sekvenssissä on, ei siitä sakoteta, vaan aukkosakot pätevät uusien aukkojen avaamiseen. Puun juuren saapumisen jälkeen voidaan vielä tehdä up-pass, jolla sisäisiisn haaroihinsijoitetut ominaisuuksien arvot voidaan optimoida, mutta puun pituus tiedetään jo down-pass:in jälkeen. Kuvassa 22.2 on esitetty esimerkki menetelmän toiminnasta. Kuva 22.2: Esimerkki kohdistusoptimoinnin toiminnasta. Puun muodostaminen vaatii neljä nukleotidimuutosta ja yhden aukon. Esimerkki mukaeltu Wheeler (1996) mukaan. Uusimmissa POY-versioissa on mahdollista käyttää optimaalisuuskriteerinä myös suurinta uskottavuutta. Analyysin tuloksena on puu tai useampia puita sekä tarvittaessa puuta vastaava sekvenssirinnastus. Koska POY:n laatima rinnastus ei ole stationäärinen vaan on aina sidoksissa sitä vastaavaan puuhun, kutsutaan rinnastusta epäsuoraksi rinnastukseksi (implied alignment). POY:n puun ja rinnastuksen muodostamiseksi käyttämä algoritmi on nimeltään direct optimization (suora kohdistusoptimointi tai optimointikohdistus). 252 Bioinformatiikan perusteet Alunperin POY-ohjelmassa käytetty lähestymistapa on toteutettu Jotun Heinin ohjelmassa TREEALIGN (Hein, 1989), mutta POY:n toteutus on uudempi ja tarkempi. TREEALIGN oli aikanaan varsin hidas, koska sen aikaiset tietokoneet eivät olleet vielä kovin tehokkaita. Lisäksi TREEALIGN käytti approksimaalista menetelmää, ja uudemman POY:n toteutuksessa on siirrytty eksaktimpaan menetelmään. POY, kuten sen edeltäjä TREEALIGN:kin analysoi DNA-sekvenssejä. POY etsii siis sellaisen puun, joka on parsimonisin ottaen huomioon sekvenssit (tai niiden epäsuoran rinnastuksen). Siten paras rinnastus on sellainen, joka tuottaa lyhyimmän parsimoniapuun. Jos ohjelmassa käytetään suurimman uskottavuuden menetelmää, katsotaan parhaaksi puuksi se, joka tuottaa uskottavimman puun. Käytännössä menetelmä näyttää tuottavan lyhyempiä parsimoniapuita kuin perinteinen menetelmä, jossa valmiin rinnastuksen perusteella etsitään paras puu. Fixed-states optimization Toinen POY:ssa saatavilla oleva optimointimenetelmä on kiinnitetty rinnastus (fixedstates optimization), jossa kokonaisia sekvenssejä käsitellään ominaisuuksina (Wheeler, 1999). Eri sekvensseille voidaan laskea muutoskulut, ja Sankoff-optimoinnissa puun sisäisiin haaroihin optimoidaan vain jokin sellainen sekvenssi, joka esiintyy jollakin tutkittavista taksoneista (Kuva 22.3). Menetelmästä on muunnos, searchbased optimization, jossa puun sisäisiin haaroihin voidaan optimoida myös jokin heuristisin menetelmin koostettu sekvenssi. Kuva 22.3: Esimerkki kiinnitetystä optimoinnista Wheeler:ia (1999) mukaellen. Oletetaan, että muutokset maksavat seuraavasti: A<->G: 1, A<->T: 2, G<->T:1, (ACGT) <>aukko: 4. Tutkittujen neljän sekvenssin välille voidaan muodostaa muutoskulumatriisi (A). Neljää sekvenssiä käyttäen voidaan muodostaa kolme erilaista juurtamatonta puuta, ja jokaiseen näistä puista optimoidaan sekvenssit siten, sisäisissä haaroissa voi esiintyä vain jokin jo havaituista sekvensseistä. Siten, parhaan puun pituudeksi muodostuu 14 (muutoskulut on merkitty kuvatus parhaan puun haaroihin). Optimointikohdistuksella samaisen puun pituudesta olisi muodostunut lyhyempi, koska kyseinen menetelmä voi kiinnitettyä optimointia vapaammin sijoittaa aukkokohtia puun sisäisten haarojen sekvensseihin. Jos jokin tai jotkin analysoitavista sekvensseistä ovat hyvin pitkiä, ja muut varsin lyhyitä, muodostuu sijoitettavien aukkokohtien määrä ongelmaksi. Täytyy olettaa suuri määrä indel-tapahtumia, ja niiden optimoiminen hypoteettisille kantamuodoille vaikuttaa haitallisesti puun alempiin haaroihin. Ongelmalta voidaan välttyä, 22 Molekyylisystematiikan avoimia kysymyksiä 253 jos kokonaista sekvensipätkää käsitellään yhtenä ominaisuutena, jolloin pyritään optimoimaan kokonaisten sekvenssipätkien eikä vain yksittäisten nukleotidien välistä homologiaa. Tämä onkin kiinnitetyn optimoinnin etu. Lisäksi mahdottomia sekundäärirakenteita tai stop-kodoneita ei esiinny rinnastuksessa (tai puun sisäisissä haaroissa), sillä hypoteettisillä kantamuodoilla voi esiintyä vain jokin jo havaituista ominaisuuksista (sekvensseistä). Iterative-pass optimization Iteroiva optimointikohdistus (iterative pass-optimization) muodostaa puun ja epäsuoran rinnastuksen siten, että sekvenssit sijoitetaan puuhun käyttäen optimointikohdistuksen ensimmäistä down-pass-vaihetta, mutta up-pass-vaihe toteutetaan iteratiivisesti. Jokaisen hypoteettisen kantamuodon sekvenssi (tai ominaisuudet) optimoidaan iteratiivisesti. Kunkin kantamuodon kantamuotoa ja sen kahta jälkeläistä tarkastellaan yhtäaikaa, ja tarkasteltavan kantamuodon sekvenssi saadaan Needleman-Wunschin algoritmia käyttäen. Iteratiivisuus tulee siistä, että jokaisen hypoteettisen kantamuodon ominaisuudet optimoidaan niin monta kertaa, etteivät ne enää koko puun tasolla muutu. 22.6 Suosituksia Riippuen sekvensseistä, kannattanee rinnastus suorittaa hieman eri tavoin. Tässä jaettavat vinkit ovat omia mielipiteitäni, ja jokainen voi itse päättää miten niihin suhtautuu. Pääsääntöisesti analyyseihin kuitenkin käytetään joko jotakin proteiinia koodaavaa geeniä tai ribosomaalista-RNA:ta koodaavia geenejä. 22.6.1 Proteiinia koodaavat geenit Proteiinia koodaavien sekvenssien rinnastus kannattanee tehdä ensin aminohappotasolla, ja kun aminohapposekvensseistä on muodostettu hyvä rinnastus, voidaan DNA-sekvenssit rinnastaa sen perusteella. Tällöin DNA-sekvenssien rinnastukseen sijoitetaan vain kolmella jaollisen mittaisia aukkokohtia, mikä vastannee hyvin biologista totuutta. Proteiineja koodaavissa sekvensseissä aukot usein ovat yhden kodoni mittaisia, sillä muutoin muodostuvat proteiinin aminohappojärjestys saattaisi muuttua geenin lukuraamin muuttuessa. Myös geeniä vastaavan proteeinin rakenneinformaatiota kannattanee käyttää geenisekvenssejä rinnastettaessa. Tällöin voidaan varmistus siitä, että esimerkiksi proteiinin aktiivisen ytimeen kuluvat aminohapot, ja geenissä niitä vastaavat "kodonit"sijoittuvat keskenään samoille kohdin. 22.6.2 Ribosomaalinen-RNA Monien ribosomaalisten RNA-molekyylien rakenne tunnetaan edes välttävällä tarkkuudella. Tätä tietoa voidaan käyttää avuksi sekvenssejä rinnastettaessa. Osa nukleotideista nimittäin kuuluu RNA:n kolmiulotteisessa rakenteessa varsirakenteisiin, joissa tapahtuu silmukkarakenteita vähemmän mutaatioita. Useimmat aukkokohdat näyttävätkin sijoittuvat silmukkarakenteisiin. 22.6.3 Aminohapposekvenssit Aminohapposekvenssejä rinnastettaessa kannattaa aina käyttää apuna vastaavan proteiinin rakennetietoa. On hyvä, jos proteiinin kristallirakenne tunnetaan, mutta hyväksi avuksi riittää usein tieto (tai ennuste) proteiinin sekundäärirakenteistakin. Usein hyvinkin kauaksi toistaan erityneillä proteiineilla säilyy samankaltainen kristallirakenne ja siten pitkälti myös sekundäärirakenteiden sijainnit ovat konservoituneet. Sekundäärirakenteet tulisikin rakennerinnastuksessa sijoittaa kohdakkain. 254 Bioinformatiikan perusteet 22.6.4 Pseudogeenit Pseudogeenien ja muiden nopeasti mutaatioita keräävien sekvenssien, kuten mitokondrion kontrollialueiden, rinnastaminen voi olla edellämainittuja sekvenssityyppejä vaikeampaa juuri siksi, että suuri määrä mutaatioita vähentää sekvenssien välistä samankaltaisuutta. Tällöin perinteisiä rinnastusmenetelmiä ei voida välttämättä käyttää kovin menestyksekkäästi, ja voikin olla parempi turvautua POY:n kaltaisiin menetelmin, jotka pyrkivät maksimoimaan sekvenssien välisen homologian (tai homologisten ominaisuuksien määrän) en sijaan, että ne pyrkisivät maksimoimaan pelkästään sekvenssien välisen samankaltaisuuden. 22.7 Puu vai verkosto? Oletus, että sekvenssien evoluutiota voidaan kuvata puukaaviolla, voi olla väärä. Esimerkiksi bakteerit vaihtavat keskenään perimän osia toisinaan hyvinkin huolettomasti, joten oletus puumaisesta evoluutiosta voi niiden kohdalla osua harhaan. Horisontaalinen geeninsiirto bakteerien välillä johtaisi niiden evoluutiota kuvaavan kaavion muistuttamaan ennenminkin verkostoa kuin puuta. Verkostojen muodostamiseen käytetään usein split decomposition (jakohajotus) -menetelmää. Jakohajotusmenetelmässä muodostetaan aluksi ainestosta kaikki mahdolliset jaot. Puun jakaminen yksittäisiksi jaoiksi on kuvattu puiden välisen etäisyyden laskemisen yhteydessä jo aiemmin. Jokaisen jaon saama tuki arvioidaan aineiston perusteella, käytännössä siten, että tutkitaan kuinka moni aineiston ominaisuus tukee kutakin jakoa. Jos aineistossa on n kappaletta sekvenssejä, on erilaisia jakoja yhteensä 2(n − 1) kappaletta, joista korkeintaan (2n − 3) kappaletta sisältää jotakin informaatiota lajien suhteista. Informatiivisten ominaisuuksien maksimimäärä seuraa siitä, että jokainen laji voidaan yksitellen erottaa muusta puusta, jolloin muodostuu yksi jako, joka ei kuitenkaan kerro mitään lajien välisistä suhteista. Jos aineiston perusteella muodostettaisiin puu, kuten tehdään spektrianalyysin (spectral analysis) yhteydessä, sijoitettaisiin puuhun vain yhteensopivien jakojen mukaiset ryhmät. Jakohajotusmenetelmällä voidaan kuitenkin muodostaa myös verkostoja. Jos toisensa poissulkevia siis keskenään kilpailevia jakoja tukee yhtä monta ominaisuutta, voidaan niiden perusteella muodostaa puun sijaan verkosto. Siten verkosta tavallaan esittää kaikki mahdolliset, aineiston tukemat puut yhdessä ja samassa kuvassa siis yhdessä verkostossa. Spektrianalyysillä tuotettujen kuvien avulla on mahdollista hahmottaa sellaisia aineiston tukemia ryhmittelyjä, joita perinteisillä puusidonnaisilla menetelmillä ei mahdollista tutkia. Eräänä etuna on, että menetelmällä voidaan suoraan muodostaa puu, joka on koostettu kutakin taksonien ryhmittelyä tukevien ominaisuuksien perusteella, ja ryhmittelyä tukevien ominaisuuksien lukumäärät voidaan suoraan merkitä muodostettuun puuhun (Kuva 22.4). Likimain sama analyysi voidaan tosin tehdä laskemalla jokaiselle puun haaralle Bremerin tukiarvo, mutta niiden määrittäminen vaatii huomattavasti enemmän laskenta-aikaa. Menetelmän huonona puolena on, että se käyttö pakostakin rajoittuu suhteelliseen pieniin aineistoihin. Jo 20 lajin aineistoille erilaisia jakoja voidaan muodostaa 219 = 524288 kappaletta. Lajien lukumäärän kasvaessa erilaisia jakoja voidaan muodostaa entistä suurempia määriä, jolloin menetelmän vaatima laskentaaika kasvaa liian suureksi, että menetelmän soveltaminen olisi enää mahdollista. 22.8 Menetelmän valinta - simulaatiotutkimusten tuloksia 22.8.1 Muutamia julkaistuja tuloksia Molekyylisystematiikan menetelmien keskinäistä paremmuutta on vertailtu pitkälti erilaisin simulaatiotutkimuksin. Näissä molekyylisekvenssejä on tuotettu jotakin 22 Molekyylisystematiikan avoimia kysymyksiä 255 Kuva 22.4: SplitsTree-ohjelmalla muodostettu puu seitsemän lajin suhteista. Kuhunkin puun haaraan on merkitty sitä tukevien ominaisuuksien (tai jakojen) lukumäärä. evoluutiomallia ja tunnettua puun topologiaa käyttäen, ja on pyritty löytämään sellaisia olosuhteita, joissa tietyt menetelmät ovat parempia kuin toiset. Samaa asiaa on selvitetty muutamissa tutkimuksissa myös tunnettuja fylogenioita käyttäen (Hillis, 1994). Käytettävälle menetelmälle voidaan asettaa muutamia vaatimuksia (Hillis, 1995): Menetelmän tulisi löytää oikea puu sitä todennäköisemmin, mitä enemmän aineistoa on käytettävissä. Tätä kutsutaan tarkentuvuudeksi (consistency). Sellainen menetelmä, joka löytää oikean puun muita menetelmiä pienemmällä aineistolla on myös muita menetelmiä parempi, jos tarkastellaan menetelmän tehokkuutta (efficiency). Lisäksi menetelmän tulisi mieluusti kestää pieniä poikkeamia sen tekemistä oletuksista eli menetelmän tulisi olla robusti (robust). Eri menetelmien tarkentuvuutta, tehokkuutta ja robustisuutta voidaan usein helposti tutkia simulaatiotukimuksilla, mutta viimekädessä menetelmien toimivuus tulisi varmistaa myös aidoilla, luonnosta kerätyillä aineistoilla. Simulaatiotutkimuksin on voitu esimerkiksi osoittaa sellainen puuavaruuden alue, jolla parsimoniamenetelmä voi olla tarkentumaton. Tätä aluetta on alettu kutsua Felsensteinin alueeksi (Felsenstein zone), koska Felsenstein (1978) ensimmäisenä osoitti sellaisen olemassaolon. Felsensteinin alue sijaitsee esimerkiksi nelitaksonisten puiden avaruuden sellaisella nurkassa, jossa puun sisäinen oksa on hyvin lyhyt, ja puussa on kaksi pitkää ja kaksi lyhyttä oksaa. Tässä puuavaruuden nurkassa parsimoniamenetelmän ongelmana on long branch attarction eli jos pitkät oksat eivät puussa kuulukaan yhteen, menetelmä löytää väärän puun, sillä se sijoittaa pitkät oksat yhteen. Ongelma on sikäli kiusallinen, että aineiston lisääntyessä parsimoniamenetelmä löytää entistä todennäköisemmin väärän puun eli menetelmä ei tällöin ole tarkentuva. Vastaavasti sellaista puuavaruuden nurkkaa, jossa suurimman uskottavuuden menetelmä ei löydä oikeaa puuta eli ei sijoita pitkiä oksia yhteen, vaikka ne oikeasti kuuluisi sijoittaa yhteen, on alettu kutsua Farrisin alueeksi (Farris zone). On 256 Bioinformatiikan perusteet helppo osoittaa, että ML-menetelmä voi olla tarkentumaton, jos analyysissä käytetään väärää evoluutiomallia. Jos analyysissä kuitenkin käytetään oikeaa mallia, on ML todennäköisesti aina tarkentuva (oikean mallin valinta on sitten toinen juttu). Siddall (1998) ja Pol (2001) esittävät, että näin ei olisi, mutta heidän tuloksensa eivät ole täysin vakuuttavia. Parsimonia- ja ML-menetelmien erojen hahmottamista hämärtää edelleen se, että niiden keskinäistä matemaattista suhdetta ei ole kyetty ennen viime vuosia karakterisoimaan kovinkaan tarkasti. Viimeaikaisista teoreettisista tuloksista huolimatta menetelmien erot ja samankaltaisuudet ovat edelleen hieman mystisiä. Edwardisin (1996) mukaan hän esitti parsimoniamenetelmän ML-menetelmän approksimaationa, eikä itsenäisenä menetelmänään. Tuffleyn (1997) ja Steelen (2000) mukaan parsimoniamenetelmänä voidaan tulkita samanlaiseksi ML-menetelmäksi kuin nykyiset käytössä olevat menetelmät, jos käytetään yksinkertaista evoluutiomallia (Jukes-Cantor), ja oletetaan, että evoluutionopeus voi vapaasti vaihdella eri sekvenssikohtien välillä puun eri haaroissa. He kutsuivat tällaista mallia "no common mechanism"(NCM) -malliksi, ja se on saatavilla tietokoneohjelmassa MrBayes. Parsimoniamenetelmänkin voidaan katsoa olettavan, että sekvenssievoluutio tapahtuu stokastisesti, sillä NCM-malli kuuluu Poisson-mallien perheeseen. Jos yllämainittu tulos parsimonia- ja ML-menetelmien yhteydestä pitää paikkansa, voi kyllä hirtehisesti ajatella, että parsimoniamenetelmä on nimetty väärin, sillä NCMmalli ei todellisuudessa ole kovinkaan yksinkertainen, sillä siinä on paljon suurempi vaihtelevien parametrien määrä kuin perinteisissä malleissa. Steel (2000) esittää jopa esimerkin siitä, kuinka nykytulosten perusteella parsimoniaperiaatteen avulla voidaan toisinaan perustella myös ML-menetelmän soveltamista. Simulaatioilla on tutkittu menetelmien tarkentuvuutta huomattavasti useammin kuin tehokkuutta, robustisuutta tai tarkkuutta (accuracy). Hillis (1994b) tutki menetelmien tehokkuutta käyttäen simuloituja nelitaksonisia aineistoja, ja havaitsi, että kaikki menetelmät olivat tarkentuvia, kun puun kaikki oksat olivat yhtä pitkiä, mutta ainoastaan ML-menetelmä oli tarkentuva, kun puun sisäinen oksa oli hyvin lyhyt. Painotettu parsimonia,erityisesti transversio-parsimonia, ja ML-menetelmä K2P-mallilla olivat suunnilleen yhtä tehokkaita, kun puun kaikki haarat olivat yhtä pitkiä. Sen sijaan ainoastaan ML-menetelmä K2P-mallilla oli tehokas, kun puun sisäinen haara oli kovin lyhyt. Menetelmien tarkkuudesta on tehty useita tutkimuksia, joista kenties ensimmäisen tunnetuilla T7-faagien fylogenioilla tehdyn tutkimuksen kuvailee Hillis (1994). Heidän tulostensa mukaan ainoastaan parsimonia-menetelmä löysi oikean puun eli oli kaikkein tarkin menetelmä. Jos tuloksia tarkastellaan tarkemmin (Tuimala, 2003), huomataan, että myös ML- ja Bayesilaiset menetelmät löytävät parhaan puun, jos analyysistä talletetaan vaikkapa kymmenen parasta puuta. Nämä parhaat puut ovat kaikki tilastollisesti (Shimodairan testi) yhtä hyviä hypoteesejä eliöiden historiasta, joten ehkäpä viimekädessä kaikki menetelmät toimivat yhtä hyvin. Toisaalta optimaalisuuskriteeriajattelua soveltaen ainoastaan paras puu tulisi huomioida, mutta parsimoniamenetelmä tuottaa helposti useita yhtä hyviä puita, kun taas ML-menetelmät harvoin tekevät näin. Eri menetelmien robustisuutta on tutkittu hyvin vähän, koska esimerkiksi MLja parsimoniamenetelmien osalta ei ole päästy yksimielisyyteen siitä, mitä menetelmät itseasiassa olettavat. Esimerkiksi ML-menetelmät selvästi olettavat, että kaikki sekvenssikohdat evolvoituvat toistaan riippumatta, mutta ei olla yksimielisiä siitä, olettaako myös parsimoniamenetelmä samoin (mielestäni kyllä olettaa). Tällöin aineisto, jossa eri ominaisuudet tai sekvenssikohdat eivät olekaan toisistaan riippumattomia, ja rikkovat siten menetelmän oletuksia. Riippumattomuusoletuksen suhteen ML esimerkiksi näyttää olevan robustimpi kuin parsimoniamenetelmä (Kuhner, 1994), ja tuottaa oletuksen rikkoutuessa tarkempia estimaatteja puun oikeasta topologiasta kuin parsimoniamenetelmä. 22 Molekyylisystematiikan avoimia kysymyksiä 257 22.8.2 Yhteenveto Siteeraamatta kaikki julkaistuja simulaatiotutkimusten tuloksia, voidaan niissä esitetyt tulokset vetää yhteen jokseenkin seuraavasti. Kun sekvenssien samankaltaisuus on suurta (>95%) ja sekvenssit ovat pitkiä (>1000 bp), niin kaikki menetelmät löytävät oikean puun. Ongelmia tulee vastaan vasta, kun sekvenssien samankaltaisuus on vähäisempää tai sekvenssit ovat kovin lyhyitä. Mitä lyhyempiä sekvenssit ovat, sitä suurempia ovat virheet niiden perusteella muodostetussa puussakin. Jos sekvenssit ovat lyhyitä, ei menetelmän valinnalla voida poistaa siitä johtuvia ongelmia, vaan kaikki menetelmät menestyvät yhtä huonosti. Tilanne on toinen, jos sekvenssien vaihtelu on suurta. Tällöin useimmissa simulaatioissa on parhaiten menestynyt ML-menetelmä, ja seuraavaa paikkaa pitää hieman vaihdellen joko parsimoniamenetelmä tai minimievoluutiomenetelmä. Ongelmana simulaatiotulosten tulkinnassa on, että sekvensit on aina simuloitu jotakin mallia käyttäen, ja jos samaa mallia käytetään tulosten analysointiin, on tuloksena varmasti, että ko. mallia käyttävä ML-menetelmä antaa parhaat tulokset. Yleistäen voidaan sanoa, että sekvenssiaineistojen analysointiin pääasiallinen menetelmä on ML sen muita paremman tarkentuvuuden, tarkkuuden, tehokkuuden ja robustisuuden vuoksi. Toissijaisena vaihtoehtona erityisesti suurille aineistoille on parsimoniamenetelmä, ja viimeisenä vaihtoehtona ovat etäisyysmenetelmät, joita käyttäen tosin voidaan muodostaa hyvin suuria (>10000 taksonia) puita. Parsimonia on ensisijaisena vaihtoehtona sellaisissa analyyseissä, joissa MLmenetelmiä ei voida soveltaa. Tällaisia aineistoja ovat esimerkiksi morfologiset aineistot, ja sekvenssiaineistoista esimerkiksi SINE-jaksojen olemassaoloa ja puuttumista tutkivia aineistoja (0/1 aineistot). Bayesilaisten menetelmien suhdetta muihin menetelmiin ei ole vielä tutkittu kovin tarkkaan, joten sitä koskevia suosituksia on hankala antaa. Bayesilaisten menetelmien toimivuus näyttää kuitenkin keskimäärin vastaavan ML-menetelmien tasoa. Osa IV Genomiikka ja proteomiikka 23 PCR-alukkeiden suunnittelu 259 23 PCR-alukkeiden suunnittelu 23.1 Miten alukkeet liittyvät bioinformatiikkaan? Eräs yleisimmistä tehtävistä nykyaikaisessa molekyylibiologian laboratoriossa on alukkeiden suunnittelu. Tiettyjen tietokonetyökalujen käyttö helpottaa työtä runsaasti, mutta perusidean ymmärtäminen on helpompaa, jos joutuu aluksi suunnittelemaan muutamia alukkeita käsin. Varsin yleinen ongelma on etsiä sopivat alukkeet jonkin SNP:n tutkimiseen PCR-reaktiota ja entsyymidigestiota käyttäen, mutta jatkossa esitettävät ohjeet pätevät myös muunlaisten PCR-alukkeiden suunnitteluun. 23.2 PCR-RFLP-menetelmien teoria DNA:ssa esiintyvien polymorfioitten määrittäminen restriktioentsyymikäsittelyllä on nykyisin mahdollista liki kaikissa tapauksissa. Polymorfioitten määrittäminen perustuu siihen, että ensin monistetaan haluttu alue DNA:ta PCR-reaktiolla. Reaktioissa käytettävät alukkeet on suunniteltu siten, että eri alleelimuotojen olemassaolo voidaan restriktioentsyymikäsittelyn jälkeen lukea agaroosigeeliltä fragmenttien erilaisen ajautuvuuden mukaan. Oleellisinta menetelmässä on, että muunteleva emäs sijaitsee restriktioentsyymin tunnistussekvenssin alueella, jolloin entsyymi joko pilkkoo DNA:n tai sitten ei, ja muodostuu erimittaisia fragmentteja, jotka voidaan havaita geelillä. Jos DNA:ssa oleva muutos ei itsessään luo tai tuhoa restriktioentsyymin digestiokohtaa, voi sellaisen tehdä suunnittelemalla alukkeet sopivasti. Aluksi on kuitenkin tutkittava polymorfiaa ympäröivää sekvenssiä, joka muodostaa rajoitukset sille, minkälaisia entsyymejä voidaan käyttää. Sekvenssin perusteella voidaan sitten valita muutamia kandidaattientsyymejä, joiden käyttäminen menetelmässä olisi mahdollista. Tietenkin, jos on on mahdollista käyttää useampia entsyymejä, valitaan mieluusti halvin. Tässä on kuitenkin syytä muistaa, että entsyymien tehokkuudessa on suuria eroja, joten kaksi erinimistä, mutta samaa sekvenssiä pilkkovaa entsyymiä voivat olla pilkkomistehokkuudeltaan aivan erilaisia. Laajalti tietoa eri entsyymeistä ja niiden tehokkuudesta PCR-reaktioiden pilkkomisessa (tässä on siis vaihtelua) löytyy New England Biolabs:n tuoteluettelosta. 23.3 Alukkeiden suunnitteleminen käsin Alukkeita suunniteltaessa on otettava huomioon muutamia seikkoja. Ensinnäkin on oltava saatavilla luotettava DNA-sekvenssi alueesta, jolle alukkeet halutaan suunnitella. Sekvenssien löytäminen tietokannasta ei ole aina helppoa. Haku onnistuu helpoimmin kirjoittamalla hakukenttään “human genomic XXXXX”, missä XXXXX on halutun geenin nimi. Alukkeiden suunnitteluun on ehdottomasti käytettävä koko DNA-sekvenssiä, mRNA sekvenssi ei kelpaa! 260 Bioinformatiikan perusteet Monesti artikkeleista on mahdollista löytää jo valmiita menetelmiä tiettyjen yhden emäksen muutosten (SNP) määrittämiseksi. Artikkeleista poimittujen alukesekvenssien sitoutumiskohdat ja oikeellisuus olisi hyvä tarkistaa yllämainitusta tietopankista ennen menetelmän käyttöönottoa. Suunniteltaessa alukkeita itse alusta alkaen on huomioitava seuraavaa seikkoja. Useimmiten tosin joutuu tekemään tiettyjä kompromisseja. Esimerkiksi geenialueen emäsrakenteesta johtuen ei välttämättä ole mahdollista päästä tilanteeseen, jossa alukkeen GC% olisi väliltä 40-60%. • Alukkeiden pituus tulisi olla väliltä 18-30bp. • Alukkeet eivät saisi sisältää toistojaksoja. • Alukkeissa ei saisi olla toisiinsa tai sisäisesti pariutuvia jaksoja. • Alukkeiden sulamislämmön tulisi olla riittävän korkea (yli 50 C) muttei liian korkea (yli 70-80 C). Sulamislämmön voi laskea helposti kaavalla: 2*A/T +4*GC, siis jokainen AT-emäs lisää 2 astetta sulamislämpöön, GC-emäkset puolestaan 4 astetta. Alukkeiden anneling lämpö PCR-reaktiossa on sulamislämpö5 astetta. • Alukkeiden, jos ne sitoutuvat geenin transloituvalle alueelle, tulisi sitoutua 3’-päästään (polymerisoitumissuunta) mieluiten kodonien 1. tai 2. emäkseen, jotka eivät yleensä vaihtele. • Alukkeiden 3’- ja 5’-päissä tulisi olla 1-2 emäksen GC-alue, mikä lisää alukkeiden sitoutuvuutta oikealle kohdalle ja pitää ne paremmin sitoutuneena reaktioiden aikana. GC-alue ei kuitenkaan saisi olla pidempi, sillä muutoin alukkeesta tulee epästabiili. • Alukkeiden GC-pitoisuuden tulisi mieluusti olla väliltä 40-60%. • Alukkeisiin on usein tehtävä ei-pariutuvia emäksiä, jotta voidaan luoda restriktiokohta tietylle restriktioentsyymille. Tällainen mismatch voi olla vielä alukkeen 3’-pään (2.) 3. viimeisessä emäksessä, ja aluke toimii hienosti. • Eräs kätevä jippo alukkeiden suunnitelussa on niiden sulamislämmön optimointi niin, että PCR-reaktioon riittää kaksi vaihetta (denaturaatio ja elongaatio). Tämä onnistuu siten, että suunnittelee alukkeet, pituudelta suunnille 24-26bp, joiden sulamislämpö on n. 76 astetta. Tällöin ohjelman ajoaika lyhenee n. 30-40%. • Monistuvan DNA-alueen pituuden tulisi olla n. 300bp. Lisäksi entsyymin digestiokohta tulee suunnitella siten, ettei tuotteena tule alle 60bp:n pätkiä. Lyhyin DNA-pätkien pituusero, jonka voi 3% agaroosissa erotella minigeelillä (ajopituus 4cm), on n. 15bp, mikä myöskin tulee ottaa huomioon alukkeita suunniteltaessa. 23.4 Esimerkki alukkeiden suunnittelusta Yleensä alukkeiden sunnittelussa käytetään seuraavia periaatteita. Alukkeiden suunnitteluun käytettävä sekvenssi kopioidaan sopivaan tekstikäsittelyohjelmaan tai tulostetaan paperille. Koska tietokannan genomiset sekvenssit ilmoitetaan aina 5’>3’-suuntaan, suunnitellaan forward-aluke siten, että sen sekvenssi luetaan suoraan käsillä olevasta sekvenssistä. Reverse-aluke puolestaan joudutaan lukemään käänteiskomplementaarisena. Alukkeiden ja monimuotoisten emästen sijainti on hyvä merkitä sekvenssiin. Useimmiten alukkeiden sijaintia kuvataan nuolilla (kuva 23.1). Kuvan 23.1 perusteella suunnitellaan ja tilataan siis seuraavat alukkeet: 23 PCR-alukkeiden suunnittelu 261 1 61 121 181 241 actggccgta cctgcgccga gctccttgcc tgatgaagat aaaaacagaa gagtctgcgc gccttcgggg cgacttgaag tcacctgtgc atgctttatc agttggtgaa cgatgtgtag gtagaagttc atggtgatat acctaacagc tggcgttggt tgccttccat cttgaaagaa tcttgaattt acgatgtata ggcgggaaag agggctgagt atagaaccaa catggcccag cttcccaaat ttgagtctct ctgggaccga atctgtttgc aaggaacagg cagaaggtgg 301 361 421 481 541 cctggaagta tacaattctt aagatttttt agaaagtatg tttttactgg gaagtcttat gagcacagac ttggtgtact ttttgtagtc atagaccgcg >>>>> ttattgatac tatcccaaag gcagtagtag acccatctct tcaatggagg >>>>>>>>>> agattaccac ctctgaagaa cacccactta ctgccttttg agaaagtgtg >>>>>>>>>> tttgatatgc ataatcaaat cttcttacac attttggata aacttacagg tccggctagt actgcctggg tttactcact gcctgtcagc agtctactct a<<<<< <<<<<<<<<< 601 gaggaaatgt tctcagtgct tagagaagct tgtaaatgac tatcgcctgg ttctttttgc <<<<<<<< 661 aacgacacaa actataatgc agaaagcctc gagctcatca gaagaacctt ctcatgcctc 721 tcgacgactg tgtgatgtgg acatagacta cagaccttat ctctgtaagg catggcagca 781 actggtgaag cacaggatgt ttttctccaa acaagatgat tctcaaagca gcaaccaatt 841 ttcattagtt tcacgttgtt taaaaagtaa cagtttaaaa aaacattttt ttattattgg 901 agaaagtggg gttgaatttt gttgacatac atcataaaat agtcttttgc agggtactac 961 gcaagcctta aaatttttct taagacagag tcttgctctg tctcccaggc tggagtgcag 1021 tggcacaatc atggctcact gcagccttga actcctggcc tcaagggatc ctcctatgtg 1081 tgcctcctag agtgcaggga ttacaggtgt gagccactgc tcgtggccaa aagttttctt 1141 1201 1261 1321 1381 1441 1501 1561 tttttttttt ggcacaatct gcctcccagg ttaatagaga gatccaccca ttttaaactc agtaaaagta actttgtatt tttctttttg cggcccgctg tagctgggat cggggtttca cctcggcctc taggggaatt aagactattc aatttgccac aaacagtctt cagcctctgc tacaggcacc ccatgttggc ccaaagtgct aacagtattt tgtttctagg c actctgtctc ctcttgggtt caccaccacg caggctggtc aggattacag ctttacagaa ctgttgaatc ccaggctgct caagtgattc cctggctaat tcgaactcct gcccgtgccc tggatttgtt aaagtgattt ggagtgcagt ttccacctca ttttgtattt gacctcaagt agccctaaag aaactagcac tagcaattaa Kuva 23.1: Esimerkki PCR-alukkeista, joita voidaan käyttää XRCC2:n monimuotoisuuden määrittämiseen (Benhamou, 2004). Monimuotoinen emäs on merkitty kursiivilla muun sekvenssin joukkoon. Restriktioentsyymi BstUI pilkkoo DNA:ta sekvenssistä CGCG, jolloin normaalialleeli reverse-alukkeen mismatchin kanssa luo digestiokohdan. • Forward: gat aca gat tac cac ttt gat atg c (25-mer) • Reverse: gtg tcg ttg caa aaa gaa cca cg (23-mer) PCR-monistuksen jälkeen tuotteet pilkotaan restriktioentsyymillä (NEB BstUI). Geenin normaalimuoto on emäs G/G, joka vastaa arg/arg proteiinisekvenssiä. Polymorfia A/A muuttaa aminohapon histidiiniksi. Agaroosigeelielektroforeesin jälkeen saadaan tulokseksi seuraavat tuoteet (pituus bp:na), joiden perusteella yksilön genotyyppi voidaan päätellä: • Homo-G/G: 233, 97, 23 • Hetero-A/G: 233, 110, 97, 23 • Homo-A/A: 233, 110 Esimerkissä (kuva 23.1) on merkitty DNA-sekvenssiin forward-aluke oikealle suuntauvilla nuolilla ja reversealuke vasemmalle suuntautuvilla nuolilla. Kodoni, jossa polymorfia sijaitsee, on alleviivattu. Polymorfinen kodoni on esitetty paksunnetulla kirjasintyypillä. Esimerkin alukkeet on suunniteltu siten, että forwardaluke on luettu suoraan DNA-sekvenssistä 5’->3’-suuntaan (nuolien suuntaan vasemmalta oikealle). Reverse-aluke puolestaan on luettu DNA-sekvenssistä 3’->5’ suuntaan (jälleen nuolien suuntaan, mutta oikealta vasemmalle) samalla kääntäen 262 Bioinformatiikan perusteet sen komplementaariseksi sekvenssiksi. Näin saadaan tulokseksi aluke-pari, jossa molemmat sekvenssit ovat 5’->3’-suuntaan, mikä on tärkeää, jotta ne toimisivat PCR-reaktiossa. Reverse alukkeen luominen on hankalinta, koska siinä on helppo tehdä virheitä, joten annan esimerkin. Reverse aluke siis luetaan oikealta vasemmalle. Sekvenssi alkaa cac agc, joka komplementaariseksi käännettynä on gtg tcg. Näin jatketaan koko alukkeen pituudelta. Jos reversealukkeeseen joudutaan tekemään eipariutuvia emäksiä, pitää ne muistaa lukea siten kuin ne sekvenssissä ovat. Eli, sekvenssissä on polymorfisen kohdan päässä (oikealta vasemmalle) sekvenssi tgg tcc, joka komplementaarisena on acc agg. Alukkeeseen tarvitaan kuitenkin mismatch, jotta voidaan luoda BstUI-digestiokohta ko. entsyymille. Tämä tehdään alukkeen toiseksi viimeiseen emäkseen, ja muutos on tarkalleen ottaen c->g, joka siis normaalialleelin kanssa luo BstUI-digestiokohdan. Joten alukkeen loppupäähän tulee sekvenssi acc acg. Huomaa, että mismatch ei saa olla alukkeen 3’-pään (polymerisaatiosuunta) viimeisessä emäksessä! Hyvin usein yhden emäksen mutaatioiden genotyyppejä määritetään myös alleelispesifisellä PCR:llä. Tällöin alukkeen viimeinen emäs joko pariutuu tai ei pariudu näytteessä olevan monimuotoisen emäksen kanssa. Esimerkiksi kuvan 3001 tapauksessa suunniteltaisiin kaksi alukeparia, joista toinen tuottaa PCR-tuotteen, jos sen alukkeen viimeinen emäs sitoutuu G-emäkseen, ja toinen tuottaa tuoloksen, jos se sitoutuu A-emäkseen. Tällöin tulos voidaan lukea suoraan agaroosigeelielektroforeesin jälkeen, eikä välissä tarvita digestiovaihetta. Alukkeiden spesifisyys parantuu, jos niiden keskimmäiseen emäkseen suunnitellaan huti, eli suunnitellaan sellainen aluke, jonka keskimmäinen emäs ei pariudu kohde-DNA:n kanssa. 23.5 Alukkeiden suunnitteleminen tietokoneella Alukkeiden suunnitteleminen tietokoneella etenee pääpiirteissään samallatapaa kuin käsin suunnittelukin. Soveltuvat ohjelmat, kuten Primer3, osaavat ottaa yhtäaikaa huomioon hyvin monia erilaisia näkökulmia, ja parhaissa ohjelmissa onkin otettu huomioon miltei kaikki edellä luetellut hyvän alukkeen vaatimukset. Tietokoneohjelmat osaavat esimerkiksi laskea alukkeiden sisäiselle ja välisella pariutumiselle hyvyysarvot automaattisesti, vaikka ne voi periaatteessa silmäämäräisesti tarkistaa itsekin käyttäen pistematriisilinjausta joko itseään tai parin toista aluketta vastaan. Lisäksi ohjelmat antavat sulamis- ja annealing-lämmöille edellä esitetty tarkemmat arviot, kunhan ohjelmalle kerrotaan käytettävän PCR-reaktion tarkat reaktioolosuhteet. Alukkeiden tietokoneistettu suunnittelu on jokseenkin yksiviivaista, jos haluaa ainoastaan löytää alukeparin, jolla jonkin tietyn sekvenssialueen monistaminen onnistuu. Jos sen sijaan haluaa suunnitella PCR-RFLP-alukkeet, on helpointa ensi suunnitella lukusia alukepareja tietokoneella. Tämän jälkeen sopivimman alukeparin toinen aluke hylätään, ja suunnitellaan käsin sitä vastaava aluke, joka luo haluttuun kohtaan restriktioentsyymin digestiokohdan. 24 Pistemutaatioiden etsintä ja niiden sovellukset 263 24 Pistemutaatioiden etsintä ja niiden sovellukset 24.1 Mitä ovat pistemutaatiot Pistemutaatioiden (single nucleotide polymorphism, SNP) etsiminen on nykyisin keskeisellä sijalla erityisesti ihmistutkimuksessa. SNP:llä on monia sovelluksia niin yksilöllisen tautiherkkyyden, geenien etsinnän (geenikartoitus) kuin evoluutiotutkimuksen sarallakin. Nykyisin SNP:jä useimmiten määritetään sekvensoimalla, mutta myös muita laboratoriomenetelmiä voidaan käyttää. SNP:jä etsitään juuri sellaisista geeneistä, joiden voidaan kuvitella liittyvän esimerkiksi johonkin tautitilaan. Nykyisin SNP:ien etsintää on miltei turha ensisijaisesti aloittaa laboratoriomenetelmin, erityisesti jos tehdään ihmistutkimusta, sillä monia SNP:jä on talletettu SNP-tietokantoihin. Lisäksi SNP:jä voidaan määrittää EST-sekvenssejä käyttäen. 24.2 Seulonta tietokannoista Seuraavassa esitettävän EST-sekvensseihin perustuvan menetelmän käyttäminen edellyttää, että geenin sekvenssi tai sitä vastaavan mRNA:n sekvenssi tunnetaan. 24.2.1 EST-sekvenssien hakeminen EMBL-tietokannasta Menetelmä perustuu siihen, että dbEST-tietokannasta haetaan sekvenssejä BLASTohjelmalla käyttäen hakusekvenssinä tutkittavan geenin mRNA-sekvenssiä. SNP:jä voi hakea myös ihmisdivisioonasta, mutta EST-sekvenssejä on yksinkertaisesti eniten, ja haku tuottaa eniten tulosta niitä käyttäen. Tuloksen muotoiluista on muistettava valita "flat quary-anchored with identities", jolloin tulokseksi saadaan kaikkien löydettyjen sekvenssien rinnastus siten, että parittaisia rinnastuksia ei näytetä lainkaan. Tällaisesta tuloksesta on SNP:ien tulkitseminen huomattavasti helpompaa kuin parittaisista rinnastuksista. 24.2.2 Tulosten tulkinta Tulosten tulkinta ei ole ihan suoraviivaista. Ensinnäkin on vältettävä SNP:ien etsintää sellaisilta sekvenssirinnastusalueilta, joissa on paljon epäluotettavia nukleotideja (N) tai jotka ovat muutoin epäluotettavia. Epäluotettavia ovat erityisesti sellaisesti alueet, joilla on paljon aukkoja (merkitty -). Jos jossakin sekvenssirinnastuksen kohdassa on tapahtunut useita erilaisia muutoksia, ei sekvenssikohtaa tulisi tulkita SNP:ksi, sillä on todennäköistä, että tällaiset muutokset ovat sekvensointivirheitä. Esimerkiksi seuraavassa rinnastuksessa on paljon epäluotettavia kohtia (aukkomerkkien lukumäärä). Jos sekvenssialue olisi luotettava, voitaisiin tulkita, että neljännessä paikassa oikealta on polymorfinen muutos T -> C. 264 Bioinformatiikan perusteet tacaa-tg--a-tga9889419 .....-..--.-c..- 9141562 .....-..--.-c..- 9803456 .....-..ca.-...- 9129510 .....c..--.g...a 9179027 .....-..--.-c..- Tuloksia tulkitessa on muistettava tarkistaa, että kaikki sekvenssit, joissa muutos havaitaan, eivät ole peräisin samasta näytteestä tai samasta kudoksesta (näpäytä sekvenssin nimeä tai numeroa rinnastuksen edessä). Jos jokin muutos on nimittäin aito SNP (tai polymorfia, kuten niitä myös kutsutaan), sen pitäisi esiintyä useissa sekvensseissä kudostyypistä riippumatta. Yleensä tulkitaan, että SNP on löydetty, jos se esiintyy ainakin kahdessa eri kohteesta peräisin olevassa sekvenssissä. EST-sekvenssien käyttö SNP:ien löytämiseen ei ole kovin tehokasta, ja se tuottaa paljon vääriä positiivisia tuloksia (Cox, 2001), mutta toisaalta niiden käyttö on tällä hetkellä paras tietokoneistettu menetelmä, jolla SNP:jä voidaan löytää. Tarkoitukseen kehitettyjen tietokone-ohjelmien avulla on myös mahdollista päästä parempiin tuloksiin kuin yksinkertaisella BLAST-haulla. Eräs tällainen ohjelma on SNP-Finder (Buetow, 1999). 24.2.3 Edistyneempi tulkintamenetelmä Edellä esitetty yksinkertainen BLAST-tulosten tulkintamenetelmä aiheuttaa helposti virheitä, sillä se ei erottele sekvensointivirheitä polymorfioista. Varsin tyypillisesti sekvensointivirheet kasautuvat tiettyihin sekvenssikohtiin, ja niiden yleisyys EST-sekvensseissä on noin 1% luokkaa. Koska keskimäärin ihmisen polymorfioiden esiintymistiheys on kerran tuhatta nukleotidia kohden (0,1%), ei jo esitettyä yksinkertaista menetelmää voida pitää erityisen herkkänä menetelmänä, sillä se jättää suurimman osan harvinaisista SNP:sta huomiotta. Marth (1999) onkin kehittänyt tehokkaamman menetelmän, joka perustuu siihen, että sekvensointivirheet erotetaan oikeista SNP:stä. Lisäksi menetelmä erottelee paralogiset ja ortologiset sekvenssit toisistaan sekä osaa ottaa huomioon, että sekvensointivirheet ovat todennäköisempiä sekvenssien alku- ja loppupäissä. Marthin kehittämä menetelmä analysoi aluksi kaikki sekvensointitulokset (elektroferogrammit) uudelleen PHRED-ohjelmalla, joka raportoi sekvenssin jokaiselle emäkselle todennäköisyyden, että se on sekvensointivirhe. Näin saadut sekvenssit syötetään POLYBAYES-ohjelmaan, joka rinnastaa sekvenssit, poistaa todennäköiset paralogit, tutkii sekvenssit SNP:ien varalta, ja raportoi jokaiselle löytämälleen muutokselle todennäköisyyden, että muutos on SNP eikä sekvensointivirhe. Marthin menetelmä löytää yksinkertaisia menetelmiä enemmän SNP:jä ja tekee vähemmän virheitä kuin yksinkertaiset menetelmät. Jos kuitenkin EST-sekvenssejä on käytettävissä esimerkiksi kymmeniä, ja tutkittavalle geenille ei löydy paralogeja, ovat yksinkertaisin menetelmin ja Marthin menetelmällä saadut tulokset pitkälti samanlaiset. 24.2.4 Aminohappomuutokset ovat kiinnostavimpia Muutokset, jotka aiheuttavat aminohappomuutoksia, ovat yleensä kaikkein mielenkiintoisimpia. Toki muutkin muutokset voivat olla mielenkiintoisia, mutta erityisesti jos puhutaan entsyymeistä voidaan aminohappomuutoksilla olettaa olevan suurin merkitys entsyymin toiminnan kannalta. Jotta voidaan määrittää, mitkä muutokset aiheuttavat aminohappomuutoksen, on rinnastettava entsyymin mRNA ja sitä vastaava aminohapposekvenssi. Tämä on helppo tehdä tiettyjä tietokoneohjelmia käyttäen, mutta voidaan käyttää myös matemaattisia menetelmiä (lasketaan, monesko nukleotidi SNP:n sisältävä sekvenssi- 24 Pistemutaatioiden etsintä ja niiden sovellukset 265 kohta on translaation aloituskohdasta, ja muutetaan tämä aminohapon numeroksi). Jos tutkittavan entsyymin aminohapposekvenssi on saatavilla useammista lajeista, voidaan aminohappomuutosten merkitystä arvioida. Esimerkiksi, jos samassa sekvenssikohdassa on tapahtunut useampia muutoksia tai muutoksia useammilla lajeilla, ei aminohappomuutos luultavasti vaikuta merkittävästi entsyymin aktiivisuuteen. Jos sen sijaan aminohappomuutos on tapahtunut hyvin konservoituneessa sekvenssikohdassa, on paljon todennäköisempää, että se vaikuttaa myös entsyymin aktiivisuuteen. Lisäksi muutoksen kemiallista merkitystä voidaan arvioida vaikkapa PAM250-matriisin avulla. Jos havaittu muutos saa matriisissa negatiivisen arvon, on muutos tapahtunut siten, että aminohapon kemiallinen koostumus on muuttunut. Tällöin on erityisesti syytä epäillä, että aminohappomuutos voi vaikuttaa entsyymin toimintaan, varsinkin jos se sijoittu johonkin tunnettuun funktionaaliseen proteiininosaan (näitä voi etsiä esimerkiksi InterProScanin avulla, jos tietoa ei muutoin ole saatavilla). Haitallisten aminohappomuutosten erottamiseksi neutraaleista muutoksista on kehitetty menetelmä nimeltä SIFT (Ng, 2001). Se perustuu saman proteiiniperheen usean sekvenssin rinnastukseen, jonka perusteella on mahdollista erotella muutoksia sisältävät rinnastuksen kohdat vain harvoja tai ei lainkaan muutoksia sisältävistä kohdista. Kullekin sekvenssikohdalle lasketaan sen todennäköisyys muuttua, ja jos tämä muutostodennäköisyys on tiettyä valittua raja-arvoa pienempi, tulkitaan siinä kohdassa mahdollisesti tapahtunut mutaatio haitalliseksi. SIFT-menetelmää pidetään tällä hetkellä yhtenä parhaista menetelmistä haitallisten aminohappomuutosten kartoittamiseksi. Bao (2005) kuitenkin paransi SIFT-menetelmän tarkkuutta yhdistämällä evolutionaariseen tietoon (sekvenssirinnastus) informaatiota proteiinirakenteesta. Baon menetelmä näyttää antavan SIFT:ä tarkempia ennustuksia erityisesti silloin, kun tutkittavasti proteiinista on saatavilla alle 10 sekvenssiä, ja evolutiivista informaatiota on siten niukasti. Jos entsyymistä on olemassa 3D-rakenne, voidaan sitä käyttää aminohappomuutosten tarkempaan tutkimiseen. Tällöin on mahdollista selvittää, sijaitseeko muutos esimerkiksi entsyymin aktiivisessa keskuksessa tai sen välittömässä läheisyydessä (Kuva 24.1. Jos muutos on tapahtunut entsyymin aktiivisuudelle oleellisissa kohdissa, voidaan sen myöskin olettaa muuttavan entsyymin aktiivisuutta joko laskien tai nostaen sitä. 24.2.5 Jatkotutkimukset Yleensä löydetyt SNP:t pyritään vielä varmistamaan laboratoriotutkimuksissa, sillä erityisesti EST-tietokannat sisältävät paljon virheellistä tietoa ja sekvenssejä, joissa on sekvensointivirheitä. Tästä syystä havaituille muutoksille yleensä suunnitellaan joko genotyypitysalukkeet (PCR-RFLP-menetelmä, esimerkiksi) tai sekvensointialukkeet. Jatkotutkimuksiin valitaan sitten tutkittavasta populaatiosta mieluusti ainakin sellainen määrä yksilöitä, että ainakin yksi polymorfinen yksilö löydetään. Jos oletetaan, että SNP:n yleisyys on 10%, voidaan ottaa tutkimukseen esimerkiksi 100 yksilöä populaatiosta. Tällöin voidaan olla jokseenkin varmoja, että jos SNP todella on olemassa tutkitussa populaatiossa, löytyy tutkittujen yksilöiden joukosta ainakin yksi polymorfinen yksilö. Yllä esitetty on jokseenkin toimiva nyrkkisääntö, mutta tarkempi arvio tarvittavien yksilöiden määrästä voidaan laskea kaavalla P = 1 − (1 − p)2n , Jossa p on harvinaisemman alleelin frekvenssi populaatiossa ja n on yksilöiden lukumäärä. Siten tarvittavien yksilöiden määrä, jotta 10% taajuudella esiintyvä alleelin havaitaan varmasti (100% todennäköisyys) on 50. Käytännössä useinkin riittää noin 90% varmuus, että SNP havaitaan, jolloin tutkimukseen tarvitaan 10-12 henkilöä. 266 Bioinformatiikan perusteet Kuva 24.1: Ihmisen XRCC1-DNA-korjausproteiinin N-terminaali. Kukin pallo vastaa yhtä atomia, ja pallon koko vastaa atomin Van der Wals-sädettä. DNA:hna sitoutuvat aminohapot on väritetty harmaiksi, polymeraasi-β n kanssa interaktoivat aminohapot vihreiksi. BLAST-haulla EST-tietokannoista tunnistettu muutos Val72Ala on väritetty punaiseksi. Muutos ei sijaitse proteiini yhteistoimintaan liittyvien aminohappojen välittömässä läheisyydessä, eikä siten ainakaan suoranaisesti vaikuta proteiinin toimintaan. 24.3 Pistemutaatiot ja populaatiogenetiikka Pistemutaatioilla on monia sovelluksia populaatiogenetiikassa. Niiden avulla voidaan esimerkiksi tutkia populaatiossa vallitsevaa heterotsygotian määrää. Keskimäärin näyttää esimerkiksi siltä, että jos populaation tai eliölajin heterotsygotiaaste on suuri, on sen elinkelpoisuuskin hyvä. Heterotsygotialla tarkoitetaan sitä, että samalla yksilöllä esiintyy esimerkiksi samasta pistemutaatiosta sen molemmat alleelit. Heterotsygotia-asteella puolestaan tarkoitetaan sitä, kuinka monessa geenissä kaikista mahdollisista heterotsygotiaa keskimäärin esiintyy. Esimerkiksi monilla gepardeilla on keskenään hyvin samanlainen genomi eli niiden geeneissä esiintyy hyvin vähän vaihtelua. Siten gepardien heterotsygotia-aste on alhainen ja niiden lisääntymiskyky on luultavasti siksi alentunut. Heterotsygotia-asteesta voidaan erottaa toinen, populaation pistemutaatiofrekvenssiä kuvaava arvo, nukleotididiversiteetti. Sillä tarkoitetaan yksinkertaisesti erilaisten alleellien lukumäärää populaatiossa tiettyä mittayksikköä kohden: Ihmisten nukleotididiversiteetti on alhainen, sillä pistemutaatioita esiintyy vain noin kerran yhden kiloemäksen matkalla genomissa. Esimerkiksi simpansseilla ja mahlakärpäsellä (Drosophila) vaihtelua esiintyy noin 10-kertaa enemmän eli noin yksi pistemutaatio 100 nukleotidia kohden. Satunnaisesti pariutuvassa populaatiossa, jossa tutkittavaan geenin tai sen tiettyihin alleeleihin (esimerkiksi yhteen pistemutaatioon) ei kohdistu voimakasta suuntaavaa valintaa, noudattavat alleelin frekvenssit Hardy-Weinbergin lakia. Tämä tar- 24 Pistemutaatioiden etsintä ja niiden sovellukset 267 koittaa sitä, että jos tunnetaan vaikkapa pistemutaatio A->G, vallitsee eri alleelikombinaatioiden (AA, AG ja GG) välillä tasapainotila, joka määräytyy ainoastaan alleelien frekvenssien perusteella. Jos merkitään alleellien frekvenssejä p:llä (A-alleeli) ja q:lla (G-alleeli), voidaan tasapainotilassa populaatiossa havaittujen kombinaatioiden frekvenssit laskea kaavalla p 2 + 2 pq + q 2 . Eli alleelikombinaatiota AA kantavien yksilöiden frekvenssi populaatiossa on alleelin frekvenssin neliö. Jos havaittujen kombinaatioiden frekvenssit poikkevat huomattavasti oletetuista (voidaan tutkia X 2 -testillä), kohdistuu geeniin tai sen tutkittavaan alleelliin todennäköisesti valintapainetta. Vaihtoehtoisesti otos voi olla liian pieni luotettavan tuloksen saamiseksi tai kaikkia geenimuotoja ei ole vielä löydetty. Erityisesti molekyyliepidemiologisissa tapaus-verrokkitutkimuksissa, joissa arvioidaan tietyn geenimuodon vaikutusta esimerkiksi mahdollisuuteen sairastua johonkin tautiin, on tavallista, että sairailla henkilöillä alleelifrekvenssit poikkeavat oletuksesta, joskin terveillä verrokeilla oletuksen pitäisi silti toteutua. Pistemutaatioiden esiintymistä populaatiossa voidaan mallittaa molekyylievoluution neutraaliteorian avulla, jonka mukaan pistemutaatioita ylläpitää populaatiossa mutaatiofrekvenssin ja geneettisen ajautumisen keskinäinen suhde. Suurin osa pistemutaatioista häviää populaatiosta nopeasti, vaikuttivat ne yksilön ominaisuuksiin sitten positiivsesti, negatiivisesti tai neutraalisti. Jotkin mutaatiot sen sijaan yleistyvät populaatiossa sattumalta, geneettisestä ajautumisesta johtuen. Tällaisilla alleeleilla ei todennäköisesti ole yksilöiden lisääntymistulokseen juuri mitään vaikutusta ja ovat siten luonnonvalinnan kannalta neutraaleja. Lisääntymistulokseen positiiviset alleelit sen sijaan yleistyvät populaatiossa valinnan vaikutuksesta nopeammin (positiivinen valinta), ja negatiivisesti vaikuttuvat alleelit poistuvat populaatiosta nopeammin kuin neutraalit alleelit (tasapainottava valinta). Alleelifrekvensseihin vaikuttaa myös populaation absoluuttinen koko, siinä tapahtuneet muutokset, kuten pullonkaulat, jolloin populaation koko on nopeasti pienentynyt, ja populaation välinen yksiloiden vaihto (migraatio, eliöiden vaellus paikasta toiseen). Yhteensulautumisteoria (coalescent theory) eli geenien evoluutiohistorian (genealogia) tutkiminen tarjoaa empiiriselle molekulaariselle populaatiogenetiikalle yhtenäiset puitteet. Teoria mallintaa tietyn otoksen genealogiaa, ja näin saadun mallin (geenihistorian) perusteella voidaan tehdä erilaisia ennustuksia populaation yksilöiden välisestä vaihtelusta ja mutaatiotaajuuksista. Otoksen geenien genealogiaa seurataan hieman samaan tapaan kuin fylogeneettisten menetelmien yhteydessä lajien fylogeniaa: Genealogia jäljitetään jälkeläisistä esivanhempiin, aivan kuten fylogeneettinen puu muodostetaan. Tälloin muodostuu binaarinen puu, joka jossakin vaiheessa päättyy juureen. Siitä nimitys yhteensulautumisteoria: kaikki havainnot tai geenimuodot pelkistyvät ennen pitkää yhdeksi ainoaksi esivanhemmaismuodoksi. Yhteensulautumisteorian kehittäminen 1970- ja 1980-luvuilla oli suuri läpimurto, sillä ennen teoriaa oli kerättävä populaatio, jonka muuttumista seurattiin ajan kuluessa geenimuotojen evoluution tutkimiseksi. Teorian kehittäminen avasi uusia mahdollisuuksia tutkia populaatioita, koska ei enää tarvinnutkaan seurata samaa populaatiota mahdollisesti vuosikausia, ja yhden tai muutaman pienen otoksen perusteella voidaan jäljittää, millaisia muutoksia populaatiossa on ajan kuluessa tapahtunut. Viimeisen kymmen vuoden aikana eräs näkyvimmistä populaatiogenetiikan sovellusalueista on ollut ihmisen evoluution selvittäminen. Tässä pistemutaatioilla on ollut sikäli näkyvä osa, että niiden avulla eri populaatioita on voitu kätevästi kuvata ja verrata toisiinsa. Verrattaessa eri mantereita toisiinsa havaitaan, että afrikkalaisissa populaatioissa nukleotididiversiteetti on kaikkein suurinta eli vaihtelua esiintyy Afrikassa kaikkein eniten. Eurooppalaiset, aasialaiset ja amerikkalaiset populaatiot ovat afrikkalaisia huomattavasti vaihtelultaan köyhempiä. Populaatiogenetiikan neutraaliteorian mukaan nukleotididiversiteetti on suurimmillaan siellä, missä suunnilleen vakiokokoinen populaatio on elänyt kaikkein pisimpään. 268 Bioinformatiikan perusteet Havainnot tukevat Out-of-Africa -hypoteesia, joka ehdottaa, että nykyihminen on alunperin kotoisin Afrikasta ja on sielä levinnyt (migroinut) kaikille muille mantereille. Havainnot eivät sen sijaan tue kilpailevaa monialuehypoteesia, jonka mukaan nykyihminen on hiljalleen kehittynyt useilla alueilla mahdollisesti risteytymällä aiempien ihmislajien kanssa. Populaatiogenetiikka on hyvin laaja biologian ala, eikä sen tarkempaan kattamiseen tässä kirjassa valitettavasti ole liiemmälti tilaa. Asiasta kiinnostunutta lukijaa pyydetäänkin kääntymään lähdekirjallisuuden puoleen. Esimerkiksi Hedrick (2000) ja Hanski (2004) tarjoavat hyvän yleiskuvan populaatiogenetiikan perusteoriasta ja sovellusalueista tällä hetkellä. 24.4 Geenikartoitus Geenikartoituksen tavoitteena on löytää tilastollisia yhteyksiä yksilöiden perimässä olevien muutosten, kuten pistemutaatioiden, ja yksilöiden ilmiasun eli fenotyypin välillä. Tyypillisesti tutkittava fenotyyppi on jokin ihmisen sairaus, mutta yhtä hyvin se voi olla esimerkiksi jokin kasvin ominaisuus, kuten lehtien kurttuinen muoto. Aiemmin käytettiin lähinnä mikrosatelliitteja, lyhyitä DNA:ssa sijaitsevia toistojaksoja, mutta nykyisin käytetään enenevissä määrin myös pistemutaatioaineistoja. Geenikartoituksessa käytettyjä muutoksia kutsutaan markkereiksi siitä riippumatta mitä nämä muutokset varsinaisesti ovat. Useimmat ihmiset monogeeniset sairaudet (sairastumiseen vaikuttaa vain yksi geeni) tunnetaan, ja tutkimus onkin pitkälti siirtymässä monitekijäisten (sairastumiseen vaikuttavat usemmat geenit yhdessä) sairauksien tutkimiseen. Geenikartoituksessa voidaan käyttää joko perhepohjaista lähetysmistapaa (kytkentäanalyysi) tai populaatiopohjaisia aineistoja (assosiaatioanalyysi). Parametrisessa kytkentäanalyysissä määritellään aluksi sairausmalli, joka koostuu riskialleellin populaatiofrekvenssistä sekä eri genotyyppiyhdistelmää kantavien henkilöiden mahdollisuudesta sairastua sairauteen eli penetranssivektorista. Parametrisessa analyysissä käytetään kokonaisia, mahdollisesti moniakin sukupolvia sisältäviä sukupuita. Ei-parametrisessä kytkentäanalyysissä sairausmallia ei määritellä, vaan tarkastellaan kuinka usein yhteisen fenotyypin omaavilla sukulaisilla on yhteistä alkuperää olevia genomin kohtia (affected sib pair (ASP) -testi). Assosiaatioanalyysissä tutkitaan, esiintyykö sairaus tavanomaista useammin yhdessä jonkin tietyn alleellin kanssa. Assosiaatioanalyysi voidaan suorittaa käyttäen tapaus-verrokki asetelmaa, jossa kerätään populaatiosta sairaita ja terveitä henkilöitä, ja tutkitaan onko näiden ryhmien välillä eroa tiettyjen genotyyppien frekvensseissä. Assosiaatioanalyysissä voidaan myös ottaa huomioon sukupuurakenne. Tällöin tarkastellaan jälkeläisiä ja näiden vanhempia (ydinperheitä) kun, kussakin sukupuussa on vähintään yksi sairas jälkeläinen (trasmission disequilibrium test (TDT) -testi). Kaikki geenikartoitusmenetelmät perustuvat oletukseen kytkentäepätasapainosta. Tautistatukseen mahdollisesti kytkeytyvä geeni pyritään paikallistamaan juuri kytkentäepätasapainon perusteella. Käsitteellä tarkoitetaan tilannetta, jossa esimerkiksi kahden eri geenien tietyt alleelit esiintyvät yhdessä useammin kuin pelkästään niiden frekvenssien perusteella olisi syytä olettaa. Kytkentäepätasapaino johtuu siitä, että ihmisen sukusolujen muodostuessa perimää hiukan uudelleenmuotoillaan siten, että äidiltä ja isältä perityt kromosomit vaihtavat osasia keskenään. Tällaiset tekijäinvaihdot sattuvat kromosomeihin keskimäärin satunnaisesti ja mitä useampia sukupolvia samaa genomialuetta seurataan, sitä pienemmäksi käy alue, jolla tekijäinvaihtoja ei ole sattunut. Kytkentäepätasapaino voidaankin havaita juuri mainitusta syystä. Perusoletuksena on, että erilaiset alleelit ovat satunnaisesti assosioituneet toisiinsa, ja jos havaitaan ettei näin olekaan, todetaan, että tietyllä kromosomialueella on kytkentäepätasapainoa esimerkiksi kahden eri geenin alleelien välillä. Jos sairausstatuksen ja tietyn geenin alleelin välillä esiintyy voimakasta kytkentäepätasapainoa (parametrisessä analyysissä kytkennän voimakkutta kuvaa- 24 Pistemutaatioiden etsintä ja niiden sovellukset 269 va LOD-score >3), voidaan olettaa, että tautigeeni sijaitsee hyvin lähellä tutkittua markkeria. Geenikartoituksessa hyödynnetään usein eristyneitä tai muutoin erityisiä populaatioita. Esimerkiksi Suomen väestö on ollut suhteellisen eristynyt muista Euroopan väestöistä viime aikoihin saakka. Eristyneissä populaatioissa kytkentäepätasapaino tiettyjen sairauksien ja markkereiden välillä voi olla tavallista voimakkaampaa, sillä geenivirta ei ole tuonut populaatioon uusia, mahdollisesti analyysiä vaikeuttavia geenimuotoja. Lisäksi epätasapainoa lisää se, että usein eristyneet populaatiot ovat lähtöisin varsin pienestä joukosta henkilöitä, joka on lisäksi saattanut läpikäydä äkkinäisiä pienemisiä (pullonkauloja), jolloin kytkentäepätasapaino populaatiossa saattaa entisestään voimistua. Geenikartoituksen hyödyllisyyttä rajoittaa toisinaan tietyssä määrin esimerkiksi se, etteivät kaikki sairausalleelia kantavat henkilöt sairastu tautiin (alentunut penetranssi). Tämä voi johtua muiden geenien vaikutuksesta tai siitä, että sairausgeenin ilmentyminen kantajalla on tavanomaista alhaisempaa. Kantaja voi myös olla mosaiikki, mikä tarkoittaa sitä, että henkilö koostuu tavallaan kahden tyyppisistä soluista; toisissa sairausalleeli on, toisissa ei. Terveiden solujen olemassaolo riittää sitten pitämään kantajan terveenä, vaikka laboratoriotutkimuksissa sairausalleeli havaittaisiinkin. Sairausgeenistä saattaa myös olla erilaisia transkriptiomuotoja, joista kaikkia ei suinkaan ilmennetä kaikissa soluissa. Tällöin saattaa olla, että löydetty sairausalleeli ei oikeasti liitykään sairauteen, sillä alue, jolla alleeli sijaitsee, poistetaan geenimuodosta jota ilmennetään kudoksissa, joihin sairaus yleensä kohdistuu. Niinpä saadut tulokset yleensä varmennetaankin laboratoriossa joko funktionaalisin tutkimuksin tai muulla tavoin. 24.5 Farmakogenetiikka Farmakogenetiikalla tarkoitetaan tutkimusta, jossa pyritään selvittämään miten ihmisten tai miksei muidenkin eliöiden perimässä olevat mutaatiot, nykyisin tyypillisesti SNP:t, vaikuttavat lääkeainevasteeseen. Farmakogenetiikka sai alkunsa jo 1950-luvulla, ja käsite viittaa tutkimuksiin, joissa keskitytään lähinnä yhteen ainoaan geeniin. Nykyisin puhutaan mieluummin farmakogenomiikasta, jos halutaan erityisesti korostaa laajempaa asiayhteyttä, useiden geenien mutaatioiden yhtäaikaisen toiminnan vaikutusten tutkimusta. Lääkeainevasteen tutkimus on viime vuosina keskittynyt erityisesti lääkeainemetaboliaan liittyvien geenien muutosten tarkasteluun. Lääkeaine imeytyy jotakin kautta elimistöön, ja elimistö pyrkii pääsemään siitä eroon, sillä vierasaineet eivät ole kovin tervetulleita elimistöön. Niinpä elimistössä lääkeaineeseen usein lisätään tiettyjä molekyylejä, jotka muuttavat lääkkeen helpommin eritettävään muotoon. Erittyvässä muodossa oleva lääkeaine sitten poistuu elimistöstä esimerkiksi virtsan tai ulosteen mukana. Lääkeainemetaboliaan liittyviä geenejä ovat esimerkiksi sytokromi-P450-oksidaasit, kuten CYP2E1, jonka kautta myös alkoholi osittain metaboloituu. Farmakogenettinen tutkimus on eräs syy siihen, miksi ihmisen perimän muutoksia on olettu niin suurella innolla tutkimaan erityisesti viime vuosina. Ajatuksena on, että jos voidaan selvittää, mitkä geenit ja niissä olevat muutokset vaikuttavat kunkin lääkeaineen metaboliaan, voidaan tietoa käyttää hyväksi käytännön hoitotyössä sekä tuotekehityksessä. Hoitotyössä tiedolla pyritään määrittämään erilaisille ihmisille parhaiten sopivia lääkeannoksia. Sama annos voi toiselle potilaalle olla miltei tehoton ja aiheuttaa toiselle vakavia sivuvaikutuksia. Jos ennen hoidon aloittamista tunnetaan potilaan farmakogeneettinen profiili (mitä SNP:jä potilaalla tietyissä geeneissä on), voidaan lääkeannos kenties sovittaa heti sopivalle tasolle. Tuotekehityksessä farmakogenomiikan tuomaa tietoa voidaan hyödyntää esimerkiksi kohdentamalla lääkkeitä tietyille erikoisryhmille. Farmakogenomiikan tuottamaa tietoa voidaan käyttää hyväksi myös sivuvaikutusten poistamisessa. Nykyisin 270 Bioinformatiikan perusteet esimerkiksi tiedetään, että tietyt lääkeaineet ja greippimehu eivät sovi hyvin yhteen. Syynä on se, että sekä tietyt greippimehussa olevat yhdisteet ja lääkeaineet metaboloituvat saman entsyymin kautta, jolloin greippimehu estää lääkeaineen poistumista elimistöstä ja lisää siten sivuvaikutusten mahdollisuutta. Sama ilmiö selittää alkoholin ja monien lääkeaineiden haitalliset yhteisvaikutukset. Farmakogenomiikassa käytetään pitkälti assosiaatioanalyysin kaltaisia väestöpohjaisia menetelmiä lääkeaineiden aineenvaihdunnan ja geenimuutosten välisten vaikutusten selvittämiseen. Assosiaatioanalyysillä saatujen hyvien arvausten tarkempaan tutkimukseen voidaan käyttää esimerkiksi funktionaalisia tutkimuksia soluviljelmissä, jolloin voidaan tarkemmin selvittää, mitkä tietyn entsyymin tai rakenneproteiinin piirteet saavat aikaan havaitun lääkeainevasteen. 25 Tuntemattoman sekvenssin toiminnan selvittäminen 271 25 Tuntemattoman sekvenssin toiminnan selvittäminen 25.1 Mihin toiminnan selvittäminen perustuu? Biotietokannoissa on sekvenssejä suuresta määrästä eliöitä, arviolta ainakin 100 000 eri lajista. Näistä tällä hetkellä noin 160 bakteerin ja arkin, 1700 viruksen ja faagin ja 13 eukaryootin koko genomi tunnetaan. Minkään tällä hetkellä tunnetun eliön genomi ei ole täysin ainutlaatuinen, vaan aina löytyy geenejä, jotka yhdistävät eliöitä toisiin eliöihin. Kaikilla eliöillä on kuitenkin joitakin geenejä, joita ei välttämättä tällä hetkellä tunneta muilta eliöiltä. Jokatapauksessa tunnettujen sekvenssien ja eliöiden suuri määrä mahdollistaa useimmiten tuntemattomien sekvenssien toiminnan määrittämisen suhteellisen nopeasti. Se on nykyisin vallitsevan post-genomisen aikakauden mukanaan tuomia suurimpia tutkimuksellisia etuja. Sekvenssejä, joiden toimintaa ei ennalta tunneta löytyy tyypillisesti esimerkiksi erilaisissa sekvensointiprojekteissa, joissa jonkin eliön koko perimä pyritään määrittämään. Lisäksi ennelta tuntemattomia sekvenssejä saattaa löytyä esimerkiksi tautitutkimusten yhteydessä, kun alueelta, joka näyttää olevan assosioitunut tautiin ei löydykään yhtään ennalta tunnettua geeniä. Lisäksi tietokannoissa lepäilee tuhansia sellaisia sekvenssejä, joille ei ole aiemmin kyetty määrittämään tehtävää, mutta joka saattaa tutkimusten edistyessä osoittautua jonkin tunnetun geenin paralogiksi tai muuksi vastaavaksi sukulaissekvenssiksi. Seuraavassa käsitellään bioinformatiikan menetelmiä, joilla tuntemattomien sekvenssien toiminta voidaan mahdollisesti selvittää. Tuntemattoman sekvenssin toiminnan selvittämiseen on useita mahdollisia vaihtoehtoja, mutta yleisimmin käytettyihin menetelmiin kuuluvat BLAST-haut, tunnistetietokannat ja fylogeneettinen analyysi. On kuitenkin syytä muistaa, että geenin toiminnan selvittämiseen tähtäävä analyysi, joka nojaa vain sekvenssivertailuille on vajavainen ja altis virheille. Sekvenssivertailuilla voidaan yrittää nopeasti selvittää geenin toimintaa, mutta viimekädessä joudutaan käyttämään klassisis geneettisiä, biokemiallisia ja solubiologisia laboratoriokokeita geenin tai sitä vastaavan proteiinin toiminnan selvittämiseksi. 25.2 BLAST-haku Yleensä ensimmäinen analyysi, joka uunituoreelle sekvenssille tehdään, on BLASThaku. BLAST-haun tarkoituksena on tällöin nopeasti tarkistaa, löytyykö sekvenssitietokannoista jo tunnettuja sekvenssejä, jotka muistuttavat hakusekvenssiä. Jos tällaisia sekvenssejä löytyy, ja niiden samankaltaisuusaste hakusekvenssin kanssa on korkea, voidaan olettaa, että tietokannasta löytyneet sekvenssit ja hakusekvenssit toimivat solussa jokseenkin samalla tavalla. Sekvenssien samankaltaisuus ei sinällään kerro, toimivatko sekvenssiä vastaavat proteiinit solussa samalla tavalla, mut- 272 Bioinformatiikan perusteet ta mitä korkeampi sekvenssien samankaltaisuusaste on, sitä todennäköisempää on myös, että sekvenssit ovat homologisia, ja toimivat samalla solussa samalla tavalla. Kannattaa kuitenkin muistaa, että ortologisten ja paralogisten geenien erottelu ei onnistu pelkän samankaltaisuuden perusteella, ja ortologien toiminta voi erota samaan perheeseen kuuluvien paralogien toiminnasta. Tietokannasta löytyvien sekvenssien yhteydessä on yleensä lyhyt kuvaus (annotaatio) siitä, mistä sekvenssi on peräisin, ja mitä sen arvellaan soluissa tekevän. Tätä tietoa voidaan nyt suoraan käyttää hakusekvenssin toiminnan määrittämiseen: samankaltaisuuden ollessa suurta, oletetaan että hakusekvenssin toiminta on samanlaista kuin tietokannan sekvenssinkin. Sekvenssin annotointi saattaa kuitenkin olla sen tutkijan vastuulla, joka on lähettänyt sekvenssin tietokantaan. Tästä voi olla seurauksena, ettei sekvenssin kuvausta ole päivitetty vuosiin, jolloin se ei välttämättä enää ole ajan tasalla. Siksi BLAST-tulosten tulkintaan kannattaa suhtautua varovaisesti. Käytännössä haku kannattaa tehdä aluksi DNA-sekvenssiä käyttäen (blastnohjelma) ja seuraavaksi siten, että DNA-sekvenssi käännetään aminohapposekvenssiksi jokaisessa lukuraamissa (blastx-ohjelma). Sekvenssiannotaatioiden ajantasaisuus on huonolla tolalla erityisesti EMBL- ja Genbank-tietokannoissa, koska tietueita saa niissä muuttaa vain sekvenssin lähettänyt tutkija. Sen vuoksi kannattaa ainakin alkuvaiheessa suosia RefSeq-tietokantaa DNA-sekvenssihauissa ja SWISSPROT-tietokantaa aminohapposekvenssihauissa. Niissä sekvenssiannotaatioiden paikkansapitävyys on useimmiten tarkistettu käsin, ja niihin voi luottaa. Jos kummastakaan tietokannasta ei löydy luotettavaa osumaa, voidaan haku laajentaa muihin tietokantoihin, joiden tiedot eivät välttämättä ole yhtä luotettavia, mutta joissa on määrällisesti enemmän sekvenssejä. Haku on viisainta tehdä sekä DNA- että aminohapposekvenssiä käyttäen, sillä tällöin vältytään mahdollisesti suurelta määrältä virheellisiä osumia: DNA-sekvenssi sopii hyvin sekvensseille, joille tunnetaan läheisiä sukulaisia, mutta kaukausimmat sukulaiset eivät välttämättä löydy DNA-sekvenssihaulla. Aminohapposekvenssin perusteella puolestaan on helppo löytää kaukaisempiakin sukulaisia, ja virhemahdollisuus on pienempi, sillä hyviä osumia syntyy aminohapposekvenssihauissa harvemmin sattumalta kuin DNA-sekvenssihauissa. Genomiprojektin yhteydessä on tällä hetkellä varsin tavallista, että liki kolmasosa sekvensoidun eliön geeneistä on sellaisia, joille ei löydy suoraa vastinetta tietokannoista. Jos BLAST-hauilla ei löydy kunnollisia osumia tietokannoista tai osumat ovat lyhyitä, voidaan sekvenssin toiminnan selvittämisen käyttää tunnistetietokantoja ja fylogeneettistä analyysiä. 25.3 Tunnistetietokannat Tunnistetietokantojen avulla voidaan tuntemattomasta aminohapposekvenssistä tunnistaa mahdollisesti sellaisia alueita, jotka vastaavat jotakin tunnettua proteiinimotiivia tai domeenia. Kaikkia erilaisia eliökunnasta löytyviä proteiinimotiiveja ei vielä tunneta, mutta jos kaikki domeenit tunnettaisiin, olisi uuden proteiinin sijoittaminen sen domeenirakenteen perusteella johonkin toiminnalliseen proteiiniperheeseen suhteelisen helppoa. Nykyisin täysin uusia proteiinidomeeneja löytyy kuitenkin suhteellisen harvoin, joten vaikka BLAST-haku ei tuottanutkaan tulosta, voi tunnistetietokantahaku tärpätä. Jos tuntemattomasta sekvenssistä löytyy jotakin tunnettua motiivia tai domeenia vastaava alue, on syytä tutkia tarkemmin millaisissa proteiineissa ko. rakenne yleensä esiintyy. Jos tuntemattomasta sekvenssistä esimerkiksi löytyy BRCArakenne, voidaan jokseenkin varmasti sanoa, että proteiinin toiminta liittyy joko DNA-korjaukseen tai ainakin toimintoihin, jotka säätelevät solusyklin etenemistä. Voi myös olla, ettei tietty domeeni liitä proteiinia mihinkään funktionaaliseen proteiiniperheeseen. On nimittäin useita sellaisia domeeneja, kuten erilaiset ATP:tä 25 Tuntemattoman sekvenssin toiminnan selvittäminen 273 sitovat domeenit, joita esiintyy hyvin erilaisissa proteiineissa. Tällöin on vaikea lähteä arvailemaan, mihin näistä mahdollisista proteiiniperheistä tuntematon sekvenssi saattaisi sijoittua, erityisesti jos BLAST-hauilla ei saatu lisätietoja siitä, millaisia sekvenssejä hakusekvenssi muistuttaa yhteisen domeenirakenteen ulkopuolisia sekvenssialueita tarkasteltaessa. Useimmiten proteiinia ei voidakaan luotettavasti sijoittaa mihinkään funktionaaliseen luokkaan pelkästään yhden domeenin perusteella, vaan on tarkasteltava proteiinin koko domeenirakennetta. Monille samaan laajaan funktionaaliseen proteiiniryhmään, kuten transkriptiofaktorit tai reseptorit, on tyypillistä samankaltainen domeenirakenne. Proteiinin koko domeenirakenteen selvittämiseen soveltuu varsin hyvin InterProScan-palvelu, johon on yhdistetty liki kaikki tunnistetietokannat. BLAST-haun osumat kuvastavat useammin proteiinien domeenirakennetta kuin varsinaista geenien samankaltaisuutta. Onkin tärkeää erotella proteiinien luokittelu funktionaalisiin ryhmiin geenien luokittelusta paralogeihin ja ortologeihin. Proteiinien luokittelu domeenien perusteella tapahtuu parhaiten tunnistetietokantoja tai toisinaan BLAST-hakua käyttäen. Geenien luokittelu ortologeihin ja paralogeihin puolestaan tapahtuu fylogeneettisen analyysin avulla. Tämä ei kuitenkaan tarkoita sitä, etteikö keskenään ortologisilla sekvensseillä voisi olla samaa funktiota soluissa. Useimmiten näin on, sillä ortologiset sekvenssithän ovat sellaisia, joilla on yhteinen lajiutumisten kautta johdettavissa oleva evoluutiohistoria, jolloin on järkevää olettaa, että myös proteiinin funktio on periytynyt ja todennäköisesti säilynyt lajiutumisen jälkeen muuttumattomana. Domeenirakenteen sekvenssiä ja mahdollisesti sen ulkopuolisia alueita apuna käyttäen on mahdollista selvittää tuntemattoman sekvenssin toimintaa tarkemmin fylogeneettistä analyysiä käyttäen. Se perustuu ajatukseen, että jokaiselle eliön sekvenssille on löydettävissä evolutiivinen menneisyys, joka voidaan esittää puukaavion muodossa. Jos BLAST-haulla löytyi useampia edes kaukaisesti hakusekvenssiä muistuttavia sekvenssejä, voidaan fylogeneettinen analyysi tehdä suhteellisen yksinkertaisesti. 25.4 Fylogeneettinen analyysi Fylogeneettisellä analyysillä tarkoitetaan tässä yhteydessä analyysiä, jossa kaikki hakusekvenssiä muistuttavat tietokannasta löytyneet sekvenssit järjestetään puukaavion muotoon. Kaavioon merkitään tunnettujen sekvenssien toiminta, ja tätä taustatietoa sekä puukavvion muotoa käyttäen myös tuntemattomien sekvenssien mahdollinen toiminta voidaan päätellä. Fylogeneettinen analyysi toimii parhaiten tapauksissa, joissa hakusekvenssi muistuttaa jo tunnetuja sekvenssejä muutenkin kuin domeenirakenteeltaan. Analyysi voidaan tehdä, vaikkei sekvenssejä yhdistä muu kuin yhden domeenin samankaltaisuus, mutta tällöin on vaarana vetää vääriä johtopäätöksiä sekvenssin ja sitä vastaavan proteiinin toiminnasta soluissa. Käytännössä työ etenee siten, että tietokannoista tunnistetaan, esimerkiksi BLASTtai PSI-BLAST -haulla hakusekvenssille mahdollisesti homologiset sekvenssit. Homologia on tässä vaiheessa pääteltävä sekvenssien samankaltaisuuden perusteella - mitä samankaltaisemmat sekvenssit, sitä todennäköisemmin ne ovat homologisia. Homologiset sekvenssit, jotka voivat sisältää sekä ortologisia että paralogisia sekvenssejä rinnastetaan, ja rinnastuksen perusteella muodostetaan geenien evoluutiohistoriaa kuvaava puukaavio, geenipuu. Tähän geenipuuhun merkitään tunnettujen sekvenssien toiminta esimerkiksi eri väreillä, mikä helpottaa seuraavissa vaiheissa tapahtuvaa päättelyä (Kuva 25.1). Geenien toiminnan päättely tapahtuu parsimonia-periaatetta soveltaen. Tarkkaan ottaen geenin toiminnan päätely vastaa ominaisuuksien optimointia parsimoniapuuhun. Ominaisuuksien optimointi tällaisissa tapauksissa tapahtuu Fitchin esitä- 274 Bioinformatiikan perusteet Kuva 25.1: Tuntemattoman geenin toiminnan päätteleminen fylogeneettistä analyysiä käyttäen. Oheinen puukaavio on piirretty homologisten sekvenssien rinnastuksen perusteella. Puuhun on merkitty eri väreillä tunnettujen geenien toiminta. Sinisellä merkityt geenit (A, B) ovat myoglobiinia, jota esiintyy hyönteisillä, joilla veri on väriltään sinistä. Punaisella merkityt geenit (C, E) ovat hemoglobiineja, joita esiintyy nisäkkäillä, joilla veri on punaista. Parsimonia-periaatteeseen perustuvaan päättelyä (Fitch-optimointi) käyttäen voidaan tuntemattoman geenin (D) toiminta soluissa päätellä. Koska geenin D sijoittuu puussa geenien C ja E väliin, jotka molemmat ovat myoglobiineja, voidaan geenin D:kin päätellä todennäköisesti olevan myoglobiini. mää algoritmia käyttäen. Tämä algoritmi esitellään tarkemmin fylogenetiikkaa käsittelevissä luvuissa, mutta yksinkertainen esimerkki algoritmin toiminnasta on esitetty kuvassa 25.1. Hyvän esimerkkin fylogeneettisen menetelmän soveltamisesta käytäntöön löytyy Eisenin (1998) artikkelista, jossa hän kuvaa useiden DNAkorjaukseen liittyvien entsyymien toiminnan selvittämistä tätä menetelmää käyttäen. Perinteisesti hakusekvenssille on annettu sama funktio kuin sitä vastaavalle osumalle BLAST-haun jälkeen. Sekvenssien samankaltaisuuksien vertailu pelkän BLAST-perusteella voi kuitenkin antaa harhaanjohtavia tuloksia. Tulosten harhaanjohtavuus johtuu useimmiten siitä, että hakusekvenssillä saadaan tuloksia useammasta samaan geeniperheeseen kuuluvasta geenistä, joista osa on hakusekvenssille ortologisia ja osa paralogisia. Samaan geeniperheeseen kuuluvilla jäsenillä, erityisesti hakusekvenssille ortologisilla geeneillä, voi olla hyvinkin erilainen funktio soluissa kuin hakusekvenssillä. Tästä syystä parempia tuloksia saadaankin fylogeneettisellä analyysillä, jossa paralogiset ja ortologiset sekvenssit voidaan useimmiten erotella toisistaan (kuva 25.2). Pelkän BLAST-tuloksen perusteella kun ei ole mahdollista erotella paralogisia ja ortologisia sekvenssejä toisistaan. 25.5 Ortologisten geenien luokittelu Proteiinien luokittelemiseksi on kehitetty myös ortologisten geenien luokittelu (clusters of orthologous genes, COG). COG:t muodostetaan siten, että kokonaisille ge- 25 Tuntemattoman sekvenssin toiminnan selvittäminen 275 Kuva 25.2: Paralogisten ja ortologisten sekvenssien erotteleminen toisistaan fylogeneettistä analyysiä käyttäen. Kolmesta eliölajista koottujen sekvenssien (A-F) perusteella piirretty geenipuu kuvaa vastaavien proteiinien evoluutiota. Proteiinien A-D ja F funktio tunnetaan ennalta, proteiinin E funktiota ei tunneta, ja se pyritään määrittämään. Sekvenssien perusteella syntyy kaksi tismalleen samanlaista, lajien evoluutiota kuvaavaa puuta (A-C ja D-F), mutta geenipuussa samasta lajista peräisin olevat sekvenssit eivät sijoitukaan samaan puun haaraan. Tällöin on syytä epäillä, että puussa on tapahtunut geenien kahdentuminen, duplikaatio. Tässä tapauksessa näin onkin, ja duplikaatio on tapahtunut heti puun juuressa (nuoli). Punaisella (alfa-hemoglobiinit) merkityt ja sinisellä (beta-hemoglobiinit) merkityt geenit ovat keskenään ortologisia. Sen sijaan punaiset ja siniset geenit ovat keskenään paralogisia. Koska geeni E sijaitsee sinisten sekvenssien kanssa samassa puun haarassa, tekee sitä vastaava proteiinikin todennäköisesti solussa samanlaisia asioita kuin muut samassa puun haarassa olevat sekvenssit - se on siis beta-hemoglobiini. nomeille tehdään parittaiset vertailut, ja jokaiselle geenille valitaan näiden vertailuiden perusteella kaikkein lähin sukulainen. Vertailut voidaan tehdä esimerkiksi BLAST-hakuja käyttäen, joten geenin lähimmäksi sukulaiseksi valitaan paras BLAST-osuma. COG:t sisältävät tyypillisesti sekä ortologisia sekvenssejä että paralogisia sekvenssejä. Siten COG:t antavat ainoastaan suuntaviivoja siitä, mikä tutkittavan sekvenssin toiminta solussa saattaisi olla. Koska COG:t on muodostettu siten, että samaan luokkaan on sijoitettu sekvenssit, jotka muistuttavat eniten toisiaan sekvenssin samankaltaisuuden perusteella, ei esimerkiksi keskeissä proteiinin kohdissa sattuneita mutaatioita huomioida mitenkään. Tämän vuoksi onkin parempi käyttää fylogeneettisiä menetelmiä tuntemattomien geenien funktion selvittämiseksi. COG:ien avulla voidaan kuitenkin nopeasti selvittää, mihin funktionaaliseen ryhmään tutkittava geeni saattaa kuulua, mikä saattaa helpottaa esimerkiksi fylogeneettistä analyysia varten suoritettavien BLAST-hakujen tarkentamista soveltuviin ja tarpeellisiin tietokannan divisiooniin. COG:ien käyttöä hankaloittaa myös se, että tällä hetkellä parhaat COG-tiedot on saatavilla bakteereista (http://www.ncbi. nlm.nih.gov/COG), ja eukaryoottien osalta tiedot ovat varsin hajanaisia. 276 25.6 Bioinformatiikan perusteet Geeniontologia Pelkän sekvenssisamankaltaisuuden perusteella ei voida aina luokitella geenejä tai niitä vastaavia proteiineja luotettavasti. Vaikka proteiinin sekvenssi onkin eri eliöissä säilynyt hyvin samankaltaisena, on proteiinin toiminta elimistön tasolla voinut muuttua. Tällöin sanotaan, että vaikka proteiinin molekulaarinen funktio on säilynyt ennallaan on sen fysiologinen funktio muuttunut. Eräs tunnetuimmista esimerkeistä on laktaattidehydrogenaasi, joka toisaalta toimii entsyyminä, ja pilkkoo laktoosia, ja toisaalta toimii silmän lasiaisen läpinäkyvänä ja valoa taittavana rakenneproteiinina. Toinen vastaava esimerkki on banaanikärpäsen tuntosarven kehitystä säätelevän spineless-aristapedia -geenin evolvoituminen nisäkkäiden dioksiinireseptoriksi. Vaikka geenien ja proteiinien funktio ei olekaan aina säilynyt ennallaan, on kuitenkin löydettävissä yli 1500 geeniä, joiden biokemiallinen ja fysiologinen funktio on samanlainen banaanikärpäsellä, sukkulamadolla ja ihmisellä. Sama koskee varmasti myös kasveja. Vaikka kasvien morfologia ja fysiologia on varsin toisenlainen kuin eläimillä, ovat keskeiset biokemialliset toiminnot kuitenkin suureksi osin samanlaisia. Koska geenin ja sitä vastaavan proteiinin toiminta voi evolvoitua siten, että se eroaa merkittävästi alkuperäisestä, on sekvenssisamankaltaisuuden vertailemisen lisäksi tärkeää selvittää, miten esimerkiksi tutkittavan proteiinin solunsisäinen sijoittuminen mahdollisesti eroaa sen alkuperäismuodosta. Tämän helpottamiseksi on kehitetty useita geeniontologioita, joista tunnetuin ja käytetyin lienee Gene Ontology Consortiumin kokoama GO-ontologia (http:// www.geneontology.org). GO-ontologiassa suurin osa genomiprojektien selvittämistä proteiineista on sijoitettu toiminnallisiin luokkiin. Toiminnalliset luokat muodostavat sisäkkäisen (hierarkkisen), puumaisen rakenteen. GO-ontologia on jatkuvassa muutoksessa, sillä sitä päivitetään sitä mukaa, kun uutta tietoa proteiinien toiminnasta solussa kertyy. Keskeisimpien solubiologisten prosessien, kuten Krebbsin sykli, ontologia tuskin kuitenkaan tulee muuttumaan, koska niitä koskevaa mullistavaa tietoa tuskin tulevaisuudessa enää kertyy. Jokaisesta malliorganismista on GO-ontologiaa käyttäen annotoitu ainakin useampia tuhansia erilaisia geenejä. Nykyinen GO-ontologia ei pyri sijoittelemaan proteiineja esimerkiksi eri solutyyppeihin, vaan tyytyy kuvailemaan proteiinin toimintaa käyttäen idealisoitua eukaryoottisolua. Tarkemmat tiedot geenin toiminnasta, kuten sen ilmentymisen rajoitumisesta vain tiettyihin solutyyppeihin, on kuitenkin useimmiten saatavilla ontologiaan liitetyistä kirjallisuuslähteistä. GO-ontologiassa jokainen proteiini sijoitetaan aluksi johonkin kolmesta pääluokasta, jotka ovat biologinen prosessi, molekulaarinen funktio ja solukomponentti. Jokaiseen näistä pääluokista kuuluu useita satoja alaluokkia. Biologinen prosessi -luokka sisältää tietoa siitä, mihin prosessiin, kuten kasvu ja solunjakautuminen tai cAMP:n biosynteesi, proteiini vaikuttaa. Molekulaarinen funktio -luokka tarkoittaa proteiinin biokemiallista funkiota, kuten entsyymi, DNA-helikaasi tai tyrosiinikinaasi. Solukomponentti -luokka kuvaa sitä solun sisäistä paikkaa, jossa proteiini vaikuttaa. Tällaisia ovat esimerkiksi solun pinta ja Golgin laite. GO-ontologian avulla ei voida sinällään suoraan selvittää tuntemattoman sekvenssin toimintaa, mutta kun sekvenssin toiminnasta jo saatu hyviä vinkkejä käyttäen esimerkiksi jo esiteltyjä menetelmiä, voidaan sen läheisimpien sukulaisten toiminta selvittää GO-ontologiaa käyttäen. GO-ontologiassa on edellämainittuihin annotaatiolähteisiin verrattuna se etu, että samalla saadaan tietoa myös proteiinin sijoitumisesta solun sisäisiin rakenteisiin sekä niistä biokemiallisista prosesseista, joihin sekvenssiä vastaava proteiini mahdollisesti osallistuu. 25 Tuntemattoman sekvenssin toiminnan selvittäminen 25.7 277 DNA-sirut DNA-sirujen avulla voidaan tutkia tuhansien geenien yhtäaikaista ilmentymistä jostakin soluviljelmä- tai kudosnäytteestä. Aineiston analysoimisen jälkeen saadaan usein tulokseksi geeniluokkia, joihin sijoitetut geenit ilmentyvät näytteessä samalla tavalla. Usein samaan tapaan ilmentyneillä geeneillä oletetaan myös olevan samanlainen funktio solussa. Samanlainen ilmentyminen ei kuitenkaan välttämättä tarkoita samanlaista toimintaa solussa. Usein geenit, jotka ilmentyvät samaan tapaan, koodaavat proteiineja, jotka toimivat esimerkiksi samassa solusyklin vaiheessa tai liittyvät samaan biokemialliseen aineenvaihduntareittiin. Ne eivät siis välttämättä koodaa samaa funktiota hoitavia proteiineja, vaan useimmiten proteiineja, joiden tulee ilmentyä yhdessä, jotta jokin biokemiallinen reaktio saadaan suoritettua. Siten DNA-sirujen avulla ei voidakaan suoranaisesti selvittää geenien funktioita soluissa, vaan enemminkin yhteisilmentymisen kautta voidaan selvittää minkälaisiin biokemiallisiin reitteihin geenitoiminta liittyy. Usein samaan tapaan ilmentyvillä geeneillä on samantapainen promoottorialue, ja asiaan tutustutaankin tarkemmin promoottorianalyysia käsittelevässä luvussa. 278 Bioinformatiikan perusteet 26 Promoottorianalyysi 26.1 Mitä promoottorit ovat? Promoottori on geenin ilmentymistä säätelevä osa. Pisin yhtäjaksoinen promoottorialue sijaitsee yleensä geenistä ylävirtaan, mutta geenin ekspressioon vaikuttavia alueita voi sijaita myös geenistä alavirtaan tai introneissa. Lisäksi kromatiinirakenne, se miten ja minne DNA on laskostunut tumassa, vaikuttaa geenin ekspressioon huomattavasti. Erityisesti DNA:n sitouminen nukleosomeihin antaa mahdollisuuksia vaikuttaa DNA:n transkriptioon esimerkiksi metylaation ja asetylaation välityksellä. Kromatiinirakenteen vaikutusta geenien ilmentymiseen ei voida kuitenkaan toistaiseksi luotettavasti selvittää yksinomaan tietokoneella, joten yleensä tyydytäänkin etsimään promoottorialueelta tiettyjä sekvenssihahmoja. Useimmiten promoottorianalyysissä keskitytään analysoimaan ainoastaan geenistä ylävirtaan sijaitsevaa promoottorialuetta, sillä sen tunnistaminen geenisäätelyyn vaikuttavaksi alueeksi on muihin mahdollisesti vaikuttaviin alueisiin verrattuna helppoa. Geenisäätely tapahtuu transkriptiotekijöiden (transcription factor, TF) välityksellä siten, että ne joko auttavat tai estävät geenin transkriptiolle välttämättömien entsyymien, kuten RNA-polymeraasin sitoutumista DNA:han. Transkriptiotekijät situoutvat DNA:han yleensä varsin lyhyen (<10 bp) tunnistusekvenssin avulla. Niinpä analysoitaessa jotakin vaikkapa satunnaisesti tuotettua DNA-sekvenssiä, on siitä mahdollista tunnistaa lukuisien transkriptiotekijöiden sitoutumiskohtia pelkästään sattumalta. Koska tiedetään, että promoottorialue sijaitsee ainakin geenistä ylävirtaan, kohdistetaan analyysi useimmiten yksinomaan siihen väärien positiivisten tulosten välttämiseksi. Jatkossa ainoastaan tästä geenistä ylävirtaan sijaitsevasta säätelyalueesta puhutaan promoottorialueena. Promoottorialue on määritelmän mukaisesti se alue geenistä ylävirtaan, joka kykenee yksinään aloittamaan geenin transkription. Siten transkription aloituskohta (TSS) sisältyy promoottorialueeseen. 26.2 Miten promoottorisekvenssejä analysoidaan? Promoottorianalyysillä pyritään yleensä selvittämään onko analysoitavissa sekvensseissä jonkin tunnetun transkriptiotekijän sitoutumiskohta tai onko analysoitavissa sekvensseissä lyhyitä, hyvin samankaltaisia sekvenssialueita, jotka saattaisivat olla transkriptiotekijöiden sitoutumiskohtia. Tunnettujen sitoutumiskohtien tunnistamiseen käytetään lähinnä position specific scoring matrix (PSSM) -matriiseja. Periaatteessa myös esimerkiksi hidden Markov model (HMM) -malleja voitaisiin käyttää samaan tarkoitukseen, mutta niiden muodostaminen ja riittävän luotettaviksi hiomiseen tarvitaan huomattavasti enemmän aineistoa kuin PSSM-matriisien. Sitoutumiskohta saatetaan tuntea vain muutamasta sekvenssistä, jolloin aineistoa ei ole tarpeeksi HMM-mallin muodostamiseen, vaan joudutaan turvautumaan PSSMmatriisiin. Tuntemattomien sitoutumiskohtien etsimiseen käytetään yleisimmin joko Gibbsin otantaa tai EM-algoritmia. Molemmat soveltuvat lyhyen paikallisen rinnastuksen löytämiseen useiden sekvenssien joukosta yhtäaikaisesti. Pisimmät ihmisen tunnetut ja varmistetut transkriptiofaktoreiden sitoutumis- 26 Promoottorianalyysi 279 kohdat sijaitsevat noin 3,5 kb:ä geenistä ylävirtaan. Hiivalla promoottorialueet ovat puolestaan noin 500 bp:ä pitkiä. Vaikka analyysi kohdennetaan näinkin lyhyisiin sekvensseihin, on tuloksena luultavasti suuri määrä satunnaisia osumia oikeiden sitoutumiskohtien lisäksi. Satunnaisia osumia pyritään poistamaan tuloksista käyttäen apuna DNA-sirutuloksia, fylogeneettisiä jalanjälkiä ja transkriptiotekijöiden säätelykohtien niputtamista moduleiksi. 26.3 Promoottorisekvenssin hankkiminen Promoottorisekvenssien hankkiminen nisäkkäille onnistuu yleenä, varsinkin mallieliöille, suoraan jotakin genomitietokantaa käyttäen. Sekvenssien hankkiminen ei kuitenkaan useinkaan ole niin yksinkertaista, että suunnattaisiin tietokantaan, ja valittaisiin sieltä haluttua geeniä vastaava promoottorisekvenssi. Nisäkkäiden geeneissä nimittäin esiintyy varsin mittavaa vaihtoehtoista silmukointia, erityisesti geenien ensimmäisissä eksoneissa, mikä hankaloittaa oikean promoottorialueen valitsemista: Jos tietokannasta löytyy useampia promoottorisekvenssejä, jotka vastaavat eri transkriptiomuodoista, niin mikä niistä valitaan? Kasveilla vaihtoehtoinen silmukointi on huomattavasti harvinaisempaa, joten ongelma ei ole yhtä korostunut. Valintaa hankaloittaa vaihtoehtoisen silmukoinnin lisäksi kuitenkin myös vaihtoehtoisten promoottorien tai transkription aloituskohtien käyttö. Vaihtoehtoista promoottorinkäyttöä on tietokoneistetusti miltei mahdotonta erottaa vaihtoehtoisesti silmukoinnista. Tietokannoissa oleviin sekvensseihinkään ei kannata luottaa sokeasti. Esimerkiksi Ensembl-tietokanta tuottaa usein samalle geenille useampia promoottorisekvenssejä, vaikka tiedetään, ettei geenissä esiinny vaihtoehtoista silmukointia tai muitakaan vastaavia variantteja. Tämä johtuu tietokannan normalisoinnissa käytetystä menetelmästä, joka listaa saman geenin tietokantaan kahteen kertaan, jos sen eri lähteistä saaduissa annotaatiotiedoissa on pienikin ero. Sama geeni voi siis esiintyä tietokannassa kahdella hieman eri annotaatiolla, eikä tämä edes välttämättä näy käyttäjälle! Siksi Ensembl-tietokannasta haettuja promoottorisekvenssejä ei voi suoraan käyttää esimerkiksi Gibbsin otannassa sitoutumiskohtien löytämiseksi, sillä useammat tismalleen samanlaiset sekvenssit vaikuttavat menetelmän antamiin tuloksiin. Yleisesti ottaen RefSeq:iä pidetään varsin luotettavana tietokantana, mutta arviolta jopa 20-25%:sta siihen sijoitetuista lähetti-RNA-sekvensseistä puuttuu osa 5’-päästä. Tämä vaikuttaa promoottorialueen määrittämiseen sikäli, ettei transkription aloituspaikkaa saada tarkkaan määritettyä, jos mRNA-sekvenssin alusta puuttuu pätkä. Ongelma johtuu käytetyistä laboratoriomenetelmistä, joissa RNAaasi-entsyymi on mahdollisesti päässyt pilkkomaan mRNA:ta eristyksen aikana. Entsyymi pilkkoo mRNA-molekyylejä 5’-päästä alkaen, joten ongelma kohdistuu juuri siihen. Toinen vaihtoehto on, että tällaiset mRNA-sekvenssit ovat syntyneet, kun käänteistranskriptaasi-entsyymi ei ole kääntänyt mRNA:ta koknaisuudessa cDNA:ksi ennen sekvensointia. Miksi sitten oikean transkriptionaloituskohdan tunnistaminen on niin tärkeää? Jos analyysiin ottaa mukaan hieman ylimääräistä sekvenssiä geenin ensimmäisestä eksonista, ei TSS:n paikallistaminen nukleotidin tarkkuudella välttämättä olekaan kynnyskysymys. Toisaalta tällaisen lisäsekvenssimateriaalin ottaminen analyysiin lisää väärien positiivisten määrää sitoutumiskohtia tunnistettaessa. On myös mahdollista syötää pelkkää roskaa analyysiinsä. Jos untranslated region (UTR), joka sijaitsee transkription aloituskohdan ja translaation aloistukohtien välissä on pitkä, ja TSS:n sijainti on määritetty väärin, voi olla, että analyysiin tulee syötettyä pelkkää UTR-sekvenssiä, joka antaa sekä vääriä tuloksia että vääristää tuloksia muiden sekvenssien osalta. 280 26.4 Bioinformatiikan perusteet Tunnettujen transkriptiofaktoreiden sitoutumiskohtien esittäminen ja etsiminen Transkriptiofaktoreiden sitoumiskohdat esitetään usein esimerkiksi painoarvomatriiseina tai sekvenssilogoina (Kuva 26.1). Painoarvomatriisi ilmoittaa kuinka monta kertaa kukin nukleotidi esiintyy kussakin sitoumiskohdan paikassa. Painoarvomatriisi voidaan muodostaa usean sekvenssin rinnastuksen perusteella. Painoarvomatriisi voidaan edelleen muuttaa PSSM-matriisiksi lisäämällä matriisiin pseudohavaintoja. Niiden tarkoituksena on laajentaa matriisin tunnistamien sitoumiskohtien kirjoa. Lisäksi PSSM-matriisia otetaan huomioon nukleotidien runsaussuhteet taustasekvensseissä. Taustasekvensseinä voivat toimia esimerkiksi toisten geenien promoottorialueet tai muut sekvenssit, joissa sitoutumiskohdan ei oleteta esiintyvän. Lopuksi näin saaduista lukuarvoista otetaan kaksikantainen logaritmi, ja PSSMmatriisi on pääpiirteissään valmis (Kuva 26.2). PSSM-matriisi voidaan esittää sekvenssilogona, jossa kunkin sarakkeen korkeus ilmoittaa sen informatiivisuuden bitteinä (siis käytetään kaksikantaista logaritmia). Nukleotidisekvensseille suurin mahdollinen informatiivisuuden arvo on 2. PSSM-matriisien ja sekvenssilogojen muodostaminen on esitetty tarkemmin luvussa "Paikalliset rinnastukset usean sekvenssin rinnastuksissa". Kuva 26.1: Transkriptiofaktorin sitoutumiskohdan esittäminen. Tässä on kuvattu TATA-box painoarvomatriisin ja sekvenssilogon avulla. Painoarvomatriisi voidaan muuttaa PSSM-matriisiksi, jota voidaan sitten käyttää sitoumiskohdan etsimiseen sekvensseistä. Kuva: Eija Korpelainen. Sitoutumiskohtien etsiminen matriiseja käyttäen tapahtuu kuten PSSM-matriisien tapauksessa on tarkemmin esitetty luvussa "Paikalliset rinnastukset usean sekvenssin rinnastuksissa". Lyhyesti, matriisia liutetaan sekvenssiä pitkin, ja kullekin "ikkunalle"lasketaan matriisia käyttäen pistemäärä. Jos pistemäärä ylittää tietyn rajaarvon, katsotaan, että sitoutumiskohta sijaitsee sillä kohdalla sekvenssiä. Matriisit toimivat tunnettujen sitoumiskohtien hauissa varsin hyvin. Sattumalta transkriptiofaktoreiden sitoutumiskohtia esiintyy sekvensseissä noin 400 bp:n 26 Promoottorianalyysi 281 Kuva 26.2: Transkriptiofaktorin sitoumiskohtaa kuvaavan PSSM-matriisin muodostaminen ja sen käyttäminen sitoumiskohtien tunnistamiseen. Kun muodostettua matriisia liutetaan uutta sekvenssiä kohden, havaitaan kohta, joka saa hyvin korkean pistemäärän (5.2), ja todetaan, että sitoutumiskohta sijaitsee todennäköisesti siinä. Kuva: Eija Korpelainen, muokattu Wyeth Wassermanin alkuperäisestä matriisiesityksestä. välein. Matriisit ovatkin hyvin sensitiivisiä eli ne löytävät kyllä kaikki oikeat sitoutumiskohdat, mutta myös suuren osan kohdista, joihin transkriptiofaktori ei oikeasti sitoudu (spesifisyys on huono). Liki 100% ennustetuista sitoutumiskohdista ei ole biologisesti aktiivisia, sillä esimerkiksi kromatiinirakenne estää niiden toiminnan. 26.5 Miten parantaa haun spesifisyyttä? Tunnettujen transkriptiofaktoreiden sitoutumiskohtien löytämiseen tähtäävän analyysin spesifisyyttä voidaan parantaa monin tavoin. Pääasialliset menetelmät ovat DNA-sirutulosten hyväksikäyttö, fylogeneettiet jalanjäljet ja modulien muodostaminen. 26.5.1 DNA-sirutulokset DNA-sirutulosten perusteella voidaan valikoida sellainen geenijoukko, joka esimerkiksi aikasarjassa käyttäytyy hyvin samalla tavoin, ja sijoittuu ryhmittelyanalyysissä samaan ryhmään (Kuva 26.3). Tällaisten geenien voidaan olettaa toimivan samassa biologisessa verkossa, esimerkiksi glukoosin aineenvaihdunnassa tai solusyklin säätelyssä. Jos geenit toimivat yhdessä, ovat ne usein myös yhteissäädeltyjä, eli niiden promoottorialueilla on useinkin samojen transkriptiofaktoreiden sitoutumiskohtia. Koska analysoitava on pienempi geenijoukko, jolla voidaan lisäksi olettaa olevan samaan tehtävään liittyvä biologinen funktio, löytyy niistä tavanomaista todennäköisemmin myös samojen transkriptiotekijöiden sitoutumiskohtia. Niinpä väärien positiivisten tulosten määrä on tavanomaista hakua huomattavasti vähäisempi. 26.5.2 Fylogeneettiset jalanjäljet Fylogeneettisten jalajälkien käyttö väärien positiivisten löydösten poistamiseen perustuu havaintoon, että säätelyalueet tapaavat olla evolutiivisesti konservoituneita. Säätelyalueille osuu siis tavanomaista vähemmän evolutiivisia muutoksia, olivat ne sitten insertioita, deleetioita tai pistemutaatioita. Fylogeneettinen jalanjälki tarkoittaa yksinkertaisesti sitä, että rinnastettaessa eri lajeista ortologiset sekvenssit, ne alueet, jotka ovat kaikkein konservoituneimpia, sisältävät usein geenin säätelytekijöiden sitoutumiskohdat. Rinnatusta muodostettaessa on käytettävä lajeja, joiden välillä on riittävän suuri evolutiivinen etäisyys. Esimerkiksi ihmisen ja simpanssi välinen rinnastus ei toimi, sillä liki koko promoottorialue on mainituilla lajeil- 282 Bioinformatiikan perusteet Kuva 26.3: Hiiva jakaantuu optimioloissa noin 80:s minuutti. Pienet kuvat on otettu hiivaviljelmästä mainittuina ajanhetkinä, ja hivan geenien ekspressiota on seurattu samanaikaisesti. Suureen kuvaan on piirretty analyysissä samaan ryhmään sijoittuvien geenien ekspressio ajan funktiona. Ekspressiossa näkyy selkeä piikki 80 minuutin välein, joten geenit saattavat liittyä solusyklin säätelyyn tai DNA:n aineenvaihduntaa. Analysoitaessa geenien promoottorialueita, löydettiin erään transkriptiofaktorin sitoutumiskohta (ACGCG) liki kaikista analysoiduista geeneistä. Transkriptiofaktori säätelee hiivassa erityisesti solusykliin liittyvien geenien ekspressiota. la hyvin samanlainen. Useimmiten käytetäänkin esimerkiksi toista nisäkästä, kuten ihmisen parina hiirtä. Tämä 70-80 miljoonan vuoden ero paljastaa jo useimmat säätelyalueet (Kuva 26.4). Koodaavien sekvenssien konservoitumista tutkittaessa, voidaan hiiren sijasta käyttää esimerkiksi pallokalaa, sillä koodaavat alueet ovat usein vielä säätelyalueitakin konservoituneempia. Muodostettaessa sekvenssirinnastusta jalanjälkianalyysiä varten, on pohdittavat, käyttääkö paikallista vai kokonaisrinnastusta. Kokonaisrinnastus olettaa, että samankaltaiset alueet sekvensseissä sijaitsevat suunnilleen samoilla kohdin ja ainakin samassa järjestyksessä. Hiiren ja ihmisen välillä syntenia (konservoituneet samanlaiset alueet) kattaa kerrallaan vain noin 8Mbp:ä. Paikallinen rinnastus ei löydä heikosti konservoituneita alueita samalla tehokkuudella kuin kokonaisrinnastus, mutta transkriptiofaktoreiden sitoutumiskohdat muuttavat usein järjestystään evoluutiossa. Tällaisia uudelleenjärjestelyitä ei pysty selvittämään kokonaisrinnastuksin. Menetelmät siis tukevat toisiaan, joskin kokonaisrinnastus lienee nykyisin paikallista suositumpi jalanjälkien hahmottamisessa. 26.5.3 Modulit Modulien muodostaminen perustuu siihen biologiseen tosiseikkaan, etteivät yksittäiset transkriptiofaktorit suinkaan toimi yksinään vain moduleina, transkriptiofaktoreiden ryppäinä (Kuva 26.5). Siten myös sitoutumiskohtien voidaan olettaa rypästyvän, tai sijaitsevan esimerkiksi samassa järjestyksessä ja samalla etäisyydellä toisistaan samalla tavalla säädellyissä geeneissä. Modulien muodostaminen vaatii huomattavaa biologista tietämystä, sillä ana- 26 Promoottorianalyysi 283 Kuva 26.4: Fylogeneettisen jalanjäljen käyttö konservoituneiden säätelyalueiden löytämiseksi. Kuvassa on verrattu hiiren ja ihmisen sekvenssejä toisiinsa. Kuvan ylälaidassa oleva sahalaita, jonka piikit juoksevat vasemmalle, osoittaa geenin lukusuunnan. Kuvan keskellä olevat värilliset palkit kuvaavat geenin eri alueita: sininen, eksoni; vaaleanpunainen, introni; keltainen, UTR; punainen, säätelyalue; harmaa/vihreä, toistojaksot. Hiiren ja ihmisen vertailussa paljastuu mahdollisesti säätelyalueita vastaavaa konservoitunutta aluetta geenin ylä- ja alavirtaan. lyysiä tehtäessä on tiedettävä tai osattava arvata, mitkä sitoutumiskohdat voisivat analysoitavalle sekvenssille tai sekvenssijoukolle tulla kyseeseen. Tällä hetkellä tunnetaan parhaiten maksan ja luurankolihasten moduleita, ja muita huomattavasti heikommin. Moduleiden muodostamisessa ei ainakaan vielä voida käyttää apuna tietoa eri transkriptiofaktoreiden välisistä etäisyyksistä, koska tietoa on liian vähän. Tiedämme kuitenkin, että monet transkriptiofaktorit vuorovaikuttavat fyysisesti, joten niiden sitoutumiskohtien välimatkojen täytyy pysyä jokseenkin vakioina, sillä muutoin tämä vuorovaikutus estyisi. 26.6 Tuntemattomien sitoutumiskohtien etsiminen Transkriptiofaktoreiden tuntemattomien sitoutumiskohtien paikallistamiseen käytetään useimmiten Gibbsin otantaan tai EM-algoritmiin perustuvia menetelmiä, jotka on kuvattu tarkemmin luvussa "Paikalliset rinnastukset usean sekvenssin rinnastuksissa". Menetelmiä käytettäessä tulee muistaa, että ne tuottavat käytännössä aina jonkinlaisen tuloksen, oli sekvensseillä yhteisiä piirteitä tai ei. Lisäksi esimerkiksi toistojaksot vaikuttavat analyysiin haitallisesti, sillä ne saavat usein analyysissä korkean merkitsevyystason, ja peittävät alleen vähemmät merkitsevät mutta biologisesti mielenkiintoisemmat tulokset. Onkin hyvä ajatus poistaa toistojaksot sekvensseistä ennen analyysiä. Menetelmiä on sovellettu erityisesti DNA-sirutulosten yhteydessä, ja jotkin menetelmät yhtäaikaisesti sekä luokittelevat geenit ekspressionsa mukaan että etsivät samaan ryhmäänsijoitetuista geeneistä mahdollisia transkriptiofaktoreiden sitoutumiskohtia. Tällaiset menetelmät näyttävät saavuttavan parempia tuloksia kuin lähestymistavat, joissa geenien ryhmittely ja sitoutumiskohtien etsiminen on ero- 284 Bioinformatiikan perusteet Kuva 26.5: Ihmisen geenin säätelyalueelta löytynyt transkriptiofaktoreiden sitoutumiskohtien muodostama moduli. Koska geeni on RNA-polymeraasi II:n transkriboima geeni, on oikea säätelykohdat sisältävä juoste tässä tapauksessa -, sillä siitä löytyi myös TATAsekvenssi, jonka avulla polymeraasi tietää mistä aloittaa transkriptio. TATA:n lisäksi moduuliin kuuluu tässä tapauksessa viisi muutakin sitoutumiskohtaa. tettu toisistaan. Erityisesti hiivalla menetelmät ovat tuottaneet mielenkiintoisia tuloksia, mutta ihmisen promoottorialueiden suurempi koko on haitannut niiden tehokasta analysointia ilmentymisdataa apuna käyttäen (Wasserman, 2003). Usein on tarkoituksenmukaista varmistaa, vastaavatko löydetyt sekvensseille yhteiset piirteet joitakin jo tunnettuna transkriptiotekijöiden sitoutumiskohtia (Hughes, 2000). Useimmiten ainakin osa vastaa jo tunnettuja transkriptiotekijöitä, ja tarvittaessa jatkotutkimukset voidaan kohdistaa uusiin, ennalta tuntemattomiin sitoutumiskohtiin. Yhteisiä piirteitä etsivien menetelmien sensitiivisyys on usein varsin alhainen, johtuen siitä, että lyhyet yhteiset sekvenssipätkät hukkuvat pitkiin sekvensseihin. Haut ovatkin parhaimmillaan, jos niissä voidaan käyttää lyhyitä sekvenssejä (reilusti alle 500 bp), mutta tällöin on vaarana, että menetelmät löytävät paljon vääriä positiivisia osumia. Tuntemattomia sitoutumiskohtia etsittäessä on usein pohdittava, mitä sekvessijoukkoa vastaan haluamme sitoutumiskohtia etsiä. Menetelmissä nimittäin usein käytetään kontrollisekvenssijoukkoa, jonka perusteella arvioidaan esimerkiksi löydettyjen sitoutumiskohtien tilastollinen merkitsevyys. Yleisimmin kontrolleina käytetään samasta lajista peräisin olevia geenisekvenssejä, joissa ei ole mukana promoottorialueita, kaikkien muiden paitsi analysoitavien geenien promoottorialueita tai satunnaismallilla tuotettuja sekvenssejä, joilla on sama GC% kuin analysoi- 26 Promoottorianalyysi 285 tavilla sekvensseillä. Saadut tulokset ja sitoutumiskohdille määritetyt tilastolliset merkitsevyysarvot ovat aina suhteessa käytettyyn kontrollisekvenssijoukkoon. Jos kontrollijoukko on jotenkin hassusti valittu, voivat tuloksetkin olla pahasti pielessä ja töysin epäluotettavia. Eri menetelmin saaduista tutkimuksista on tehty vertailevia tutkimuksia, ja viimeisimmässä vertailussa (Tompa, 2005) EM-algoritmiin perustuva MEME-ohjelma saavutti keskimääräisen tuloksen, jos tulosta mitataan sillä, kuinka hyvin ohjelma kykeni erottelemaan oikeat transkriptiofaktoreiden sitoutumiskohdat vääristä. Vertailussa parhaaseen tulokseen ylsi Weeder-ohjelma (Pavesi, 2004), joka on eräänlainen konsensusmenetelmä, jossa määritetään kaikkien korkeintaan määrämittaisten oligoiden esiintyminen sekvensseissä. Vertaamalla tuloksia kaikkiin saman eliön geenien promoottorialueisiin, voidaan päätellä, mitkä löydetyt oligot mahdollisesti vastaavat sitoutumiskohtia. Erityisesti ihmisen ja hiivan geenien tapauksessa ero MEME:een muodostui suureksi. Tulosten perusteella kannattanee jatkossa käyttää MEMEn sijasta ennemmin Weederiä, jos mahdollista, sillä menetelmän käyttö rajoittuu lähinnä genomiprojekteissa sekvensoitaviin tai sekvensoituihin aitotumallisiin. 26.7 Yhteisten piirteiden etsinnän sensitiivisyyden parantaminen Tuntemattomien sitoutumiskohtien tunnistamisessa voidaan käyttää sensitiivisyyden parantamiseen osittain samoja menetelmiä kuin jo tunnettujen sitoutmiskohtien kanssa. Esimerkiksi laji-laji-vertailuilla on mahdollista poistaa suuri osa epäspesifisistä tuloksista, joten niiden käyttöä kannattaa ainakin harkita, jos se vain on mahdollista. Joissakin ohjelmistoissa on mahdollista soveltaa bayesilaisia menetelmiä sikäli, että sitoutumiskohdalle voidaan esimerkiksi määritellä ikäänkuin muoto sitä vastaavassa sekvenssilogossa. Monet transkriptiofaktorien sitoutumiskohdat ovat sellaisia, että niiden keskimmäiset nukleotidit ovat parhaiten konservoituneita, ja reunoilla sijaitsevat nukleotidit hieman vähemmän konservoituneita. Tämä aiheuttaa monesti logoissa nähtävän kellokäyrän muotoisen informaatiojakauman. Bayesilaisia menetelmiä soveltavissa ohjelmistoissa tätä tietoa voidaan käyttää hyväksi priori-jakauman muodossa. Priori-jakauma muodostetaan lisäämällä sitoutumiskohtaa vastaavaan PSSM-matriisiin haun kuluessa pseudohavaintoja siten, että matriisi muodostuu sopivalla tavalla vinoutuneeksi. 286 Bioinformatiikan perusteet 27 DNA-siruanalyysi 27.1 Mitä DNA-sirut ovat? Perinteisesti geenien ekspressiota on tutkittu Northern blot -menetelmällä, jossa usemmasta näytteestä on samanaikaisesti määritetty yhden geenien ilmentymistaso. Northern blot -menetelmässä agarooligeelillä erotellaan soluista eristetyt eri mittaiset lähetti-RNA pätkät toisistaan, ja tunnistetaan haluttu lähetti-RNA DNAkoettimella. DNA-sirutekniikka kääntää tämän perinteisen menetelmän päälaelleen. DNA-siruille kyetään nimittäin tutkimaan useiden tuhansien, jopa useiden kymmenien tuhansien geenien ilmentymistä yhtäaikaisesti mutta vain yhdestä näytteestä. Kun Northern blot -menetelmässä geenit tunnistavat lyhyet DNA-pätkät (koettimet) olivat vapaana hybridisaatioliuoksessa, on ne DNA-sirutekniikassa kiinnitetty jollekin alustalle, kuten mikroskooppilasille. Tällä saavutetaan se hyöty, että hyvin pienelle pinta-alalle voidaan helposti kiinnittää tuhansia erilaisia koettimia, eivätkä ne mene keskenään sekaisin. Geenien ilmentymisen lisäksi sopivalla tavalla suunnitelluilla DNA-siruilla voidaan analysoida SNP:itä (single nucleotide polymorphisms) tai jopa sekvensoida tunnettuja geenialueita uudelleen. Tässä kuvataan kuitenkin vain sirujen käyttöä ekspressioanalyysin yhteydessä. 27.2 DNA-sirujen valmistus DNA-sirujen valmistukseen käytetään pääasiassa kolmea erilaista menetelmää. Useimmiten laboratorioiden itse valmistaessa siruja käytetään menetelmää, jossa robotti painelee neuloilla mikroskooppilaseille pieniä määriä koettimia. Koettimet jäävät lasilevyn pinnalle niin sanotuiksi spoteiksi tai täpliksi, joista kukin on suunniteltu sitoutumaan yhteen lähetti-RNA-mnolekyyliin. Koettimet ovat yleensä tavallisia DNA-pätkiä, pituudeltaan muutamia satoja nukleotideja. Neulojen käytön sijaan siruja voidaan myös tuottaa piezo-sähköön perustuvalla menetelmällä, jossa robotti toimii kuin mustesuihkutulostin: koettimet ruiskutetaan lasille halutuille kohdin pienen pieninä pisaroina. Affymetrix, joka on kehittänyt toisenlaisen DNA-sirumenetelmän, kiinnittää koettimet lasilevyjen sijaan piilevyille. Sirut valmistetaan hieman samaan tapaan kuin tietokoneiden mikropiirit, fotolitografisesti. Fotolitografiassa tietyt sirun osan altistetaan valolle, jonka vaikutuksesta erikoisvalmisteiset nukleotidit saadaan sitoutumaan vain tietyille, tarkkaan rajatuille kohdin sirua. Kun sirua altistetaan sopivilta kohdin vuorotellen erilaisille nukleotideille ja valolle, saadaan lopulta syntetisoitua lyhyitä, 21bp:n mittaisia koettimia. Pidempiäkin koettimia voitaisiin syntetisoida, mutta niihin kertyy syntisoinnin aikana enemmän virheitä kuin lyhyisiin, eivätkä ne siten enää välttämättä ole yhtä spesifisiä. 27 DNA-siruanalyysi 27.3 287 DNA-sirujen käyttäminen DNA-siruilla tutkitaan pääasiassa geenien ilmentymistä kudoksissa (Kuva 27.1). Ilmentyessään geeni aluksi käännetään lähetti-RNA:ksi, joka DNA-siruja käytettäessä eristetään näytteistä. Näytteet voivat olla erimerkiksi kokonaisia eliöitä, niiden kudosten tai solukoiden osia tai solulinjoja. Eristetty RNA käännetään cDNA:ksi. RNA:sta kopioimalla saatua DNA:ta kutsutaan cDNA (complementary DNA), eivätkä esimerkiksi nisäkässolut osaa sitä itse valmistaa. Sen sijaan koeputkessa cDNA:ta osataan tehdä. Samanaikaisesti cDNA:ksi kääntämisen kanssa tai sen jälkeen näyte leimataan fluoresoivalla väriaineella. Leimaamisen jälkeen näyte hybridisoidaan sirulle, ylimääräinen näyte pestään pois, siru kuivataan ja skannataan. Skannauksessa sirusta luodaan digitaalinen kuva, jonka käsittely jatkuu yksinomaan tietokoneympäristössä. Edellä mainitut cDNA- ja Affymetrix-siru eroavat toisistaan siinä, miten leimaus ja hybridisaatio suoritetaan. cDNA-sirujen tapauksessa leimataan yleensä kaksi näytettä, yksi tutkimusnäyte ja sille valittu verrokki. Nämä näytteet käsitellään muuten identtisesti, mutta leimataan eri värein, toinen yleensä Cy3-värillä (punainen), ja toinen Cy5-värillä (vihreä). Ne hybridisoidaan yhtäaikaa samalle sirulle, jossa ne kilpailevat sitoutumisestaan kuhunkin koettimeen. Affymetrix-sirujen tapauksessa leimataan vain yksi ainoa näyte yhdellä värillä, ja kullekin sirulle hybridisoidaan vain yksi näyte. Niinpä cDNA-sirujen tuottamia tuloksia kutsutaan kaksiväridataksi, Affymetrix-sirujen tuloksia yksiväridataksi. Sirusta tuotettu kuva analysoidaan tietokoneella kuvankäsittelyohjelmaa käyttäen. cDNA-sirujen tapauksessa kuvia (mustvalkoisia) on yleensä kaksi, toinen vihreälle värille ja toinen punaiselle. Käyttäjälle kuitenkin yleensä näytetään vain väärävärikuva, joka on luotu näistä erillisistä väreistä tietokoneella. Tällaisessa väärävärikuvassa yksittäiset geenejä vastaavat täplät sirulla näyttäytyvät vihreän, punaisen ja keltaisen eri sävyissä. Punaiset geenit ovat ilmentyneet enemmän Cy3leimatussa näytteessä kuin Cy5-leimatussa näytteessä. Vihreät geenit ovat toimineet päinvastoin. Keltaiset täplät kielivät siitä, että geeni on ilmentynyt suunnilleen yhtä voimakkasti kummassakin näytteessä. Kuva-analyysi ohjelmisto etsii sirulla olevat täplät, ja lukee niiden fluoresoivan värin intensiteetin kummallakin värillä (toisinaan puhutaan myös kanavista). Lisäksi kullekin täplälle yleensä ilmoitetaan myös taustan intensiteetti, joka on laskettu täplää ympäröiviltä alueilta. Näin muodostuu jatkoanalyyseissä käytettävä data, jossa kutakin sirua yleensä vastaa yksi tabulaattorein eroteltu tekstitiedosto. Tiedostossa kukin rivi vastaa yhtä geeniä, ja sarakkeet sisältävät erilaista tietoa. Tiedostossa voi olla rivejä, jotka kertovat, onko täplän antama tulos luotettava vai ei. Jos tällaisia arvoja määrätään täplille käsin, kutsutaan niitä yleensä nimellä flag (Kuva 27.1). Huonoa täplää merkitsevän falgin täplä voi saada esimerkiksi jos sen muoto ei ole pyöreä tai se on muuten epämuodostunut (violetilla värillä peitetyt täplät Kuvassa 27.1). Affymetrix-sirujen tapauksessa kuva-analyysi etenee pääpiirteissään samallatavalla kuin cDNA-siruilla. Suurin ero cDNA-siruihin on geenikohtaisten ilmentymiarvojen laskeminen. Affymetrix-siruilla nimittäin kutakin geeniä vastaa 1120 koetinparia (Kuva27.2). Jokainen näistä koetimistä on 21 bp:ä pitkä. Perfect match (PM) koettimet on suunniteltu sitoutumaan täydellisesti kohde-lähetti-RNAmolekyyliin. Mismatch (MM) -koettimissa on keskellä yhden nukleotidin huti, ja niillä avulla pyritään selvittämään, kuinka suurta on PM-koettimien ristireagoivuus muiden, ei-kohde-RNA-molekyylien kanssa. Geenin ilmenstymisarvo, joka vastaa cDNA-siruilla yhden kanavan intensiteettiarvoa lasketaan vähentämällä PMja MM-koettimien intensiteettiarvot toisistaan pareittain. Näin saaduista arvoista suurin ja pienin tiputetaan pois, ja lopuista lasketaan summa, jota sitten käytetään geenin ilmentymisen arviona. 288 Bioinformatiikan perusteet Kuva 27.1: Esimerkki cDNA-sirun analyysistä. Esimerkissä vertaillaan kahden hiiren, valkoisen ja harmaan geeniekspressiota. Lopputuloksena on tekstimuotoinen tiedosto, jota käytetään tilastollisissa analyyseissä eri hiirien välillä ilmentymiseltään eroavien geenien löytämiseksi. 27 DNA-siruanalyysi 289 Kuva 27.2: Affymetrix-sirujen periaate. Yhtä geeniä vastaa useampi PM-koetin ja MMkoetin. Näiden intensiteettien erotusten summana saadaan arvio geenin ilmentymisestä tutkittavassa näytteessä. 27.4 Data-analyysi Kun kutakin sirua vastaava tekstitiedosto on saatu tuotettua, ovat jatkoanalyysivaiheet varsin tilastotieteellisesti painottuneita. Seuraavassa esitellään muutamia yleisimpiä analyysivaiheita, muttei lähdetä käymään läpi analyysien taustalla olevaa teoriaa sen syvällisemmin. 27.4.1 Koesuunnittelu Koesuunnitteluun pitäisi uhrata aikaa jo ennen varsinaisen kokeen suorittamista. Koesuunnittelulla tarkoitetaan koeasetelman pohtimista ja siihen liittyvien päätöksien tekemistä. Huono koesuunnittelu voi myöhemmissä vaiheissa pilata myös analyysin. Koesuunnittelu voidaan aloittaa pohtimalla kumpaa menetelmää, cDNAsiruja vai Affymetrix-siruja kannattaisi käyttää. Molemmissa on puolensa, mutta cDNA-sirut soveltuvat erityisen hyvin sellaisiin tapauksiin, joissa kaikki näytteitä verrataan yhten verrokkinäytteeseen. Esimerkiksi, jos pyritään selvittämään, miten nisäkässoluviljelmä reagoi ajan kuluessa lipopolysakkaridi (LPS) -käsittelyyn, ja eri ajanhetkiä verrataan aikapisteeseen nolla, jolloin LPS:ää oli juuri lisätty viljelmiin, cDNA-sirut soveltuisivat tutkimukseen hyvin. Tällöin kullekin sirulle hybridisoitaisiin näyte kustakin aikapisteestä sekä nollannesta aikapisteestä. Affymetrixsirut puolestaan soveltuvat tapauksiin, joissa ei ole olemassa yksikäsitteistä verrokkia. Jos esimerkiksi haluttaisiin vertailla eri leukemiatyyppejä, voitaisiin hyvin soveltaa Affymetrix-siruja. Kullekin sirulle hybridisoitaisiin sitten yksi näyte jostakin syöpätyypistä. Koesuunnittelussa on otettava myös huomioon tarvittavien toistojen lukumäärä. Jos vertaillaan vaikkapa kahden eri bakteerin LPS:n vaikutusta samoihin nisäkässoluihin, ei vielä päästä kovin luotettaviin tuloksiin, jos bakteeria kohden tehdään vain yksi siru. Sirujen antamissa tuloksissa on nimittäin paljon teknisistä syistä johtuvaa vaihtelua, ja jos toistoja ei ole, ei voida tietää, onko havaittu ero biologisesti mielenkiintoista vain johtuuko se vain koeteknisistä, satunnaisista syistä. Koska satunnaisia syitä voidaan hallita tilastotieteellisin menetelmin, on syytä tehdä koesarjassaan toistoja. Esimerkiksi, jos vertaillaan eri bakteerien vaikutusta nisäkässoluihin, on pienin suositeltava toistojen määrä kolme: kahdesta ei voida kovin mielekkäästi laskea tilastollisten menetelmien tarvitsemia arvoja, kuten 290 Bioinformatiikan perusteet keskihajontaa. Jos sen sijaan vertailtaisiin vaikkapa eri leukemiatyyppejä, riittäisi varmasti yksi näyte kustakin henkilöstä, olettaen että henkilöitä on riittävän monta. Tällaisessa tutkimuksessahan ei yleensä olla kiinnostuttu yksilöiden välisistä eroista, vaan nimenomaan syöpätyyppien eroista. Niinpä eri henkilöiden voidaan katsoa edustavan toistoja kustakin syöpätyypistä, jolloin yksi näyte kustakin henkilöstä antaa riittävästi tietoa jatkoanalyysejä ajatellen. Toistojen käytöstä on myös se hyöty, että jos yksi hybridisaatio tai siru jostakin syystä menee pieleen, on jäljellä kuitenkin edes jonkin verran informaatiota, josta voidaan saada mielekkäistä tuloksia. Jos esimerkiksi kummastakin bakteerikäsittelystä olisi tehty vain yksi ainoa siru, ja kuva-analyysivaiheessa havaittaisiin, että toinen on tuhoutunut, vaikkapa siksi, että punainen kynä, jolla sirut merkittiin, on tuhrinut koko sirun, menetettäisiin koko koe, ja se jouduttaisiin toistamaan laboratoriossa alusta alkaen uudelleen. Jos sen sijaan kummastakin käsittelyistä olisi toistoja, ei yhden sirun menettäminen olisi yhtä kohtalokasta. 27.4.2 Esikäsittely Ennen aineiston varsinaista analyysiä, aineisto läpikäy yleensä muutamia esikäsittelyvaiheita, joiden tarkoituksena on saattaa aineisto analysoitavaan muotoon ja poistaa siitä mahdollisia koeteknisistä syistä johtuvia virheitä. Ensimmäisenä esikäsittelyvaiheena cDNA-siruille on yleensä taustan poisto, mikä tarkoittaa sitä, että kutakin geeniä kohden vihreän ja punaisen värin intensiteeteistä vähennetään niille määritellyn taustan intensiteetti. Näin saaduista taustakorjatuista intensiteettiarvoista lasketaan suhdeluku jakamalla yleensä punaisen värin intensiteetti vihreän värin intensiteetillä. Tätä suhdelukua kutsutaan intensiteettisuhteeksi. Periaatteessa intensiteettisuhdetta voitaisiin käyttää jo jatkoanalyyseissä, mutta monet jatkoanalyysimenetelmät olettavat analysoitavan aineiston olevan normaalisti jakautunut. Siksi intensiteettisuhdetta vielä muunnetaan matemaattisesti, jotta jakaumasta saataisiin normaalinen. Useimmiten käytetään log 2 muunnosta, mikä tarkoittaa sitä, että kustakin intensiteettisuhteen arvosta otetaan kaksikantainen logaritmi. Muodostuvaa muunnettua suhdelukua kutsutaan logsuhteeksi (Kuva 27.3), ja sitä voidaan käyttää jatkoanalyyseissä. Mainittuja esikäsittelyvaiheita seuraa yleensä normalisointi, mikä tarkoittaa sitä, että aineistosta poistetaan laboratorioteknisistä syistä johtuvia systemaattisia virheitä sekä saatetaan eri sirut keskenään vertailukelpoisiksi. cDNA-sirujen tapauksessa sattuu usein niin, että Cy3- ja Cy5-värit sitoutuvat näytteeseen eri voimakkuuksilla. Jos oletetaan, että suurin osa geeneistä ei lainkaan muutu ekspressioltaan eli ne ilmentyvät yhtä tehokkaasti sekä punaisella etä vihreällä värillä leimatuissa näytteissä, pitäisi hajontakuvioon merkittyjen pisteiden sattua suunnilleen hajontakuvion halkaisijalle (Kuva 27.4). Jollei näin tapahdu, tulee aineistoa muuntaa siten, että tämä oletus toteutuu (Kuva 27.4). Käytännössä toisen värin intensiteettiarvoihin lisätään sopiva luku siten, että värien keskimääräiseksi intensiteetiksi tulee sama luku. Tällöin myös värien suhdelukujen keskiarvoksi tulee yksi (logsuhteen keskiarvoksi 0). Kun kaikki sirut on normalisoitu esimerkiksi kuvatulla tavalla, ovat ne keskenään vertailukelpoisia, ja varsinainen analyysi voidaan aloittaa. Affymetrix-sirujen esikäsittely eroaa cDNA-sirujen esikäsittelystä sikäli, että niille ei voida laskea intensiteettisuhdetta, jollei koesarjassa ole mukana jotakin vertailupistettä. Niinpä saatua lukuarvoa käytetäänkin useimmiten suoraan geenin ekspression mittana. Affymetrix-sirujen normalisoinnissa on myös pieniä eroja cDNA-sirujen normalisointiin verrattuna. Affymetrix-sirut normalisoidaan usein suoraviivaisesti lisäämällä tai vähentämällä tietty lukuarvo kunkin sirun intensiteettiarvoista siten, että kaikkien sirujen keskiarvo saadaan säädettyä samaksi. Tällöin sirut tulevat keskenään vertailukelpoisiksi. Näin saaduista normalisoiduista arvoista lasketaan vielä usein log 2 -muunnos, kuten cDNA-sirujen yhteydessäkin. 291 0 500 1500 DNA-siruanalyysi Frequency 27 0 10000 30000 200 100 0 Frequency 300 gmean Not normally distributed 3.2 3.4 3.6 3.8 log2(na.gmean) Approximately normally distributed Kuva 27.3: Esimerkki ei-normaalisen intensiteettisuhteen (yläkuva) ja likimain normaalisen logsuhteen (alakuva) jakaumista histogrammein esitettynä. Bioinformatiikan perusteet 20000 0 10000 Rmean 30000 292 0 10000 20000 30000 40000 50000 40000 50000 20000 0 10000 Rmean 30000 gmean 0 10000 20000 30000 Gmean Kuva 27.4: Esimerkki ekspressiosirun normalisoinnista. Ylemmässä kuvassa havaitaan, että vihreän värin (gmean) intensiteetit ovat keskimäärän alhaisempia kuin punaisen värin (rmean). Tämä johtuu leimauksessa käytettyjen värien erilaisista sitoutumisominaisuuksista, ja virhe poistetaan siirtämällä vihreän värin intensiteettejä hieman ylöspäin siten, että ne tulevat samalle tasolle punaisen värin intensiteettien kanssa (alakuva). 27 DNA-siruanalyysi 27.5 293 Suodatus Suodatuksella tarkoitetaan menettelyä, jossa epäluotettavat tai epäkiinnostavat geenit tai sirut suljetaan pois jatkoanalyyseistä. Suuri osa geeneistä ei yleensä muutu ekspressioltaan lainkaan koesarjan aikana. Tällaiset geenit ovat epäkiinnostavia ja vaikeuttavat jatkoanalyysien tulosten tulkintaa, joten ne usein suodatetaan pois aineistosta. Samaten geenit, joiden osalta tulokset ovat epäluotettavia, suljetaan yleensä pois jatkoanalyyseistä. Epäluotettavat geenit on toisinaan helppo tunnistaa (Kuva 27.6). Esimerkiksi geenit, joiden intensiteettiarvo on hyvin alhainen, ovat yleensä jokseenkin epäluotettavia, sillä skannerit eivät kykene yleensä arvioimaan kovin pieniä intensiteettejä kovin tarkasti. Samaten geenit, joiden intensiteettiarvo on hyvin suuri (täplät ovat kuvassa valkoisia) ovat myös epäluotettavia, sillä skanneri ei ole kyennyt antamaan niille tarkkaa intensiteettiarvoa, koska arvo on niin korkea, ettei skannerin kapasiteetti yllä niin korkealle. Laboratorioteknisistä syistä erityisesti cDNA-sirut tahtovat päästä kuivumaan reunoiltaan hybridisaation aikana. Tämä voi luonnollisesti vaikuttaa tuloksiin, ja tällainen vaikutus on usein helpointa havaita, jos normalisoitu logsuhde kuvataan alkuperäisen sirun muodossa värikoodattuna (Kuva 27.5). Geenit, joiden paikka näyttää vaikuttavan niiden ekspressioon suljetan pois jatkoanalyyseistä. Kuva 27.5: Esimerkki sirusta, jossa on havaittavissa oikeassa alareunassa geenien sijainnista johtuvaa virhettä niiden intensiteettiarvoissa (spatial bias). Kuvion perusteella ainakin osa oikean alanurkan ja vasemman reunan geeneistä tulisi poistaa jatkoanalyyseistä, sillä niiden ekspressio näyttää olevan paikkariippuvaista, ja ne ovat siten epäluotettavia. 294 Bioinformatiikan perusteet Yksin koeteknisistä syistä geenin ilmentymistaso voi vaihdella suunnilleen kaksinkertaisesti aliekspressoituneesta kaksinkertiasesti yliekspressoituneeseen. Intensiteettisuhteen avulla ilmaistuna geenint, joiden ekspressio on väliltä 0,5-2,0, ovat todennäköisesti ilmentymättömiä geenejä, vaikka numeroarvon perusteella voitaisiinkin muuta olettaa. Tällaiset geenit jätetään yleensä pois jatkoanalyysesitä, sillä niistä ei olle erityisen kiinnostuneita. Useimmiten tavoitteena on löytää ennemmin ilmentyneitä kuin ilmentymättömiä geenejä. Jos koesarjaan sisältyy toistoja, voidaan myös kunkin geenin keskihajontaa käyttää suodatukseen. Tällöin tavoitteena on suodattaa pois sellaiset geenit, joiden keskinäinen hajonta on liian suurta (>3 SD keskiarvosta) tai joiden hajonta esimerkiksi yksittäisessä aikapisteessä on liian alhaista (<1 SD keskiarvosta). Jos toistojen välinen keskihajonta on suurta, ovat toistot epäluotettavia, jolloin ainakin epäluotettavimmat toistot voidaan jättää analyysistä. Jos sen sijaan geenin hajonta vaikkapa tietyssä aikapisteessä on kaikkien geenien keskiarvoon verrattuna kovin pientä, tarkoittaa se, ettei geeni ole lainkaan ekspressoitunut. Tällainen suodatus antaa usein varsin samanlaisen tuloksen kuin ilmentymistasoon perustuva suodatus, mutta tuo toisaalta suodatukseen toistoihin perustuvaa luotettavuutta. 27.5.1 Ilmentyneiden geenien löytäminen Suodatettua aineistoa voidaan käyttää ilmentyneiden geenien tunnistamiseen. Usein jo suodatuksen yhteydessä tunnistetut geenit, joiden ekspressiotaso on intensiteettisuhteella ilmaistuna joko alle 0,5 tai yli 2,0 voidaan tulkita ilmentyneiksi. MAhajontakuviota käyttäen asiaa voidaan havainnollistaa paremmin (Kuva 27.6). Jos aineistossa oli mukana toistoja, on niiden käyttäminen ilmentyneiden geenien etsinnässä varsin suositeltavaa. Geenit, jotka saavat hyvin samanlaisen ilmentymistason kaikissa toistoissa ovat luotettavampia kuin sellaiset, joiden ilmentymistaso vaihtelee eri toistojen välillä runsaasti. Helpoin tapa ottaa toistojen tuoma lisäinformaatio huomioon on käyttää jotakin tilastollista testiä. Esimerkiksi, jos haluttaisiin löytää vaikkapa sellaiset geenit, jotka tietyssä aikasarjan aikapisteessä ovat ilmentyneitä, voitaisiin verrata kunkin geenin ilmentymisarvoa siihen, ettei geeni olisi ilmentynyt (intensiteettisuhde 1). Tässä tapauksessa sovellettaisiin yhden populaation t-testiä. Jos toistot ovat riittäävn samanlaisia (keskihajonta on pieni), ja geenin ekspressio on riittävän erilaista ykköseen verrattuna, voidaan geeni tulkita ilmentyneeksi. Ilmentyneet geenit saavat tilastollisen testin perusteella pienen p-arvon. P-arvon voidaan ajatella edustavan epävarmuutta, joka johtopäätökseemme (on ilmentynyt) liittyy. Jos epävarmuus, ja siten p-arvokin, on pieni, tulkitaan geeni ilmentyneeksi. Tilastollisen testin tulokset voidaan yhdistää myös ilmentymistason perusteella saatuihin tuloksiin. Molemmat tulokset voidaan yhtä aikaa esittää näppärästi Volcano-hajontakuviossa (Kuva 27.7). Jos haluttaisiin löytää kahdessa eri aikapisteessä eri tavoin ilmentyneitä geenejä, voitaisiin yhden populaation t-testin sijaan käyttää kahden populaatio t-testiä, joka on suunniteltu juuri tällaisiin tilanteisiin. Tulokset voitaisiin hyvin hahmottaa Volcano-hajontakuvion muodossa, jolloin vaaka-akselille olisi sijoitettu eri aikapisteiden välinen ilmentymisero eikä varsinaista geenin ilmentymistä jommassakummassa aikapisteessä. Edellämainitut t-testit olettavat, että geenin ilmentymisarvot ovat normaalisti jakautuneita. Vaikka esimerkeissä usein puhutaan intensiteettisuhteesta, käytetään varsinaisessa testaamisessa logsuhdetta, joka on yleensä likimain normaalisti jakautunut. Jos logsuhteen sijaan käytettäisiin intensiteettisuhdetta, joka ei ole normaalisti jakautunut, tehtäisiin johtopäätösten vetämisessä mahdollisesti pahoja virheitä, eikä testiä ole siksi syytä soveltaa intensiteettisuhteelle. DNA-siruanalyysi 295 −1.5 −1.0 −0.5 0.0 M 0.5 1.0 1.5 27 8 10 12 14 A Kuva 27.6: Esimerkki MA-hajontakuviosta, johon on vaakasuuntaisin viivoin merkitty ali- ja yli-ilmentyneiden geenien rajat. Tässä tapauksessa yli-ilmentyneitä geenejä löydettiin yksinkertaisella raja-arvolla 22 kappaletta, ja ali-ilmentyneitä geenejä 9 kappaletta. Tällaisen hajontakuvion avulla huonot havainnot on myös helppo poistaa (tämä on esimerkki hyvästä sirusta). Hajontakuviota kutsutaan MA-kuvioksi, sillä se on kuten tavanomainen hajontakuvio, jossa datapilveä on kallistettu 45% oikealle. Tällainen kuvio saadaan aikaan, jos pystyakselille merkitään normalisoitu logsuhde ja vaaka-akselille punaisen ja vihreän värin intensiteettien keskiarvo. Bioinformatiikan perusteet 2 0 1 −log10(p) 3 4 296 −4 −2 0 2 4 log2(ratio) Kuva 27.7: Volcano-hajontakuvio. Pystyakselilla on esitetty yhden populaation t-testin antamasta p-arvosta laskettu käänteinen logaritmiarvo. Vaaka-akselilla on esitetty geenien useista toistoista lasketttu keskimääräinen geenin ilmentyminen. Tilastollisesti merkitsevästi ilmentyneet geenit voidaan havaita laatikoista, joita rajoittaa p-arvon raja 2, ja logsuhteen raja -1 tai +1 (vastaavat intensiteettisuhteita 0,5 ja 2). Esimerkiksi yli-ilmentyneet geenit rajoittuvat kuvion oikeaan yläneljännekseen, jossa geenien saama p-arvo on suurempi kuin 2, ja samalla niiden ilmentymisarvo on yli 2. 27 DNA-siruanalyysi 297 27.5.2 Tulosten visualisointi Saavutetut tulokset voidaan esittää useallakin eri tavalla, mutta kenties suosituin on hierarkkinen ryhmittelyanalyysi puu, jossa on kuvattu geenien ilmentymistaso. Tällaista kuvaa kutsutaan myös heatmap-nimellä. Usein puussa esitetään vain mielenkiintoisimmat tulokset, esimerkiksi edellämainitun aikasarjan tapauksessa sellaiset geenit, jotka ovat muuttuneet jollakin mielenkiintoisella tavalla kokeen aikana, tai jotka ovat tilastollisesti merkitseviä joissakin aikapisteissä. Puu kootaan useimmiten samaan tapaan kuin molekyylisystematiikan yhteydessä käsitelty UPGMA-puu, sillä erolla, että geenien välisten etäisyyksien arviointiin käytetään tyypillisesti jotakin korrelaatiomittaa. Puussa siis samankaltaisimmat geenit sijoittuvat samaan puun haaraan (Kuva 27.8). Kuva 27.8: Hierarkkinen ryhmittelyanalyysitulos (heatmap), jossa on esitetty samaan tapaan käyttäytyvät geenit. Vertaa Kuvaan 27.9. Toinen vaihtoehto tulosten visualisoimiseen on viivakaavio, jossa kunkin geenin ekspressiota ajan funktiona kuvataan viivalla. Näin syntyviä geenien ekspressiota kuvaavia käyrästöjä kutsutaan geenien ekspressioprofiiliksi (Kuva 27.9). Viivakaavio ja heatmap ovat esimerkiksi tieteellisen artikkelin lukijan kannalta hyviä keinoja havainnollistaa geenien yhteistä käyttäytymistä. Usein heatmap:iä käytetään myös varsinaiseen analyysiin tai ainakin sen ensivaiheissa. Jos esimerkiksi haluamme verrata kahden eri kudoksen geenien ilmentymistä toisiinsa, on 298 Bioinformatiikan perusteet Kuva 27.9: Kuvassa on esitetty ajan funktiona samalla tapaa ekspressoituvat geenit. Geenijoukko on sama kuin Kuvassa 27.8. puu usein näppärä apukeino. Paras tulos saadaan, kun aineisto on ennen puuhun sijoittamista suodatettu, ja eri ryhmien välillä tilastollisesti merkitsevästi eri tavalla ilmentyvät geenit on etsitty vaikkapa kahden populaation t-testiä käyttäen. Kun näin saadut tulokset sijoitetaan puuhun, saadaan usein mielenkiintoista informaatiota kudosten eroista (Kuva 27.10). 27.5.3 Jatkotutkimukset Usein DNA-sirutulosten bioinformatiivinen analyysi päätetään tulosten visualisointiin, vaikka siitä varsinaisesti mielenkiintoisin vaihe vasta alkaa. Kun kokeesta on tunnistettu joukko mielenkiintoisia geenejä, on usein myös mielenkiintoista tutkia tai pohtia, miten löydökset liittyvät biologiseen hypoteesiin, jota koesarjassa mahdollisesti testattiin. Esimerkiksi Kuvan 27.9 tapauksessa tutkittiin hiivasoluja viljelmässä, ja huomattiin, että aina 80 minuutin välein samoissa geeneissä esiintyy yliekspressiota. Optimioloissa hiivasolut jakautuvat noin 80 minuutin välein, ja tutkittaessa geenien annotaatioita ja biologisia funktioita, havaittiin, että suuri osa tällä tavoin yhtäaikaisesti ekspressoituvista geeneistä liittyi solusyklin säätelyyn ja nukleiinihappometaboliaan, kuten DNA:n kahdentumiseen. Biologisesti mielenkiintoista taustainformaatiota voidaan hakea erilaisista tietokannoista, ja usein sirujen tuottajatkin toimittavat sirujen mukana listan geenien annotaatioista. Lisäksi voidaan tutkia, kuuluvatko kaikki genit esimerkiksi samaan metaboliareittiin tai onko niillä muuten samanlaisia toimintoja solussa. Tässä apuna ovat esimerkiksi GO-ontologiat sekä erilaisista metaboliareittitietokannoista saatavat tiedot. Yllä mainitussa esimerkissä 80 minuutin välein yli-ilmentyviin geeneihin esimerkiksi kuului sellaisia solusyklin etenemiseen liittyviä proteiineja, jotka valvoivat tietyn solusyklin vaiheiden välisten rajojen ylittymistä. Nämä puolestaan liittyvät nukleiinihappometaboliaan siten, että solun sallitaan edetä solusyklis- 27 DNA-siruanalyysi 299 Kuva 27.10: Puussa on esitetty puukaavio sirujen, ei geenien suhteen. Samankaltaisimmat sirut sijoittuvat nyt puussa yhteen. Tutkimuksessa verrattiin kahta kudostyyppiä toisiinsa, ja pyrittiin hahmottamaan, voidaanko ne erotella toisistaan luotettavasti. Luuytimestä otettuihin näytteisiin johtavat puun haarat on väritetty punaisella, verestä otetut näytteet keltaisella. Pääosin luuydin- ja verinäytteet sijoittuvat puussa erilleen, mutta osa luuytimen ja veren näytteistä sattuu samaan puun haaraan. Näyttää siltä, että suurin osa näytteistä voidaan varsin luotettavasti erotella näiden n. 700 tilastollisesti ryhmissä eri tavalla ilmentyneiden geenien perusteella, mutta ei kuitenkaan kaikkia. 300 Bioinformatiikan perusteet sä eteenpäin esimerkiksi vasta sitten, kun koko DNA:n on kahdennettu. Tällöin sekä solusykliä valvovien proteiinien että DNA-korjausproteiinien tulee kyetä viestimään keskenään, ja siksi ne ovatkin yhtäaikaisesti ilmentyneitä. DNA-sirut ovat kuitenkin seulontatyökaluja, eikä niiden avulla saada tarkkoja kvantitatiivisia tuloksia geenien ilmentymisestä. Niinpä usein suositellaankin, että tulokset varmistettaisiin laboratoriossa vielä reaaliaikaista-PCR:ää tai Northern blot-menetelmää käyttäen. Näissä on kuitenkin ongelmana se, että niiden antamat tulokset eroavat sirujen anatamista tuloksista suhteellisen usein. Ristiriitatilanteessa voi olla vaikea päättää kumpiin tuloksiin luotetaan. Siksi sirutulosten varmistaminen esimerkiksi proteomiikan menetelmiä käyttäen voisi olla parempi idea. Tällöinkin voi tosin sattua, että tulokset ovat ristiriidassa, sillä kaikkia geenejä ei transloida proteiineiksi samalla teholla, eivätkä geenituotteen ja proteiinituotteen määrät aina korreloi keskenään. 27.5.4 Tulosten julkaiseminen Monet lehdet velvoittavat tutkijoita julkaisemaan aineistonsa julkisessa tietokannassa ennenkuin artikkeli hyväksytään. Näin menettelevät esimerkiksi Nature-sarjan lehdet. Maailmalla onkin muutamia tietokantoja, joihin geeniekspressioaineistoja voi tallentaa. EBI:n ylläpitämä ArrayExpress ja NCBI:n palvelu GEO lienevät näistä suosituimpia. DNA-siruaineistojen kuvaamiseksi siten, että niistä on hyötyä muillekin tutkijoille, on kehitetty MIAME (minimum information about microarray experiment) -standardi, jota julkaistavien aineistojen pitäisi noudattaa. MIAMEmuotoinen kuvaus luodaan yleensä jollakin sopivalle ohjelmalla, joka kääntää aineiston MAGE-ML-objektimallia käyttäen XML-tiedostoksi, jotka voidaan sitten sijoittaa suoraan tietokantaan. Esimerkiksi ArrayExpress luo XML-tiedoston sille syötetyn aineiston perusteella, joten sitä ei välttämättä tarvitse luoda itse. DNAsirutulosten julkaisemisen suhteen tulevaisuus näyttää siis pitkälti samalta kuin sekvenssiaineistojen suhteen: jotta artikkeli saadaan julkaistua, pitää aineistokin julkaista kaikkien tutkijoiden saataville. 28 RNA:n sekundäärirakenteen ennustaminen 301 28 RNA:n sekundäärirakenteen ennustaminen 28.1 Mihin RNA:n rakenteen ennustamista käytetään? Soluissa on monia osia, joiden toiminnallisuuteen RNA liittyy. Ehkä keskeisin RNA:ta käyttävä rakenne on kuitenkin ribosomi, joka transloi lähetti-RNA:n proteiiniksi. Ribosomin aluyksiköt siältävät katalyyttisen RNA-ytimen, ja aminohappoja kuljettavat molekyylit, siirtäjä-RNA:tovat myös rakenteeltaan yksinomaan RNA:ta. Jotkin mutaatiot voivat vaikuttaa RNA:n sekundäärirakenteeseen, ja sen selvittäminen voi olla ensimmäisiä askeleita mutaation merkityksen ymmärtämiseksi. RNA:n sekundäärirakenteen ennustamisella on myös sovelluksiin liittyvää käyttöä. Usein 16S ja 18S rRNA:ta käytetään erilaisten bakteeri- tai eliökohtaisten koettimien suunnitteluun. Kaikki kohdat soluissa laskostuneesta RNA:sta eivät kuitenkaan ole yhtä helposti saavutettavissa, jolloin mahdollisimman tehokkaan koettimen laatiminen vaatii RNA:n sekundäärirakenteen tuntemista (Behrens, 2003). Nykyiset ennustusmenetelmät eivät ole kovin luotettavia, ja arviolta 50-70Jotkin rakenteet on muita helpompi ennustaa oikein, ja jos esimerkiksi sama rakenne esiintyy kaikissa, vaikkapa 50 parhaassa ennustuksessa, on rakenne suhteellisen robusti, ja sen voidaan olettaan olevan ainakin suhteellisen lähellä oikeaa. 28.2 RNA:ssa esiintyviä sekundäärirakenteita RNA voi muodostaa sekundääri- ja tertiäärirakenteita, jopa kvaternäärirakenteita samaan tapaan kuin proteiinit. Sekundäärirakenteita ovat esimerkiksi neulansilmä, silmukka ja pullistuma, tertiäärirakenteita pseudosilmukka (Kuva 28.1). Sekundäärirakenteita voi muodostua sellaisille alueille, joilla RNA-molekyyli voi emäspariutua itsensä kanssa. Emäspariutuminen tapahtuu samaan tapaan kuin DNAmolekyylissä, mutta lisäksi voi syntyä epästabiilimpia G-U-pareja (wobble base pairs). Tertiäärirakenteita muodostuu, kun sekundäärirakenteet muodostavat uusia rakenteita toistensa kanssa. Tällä hetkellä voidaan ennustaa sekundäärirakenteita, muttei tertiäärirakenteita. 28.3 Miten sekundäärirakenteita ennustetaan? Sekundäärirakenteiden ennustus perustuu keskenään pariutuvien emästen selvittämiseen. Kaikkien sekundäärirakenteiden muodostuminen vaatii emäspariutumista, joten voitaisiin myös ajatella, että rakenteiden ennustamiseksi pitää selvittää, mitkä RNA-molekyylin osat ylipäätään kykenevät pariutumaan tai muodostamaan tietynlaisia sekundäärirakenteita. Yksinkertaisin tapa tämän selvittämiseen lienee jo 302 Bioinformatiikan perusteet Kuva 28.1: Esimerkkejä erilaisista sekundääri- ja tertiäärirakenteista, joita RNA voi muodostaa. sekvenssirinnastusmenetelmien yhteydessä esitelty pistematriisi. Erona rinnastukseen on, että RNA:n rakenteen selvittämiseksi pistematriisiin merkitään piste vain jos taulukon solussa kohdakkain osuvat emäkset voivat pariutua. Tätä periaatetta sovelletaan minimienergiamenetelmässä. Toinen ennustustapa nojaa evolutiiviseen informaatioon, ja käyttää apunaan RNA-sekvensseistä tehtyjä usean sekvenssin rinnastuksia. Tietyt alueet saman ryhmän RNA-molekyyleissä ovat konservoituneita, ja muutokset ovat yleensä samanaikaisia RNA-molekyylin eri kohdissa: Jos esimerkiksi A-U-parin adeniini muuttuu sytosiiniksi, muuttuu yleensä myös urasiili guaniiniksi molekyylin sisäisen rakenteen säilyttämiseksi ennallaan. Tällaista samanaikaista evoluutiota kutsutaan kovariaatioksi, ja menetelmän haasteena onkin erotella kovarioivat emäskohdat satunnaisten muutosten joukosta. 28.4 Minimienergiaperiaate Minimienergiaperiaate nojaa olettamukseen, että toistensa kanssa pariutuvat alueet muodostavat sekundäärirakenteita. Tällaiset alueet voidaan selvittää esimerkiksi pistematriisia käyttäen (Kuva 28.2). Pistematriisissa sama sekvenssi on sijoitettu sekä pysty- että vaaka-akselille. Pistematriisimenetelmä etsii sellaisenaan vain osumia, joissa sama nukleotidi osuu kohdakkain sekä vaaka- että pystyakselilla. Siksi RNA:n sekundäärirakenteita selvitettäessä pitääkin ensin kääntää RNA:n komple- 28 RNA:n sekundäärirakenteen ennustaminen 303 mentaariseksi, ja sijoittaa sitten alkuperäinen vaaka-akselille 5’->3’ -suunnassa ja komplementaarinen juoste pystyakselille niin ikään 5’->3’-suunnassa. Tällaisessa kaaviossa komplementaariset osat tunnistetaan hieman piirtotavasta riippuen aivan kuten normaalista pistematriisistakin: vasemmalta ylhäältä oikealle alas suuntautuvina lävistäjän suuntaisina viivoina. Mahdollinen tausta voidaan häivyttää esimerkiksi sanakokoa kasvattamalla. Kuva 28.2: Esimerkki pistematriisista, jonka avulla voidaan hahmottaa keskenään pariutuvia alueita ja niiden sijaintia RNA-molekyylissä. Minimienergiaperiaatteessa pyritään etsimään sellainen RNA:n laskostumismuoto, jonka vapaan energian määrä on mahdollisimman pieni. Tämä ei enää onnistu pelkkää pistematriisia käyttäen, vaan ratkaisu selviää dynaamista optimointia käyttäen. Menetelmä on hyvin samanlainen kuin sekvenssirinnastusten yhteydessä esitelty kokonaisrinnastuksen löytämiseen käytetty Needleman-Wunschin algoritmi. Ainoana erona on, että nyt nukleotidien samankaltaisuuteen perustuvan pisteytysmatriisin sijaan käytetään erilaisille nukleotidipareille määriteltyjä, yleensä negatiivisia vapaan energian määriä. Aukkosakot puolestaan tavallaan korvautuvat erilaisille silmukkarakenteille, neulansilmille ja pullistumille määritellyillä positiivisilla vapaan energian määrillä. Sekundäärirakenteen vapaan energian määrä lasketaan pääpiirteissään seuraavasti. Aluksi pistematriisista tunnistetaan pariutuvat alueet (Kuva 28.2). Tässä tapauksessa sekvenssin alku (emäkset 1-4) ja loppu (emäkset 71-74) pariutuvat keskenään. Koska pariutuvat alueet ovat tässä vasemmalta alhaalta oikealle ylös suuntautuvia peräkkäisten solujen sarjoja, etsitään taulukosta sellainen. Taulukossa sarja saakin alkunsa heti vasemmasta alasolusta ja se näyttäisi päättyvät oikeaan yläsoluun. Kun lävistäjään kuuluvien solujen sisältö korvataan niiden saamilla vapaan 304 Bioinformatiikan perusteet energian määrillä, muodostuu taulukko, jonka läpi voidaan määrittää optimaalinen polku dynaamisella optimoinnilla. Tässä optimaalisin ratkaisu antaa rakenteen vapaan energian määräksi 7,1. Jos sekundäärirakenteessa olisi lisäksi esimerkiksi viiden nukleotidin mittainen pullistuma (4 kcal/mol), tulisi sekundäärirakenteen lopulliseksi vapaan energian määräksi -3,1. Kaikkien sekundäärirakenteeseen kuuluvien rakenteiden vapaan energian määrät siis lasketaan yhteen aivan kuten kokonaisrinnastusta muodostettaessa (kaikki emäkset käydään läpi), ja näiden summana muodostuu koko rakenteen vapaan energian määrä. Tarkoituksena on saada tulokseksi mahdollisimman pieni lukuarvo (siis mahdollisimman negatiivinen), ja parhaan tuloksen löytäminen onnistuu varmasti dynaamista optimointia käyttäen. Yllä kuvatussa minienergiaperiaatteessa on se ongelma, että se löytää vain yhden ainoan mahdollisen laskostumisrakenteen (Kuva 28.3). Niinpä nykyisin kenties käytetyimmässä minimienergiaperiaatetta soveltavassa ohjelmassa MFOLD:ssa menetelmää onkin modifioitu siten, että sen avulla voidaan löytää useampia, mahdollisesti suboptimaalisia laskostumisrakenteita. Miksi sitten suboptimaalisia rakenteita kannattaa tarkastella? Syynä tähän on, että usein yhden ainoa emäsparin muuttaminen tai niiden sitoutumisen mututuminen voi radikaalisti muuttaa koko laskostumisrakennetta. Tällaisia vaikutuksia voidaan tarkastella oikeastaan vain suboptimaalisia laskostumisrakenteita tutkimalla. Kuva 28.3: Kuvaa 28.2 ja Kuvaa 28.4 vastaava RNA:n laskostumisrakenne MFOLDohjelmalla laskettuna. MFOLD-ohjelma tuottaa energiapistematriisin (Kuva 28.4). Sinä pistematriisi on jaettu kahtia siten, että alapuolisko ilmoittaa parhaan mahdollisen laskostumisrakenteen, ja yläpuoliskoon on eri väreillä merkitty suboptimaaliset laskostumisrakenteet. Ohjelmassa on mahdollisuus valita, kuinka monta tällaista suboptimaalista rakennetta halutaan tuottaa, tai vaihtoehtoisesti, kuinka kaukana parhaasta rakenteesta ne ovat. MFOLD ei kuitenkaan laske kaikkia rakenteita, jotka ovat tietyn matkan päässä parhaasta rakenteesta. Jos esimerkiksi kahta neulansilmää yhdistää lyhyt pariutumattomien emästen muodostama rakenne, ei MFOLD palauta sellaisia rakenteita, 28 RNA:n sekundäärirakenteen ennustaminen 305 Kuva 28.4: Esimerkki energiapistematriisista, jonka avulla voidaan hahmottaa suboptimaalisia RNA:n laskostumisrakenteita. jotka olisivat suboptimaalisia kummankin neulansilmän suhteen. Tällaisten löytämiseksi sovelletaan erästä dynaamisen optimoinnin variaatiota (muunneltu takaisinjäljitys), jonka avulla voidaan löytää kaikki rakenteet, jotka ovat tietyn matkan päässä parhaasta rakenteesta. Menetelmä on erityisen toimiva, kun pyritään selvittämään siirtäjä-RNA:n laskostumisrakenteita, ja se löytyy Vienna-paketista. Vienna käyttää sekundäärirakenteen ennustamiseen todennäköisyyspohjaista lähestymistapaa, ja se on laskennallisesti hyvin lähellä dynaamista optimointimenetelmää, jota MFOLD käyttää. 28.5 Kovariaatiomenetelmä Kovariaatiomenetelmän ideana on käyttää rakenteen selvittämisessä apuna usean sekvenssin rinnastusta. Tällä tapaa voidaan useinkin selvittää, ainakin summittaisesti, mitkä alueet kuuluvat erilaisiin silmukkarakenteisiin ja mitkä emäspariutuviin rakenteisiin. Silmukkarakenteisiin kuuluvat sekvenssialueet nimittöin vaihtelevat emäspariutuvia rakenteita enemmän. Kun usean sekvenssin rinnastukseen valitaan sama RNA-molekyyli useilta eri eliöiltä, saadaan usein suhteellisen hyvin hahmotettua tällaisia molekyylin muuttumista hillitseviä tekijöitä. Kovariaatiome- 306 Bioinformatiikan perusteet netelmän ideana onkin selvittää, mitkä emäsparit muuttuvat yhtäaikaisesti ja tätä tietoa käyttäen selvittää, mitkä emäkset valmiiksi laskostuneessa molekyylissä pariutuvat keskenään. Kovariaatiomenetelmää on sovellettu käytännön tukimuksiin varsin eri tavoin. Ainakin seuraavia tapoja voidaan käyttää. • Rinnasta joukko sekvenssejä, ja selvitä konservoituneet alueet. Valitse yksi sekvenssi, jota vasten kaikkia muita verrataan, ja merkitse rinnastukseen näin havaitut muutokset. Tarkastele muutoksia visuaalisesti ja pyri hahmottamaan toisilleen komplementaariset sekvenssialueet, jotka mahdolisesti pariutuvat keskenään. • Rinnasta sekvenssit, ja vertaa muita yhteen valitsemaasi sekvenssiin. Vertaa sellaisiin sarakkeisiin, joissa muutoksia on tapahtunut, havaittujen muutosten määrä. Etsi sitten rinnastuksesta samanlaisia numerosarjoja, sillä ne saattavat vastata pariutuvia alueita. • Laske kullekin rinnastuksen sarakkeelle sen informaatiosisältö, kuten sekvenssilogojen tapauksessa. Piirrä sitten tuloksista logo, ja pyri sitä käyttäen hahmottamaan mahdollisesti toisiinsa pariutuvia alueita. • Piirrä rinnastuksen perusteella fylogeneettinen puu, ja merkitse havaitut muutokset siihen. Pyri sitten tätä ylimääräistä evolutiivista informaatiota käyttäen hahmottamaan ne sekvenssikohdat, joissa muutoksia on tapahtunut yhtäaikaisesti. Esitetyt kovariaatiomenetelmät perustuvat pitkälti sekvenssirinnastusten visuaaliseen tarkasteluun. Tämä voi olla hyvin aikaaviepää, mutta tulokset ovat usein olleet varsin hyviä. Eddy (1994) esitti formaalin kovariaatiomenetelmää soveltavan algoritmin, mutta se on varsin hidas, vaikka kykeneekin hyvin luotettavasti tunnistamaan esimerkiksi siirtäjä-RNA:tä vastaavat geenit eliön perimästä. Eddyn esittämä menetelmä perustuu siihen, että tunnettujen tRNA-molekyylien perusteella muodostettiin hyvin paljon kätkettyä Markovin mallia (HMM) muistuttava sekvenssejä ja niissä tapahtuneita muutoksia kuvaava malli. Tämä malli toimiikin esimerkiksi minimienergiaperiaatetta paremmin tRNA-molekyylien rakenteen selvittämiseksi (Kuva 28.5. Malli on käytettävissä ohjelmassa tRNAscan-SE. Mallin huonona puolena on toki, ettei sitä voida yleistää muita RNA-molekyylejä koskevaksi, ellei sitä rakenneta alusta alkaen uudelleen, sillä malli on aina molekyylikohtainen, kuten HMM-mallitkin. 28 RNA:n sekundäärirakenteen ennustaminen 307 Kuva 28.5: Ohjelmalla tRNAscan-SE tuotettu ennustus ihmisen arginiini-tRNAmolekyylin laskostumisrakenteesta. Koska tRNAscan-ohjelma on optimoitu tRNAmolekyylille, on sen tuottama tulos huomattavasti lähempänä oikeaa kuin minimienergiaperiaatteella tuotettu tulos. Vertaa Kuvaan 28.3. 308 Bioinformatiikan perusteet 29 Geenirakenteen ennustaminen 29.1 Mitä menetelmiä geenirakenteen ennustamiseen voidaan käyttää? Geenirakenteen ennustamisella tarkoitetaan menetelmiä, joilla voidaan löytää geenejä DNA-sekvensseistä tai ennustaa jo tunnettujen geenien rakenne, esimerkiksi intronien ja eksonien sijainnit. Yksinkertaisin tapa etsiä geenejä tai ylipäänsä avoimia lukukehyksiä DNA-sekvenssistä, on kääntää sekvenssi kaikissa lukuraameissa aminohapposekvenssiksi. Esitumallisilla eliöillä tämä on yleensä varsin hyvin toimiva ratkaisu, sillä niillä ei ole geeneissään lukuraameja katkovia introneita. Niinpä sekvenssistä löytyvä pisin metioniinilla alkava ja stop-kodoniin päättyvä ORF onkin jo suhteellisen hyvä arvaus geenin sijainnista. ORF:t, jotka eivät koodaa geeniä, ovat yleensä lyhyitä, sillä stop-kodoneita sattuu sellaisiin suhteellisen taajaan. Translaatiossa tulee tietenkin käyttää eliöryhmälle soveltuvaa translaatiotaulukko, sillä eri eliöiden kodoni-aminohappo vastaavuudessa on pieniä eroja. Väärän taulukon käyttäminen voi johtaa vääriin johtopäätöksiin. Aitotumallisilla sekvenssin yksinkertainen kääntäminen aminohapposekvenssiksi ei tuota luotettavaa tulosta, sillä aitotumallisten geeneissä eksoneita pilkkovat intronit, jotka vaikeuttavat oikeiden lukuraamien hahmottamista. Aitotumallisten geenien ennustamiseen onkin kehitetty muunlaisia menetelmiä, jotka perustuvat pitkälti erilaisiin HMM- ja neuroverkkomalleihin geenien koostumuksesta ja rakenteesta. Seuraavassa esitellään muutamia eri menetelmiä pääpiirteissään. 29.2 Translaatio ja validointi Proteiineja koodaavat DNA-sekvenssit eivät ole satunnaisia nukleotidijaksoja, vaan pikemminkin suhteellisen säännöllisiä peräkkäisistä kodoneista koostuvia sarjoja. Kaikkia samaa aminohappo tarkoittavia kodoneita ei suinkaan käytetä geeneissä yhtäläisellä taajuudella, mikä helpottaa koodaavan alueen hahmottamista. Sitä, millä taajuudelle kutakin kodonia geeneissä käytetään, kutsutaan kodoniharhaksi (codon bias), ja on usein hyvinkin lajispesifinen. Myös eri tavoin ekspressoidut geenit voivat poiketa toisistaan. Tiedetään, että esimerkiki kolibakteerilla voimakkaasti ilmentyvissä geeneissä käytetyt kodonit eroavat taajuudeltaan alhaisesti ilmentyvistä geeneistä. Kodoniharha johtunee pääosin geenien translaationopeuden optimointiin liittyvästä evolutiivisesta valinnasta: organismeilla, joilla on korkea genomin GCpitoisuus on myös hyvin paljon CG-nukleotideja kodonien kolmansissa positioissa. Kodoniharhan avulla voidaan yrittää löytää geenialue tuntemattomasta sekvenssistä, tai tehokkaammassa analyysissä, pyrkiä päättelemään, voisiko yksinkertaisella translaatiolla tunnistetty ORF olla oikeastikin transloituvaa aluetta. Avoin lukuraami voidaan pyrkiä validoimaan useilla menetelmillä, joista yksinkertaisin on BLAST-haku tietokannoista. Jos haulla löydetään translaatiotuotetta muistuttavia 29 Geenirakenteen ennustaminen 309 aminohapposekvenssejä edes tutkittavan lajin kaukaisista sukulaisista, on ennustetulla avoimella lukuraamilla jo huomattavasti enemmän tukea. BLAST-haun lisäksi on kehitetty myös formaalimpia testejä lukuraamin validoimiseksi. Näistä esitellään seuraavassa kaksi. 29.2.1 Fickettin menetelmä Ensimmäinen testi nojaa siihen havaintoon, että transloituvilla alueilla kodonien kolmansissa positioissa olevat nukleotidit pyrkivät olemaan keskenään huomattavasti useammin samanlaiset kuin pelkän sattuman perusteella voitaisiin olettaa. Toisin sanoen, samanlaiset nukleotidit pyrkivät sijoittumaan kodoneissa samoihin positioihin. Tämä on seurausta kodoniharhasta, ja havainto pitää paikkansa lajista ja geenistä riippumatta. Niinpä testin suorittamiseen ei tarvita tietoa tutkittavan organismin kodoniharhasta, vaan voidaan tarkastella yksinomaan nukleotidifrekvenssejä (Fickett, 1982). Fickettin testi toimii seuraavasti. Sekvenssi jaetaan kodonin mittaisiin pätkiin siten, että A1 = A − nukleoti di en määr ä sekvenssi kohdi ssa 1, 4, 7, 10... A2 = A − nukleoti di en määr ä sekvenssi kohdi ssa 2, 5, 8, 11... A3 = A − nukleoti di en määr ä sekvenssi kohdi ssa 3, 6, 9, 12... Näin laskettujen nukleotidimäärien perusteella muodostetaan rikastumisparametri, joka kuvaa adeniinien rikastumista tiettyihin sekvenssikohtiin muiden kustannuksella: A P = max(A1,A2,A3) min(A1,A2,A3) Sama nukleotidien laskenta ja rikastumisparamterin määrittäminen tehdään jokaiselle nukleotidille. Lisäksi testissä käytetään tietoa kunkin nukleotidin runsaudesta koko sekvenssissä, siis nukleotidifrekvenssejä. Fickett määritteli todennäköisyyden, että tutkittava sekvenssialue tulee koodaavasta tai ei-koodaavasta alueesta käyttäen koko silloin tunnettua sekvenssitietokantaa, joka kattoi vajaa 400 kb. Todennäköisyysarviot löytyvät artikkelista (Fickett, 1982). Todennäköisyysarvioita tarkastelemalla selviää, että T:n rikastumisparametri kertoo huomattavasti enemmän siitä, onko alue koodaava vai ei kuin A:n rikastumisparametri. Niinpä jokaiselle parametrille annettiin painoarvot sen mukaan kuinka hyvin ne yksinään ennustivat koodaavuutta. Fickettin kuvaama TESTCODE-testi tehdään siis seuraavasti. Tutkittavan sekvenssin päällä liutetaan 200 bp:n mittaista ikkunaa yleensä kolme nukleotidia kerrallaan, ja ikkunan sisällä lasketaan kullekin nukleotidille rikastumisparametri ja nukleotidifrekvenssi. Kullekin näin saaduista parametreista ja frekvensseistä luetaan taulukoista todennäköisyys, että ikkunan muodostama alue on koodaavaa aluetta. Todennäköisyyksiä on yhteensä kahdeksan ( p1... p8). Kullekin todennäköisyydelle luetaan taulukosta myös sitä vastaava painoarvo (w1...w8). Testisuure muodostetaan kaavalla: T E ST C O D E = p1 ∗ w1 + p2 ∗ w2... p8 ∗ w8 Korkea testisuureen arvo viittaa siihen, että tutkittu alue on koodaava. Alhainen testisuureen arvo (<0.30) puolestaan viittaa ei-koodaavaan alueeseen. TESTCODE näyttää olevan suhteellisen robusti, ja tuottaa väärän ennustuksen noin 5% tapauksista, kun analyysissä käyteyn ikkunan pituus on 200 emäsparia. Testi löytyy esimerkiksi EMBOSS-ohjelmistopaketin ohjelmasta tcode. Kuvassa 29.1 on esitetty tcode-ohjelman tuottama tulos. 310 Bioinformatiikan perusteet Kuva 29.1: TESTCODE-testin toiminta tunnetulla lähetti-RNA molekyylillä. Testisuureen ylittäessä 0,95 on sekvenssialue varmasti koodaavaa, ja välillä 0,74-0,95 tätä ei voida varmasti sanoa. Niinpä suurin osa tässä esitetystä sekvenssistä sijoittuu epävarmalle alueelle. Tiedetään kuitenkin, että koodaava alue sijoittuu välille 444-2524. Esimerkki hahmottaa hyvin ennustaviin menetelmiin sisältyvää epävarmuutta, jonka kanssa on elettävä. TESTCODE kuitenkin vahvistaa epäilystä, että sekvenssi on koodaava, vaikkei annakaan yksiselitteistä tulosta. 29.2.2 Kodoniharhaan perustuva testi Kodoniharhaan perustuva testi (Gribskov, 1984) perustuu havaintoon, että tiettyjä kodoneja käytetään geeneissä toisia useammin. Eliöille voidaan muodostaa kodonikäytöstä kertova kodonikäyttötaulukko, jossa kunkin kodonin yleisyys transloituvilla alueilla on määritetty. Jos tutkittavalla alueella näyttäisi olevan samansuuntainen kodoniharha kuin geeneissä, voidaan sanoa, että alue on todennäköisesti transloituva. Kodoniharhatesti toimii pääpiirteissään seuraavasti. Kodonikäyttötaulukosta voidaan suoraan lukea yhden kodonin frekvenssi ( f abc ) transloituvilla alueilla. Taulukon avulla voidaan myös määritella kaikkien synonyymisten eli samaan aminohappo koodaavien kodonien frekvenssi. Tämä on yksinkertaisesti yksittäisten kodonien frekvenssien summa (Fabc ). Tutkittavan sekvenssin kunkin nukleotidin frekvenssit voidaan määrittää helposti, ja niiden avulla voidaan määrätä sekvenssin todennäköinen kodonikoostumuskin. Jos merkitään N i :llä tietyn nukleotidin frekvenssiä sekvenssissä, voidaan kunkin kodonin frekvenssi laskea kaavalla r abc = Na ∗ Nb ∗ Nc/N 3 . Samaa aminohappoa koodaavien kodonien frekvenssiä tutkittavassa sekvenssissä merkitään Rabc :llä. Kodoninkäyttöä kuvaava parametri voidaan nyt laskea kaavalla: p= f abc /Fabc rabc /Rabc Parametri p voidaan tulkita uskottavuusosamääräksi, joka kertoo kuinka to- 29 Geenirakenteen ennustaminen 311 dennäköistä on, että tutkittava alue on koodaavaa sekvenssiä. Käytännössä tutkimus suoritetaan liukuvan ikkunan menetelmällä, jossa tutkittavan sekvenssin yli liutetaan 25 bp:n (sekvenssi < 5000 bp pitkä) tai 50 bp:n (sekvenssi >5000 bp pitkä) mittaista ikkunaa kolmen nukleotidin hypääyksin. Kullekin ikkunalle lasketaan ikkunan pituudella korjattu uskottavuusosamäärä: P=( w 1 pi ) w , i=0 jossa pi on kunkin kodonin käyttöä kuvaava parametri, ja w on ikkunan pituus. Näin saadut arvot sijoitetaan kuvaajaan sekvenssikohdan funktiona (Kuva 29.2). Menetelmä on saatavilla esimerkiksi EMBOSS-ohjelmassa syco. Menetelmässä on erityisen tärkeää käyttää oikeaa, tutkittavalle lajille soveltuvaa kodoninkäyttötaulukkoa. Muutoin tulokset ovat merkityksettömiä tai geenialueen ennustus useimmiten ainakin pahasti pielessä. Kuva 29.2: Kodoninkäyttöä kuvaava viivakaavio, jossa sekvenssi on esitetty kolmessa eri lukuraamissa. Kodoninkäytön perusteella näyttää siltä, että geeni alkaa noin sekvenssikohdasta 140 (toinen lukuraami) ja jatkuu aina sekvenssin loppuun. Näillä alueilla uskottavuusosamäärän arvo on suurempi kuin 1 eli ne todennäköisesti ovat koodaavia alueita. Alueet, joilla uskottavuusosamäärä on alle 1, ovat todennäköisesti ei koodaavia. 29.3 DNA:ta jäsentävien alueiden paikantaminen Eukaryooteilla DNA sitoutuu histoni-proteiineihin ja muodostaa nukleosomeiksi kutsuttuja rakenteita. Nukleosomirakenne on luultavasti tärkeä geenisäätelyn kannalta, sillä DNA:n sitoutuminen histoneihin voi estää joitakin säätelytekijöistä sitoutumasta ja siten vaikuttaa geenin ilmentymiseen. Yhden histonin ympärille kääriytyy noin 200 emäsparia DNA:ta, ja sitoutumiseen osallistuvien alueiden täytyy sijaita DNA:ssa "samaan suuntaan"siis aina DNA-kaksoiskierteen vaon samalla 312 Bioinformatiikan perusteet puolella. Genomisesta DNA:sta on löydetty toistuvia alueita, joiden epäillään liittyvän nukleosomirakenteiden muodostukseen. Nämä alueet näyttävät korreloivan tunnetun nukleosomirakenteen kanssa eikä niitä löydy esitumallisilta, joilla DNA ei muodosta nukleosomirakenteita. Baldi (1996) on muodostanut HMM-mallin, jolla nukleosomiin sitouvia alueita voidaan ennustaa. Malli perustuu tällaisten alueiden periodisuuteen: Sitoutuvat alueet esiintyvät 10 nukleotidin välein, sillä yhdessä kaksoinkierteen pyörähdyksessä on kymmenen nukleotidia. Periodisuus tulee siitä, että sitoutumisalueiden tulee olla aina samalla puolella DNA-molekyyliä, siis kymmenen nukleotidin välein. Myös matrix attachment regions (MARs) -alueita on mahdollista ennustaa. MARs-alueet sijaitsevat usein geenien tai geeniryppäiden ylä- ja alapuolella, ja niiden ajatellaan järjestävän DNA:n suuremmiksi laskoksiksi. MARs-alueiden ajatellaan säätelevän geenien ilmentymistä siten, että niiden avulla tietyt DNA:n osat voidaan sijoittaa tumassa alueille, joilla geenejä transkriboidaan tai niitä käyttäen geenit voidaan myös sijoittaa tuman inaktiivisille alueille. Ne saattavat myös estää esimerkiksi geenejä aktivoivien transkriptiotekijöiden vaikutuksen välittymisen kohdegeeniä kauemmas. MARs-alueilta on tunnistettu MAR recognition signature (MRS), joka ei ole yhtenäinen sekvenssihahmo, vaan se koostuu kahdesta toisistaan alle 200 bp:n etäisyydellä olevista sekvenssihahmoista, ja ne voivat mennä myös keskenään päällekkäin. Tähän mennessä tunnistetut hahmot ovat AATAAYAA ja AWWRTAANNWWGNNNC. Kaikilla MARs-alueilla ei kuitenkaan näytä olevan mainittuja sekvenssihahmoja, ja niiden avulla voidaankin ennustaa oikein korkeitaan noin 80% MARs-alueista. Onkin luultavaa, että osassa MARs-alueista on vielä tunnistamattomia sekvenssihahmoja. MARs-alueiden tunnistamisesta on se hyöty, että jos sekvenssistä sellaisia löytyy, ne välttämättä leimaavat sekvenssialueen ekspressoiduksi. Alueita voidaan ennustaa esimerkiksi EMBOSS-paketin ohjelmalla marscan. 29.4 Esitumallisten geenien ennustaminen Esitumallisilla geenien ennustaminen on aitotumallisia helpompaa, sillä esitumallisten geeneissä on tiettyjä hyvin konservoituneita alueita, jotka helpottavat tunnistamista. Tällaisia alueita ovat esimerkiksi RNA-polymeraasin sitovat alueet (TTGACA ja TATAAT), kuten TATA-box, joka sijaitsee noin 35 nukleotidia ylävirtaan transkription aloituskohdasta, ja ribosomin sitoutumiskohta (GGAGG), joka merkkaa translaation aloituskohtaa. Lisäksi geenit yleensä alkavat metioniinia vastaavalla kodonilla (ATG), päättyvät stop-kodoniin (esimerkiksi TAA) ja niistä puuttuvat intronit. Esitumallisten geenien ennustamiseen käytetään useinmiten erilaisia HMMmalleja, jotka on kalibroitu tiettyä bakteeria tai bakteerijoukkoa ajatellen. HMMmalliin sisältyy ajatus, että geeni alkaa aina ATG-kodonilla, jatkuu n:llä kappaleella muita kodoneita (61 mahdollisuutta), ja päättyy aina lopetuskodoniin. Siten mallissa voidaan edetä aloituskodonista muihin kodoneihin, muttei muista kodoneista takaisin aloituskodoniin. Samaten muista kodoneista on mahdollisuus edetä vain muihin kodoneihin tai lopetuskodoniin. Näin määritellyn mallin parametrit arvioidaan tunnetusta geenijoukosta, ja luodulla ladatulla mallilla voidaan sitten ennustaa tuntemattomissa sekvensseissä sijaitsevia mahdollisia geenialueita. Seuraavassa on lyhyesti kuvattu, kuinka muiden kuin aloitus- ja lopetuskodonien ennustaminen HMM-mallilla tapahtuu. Kuvassa 29.3 on esimerkki erään HMM-mallin käyttämästä kodonintunnistusvaiheesta. Kutakin kodonia voidaan kuvata yhdellä tällaisella kodonimallilla, ja kuvassa on esitetty metioniinia (ATG) kuvaava kodonimalli. Malli koostuu kolmenlaisista palikoista: osuma (neliö), insertio (vinoneliö) ja deleetio (ympyrä). Kutakin kodonia kohden muodostetaan vastaavanlainen malli. Insertioita ja deleetioita tarvitaan mallissa siksi, että useinmiten mallin lataamiseen käytetyssä datassa joissa- 29 Geenirakenteen ennustaminen 313 kin kohdin on insertioita tai deleetioita, ja näiden tapahtuminen pitäminen mallissa mahdollistaa myös niiden ottamisen huomioon geeniä ennustettaessa. Jos mallin lataamiseen käytetyssä datassa ei koskaan esiintyisi insertioita tai deleetioita, voitaisiin ne jättää myös pois. Kullakin osumaa merkitsevällä kohdalla on tietty todennäköisyys edustaa A:ta, C:tä, G:tä tai T:tä. Tässä mallissa kussakin positiossa voi esiintyä vain yhtä tiettyä nukleotidia. Nuolet merkitsevät mihin suuntaan kodonimallissa voidaan edetä. Kuva 29.3: kodoni. Esimerkki siitä, miten kolmannen asteen HMM-mallissa esitetään kukin Yllä esitelty malli on kolmannen asteen HMM-malli, sillä siinä otetaan huomioon vain yksi kodoni, jonka pituus on kolme nukleotidia (siitä siis nimi kolmannen asteen malli). On kuitenkin havaittu, että peräkkäisten kodonien välillä on korrelaatiota sen suhteen, mitä kodonia kulloinkin käytetään. Siksi useimmiten otetaankin huomioon myös ennustettavaa kodonia edeltävä kodoni, ja tällaista mallia kutsutaan viidennen asteen HMM-malliksi. Viidennen asteen malleissa käytetään siis tavallaan sananpituutta viisi koodaavien ja ei-koodaavien aluieiden erottamiseen. Esimerkiksi GeneMark-ennustusohjelma käyttää tällaista viidennen asteen mallia laatiessaan ennusteita (Lukashin, 1998). Ongelmana viidennen asteen malleissa on, että sekä mallin lataamiseen käytetyissä sekvensseissä että tuttemattomissa sekvensseissä tulee olla riittävästi edustusta kustakin erilaisesta heksameeristä. Ongelmaa on pyritty ratkomaan esimerkiksi ohjelmassa Glimmer käyttämällä sellaista pituutta, joka vielä takaa riittävän edustuksen. Jos esimerkiksi tetrameerejä löytyy sekvensseistä riittävästi, muttai ainoastaan muutamia heksameerejä, käytetään pääsääntöisesti mallissa tetrameerejä, mutta silloin kun se on mahdollista, preferoiden heksameerejä. Menetelmää kutsutaan interpolated Markov model:ksi (IMM). Yleisesti ottaen mallien tarkkuus paranee, mitä pidempiä malleja käytetään, mutta käytännössä tästä joudutaan yleensä tinkimään lyhyempien mallien hyväksi aineiston rajoitusten vuoksi (Salzberg, 1998). HMM- ja IMM-mallein on mahdollista ennustaa bakteerigeenien sijainti bakteerigenomeisa suhteellisen luotettavasti, olettaen että mallien lataamiseen käytetty aineisto on itsessään luotettavaa. Mainittuja menetelmiä käyttäen on mahdollista ennustaa noin 65-80% geeneistä oikein. 314 29.5 Bioinformatiikan perusteet Aitotumallisten geenien ennustaminen Aitotumallisten geenirakenteen selvittäminen on vaikeampi ongelma kuin esitumallisten geenien ennustaminen: Aitotumallisten geeneissä on introneita, jotka pätkivät koodaavaan alueen toisinaan hyvinkin lyhyiksi epäyhtenäisiksi paloiksi, eivätkä introni-eksoni-rajapinnat määräävät sekvenssihahmot ole kovin konservoituneita. Yleensä geenin paikallistaminen tuntemattomassa sekvenssissä nojaakin eksonien tunnistamiseen esimerkiksi niiden introneista poikkevan kodonikäytön perusteella, eksoni-introni-rajapintojen eli RNA:n silmukointikohtien tunnistamiseen ja geenin promoottorialueen selvittämiseen. Neuroverkot soveltuvat hyvin käytettäväksi aitotumallisten geenien tunnistamiseen, sillä ne ovat herkkiä menetelmiä, ja pystyvät siten havaitsemaan sekvensseistä hyvin heikkojakin signaaleja (sekvenssihahmoja, jotka ovat heikosti konservoituneita). Menetelmät käyttävät hyväkseen tietoa heksameerien (6 bp:n mittaisten pätkien) jakaumasta tunnettujen geenien eksoneihin ja introneihin, ja pyrkivät sen perusteella ennustamaan mitkä alueet kuuluvat introneihin, mitkä eksoneihin. Lisäksi käytetään hyväksi tietoa muun muassa alueen ja sitä ympäröivän genomin GC%:sta. Jos ennustetusta geenistä löytyy useampia aloituskodoneita, valitaan "oikeaksi"aloituskodoniksi se, joka on lähinnä ensimmäisen eksonin 5´-päätä. Tämä ei biologisesti aina pidä paikkaansa, sillä erityisesti geenien ensimmäissä eksoneissa esiintyy runsaasti vaihtelee silmukointia, mutta asiaa ei voida bioinformatiikan menetelmin ennustaa sen tarkemmin, ellei käytössä ole esimerkiksi geeniä vastaavai mRNA- tai EST-sekvenssejä joko samasta lajista tai ainakin hyvin lähisukuisista lajeista. Yksinkertainen neuroverkko (Kuva 29.4) koostuu kolmesta kerroksesta, syötekerroksesta, piilokerroksesta ja tuloskerroksesta. Neuroverkoissa on ideana tuottaa verkko, joka sopivalle syötteellä opetettuna osaa tuottaa tuntemattomille syötteille ennusteen. Ideaa sovelletaan seuraavassa geenien ennustamiseen, mutta samaa periaatetta käytetään monissa muissakin yhteyksissä. Neuroverkkosovelluksille on kuitenkin yhteistä, että ohjelma annetaan syöte (syötekerros), minkä jälkeen piilokerroksessa muodostetaan näiden syötteiden välille tietynlaisia päätössääntöjä. Päätössääntöjen keskinäistä merkittävyyttä painotetaan opetukseen käytettävän aineiston perusteella, ja tuloksena on ennustaja, joka ossa tuottaa uudelle aineistolle ennusteen. Periaatetta sovelletaan geenien ennustamiseen esimerkiksi ohjelmissa Grail (nykyisin GrailEXP) ja GeneParser. Ohjelmille syötetään jokin tuntematon sekvenssi, ja ne ennustavat muun muassa eksonien sijainnit. Kullekin tietyn ikkunan mittaiselle sekvenssille lasketaan ennalta opetettua neuroverkkoa käyttäen todennäköisyys, että se kuuluu koodaavaan alueeseen. Lisäksi neuroverkkomenetelmissä voidaan soveltaa myös dynaamista optimointi siten, että pyritään löytämään paras sellainen geenirakenne (edellä laskettuja todennäköisyyksiä käyttäen), jossa eksonit ja intronit vuorottelevat. Neuroverkkomenetelmät eivät ole ainoita aitotumallisten geenien ennustamiseen käytettyjä menetelmiä, mutta suhteellisesti parhaiten toimivia. Esimerkiksi ohjelmat HEXON ja FGENES käyttävät menetelmää, jossa tunnetuille eksoneille ja introneille lasketaan niiden kodoniharha heksanukleotideja käyttäen. Ennustettaessa tuntemattoman sekvenssien eksoneja, kullekin tietyn ikkunan mittaiselle DNApätkälle lasketaan kodoniharha-arvot, ja ne sijoitetaan samaan kuvaajaan tunnetuista introneista ja eksoneista laskettujen kanssa. Jos tuntematon sekvenssi sijoittu selvästi joko intronien tai eksonien joukkoon, voidaan sen suurella todennäköisyydellä sanoa olevan jompaa kumpaa, riippuen siitä, kumpien joukkoon se sijoittui. Introni- ja eksonijoukkojen erotteluun voidaan käyttää esimerkiksi tilastotieteestä tuttua lineaarista erotteluanalyysiä (Solovyev, 1994). 29 Geenirakenteen ennustaminen 315 Kuva 29.4: Neuroverkkosovelluksen periaate. Neuroverkko koostuu syöte-, (mustat pallot) piilo-, (harmaat pallot) ja tuloskerroksista (laatikko). Neuroverkolle annetaan syöte, kuten geenisekvessin GC% ym., joka piilokerroksessa analysoidaan päätössääntöjen muodostamiseksi. Kun opetettua neuroverkkoa käytetään ennustusten tekemiseen tuntamttomille sekvensseille, ne antavat tulokseksi ennusteen geenin rakenteesta (nuoli). 29.6 Ennustusmenetelmien tarkkuus Eri geeniennustusmenetelmien keskinäisen paremmuuden selvittäminen ei ole järin helppoa, sillä monilla ohjelmilla on esimerkiksi lajikohtaisia vahvuusalueita, ja kokonaiskuvan hahmottaminen voi olla vaikeaa. Esimerkiksi Rogic (2001) selvitti eri ohjelmien toimivuutta nisäkkäiden sekvensseillä, ja havaitsi, että perinteisesti erittäin hyväksi ennustajaksi koettu Genscan (yhdistelee eri lähestymistapoja) häviää toisinaan HMMgene:lle (käyttää erityisesti geenien ennustamiseen optimoituja HMM-malleja). Erityisesti sekvenssien ollessa erittäin GC-pitoisia, pitkiä tai useista eksoneista koostuvia, on ero huomattava HMMgenen eduksi. Muista vertailuista yhteenvetona voidaan sanoa, että suurin osa menetelmistä on optimoitu joko bakteeri- tai nisäkäsgeeneille, ja esimerkiksi kasvien kohdalla ohjelmatarjonta on huomattavasti vähäisempää. 316 Bioinformatiikan perusteet 30 Vertaileva genomiikka 30.1 Mitä on vertaileva genomiikka? Vertailevalla genomiikalla tarkoitetaan menetelmiä, joilla eliöiden genomeja vertaillaan toisiinsa sekä geenisisällön että geenien lukumäärän ja sijainnin suhteen. Vertaileva genomiikka perustuu pitkälti kokonaisten genomien vertailuun keskenään, mutta samoja menetelmiä voidaan soveltaa myös vaillinaisillakin genomeilla, esimerkiksi kokonaisia kromosomeja käyttäen. Tehokkaimmillaan vertaileva genomiikka kuitenkin on, jos vertaillaan eliöiden kokonaisia genomeja. Tällöin eri eliöiden kokonaisten geenistöjen tai proteomien (eliön koko proteiinisisältö) vertailun avulla voidaan etsiä esimerkiksi keskenään ortologisia geenejä. Koska genomin olleessa tunnettu, tiedetään kaikkien geenien sijainti kromosomistossa, ja eri eliöistä voidaan etsiä alueita, jotka ovat kaikissa eliöissä konservoituneita tai joilla geenit sijaitsevat samassa järjestyksessä. Tällaisilla alueilla on usein yhteinen evoluutiohistoria. Vertailevan genomiikan keinoin on mahdollista tutkia ja ymmärtää kokonaisten genomien, mutta toisaalta myös yksittäisten geenien tai proteiinien evoluutiota huomattavasti tarkemmin kuin käyttäen perinteisiä kahden välisiä vertailuja. Geenit koostuvat introneista ja eksoneista, ja evoluution kuluessa geenirakenne voi muuttua, sillä geenistä saattaa hävitä introneita ja eksoneita tai niitä voi tulla lisää. Tämä voi puolestaa heijastua myös proteiinirakenteeseen. Proteiinithan koostuvat dommeeneista, toiminnallisista alayksiköistä, ja niitä voi tulla lisää tai hävita saman perheen proteiineista evoluution aikana. Myös geeniduplikaatiot (geenien kopioituminen) tuottavat uusia geenejä ja uusia toiminnallisia ratkaisuja. Tällaisten duplikaatioiden jäljittäminen myös laajemmalti on erittäin mielenkiintoista, sillä siten saadaan usein varsin yksityiskohtaista tietoa genomien evoluutiosta. Eri evolutiivisten etäisyyksien päässä toisistaan olevien genomien vertaaminen vastaa erilaisiin kysymyksiin. Jos tutkitaan hyvin läheisten lajien genomeja, voidaan etsiä esimerkiksi geenejä, jotka erottelevat lajeja, tai jotka tuottavat eliölle joitakin lajikohtaisia ominaisuuksia, jotka erottelevat sen muista tutkittavista lajeista. Jos tutkitaan keskimääräisellä etäisyydellä toisistaan olevia genomeja, voidaan etsiä esimerkiksi sellaisia genomin alueita, joihin näyttää evoluutiossa kohdistuvan suuntaavaa valintaa, siis sellaisia alueita, jotka ovat todennäköisesti eliön toiminnalle keskeisiä. Konservoituneilla alueilla sijaitsee kuitenkin usein funktionaalisen DNA:n lisäksi myös DNA:ta, jolla ei näytä olevan mitään erityistä funktiota. Tutkittaessa hyvin kaukana toisistaan olevia genomeja, voidaan lähinnä pyrkiä hahmottamaan esimerkiksi mitkä geenit ovat yhteisiä kaikille monisoluisille eläimille tai ovat ylipäätään välttämättömiä itsenäiselle elämälle. Läheisiksi lajeiksi katsotaan tässä sellaiset, joita erottaa korkeintaan muutaman kymmenen miljoonaa vuotta, keskipitkällä etäisyydellä tarkoitetaan joitakin kymmeniä, kenties joitakin satoja miljoonia vuosia, ja pitkällä etäisyydellä satoja miljoonia vuosia. Esimerkiksi ihmisen ja ihmisen vertailu sijoittuu lyhyelle etäisyydelle (5 miljoonaa vuotta), ihmisen ja hiiren (75-80 miljoonaa vuotta) tai ihmisen ja kanan (300 miljoonaa vuotta) keskipitkälle etäisyydelle ja ihmisen ja kalan vertailu pitkälle etäisyydelle (400 miljoonaa vuotta). 30 Vertaileva genomiikka 317 Vertaileva genomiikka perustuu siis pitkälti eri eliöiden sekvenssien vertailuun. Sekvenssien vertailu tapahtuu käyttäen jo aiemmin kuvattuja menetelmiä, kuten BLAST-haut ja usean sekvenssin rinnastukset. Vertailevaan genomiikkaan tarkoitetut ohjelmistot ovat kuitenkin usein alkuperäisversioitaan viritellympiä, sillä miljoonien nukleotidien rinnastaminen keskenään vaatii hieman erilaisia menetelmiä kuin esimerkiksi sekvenssihaut. Esimerkiksi BLAST-ohjelmiston vertailevaan genomiikka tarkoitetu versio MegaBLAST tarjoaa mahdollisuuden hyvin pitkien sekvenssien rinnastamiseen muun muassa siksi, että sen vertailussa käyttämä sanapituus on hyvin pitkä (>30 bp). Tällaiset ratkaisut tekevät vertailun mahdolliseksi, mutta toisaalta ne toimivat vain varsin samankaltaisille sekvensseille. Seuraavassa esitellään muutamia vertailevan genomiikan sovelluksia, jotka perustuvat pitkälti sekvenssivertailuihin. 30.2 DNA-sekvenssin konservoituminen 30.2.1 Geenirakenteen säilyminen Vertailevan genomiikan työkaluin voidaan selvittää, mikä toiminnallisessa geenissä on erityisen oleellista tai mitkä alueet lähisukuisilla lajeilla ovat konservoituneet. Konservoituneilla alueilla on usein jokin toiminnallinen merkitys, ja niinpä niiden selvittäminen on geenin tarkemman tuntemisen kannalta oleellista. Promoottorianalyysin yhteydessä käsiteltiin transkriptiofaktoreiden mahdollisten sitoutumispaikkojen kartoittamista fylogeneettistä jalanjälkianalyysiä käyttäen. Geenirakenteen säilymisen selvittämisessä on tismalleen sama idea: pyritään selvittämään geenin toiminnalle oleelliset rakenteet lajien välistä vertailua käyttäen. Geenirakenteen selvittämisessä genomitietokannat, kuten Ensembl ja UCSC ovat ensiluokkaisia työkaluja. Myös tarkoitukseen eriyisesti suunnilteltu palvelu Vista (http://genome.lbl.gov/vista/) tarjoaa hyödyllisiä mahdollisuuksia. Vistapalveluun on sijoitettu suuri määrä valmiiksi laskettuja vertailuja eri lajien välillä, mutta Vistaa käyttäen voi analysoida myös omia sekvenssejään. Kuvassa 30.1 on esitetty Vista-palvelun käyttöliittymä. Vista-palvelua on käytetty myös ENCODE-projektissa, jossa tarkoituksena on luoda tietämystä eläinten geenien ja genomien evoluutiosta. Projekti toimii varsinaisesti USCS:n kanssa yhteistyössä, ja tulosten selaaminen on mahdollista myös USCS:n genomitietokannasta käsin. ENCODE-projekti on muun muassa selvittänyt CFTR-geenin evoluutiota (Blanchette, 2004). CFTR-geeni koodittaa kloridikanavaa, ja geenissa tapahtunut virhe aiheuttaa vakavan perinnöllisen sairauden, kystisen fibroosin. Lääketieteellisen mielenkiinnon vuoksi geenin kohdistuu myös suurta akatemista mielenkiintoa, sillä geeni on valtavan suuri, jopa tavanomaisten geenien mittapuun mukaan, ja koostuu kymmenistä yksittäisistä eksoneista (Kuva 30.2), joten geenin evoluution mallittaminen oli varmasti haastava ja mielenkiintoinen ongelma. Tutkimuksen tarkoituksena oli myös laajentaa paleogenomiikan (varhaisten eliöiden genomien tutkimusta nykyeliöiden genomeiden pohjalta) näkökulmaa, sillä suurin osa paleogenomiikan tutkimuksesta oli keskittynyt selvittämään geenien järjestyksen perusteella eliöiden genomien muutoksia ja niiden evoluutiota. Vista käyttää omia algoritmejaan (AVID: Bray, 2003; LAGAN ja MLAGAN: Brudno, 2003) sekvenssien rinnastukseen. Molemmat rinnastusmenetelmät on optimoitu erityisesti pitkien sekvenssien rinnastukseen. Sekä AVID- että LAGANmenetelmät on tarkoitettu kahden sekvenssin kokonaisrinnastuksen muodostamiseen. MLAGAN on LAGAN-menetelmän laajennus useammille sekvensseille. Kaikissa kolmessa menetelmässä ennen varsinaisen kokonaisrinnastuksen muodostamista sekvensseistä etsitään lyhyitä toisilleen hyvin samankaltaisia ankkurikohtia, jotka rinnastetaan. Esimerkiksi, jos rinnastettaisiin kokonaisia kromosomeja, voisivat kromosomin päissä sijaitsevat telomeerit ja keskellä sijaitseva sentromeeri 318 Bioinformatiikan perusteet Kuva 30.1: Esimerkki Vista-palvelun käyttöliittymästä. Kuvassa on esitetty metyleenitetrahydroksifolaattireduktaasi -entsyymin geenin rakenteen konservoituminen evoluutiossa sammakosta ja kanasta ihmiseen. Punaisella väritetyt alueet vastaavat konservoituneita eikoodaavia alueita, sinisellä merkityt eksoneita. Geenin lukusuunta on merkitty nuolella, joka kulkee tässä oikealta vasemmalle. Ihmisen ja koiran vertailussa suuri osa geeninalueesta on konservoitunut, ja geenin yläpuolella sijaitsevasta säätelyalueestakin on konservoitunut suhteellisen pitkä alue. Lisäksi likimain intronien keskellä sijaitsevat alueet ovat jokseenkin konservoituneita, mikä voi kieliä niiden toiminnallisesta merkityksestä. Mitä kauemmas ihmisestä siirrytään, sitä vähemman konservoituneita alueita on, ja sammakon ja ihmisen välillä ainoastaan eksonirakenne näyttää konservoituneelta. toimia ankkurikohtina. Ankkureiden löytymisen jälkeen niiden rinnastusta ei enää muuteta, ainoastaan ankkurikohtien väliset ja ulkopuoliset alueet rinnastetaan. Kromosomiesimerkissä siis rinnastettaisiin seuraavaksi kromosomin käsivarret. Ankkurikohtien väliset alueet rinnastetaan Needleman-Wunchin dynaamista optimointialgorimia käytäen. MLAGAN-menetelmässä usean sekvenssin rinnastus muodostetaan progressiivista usean sekvenssin rinnastusta käyttäen, mutta siinäkin sovelletaan dynaamista optimointi varsinaisen rinnastuksen tuottamiseen. Rinnastuksen muodostamisen jälkeen se visualisoidaan Vista-ohjelmistoa käyttäen. AVID- ja MLAGAN-menetelmät näyttävät toimivan varsin hyvin. Esimerkiksi pitkiä sekvenssejä rinnastettaessa Clustal selviytyi rinnastuksesta heikommin kuin MLAGAN (Brudno, 2001). Lisäksi menetelmät ovat tavanomaisia rinnastusmenetelmiä huomattavasti (noin 20-kertaa) nopeampia. 30.2.2 Rakenne-DNA:n säilyminen Rakenne-DNA:n kuten geenien välisten alueiden, introneiden ja promoottorialueiden konservoitumisen tutkimus on viime vuosina harpannut aimo askeleita eteenpäin useiden monisoluisten eliöiden genomisekvenssien valmistuttua. Rakenne-DNA:n säilymistä tutkitaan tismalleen samalla tavoin kuin geenirakenteen säilymistäkin, suurten sekvenssialueiden rinnastusten perusteella. Perusoletuksena on, että sellai- 30 Vertaileva genomiikka 319 Kuva 30.2: CFTR-geenin vertailu 11 lajilla. Ihminen toimi vertailussa verrokkina, ja kaikki kuvatut konservoitumisasteet on siis esitetty suhteessa ihmisen genomiin. CFTRgeenin eksonirakenne on kaikilla nisäkkäillä varsin konservoitunut, mikä tarkoittanee sitä, että mutaatiot ovat karsiutuneet voimakkaan valintapaineen seurauksena populaatiosta; geenillä lienee siis tärkeä merkitys nisäkässolujen toiminnalle. set alueet, jotka ovat evoluutiossa konservoituneet eli säilyneet muuttumattomina, ovat jollakin tapaa eliölle hyödyllisiä tai sen toiminnalle välttämättömiä. Usein konservoitunut rakenne-DNA sijoittuu geenien promoottorialueille, mutta konservoituneita alueita tavataan myös geenien välisiltä alueilta. Tällaisilla alueilla voi hyvinkin olla jokin funktio, jota voidaan tarkemmin tutkia sopivilla laboratoriomenetelmillä, mutta saattaa myös olla, että konservoituneen alueen olemassaolo on silkkaa sattumaa. Esimerkiksi ihmisen genomin eri alueiden evoluutionopeus vaihtelee alueesta toiseen huomattavasti, ja konservoitunut alue voi vain sattumalta kuulua hyvin hitaasti muuttuvaan genomialueeseen. Ihmisen genomista noin 23%:n arvioidaan vastaavan geenejä, ja noin 5%:n on arvioitu muuttuvan hitaammin kuin neutraalin valinnan perusteella voitaisiin olettaa. Siis, noin 2-3%:a ihmisen genomin konservoituneista alueista sijaitsee geenien ulkopuolisilla alueilla. Näiden toimintaa ei vielä täysin ymmärretä, ja vaikka genomialueella ei laboratoriotutkimuksissa havaittaisikaan mitään funktiota, ei se silti tarkoita sitä, ettei sillä sellaista olisi. Laboratoriokokeemme vain saattaa mitata jotakin asiaa, johon genomialue ei vaikuta. 30.2.3 Neutraalievoluution alueiden tunnistaminen DNA:n konservoitumista tai siinä tapahtuneen evoluution määrää voidaan mitata eri tavoin. Eräs yksinkertaisimmista tavoista hahmottaa DNA:ssa tapahtuneiden muutosten määriä, on selvittää genomialueella olevien SNP:ien lukumäärä. Kuvassa 30.3 on kuvattu SNP:ien lukumäärä koko kromosomin pituudelta. Kromosomin sentrosomissa SNP:jä on hyvin vähän, sillä tällaisia alueita on vaikea sekvensoida, ja niiltä on siten hyvin vähän aineistoa. SNP:ien lukumäärä korreloi kromosomita- 320 Bioinformatiikan perusteet solla geenien lukumäärän kanssa, joskin korrelaation on heikohko. Ihmisen kromosomi X on tässä tapauksessa poikkeus, sillä siinä tunnettujen geenien lukumäärän ja SNP:ien lukumäärän välinen korrelaation on suhteellisen voimakas. Esimerkiksi kromosomiraidoissa q21.31-q21.33 on hyvin vähän geenejä, mutta suhteessa muuhun kromosomiin varsin paljon SNP:jä. Pelkkien SNP:den lukumäärän selvittäminen ei riitä, sillä yksilöt voivat olla SNP:ien suhteen joko hetero- tai homotsygoottisia. Yksilöillä voi siis olla molemmissa geenikopioissaan sama SNP-muoto (homotsygotia) tai eri SNP-muoto (heterotsygotia). Suuntaava valinta pyrkii vähentämään yksilöiden heterotsygotia-astetta (kuinka moni populaation yksilöistä on keskimäärin heterotsygoottinen tutkittavan SNP:n suhteen), ja negatiivinen valinta puolestaan lisää heterotsygotia-astetta. Ilmiöön vaikuttaa kuitenkin myös rekombinaation määrä tutkittavalla kromosomialueella. Kromosomialueet, joilla tapahtuu hyvin vähän rekombinaatiota, ovat myös hyvin alhaisia heterotsygotia-asteeltaan. Heterotsygotia-asteen määrittämiseen riittää tutkittavan populaation tuntemus, siis tieto saman lajin eri yksilöistä riittää. Alueita, joihin kohdistuu selektiota, voidaan etsiä esimerkiksi jotakin sopivaa tilastollista testiä käyttäen. Erään soveltuvan testin on esittänyt Tajima (1989). Neutraalisti evolvoituvien alueiden tunnistamiseen ja tarkempaan kuvailuun voidaan käyttää lajien välisiä vertailuja. Tällaisia vertailuja on tehty valmiiksi, ja niiden perusteella on tiettyä fylogeneettistä-HMM-mallia käyttäen laskettu eri ihmisen genomialueiden konservoitumisaste. Mitä korkeampi on tällä tavoin laskettu konservoitumisaste, sitä suuremmalla syyllä ko. alueen voidaan olettaa jollakin tapaa toiminnallinen ja siksi hyvin konservoitunut. UCSC:n genomiselaimessa (Kuva 30.4 konservoitumisasteet esitetään genomialuerinnastuksen ohessa. Konservoitumisastetta tarkastelemalla on usein helppo huomata, että se on keskimäärin korkeimmillaan eksoneissa sekä mahdollisesti geenisäätelyyn osallistuvilla promoottorialueilla. Perinteisesti käytetty menetelmä neutraalisti evolvoituvien sekvenssien tunnistamiseen on synonyymisten (K s )ja ei-synonyymisten (K a ) nukleotidikorvautumisten suhde (K a /K s -suhde). Synonyyminen korvautuminen on sellainen, joka ei aiheuta aminohappomuutosta geeniä vastaavassa aminohapposekvenssissä. Ei-synonyyminen korvautuminen puolestaan aiheuttaa aminohappokorvautumisen. Jos geenin kohdistuva evoluutio on neutraalia, on synonyymisten ja ei-synonyymisten muutosten suhde 1 tai ainakin hyvin lähellä sitä. Jos K a /K s -suhde on suurempi kuin 1 on kyse positiivisesta (suuntaavasta) valinnasta, joka pyrkii vakauttamaan tiettyjen muutosten frekvenssin populaatiossa. Jos K a /K s -suhde on pienempi kuin 1 on kyse negatiivisesta valinnasta, joka pyrkii poistamaan muutoksia populaatiosta tai estämään niiden yleistymisen. Tällaiset muutokset ovat eliölle jollakin tapaa haitallisia, ja ne pyrkivät siten harvinaistumaan populaatiossa. K a /K s -suhteen laskeminen edellyttää tietoa useista eri lajeista, sillä muutoin muutosten laatua ei tietenkään pystytä selvittämään. Suhteen laskemisen jälkeen päätellään vaikkapa jotakin soveltuvaa tilastillista testiä (Yang, 2002) käyttäen, onko tutkittava alue valinnan kannalta neutraali. 30.2.4 Ihmisen ja hiiren vertailuista opittua Hiiren ja ihmisen kantamuodot erkaantuivat noin 75-80 miljoonaa vuotta sitten. Genomimme ovat kuitenkin säilyneet yllättävän samankaltaisina. Noin 90% ihmisen genomista sijaitsee jaksoina, joille on mahdollista löytää vastine hiiren genomista (syntenia). Liki kaikki (99%) ihmisen proteiineja koodaavat geenit rinnastuvat hiiren geenien kanssa, ja noin 80%:lle on mahdollista löytää 1:1 ortologinen geeni hiiren genomista. Nukleotiditasolla noin 40% ihmisen genomista rinnastuu suoraan hiiren genomin kanssa, ja loppu 60% jakaantuu ainakin kahteen osaan. Ensimmäinen osa, noin 24% genomista koostuu kopiojaksoista, jotka syntyivät transpositiolla (DNA-jakso kahdentui ja kopio liittyi genomissa uuteen paikkaan) ihmisen evoluutiolinjassa, eikä niille siten löydy vastinetta hiirestä. Loppua 36% ihmisen 30 Vertaileva genomiikka Kuva 30.3: Geenien ja SNP:ien lukumäärä sekä GC% ihmisen kromosomissa X. 321 322 Bioinformatiikan perusteet Kuva 30.4: Esimerkki UCSC:n genomiselaimen näkymästä. genomista ei voida suora rinnastaa hiiren genomiin. Tämä voi johtua esimerkiksi siitä, että vaikka sekvenssialueet olisivatkin ortologisia, on niille voinut sattua niin paljon mutaatioita, ettei sekvenssjeä enää voida tunnistaa samankaltaisiksi nykyisiä rinnastusmenetelmiä käyttäen. 30.3 Geeni- ja genomiduplikaatiot 30.3.1 Geeniduplikaatiot Geeniduplikaatiot ovat suhteellisen yleisiä eliöiden genomeissa. Alkuperäisgeenin kahdentuessa voi muodostua toimivia, mutta periaatteessa tarpeettomia kopioita samasta geenistä tai toimittamia pseudogeenejä. Toimivat geenikopiot voivat evoluution aikana erkaantua alkuperäisgeenistä ja kehittää uusia toimintoja tai erikoistua ilmentymään jossakin tietyssä kudoksessa tai eliön kehitysvaiheen aikana. Geeniduplikaatioita voidaan etsiä vertaamalla koko eliön genomin koodittamia proteiineja niitä itseään vastaan esimerkiksi BLAST-hakuja käyttäen. Tällöin on mahdollista erotella kopioituneet geenit yksittäisinä kappaleina olevista geeneistä, ja jos sama analyysi toistetaan käyttäen myös sopivia DNA-sekvenssejä, voidaan pseudogeenit erotella toiminnallisista geenikopioista. Eliön sisäisiä vertailuja käyttäen voidaan etsiä vain kopioituneita geenejä, mutta paralogisten ja ortologisten geenikopioiden erotteleminen toisistaan vaatii myös lajien välisiä vertailuja. Jos sama geenikopio löytyy useammilta eliöiltä, on geeni eri lajeilla ortologinen, mutta jos geeni näyttää kopiotuneen vain yhdessä lajissa ovat sen kopiot keskenään paralogisia. Kun eliön proteiineja on vertailtuja niitä itseään vastaan BLAST-hauilla, on mahdollista ryhmitellä samankaltaiset proteiinit proteiiniperheisiin esimerkiksi niiden samankaltaisuusastetta käyttäen. Myös BLAST-haun tilastollista merkitsevyyttä (E-arvo) voidaan käyttää proteiinien luokittelemiseen: jos e-arvo on kovin suuri (>0.01), eivät proteiinit todennäköisesti kuulu samaan perheeseen. Proteiinien luokittelu voi tietenkin perustua myös niiden rinnastuksen perusteella muodostettuun fylogeneettiseen puuhun, ja usein näyttääkin siltä, että parittaisen rinnastuksen (BLAST) antamaa samankaltaisuusarviot paremman tulokseen saa käyttämällä 30 Vertaileva genomiikka 323 usean sekvenssin rinnastusta. Tällöin myös usean sekvenssin rinnastuksen perusteella muodostettu luokittelu on lähempänä oikeaa kuin BLAST-tulosten perusteella muodostettu. Proteiinien luokittelun perusteella voidaan arvioida eliössä olevien geeniperheiden lukumäärä, ja sitä kautta myös ennustaa millaisia biokemiallisia reittejä eliössä mahdollisesti on. Koska geenit, jotka kuuluvat samaan geeniperheeseen, ovat todennäköisesti syntyneet kahdentumalla jostakin alkuperäisestä geenistä, voidaan geeniperheiden avulla myös ennustaa eliön toiminnalle ehdottoman tarpeellisten entsyymien ja rakenneproteiinien sekä biokemiallisten reaktioiden kirjo. Se on yksinkertaisesti geeniperheiden lukumäärä. 30.3.2 Genomiduplikaatiot Kokonaisten genomien kopioituminen evoluutiossa on kasvien osalta tunnettu tosiseikka. On voitu kiistattomasti osoittaa, että lituruohon (Arabidopsis thaliana) genomi on tetraploidinen, mikä tarkoittaa sitä, että sen koko genomi on jossakin vaiheessa kertaalleen täydellisesti kopioitunut (itse asiassa neljässä vaiheessa). Sama ilmiö on havaittu leiviinhiivassa (Saccharomyces cerevisiae). Eläinten evoluutiossa tapahtuneet mahdolliset duplikaatiot eivät ole yhtä hyvin tunnettuja, osittain siksi, että vaillinaisen geenien ja niiden paikkojen tuntemuksen vuoksi eri eliöiden väliset vertailut eivät ole olleet yhtä informatiivisia kuin kasveilla. On kuitenkin ehdotettu, että eläinten evoluutiossa niiden genomi olisi kahdentunut ainakin kahdesti, ensimmäisen kerran mahdollisesti jo ennen kambrikautta (yli 650 miljoonaa vuotta sitten). Seuraavan duplikaation arvellaan tapahtuneen devonikaudella, ennen kuin leualliset ja leuattomat selkärankaiset erosivat toisistaan. Mahdollisen kolmannen duplikaation oletetaan tapahtuneen leuallisten ja leuattomien selkärankaisten evoluutiolinjojen jo erottua toisistaan noin 390 miljoonaa vuotta sitten. Kaksi viimeistä duplikaatiotapahtumaa muodostavat niin sanotun 2R-hypoteesin. Viuhkaeväisten kalojen ("tavallisten kalojen") genomin oletetaan läpikäyneen kolmannen duplikaation, mutta varsieväisten kalojen ja niistä polveutuvien maanisäkkäiden genomissa kolmatta duplikaatiota ei olisi tapahtunut (Vandepoele, 2004). Vaikka viuhkaeväisten kalojen tapauksessa suuri osa kopioituneista geeneistä näyttääkin muuttuneen pseudogeeneiksi, on osa varmasti kehittynyt uusiksi geenimuodoiksi, mikä saattaa osaltaan selittää, miksi kalat ovat niin hyvin menestynyt eliöryhmä: niillä on yksinkertaisesti ollut genomissa runsaasti potentiaalia erikoistumiseen. Sama hypoteesi saattaa selittää sen, miksi lajien määrä moninkertaistui kambrikaudella: eliöiden genomin koon kasvaessa erilaisille kokeiluille aukeni uusia mahdollisuuksia. Miten duplikoituneita genomialueita sitten etsitään? Käytössä on useitakin menetelmiä, mutta suosituimpia lienevät edelleen pistematriisikuviot ja BLASThaut tai sitä vastaavat menetemälliset muunnokset, kuten PiPMaker, MUMmer ja BLAT. Hauissa käytetään useimmiten aminohapposekvenssejä, ja jos useampia eri geenien osumia (hyviä sellaisia!) sattuu vähintää kahdelle eri kromosomialueelle, voidaan alueen mahdollisesti olettaa olevan duplikoitunut. Jotta duplikoituminen voitaisiin osoittaa, pitää alueilla lisäksi molemmilla alueilla olevien geenien olla samassa järjestyksessä, mutta molemmilla alueilla ei tarvitse olla tismalleen samoja geenejä, sillä osa on voinut hävitä duplikoitumisen jälkeen tai niitä on voinut tulla lisää. Lisäksi geenien lukusuunnan tulisi olla konservoitunut, jotta voitaisiin olla varmoja, että on kyse duplikaatiosta. Pistematriisimenetelmässä tuotetaan tavanomainen pistematriisi pitkää sanakokoa käyttäen, ja pistekuvioista etsitään sitten pidempiä samankaltaisia alueita. Tällaisia alueita voidaan niiden alkuperäisen tunnistuksen jälkeen tietenkin tutkia tarkemmin parittaisin vertailun, esimerkiksi BLAST-menetelmällä. Analyysin automatisoimiseksi on kehitetty muitakin menetelmiä. Esimerkiksi ADHoRe-menetelmä toimii pääpiirteissään seuraavasti (Vandepoele, 2002). ADHoRe vertaa kahta genomista fragmenttia, tyypillisesti kahta kromosomia keske- 324 Bioinformatiikan perusteet nään. Vertailu tapahtuu BLAST-haulla, jossa eri kromosomeissa olevien geenien translaatiotuotteita (aminohapposekvenssit) verrataan toisiinsa. Tämän jälkeen tulokset sijoitetaan m ∗ n-matriisiin, jossa m ja n ovat eri kromosomeista saatujen aminohapposekvenssien lukumäärät. Matriisiin merkitään nolla, jos aminohapposekvenssit eivät ole samankaltaisia, negatiivinen arvo, jos samankaltaisia aminohapposekvenssejä vastaavien geenien lukusuunta on toisiinsa nähden vastakkainen ja positiivinen luku, samankaltaisia aminohapposekvenssejä vastaavien geenien lukusuunta on sama. Tämän jälkeen duplikaatiot on helppo erottaa matriisista. Kokonaisten kromosomialueiden kopioituminen näkyy matriisissa ei-nollien lukuarvojen muodostamina lävistäjän suuntaisina ketjuina (kuten samankaltaiset alueet erottuvat pistematriisimenetelmässä). Jos sama geeni on kopioitunut, erotetaan tällaiset tandem-toistot joko pysty- tai vaakasuorina ei-nollien lukuarvojen muodostamina ketjuina. Löydettyjen kopioituneiden alueiden tilastollinen merkitsevyys voidaan arvioida esimerkiksi permutaatiomenetelmää käyttäen, jossa käytetyt aineistot sekoitetaan satunnaisesti ja analyysi toistetaan jokaiselle näin saadulle pseudoaineistolle. 30.4 Eliöiden geenisisältö Eliöiden proteiinisekvenssivertailujen perusteella on mahdollista tehdä johtopäätöksiä eliön keskeisistä tai omintakeisista proteiineista. Usein käy niin, että suurimmalle osalle vastikään sekvensoidun eliön proteiineista löytyy suora vastine jostakin muusta lajista. Kuitenkin suuri määrä proteiineja ei useinkaan vastaa yhtäkään toista vastaavankaltaista tunnettua proteiinia. Usein koko eliön genomin selvittämisen jälkeen onkin vielä suuri työ selvittää, mitä nämä aiemmin tuntemattomat proteiinit eliössä tekevät. Viime vuosina on kiinnostuttu määrittämään pienin mahdollisen geeni- tai proteiinijoukko, jolla eliö vielä on toimiva kokonaisuus. Tällaisen genijoukon määrittämiseen voidaan käyttää esimerkiksi vertailevan genomiikan suomia mahdollisuuksia. Pienin mahdollinen geenijoukko, joka mahdollistaa elämän, lienee se geenijoukko, joka on esimerkiksi kaikille tällä hetkellä tunnetuille bakteereille yhteinen. Apuna voidaan käyttää myös erikoistapauksia, kuten solunsisäisten parasiittien geenisisältöä. Esimerkiksi mykobakteereilla on hyvin vähän geenejä (alle 500), sillä ne loisivat aitotumallisten soluissa, ja siten niiden tarvitsee vain sisältää vain keskeisimmät aineenvaihduntaan liittyvät geenit, joita isäntöeliöltä ei löydy. Mykobakteerit eivät kuitenkaan yksinään tarjoa ratkaisua pienimmän geenijoukon ongelmaan, sillä ne menehtyvät välittömästi jouduttuaan isäntänsä ulkopuolelle, mutta niiden antamaa tietoa solun vaatimasta perusaineenvaihdunnasta voidaan käyttää apuna ongelmaa selvitettäessä. Nykyisen arvion mukaan, itsenäinen solu tarvitsee elämiseen ainakin noin 250-300 erillistä geeniä tai proteiinia, joten on mahdollista, että kaikkin tunnettujen nykyeliöiden genomit ovat syntyneet kopioitumalla ja erikoistumalla tällaisesta hyvin pienestä geenimäärästä. 30.5 Horisontaalinen geeninsiirto Horisontaalinen geeninsiirto eli geenien siirtyminen toiselta lajilta toiselle on bakteereilla huomattavan tavallista. Sellaisille lajeille, joilla mahdollisuutta ei muuten olisi, horisontaalinen geeninsiirto antaa mahdollisuuden saavuttaa aivan uudenlaisia ominaisuuksia. Useimmiten eliön ominaisuudet perityvät sen samaa lajia olevilta vanhemmaisyksilöiltä. Kun eliön genomi kopioituu ja siirtyy vanhemmalta jälkeleiselle puhutaan lateraalisesta geeninsiirrosta. Lateraalinen geeninsiirto on kuitenkin rajoittavaa, sillä eliön sopeutumismahdollisuudet riippuvat siitä, millaiset eväät se on vanhemmiltaan saanut. Horisontaalinen geeninsiirto poistaa tämän rajoituksen, sillä tällöin jo valmis eliö voi saada muilta saman lajin tai jopa toisen lajin 30 Vertaileva genomiikka 325 yksilöiltä uusia piirteitä. Bakteereilla horisontaalista geeninsiirtoa tapahtuu esimerkiksi antibioottiresistenssissä. Aluksi vain jollakin lajilla on vastustuskyky tietylle antibiootille, mutta se leviää nopeasti myös muihin, horisontaaliseen geenisiirtoon kykeneviin lajeihin, sillä antibiootin sietokyky parantaa niiden sopeutumista, jos antibioottia on ympäristössä. Horisontaalisen geeninsiirron havaitseminen perustuu useimmiten eliön genomin eri alueiden GC%:n analysoimiseen. Eri bakteerilajien genomeissa on nimittäin varsin erilainen GC%, ja jos jonkin bakteerin genomista löytyy jokin huomattavan erilaista GC%:ia edustava DNA-jakso, voidaan epäillä, että bakteeri on sanut sen toiselta lajilta horisontaalista geeninsiirtoa käyttäen. Myös kodoniharhaa voidaan käyttää lateraalisen geeninsiirron havaitsemiseen. Jos GC%:ssa ei havaita genomissa suuria eroja, voidaan mahdollisesti muilta lajeilta saadut genomialueet tunnistaa kodoniharhaa käyttäen. Kodoniharhan käyttö perustuu siihen, että eri lajit käyttävät geeneissään samoja aminohappoja koodaavia kodoneita eri taajuuksilla. Horisontaalisen geeninsiirron ajankohtaa voidaan arvioida sen perusteella, kuinka hyvin siirtynyt alue on ehtinyt sulautua sitä ympäröivään genomiin. Jos havaittu GC%-ero on suuri, on kyseessä luultavasti viimeaikainen siirtymä. Jos ero on tuskin havaittava, on siirtymästä todennäköisesti kulunut jo pitkä aika. 30.6 Geenijärjestyksen säilyminen Lajisukuisten lajien genomit muistuttavat toisiaan paitsi geenisisällöllisesti myös geenien sijoittumisen suhteen. Evoluution aikana lajien genomi muuttuu hitaasti, ja toisinaan DNA:n katketessa vaurio korjaantuu siten, että tietty DNA-alue siirtyy kromosomista toiseen. Siten suhteellisen lajisukuistenkaan lajien kromosomistot eivät välttämättä vastaa suoraan toisiaan, vaikka niiden varsinaisessa geenisisällössä ei olisikaan tapahtunut muutoksia. Kromosomimuutoksissa DNA siirtyy kromosomista toiseen suhteellisen suurina palasina, joten geenien järjestys siirtyneessä palasessa yleensä säilyy alkuperäisen mukaisena. Geenijärjestyksen säilyminen eli syntenia onkin tavallista sekä esi- että aitotumallisissa eliöissä (Kuva 30.5 ja Kuva 30.6, joskin geenejä on voinut hävitä tai niitä on voinut syntyä lisää duplikoitumalla. Syntenialla on useita mielenkiintoisia sovelluksia. Kun uusia bakteerigenomeita sekvensoidaan, löydetään usein geenejä, joiden funktiota ei pystytä pelkästään sekvenssivertailun ennustamaan, koska niille ei löydy tietokannoista riittävän samankaltaisia vastineita. Synteniaa voidaan kuitenkin käyttää apuna tällaisten geenien funktioiden selvittämisessä. Geenit, joiden proteiinituotteet katalysoivat esimerkiksi samankaltaisia biokemiallisia reaktioita sijaitsevat usein lähekkäin eliöiden genomeissa. Esimerkiksi, kaikki alfahemoglobiiniperheeseen kuuluvat geenit sijaitsevat ihmisellä yhtenä ryppäänä kromosomissa 16 (Kuva 30.7. Jos kahden genomin vertailussa paljastuu syntenisia alueita, joilla sijaitsee tuntemattomia geenejä, mutta niiden funktio tunnetaan muilta lajeilta, voidaan geenien sijainnin perusteella mahdollisesti päätellä niiden funktio. Jos siis ihmisen ja toisen eliön välillä havaittaisiin voimakasta synteniaa kromosomin 16 kromosomigeenien alueella, ja eliöllä sijaitsisi geeni HGM:n kohdalla, mutta sen funktiota ei voitaisi päätellä esimerkiksi BLAST-haun avulla, voitaisiin syntenian antaman lisätiedon valossa päätellä, että tuntematon geeni on todennäköisesti hemoglobiini M. Synteniaa tai oikeammin kromosomikatkos ja -vaihdoskohtien sijaintia voidaan käyttää myös evolutiivisena informaationa eliöiden sukupuiden selvittämiseen. On nimittäin erittäin epätodennäköistä, että tismalleen samoja kromosomikohtia koskeva vaihdos tapahtuu kahdessa eri evoluutiolinjassa, ja niinpä havaitut vaihdokset tulkitaankin yhdeksi evoluutiotapahtumaksi. Kun eri kromosomien vastaavuudet eri eliöiden välillä on selvitetty, voidaan eliöiden sukupuu selvittää vaihdosten perusteella. Todennäköinen vaihdosten tapahtumisjärjestys voidaan päätellä esimerkiksi parsimonia- tai suurimman uskottavuuden menetelmiä käyttäen, mutta 326 Bioinformatiikan perusteet Kuva 30.5: Escherichia colin ja Shigella flexnerin välinen koko genomin laajuinen syntenia. Vaaka- ja pystyakseleille on merkitty kaikki eliön geenit pienin värillisin palkein. Geenien leikkauspisteeseen on sijoitettu punainen täplä, jos geenien lukusuunta on molemmissa eliöissä sama, ja vihreä täplä, jos lukusuunta on eliöissä vastakkainen. Koska kuvion halkaisee punaisten täplien sarja, on eliöiden välillä laajaa synteniaa. ongelma ei ole kovinkaan helppo, varsinkin jos tutkitaan eliöiden kokonaisia genomeja, joissa vaihdoksia on tapahtunut helposti kymmeniä. 30.7 Vertaileva genomiikka ja lääketiede Genomiikalla on lääketieteessä nykyisin varsin vankka jalansija, sillä sellaiset alat kuin farmakogenomiikka, onkogenomiikka ja geenikartoitus hyödyntävät genomiprojektien tuotoksia varsin laajamittaisesti. Vertailevan genomiikan hyödyntäminen lääketieteessä on kuitenkin perinteisesti ollut vähäisempää, ellei esimerkiksi erilaisten tautimallien vertailua eri eliöiden, kuten ihmisapinoiden välillä huomioida. Vertailevan genomiikan työkaluin on kuitenkin mahdollista saada paljon mielenkiintoista ja hyödyllistä informaatiota esimerkiksi rokote- ja lääkekehityksen tarpeisiin. 30.7.1 Rokotteiden kehittäminen Rokotteiden kehittämisessä kokonaisten genomien tuntemuksesta on hyötyä, sillä mahdollisten rokotekandidaattien seulonta on siten tavanomaista nopeampaa. Perinteisesti ihmisten rokottamiseen on käytetty tapettuja taudinaiheuttaja tai sellaisia heikennettyjä taudinaihettajia, joilta jokin taudin aiheuttamiseen oleellisesti tarvit- 30 Vertaileva genomiikka 327 Kuva 30.6: Ihmisen kromosomin 1 ja hiiren kromosomialueiden välinen vastaavuus. Evoluution aikana hiiren ja ihmisen kromosomistot ovat erilaistuneet huomattavasti, vaikka sinällään laajemmat kromosomitalueet ovat säilyneet suhteellisen konservoituneina. Kromosomiston erot selittyvätkin lähinnä erilaisin uudelleenjärjetelyin. 328 Bioinformatiikan perusteet Kuva 30.7: Alfahemoglobiini-klusterin geenien järjestys kromosomissa 16 (HBZ, HBM, HBA2, HBA1, HBQ1). Kuviossa on esitetty ihmisen ja hiiren kromosomien vertailu, ja molemmilla geenien järjestys kromosomistossa on tismalleen sama. Geenien lukusuunta on esitetty pienellä nuolella, ja kulkee kaikissa geeneissä vasemmalta oikealle. Vaaleanpunaisella väritetyt käyrät ilmaiset konservoituneen, mutta ei koodaava sekvenssin sijainnin. Vaaleansiniset alueet puolestaan vastaavat koodaavia alueita. Värilliset palkit ilmaiset toistojaksojen sijainnin. Punaiset palkit vastaavat LINE-alueita, ja vihreät palkit SINE-alueita. tava geeni puuttuu. Bioteknologia mahdollisti yksittäisten geenien kloonaamisen ja siirtämiseen uusiin isäntiin, jolloin esimerkiksi soveltuva virus saatiin tuottamaan pinnalleen bakteeriproteiinia, ja näin tuotettuja viruksia voitiin sitten käyttää rokottamiseen. Käänteinen teknologia, jonka genomiikka on mahdollistanut toimii siten, että mahdolliset käyttökelpoiset antigeenit kloonataan sopivaan eliöön, niitä ekspressoidaan ja tuotettujen proteiinien toimivuus rokotteina testataan aluksi koe-eläimissä, myöhemmin mahdollisesti ihmisissäkin. Näin on mahdollista seuloa nopeasti läpi suuri määrä erilaisia taudinaiheuttajan proteiineja, ja tunnistaa niistä mahdollisesti rokotteena toimivat (Scarselli, 2005). Tuotekehittely vie kaikkine testeineen luonnollisesti vuosia, mutta helpottaa ja hyvin todennäköisesti myös nopeuttaa kehitystyötä joka tapauksessa. Vertaileva genomiikka laajentaa yllä kuvattua käänteistä teknologiaa siten, että tuotekehityksessä voidaan ottaa huomioon useiden eri kantojen tai bakteerilajien antama informaatio. Monet taudinaiheuttajat kantavat virulenssisaareketta, joka on genomialue, jolla taudinaiheutuskykyyn liittyvät geenit sijaitsevat. Monista taudinaiheuttajista on kuitenkin olemassa useita erilaisia kantoja, joiden virulenssigeenit voivat erota toisistaan. Optimaalinen rokote tietenkin suojaa kaikilta saman tyypin bakteereilta, jolloin rokotteen kehittelyssä tulee ottaa huomioon mahdolliset puuttuvat geenit: rokotetta ei kannata alkaa kehittämään sellaisesta proteiinista, joka joistakin kannoista puuttuu. Virulenssisaarekkeiden tunnistaminen on toisinaan vaivalloista, mutta vertailevan genomiikan keinoin on mahdollista tehdä ainakin hyviä arvauksia virulenssigeeneistä. Vertailut lähisukuisiin taudinaiheuttajiin tai saman suvun edustajiin, joilla ei ole taudinaiheutuskykyä, voi paljastaa joukon geenejä, jotka todennäköisesti liittyvät taudinaiheutuskykyyn. Samalla voidaan ottaa myös huomioon taudinaiheuttajaryhmän geneettinen vaihtelu. Rokotteen kehittäminen sellaista proteiinia tai proteiinialuetta käyttäen, jossa on paljon vaihtelua, ei välttämättä ole kannattavaa, sillä taudinaiheuttaja voi mahdollisesti hyvinkin helposti kehittää vastuskyvyn rokotteelle, jos vaihtelu rokotteeksi käytetyllä alueella aiheuttaa sen, etteivät vastaaineet enää tunnistakaan aluetta yhtä tehokkaasti. 30 Vertaileva genomiikka 329 Hyvä rokote siis kohdistuu sellaiseen proteiiniin, joka on stabiilisti kaikissa taudinaiheuttajakannoissa, ja sellaiselle proteiinialueelle, joka vaihtelee luontaisesti vähän. 30.7.2 Lääkeaineiden kehittäminen Lääkeaineiden kehittäminen on hyvin pitkällinen prosessi, ja vaatii helposti kymmenen vuoden työn. On arvioitu, että uuden lääkkeen kehittäminen maksaa tällä hetkellä noin miljardi euroa. Siksi lääkekehitys onkin ottanut ilolla vastaan bioinformatiikan tarjoamat menetelmät mahdollisten lääkeainekohteiden tai lääkeaineiden seulomiseksi jo enne varsinaisia laboratorio- ja eläinkokeita. Lääkeaineiden kehityksen alkuvaiheessa hyödynnetään nykyisin usein tietoa esimerkiksi kohdeproteiinin rakenteesta, sen ilmentymisestä eri kudoksissa ja jos puhutaan erityisesti mikrobilääkkeista, kuten antibiooteista, myös tietoa kohdemolekyylin esiintymisestä eri bakteeriryhmissä. Erityisesti mikrobilääkkeiden, kuten antibioottien ja antiviraalisten lääkkeiden, kuten HIV:n hoidossa käytettyjen aineiden kehittämisessä vertailevasta genomiikasta on ollut hyötyä. Laajamittainen antibioottien kehittäminen 1950-luvulla perustui erilaisten lääkeainemolekyylien seulontaan. Tällainen lähestymistapa perustuu siihen, että kokeellisesti määritetään bakteerien herkkyys kullekin tutkittavalle molekyylille, ja parhaat molekyylit valitaan jatkoon. Ne voivat vielä vaatia muokkausta lääkkeeksi sopiviksi, mutta näin ainakin pystytään suhteellisen tehokkaasti hahmottamaan, millaiset yhdisteet ovat tehokkaita. Myös nykyaikainen lääkeainekehitys nojaa erilaisten molekyylien kirjastoihin (näitä on kaupallisesti saatavilla), mutta lääkeaineita ei enää etsitä käymällä läpi kokonaisia molekyylikirjastoja, joissa on tyypillisesti satoja tuhansia tai miljoonia erilaisia molekyylejä. Nykyisin lääkeainekehityksessä tunnistetaan ensin kohdeproteiini, johon lääkeen halutaan vaikuttavan. Sitten esimerkiksi molekyylimallitusta ja telakointi käyttäen seulotaan virtuaalisesti (tietokoneella) molekyylikirjastosta sellaisia molekyylejä, jotka näyttäisivät sitoutuvan kohdeproteiiniin. Tämän seulonnan jälkeen voidaan edetä molekyylikirjastosta tunnistettuja molekyylejä käyttäen normaalisti solukokeisiin, eläinkokeisiin, ja jos lääke näyttää lupaavalta, lopulta ihmiskokeisiin. Antibioottien kehitykseen käytetty molekyylikirjastojen seulontaan perustuva lähetysmistapa oli hyvin tehokas, sillä bakteerit ovat itsenäisiä soluja, jotka tyypillisesti elävät ihmisen solujen ulkopuolella, ja niiden tappaminen sopivalla aineella on suhteellisen helppoa. Esimerkiksi, bakteereja ympäröi soluseinä, jota nisäkässoluissa ei ole. Siten sopiva lääkeaine, kuten penisilliini, voidaan kohdistaa estämään soluseinän muodostumista. Jos bakteerisolulla ei ole soluseinää se kuolee nisäkään elimistössä hyvin nopeasti. Monet bakteerit ovat kuitenkin tulleet vastustuskykyisiksi antibiooteille, ja uusia ratkaisuja tarvitaan. Uusien antibioottien kehittäminen nojaakin pitkälti vertailevaan genomiikkaan. Vertailevan genomiikan keinoin lääkeaineen kehitys alkaa siten, että valitaan bakteerilajit, joihin antibiootti halutaan kohdistaa. Tämän jälkeen etsitään kaikkia näitä bakteerilajeja yhdistävät geenit vertailevan genomiikan avulla. Näin saatujen geenien joukosta poistetaan ne, joita sekä bakteerit että niiden isäntä, esimerkiksi ihminen ilmentää (muutoin saattaa samalla lääkkellä lähteä henki sekä isännästä että loisesta), ja jäljelle jääneet geenit ja niiden koodaamat proteiinit ovat mahdollisia lääkeaineen kohteita. Kohteiden tarkempi validointi (tutkimukset, joissa selvitetään muun muassa onko löydetty sopiva kohde, ja ilmeneeko se niissä soluissa, joissa sen pitäisikin) on yleensä tarpeen ennen jatkotutkimuksia, ja tässä käytetään nykyisin esimerkiksi DNA-siruja ja proteomiikan tarjoamia työkaluja. Validoinnin jälkeen voidaankin yleensä alkaa suunnittelemaan sopivaa lääkeainemolekyyliä. Hyvän esimerkin vertailevasta genomiikasta antibioottien kehityksessä antavat Cole (2002) ja Rappuoli (2004). Viruslääkkeiden kehittäminen ei ole yhtä "helppoa"kuin bakteerilääkkeiden, sillä virukset ovat solunsisäisiä loisia, joilla ei ole lainkaan omaa aineenvaihduntaa 330 Bioinformatiikan perusteet solujen ulkopuolella. Virukset ottavat isäntäsolun valtaansa ja käyttävät sen tarjoamia aineenvaihduntareittejä uusien virusten rakentamiseen. Virustautien hoito on lähinnä ennaltaehkäisyä, ja kehitystyö tähtää useimmiten tehokkaiden rokotteiden tuottamiseen. Poikkeuksen muodostaa joidenkin jo vakavan epidemian aiheuttaneiden virustautien, kuten HIV:n hoito. Tällöin vertaileva genomiikka kohdistuu viruksen ja sen isännän genomien tai proteomien (solun koko proteiinisisältö) vertailuun. Myös eri viruskantojen vertailulla pyritään hankkimaan tietoa siitä, mitkä molekyylit luontaisesti vaihtelevat runsaasti. Tällaisin menetelmiä on tunnistettu muutamia suhteellisen vähän vaihtelevia HI-viruksen proteiinineja, kuten RNA-riippuvainen polymeraasi, joka on viruksen lisääntymiselle oleellisen tärkeä proteiini. Polymeraasia vastaan on sitten kehitetty erilaisia sen toimintaa estäviä lääkeaineita, jotka käytännössä estävät viruksen lisääntymisen soluissa. Viruslääkeaineiden kehittäminen on usein haastavaa, sillä esimerkiksi erilaisia polymeraaseja esiintyy ihmiselläkin ainakin toistakymmentä, ja lääkeaine joka estää viruksen polymeraasin toiminnan, voi estää myös ihmisen solujen polymeraasien toiminnan. Koska soluissa polymeraaseja tarvitaan sekä geenien ilmentämiseen että solujen kasvuun ja lisääntymiseen, voi solun polymeraasin estyminen aiheuttaa ihmisille vakavia sivuvaikutuksia. Sopivien lääkeaineiden löytämistä voidaan mahdollisesti helpottaa tai nopeuttaa molekyylimallituksen avulla. Molekyylimallituksessa pyritään löytämään sellainen molekyyli, joka sitoutuu optimaalisesti viruksen polymeraasiin, muttei juurikaan ihmisen solujen polymeraaseihin. Päämäärän on pienentää seulottavien lääkeaineiden joukkoa, jolloin itse seulontavaihe nopeutuu, ja uusi tehokkaampi lääkeaine saadaan mahdollisesti tavanomaista nopeammin markkinoille. 31 Proteomiikka 331 31 Proteomiikka 31.1 Mitä on proteomiikka? Proteomiikka on proteiinien rakenteen ja toiminnan tutkimista laajassa mittakaavassa. Proteomiikka-käsite vastaa tavallaan genomiikkaa, mutta tutkimusalue kohdistuu geenien je genomien sijaan proteiineihin. Proteomiikalla tarkoitetaan usein askelta ettenpäin genomiikasta, mutta proteomiikka on tutkimusalueena monimutkaisempi kuin genomiikka. Eliön geenit säilyvät jokseenkin samoina kudoksesta ja eliöstä toiseen, mutta näin ei suinkaan ole proteiinien osalta. Eri kudosksissa ja saman lajin yksilöissä on suurta vaihtelua proteiinien ilmentymisessä ja suhteellisissa osuuksissa koko proteiinimäärästä. Lisäksi yksi ainut geeni voi koodittaa useita erilaisia proteiinija, jotka voidaan luoda samasta lähetti-RNA-molekyylistä esimerkiksi käyttämällä vaihtoehtoista silmukointia. Onkin arvioitu, että ihmisen geenisisällön ollessa noin 23000 erilaista geeniä, on erilaisia proteiineja noin kymmenkertainen määrä. Koska solujen toiminta tapahtuu proteiinien kautta, on niiden tutkiminen mielenkiintoista ja tarpeellista, pelkkä geenien ilmentymisen tunteminen ei vielä kerro riittävästi solun toiminnasta. Seuraavassa rajoitutaan tarkastelemaan lähinnä kahta erilaista proteomiikan sovellusaluetta, solun ilmentämien proteiinien tunnistamista ja proteiinien kolmiulotteisen rakenteen selvittämistä. 31.2 Proteiinien ilmentymisen tutkiminen Proteiinien ilmentymistä tutkitaan nykyisin pääasiallisesta kahdella eri menetelmällä, 2D-geelielektroforeesilla tai massaspektrometrialla. Näiden lisäksi monia muita menetelmiä tutkitaan, ja eräänä lupaavimmista uusista tekniikoista ovat proteiinisirut. 31.2.1 2D-geelielektroforeesi Kaksisuuntaisessa eli 2D-geelilektroforeesissa proteiininäyte, joka on eristetty tutkittavasta solulinjasta tai kudoksesta, ajetaan akryyliaminigeelissä. Menetelmän ideana on erotella näytteessä olevat proteiinit toisistaan sekä niiden varauksen (pI, isoelektrinen piste) ja massan mukaan. Menetelmä on varsin perinteinen, ja sitä on käytetty proteiininäytteiden analysointiin jo kauan. Nykyisillä menetelmillä kyetään erottelemaan suunnilleen 10000 proteiinia, mikä on suhteellisen vähän suhteutettuna arvioon ihmisen proteiinien lukumäärästä (100000-400000). Menetelmä ei takaakaan, että kaikki mahdolliset proteiinit voidaan erotella toisistaan, mutta tyypillisesti muutamia tuhansia kaikkein yleisimpiä proteiineja voidaan tunnistaa kaksisuuntaista elektroforeesia käyttäen. Kaksisuuntaisessa elektroforeesissa näyte erotellaan ensin varauksensa mukaan akryyliamidigeelissä, jossa vallitsee sopiva pH-gradientti. Tällaisessa geelissä proteiinit sijoittuvat niiden varauksen suhteen oikealle kohdalle pH-gradientissa. Tämän jälkeen varauksen mukaan erotellut proteiinit siirretään toiselle akryyliamidigeelille, jossa ei vallitse pH-gradienttia. Tällaisessa geelissä proteiinit erottu- 332 Bioinformatiikan perusteet vat kokonsa mukaan, sillä geeli vastusta proteiinien etenemistä sitä enemmän mitä suurempia ne ovat. Molemmissa erotteluvaiheissa geelin läpi kulkee virta, ja proteiinit liikkuvat tavallaan virran kuljettamina. Lopuksi geeli poistetaan ajolaitteesta ja värjätään, esimerkiksi hopeamenetelmällä, jolloin proteiinit saadaan näkymään geelillä ja. Värjätty geeli voidaan skannata, ja siirtää kuvana tietokoneelle jatkoanalyysejä varten. Proteiinit voidaan myös eristää geelistä, jolloin niille voidaan tehdä jatkoanalyysejä (sekvensointi, massaspektrometria) proteiinien tarkemmaksi tunnistamiseksi. Kaksisuuntainen elektroforeesi ei ole täysin kvantitatiivinen menetelmä, vaikka skannatusta kuvasta kunkin proteiinin määrä voidaankin arvioida niitä vastaavien täplien tummuuksien ja pinta-alojen avulla. Kvantitatiivisuudesta joudutaan tinkimään, sillä erilaisten proteiinien eristäminen ei onnistu samalla tehokkuudella. Esimerkiksi kalvoihin sitoutuneiden proteiinien eristäminen on hankalampaa kuin vapaana solulimassa uiskentelvien proteiinien eristäminen. Lisäksi kaikki proteiinit eivät suostu etenemään geelissä normaalisti (suuret eivät etene geeliin lainkaan, ja pienet voivat ajautua siltä ulos) ja geelien värjäämiseen käytetyt värit värjäävät erilaisia proteiineja hieman eri tehokkuudella. 2D-elektroforeesikuvien vertailu onnistuu nykyisin tietokoneistetustu suhteellisen luotettavasti. Koska eri geelit ajautuvat hieman eri tavoin, vaikka koeolosuhteet olisikin vakioitu hyvin, on tietokoneohjelmien hieman venytettävä tai pienennettävä kuvia sopivalla tavalla siten, että samaa proteiinia vastaavat täplät osuvat kohdakkain. Swiss Institute of Bioinformatics (SIB) on kehittänyt akateemisille ilmaisen Melanie-ohjelmistopaketin, jolla tällainen geelien vertaaminen onnistuu. Vertailu on useinmiten mahdollista vain hyvin samanlaisten kudosten välillä, sillä koeolosuhteet ja kudosten erilainen proteiinikoostumus tekee vertailut kovin erilaisten kudosten välillä vaikeiksi tai mahdottomiksi. Nykyisin on yleistynyt ajaa 2D-elektroforeesi käyttäen fluoresoivilla väreillä leimattuja näytteitä. Toinen näyte leimataan vaikkapa Cy3-värillä (punainen) ja toinen Cy5-värillä (vihreä). Kun näin leimatut näytteet ajetaan samalla geelillä erilleen, saadaan skannauksen jälkeen tulokseksia erivärisiä täpliä samaan tapaan kuin DNA-sirujen tapauksessa. Väri ilmoittaa suoraan eri näytteiden välisen eron proteiinien määrissä. Kahdella värillä tehdystä näytteiden leimauksesta on se hyöty, että eri geelien väliseltä mahdolliselta hiukan hankalalta vertailulta kuvankäsittelykeinoin vältytään tai ainakin tällaisia vertailuja tarvitsee tehdä puolet vähemmän kuin perinteistä värjäysmenetelmää sovellettaessa. Kaksivärileimausta käyttäen saadun aineiston analysointi muistuttaa pitkälti DNA-siruaineistojen analysointi sikäli, että eri näytteiden välisille eroille voidaan laskea esimerkiksi tilastollinen merkitsevyys vaikkapa t-testiä käyttäen, jos koesarjaan kuuluu useampia näytteitä samasta kudoksesta. Geelillä eroteltujen proteiinien tunnistaminen voidaan hoitaa yksinkertaisimillaan vertaamalla tuotettua kuvaa tietokannoissa, kuten SWISS-2DPAGE, oleviin samasta kudoksesta saatuihin kuvaa. Tuntemattomat proteiinit voidaan tunnistaa sekvensoimalla tai massaspektrometriaa (MS) käyttäen. MS-menetelmät ovat nykyisin käytetympiä niiden helppouden ja nopeuden vuoksi. 31.2.2 Massaspektrometria Massaspektrometriassa 2D-elektroforeesista tai muusta sopivasta lähteestä eristetyt proteiinit pilkotaan jollakin entsyymillä tai kemikaalilla, ja syntyneet fragmentit erotellaan massaspektrometriaa käyttäen varauksensa ja massansa perusteella toisistaan. Massaspektrometria perustuu ajatukseen, että peptidit (proteiinifragmentit) erotuvat toisistaan sopivassa väliaineessa lentoajan perusteella. Lentoaika puolestaan riippuu fragmenttien massa-varaus-suhteensta (m/z), minkä luonnollisesti määrää fragmentin aminohappokoostumus. Tuloksena on kaavio, jossa kutakin havaittua fragmenttia vastaa piikki, jonka korkeus merkitsee fragmentin kokonaismassaa näytteessä. Kaaviosta määritetään piikkien sijainti, ja näin saatua massa- 31 Proteomiikka 333 sormenjälkeä verrataan aminohapposekvenssitietokannasta laskettuihin teoreettisiin sormenjälkiin. Kun kokeellisessa analyysissä käytetyt pilkotaentsyymit tai kemikaalit tunnetaan, voidaan tietoa käyttäen laskea kokonaisen tietokannan sekvenssien teoreettiset sormenjäljet analysoitavalle lajille. Jos havaittu sormenjälki muistuttaa tietokannan perusteella laskettua teoreettista sormenjälkeä tilastollisesti merkitsevästi (Mowse score), voidaan olla suhteellisen varmoja proteiinin tunnistuksesta. Verkosta löytyy useita ohjelmia, joilla erilaisten entsyymien tuottamia sormenjälkiä on mahdollista muodostaa. Eräs yksinkertaisimmista on PeptideCutter, joka ei teekään mitään muuta. . On olemassa myös palvelimia, joiden avulla tiettiä peptidisormenjälkeä voidaan verrata tietokantoihin. Eräs esimerkki tällaisesta suositusta palvelusta on ProFound. Kuten 2D-elektroforeesi ei massaspektrometriakaan ole kvantitatiivinen menetelmä, sillä havaittujen piikkien runsaus ei suoraan mittaa proteiinin runsautta alkuperäisessä näytteessä. 31.2.3 Proteiinisirut Proteiinisiruilla voidaan tunnistaa tuhansia proteiineja yhtäaikaisesti samaan tapaan kuin DNA-siruilla voidaan tunnistaa useita tuhansia erilaisia lähetti-RNAmolekyylejä yhtäaikaisesti. Proteiinisiruilla näytteessä olevien proteiinien tunnistus tapahtuu vasta-aineiden avulla. Vasta-aineet on perinteisesti totuttu mieltämään hyvin spesifisiksi, mutta proteiinisirujen suurin ongelma on tähän mennessä ollut vasta-aineiden ristireagoivuus, jolloin proteiinien tarkka tunnistaminen ei ole ollut mahdollista. Proteiinisirut ovat kuitenkin laajan mielenkiinnon kohteena, ja ainakin pienemmät proteiinisirut on saatu toimimaan jo suhteellisen luotettavasti, joten lienee lähinnä ajan kysymys, että suuremmatkin proteiinisirut saadaan optimoitua riittävän spesifisiksi. On kuitenkin arvioitu, että ihmisen vasta-aineet kykenevät tunnistamaan noin 4 miljoonaa erilaista molekyyliä. Jos ihmisen proteomin kooksi arvioidaan 400000, on mahdollista, ettei kaikkia erilaisia proteiineja edes pystytä proteiinisiruja käyttäen erottelemaan, varsinkin kun monet proteiinit ovat saman geenin tuotteita. Voikin olla, että yhden proteiinin tunnistaminen luotettavasti vaatii useiden vasta-ainamolekyylien käyttöä vähän samaan tapaan kuin Affymetrixsiruilla käytetään useita koettimia yhden ainoan lähetti-RNA-molekyylin tunnistamiseen. 31.3 Proteiinimallitus Proteiinimallituksella pyritään selvittämään jonkin ennalta tuntemattoman proteiinin rakenne. Vähimmäinvaatimuksena proteiinimallitukselle on mallitettavan proteiinin aminohapposekvenssin tunteminen. Mallitusmenetelmät voidaan jakaa kahteen ryhmään sen mukaan, tunnetaanko jonkin mallitettavaa proteiinia muistuttavan proteiinin 3D-rakenne. Jos tällainen rakenne tunnetaan, voidaan proteiinin rakenne usein menestyksekkäästi selvittää homologiamallituksella. Jos rakennetta ei tunneta, pitää turvautua muihin menetelmiin, kuten ab initio-menetelmiin. Kaikki menetelmät perustuvat olettamukseen, että proteiinin paras konformaatio, yleensä soluissa esiintyvä natiivimuoto, minimoi proteiinin energiatilan. 31.3.1 Homologiamallitus Homologiamallituksessa mallitettavan proteiinin rakenne pyritään selvittämään jonkin toisen sitä muistuttavan proteiinin kolmiulotteisen rakenteen avulla. Proteiinien 3D-rakenteita on kerätty PDB-tietokantaan, ja kokeellisesti rakenteita voidaan määrittää esimerkiksi röntgendiffraktiografialla ja nuclear magnetic resonance (NMR) -menetelmin. Jos mallitettava proteiini ja mallina käytettävä proteiini ovat vähintään 20-30välille muodostaa sekvenssirinnastus, ja siten myös homologiamallitusta voidaan soveltaa. Jos sekvenssien välinen samankaltaisuus on vähäisempää, ei ho- 334 Bioinformatiikan perusteet mologiamallitus luultavasti kykene tuottamaan luotettavaa mallia, ja on parempi turvautua esimerkiksi ab initio-mallitukseen. Homologiamallitus koostuu seuraavista työvaiheista. 1. Etsi mallitettavan proteiinin lähisukulaiset. Lähisukulaisten etsintä tapahtuu sekvenssisamankaltaisuuden perusteella, käytännössä esimerkiksi BLASThauilla. Koska näin tunnistetut aminohapposekvenssit toimivat mallituksessa ohjeina siitä, kuinka mallitettava proteiini pitää laskostaa, kutsutaan sekvenssejä templaateiksi. 2. Rinnasta mallitettava sekvenssi ja templaattisekvenssit. Rinnastuksen muodostamiseen käytetään jotakin usean sekvenssin rinnastukseen soveltuvaa ohjelmaa. Rinnastuksen perusteella voidaan selvittää alueet, jotka ovat konservoituneita mallitettavassa ja templaattisekvensseissä. 3. Muodosta malli. Mallin muodostamiseen on useita erilaisia menetelmiä. Eräässä käytetyimmistä menetelmistä templaattisekvenssejä vastaavat proteiinien 3D-mallit asetetaan päällekkäin rinnastuksen ohjaamana ja rakenteellisesti konservoituneet alueet etsitään. Rakenteiden perusteella muodostetaan proteiinin selkäranka, jota käytteäen mallitettavan proteiinin malli sitten muodostetaan. Koska satunnaisrakenteet ovat yleensä selkärankaa vaihtelevampia, selkäranka ja satunnaisalueet mallitetaan yleensä erikseen. 4. Satunnaisrakenteiden mallintaminen. Satunnaisrakenteiden mallintamiseen käytetään yleensä joko menetelmää, jossa tietokannasta valitaan paras sekvenssiä vastaava satunnaisrakenne, joka tunnetaan tai menetelmää, jossa etsitään molekyylidynamiikkaa käyttäen parasta konfromaatiota. Käytännössä millä tahansa menetelmällä on hankala muodostaa hyviä malleja yli kuuden aminohapon mittaisista satunnaisrakenteista. 5. Aminohappojen sivuketjujen mallintaminen. Kun proteiinin selkäranka on saatu mallitettua kahdessa edellisessä vaiheessa, määritetään aminohappojen sivuketjujen paikat. Sivuketjujen optimointiin voidaan käyttää esimerkiksi molekyylidynamiikan menetelmiä. 6. Mallin validointi. Lopuksi suoritetaan mallin validointi. Mallin validoinnissa tutkitaan, ovatko kaikki selkärangan hiiliketjun kulmat sallittujen joukossa, ovatko atomien väliset sidosetäisyydet sallittuja ja ovatko sidosten väliset kulmat järkeviä. Jos poikkeavia arvoja löydetään, mallia yleensä korjataan käsin, kunnes validointi ei enää löydä poikkeavia arvoja. Vaikka homologiamallituksessa käytetään monenlaisia laskennallisia menetelmiä, liittyy mallin muodostamiseen silti monia käsityövaiheita aina sekvenssirinnastuksen muodostamisesta alkaen. Käsityöstä riippumatta tai juuri siksi homologiamallitus on paras menetelmä, jos halutaan tuottaa korkealuokkaisia malleja ennalta tuntemattomista sekvensseistä. Esimerkiksi InsightII-ohjelmalla on mahdollista suorittaa kaikki yllä kuvatut työvaiheet CSC:n palvelimilla. Jos sekvenssien rinnastus on hyvä, ja käytettävä rakennetemplaattikin on hyvä, voidaan homologiamallituksella päästä jopa 2 Å:n tarkkuuksiin. NMR- ja röntgenkristallografian menetelmin on tosin mahdollista päästä noin 0,25-0,75 Å:n tarkkuuksiin kokeellisesti, joten homologiamallistus jää vielä kauas varsinaisen laboratoriotieteen tarkuudesta. Menetelmän heikkoutena on, ettei se avulla voida koskaan mallittaa kaikkia proteiineja, koska niille löydy vastaavuutta rakennetietokannoista. 31 Proteomiikka 335 31.3.2 Ab initio-mallitus Ab initio-mallituksessa pyritään muodostamaan kolmiulotteinen proteiinimalli ennustamalla aluksi sekundäärirakenteiden, alfa-heliksien, beta-levyjen ja satunnaisrakenteiden, sijainnit. Sekundäärirakenteet laskostetaan sitten tertiäärirakenteiksi käyttäen fysikaalisia perusperiaatteita. ab initio tarkoittaakin perusperiaatteista, tässä tapauksessa esimerkiksi Shrödingerin aaltoyhtälöstä, lähtemistä. Menetelmä olettaa, että proteiinin paras konformaatio, yleensä soluissa esiintyvä natiivimuoto, minimoi proteiinin energiatilan. Mallitettavan proteiinin energiatilan minimoimiseksi tarvitaan sen potentiaalienergiaa kuvaavan funktio, tapa laskea tietyn mallin potentiaalienergia, ja tapa muuttaa mallia potentiaalienergian minimoimiseksi. Nämä toteutuvat eri menetelmissä hyvin eri tavoin. Periaatteessa voitaisiin esimerkiksi Schrödingerin aaltoyhtälöon perustuvia kvanttimekaniikasta johdettuja potentiaaleja, mutta käytännössä niitä ei käytetä suuren laskenta-aika vaatimuksen vuoksi. Niinpä yleensä käytetäänkin empiirisiä voimakenttiä, joissa proteiinirakenteen potentiaalienergiaa arvioidaan muun muassa atomien sidoskulmien- ja energioiden avulla. Parhaan proteiinin laskostumistilan etsimiseen (potentiaalienergian minimoimiseen) käytettävät menetelmät vaihtelevat käytetyn voimakentän mukaan. Käytettyjä menetelmiä ovat muun muassa Monte Carlo, simuloitu jäähdytys ja geneettisiin algoritmeihin perustuvat menetelmät. Menetelmiä on tarkemmin kuvattu molekyylisystematiikan yhteydessä. Muodostettu pienimmän potentiaalienergian omaava malli validoidaan vertaamalla sitä tunnettuihin rakenteisiin, ja laskemalla proteiiniselkärankojen keskimääräinen neliöity etäisyys. Paremmalla mallilla on huonompaa mallia suurempi neliöity etäisyys. Ab initio-mallituksella ei voida vielä ennustaa aminohappojen sivuketjujen konformaatioita, vaan mallituksessa keskitytään lähinnä selvittämään tutkittavan proteiinin selkäranka. Koska ab initio-mallituksessa sovelletaan fysikaalisia perusperiaatteita, joudutaan suorittamaan suuri määrä laskutoimituksia pelkästään yhden proteiinin rakenteen ennustamiseksi. IBM:n muutamia vuosia sitten aloittama Blue Gene-projekti tähtää sellaisen laskentakapasiteetin kehittämiseen, että tuntemattomien proteiinien rakenne voitaisiin ennustaa kuvattua menetelmää käyttäen. Tällä hetkellä ab initio-menetrelmillä päästään noin 4 Å:n tarkkuuteen pienillä proteiineilla. 31.3.3 Rakenneprofiilimenetelmä Laskosten tunnistamiseen perustuva rakenneprofiilimenetelmä (fold recognition, structure profiling) pyrkii löytämään mallitettavassa proteiinissa oleville lyhyille sekvenssipätkille hyviä osumia rakennetietokannasta. Mallitettavan proteiinin osalle ennustetaan rakenne laskennallisesti, ja pyritään löytämään tietokannasta sellainen rakenne, joka on hyvin lähellä ennustettua. Toisin sanoen, rakenneprofiilimenetelmässä pyritään etsimään sellainen rakenne, jonka laskostuva rakenne todennäköisesti omaksuisi. Kunhan tällainen rakenne on tunnistettu, voidaan sitten edetä kuin homologiamallinnuksessa, ja ennustaa satunnaisrakenteet sekä optimoida aminohappojen sivuketjujen konformaatiot. Tällä hetkellä menetelmän sovellettavuutta rajoittaa se, että suurin osa PDBtietokannassa olevista laskoksista on toistensa kopioita, sillä sama laskos voi esiintyä useissa proteiineissa. Kunhan PDB:ssä olevien rakenteiden valikoima monipuolistuu, laskosten tunnistamiseen perustuva mallitusmenetelmää tulee varmasti entistä käyttökelpoisemmaksi. Onkin arvioitu, että erilaisia laskoksia olisi vain muutamia tuhansia, kun erilaisia proteiineja on eliökunnassa luultavasti useita miljoonia. Niinpä rakenneprofiilimenetelmä on varmasti eräs tulevaisuudessa suosituimmuuttaan selkeästi kasvattavista mallitusmenetelmistä. 336 Bioinformatiikan perusteet 31.3.4 Laskostaminen Laskostaminen eli threading on menetelmä, jossa käytetään apuna tunnettuja rakenteita seuraavasti. Päämääränä on muodostaa rakenne, joka vastaa tunnettua rakennetta parhaalla mahdollisella tavalla. Energiafunktio kertoo todennäköisyyden, että tietty aminohapposekvenssi muodostaa tietyn rakenteen. Tarkoituksena on tätä tietoa käyttäen etsiä paras mahdollinen vastaavuus mallitettavan ja templaattirakenteiden välille. Threading-menetelmän luotettavuus kasvaa sitä mukaa, kun PDBtietokantaan lisätään uusia rakenteita, aivan kuten rakenneprofiilimenetelmänkin. Osa V Liitteet 338 Bioinformatiikan perusteet 32 Lukujen tiivistelmät 32.1 Johdanto ja bioinformatiikan historia Bioinformatiikka on tieteenala, jolle on olemassa useita määritelmiä. Perinteisen määritelmän mukaan bioinformatiikalla tarkoitetaan lähinnä sekvenssianalyysiä ja fylogenetiikkaa, mutta sittemmin määritelmää on laajennettu kattamaan myös esimerkiksi DNA-mikrosirumenetelmät, proteomiikka ja geenikartoitus. Bioinformatiikka sai alkunsa biologisten tietokantojen paisuttua niin suuriksi, että niiden sisältämän tiedon hallintaan ja analysointiin tarvittiin tietokonemenetelmiä. Biologisen tiedon järjestely ja analysointi on edelleenkin bioinformatiikan keskeisimpiä toimialoja. 32.2 Laskennallisen biologian perusteet Algoritmi on yksittäisistä komennoista koostuva komentokoelma, joka kertoo, kuinka jokin tehtävä suoritetaan. Tietokoneohjelman sisuksissa toimii useimmiten yksi tai useampia ohjelmalle annettavan tehtävän ratkaisuun keskittyviä algoritmeja. Lisäksi ohjelmassa on käyttöliittymä, joka ei osallistu ongelmanratkaisuun. Tietokoneohjelman nopeus ja muistintarve riippuu usein siitä, miten hyvä algoritmi ongelmanratkaisua varten on onnistuttu kehittämään. Muistintarpeeseen voidaan vaikuttaa algoritmikehityksellä, mutta laskentaa voidaan nopeuttaa algoritmikehityksen lisäksi rinnakkaistamalla ongelmanratkaisu. Tällöin ongelma pilkotaan pienemmiksi paloiksi, joista jokaisen ratkaisee yksi erillinen tietokoneprosessori. Tavallisessa kotikoneessa on yksi prosessori, supertietokoneissa jopa tuhansia. 32.3 Esiteltävien menetelmien sovellusalueet Kirjassa esiteltäville menetelmille on monia sovelluksia, joista tässä mainitaan vain muutamia esimerkkejä. Sekvenssien hankkimiseen käytetään erilaisia tietokantoja, joita on niin DNA- kuin aminohapposekvensseillekin. Sekvenssien perusteella voidaan selvittää esimerkiksi kyetäänkö tarvittava geeni katkaisemaan laboratoriossa halutusta kohtaa mahdollista muokkausta silmälläpitäen. Sekvenssien avulla voidaan myös selvittää, onko esimerkiksi kahdella eri eliöstä peräisin olevalla geenillä tai proteiinilla samanlaisia piirteitä tai tiettyä toimintaa suorittavai osia. Tällöin sovelletaan sekvenssien parittaista rinnastusta. Usean sekvenssin rinnastusten perusteella voidaan selvittää useamman sekvenssin yhteisiä piirteitä tai niiden evoluutiohistoriaa. Bioinformatiikan yleisimmin sovellettu menetelmä BLAST, vertaa käyttäjän sekvenssiä tietokannssa oleviin sekvensseihin. Usein tätä käytetään esimerkiksi tuntemattoman sekvenssin toiminnan selvittämiseen. 32 Lukujen tiivistelmät 32.4 339 Sekvensointi ja DNA-sekvenssit Sekvensointi on menetelmä, jolla jostakin eliöstä eristettyjen nukleiinihappopätkien (DNA tai RNA) sekvenssi voidaan selvittää. Esimerkiksi HUGO-projektissa selvitettiin ihmisen koko perimän (DNA:n) nukleotidijärjestys. Tällainen sekvenssi esitetään useimmiten tietokoneelle neljän kirjaimen (A, C, G ja T) peräkkäisenä luetelmana, sekvenssinä. Usein tutkivat tallettavat sekvensoimansa sekvenssit julkisiin tietokantoihin, jolloin kuka tahansa pääsee niihin käsiksi, ja hyödyntämään tätä informaatiota. Sekvensseissä on kuitenkin usein virheitä, erityisesti sekvenssin alku- ja loppupäissä, joten käytettäessä julkisia sekvenssejä, on niiden laatuun aluksi suhtauduttava varauksella. Erityisen paljon virheitä on sekvensseissä, jotka on saatu lukemalla nukleiinihapon sekvenssin kertaalle. Tällaisia ovat esimerkiksi expressed sequence tag (EST) -sekvenssit. 32.5 Biotietokannat Biotietokantoihin on vuosien saatossa talletettu suuri määrä DNA- ja aminohapposekvenssejä, proteiinien kristallirakenteita ja aminohapposekvenssien tunnisteita. Pääasiallisia DNA-sekvenssien tallennuspaikkoja ovat Genbank- ja EMBL-tietokannat, joissa molemmissa on saatavilla tismalleen samat sekvenssit. Aminohapposekvenssien pääasiallinen sijoittamispaikka on Uniprot-tietokanta, ja kristallirakenteita löytyy PDB-tietokannasta. Aminohapposekvensseistä löytyviä proteiiniperheitä määritteleviä tunnisteita on koottu InterPro-tietokantaan. 32.6 Pisteytysmatriisit Pisteytysmatriisilla tarkoitetaan taulukkoa, jossa on ilmoitettu, kuinka paljon maksaa muutos esimerkiksi aminohappo alaniinista valiiniksi tai nukleotidi adeniinista tymiiniksi. Pisteytysmatriisia käytetään sekvenssirinnastusten yhteydessä rinnastusten pisteyttämiseen yhdessä aukkosakkojen kanssa. Lisäksi pisteytysmatriisia käytetään erityisesti aminohapposekvensseille evoluutiomallia molekyylisystematiikan analyysien yhteydessä. Pisteytysmatriiseja on useita erilaisia, ja kenties käytetyimpiä ovat evolutiiviseen mallin perustuvat PAM- ja JTT-sarjat sekä sekvenssien konservoitumisasteeseen perustuvat Blosum- ja Gonnet-sarjat. Kukin sarja sisältää useita erilaisia matriiseja, joiden käyttö määräytyy sen mukaan, kuinka samankaltaisille sekvensseille analyysiä ollaan tekemässä. Esimerkiksi Blosumsarjan matriisia Blosum62 käytetään n. 62sekvensseille. 32.7 Aukkosakot Aukkosakkojen avulla ilmoitetaan kuinka paljon maksaa uuden aukon avaaminen tai jo avatun aukon jatkaminen sekvenssirinnastuksessa. Tätä kutsutaan affine gaps -malliksi. Sekvenssirinnastuksen pistemäärä määräytyy aukkosakkojen ja pistetystmatriisin yhteisvaikutuksena: Pitsetysmatriisista saadut pistemäärät lisätään rinnastuksen pistemäärään tai vähennetään, mikäli ne ovat negatiivisia, mutta aukot ja aukkosakot voivat ainoastaan vähentää rinnastuksen saamaa pistemäärää. 32.8 Kahden sekvenssin rinnastus Kaksi sekvenssiä voidaan rinnastaa koko matkaltaan, jolloin puhutaan kokonaisrinnastuksesta, tai siten, että etistään vain parhaiten toisiaan vastaavat alueet, jolloin puhutaan paikallisesta rinnastuksesta. Kahden sekvenssin rinnastukseen on olemassa kolmenlaisia menetelmiä, pistematriisimenetelmä, sanakokomenetelmä 340 Bioinformatiikan perusteet ja dynaaminen optimointi. Pistematriisimenetelmässä rinnastettavat sekvenssit sijoitetaan taulukon ensimmäiselle riville ja ensimmäiseen sarakkeeseen, ja taulukon soluihin merkitään vastaavuutta merkitsevä piste jos sillä kohdin molemmissa sekvensseissä on sama aminohappo tai nukleotidi. Sanakokomenetelmää käytetään tietokantahakujen yhteydessä, ja se kuvataan tarkemmin seuraavassa luvussa. Dynaamisessa optimoinnissa sekvenssit sijoitetaan taulukkoon kuten pistematriisimenetelmässä, mutta nyt apuna käytetään pisteytysmatriisia ja aukkosakkoparametreja. Tällaista pistetytystä käyttäen pyritään löytämään mahdollisimman pienen yhteispistemäärän saava reitti taulukon läpi vasemmasta ylänurkasta oikeaan alanurkkaan. Dynaaminen optimointi antaa käytetyillä parametreilla aina laskennallisesti parhaan mahdollisen rinnastuksen, joka ei tietenkään ole välttämättä biologisestu paras rinnastus. Dynaamista optimointia käyttäviä algoritmeja on kaksi, joista Needleman-Wusch tuottaa kokonaisrinnastuksen ja Smith-Waterman paikallisen rinnastuksen. 32.9 Sekvenssihaut Sekvenssihauissa käytetään sanakokoon perustuvia nopeita rinnastusmenetelmiä, sillä muutoin hakusekvenssiä vastaavat sekvenssin löytäminen tietokannoista kestäisi suhteettoman pitkään. Alunperin tietokantahakuihin käytettiin FastA-ohjelmia, mutta sittemmin BLAST-ohjelmat ovat pitkälti korvanneet FastA:n lähinnä suuremman nopeutensa vuoksi. BLAST-haku perustuu siihen, että hakusekvenssi pilkotaan lyhyiksi, sanakoon määräämän mittaisiksi pätkiksi, joille sitten etsitään tietokannasta samanlaisia tai aiankin hyvin samankaltaisia osumia. Lähekkäin sattuvat osumat yhdistetään, ja niiden määräämä alue hakusekvenssin ja tietokannan sekvenssin välillä rinnastetaan Smith-Watermanin dynaamista optimointialgoritmia käyttäen. Näin saaty paikallinen rinnastus ilmoitetaan käyttäjälle osumana tietokantaan. 32.10 Usean sekvenssin rinnastus Usean sekvenssin rinnastuksen tarkoituksena on tuottaa rinnastettavista sekvensseistä kokonaisrinnastus. Tällainen rinnastus voidaan tuottaa dynaamista optimointi käyttäen, mutta en vaatima ajoaika ja muistitarve ovat varsin suuria. Siksi usean sekvenssin rinnastukseen onkin kehitetty nopeampia, joskin vähemmän tarkkoja menetelmiä. Useimmat usean sekvenssin rinnastusta tekevät ohjelmta käyttävät progressiivista menetelmää, joka koostuu kolmesta vaiheesta. Ensin muodostetaan rinnastettavien sekvenssien väliset parittaiset rinnastukset, ja näiden perusteella laskettujen sekvenssien välisten etäisyyksien perusteella muodostetaan puu. Usean sekvenssin rinnastus muodostetaan käyttäen puuta apuna siten, että ensimmäisenä rinnastetaan kaikkein samankaltaisimmat sekvenssit, ja viimeiseksi rinnastukseen lisätään kaikkein erilaisin sekvenssi. Progressiivisen menetelmän lisäksi käytössä on myös geneettisiin algoritmeihin perustuvia menetelmiä. Niissä paras rinnastus pyritään löytämään matkimalla evoluution kulkua eli luomalla rinnastuksiin mutaatioita ja rekombinaatioita, ja sitten valitsemalla muodostuneiden rinnastusten joukosta paras. Parhaaksi rinnastukseksi katsotaan se, joka saa parhaan pistemäärä pisteytysmatriisi ja aukkosakot huomioon ottaen. 32.11 PCR-alukkeiden suunnittelu PCR-alukkeiden suunnittelu on laboratoritöitä ajatellen varsin keskeinen menetelmä, jonka soveltaminen vaatii tietoa sekä laboratorimenetelmistä että bioinformatiikan menetelmistä. Keskesitä on löytää sellaiset alukkeet, jotka sitoutuvat soesifisesti vain halutulle alueelle, ja jotka eivät esimerkiksi sitoudu toisiinsa tai muodosta 32 Lukujen tiivistelmät 341 itsekseen hankalasti purkautuvia rakenteita. Bioinformatiikan menetelmin voidaan tarkentaa PCR-alukkeiden sitoumisaluetta (BLAST-haku) ja alukkeen muodostamisen rakenteiden (dotplot) mahdollista vaikutusta sen toimvuuteen varsinaisessa PCR-reaktiossa laboratoriossa. 32.12 Pistemutaatioiden seulonta tietokannoista Nykyiset tietokannat sisältävät jo suuren määrän ihmisen ja muidenkin eliöiden pistemutaatioita, SNP:ja. Uusien pistemutaatioiden seulominen tietokannoista on kuitenkin edelleen mahdollista ja järkevää silloin, jos halutaan selvittää erityisesti miten paljon tukea SNP saa ts. kuinka monessa sekvenssissä sama muutos esiintyy. Helpoin tapa etsiä pistemutaatioita on käyttää BLAST-hakua. Tunnistettujen pistemutaatioiden joukosta on sitten seulottava luotettavat eli sellaiset, jotka esiintyvät useammissa sekvensseissä ja mielenkiintoiset eli pääosin ne, jotka aiheuttavat aminohappomuutoksia tai sijaistevat esimerkiksi geenien promoottorialueella. Tunnettuja pistemutaatioita voidaan käyttää jatkotutkimuksissa muun muassa populaatiogenetiikassa, geenikartoituksessa ja farmakogenomiikassa. 32.13 DNA-sekvenssien ominaisuuksien sevlittäminen DNA-sekvenssistä voidaan selvittää monia laboratoriotyötä helpottavia asioita, kuten sen GC-pitoisuus ja siten myös sen sulamislämpö tai restriktioentsyymien katkaisukohdat geenin monistamista ja kloonaamista varten. Ihmisen genomi tunnetaan jo sekvenssitasolla suhteellisen hyvin, joten geenien eksonien ja intronien määritys onnistuu enimmäkseen varsin luotettavasti pelkkiä bioinformatiikan menetelmiä (parittainen rinnastus geenin ja lähetti-RNA:n välillä) soveltaen. Vaihtoehtoisen silmikoinnin ja antisense-RNA-molekyylien tunnistaminen sen sijaan ei ole yhtä suoraviivaista, mutta esimerkiksi antisense-RNA:n selvittäminen onnistuu yksinkertaisimmillaan, kun tehdään BLAST-haku käyttäen hakua, joka kohdistuu vain toiseen juosteeseen. Jos haussa löytyy sellaisia lyhyitä EST- tai lähetti-RNA- sekvenssejä, jotka ovat varsinaiselle lähetti-RNA:lle komplementaarisia, on kyseessä mahdollinen antisense-RNA. 32.14 Aminohapposekvenssin ominaisuuksien selvittäminen Aminohapposekvenssin perusteella on DNA-sekvenssiä helpompaa ennustaa syntyvät proteiinin sekundäärirakenteita, kuten hydrofobisia alueita tai alfaheliksejä ja betalevyjä. Sekundäärirakenteiden ennustaminen perustuu pitkälti valmiiksi taulukoiduille arvoille, joiden perusteella voidaan laskea todennäköisyys, että tietty aminohappopätkä muodostaa esimerkiksi alfaheliksin. Hydrofobiset alueet voidaan ennustaa samaan tapaan käyttäen eri aminohapoille määritettyjä hydrofobisuusarvoja. Sekundäärirakenteiden ennustaminen onnistuu oikein keskimäärin 60-70eli parannettavaakin vielä on. Eri proteiinien rakenteiden rinnastaminen kristallirakennetta käyttäen onnistuu esimerkiksi SSAP- ja DALI-algoritmeja käyttäen, joita käyttäen lasketaan eri rakenneatomien välinen etäisyys, joka sitten rinnastuksen tuottamiseksi pyritään minimoimaan. Tällaisen rakennerinnastuksen tekeminen on sekvenssirinnastusta vaativampaa, sillä rinnastuksessa tulee ottaa huomioon myös proteiinin selkärangan (hiiliatomit) rakenne itse sekvenssin lisäksi. 32.15 Tuntemattoman sekvenssin toiminnan selvittäminen Tuntemattoman sekvenssin toiminnan selvittäminen on haastavaa, mutta pelkkiä bioinformatiikan menetelmiä soveltaen päästään usein varsin pitkälle. Bioinforma- 342 Bioinformatiikan perusteet tiikan menetelmät eivät tietenkään onnistu ennustuksessaan, jos vastaavankaltaisia sekvenssejä ei ole tietokannoissa tai niidenkään toimintaa ei tunneta. Toiminnan selvittäminen nojaa usein vahvasti BLAST:lla toteutettuihin homologiahakuihin. Jos tietokannoista löytyy hakusekvenssille hyvin samankaltainen sekvenssi, on tuntemattoman sekvenssin toiminta usein samanlainen kuin tietokannasta löytyvän sekvenssin. Aminohapposekvenssien toiminnan selvittämiseen voidaan käyttää tunnistetietokantoja. Lisäksi hankalissa tapauksissa molekyylisystematiikan menetelmin tapahtuva puun muodostaminen ja tuntemattomien sekvenssien toiminna päättely sitä käyttäen johtaa usein hyviin tuloksiin. Myös DNA-sirujen käyttäminen apuna on mahdollista, sillä usein samalla tavalla ekspressoituvat geenit toimivat samalla tavoin tai liittyvät samaan biologiseen funktioon. 32.16 Johdatus molekyylisystematiikkaan Molekyylisystematiikan avulla pyritään selvittämään esimerkiksi lajien tai geenien evoluutiohistoriaa, mutta myös esimerkiksi virusinfektioiden etenemistä (molekyyliepidemiologia) tai samankaltaisten geenien funktioita. Menetelmät perustuvat oletukseen, että evoluutio on edennyt mahdollisimman yksinkertaisesti, ja että sitä voidaan kuvata kahtiajakoisella (dikotomisella) puulla. Saatujen tulosten perusteella esimerkiksi eliölajit luokitellaan hierarkkisesti monofyleettisiin ryhmiin, jotka ovat toisensa poissulkevia. Systematiikan pääsuuntaukset ovat kladistiikka ja fenetiikka, jotka eroavat menetelmiltään ja tutkimusfilosofialtaan. Nykyisin valtaosa julkaistuista artikkeleista soveltaa kladistisia menetelmiä. 32.17 Tavanomaisen analyysin eteneminen Analyysi alkaa sopivien sekvenssien valinnalla, mikä on toisinaan hyvinkin yksiviivaista. Esimerkiksi bakteerien systematiikan selvittämiseen käytetään miltei yksinomaan 16S rRNA sekvenssejä. Sekvenssejä valitessa pitää pohtia, käytetäänkö analyysissä ulkopuolista informaatiota ulkoryhmän muodossa vai juurretaanko puu jollakin muulla tavalla. Mielenkiintoiset lajit muodostavat sisäryhmän. Sekvenssien valinnan jälkeen on tutkittava sekvenssijoukkoa sen verran, että voidaan valita sille sopiva evoluutiomalli ja analyysimenetelmä. Sekvenssit rinnastetaan valittua evoluutiomallia käyttäen, ja samaa mallia tulisi käyttää myös varsinaisessa analyysissä. Varsinaisessa analyysissä voidaan käyttää etäisyys-, parsimonia-, suurimman uskottavuuden tai bayesilaisia menetelmiä. Analyysin lopuksi tutkitaan saadun tuloksen luotettavuutta esimerkiksi bootstrapping-menetelmää käyttäen. 32.18 Evoluutiomallit Evoluutiomallilla tarkoitetaan kuvausta siitä, miten sekvenssievoluutio on olettu tapahtuvan tutkittavassa sekvenssijoukossa. Aminohapposekvensseille käytetään useimmiten jotakin soveltuvaa pisteytysmatriisia, kuten aminohappojoukkoon parhaiten sopivaa PAM- tai JTT-matriisia, jotka on muodostettu alunperinkin evolutiivista työskentelyä ajatellen. DNA-sekvensseille käytetään useimmiten jotakin matemaattista mallia. Yksinkertaisin malli on Jukes-Cantor, joka olettaa, että kaikki nukleotidit ovat yhtä yleisiä, ja että muutokset mistä tahansa nukleotidista miksi tahansa toiseksi nukleotidiksi ovat yhtä yleisiä. Näitä malleja käytetään yleensä etäisyys- , suurimman uskottavuuden ja bayesilaisten menetelmien yhteydessä, mutta vastaavanlaisia malleja voidaan toteuttaa myös parsimoniamenetelmällä. 32 Lukujen tiivistelmät 32.19 343 Etäisyysmenetelmät Etäisyysmenetelmissä lasketaan aluksi sekvenssien väliset etäisyydet usean sekvenssin rinnastuksen perusteella. Etäisyyksien laskemisessa käytetään hyväksi valittua evoluutiomallia. Tällöin koko parittaisen rinnastuksen sisältämä informaatio tiivistyy yhteen sekvenssien samankaltaisuutta kuvaavaan lukuarvoon, joiden perusteella voidaan muodostaa puu jotakin soveltuvaa menetelmää käyttäen. Aiemmin käytettiin paljon UPGMA-menetelmää, mutta sen tekemät oletukset eivät ole realistisia, ja nykyisin suosituin menetelmä lieneekin neighbor-joining (NJ), jonka tekemät oletukset vastaavat todellisuutta UPGMA:ta paremmin. 32.20 Parsimoniamenetelmä Parsimoniamenetelmässä kutakin sekvenssirinnastuksen paikkaa tarkastellaan erikseen. Tavoitteena on muodostaa sellainen puu, jossa on tapahtunut pienin määrä muutoksia jostakin nukleotidista tai aminohaposta toiseksi. Analyysissä käytetään vain informatiivia ominaisuuksia, siis sellaisia rinnastuskohtia, joissa vähintään kahdessa sekvenssiä on sama, muista eriävä nukleotidi tai aminohappo. Pienimmän määrän muutoksia sisältävää puuta kutsutaan lyhyimmäksi puuksi (muutosten määrä on sen pituus) tai parhaaksi parsimoniapuuksi. Puuta muodostettaessa voidaan käyttää erilaisia optimaalisuuskriteereitä: esimerkiksi Fitchin kriteeri olettaa, että kaikki muutokset ovat mahdollisia ja ne ovat yhtä kalliita. Tätä mallia käytetään yleensä sekvenssiaineistoille, ja sen voidaan katsoa edustavan evoluutiomallia parsimoniamenetelmän yhteydessä. 32.21 Suurimman uskottavuuden menetelmät ja bayesilaiset menetelmät Suurimman uskottavuuden ja bayesilaiset menetelmät tarkastelevat parsimoniamenetelmän tapaan kutakin sekvenssirinnastuksen kohtaa muista irrallaan. Menetelmien päämääränä on löytää sellainen puu, jonka uskottavuus havaitulla sekvenssirinnastuksella on mahdollisimman suuri. Uskottavuus ilmoitetaan usein logaritmisesti, esimerkiksi LnL=-134.56, ja mitä lähempänä nollaa se on, sitä uskottavampi puu. Puun uskottavuuden laskemiseen käytetään valittua evoluutiomallia. Bayesilaisissa menetelmissä määriteään lisäksi niin sanottu priorijakauma, jonka mukaan puiden uskottavuuksien uskotaan jakautuneen. Priorijakauman määrittäminen vaikuttaa posteriorijakauman (parhaan puun uskottavuuden) laskemiseen, ja siten myös tuloksiin. 32.22 Superpuumenetelmät Superpuumenetelmien tarkoituksena on yhdistellä toisistaan riippumattomien aineistojen tuottamia puita. Periaate eroaa konsensus-menetelmistä siinä, ettei kaikissa yhdistettävissä puissa tarvitse olla mukana samoja lajeja, joskin vähintään parin lajin täytyy olla mukana kaikissa puissa. Vanhin ja edelleen käytössä oleva superpuumenetelmä on matrix representation with parsimony (MRP), joka koodaa yhdistettävien puiden sisältämän informaation additiivisiksi binäärisiksi muuttujiksi ja yhdistetyn puun löytämiseksi analysoi koodatut ominaisuudet parsimoniamenetelmää käyttäen. Superpuumenetelmät ovat saaneet osakseen paljon kritiikkiä, joka pääasiassa pyörii sen kysymyksen ympärillä, pitäisikö analyysissä pyrkiä enemmin taksonomiseen yhteensopivuuteen (superpuumenetelmät) vain yksittäisten ominaisuuksien yhteensopivuuteen (ei aineistojen yhdistetty analyysi). 344 32.23 Bioinformatiikan perusteet Parhaan puun löytäminen ja uudelleenjärjestelymenetelmät Kun puuta muodostetaan jollakin muulla kuin etäisyysmenetelmällä, sekvenssi sijoitetaan puussa sille kohtaa, jossa se antaa tulokseksi kaikkein lyhyimmän tai uskottavimman puun. Useimmiten näin ei kuitenkaan saada suoraan luotua kaikkein parasta puuta, sillä sekvenssien lisäysjärjestys vaikuttaa puun muotoon ja sitä kautta myös pituuteen tai uskottavuuteen. Siksi parhaan puun etsintä toteutetaankin usein siten, että sekvenssien lisäysjärjestys arvotaan satoja ja tuhansia kertoja, ja näiden tuloksena saatujen puiden joukosta valitaan paras. Käytännössä tämäkään ei vielä riitä, vaan puuta on uudelleenjärjesteltävä. Tällöin puusta katkotaan tietty osa, joka liitetään uudelleen joko samaan tai johonkin muuhun puuhun hieman eri kohtaan, ja jos puun pituus lyhenee tai uskottavuus paranee, valitaan tämä uusi puu parhaaksi puuksi. Perinteisiä uudelleenjärjestelymenetelmiä ovat NNI, SPR ja TBR, joista NNI on yksinkertaisin ja TBR monipuolisin. Lisäksi on kehitetty joukko uudempia ja tehokkaampia uudelleenjärjestelymenetelmä, kuten ratchet, tree fusing ja tree drifting, joiden avulla paras puu voidaan useimmiten löytää pelkkiä perinteisiä menetelmiä nopeammin. 32.24 Puun luotettavuuden arviointi ja konsensuspuut Parhaan puun löydyttyä pyritään yleensä arvioimaan sen saamaan tukea tai luotettavuutta. Tähän soveltuvia menetelmiä ovat esimerkiksi bootstrapping, jolla pyritään määrittämään puun oksien vaihteluväli, jackknifing sekä erityisesti parsimoniaanalyysin yhteydessä käytetty Bremein tukiarvo. Jos analyysin tuloksena on useita puita, voidaan niiden sisältämä informaatio tiivistää yhdeksi puuksi konsensusmenetelmiä käyttäen. Esimerkiksi majority rule-konsensuspuussa esitetään vain sellaiset ryhmät, jotka esiintyvät vähintään 50vertailla keskenään erilaisin tilastollisin testein (Kishino-Hasegawa) ja niitä käyttäen voidaan esimerkiksi testata, tukeeko aineisto tiettyjen lajien luokittelua monofyleettiseksi ryhmäksi (parametrinen bootstrapping). 32.25 Molekyylisystematiikan avoimia kysymyksiä Molekyylisystematiikassa on edelleen useita avoimia kysymyksiä. Tällä hetkellä keskustellaan paljon siitä, pitäisikö analyysissä pyrkiä useiden eri aineistojen väliseen yhteensopivuuteen (taksonominen yhteensopivuus) vai pikemminkin eri ominaisuuksien yhteensopivuuteen. Myös long brach attraction (LBA) -ongelma on ratkaisematta. LBA:ssa pitkät oksat sijoittuvat puussa yhteen yksinomaan siitä syystä, että ne kaikki ovat pitkiä. Ongelman havaitsemiseen ja ratkaisemiseen ei ole vielä kehitetty yksinkertaista ratkaisua. Lisäksi keskustelua herättää taksoniotanta. Taksoniotannalla tarkoitetaan analysoitavien sekvenssien valintaa. Keskustelussa on kiinnitetty huomiota erityisesti siihen, voidaanko sopivalla taksoniotannalla poistaa analyysiin vaikuttavia satunnaisia ja systemaattisia virheitä tai ainakin vähentään niiden vaikutusta tuloksiin. Ratkaisematta on myös eri menetelmien keskinäinen paremmuus tulosten tarkkuudella mitattuna, vaikka useimmat simulaatiotutkimukset puhuvatkin ennemmin suurimman uskottavuuden menetelmien kuin parsimonia puolesta. 32.26 Promoottorianalyysi Promoottorianalyysin tarkoituksena on selvittää, millaisia geenitoimintaa ohjaavien transkriptiofaktoreiden sitoutumiskohtien geenistä ylävirtaan sijaitsevalla pro- 32 Lukujen tiivistelmät 345 moottorialueella sijaitsee. Tähän on pääasiassa kahdenlaisia menetelmiä. Jos on tarkoituksena etsiä jo tunnettujen transkriptiofaktoreiden sitoutumiskohtia, käytetään yleensä PSSM-matriiseihin perustuvia menetelmiä. Sitoutumiskohtaa kuvaava PSSM-matriisi on muodostettu tunnettujen sitoutumiskohtien perusteella, ja sen avulla voidaan helposti löytää uudesta sekvenssistä sama sitoutumiskohta. Ongelmana on, että vaikka kaikki oikeat sitoutumiskohdat löydetään, tunnistetaan myös suuri määrä sellaisia kohtia, joihin sitoutumista ei oikeasta tapahdu. Tuntemattomien sitoutumiskohtien löytämiseen käytetään esimerkiksi Gibbsin otantaan tai EM-algoritmiin perustuvia menetelmiä, joissa tarkoituksena on löytää useissa sekvensseissä olevia, lyhyitä, suhteellisen samanlaisia sekvenssialueita. Väärien positiivisten löydösten harventamiseksi promoottorianalyysin tukena käytetään usein fylogeneettisiä sormenjälkiä, millä tarkoitetaan sekvenssialueiden konservoitumista evoluutiossa, sekä DNA-sirutuloksia, jolloin menetelmiä sovelletaan ainoastaan samalla tavalla ilmentyvien geenien joukkoon. 32.27 DNA-sirut DNA-sirujen avulla voidaan tutkia geenien ekspressiota, määrittää yhden nukleotidin muutoksia tai uudelleen sekvensoida kokonaisia geenejä. Geenien ilmentymisen tutkimiseen suunniteltuja siruja on lähinnä lahta päätyyppiä, cDNA-siruja, joilla geenit tunnistavat koettimet ovat pituudeltaan muutamia satoja nukleotideja, ja Affymetrix-siruja, joilla koettimet ovat noin 20 nukleotidia pitkiä. cDNA-siruille hybridisoidaan kerralla kahta näytettä, tutkimusnäytettä ja sille valittua kontrollia. Siksi niiden tuottamia aineistoja kutsutaan kaksiväridataksi. Affymetrix-siruille puolestaan hybridisoidaan kerrallaan vain yhtä näytettä, ja niiden tuottamaa aineistoa kutsutaan yksiväridataksi. Varsinainen data-analyysi koostuu yleensä esikäsittelyvaiheista, kuten normalisoinnista, jossa eri sirut saatetaan keskenään vertailukelpoisiksi, suodatuksesta, jossa aineistosta poistetaan epäluotettavat ja epäkiinnostavat havainnot, ja varsinaisesta analyysistä, jossa pyritään etsimään aineistosta mielenkiintoiset geenit erilaisia tilastollisia menetelmiä käyttäen. Lisäksi saatujen tulosten biologista merkitystä pyritään vielä analysoimaan varsinaisten tulosten saavuttamisen jälkeen. Tähän voidaan käyttää esimerkiksi GO-ontologioiden antamaa tietoa geenien toiminnasta tai metaboliakarttojen sisältämää informaatiota eri geenien funktioista erilaisissa metaboliaverkoissa. 32.28 RNA:n sekundäärirakenteen selvittäminen RNA:n sekundäärirakenteen selvittämiseen käytetään lähinnä kahdenlaisia menetelmiä. Minimienergiamenetelmä pyrkii löytämään sellaisen laskostumisrakenteen, jonka vapaa energia on mahdollisimman pieni. Tällainen rakenne voidaan löytää helposti dynaamista optimointia käyttäen, sillä erilaisten emäsparien sitoutumisenergiat tunnetaan. Toinen vaihtoehto on käyttää kovariaatiomenetelmää, jossa usean eri eliöistä otetun saman RNA-molekyylin rinnastuksen perusteella pyritään selvittämään, mitkä sekvenssikohdat muuntelevat yhdessä. Yhdessä muuntelevat sekvenssikohdat saattavat nimittäin vastata emäspariutumisia. 32.29 Geenirakenteen ennustaminen Geenirakenteen ennustamisella tarkoitetaan menetelmiä, joilla voidaan etsiä genomisesta DNA:sta ennalta tuntemattomia geenejä. Ennustusmenetelmillä pyritään usein myös selvitämään eksonien, intronien ja promoottorialueen sijaintipaikat. Geenirakenteen ennustamiseen voidaan käyttää useitakin erilaisia menetelmiä kuten, DNA:n translaatiota ja translaatiotuotteiden validointia, kodoniharhaan perustuvaa menetelmää tai geenien HMM- ja neuroverkkomalleihin perustuvia sovelluk- 346 Bioinformatiikan perusteet sia. Neuroverkko- ja HMM-mallit ovat nykyisin havaittu kaikkein luotettavimmiksi. 32.30 Vertaileva genomiikka Vertailevalla genomiikalla tarkoitetaan menetelmiä, joilla eliöiden genomeja vertaillaan toisiinsa sekä geenisisällön että geenien lukumäärän ja sijainnin suhteen. Usein vertailuun käytetään tavanomaisia BLAST-hakuja, mutta alalle on myös kehittynyt useita erityisesti pitkien sekvenssien rinnastamiseen kehitettyjä menetelmiä. Vertailevan genomiikan menetelmin on mahdollista tutkia esimerkiksi geenien, rakenne- ja säätely-DNA:n konservoitumista. Konservoituminen on yleensä sitä voimakkaampaa mitä läheisemmistä lajeista on kyse. Jos varsinaisen sekvenssin lisäksi myös geenien järjestys on säilynyt, puhutaan synteniasta. Viime aikoina vertaileva genomiikka on löytänyt tiensä myös lääkeainekehitykseen, jossa esimerkiksi eri bakteerilajien ja niide isäntälajin vertailuilla on mahdollista tunnistaa sellaisia geenejä, joiden proteiinituotteita voitaisiin mahdollisesti käyttää lääkeaineiden vaikutuskohteena. Tällaista lähestymistapaa on sovellettu muun muassa uusien antibiottien kehityksessä. 32.31 Proteomiikka Proteomiikka vastaa käsitteenä genomiikka. Siinä missä genomiikassa tutkitaan eliöiden geenisisältöä, tutkitaan proteomiikassa niiden proteiinisisältöä. Proteomiikan menetelmillä voidaan selvittää esimerkiksi proteiinien ilmentymistä eri soluissa ja kudoksissa. Pääasiallisia menetelmien proteiinien ilmentymisen tutkimisessa ovat 2D-geelielektroforeesi, jossa proteiinit erotellaan toisistaan niiden varauksen ja massan suhteen, ja massaspektrometria. Proteiinisirut ovat vasta kehitysasteella. Proteomiikkaan voidaan lukea kuuluvaksi myös molekyylimallituksen, jonka avulla pyritään selvittämään tuntemattomien proteiinien kolmiulotteisia rakenteita. Paras menetelmä rakenteiden mallittamiseen on homologiamallitus, mutta sen tueksi vaaditaan jokin mallitettavalle proteiinille samankaltainen tunnettu malliproteiini ja sen kolmiulotteinen rakenne. Jos kokonaista proteiinimallia ei ole saatavilla, voidaan malli muodostaa osissa käyttäen ab initio-, rakenneprofiili- tai laskostamismenetelmiä. Nämä menetelmät ennustavat proteiinin sekundäärirakennen kerrallaan, ja kokoavat niistä sitten kokonaisen proteiinia esittävän mallin. 33 Harjoitustehtävät 347 33 Harjoitustehtävät 33.1 Sekvenssirinnastukset 1. Muodosta seuraavista sekvensseistä dot-plot rinnastus ruutupaperia käyttäen. Käytä sanakokoa 1. Piirrä dot-plot-kuvaan mielestäsi paras polku, ja kirjoita lisäksi rinnastus auki allekkain tekstimuodossa. Merkitse tekstimuotoiseen rinnastukseen aukot miinusmerkillä. sekvenssi 1 ACG ACT GGC A sekvenssi 2 ACT ATG GCA 2. Rinnasta kohdan 1. sekvenssit käyttäen sanakokoa 2 dot-plot kuviossa. Päädyitkö nyt piirtämään dot plot kuvaan saman polun kuin edellisessä kohdassa? Jollet, niin miksi? 3. Laske edellä muodostamillesi rinnastuksille pistearvo, ja valitse sen perusteella parempi rinnastus. Käytä laskuissasi seuraavia lukuarvoja (tämä on Clustalin käyttämä pisteytysmatriisi), ja merkitse laskutoimitukset näkyviin: osuma +1, huti +0, aukon avaaminen -10, aukon jatkaminen -0,1. 4. Ohessa on kahdesta aminohapposekvenssistä muodostettuja rinnastuksia ja niiden alapuolella BLOSUM62-matriisi (Kuva 6.4, jota on käytetty sekvenssien rinnastamiseen. Jos aukon avaamiseen käytetään sakkoa -10 ja aukon jatkamiseen sakkoa -1, niin mikä rinnastuksista saa parhaan pistemäärän? Onko sama rinnastus mielestäsi myös biologisesti mielekkäin? sekvenssi 1 VDS-CY VD-SCY VDSCY- sekvenssi 2 VESLCY VESLCY VESLCY 5. Oheisessa kuvassa on dottup-ohjelmalla (käyttää pistematriisimenetelmää) tehty sekvenssirinnastus. Vaaka-akselilla on ihmisen lähetti-RNA:n sekvenssi ja pystyakselilla hiiren lähetti-RNA:n sekvessi. Kuvaa muodostettaessa on käytetty sanakokoa 4. Pohdi, millä tavoin voisit vähentää kuvasta satunnaispisteitä (taustaa), joka hankaloittaa lähetti-RNA-sekvenssien samankaltaisten alueiden hahmottamista. 348 Bioinformatiikan perusteet 6. Rinnasta seuraavat sekvenssit Clustalin progressiivista menetelmää käyttäen (ei siis Clustal-ohjelmaa käyttäen). sekvenssi 1 TGA GTT GAA CT sekvenssi 2 TGA GTG AGC T sekvenssi 3 TGA CTG AGC T sekvenssi 4 TGA CGA ACT Tee siis ensin kaikki mahdolliset parittaiset rinnastukset (6 kpl). Voit tehdä parittaiset rinnastukset joko dot-plot- tai Needleman-Wunsch-menetelmällä. Muodosta niiden pohjalta UPGMA-puu. Rinnasta viime vaiheessa sekvenssit puun ilmoittamassa järjestyksessä. Lisää rinnastukseen aukkoja tarvittaessa. Tee tehtävä jälleen käyttäen ruutupaperia, ja merkitse tekemäsi laskutoimitukset tai muut välivaiheet (esimerkiksi UPGMA-puuta muodostettaessa) selkeästi näkyviin. 7. Voisiko seuraavaa Clustalin tuottamaa aminohapposekvenssirinnastusta jotenkin parannella käsin (sellaiseksi, että se vastaa paremmin biologista todellisuutta)? Perustele. Laji Sekvenssi HU_G MGHFTEEDKA TITSLWGKV- -NVEDAGGET LGRLLVVYPW TQRFFDSFGN GO_G MGHFTEEDKA TITSLWGKV- -NVEDAGGET LGRLLVVYPW TQRFFDSFGN CZ_G MGHFTEEDKA TITSLWGKV- -NVEDAGGET LGRLLVVYPW TQRFFDSFGN OR_G MGHFTEEDKA TITSLWGKV- -NVEDAGGET LGRLLVVYPW TQRFFDSFGN GO_E MVHFTAEEKA AVTSLWSKM- -NVEEAGGEA LGRLLVVYPW TQRFFDSFGN CZ_E MVHFTAEEKA AVTSLWSKM- -NVEEAGGEA LGRLLVVYPW TQRFFDSFGN HU_E MVHFTAEEKA AVTSLWSKM- -NVEEAGGEA LGRLLVVYPW TQRFFDSFGN OR_E MVHFTAEEKA AVTSLWSKM- -NVEEAGGEA LGRLLVVYPW TQRFFDSFGN CZ_D -VHLTPEEKT AVNALWGKV- -NVDAVGGEA LGRLLVVYPW TQRFFESFGD 33 Harjoitustehtävät 33.2 349 HU_D -VHLTPEEKT AVNALWGKV- -NVDAVGGEA LGRLLVVYPW TQRFFESFGD GO_D -VHLTPEEKT AVNALWGKV- -NVDAVGGEA LGRLLVVYPW TQRFFESFGD OR_D MVHLTPEEKT AVNALWGKV- -NVDAVGGEA LGRLLVVYPW TQRFFESFGD CZ_B MVHLTPEEKS AVTALWGKV- -NVDEVGGEA LGRLLVVYPW TQRFFESFGD HU_B MVHLTPEEKS AVTALWGKV- -NVDEVGGEA LGRLLVVYPW TQRFFESFGD GO_B MVHLTPEEKS AVTALWGKV- -NVDEVGGEA LGRLLVVYPW TQRFFESFGD OR_B -VHLTPEEKS AVTALWGKV- -NVDEVGGEA LGRLLVVYPW TQRFFESFGD CZ_A -MVLSPADKT NVKAAWGKVG AHAGEYGAEA LERMFLSFPT TKTYFPHF-D HU_A -MVLSPADKT NVKAAWGKVG AHAGEYGAEA LERMFLSFPT TKTYFPHF-D GO_A --VLSPADKT NVKAAWGKVG AHAGDYGAEA LERMFLSFPT TKTYFPHF-D OR_A -MVLSPADKT NVKTAWGKVG AHAGDYGAEA LERMFLSFPT TKTYFPHF-D MA_A --VLSPADKS NVKAAWGKVG SHAGDYGAEA LERMFLSFPT TKTYFPHF-D Fylogenetiikka 1. Viidestä eri lajista on tutkittu SINE-jaksojen esiintyvyyttä tietyissä kromosomikohdissa. Tuloksena saaduista elektroforeesikuvista on muodostettu ominaisuusmatriisi. Muodosta lyhyin mahdollinen parsimoniapuu seuraavan matriisin perusteella. Vinkki: piirrä kaikki mahdolliset puut, ja merkitse niihin tapahtuneet muutokset. Valitse näin muodostetuista puista lyhyin mahdollinen. Muista käyttää vain informatiivisia ominaisuuksia! Käytä lisäksi ulkoryhmänä outgrouplajia. Raportoi puun muoto ja sen pituus. Tarkastele lopuksi puun muotoa: onko saamasi lopputulos mielekäs? Ominaisuusmatriisi: Ulkoryhmä 0,0,0,0,0,0,0,0,0,0 Ihminen 1,0,1,1,0,0,1,1,0,0 Kissa 0,1,0,1,0,1,0,0,1,1 Hiiri 1,0,1,0,0,0,1,0,0,0 Karhu 0,1,0,0,1,1,0,1,0,1 2. Piirrä allaolevan ihmisen hemoglobiinisekvensseistä muodostetun taulukon perusteella UPGMA- ja neighbor-joining-puut, jotka kuvastavat lajien välisiä suhteita. Raportoi puissa oksien pituudet. Merkitse myös näkyviin laskujesi välivaiheet. HU_G HU_E HU_B HU_D HU_A HU_G 0.00000 0.23479 0.36656 0.37651 1.08093 HU_E 0.23479 0.00000 0.31407 0.35291 1.10525 HU_B 0.36656 0.31407 0.00000 0.07733 0.99969 HU_D 0.37651 0.35291 0.07733 0.00000 1.01624 HU_A 1.08093 1.10525 0.99969 1.01624 0.00000 33.3 Alukkeiden suunnittelu 1. Suunnittele seuraavalle sekvenssille yksi pari sellaisia PCR-alukkeita, jotka monistavat reaktiossa geenin koodaavan alueen (korostettu teksti). Raportoi alukkeiden pituus, sekvenssi 5’->3’ suunnassa ja sulamislämpö. Merkitse lisäksi alukkeiden paikka sekvenssiin nuolilla (–> ja <–). 350 Bioinformatiikan perusteet >gi|29436|emb|V00497.1|HSBGL1 Human beta-globin ACATTTGCTTCTGACACAACTGTGTTCACTAGCAACCTCAAACAGACACC ATGGTGCACCT GACTCCTGA GGAGAAGTCTGCGGTTACTGCCCTGTGGGGCAAGGTGAACGTGGATGAAGTTGG TGGTGAGGCCCTGGGCAGGCTGCTGGTGGTCTACCCTTGGACCCAGAGGTTCTT TGAGTCCTTTGGGGATCTGTCCACTCCTGATGCAGTTATGGGCAACCCTAAGGT GAAGGCTCATGGCAAGAAAGTGCTCGGTGCCTTTAGTGATGGCCTGGCTCACCT GGACAACCTCAAGGGCACCTTTGCCACACTGAGTGAGCTGCACTGTGACAAGCT GCACGTGGATCCTGAGAACTTCAGGCTCCTGGGCAACGTGCTGGTCTGTGTGCT GGCCCATCACTTTGGCAAAGAATTCACCCCACCAGTGCAGGCTGCCTATCAGAA AGTGGTGGCTGGTGTGGCTAATGCCCTGGCCCACAAGTATCACTAAGCTCGCTT TCTTGCTGTCCAATTTCTATTAAAGGTTCCTTTGTTCCCTAAGTCCAACTACT AAACTGGGGGATATTATGAAGGGCCTTGAGCATCTGGATTCTGCCTAATAAAAA ACATTTATTTTCATTGC 2. Ylläolevassa sekvenssissä kursiivilla korostetussa kohdassa sijaitsee SNPpolymorfia, joka muuttaa nukleotidin adeniinista (A) sytosiiniksi (C). Suunnittele PCR-alukkeet, joiden avulla voit katkokirjoanalyysissä (RFLP) määrittää kumpaa tyyppiä analysoitava näyte on. Vinkki: BfuAI-restriktioentsyymin katkaisukohta on ACCTGC. Raportoi alukkeet, kuten kohdassa 1. Minkä aminohappomuutoksen A->C substituutio aiheuttaa? 34 Sanasto 351 34 Sanasto Accession number Esimerkiksi sekvenssitietokannan tietueen (sekvenssin) tunnistenumero, jolla tietue (sekvenssi) voidaan hakea tietokannasta. Algoritmi Luettelo niistä työvaiheista, jotka on suoritettava jonkin ongelman ratkaisemiseksi. Tarkoittaa yhtälailla matemaattisia operaatioita jonkin laskennallisen ongelman ratkaisemiseksi kuin niitä vaiheita, jotka tarvitaan, jotta suuresta jatulintarhasta tai labyrintistä pääsee varmasti ulos (käänny joka ikisessä risteyksessä aina vaikkapa oikealla). Annotaatio Annotaatiot voidaan yhdistää esimerkiksi sekvensseihin. Tällöin annotaatiolla tarkoitetaan kaikkia sekvenssiin liitettyjä lisätietoja tai kuvauksia sen toiminnasta, alkuperästä ja sekvensoijasta. Apomorfia Evolutiivinen uutuus tai siis evoluutiossa ennen esiintymätön ominaisuus tai vanhan ominaisuuden uusi taso. Esimerkiksi linnun sulan kehittyminen matelian suomusta, jolloi sulka on apomorfinen sulkaan nähden. Katso myös synapomorfia. Aukkosakot Sekvenssirinnastuksiin on usein tarpeen sijoittaa aukkoja, siis sellaisia kohtia, joissa yhden sekvenssin nukleotidit tai aminohapot eivät osu kohdakkain muiden sekvenssien nukleotidien tai aminohappojen kanssa. Tällaiset kohdat ovat evolutiivisesti insertioita tai deleetiota. Rinnastuksen muodostamiseksi on usein tarpeen määrittää kuinka paljon sakotetaan uuden aukon avaamisesta ja kuinka paljon jo olemassaolevan aukon jatkamisesta. Tällaista aukkosakkomallia kutsutaan affine gaps-malliksi. Dynaaminen optimointi Algoritmi, jonka avulla voidaan määrittää esimerkiksi taulukon läpi kulkeva kaikkein lyhyin polku. Dynaamista optimointialgoritmia käytetään esimerkiksi SmithWaterman- ja Needleman-Wunsch -algoritmeissa kaikkein parhaan sekvenssirinnastuksen löytämiseen. Eksoni Se osa geeniä, joka transloidaan proteiiniksi tai on muutoin toiminnallinen. Vrt. introni. EM-algoritmi Eräs algoritmityyppi, jonka avulla voidaan ratkaista moninaisia ongelmia. Algoritmi koostuu kahdesta vaiheesta, expectation-vaiheesta ja maximation-vaiheesta. Ensimmäisessä vaiheessa algoritmin parametrit arvioidaan aineistosta, ja toises- 352 Bioinformatiikan perusteet sa vaiheessa parametreille etsitään aineiston perusteella parhaat arvot. Näitä kahta vaihetta toistetaan haluttu määrä kertoja tai kunnes tulos ei enää muutu (tulos konvergoituu). EST-sekvenssi Expressed sequence tag, sekvenssi, joka on saatu kääntämällä eristetty lähetti-RNA cDNA:ksi, ja sekvensoimalla näin saatu cDNA. Menetelmästä johtuen EST-sekvenssi on useimmiten suhteellisen lyhyt sekvenssi alkuperäisen lähetti-RNA:n alku- tai loppupäästä. Lisäksi EST-sekvensseissä esiintyy varsin paljon sekvensointivirheitä (noin 1/1000 bp). Etäisyysmatriisi Taulukko, jossa on esitetty kaikkien sekvenssien parittaiset etäisyydet. Etäisyydet voidaan laskea esimerkiksi jotakin evoluutiomallia käyttäen. Evoluutiomalli Evoluutiomalli kuvaa sitä, kuinka usein tietty aminohappo tai nukleotidi muuttuu toiseksi (ks. mutaatiomalli ja pisteytysmatriisi). Aminohapposekvensseille evoluutiomalli on käytännössä jokin pisteytysmatriisi, DNA-sekvensseille jokin matemaattinen muutosten määrää ja laatua kuvaava mallia. Esimerkkejä DNA:lle tarkoitetuista evoluutiomalleista ovat Jukes-Cantorin, Kimuran kahden parametrin ja Felsenstein 84 mallit. FastA FastA on sekä tietokoneohjelma, jolla voidaan tehdä sekvenssin perusteella hakuja sekvenssitietokantoja vastaan, että sekvenssien yksinkertaisen esitysmuoto. FastAmuodossa sekvenssit esitetään siten, että ennen varsinaista sekvenssiä tulee yksi otsikkorivi, joka alkaa merkillä >. Otsikkorivin sisältö on vapaa, mutta sekvenssi alkaa heti sitä seuraavalta riviltä. Samassa tiedostossa voi olla useita sekvenssejä, jolloin ne luetellaan tiedostossa peräkkäin. Tällöin niiden välillä on kuitenkin oltava otsikkorivi, esimerkiksi: >sekvenssi1 acgtacgt >sekvenssi2 tgcatgca FastA on yleisimmin käytetty sekvenssien esitysmuoto, ja miltei kaikki ohjelmat osaavat lukea niitä. Flat file Usein kuulee puhuttavan flat fileistä. Näillä tarkoitetaan yleensä pelkkää puhdasta tekstiä sisältäviä tiedostoja. Tiedostot voivat sisältää esimerkiksi tietokannan tietueita tai yksittäisiä sekvenssejä. Fenogrammi Kladogrammi on puumuotoinen esitys lajien sukulaisuussuhteista. Fenogrammi eroaa kladogrammista siten, että fenogrammissa on esitetty myös puun oksien pituudet.Oksan pituus kuvaa siinä tapahtuneen evoluution määrää, esimerkiksi tapahtuneiden nukleotidimuutosten määrää. Graafiteorian kannalta kladogrammi on siten painotettu suunnattu puu. Fylogenetiikka Perinteisesti fylogenetiikka on tarkoittanut lajien välisten sukulaisuusuhteiden selvittämistä siltä osin kuin sukulaisuussuhteet ovat kuvastaneet lajien evoluutiota (kladistiikka). Tällöin analyysimenetelmistä kyseeseen on tullut lähinnä parsimoniamenetelmä. Nykyisin fylogenetiikka-termiä kuitenkin käytetään siten, että se kattaa 34 Sanasto 353 kaikki systematiikan tai molekyylisystematiikan menetelmät. Geeni Genomin (DNA:n) alue, joka transkriptiossa käännetään RNA-molekyyliksi. Geneettinen algoritmi Mikä tahansa algoritmi, jonka avulla ratkaistaan jokin ongelma siten, että simuloidaan evoluutiota. Geneettisen algoritmin tarkoituksena on luoda ratkaisu käyttäen apuna mutaatioita, valintaa ja rekombinaatiota. Esimerkiksi usean sekvenssin rinnastus voidaan tehdä käyttäen geneettistä algoritmia. Genomi Eliön perimä eli sen geenien (ja niiden ulkopuolisen nukleiinihapon) muodostama kokonaisuus. Tarkkaan ottaen genomilla tarkoitetaan eliön haploidia nukleiinihappokokonaisuutta. Genominen sekvenssi Genominen sekvenssi on sellainen sekvenssi, joka voi sisältää kaikki geeniin kuuluvat osaset, kuten promoottorialueen ja intronit. Vrt. mRNA-sekvenssi. Homologia Homologialla tarkoitetaan tuntomerkkejä, esimerkiksi eliöiden morofologisia ominaisuuksia, jotka ovat peräisin yhteiseltä kantamuodolta. Jos siis verrataan vaikka hiirtä ja rottaa, ovat niiden turkin karvat homologisia, sillä ne ovat ominaisuutena peräisin molempien yhteisesltä kantamuodolta. Myös geenit tai yksittäiset sekvenssikohdat voivat olla keskenään homologisia. Homologia on on/ei-tyyppinen kuvaus jostakin rakenteesta. Esimerkiksi geenit eivät voi olla 55% homologisia, vaan ne joko ovat homologisia tai eivät ole, mutta ne voivat kyllä olla 55% samankaltaisia. Geenien homologia on joko paralogiaa tai ortologiaa. Homoplasia Samankaltaisuus, joka on seurausta esimerkiksi samansuuntaisesta (konvergenttisestä) evoluutiosta, eikä ole sellaisenaan periytynyt yhteiseltä kantamuodolta. Esimerkiksi kalan ja delfiinin virtaviivainen, veteen sopeutunut ruumiinmuoto on seurausta samansuuntaisesta evoluutiosta. Introni Se osa geeniä, joka lähetti-RNA:n muodostamisen yhteydessä leikataan pois silmikointitapahtumassa. Juoste DNA-kaksoiskierre koostuu kahdesta DNA-juosteesta. Lähetti-RNA-molekyylissä sen sijaan on vain yksi juoste. Juosteella on aina suunta, joka määräytyy DNA:n kemiallisten ominaisuuksien mukaan. Juosteen 3’-päässä on vapaa OH-ryhmä, josta DNA:n polymerisoituminen voi jatkua. Juosteen 5’-päässä ei OH-ryhmää ole. Yleensä tietokannoissa sekvenssit on lueteltu 5’->3’-suunnassa, mutta tästä ei voi aina olla täysin varma esimerkiksi EST-sekvenssien kohdalla. Kladistiikka Eräs systematiikan suuntaus, joka pyrkii kuvaamaan lajien sukulaisuusuhteet niiden oikean evolutiivisen kehittymisjärjestyksen perusteella. Kladistiikassa eliöiden luokittelu perustuu evolutiivisiin uutuuksiin, synapomorfioihin, ja pääasiallisena aineistojen analyysimenetelmänä käytetään parsimonia-menetelmää. Kladogrammi Kladogrammi on puumuotoinen esitys lajien sukulaisuussuhteista. Kladogrammi 354 Bioinformatiikan perusteet eroaa fenogrammista siten, että siinä puun oksille ei ole määrätty pituuksia. Graafiteorian kannalta kladogrammi on siten painottamaton suunnattu puu. Kokonaisrinnastus Kokonaisrinnastuksessa kaksi tai useampia sekvenssejä pyritään sijoittamaan koko matkaltaan kohdakkain. Kokonaisrinnastuksen muodostamiseen käytetään joko Needleman-Wunschin dynaamista optimointialgoritmia tai heuristisia menetelmiä, kuten Clustal-perheen progressiiviset menetelmät. Komplementaarinen sekvenssi Komplementaarisella sekvenssillä tarkoitetaan sekvenssiä, joka on alkuperäiselle sekvenssille vastakkainen. Koska A pariutuu DNA:ssa T:n ja C G:n kanssa, voidaan alkuperäisestä sekvenssistä muodostaa helposti komplementaarinen korvaamalla alkuperäisen sekvenssin A:t T:llä ja C:t G:llä. Konsensussekvenssi Usean sekvenssin rinnastuksen perusteella muodostella sekvenssi, johon on merkitty ne nukleotidit, jotka kussakin rinnastuksen sarakkeessa esiintyvät yli 50%:lla sekvensseistä. Molekyylisystematiikka Systematiikka on biologisen tutkimuksen ala, joka tutkii lajien ominaisuuksia ja lajien välisiä suhteita. Molekyylisystematiikka on ala, joka käyttää systematiikan tutkimukseen molekyylisekvenssejä. Jotkut pitävät systematiikka-nimitystä taksonomian sysnonyyminä, jolloin alaan lasketaan kuuluvaksi myös systematiikan menetelmien tutkimus. Monofyleettinen ryhmä Kladistiikassa monofyleettiset ryhmät muodostetaan synapomorfioiden perusteella. mRNA Lähetti-RNA, DNA:sta transkriptiolla luotu kopion, jonka perusteella vastaava proteiini syntetisoidaan. Lähetti-RNA:ssa ei enää esiinny introneita, vaan ne on poistettu silmikointi-tapahtumassa. Siten tietokannoista saadussa lähetti-RNA-sekvenssissäkään ei ole introneita. Vrt. Genominen sekvenssi. Mutaatiomalli Mutaatiomallilla tarkoitetaan mallia siitä, millaisia ja kuinka usein esimerkiksi nukleotidit muuttuvat toisiksi mutaatioiksi (ks. pisteytysmatriisi). Esimerkki mutaatiomallista on PAM-matriisi. Jos kaikki muutokset ovat yhtä todennäköisiä, puhutaan yhtenäisestä mutaatiomallista, muutoin on kyse epäyhtenäisestä mutaatiomallista. Ortologia Ortologiset geenit ovat sellaisia, jotka ovat keskenään homologisia lajiutumisen kautta Ortologisia ovat sellaiset geenit, jotka ovat pysyneet lajin sisällä samanlaisina, mutta periytyneet eri lajeille niiden yhetiseltä kantamuodolta. Paikallinen rinnastus Paikallisessa rinnastuksessa kahden tai useampien sekvenssien keskenään kaikkein samankaltaisimmat alueet pyritään sijoittamaan kohdakkain (ks. sekvenssirinnastus). Paikallisten rinnatusten luomiseen voidaan käyttää BLAST- tai SmithWaterman-algoritmeja (kaksi sekvenssiä) tai EM- tai Gibbsin otanta-algoritmeja (useita sekvenssejä). Painoarvomatriisi Painoarvomatriisi on taulukko, jonka avulla voidaan esittää, kuinka usein tietty 34 Sanasto 355 nukleotidi tai aminohappo esiintyy kussakin sekvenssin tai usean sekvenssin rinnastuksen kohdassa. Painoarvomatriisin perusteella voidaan muodostaa PSSM-matriisi. Parafyleettinen ryhmä Kladistisessa luokittelussa esiintyvää parafyleettistä ryhmää luonnehtii homoplasia. Paralogia Paralogiset geenit ovat sellaisia keskenään homologisia geenejä, joiden homologisia on syntynyt saman lajin sisällä kantamuotogeenin kopioituessa. Keskenään paralogiset geenit ovat siis geeniduplikaation kautta syntyneitä erilaisia kopioita samasta alkuperäisestä geenimuodosta. Parittainen rinnastus Parittaisessa rinnastuksessa kaksi sekvenssiä pyritään rinnastamaan keskenään (ks. sekvenssirinnastus). Sekvenssit voidaan rinnastaa pareittain käyttäen esimerkiksi pistematriisi- tai ktup (BLAST) -menetelmää tai dynaamista optimointia. PCR Polymeraasiketjureaktio, jonka avulla on mahdollista monistaa tiettyä DNA:n jaksoa laboratorio-oloissa koeputkessa miljoonia kertoja muutamassa tunnissa. Pistematriisi Kuva tai taulukko, jossa kuvataan kahden sekvenssin rinnastus. Toinen sekvenssi on sijoitettu taulukon pystyakselille, toinen vaaka-akselille. Sellaisiin taulukon soluihin, joissa molemmissa sekvensseissä on sama nukleotidi tai aminohappo, merkitään piste. Pistematriisikuvien avulla voidaan helposti määrittää missä kohdin sekvensseissä on inversioita. Tämä ei muita rinnstusmenetelmiä käyttäen onnistu helposti. Pistemutaatio Yhden nukleotidin muutos toiseksi nukleotidiksi jossakin eliön perimän kohdassa. Pisteytysmatriisi Pisteytysmatriisin avulla ilmoitetaan, kuinka usein tai kuinka suurella todennäköisyydellä esimerkiksi tietyssä aminohapossa tapahtuu mutaatio. Esimerkkejä pisteytysmatriiseista ovat PAM- ja BLOSUM-sarjan aminohappomatriisit. Pisteytysmatriisia käytetään sekä sekvenssirinnastuksissa osumien ja hutien saamien pistemäärien laskemiseen sekä molekyylisystematiikassa evoluutiomallina. Plesiomorfia Ominaisuuden alkuperäinen ilmenemismuoto, josta kehittyneemmät muodot ovat kehittyneet. Polyfyleettinen ryhmä Kladistisessa luokittelussa esiintyvää polyfyleettistä ryhmää luonnehtii plesiomorfia. Promoottorialue Se osa geeniä, joka ohjaa geenin ilmentymistä. Yleensä promoottorialueeksi käsitetään vain geenistä ylävirtaan (siis 5’-suuntaan) sijaitseva DNA:n osa, vaikka erilaisia geenin toimintaa ohjaavia elementtejä voi esiintyä DNA:ssa muuallakin, esimerkiksi introneissa. Proteiini Aminohapoista koostuva biologinen makromolekyyli, joka voi toimia esimerkiksi 356 Bioinformatiikan perusteet solun rakennuselementtinä tai katalysoida jotakin kemiallista reaktiota (entsyymi, biologinen katalysaattori). PSSM-matriisi PSSM-matriisi muodostetaan painoarvomatriisin perusteella jakamalla aminohappojen tai nukleotidien havaitut frekvenssit niiden oletusarvoisilla frekvensseillä. Lopullinen PSSM-matriisi muodostetaan ottamalla havaittu / oletettu -frekvensseistä log2-muunnos. PSSM-matriiseja käytetään esimerkiksi tunnettujen toiminnallisten motiivien ja domeenien tunnistamiseen aminohapposekvensseistä tai transkriptiotekijöiden situoutumiskohtien tunnistamiseen DNA-sekvensseistä. Sekvenssihaku Jos halutaan hakea tietoa sekvenssitietokannoista sekvenssiä käyttäen, tehdään sekvensihaku. Sekvenssihakuihin käytetään esimerkiksi BLAST- ja FastA-ohjelmia. Sekvenssilogo Painoarvomatriisin perusteella laadittu kuva, jossa kukin usean sekvenssin rinnastuksen kohta kuvataan yhdellä palkilla. Palkin korkeus kuvaa kohdan konservoitumisastetta, ja siinä olevien eri nukleotidien tai aminohappojen korkein kunkin runsautta. Logon palkkien ylimmät nukleotidit tai aminohapot muodostavat konsensussekvenssin. Sekvenssirinnastus Sekvenssirinnastuksen tarkoituksena on sijoittaa kaksi tai useampia sekvenssejä keskenään kohdakkain siten, mahdollisimman moni niiden samanlaisista nukleotideista tai aminohapoista osuu kohdakkain. Tämän varmistamiseksi rinnastukseen voidaan sijoittaa aukkoja. Sisarryhmä Molekyylisystematiikasta puhuttaessa tarkasteltavan ryhmän läheisin sukulaisryhmä. Esimerkiksi ihmisen sisarryhmä on simpanssi. Sisäryhmä Molekyylisystematiikan menetelmien yhteydessä tutkittavien lajien muodostama joukko. Katso myös ulkoryhmä. SNP Eliön perimässä oleva pistemutaatio, josta esiintyy vain kahta muotoa, ja jonka frekvenssi väestössä on vähintään 1%. Synapomorfia Sellainen apomorfinen ominaisuus tai ominaisuuden taso, joka yhdistää kahta tai useampaa tutkittavaan ryhmään kuuluvaa taksonia. Vain yhteen lajiin rajautuvaa apomorfista ominaisuutta kutsutaan autoapomorfiaksi tai autapomorfiaksi. Kladistiikassa lajit luokitellaan monofyleettisiksi ryhmiksi niiden synapomorfioiden perusteella. Säännöllinen lauseke Säännöllinen lauseke on sekvenssin tai sekvenssijoukon kuvaus. Se ei anna sekvenssijoukosta yhtä paljon tietoa kuin painoarvomatriisi, mutta enemmän tietoa kuin konsensussekvenssi. Säännöllisen lausekkeen avulla voidaan ilmoittaa, että joissakin sekvenssikohdissa on sallittua esiintyä jokin usemmasta nukleotidista tai aminohaposta. Esimerkiksi sekvenssi AC[ACG]GT tulkittaisiin siten, että sekvenssissä esiintyy ensin AC, sitten mikä tahansa A:sta, C:stä tai G:stä, ja sitten GT. Siten lausekkeen kuvaamia mahdollisia sekvenssejä olisi kolme ACAGT, ACCGT ja ACGGT. 34 Sanasto 357 Taksoni Mikä tahansa eliöryhmä, joka voi sijaita millä eliöiden luokittelun tasolla tahansa. Taksoni voi siten olla esimerkiksi laji Homo sapiens tai yhtähyvin nykyihmisten suku Homo. Eliöiden sukulaisuussuhteita kuvaavissa puissa voidaan erottaa OTU (operational taxonomic unit) ja HTU (hypothetical taxonomic unit). OTU:ksella tarkoitetaan taksonia, joka sijaitsee puu terminaalisessa oksassa, siis jonkin puun päättävän oksan päässä. HTU:lla tarkoitetaan sellaista hypoteettista taksonia, joka voidaan sijoittaa johonkin puun sisäiseen oksanhaaraan. Tietue Tietokannassa oleva, esimerkiksi sekvenssin ja sen kuvauksen sisältävä tiedosto. Esimerkiksi EMBL-tietokannassa yksi tietue muodostuu sekvenssistä ja sen annotaatiosta. Tietokanta Kokoelma esimerkiksi yksittäisiä sekvenssitietueita. Nykyiset sekvenssitietokannat on pitkälti rakennettu siten, että yksittäinen tietue vastaa yhtä tekstitiedostoa, tai tarkkaan ottaen joitakin kymmeniä rivejä yhdestä suuresta tekstitiedostosta (ks. Flat file). Ala on siirtymässä relaatiotietokantojen suuntaan. Niissä tiedot on koottu tauluihin (taulukoihin). Tietokantahaku Tietokantahaku on yleisnimitys sille, että haetaan tietoja tietokannoista. Tässä kirjassa termillä on kuitenkin rajoitettu tarkoittamaan hakua, jossa tehdään asiasanahaku johonkin tietokantaan. Toistojakso Mikä tahansa eliön genomissa toistuvasti esiintyvä DNA-jakso. Esimerkiksi ihmisen genomille tyypillisiä toistojaksoja ovat minisatelliitit, joissa toistuva jakso on muutamia kymmeniä nukleotideja pitkä ja mikrosatelliitit, jotka ovat muutaman emäksen mittaisista yksiköistä koostuvia jaksoja. Mikro- ja minisatelliitit ovat peräkkäisiä sarjoja. Esimerkiksi TGTGTGTG on mikrosatelliitti, jossa toistuva jakso on TG. Transitio Pistemutaatio, josa puriiniemäs muuttuu puriiniksi tai pyrimidiiniemäs pyrimidiiniksi, A->G, A->T, C->G, C->T, G->A, G->C, T->A, T->C. Useimmiten transitiot ovat DNA:ssa yleisempiä kuin transversiot, jo yksinomaan DNA:n kemiallisesta rakenteesta johtuen. Vrt. transversio. Transkriptio Tapahtuma, jossa DNA-sekvenssi kopioidaan lähetti-RNA-sekvenssiksi. Translaatio Tapahtuma, jossa lähetti-RNA-sekvenssi käännetään aminohapposekvenssiksi, josta sitten laskostuu toiminnallinen proteiini. Transversio Pistemutaatio, jossa puriiniemäs muuttuu pyrimidiiniksi tai päinvastoin, A->C, C>A, T->G tai G->T. Vrt. transitio. Tunnistenumero Tietokannan yhtä tietuetta vastaava numero, jolla tietue voidaan hakea ja löytää tietokannasta. Vrt. accession number. 358 Bioinformatiikan perusteet Ulkoryhmä Sisäryhmälle läheistä sukua oleva lajijoukko tai yksittäinen laji, jota käytetään molekyylisystematiikassa juuren luomiseksi puuhun. Puun juuri kertoo mistä kohdasta sisäryhmä yhdistyy koko elämän puuhun. Lisäksi ulkoryhmän avulla tuodaan analyysiin ulkopuolista tietoa lajien välisistä suhteista. Esimerkiksi tiedetään, että kalat ja nisäkkäät erovat toisistaan, joten tutkittaessa nisäkkäitä olisi periaatteessa mahdollista käyttää ulkoryhmänä kaloja tai yhtä kalalajia. Useimmiten ulkoryhmäksi kuitenkin valitaan sisäryhmän sisarryhmä (ks. sisarryhmä). Usean sekvenssin rinnastus Usean sekvenssin rinnastuksessa useita sekvenssejä pyritään rinnastamaan keskenään yhtäaikaisesti (ks. sekvenssirinnastus). Eräs käytetyimmistä usean sekvenssin rinnastusmenetelmistä on progressiivinen menetelmä, joka löytyy muun muassa Clustal-perheen ohjelmista. Vaihtoehtoinen silmikointi Monet aitotumallisten geeneistä, joissa on introneja, esiintyy erilaisia vaihtoehtoisia silmikointimuotoja. Tämä tarkoittaa sitä, että riippuu esimerkiksi kudoksesta, jossa geeni ilmenee, mitkä geenin eksoneista lähetti-RNA:ssa ja sen perusteella transloidussa proteiinissa ilmenevät. 35 Kirjallisuus 359 35 Kirjallisuus 35.1 Artikkeliviitteet Adleman, L. M. (1994) Molecular computation of solutions to combinatorial problems, Science, 266, 1021-1024. Adleman, L. (1998) Computing with DNA, Scientific American, Altshcul, S. F., Gish, W., Miller, W., Myers, E. W., and Lipman, D. J. (1990) Basic local alignment search tool, J. Mol. Biol., 215, 403-410. Altschul, S. F., Madden, T. L., Schaffer, A. A., Zhang, J., Zhang, Z., Miller, W., and Lipman, D. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs, Nucl. Acid. Res., 25, 3389-3402. Baldi, P., Brunak, S., Chauvin, Y., and Krogh, A. (1996) Naturally occuring nucleosome positioning signals in human exons and intron, J. Mol. Biol., 263, 503510. Bao, L., and Cui, Y. (2005) Prediction of phenotypic effects of non-synonymous single nucleotide polymorphisms using structural and evolutionary information, Bioinformatics, 21, 2185-2190. Baum, B. R: (1992) Combining trees as a way of combining data set for phylogenetic inference, and the desirability of combining gene trees, Taxon, 41, 3-10. Behrens, S., Ruhland, C., Inacio, J., Huber, H., Fonseca, A., Spencer-Martins, I., Fuchs, B., Amann, R. (2003) In Situ Accessibility of Small-Subunit rRNA of Members of the Domains Bacteria, Archaea, and Eucarya to Cy3-Labeled Oligonucleotide Probes, Appl. Env., Microbiology, 69, 1748-1758. Benhamou, S., Tuimala, J., Bouchardy, C., Dayer, P., Sarasin, A., Hirvonen, A. (2004) DNA repair gene XRCC2 and XRCC3 polymorphisms and susceptibility to cancers of the upper aerodigestive tract, Int. J. Cancer, 112, 901-904. Blanchette, M., Green, E. D., Miller, W., and Haussler, D. (2004) Reconstructing large regions of an ancestral mammalian genome in silico, Genome Res., 14, 2412-2423. Bray, N., Dubchak, I., and Pachter, L. (2003) AVID: A global alignment program, Genome Res., 13, 97-102. Bremer, K. (1988) The limits of amino-acid sequence data in angiosperm phylogenetic reconstruction, Evolution, 42, 795-803. Brudno, M., Do., C. B., Cooper, G. M., Kim, M. F., Davydov, E., NISC comparative sequencing program, Green, E. D. Sidow, A., and Batzoglou, S. (2003) LAGAN and Multi-LAGAN: Efficient tools for large-scale multiple aligment of genomic DNA, Genome Res., 13, 721-731. Buetow, K. H., Edmunson, M. N., and Cassidy, A. B. (1999) Reliable identification of large numbers of candidate SNPs from public EST data, Nat. Genet., 21, 323-325. Chou, P. and Fasman, G. (1974a) Conformational parameters for amino acids in helical, beta-sheet, and random coil regions calculated from proteins, Biochemistry, 13, 211-222. Chou, P. and Fasman, G. (1974b) Prediction of protein conformation, Biochemistry, 13, 222-245. 360 Bioinformatiikan perusteet Cole, S. T. (2002) Comparative mycobacterial genomics as a tool for drug target and antigen discovery, Eur. Respir. J., 20 (suppl 36), 78-86. Cox, D. G., Boillot, C., and Canzian, F. (2001) Data mining: Efficiency of using sequence databases for polymorphism discovery, Human. Mutat., 17, 141150. Dayhoff, M. O., Ed. (1972) Atlas of protein sequence and structure, vol. 5, National Biomedical Research Foundation, Georgetown University, Washington, D.C. Dayhoff, M. O. (1978) Survey of new data and computer methods of analysis, Atlas of protein sequence and structure, vol 5., suppl. 3, Georgetown University, Washington, D. C. Dayhoff, M. O., Schwartz, R. M., and Orcutt, B. C. (1978) A model of evolutionary change in proteins, Atlas of protein sequence and structure, National Biomedical Research Foundation, Silver Spring, MD. Doyle, J. J. (1992) Gene trees and species trees: moleculat systematics as onecharacter taxonomy, Systematic Botany, 17, 144-163. Eddy, S., and Durbin, R. (1994) RNA sequence analysis using covariance models, Nucleic acidc res., 22, 2079-2088. Edgar, R. (2004) MUSCLE: multiple sequence alignment with high accuracy and high throughput, NAR, 32, 1792-1797. Edwards, A. (1996) The origin and early development of the method of minimum evolution for the reconstruction of phylogenetic trees, Syst. Biol., 45, 79-91. Eisen, J. (1999) A phylogenomic study of DNA repair genes, proteins, and processes, Mutation Res., 435, 171-213. Faith, D., and Cranston, P. (1991) Could a cladogram this short have arisen by chance alone? - On permutation tests for cladistic structure, Cladistics, 7, 1-28. Farris, J., Albert, V., Källersjö, M., Lipscomb, D., and Kluge, A. (1996) Parsimony jackknifing outperforms neighbor-joining, Cladistics, 12, 99-124. Felsenstein, J. (1978) Cases in which parsimony and compatibility methods will be positive misleading, Syst. Zool., 27, 401-410. Felsenstein, J. (1985) Confidence limits on phylogenies: an approach using the bootstrap, Evolution 39, 783-791. Felsenstein, J. (1988) Phylogenies from molecular sequences: Inferences and reliability, Annu. Rev. Genet., 22, 521-565. Fickett, J. W. (1982) Recognition of protein coding regions in DNA sequences, Nucleic Acids Res., 10, 5303-5318. Fleischmann, R. D., Adams, M. D., White, O., Clayton, R. A., Kirkness, E. F., Kerlavage, A. R., Bult, C. J., Tomb, J. F., Dougherty, B. A., and Merrick, J. M. et al. (1995) Whole-genome random sequencing and assembly of Haemophilus influenzae Rd., Science, 269, 496-512. Fuellen, G. (1997) Multiple Alignment, Complexity International, 4. Gabor T. Marth, Ian Korf, Mark D. Yandell, Raymond T. Yeh, Zhijie Gu, Hamideh Zakeri, Nathan O. Stitziel, LaDeana Hillier, Pui-Yan Kwok and Warren R. Gish (1999) A general approach to single-nucleotide polymorphism discovery, Nat. Genet., 23, 452-456. Garnier, J., Osguthorpe, D., and Robson, B. (1978) Analysis of accuracy and implications of simple methods for predicting the secondary structure of globular proteins, J. Mol. Biol., 120, 97-120. Garnier, J., Gibrat, J-F., and Robson, B. (1996) GOR method for predicting protein secondary structure from amino acid sequence, Methods Enzymol., 266, 540-553. Gibbs, A. J., and McIntyre, G. A. (1970) The diagram, a method for comparing sequences. Its use with amino acid and nucleotide sequences, Eur. J. Biochem., 16, 1-11. Goldman, N. (1993) Statistical tests of models od DNA substitution, J. Mol. Evol., 36, 182-198. 35 Kirjallisuus 361 Goloboff, P.A., (1999) Analyzing large data sets in reasonable times: solutions for composite optima, Cladistics 15, 415-428. Goloboff, P. A., Farris, J. S., Källersjö, M., Oxelman, B., Ramirez, M. J., and Szumik, C. A. (2003) Improvements to resampling measures of group support, Cladistics, 19, 324-332. Gonnet, G. H., Cohen, M. A., and Benner, S. A. (1992) Exhaustive matching of the entire protein sequence database, Science, 256, 1443-1554. Gribskov, M., Devereux, J., and Burgess, R. R. (1984) The codon preference plot: graphic analysis of protein coding sequences and prediction of gene expression, Nucleic Acids Res., 12, 539-549. Gupta, S., Kececioglu, J. D., and Schäffer, A. A. (1995) Improving the practical space and time efficiency of the shortest-path approach to sum-of-pairs multiple sequence alignment, technical report. Hack, C., and Kendall, G. (2005) Bioinformatics: Current practise and future challenges for life science education, Biochemistry and Molecular Biology Education, 33, 82-85. Hein, J. (1989) A method that simultaneously aligns, finds the phylogeny and reconstructs ancestral sequences for any number of ancestral sequences, Mol. Biol. Evol., 6, 649-668. Henikoff, S. and Henikoff, J. G. (1992) Amino acid substitution matrices from protein blocks, Proc. Natl. Acad. Sci., 89, 10915-10919. Higgins, D. G. and Sharp, P. M. (1988) CLUSTAL: a package for performing multiple sequence alignment on a microcomputer, Gene, 73, 23-244. Higgins, D. G., Thompson, J. D., and Gibson, T. J. (1996) Using CLUSTAL for multiple sequence alignments, Methods Enzymol., 266, 383-402. Hillis, D. (1991) Discriminating between phylogenetic signal and random noise in DNA sequences, kirjassa Phylogenetic analysis of DNA sequences, s. 278294, Oxford University Press, UK. Hillis, D., Huelsenbeck, J., and Cunningham, C. (1994) Application and accuracy of molecular phylogenies, Science, 264, 671-677. Hillis, D., Huelsenbeck, J., and Swofford, D. (1994b) Hobgoblin of phylogenetics?, Nature, 369, 363-364. Hillis, D. (1995) Approaches for assessing phylogenetic accuracy, Syst. Biol., 44, 3-16. Hillis, D. (1996) Inferring complex phylogenies, Nature, 383, 130-131. Holm, L. and Sander, C. (1993) Protein structure comparison by alignment of distance matrices, J. Mol. Biol., 233, 123-138. Holm, L. and Sander, C. (1996) Mapping the protein universe, Science, 273, 595-603. Huelsenbeck, J., Bull, J. and Cunningham, C. (1996) Combining data in phylogenetic analysis, TREE, 11, 152-158. Huelsenbeck, J., Hillis, D., and Nielsen, R. (1996) A likelihood-ratio test of monophyly, Syst. Biol., 45, 546-558. Huelsenbeck, J. (1997) Is Felsenstein zone a fly trap?, Syst. Biol., 44, 17-48. Hughes, J. D., Estep, P. W., Tavazoie, S., and Church, G. M., Computational identification of Cis-regulatory elements associated with groups of functionally related genes in Saccharomyces cerevisiae, J. Mol. Biol., 296, 1205-1214. Jones, D. T., Taylor, W. R., and Thornton, J. M. (1992) The rapid generation of mutation data matrices from protein sequences, Comput. Appl. Biosci., 8, 275-282. Karlin, S., and Altschul, S. F. (1990) Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes, PNAS, 87, 2264-2268. Kawakita, A., Sota, T., Ascher, J., Ito, M., Tanaka, H., and Kato, M. (2003) Evolution and phylogenetic utility of alignment gaps within intron sequences of three nuclear genes in bumble bees (Bombus), Mol. Biol. Evol., 20, 87-92. Kuhner, M., and Felsenstein, J. (1994) A simulation comparison of phylogeny 362 Bioinformatiikan perusteet algorithms under equal and unequal evolutionary rates, Mol. Biol. Evol., 11, 459468. Kyte, J. and Doolittle, R. (1982) A simple method for displaying the hydropathic character of a protein, J. Mol. Biol., 157, 105-132. Lemmon, A. R., and Milinkovitch, M. C. (2002) The metapopulation genetic algorithm: An efficient solution for the problem of large phylogeny estimation, PNAS, 99, 10516-10521. Lukashin, A. V., and Borodovsky, M. (1998) GeneMark.hmm: New solutions for gene finding, Nucleic Acids Res., 26, 1107-1115. Luscombe, N. M, Greenbaum, D., and Gerstein, M. (2001) What is bioinformatics? A proposed definition and over view of the field, Method. Inform. Med., 40, 346-358. Ma, B., Tromp, J., and Li, M. (2002) PatternHunter: faster and more sensitive homology search, Bioinformatics, 18, 440-445. Ng, P. C., and Henikoff, S: (2001) Predicting deleterious amino acid substitutions, Genome Res., 11, 863-874. Nixon, K.C. (1999) The parsimony ratchet, a new method for rapid parsimony analysis, Cladistics 15, 407-414. Notredame, C., Higgins, D., and Heringa, J. (2000) T-Coffee: A novel method for fast and accurate multiple sequence alignment, J. Mol. Biol., 302, 205-217. Liu, R. and States, D. (2002) Consensus Promoter Identification in the Human Genome Utilizing Expressed Gene Markers and Gene Modeling, Genome Res., 12, 462-469. Lupas, A. (1996) Prediction and Analysis of Coiled-Coil Structures, Meth. Enzymology, 266, 513-525. Miller, W. and Myers, E. W. (1988) Sequence comparison with concave weighting functions, Bull. Math. Biol., 50, 97-120. Modrek, B., Resch, A., Grasso, C. and Lee, C. (2001) Genome-wide detection of alternative splicing in expressed sequences of human genes, Nucl. Acid. Res., 29, 2850-2859. Moilanen, A. (1999) Searching for most parsimonious trees with simulated evolutionary optimization, Cladistics, 15, 39-50. Morrison, D. and Ellis, J. (1997) Effects of nucleotide sequence alignment on phylogeny estimation: A case study of 18S rDNAs of Apicomplexa, Mol. Biol. Evol., 14, 428-441. Mugridge, N., Morrison, D., Jäkel, T., Heckeroth, A., Tenter, A., and Johnson, A. (2000) Effects of sequence alignment and structural domains of ribosomal DNA on phylogeny reconstruction for the protozoan family Sarcocystidae, Mol. Biol. Evol., 17, 1842-1853. Needleman, S. B., and Wunsch, C. D. (1970) A general method applicable to the search for similarities in the amino acid sequence of two proteins, J. Mol. Biol., 48, 443-453. Nixon, K. C. (1999) The parsimony ratchet, a new method for rapid parsimony analysis, Cladistics, 15, 407-414. Notredame, C. and D. G. Higgins (1996) SAGA: sequence alignment by genetic algorithm. Nucleic Acids Res, 24, 1515-24. Notredame, C., D. G. Higgins and J. Heringa (2000) T-coffee: a novel method for fast and accurate multiple sequence alignment. J Mol Biol, 302, 205-217. Orengo, C. and Taylor, W. (1996) SSAP: sequential structure alignment program for protein structure comparison, Methods Enzymol., 266, 617-635. Pavesi, G., Mareghetti, P., Mauri, G., and Pesole, G. (2004) Weeder Web: discovery of transcription factor binding sites in a set of sequences from co-regulated genes, Nucleic Acids Res., 32, W199-W203. Pearson, W. R., and Lipman, D. J. (1988) Improved tools for biological sequence comparison, Proc. Natl. Acad. Sci., 85, 2444.2448. Pol., D., and Siddall, M. (2001) Biases in maximum likelihood and parsimony: 35 Kirjallisuus 363 a simulation approach to a 10-taxon case, Cladistics, 17, 266-281. Ragan, M. A. (1992) Phylogenetic inference based on matrix representation of trees, Mol. Phyl. Evol., 1, 53-58. Rannala, B., and Yang, Z. (1996) Probability distribution of moleculat evolutionary trees: A new method of phylogenetic inference, J. Mol. Evol., 43, 304-311. Rannala, B., Huelsenbeck, J., Yang, Z., and Nielsen, R. (1998) Taxon sampling and accuracy of large phylogenies, Syst. Biol., 47, 702-710. Rappuoli, R. (2004) From Pasteur to genomics: progress and challenges in infectious diseases, Nature Medicine, 10, 1177-1185. Rogic, S., Mackworth, A. K., and Ouellette, B. F. F. (2001) Evaluation of gene finding programs on mammalian sequences, Genome Res., 11, 817-832. Rosenberg, M., and Kumar, S. (2001) Incomplete taxon sampling is not a problem for phylogenetic inference, PNAS, 98, 10751-10756. Roshan, U., Moret, B., Williams, T. and Warnow, T. (2004) Rec-I-DCM3: A Fast Algorithmic Technique for Reconstructing Large Phylogenetic Trees, Proceedings of the IEEE Computational Systems Bioinformatics conference (CSB) Ruedi, M., Auberson, M., and Savolainen, V., 1998. Biogeography of Sulawesian shrews: testing for their origin with a parametric bootstrap on molecular data, Mol. Phylogenet. Evol., 9, 567-571. Salzberg, S., Delcher, A., Kasif, S., and White, O. (1998) Microbial gene identification using interpolated Markov models, Nucleic Acids Res., 26, 544-548. Sankoff, D., and Rousseau, P. (1975) Locating the vertices of a Steiner tree in an arbitrary metric space, Math. Progr., 9, 240-276. Scarselli, M, Giuliani, M. M, Adu-Bobie, J., Pizza, M., and Ruppuoli, R. (2005) The impact of genomics in vaccine design, TREND in Biotechnology, 23, 84-91. Siddall, M. (1998) Success of parsimony in the four-taxon case: long-branch repulsion by likelihood in the Farris zone, Cladistics, 14, 209-220. Siddall, M., and Whiting, M. (1999) Long-branch abstraction, Cladistics, 15, 9-24. Smith, T. F., and Waterman, M. S. (1981) Identification of common molecular subsequences, J. Mol. Biol., 147, 195-197. Sokal, R. and Michener, C. (1958) A statistical method for evaluating systematic relationships, University of Kansas Scientific Bulletin, 28, 1409-1438. Solovyev, V. V., Salamov, A. A., and Lawrence, C. B. (1994) Predicting internal exons by oligonucleotide composition and discriminant analysis of spliceable open reading frames, Nucleic Acids Res., 22, 5156-5163. Steel, M. and Penny, D. (2000) Parsimony, likelihood, and the role of models in molecular phylogenetics, Mol. Biol. Evol., 17, 839-850. Strimmer, K., and von Haeseler, A. (1996) Quartet puzzling: A quartet maximum likelihood method for reconstructing tree topologies, Mol. Biol. Evol., 13, 964-969. Tajima, F. (1989) Statistical method for testing the neutral mutation hypothesis by DNA polymorphism, Genetics, 123, 585-595. Taylor, W. R. (1987) Multiple sequence alignment by a pairwise alignment, Comput. Appl., Biosci., 3, 81-87. Thorne, J. L., Kishino, H., and Felsenstein, J. (1991) An evolutionary model for maximum likelihood alignment of DNA sequences, J. Mol. Evol., 33, 114-124. Thorne, J. L., Kishino, H., and Felsenstein, J. (1991) Inching toward reality: an improved likelihood model of sequence evolution., J. Mol. Evol., 34, 3-16. Tikkanen, M., McInnes, C., Mercer, A., Buttner, M., Tuimala, J., HirveläKoski, V., Neuvonen, E., Huovilainen, A. (2004), Recent isolates of Parapoxvirus of Finnish reindeer (Rangifer tarandus tarandus) are closely related to bovine pseudocowpox virus, J. Gen. Virol., 85, 1413-1418. Tompa, M., Li, N., Bailey, T. L., Church, G. M., De Moor, B., Eskin, E., Favorov, A. V., Frith, M. C., Fu, Y., Kent, W. J., Makeev, V. J., Mironov, A. A., Noble, 364 Bioinformatiikan perusteet W. S., Pavesi, G., Pesole, G., Regnier, M., Simonis, N., Sinha, S., Thijs, G., van Helden, J., Vandenbogaert, M., Weng, Z., Workman, C., Ye, C., and Zhu, Z (2005) Assessing computational tools for the discovery of transcription factor binding sites, Nat. Biotechnol., 23, 137-144. Tuffley, C., and Steel, M. (1997) Links between maximum likelihood and maximum parsiomony under a simple model of substitution, Bull. of Math. Biol., 59, 581-607. Tuimala, J. (2004) Phylogeny of dinoflagellates - methodological aspects, poster, ISMB 2004, UK. Tuimala, J. (2003) Hillis’ phages revisited, poster, Bioinformatics 2003, Finland. Vandepoele, K., Sayes, Y., Simillion, C., Raes, J., and Van de Peer, Y. (2002) The Automatic Detection of Homologous Regions (ADHoRe) and Its Application to Microcolinearity Between Arabidopsis and Rice, Genome Res., 12, 1792-1801. Vandepoele, K., De Vos, W., Taylor, J. S., Mayer, A., and Van de Peer, Y. (2004) Major events in the genome evolution of vertebrates: Paranome age and size differ considerably between ray-finned fishes and land vertebrates, PNAS, 101, 1638-1643. Wasserman, W. W., and Krivan W. (2003) In silico identification of metazoan transcriptional regulatory regions, Naturwissenschaften, 90, 156-166. Waterston, R. H, and mouse genome sequencing consortium, Initial sequencing and comparative analysis of the mouse genome, Nature, 420, 520-562. Wenzel, J., and Siddall, M. (1999) Noise, Cladistics, 15, 51-64. Wheeler, W. C. (1996) Optimization Alignment: the end of multiple sequence alignment in phylogenetics?, Cladistics, 12:1-9. Wheeler, W. (1999) Fixed character states and the optimization of molecular sequence data, Cladistics, 15, 379-385. Yang, Z., and Rannala, B. (1997) Bayesian phylogenetic inference using DNA sequences: A Markoc Chain Monte Carlo method, Mol. Biol. Evol., 14, 717-724. Yang Z., Nielsen R., Goldman N., and Pedersen A. M. (2000) Codon-substitution models for heterogeneous selection pressure at amino acid sites, Genetics, 431-449. Yelin, R., Dahary, D., Sorek, R., Levanon, E., Goldstein, O., Shoshan, A., Diber, A., Biton, S., Tamir, Y., Khosravi, R., Nemrez, S., Pinner, E., Walach, S., Berstein, J., Savitsky, K. and Rotman, G. (2003) Widespread occurrence of antisense transcription in the human genome, Nature Biotech., 379-386. Yi, T. and Lander, E. (1993) Protein secondary structure prediction using nearestneighbor methods, J. Mol. Biol., 232, 1117-1129. 35.2 Kirjaviitteet Baldi, P. and Brunak, S. (1999) Bioinformatics - A machine learning approach, MIT Press, Cambridge, Massachusetts, USA. Baldi, P. and Hatfield, W. (2002) DNA microarray and gene expression - From experiments to data analysis and modeling, Cambridge University Press, Cambridge, UK. Baxavanis, A. and Ouellette, B. (1998) Bioinformatics - A practical guide to the analysis of genes and proteins, Wiley Publishing, Inc., New York, USA. Bininda-Emonds, O. R. P. (2004) Phylogenetic supertrees, Kluwer Academic Publishers, The Netherlands. Campbell, A., and Heyer, L. (2003) Discovering genomics, proteomics, & bioinformatics, CSHL press, USA. Causton, H., Quackenbush, J. and Brazma, A. (2003) A beginner’s guide Microarray gene expression data analysis, Blackwell Science Ltd., Oxford, UK. Claverie, J-M. and Notredame, C. (2003) Bioinformatics for dummies, Wiley Publishing, Inc., New York, USA. 35 Kirjallisuus 365 Felsenstein, J. (2003) Inferring phylogenies, Sinauer Associates, Inc., Massachusetts, USA. Durbin, R., Eddy, S., Krogh, A. and Mitchison, G. (1998) Biological Sequence analysis - Probabilistic models of proteins and nucleic acids, Cambridge University Press, Cambridge, UK. Gibson, G. and Spencer, M. (2002) A primer of genome science, Sinauer Associates, Inc., Massachusetts, USA. Hall, B. (2001) Phylogenetic trees made easy, Sinauer Associates, Inc., Massachusetts, USA. Hanski, I. and Gaggiotti, O. E., eds. (2004) Ecology, Genetics, and Evolution of Metapopulations, Elsevier Academic Press, Burlington, Massaschusetts, USA. Hedrick, P. W. (2000) Genetics of populations, Jones and Barlett Publishers, Inc., Sudbury, Massachusetts, USA. Hillis, D., Moritz, C. and Mable, B. (1996) Molecular systematics, Sinauer Associates, Inc., Massachusetts, USA. Jones, N., and Pevsner, P. (2004) An introduction to bioinformatics algorithms, MIT Press, Cambridge, Massachusetts, USA. Kitching, I., Forey, P., Humphries, J., and Williams, D. (1998) Cladistics - The theory and practise of parsimony analysis, Oxford university press, Inc., New York, USA. Knudsen, S. (2001) A biologist guide to analysis of DNA microarray data, Wiley Publishing, Inc., New York, USA. Kohane, I., Kho, A., and Butte, A. (2003) Microarrays for an integrative genomics, MIT Press, Cambridge, Massachusetts, USA. Korf, I., Yandell, M., and Bedell, J. (2003) BLAST - An essential guide to the basic local alignment search tool, O’Reilly & associates Inc., California, USA. Krane, D. And Raymer, M. (2003) Fundamental consepts of bioinformatics, Pearson Education, Inc., San Francisco, USA. Laine, M. M., Pasanen, T., Saarela, J., Saarikko, I., Toivanen, T., Tolvanen, M., Tuimala, J., Vihinen, M., Wong, G. (2003) DNA microarray data analysis, Picaset Oy, Helsinki, Suomi. Libscomb, D. (1998) Basics of Cladistic Analysis, George Washington University, USA, published online as PDF. Li, W-H. (1997) Molecular Evolution, Sinauer Associates, Inc., Massachusetts, USA. Mattila, K., Tuimala J. and Korpelainen E. (2003) CSC:n bio-opas, Picaset Oy, Helsinki, Suomi. Mount, D. (2001) Bioinformatics - Sequence and genome analysis, Cold Spring Harbor Laboratory Press, New York, USA. Nei, M. and Kumar, S. (2000) Molecular evolution and phylogenetics, Oxford University Press, Inc., New York, USA. Nielsen, R. (2005) Statistical methods in molecular evolution, Springer, New York, USA. Page, R. and Holmes, E. (1998) Molecular evolution - A phylogenetic approach, Blackwell Science Ltd., Oxford, UK. Salemi, M. and Vandamme, A-M. (2003) The phylogenetic handbook - A practical approach to DNA and protein phylogeny, Cambridge University Press, Cambridge, UK. Salzberg, S. L., Searls, D. B., and Kasif, S. (1999) Computational methods in molecular biology, Elsevier, Amsterdam, Netherlands. Semple, C., and Steel, S. (2003) Phylogenetics, Oxford University Press, New York, USA. Setubal, J. and Meidanis, J. (1997) Introduction to computational molecular biology, PWS Publishing Company, California, USA. Sneath, P., and Sokal, R. (1973) Numerical taxonomy, W. H. Freeman, San Francisco. 366 Bioinformatiikan perusteet Speed, T. (2003) Statistical analysis of gene expression microarray data, CRC Press LLC, Florida, USA. Swofford, D. (1996) PAUP: Phylogenetic analysis using parsimony, version 3.1 program manual, Illinois Natural History Survey. Wiley, E. O., Siegel-Causey, D., Brooks, D. R., and Funk, V. A. (1991) The compleat cladist, The University of Kansas, Museum of Natural History, USA, Special publication 19. Xia, X. (2000) Data analysis in molecular biology and evolution, Kluwer Academic Publishers, Massachusetts, USA. Hakemisto 367 Hakemisto Symbols K _a/K _s-suhde, 320 A Additiiviset puut, 159 Algoritmi, 22 BLAST, 82 dynaaminen optimointi, 25 Needleman-Wunsch, 73 NP-ongelma, 24 Smith-Waterman, 75 Aminohappolyhenteet, 34 Annotaatio, 45 Antisense-RNA, 118 Apomorfia, 136 Aukkosakot, 66 Affine gap, 66 B bayesilaiset menetelmät, 200 Bioinformaatikon määritelmä, 20 Bioinformatiikan määritelmä geneettinen bioinformatiikka, 18 nykymääritelmä, 20 perinteinen bioinformatiikka, 20 BLAST, 82 BLOSUM-matriisit, 64 Bootstrapping, 221 ei-parametrinen, 221 parametrinen, 231 Bremerin tukiarvo, 224 C CI, 184 COG, 274 D Divide and conquer, 220 DNA-sirut, 277, 286 esikäsittely, 290 koesuunnittelu, 289 MIAME, 300 normalisointi, 290 sirujen valmistus, 286 suodatus, 293 Tulosten julkaisu, 300 visualisointi, 297 Dynaaminen optimointi, 25, 73 E Eksonien tunnistaminen, 111 EM-algoritmi, 283 Etäisyys Hamiltonin etäisyys, 149 P-etäisyys, 149 Poisson-etäisyys, 150 Etäisyysmenetelmät, 158 minimievoluutio, 159 molekyylikellon testaaminen, 162 neighbor-joining, 160 pienin neliösumma, 160 UPGMA, 158 Evolutiivinen malli, 145 Evoluutiomalli, 145, 148 aminohapposekvenssit, 149 Aukkokohtien käsittely, 156 DNA-sekvenssit, 151 gamma, 151 Jukes-Cantor, 152 Kimura, 150, 152 LogDet, 153 Parsimonia, 155 Sankoff, 155 Symmetrinen yleismalli, 153 368 F Fylogeneettinen jalanjälki, 281 Fylogeneettinen puu, 130 Fylogenetiikka, 130 Bioinformatiikan perusteet LHT-testi, 239 Long branch attraction, 246 Luokittelu, 137 M G Geenikartoitus, 268 Geenin toiminnan selvittäminen, 40 Geeniontologia, 276 Geenirakenteen ennustaminen, 308 aitotumalliset, 314 esitumalliset, 312 Fickettin menetelmä, 309 kodoniharhatesti, 310 MARs-alueet, 312 translaatio, 308 Gibbsin otanta, 283 GO-ontologia, 276 H Hennigin argumentaatio, 169 Homologia, 135 Homoplasia, 136 I ILD-testi, 239 Intronien tunnistaminen, 111 J Jackknifing, 224 Juurrettu puu, 132 Juurtamaton puu, 132 K Käänteiskomplementaarisuus, 111 Käänteiskomplementarisointi, 111 Kahden sekvenssin rinnastus, 68 Kishino-Hasegawan testi, 235 Kladistiikka, 130 Kokonaisrinnatus, 68 Konsensuspuut, 232 Adams, 234 enemmistökompromissi, 234 Nelson, 234 puolitiukka, 232 tiukka, 232 Yksimielisyys, 234 L Lajien luokittelu, 137 MARs-alueet, 312 MCMC-menetelmä, 201 MIAME, 300 Minimievoluutiomenetelmä, 159 Molekyylikellon testaaminen, 162 Molekyylisystemaattinen analyysi, 142 Molekyylisystematiikan pääsuuntaukset, 138 Molekyylisystematiikka, 130 Monirinnastus, 94 Monofyleetinen, 136 MRP-menetelmä, 203 N Neighbor-joining, 160 Normalisointi, 290 NP-ongelma, 24 Nukleotidifrekvenssi, 110 Nukleotidikoodit, 34 O Occamin partaveitsi, 168 Ohjelma BankIt, 37 BBA, 82 BIONJ, 160 BLAST, 81, 86 Clustal, 96 DAMBE, 245 dnaml, 199 FastA, 81 FGENES, 314 Fitch, 162 GeneMark, 111, 313 GeneParser, 314 Genscan, 315 Glimmer, 313 Grail, 314 HEXON, 314 HMMgene, 315 Kitsch, 162 MALIGN, 250 marscan, 312 MEME, 285 Hakemisto MetaPIGA, 146, 200 MFOLD, 304 Modeltest, 155 MrBayes, 201, 203, 256 MSA, 95 Muscle, 102 MySQL, 43 Nona, 214 Oracle, 43 PAUP, 155, 210 PHRED, 264 POLYBAYES, 264 POY, 145, 211, 249 Primer3, 262 protpars, 246 PSI-BLAST, 81 Rec-I-DCM3, 211 Sequin, 37 SIFT, 265 SNP-Finder, 264 SplitsTree, 255 SSEARCH, 81 syco, 311 T-Coffee, 99 tcode, 309 TNT, 146, 210 TREEALIGN, 252 TreePuzzle, 220 tRNAscan-SE, 306 WEBIN, 37 Weeder, 285 Weighbor, 160 Ohjelmat AVID, 317 InsightII, 334 LAGAN, 317 Melanie, 332 MLAGAN, 317 PeptideCutter, 333 ProFound, 333 Vista, 317 Ominaisuuksien yhteensopivuus, 242 Optimointikohdistus, 251 Ortologia, 135 Ortologisten geenien luokittelu (COG), 274 369 P Paikallinen rinnastus, 68 Painoarvomatriisi, 280 PAM-matriisit, 60 Parafyleettinen, 136 Paralogia, 135 Parittainen rinnastus, 68 Parsimoniamenetelmä, 168 Hennigin argumentaatio, 169 Muokattu yhdenmukaisuusindeksi, 187 Ominaisuuksien painottaminen, 188 Optimaalisuuskriteeri, 175 Camin-Sokal, 180 Dollo, 179 Fitch, 179 Sankoff, 180 Wagner, 175 Yleistetty, 180 Puun pituus, 183 Synapomorfiaindeksi, 186 Wagnerin kaava, 174 Wagnerin menetelmä, 171 Yhdenmukaisuusindeksi, 184 PCR-alukkeiden suunnittelu, 259 Permutaatiohännäntodennäköisyys (PTP), 228 PHI-BLAST, 89 Pistematriisimenetelmä, 71 Pistemutaatio, 263 Pisteytysmatriisit, 59 BLOSUM-matriisit, 64 Gonnet, 65 JTT, 65 Matriisien erot, 64 PAM, 60 PAM-matriisien muodostaminen, 61 Pituuseroetäisyys, 238 Plesiomorfia, 136 Polyfyleettinen, 136 Populaatiogenetiikka, 266 posteriori-jakauma, 201 POY, 249 priori-jakauma, 201 Promoottialue, 278 Promoottorialueen tunnistaminen, 114 Promoottorisekvenssin analysointi, 278 PSI-BLAST, 89 370 Puiden tilastollinen testaaminen, 235 ILD, 239 Kishino-Hasegawa, 235 LHT, 239 Templeton, 235 Uskottavuusosamäärä, 236 Puiden välinen etäisyys, 236 Pituuseroetäisyys, 238 Symmetrinen etäisyys, 237 Puun luotettavuuden arviointi, 221 bootstrapping, 221 Bremerin tukiarvo, 224 DCL, 226 Jackknifing, 224 Parametrinen Bootstrapping, 231 PTP, 228 Puun pituuksien jakauma (DCL), 226 Puun pituus, 183 Puun uudelleenjärjestelymenetelmät, 207 menetelmien käyttö, 208 NNI, 207, 212 Nykymenetelmät, 210 Perinteinen haku, 209 Rajattu haku, 212 ratchet, 207, 214 sectorial search, 207 sectorial searches, 218 SPR, 207, 213 Täydellinen haku, 211 TBR, 207, 213 tree drifting, 207, 216 tree fusing, 207, 216 R RC, 187 Restriktioentsyymit, 108 RI, 186 Rinnakkaislaskenta, 25 Rinnastus Asetukset, 79 Dynaaminen optimointi, 73 kokonais, 68 Needleman-Wunsch, 73 paikallinen, 68 pistemäärän laskeminen, 70 pistematriisimenetelmä, 71 Smith-Waterman, 75 tilastollinen merkitsevyys, 77 Bioinformatiikan perusteet RNA:n rakenteen ennustaminen, 301 kovariaatiomenetelmä, 305 minimienergiaperiaate, 302 S Säännöllinen lauseke, 51 Sekvensointi, 34 Genomiprojektit, 39 virheet, 34 Sekvenssien luotettavuus, 39 Sekvenssien tallentaminen omaan käyttöön, 37 Sekvenssien tallentaminen tietokantaan, 37 Sekvenssihaut, 81 BLAST, 82 Parametrien asettaminen, 90 Pattern Hunter, 93 PHI-BLAST, 89 Pitkät sekvenssit, 92 PSI-BLAST, 89 Smith-Waterman, 90 suorittaminen, 81 Sekvenssirinnastuksen määritelmä, 68 Sisäryhmä, 143 SNP, 263 Sormenjäljet, 52 Sovellukset molekyylisystematiikka, 29 SARS-epidemia, 29 sekvenssien hankkiminen, 27 sekvenssin ominaisuudet, 27 sekvenssirinnastus, 28 Suora kohdistusoptimointi, 251 Superpuumenetelmät, 202, 219 MRP, 203 Suurimman uskottavuuden menetelmät, 190 aminohapposekvenssit, 199 Evoluutiomalli, 191 Evoluutionopeuden vaihtelu, 198 gamma-jakauma, 198 Uskottavuuden laskeminen, 191 Symmetrinen etäisyys, 237 Synapomorfiaindeksi, 186 T Taksoniotanta, 248 Taksonominen yhteensopivuus, 242 Hakemisto Templetonin testi, 235 Tietokannat, 42 Aminohapposekvenssitietokannat, 49 dbEST, 49 EMBL, 44 Ensembl, 53 GenBank, 44 Genomitietokannat, 53 Haku Asiasanalla, 56 Sekvenssillä, 56 Tunnistenumerolla, 57 InterPro, 52 Julkaisutietokannat, 54 Locuslink, 48 nukleotiditietokannat, 44 PDB, 54 PIR, 50 primääritietokannat, 43 PRINTS, 52 PROSITE, 51 PubMed, 54 Rakennetietokannat, 54 RefSeq, 46 sekundääritietokannat, 43 SWISS-PROT, 50 TrEMBL, 50 Tunnistenumerot, 57 Tunnistetietokannat, 51 UCSC, 54 UniGene, 48 UniProt, 49 Yhdistelmätietokannat, 51 yhdistelmätietokannat, 43 Tietokoneohjelman muistintarve, 24 Tietokoneohjelman nopeus, 23 Todennäköisyys ja uskottavuus, 191 Transkriptiomodulit, 282 Translaatio, 110 Tukiarvot, 147 U Ulkoryhmä, 132, 143 Ultrametriset puut, 158 UPGMA, 158 Usean sekvenssin rinnastus, 94 Clustal, 96 Dynaaminen optimointi, 95 371 Editointi, 104 Iteratiiviset menetelmät, 103 Laadun arviointi, 105 Muscle, 102 Progressiiviset menetelmät, 96 T-Coffee, 99 Transloituvien DNA-sekvenssien rinnastaminen, 104 virheet, 105 uskottavuusfunktio, 191 Uskottavuusosamäärätesti, 236 V Vaihtoehtoinen silmukointi, 111 Vertaileva genomiikka, 316 W Wagnerin menetelmä, 171 Y Yhdenmukaisuusindeksi, 184