Bioinformatiikan perusteet

Transcription

Bioinformatiikan perusteet
Bioinformatiikan perusteet
Bioinformatiikan perusteet
Jarno Tuimala
Tieteen tietotekniikan keskus CSC
Tämän teoksen tekijänoikeudet kuuluvat Jarno Tuimalalle ja Tieteellinen
Laskenta OY:lle. Teoksen tai osia siitä voi kopioida vapaasti henkilökohtaiseen käyttöön sekä Suomen yliopistojen ja korkeakoulujen kurssikäyttöön
edellyttäen, että kopioon tai tulosteeseen merkitään tämä ilmoitus teoksen tekijästä ja tekijänoikeuksista. Teosta ei saa myydä, lainata, vuokrata,
tai sisällyttää osaksi muita teoksia ilman tekijän lupaa, mahdolliset kirjastokappaleet poislukien. Myös kirjan jakaminen digitaalisesti ilman tekijän
lupaa on kielletty.
c Jarno Tuimala ja
CSC – Tieteellinen laskenta Oy
2003
1. painos
ISBN 952-5520-08-0
http://www.csc.fi/oppaat/bioinfo/
Painopaikka:
Picaset Oy
Helsinki 2005
Bioinformatiikan perusteet
5
Esipuhe
Alunperin bioinformatiikalla on tarkoitettu biologisten sekvenssiaineistojen käsittelyä tietokoneavusteisin menetelmin. Sittemmin bioinformatiikkaan on alettu lukea monia muitakin biologisessa tutkimuksessa keskeisiä sovellusaloja, kuten geenikartoitus ja molekyylimallitus. Bioinformatiikka on viime vuosina noussut keskeiseksi tutkimusalaksi. Kehitystä on vauhdittanut erityisesti tietokoneiden nopeutuminen ja halpeneminen. Huolimatta alan nopeasta kehityksestä, ei oppikirjoiksi
soveltuvia suomenkielisiä teoksia ole julkaistu. Tämän kirjan tarkoituksena on paikata tuota kirjallisuudessa ammottavaa aukkoa.
Tässä Bioinfomatiikan perusteet -kirjan laajassa versiossa keskitytään erityisesti biologisten sekvenssiaineistojen käsittelyyn, ja uusia sovelluksia, kuten DNAsiruja, käsitellään lyhyesti. Tämä ei olekaan kattava kuvaus bioinformatiikan laajasta kentästä, vaan ennemminkin pyritään antamaan kuva, mitä bioinformatiikan menetelmillä voidaan saavuttaa. Teoriaosuuksissa on painotettu pääperiaatteita, joiden
ei uskota vanhenevan muutamassa vuodessa. Kirjasta on saatavilla myös lyhyempi,
painettu versio, jota voi tilata CSC:stä.
Kirja on suunnattu lähinnä biologian ja sen lähitieteiden opiskelijoille ja tutkijoille. Mukaan on otettu jossain määrin myös menetelmien taustalla olevaa matematiikkaa. Tämän tarkoituksena on syventää teorian ymmärtämystä.
Kirjaa alkaa yleisluontoisilla kappaleilla, joissa esitellään lyhyesti perusbiologiaa, laskennallisten menetelmien perusteita ja käsiteltävien menetelmien sovelluksia. Lisäksi yksittäiset luvut alkavat yleensä kattavammalla kuvauksella esiteltävien
menetelmien käyttökohteista. Lukujen tiivistelmät on koottu erilliseksi luvuksi kirjan loppuun, jotta asioiden kertaaminen tiivistelmiä käyttäen olisi mahdollisimman
yksinkertaista. Kirjan lopuksi esitellään keskeinen, yleensä englanninkielinen kirjallisuus ja annetaan joitakin tehtäviä lukijan ratkottavaksi.
CSC on julkaissut erinomaisia kirjoja geenikartoituksesta, DNA-siruaineistojen
analysoinnista ja monien kirjassa mainittujen ohjelmistojen käytöstä, joten näitä
bioinformatiikan alueita käsitellään kirjassa lyhyesti tai ei lainkaan. Näistä menetelmistä kiinnostuneita lukijoita kehotetaan tutustumaan tarkemmin kirjoihin Geenikartoitusopas (2004) ja DNA microarray data analysis (2005). Painettuja kirjoja
voi tilata CSC:stä, mutta ne ovat myös saatavilla PDF-muodossa Internetistä.
Kiitän Taavi Hupposta, Jaakko Hyvöstä, Eija Korpelaista, Jyrki Muonaa ja
Martti Tolvasta käsikirjoituksen rakentavasta ja tarkentavasta kommentoinnista. Kirjan ideamateriaalina on käytetty Pekka Uimarin Helsingin Yliopiston Biotieteiden
laitoksella pitämän Geneettinen Bioinformatiikka -kurssin luentomateriaalia vuodelta 2002, joka kiitoksella huomioidaan. Kirjaan jääneet epätarkkuudet ja virheet
ovat ainoastaan kirjoittajan aikaansaannoksia.
Toivon, että kirjasta on iloa ja hyötyä niille, jotka haluavat tutustua bioinformatiikan kiehtovaan maailmaan.
Palautetta voi lähettää sähköpostilla osoitteeseen [email protected].
Espoossa, 8.6.2005
6
Bioinformatiikan perusteet
Tekijä
Sisältö
7
Sisältö
Esipuhe
I
1
2
Johdanto
18
1.1
1.2
1.3
18
20
21
Mitä on bioinformatiikka? . . . . . . . . . . . . . . . . . . .
Keitä bioinformaatikot ovat? . . . . . . . . . . . . . . . . . .
Bioinformatiikan merkitys biologiassa . . . . . . . . . . . . .
Laskennallisen biologian perusteet
22
Laskennalliset asiat ovat bioinformatiikassa keskeisiä
Mikä on algoritmi? . . . . . . . . . . . . . . . . . .
Kuinka nopea tietokoneohjelma on? . . . . . . . . .
Kuinka paljon muistia ohjelma vaatii? . . . . . . . .
NP-ongelmat . . . . . . . . . . . . . . . . . . . . .
Rinnakkaislaskenta . . . . . . . . . . . . . . . . . .
Dynaaminen ohjelmointi . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
22
22
23
24
24
25
25
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
27
27
27
28
28
29
29
Esiteltävien menetelmien sovellusalueet
3.1
3.2
3.3
3.4
3.5
3.6
3.7
II
4
17
Johdanto
2.1
2.2
2.3
2.4
2.5
2.6
2.7
3
5
Miksi esimerkkejä? . . . . . . . . . . . .
Sekvenssien hankkiminen . . . . . . . . .
Sekvenssien ominaisuuksien selvittäminen
Kahden sekvenssin rinnastus . . . . . . .
Usean sekvenssin rinnastus . . . . . . . .
Molekyylisystematiikka . . . . . . . . . .
SARS-epidemian selvittäminen . . . . . .
27
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Sekvenssianalyysi
33
Sekvensointi ja DNA-sekvenssit
4.1
4.2
4.3
4.4
4.5
4.6
4.7
Sekvensointi . . . . . . . . . . . . . . . . . . .
Yleiset sekvensointivirheet . . . . . . . . . . .
Sekvenssin tallentaminen EMBL-tietokantaan .
Sekvenssin tallentaminen omaan käyttöön . . .
Tietopankeissa olevien sekvenssien luotettavuus
Sekvensseistä genomiksi . . . . . . . . . . . .
Genomin toiminnan selvittäminen . . . . . . .
34
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
34
34
37
37
39
39
40
8
Bioinformatiikan perusteet
4.8
5
Eri tyyppiset sekvenssit . . . . . . . . . . . . . . . . . . . . .
Biotietokannat
42
5.1
Mitä tietokannat ovat? . . . . . . . . . . . . .
5.1.1 Flat file -tietokanta . . . . . . . . . . . .
5.1.2 Relaatiotietokanta . . . . . . . . . . . .
5.2
Mitä molekyylibiologiset tietokannat ovat? . .
5.3
Nukleotidisekvenssitietokannat . . . . . . . .
5.3.1 EMBL, GenBank ja DDBJ . . . . . . . .
5.3.2 RefSeq . . . . . . . . . . . . . . . . . .
5.3.3 UniGene . . . . . . . . . . . . . . . . .
5.3.4 Locuslink . . . . . . . . . . . . . . . . .
5.3.5 dbEST . . . . . . . . . . . . . . . . . .
5.4
Aminohapposekvenssitietokannat . . . . . . .
5.4.1 UniProt . . . . . . . . . . . . . . . . . .
5.4.2 SWISS-PROT . . . . . . . . . . . . . .
5.4.3 TrEMBL . . . . . . . . . . . . . . . . .
5.4.4 PIR . . . . . . . . . . . . . . . . . . . .
5.5
Yhdistelmätietokannat . . . . . . . . . . . .
5.6
Tunnistetietokannat . . . . . . . . . . . . . .
5.6.1 PROSITE . . . . . . . . . . . . . . . . .
5.6.2 PRINTS . . . . . . . . . . . . . . . . . .
5.7
Tunnisteiden yhdistelmätietokannat - InterPro
5.8
Genomitietokannat . . . . . . . . . . . . . .
5.8.1 Ensembl . . . . . . . . . . . . . . . . .
5.8.2 UCSC . . . . . . . . . . . . . . . . . . .
5.9
Rakennetietokannat . . . . . . . . . . . . . .
5.9.1 PDB . . . . . . . . . . . . . . . . . . . .
5.10
Julkaisutietokannat . . . . . . . . . . . . . .
5.10.1 PubMed . . . . . . . . . . . . . . . . . .
5.11
Miten käytän tietokantoja? . . . . . . . . . .
5.11.1 Mistä tietokannasta lähteä liikkeelle? . .
5.11.2 Asiasanahaku . . . . . . . . . . . . . . .
5.11.3 Sekvenssihaku . . . . . . . . . . . . . .
5.11.4 Tunnistenumerohaku . . . . . . . . . . .
5.12
Tunnistenumeroista . . . . . . . . . . . . . .
6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
42
42
42
43
44
44
46
48
48
49
49
49
50
50
50
51
51
51
52
52
53
53
54
54
54
54
54
54
56
56
56
57
57
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
59
60
61
64
64
65
Aukkosakot
66
7.1
Nykyisin käytetyt aukkosakkomallit . . . . . . . . . . . . . .
66
Pisteytysmatriisit
6.1
6.2
6.3
6.4
6.5
6.6
7
8
40
Pisteytysmatriisit . . . . . . . . .
PAM-matriisit aminohapoille . . .
PAM-matriisien muodostaminen .
BLOSUM-matriisit aminohapoille
PAM- ja Blosum-matriisien erot .
Muut aminohappomatriisit . . . .
59
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Kahden sekvenssin rinnastus
68
8.1
8.2
68
68
Kahden sekvenssin rinnastusmenetelmät . . . . . . . . . . . .
Mikä on sekvenssirinnastus? . . . . . . . . . . . . . . . . . .
Sisältö
9
8.3
8.4
8.5
8.6
8.7
Sekvenssirinnastusten kuvaaminen tietokoneelle . . . . . . . .
Rinnastuksen pistemäärän laskeminen . . . . . . . . . . . . .
Pistematriisimenetelmä . . . . . . . . . . . . . . . . . . . . .
Dynaaminen optimointi . . . . . . . . . . . . . . . . . . . . .
Needleman-Wunsch-algoritmi . . . . . . . . . . . . . . . . .
8.7.1 Esimerkki Needleman-Wunsch-algoritmista . . . . . . . .
8.8
Smith-Waterman-algoritmi . . . . . . . . . . . . . . . . . . .
8.9
Esimerkki Smith-Waterman-algoritmitmista . . . . . . . . . .
8.10
Sekvenssirinnastuksen tilastollinen merkitsevyys . . . . . . .
8.10.1 Paikallisen sekvenssirinnastuksen tilastollinen merkitsevyys
8.10.2 Kokonaissekvenssirinnastuksen tilastollinen merkitsevyys
8.11
Rinnastuksen asetusten määrittäminen . . . . . . . . . . . . .
9
Sekvenssihaut
9.1
9.2
9.3
9.4
9.5
9.6
9.7
Sekvenssihaku on monille jokapäiväinen työkalu .
Kuinka tietohakuja tehdään? . . . . . . . . . . . .
BLAST . . . . . . . . . . . . . . . . . . . . . . .
PSI-BLAST . . . . . . . . . . . . . . . . . . . . .
PHI-BLAST . . . . . . . . . . . . . . . . . . . . .
Sekvenssihaut Smith-Waterman-algoritmilla . . . .
BLAST:n ja FastA:n Hakuparametrien asettamisesta
9.7.1 Rajoita haku vain kiinnostavaan tietokantaan .
9.7.2 Suodata hakusekvenssi . . . . . . . . . . . . .
9.7.3 Lyhyiden sekvenssien hakeminen . . . . . . .
9.7.4 Homologien tunnistaminen . . . . . . . . . . .
9.7.5 Eksonien määrittäminen . . . . . . . . . . . .
9.7.6 Pääsäännöt . . . . . . . . . . . . . . . . . . .
9.7.7 Suunnittele haut! . . . . . . . . . . . . . . . .
9.8
Pitkät sekvenssit - vaihtoehtoiset lähestymistavat . .
9.8.1 Uusi ratkaisu - PatternHunter . . . . . . . . . .
10
81
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
81
81
82
89
89
90
90
90
90
90
91
91
91
91
92
93
Mikä on usean sekvenssin rinnastus? . . . . . . . . . . . . .
Usean sekvenssin rinnastus dynaamista optimointia käyttäen
Progressiiviset menetelmät eli asteittain etenevät menetelmät
10.3.1 Clustal-perhe . . . . . . . . . . . . . . . . . . . . . . .
10.3.2 T-Coffeen menetelmä . . . . . . . . . . . . . . . . . . .
10.3.3 Muscle-menetelmä . . . . . . . . . . . . . . . . . . . .
10.4
Usean sekvenssin rinnastuksen pistemäärän laskeminen . . .
10.5
Iteratiiviset menetelmät . . . . . . . . . . . . . . . . . . . .
10.6
Proteiineja koodaavien DNA-sekvenssien rinnastaminen . .
10.7
Aminohapposekvenssirinnastuksen editointi käsin . . . . . .
10.8
Sekvenssirinnastuksen laadun arviointi . . . . . . . . . . . .
10.9
Clustal-perheen tekemiä tyypillisiä virheitä . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
94
95
96
96
99
102
103
103
104
104
105
105
Usean sekvenssin rinnastus
94
10.1
10.2
10.3
11
70
70
71
73
73
74
75
75
77
78
79
79
DNA-sekvenssin ominaisuuksien selvittäminen
11.1
11.2
11.3
11.4
11.5
Mitä DNA:sta voidaan selvittää? . . . . . . . . . . .
Restriktioentsyymien katkaisukohtien löytäminen . .
Nukleotidien ja kodonien runsaussuhteiden arviointi .
DNA-sekvenssin translointi aminohapposekvenssiksi
DNA:n käänteiskomplementarisointi . . . . . . . . .
108
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 108
. 108
. 110
. 110
. 111
10
Bioinformatiikan perusteet
11.6
11.7
11.8
11.9
12
Eksonien ja intronien määrittäminen
Vaihtoehtoinen silmukointi . . . . .
Promoottorialueen tunnistaminen . .
Antisense-RNA . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
111
111
114
118
Mitä aminohapposekvensseistä voidaan ennustaa? . . . .
Aminohappokoostumuksen selvittäminen . . . . . . . .
Sekundäärirakenteen ennustaminen . . . . . . . . . . . .
12.3.1 Coiled-coil alueiden tunnistaminen . . . . . . . . .
12.3.2 Hydrofobisten alueiden tunnistaminen . . . . . . . .
12.3.3 Sekundäärirakenteiden selvittäminen . . . . . . . .
Chou-Fasman -menetelmä . . . . . . . . . . . . . .
Lähimmän naapurin menetelmät . . . . . . . . . . .
Neuroverkkomenetelmät . . . . . . . . . . . . . . .
12.4
Motiivien ja domeenien tunnistaminen . . . . . . . . . .
12.5
Translaation jälkeisten modifikaatiokohtien tunnistaminen
12.6
Rakenteiden rinnastaminen . . . . . . . . . . . . . . . .
12.6.1 SSAP-algoritmi . . . . . . . . . . . . . . . . . . . .
12.6.2 DALI-algoritmi . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
120
120
120
120
121
122
122
124
124
126
126
126
127
128
Aminohapposekvenssin ominaisuuksien selvittäminen
120
12.1
12.2
12.3
III
13
Molekyylisystematiikka
Johdatus molekyylisystematiikkaan
13.1
13.2
13.3
13.4
13.5
14
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
130
130
134
137
138
Yksinkertaisen analyysin työvaiheet . . . . . . . . . . .
Sekvenssien valinta . . . . . . . . . . . . . . . . . . . .
Sisäryhmän valinta ja ulkoryhmän käyttö . . . . . . . . .
Evolutiivisen mallin valinta ja sekvenssien rinnastaminen
Analyysimenetelmän valinta . . . . . . . . . . . . . . .
Tuloksen luotettavuuden arviointi . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
142
142
143
145
146
147
142
Evoluutiomallit
15.1
15.2
15.3
15.4
15.5
15.6
16
130
Mitä molekyylisystematiikka on? . . . . .
Fylogeneettinen puu . . . . . . . . . . . .
Lajien ja tuntomerkkien evoluutio . . . .
Lajit luokitellaan monofyleettisiin ryhmiin
Molekyylisystematiikan suuntaukset . . .
Tavanomaisen analyysin eteneminen
14.1
14.2
14.3
14.4
14.5
14.6
15
129
148
Mikä on evoluutiomalli? . . . . . . . . . . . . .
Mihin evoluutiomallia käytetään? . . . . . . . . .
Aminohapposekvensseille sopivat evoluutiomallit
DNA-sekvensseille soveltuvat evoluutiomallit . .
Parsimoniamenetelmä ja evoluutiomalli . . . . .
Aukkokohtien käsittely . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
148
148
149
151
155
156
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
158
158
158
159
Etäisyysmenetelmät
16.1
16.2
Mitä etäisyysmenetelmät ovat
Ultrametriset puut . . . . . .
16.2.1 UPGMA ja WPGMA . .
16.3
Additiiviset puut . . . . . . .
158
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Sisältö
11
16.3.1 Minimievoluutiomenetelmä . . . . . . . . . . . . . .
16.3.2 Neighbor-joining . . . . . . . . . . . . . . . . . . . .
16.4
Pienimmän neliösumman menetelmät . . . . . . . . . . .
16.5
Molekyylisystematiikka ja etäisyysmenetelmät . . . . . . .
16.6
Etäisyyspuun luotettavuuden arviointi . . . . . . . . . . .
16.7
Molekyylikello-oletuksen testaaminen etäisyysmenetelmin
16.8
Laskennalliset esimerkit . . . . . . . . . . . . . . . . . . .
16.8.1 Parittaisten etäisyyksien laskeminen . . . . . . . . . .
16.8.2 Puun muodostaminen UPGMA-menetelmällä . . . . .
17
.
.
.
.
.
.
.
.
.
159
160
160
161
161
162
162
162
163
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
168
168
169
171
174
175
175
179
179
180
180
182
183
183
184
186
187
187
188
Parsimoniamenetelmä
168
17.1
17.2
17.3
17.4
Mikä on parsimoniamenetelmä? . . . . .
Parsimoniapuun muodostamisen periaate .
Hennigin argumentaatio . . . . . . . . . .
Wagnerin menetelmä . . . . . . . . . . .
17.4.1 Wagnerin kaava . . . . . . . . . . . .
17.5
Optimaalisuuskriteeri . . . . . . . . . . .
17.5.1 Wagnerin optimaalisuuskriteeri . . .
17.5.2 Fitchin optimaalisuuskriteeri . . . . .
17.5.3 Dollon optimaalisuuskriteeri . . . . .
17.5.4 Camin-Sokalin optimaalisuuskriteeri
17.5.5 Yleistetty optimaalisuuskriteeri . . .
17.6
Lyhyimmän mahdollisen puun etsintä . .
17.7
Muodostettujen puiden kuvailu ja vertailu
17.7.1 Puun pituus . . . . . . . . . . . . . .
17.7.2 Yhdenmukaisuusindeksi . . . . . . .
17.7.3 Synapomorfiaindeksi . . . . . . . . .
17.7.4 Muokattu yhdenmukaisuusindeksi . .
17.7.5 Indeksien ongelmista . . . . . . . . .
17.8
Ominaisuuksien painotus analyysissä . . .
18
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Suurimman uskottavuuden menetelmä ja bayesilainen menetelmä
190
18.1
18.2
18.3
Mitä ovat suurimman uskottavuuden menetelmät? . . . . . . . 190
Uskottavuuden käyttö todennäköisyyden arviointiin . . . . . . 191
Puun uskottavuuden laskeminen . . . . . . . . . . . . . . . . 191
18.3.1 Evoluutiomallin määrittäminen DNA-sekvensseille . . . . 191
18.3.2 Uskottavuuden laskeminen . . . . . . . . . . . . . . . . . 193
18.3.3 Kahden taksonin puu . . . . . . . . . . . . . . . . . . . . 193
18.3.4 Kolmen taksonin puu . . . . . . . . . . . . . . . . . . . . 194
18.3.5 Neljän taksonin puun uskottavuuden laskeminen . . . . . 197
18.3.6 Ominaisuuksien evoluutionopeuden vaihtelun ottaminen huomioon 198
18.3.7 Evoluutiomallin määrittäminen aminohapposekvensseille . 199
18.4
Kuinka paras puu löydetään . . . . . . . . . . . . . . . . . . . 199
18.5
Mitä ovat bayesilaiset menetelmät? . . . . . . . . . . . . . . . 200
19
Superpuumenetelmät
19.1
19.2
19.3
19.4
19.5
Mitä superpuumenetelmät ovat? . . .
Olemassa olevat superpuumenetelmät
MRP-menetelmän periaate . . . . . .
MRP-menetelmän muunnokset . . . .
Menetelmän edut . . . . . . . . . . .
202
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 202
. 202
. 203
. 205
. 205
12
Bioinformatiikan perusteet
19.6
20
MRP-menetelmään kohdistettu kritiikki . . . . . . . . . . . . 205
Parhaan puun etsiminen ja puun uudelleenjärjestelymenetelmät
20.1
20.2
Mitä puun uudelleenjärjestelymenetelmät ovat?
Menetelmien käyttö . . . . . . . . . . . . . . .
20.2.1 Perinteinen haku . . . . . . . . . . . . . .
20.2.2 Uudempia menetelmiä käyttävä haku . . .
20.3
Miten menetelmät toimivat? . . . . . . . . . . .
20.3.1 Täydellinen haku . . . . . . . . . . . . . .
20.3.2 Rajattu haku . . . . . . . . . . . . . . . .
20.3.3 Nearest neighbor interchange . . . . . . .
20.3.4 Subtree pruning and regrafting . . . . . . .
20.3.5 Tree bisection and reconnection . . . . . .
20.3.6 Ratchet . . . . . . . . . . . . . . . . . . .
20.3.7 Tree fusing . . . . . . . . . . . . . . . . .
20.3.8 Tree-drifting . . . . . . . . . . . . . . . .
20.3.9 Sectorial searches . . . . . . . . . . . . . .
Random sectorial search (RSS) . . . . . .
Consensus-based sectorial searches (CSS) .
20.3.10 Mixed sectorial searches (MSS) . . . . . .
20.4
Superpuumenetelmät . . . . . . . . . . . . . .
21
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
207
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
207
208
209
210
211
211
212
212
213
213
214
216
216
218
218
219
219
219
221
21.1
21.2
21.3
21.4
21.5
21.6
21.7
21.8
21.9
Puun luotettavuuden arviointi . . . . . . . . . . . . . . . . . . 221
Bootstrapping . . . . . . . . . . . . . . . . . . . . . . . . . . 221
Jackknifing . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
Bremerin tukiarvo . . . . . . . . . . . . . . . . . . . . . . . . 224
Puun pituuksien jakauma (DCL) . . . . . . . . . . . . . . . . 226
Permutaatiohännäntodennäköisyys (PTP) . . . . . . . . . . . 228
Topologia-riippuvainen permutaatiohännäntodennäköisyys (T-PTP) 231
Parametrinen bootstrapping . . . . . . . . . . . . . . . . . . . 231
Konsensuspuut . . . . . . . . . . . . . . . . . . . . . . . . . 232
21.9.1 Strict konsensus . . . . . . . . . . . . . . . . . . . . . . 232
21.9.2 Semi-strict konsensus . . . . . . . . . . . . . . . . . . . . 232
21.9.3 Majority-rule konsensus . . . . . . . . . . . . . . . . . . 234
21.9.4 Nelson-konsensus . . . . . . . . . . . . . . . . . . . . . 234
21.9.5 Adams-konsensus . . . . . . . . . . . . . . . . . . . . . 234
21.9.6 Agreement subtrees . . . . . . . . . . . . . . . . . . . . . 234
21.10 Tilastolliset testit . . . . . . . . . . . . . . . . . . . . . . . . 235
21.10.1 Kishino-Hasegawa . . . . . . . . . . . . . . . . . . . . . 235
21.10.2 Templeton . . . . . . . . . . . . . . . . . . . . . . . . . 235
21.10.3 Todennäköisyysosamäärätesti . . . . . . . . . . . . . . . 236
21.11 Puiden välinen etäisyys . . . . . . . . . . . . . . . . . . . . . 236
21.11.1 Symmetrinen etäisyys . . . . . . . . . . . . . . . . . . . 237
21.11.2 Pituuseroetäisyys . . . . . . . . . . . . . . . . . . . . . . 238
21.12 Incongruence lenght difference . . . . . . . . . . . . . . . . . 239
21.13 Likelihood heterogeneity test . . . . . . . . . . . . . . . . . . 239
22
Molekyylisystematiikan avoimia kysymyksiä
22.1
242
Taksonominen vai ominaisuuksien yhteensopivuus? . . . . . . 242
22.1.1 Erillinen analyysi . . . . . . . . . . . . . . . . . . . . . . 242
Sisältö
13
22.1.2 Yhdistetty analyysi . . . . . . . . . . . . . . . . .
22.1.3 Ehdollinen aineistojen yhdistäminen . . . . . . . .
22.1.4 Käytännön ehdotuksia . . . . . . . . . . . . . . .
22.2
Analyysiin DNA- vai proteiinisekvenssit? . . . . . . .
22.3
Long branch attraction . . . . . . . . . . . . . . . . .
22.4
Taksoniotanta ja häly - miten ne vaikuttavat analyysiin?
22.4.1 Taksoniotanta . . . . . . . . . . . . . . . . . . . .
22.4.2 Häly . . . . . . . . . . . . . . . . . . . . . . . . .
22.5
Sekvenssirinnastus ja POY . . . . . . . . . . . . . . .
22.5.1 Perinteinen lähestymistapa . . . . . . . . . . . . .
22.5.2 POY:n ratkaisumalli . . . . . . . . . . . . . . . .
Optimointikohdistus (direct optimization) . . . . .
Fixed-states optimization . . . . . . . . . . . . . .
Iterative-pass optimization . . . . . . . . . . . . .
22.6
Suosituksia . . . . . . . . . . . . . . . . . . . . . . .
22.6.1 Proteiinia koodaavat geenit . . . . . . . . . . . . .
22.6.2 Ribosomaalinen-RNA . . . . . . . . . . . . . . .
22.6.3 Aminohapposekvenssit . . . . . . . . . . . . . . .
22.6.4 Pseudogeenit . . . . . . . . . . . . . . . . . . . .
22.7
Puu vai verkosto? . . . . . . . . . . . . . . . . . . . .
22.8
Menetelmän valinta - simulaatiotutkimusten tuloksia .
22.8.1 Muutamia julkaistuja tuloksia . . . . . . . . . . .
22.8.2 Yhteenveto . . . . . . . . . . . . . . . . . . . . .
IV
23
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
243
243
244
244
246
248
248
248
249
249
250
251
252
253
253
253
253
253
254
254
254
254
257
258
PCR-alukkeiden suunnittelu
259
Miten alukkeet liittyvät bioinformatiikkaan?
PCR-RFLP-menetelmien teoria . . . . . . .
Alukkeiden suunnitteleminen käsin . . . . .
Esimerkki alukkeiden suunnittelusta . . . .
Alukkeiden suunnitteleminen tietokoneella .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 259
. 259
. 259
. 260
. 262
Mitä ovat pistemutaatiot . . . . . . . . . . . . . . . . .
Seulonta tietokannoista . . . . . . . . . . . . . . . . .
24.2.1 EST-sekvenssien hakeminen EMBL-tietokannasta
24.2.2 Tulosten tulkinta . . . . . . . . . . . . . . . . . .
24.2.3 Edistyneempi tulkintamenetelmä . . . . . . . . . .
24.2.4 Aminohappomuutokset ovat kiinnostavimpia . . .
24.2.5 Jatkotutkimukset . . . . . . . . . . . . . . . . . .
24.3
Pistemutaatiot ja populaatiogenetiikka . . . . . . . . .
24.4
Geenikartoitus . . . . . . . . . . . . . . . . . . . . . .
24.5
Farmakogenetiikka . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 271
. 271
. 272
. 273
Pistemutaatioiden etsintä ja niiden sovellukset
263
24.1
24.2
25
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Genomiikka ja proteomiikka
23.1
23.2
23.3
23.4
23.5
24
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Tuntemattoman sekvenssin toiminnan selvittäminen
25.1
25.2
25.3
25.4
Mihin toiminnan selvittäminen perustuu?
BLAST-haku . . . . . . . . . . . . . .
Tunnistetietokannat . . . . . . . . . . .
Fylogeneettinen analyysi . . . . . . . .
.
.
.
.
.
.
.
.
263
263
263
263
264
264
265
266
268
269
271
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
Bioinformatiikan perusteet
25.5
25.6
25.7
26
Ortologisten geenien luokittelu . . . . . . . . . . . . . . . . . 274
Geeniontologia . . . . . . . . . . . . . . . . . . . . . . . . . 276
DNA-sirut . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
Promoottorianalyysi
278
26.1
26.2
26.3
26.4
26.5
Mitä promoottorit ovat? . . . . . . . . . . . . . . . . . . . . . 278
Miten promoottorisekvenssejä analysoidaan? . . . . . . . . . . 278
Promoottorisekvenssin hankkiminen . . . . . . . . . . . . . . 279
Tunnettujen transkriptiofaktoreiden sitoutumiskohtien esittäminen ja etsiminen 280
Miten parantaa haun spesifisyyttä? . . . . . . . . . . . . . . . 281
26.5.1 DNA-sirutulokset . . . . . . . . . . . . . . . . . . . . . . 281
26.5.2 Fylogeneettiset jalanjäljet . . . . . . . . . . . . . . . . . 281
26.5.3 Modulit . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
26.6
Tuntemattomien sitoutumiskohtien etsiminen . . . . . . . . . 283
26.7
Yhteisten piirteiden etsinnän sensitiivisyyden parantaminen . . 285
27
DNA-siruanalyysi
286
27.1
27.2
27.3
27.4
Mitä DNA-sirut ovat? . . . . . . . . .
DNA-sirujen valmistus . . . . . . . .
DNA-sirujen käyttäminen . . . . . . .
Data-analyysi . . . . . . . . . . . . .
27.4.1 Koesuunnittelu . . . . . . . . . .
27.4.2 Esikäsittely . . . . . . . . . . . .
27.5
Suodatus . . . . . . . . . . . . . . . .
27.5.1 Ilmentyneiden geenien löytäminen
27.5.2 Tulosten visualisointi . . . . . . .
27.5.3 Jatkotutkimukset . . . . . . . . .
27.5.4 Tulosten julkaiseminen . . . . . .
28
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
286
286
287
289
289
290
293
294
297
298
300
Mihin RNA:n rakenteen ennustamista käytetään?
RNA:ssa esiintyviä sekundäärirakenteita . . . . .
Miten sekundäärirakenteita ennustetaan? . . . . .
Minimienergiaperiaate . . . . . . . . . . . . . .
Kovariaatiomenetelmä . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
301
301
301
302
305
RNA:n sekundäärirakenteen ennustaminen
28.1
28.2
28.3
28.4
28.5
29
.
.
.
.
.
.
.
.
.
.
.
301
Geenirakenteen ennustaminen
308
29.1
29.2
Mitä menetelmiä geenirakenteen ennustamiseen voidaan käyttää? 308
Translaatio ja validointi . . . . . . . . . . . . . . . . . . . . . 308
29.2.1 Fickettin menetelmä . . . . . . . . . . . . . . . . . . . . 309
29.2.2 Kodoniharhaan perustuva testi . . . . . . . . . . . . . . . 310
29.3
DNA:ta jäsentävien alueiden paikantaminen . . . . . . . . . . 311
29.4
Esitumallisten geenien ennustaminen . . . . . . . . . . . . . . 312
29.5
Aitotumallisten geenien ennustaminen . . . . . . . . . . . . . 314
29.6
Ennustusmenetelmien tarkkuus . . . . . . . . . . . . . . . . . 315
30
Vertaileva genomiikka
30.1
30.2
Mitä on vertaileva genomiikka? . .
DNA-sekvenssin konservoituminen
30.2.1 Geenirakenteen säilyminen . .
30.2.2 Rakenne-DNA:n säilyminen .
316
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
316
317
317
318
Sisältö
15
30.2.3 Neutraalievoluution alueiden tunnistaminen
30.2.4 Ihmisen ja hiiren vertailuista opittua . . . .
30.3
Geeni- ja genomiduplikaatiot . . . . . . . . . .
30.3.1 Geeniduplikaatiot . . . . . . . . . . . . . .
30.3.2 Genomiduplikaatiot . . . . . . . . . . . .
30.4
Eliöiden geenisisältö . . . . . . . . . . . . . .
30.5
Horisontaalinen geeninsiirto . . . . . . . . . .
30.6
Geenijärjestyksen säilyminen . . . . . . . . . .
30.7
Vertaileva genomiikka ja lääketiede . . . . . . .
30.7.1 Rokotteiden kehittäminen . . . . . . . . .
30.7.2 Lääkeaineiden kehittäminen . . . . . . . .
31
Mitä on proteomiikka? . . . . . . .
Proteiinien ilmentymisen tutkiminen
31.2.1 2D-geelielektroforeesi . . . . .
31.2.2 Massaspektrometria . . . . . .
31.2.3 Proteiinisirut . . . . . . . . . .
31.3
Proteiinimallitus . . . . . . . . . . .
31.3.1 Homologiamallitus . . . . . . .
31.3.2 Ab initio-mallitus . . . . . . . .
31.3.3 Rakenneprofiilimenetelmä . . .
31.3.4 Laskostaminen . . . . . . . . .
32
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
319
320
322
322
323
324
324
325
326
326
329
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
331
331
331
332
333
333
333
335
335
336
Proteomiikka
31.1
31.2
V
.
.
.
.
.
.
.
.
.
.
.
Liitteet
Lukujen tiivistelmät
32.1
32.2
32.3
32.4
32.5
32.6
32.7
32.8
32.9
32.10
32.11
32.12
32.13
32.14
32.15
32.16
32.17
32.18
32.19
32.20
32.21
32.22
32.23
331
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
337
338
Johdanto ja bioinformatiikan historia . . . . . . . . . . . . . . 338
Laskennallisen biologian perusteet . . . . . . . . . . . . . . . 338
Esiteltävien menetelmien sovellusalueet . . . . . . . . . . . . 338
Sekvensointi ja DNA-sekvenssit . . . . . . . . . . . . . . . . 339
Biotietokannat . . . . . . . . . . . . . . . . . . . . . . . . . . 339
Pisteytysmatriisit . . . . . . . . . . . . . . . . . . . . . . . . 339
Aukkosakot . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
Kahden sekvenssin rinnastus . . . . . . . . . . . . . . . . . . 339
Sekvenssihaut . . . . . . . . . . . . . . . . . . . . . . . . . . 340
Usean sekvenssin rinnastus . . . . . . . . . . . . . . . . . . . 340
PCR-alukkeiden suunnittelu . . . . . . . . . . . . . . . . . . . 340
Pistemutaatioiden seulonta tietokannoista . . . . . . . . . . . 341
DNA-sekvenssien ominaisuuksien sevlittäminen . . . . . . . . 341
Aminohapposekvenssin ominaisuuksien selvittäminen . . . . . 341
Tuntemattoman sekvenssin toiminnan selvittäminen . . . . . . 341
Johdatus molekyylisystematiikkaan . . . . . . . . . . . . . . . 342
Tavanomaisen analyysin eteneminen . . . . . . . . . . . . . . 342
Evoluutiomallit . . . . . . . . . . . . . . . . . . . . . . . . . 342
Etäisyysmenetelmät . . . . . . . . . . . . . . . . . . . . . . . 343
Parsimoniamenetelmä . . . . . . . . . . . . . . . . . . . . . . 343
Suurimman uskottavuuden menetelmät ja bayesilaiset menetelmät 343
Superpuumenetelmät . . . . . . . . . . . . . . . . . . . . . . 343
Parhaan puun löytäminen ja uudelleenjärjestelymenetelmät . . 344
16
Bioinformatiikan perusteet
32.24
32.25
32.26
32.27
32.28
32.29
32.30
32.31
33
Puun luotettavuuden arviointi ja konsensuspuut
Molekyylisystematiikan avoimia kysymyksiä .
Promoottorianalyysi . . . . . . . . . . . . . . .
DNA-sirut . . . . . . . . . . . . . . . . . . . .
RNA:n sekundäärirakenteen selvittäminen . . .
Geenirakenteen ennustaminen . . . . . . . . .
Vertaileva genomiikka . . . . . . . . . . . . . .
Proteomiikka . . . . . . . . . . . . . . . . . .
Harjoitustehtävät
33.1
33.2
33.3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
344
344
344
345
345
345
346
346
347
Sekvenssirinnastukset . . . . . . . . . . . . . . . . . . . . . . 347
Fylogenetiikka . . . . . . . . . . . . . . . . . . . . . . . . . . 349
Alukkeiden suunnittelu . . . . . . . . . . . . . . . . . . . . . 349
34
Sanasto
351
35
Kirjallisuus
359
35.1
35.2
Hakemisto
Artikkeliviitteet . . . . . . . . . . . . . . . . . . . . . . . . . 359
Kirjaviitteet . . . . . . . . . . . . . . . . . . . . . . . . . . . 364
367
Osa I
Johdanto
18
1
Bioinformatiikan perusteet
Johdanto
1.1 Mitä on bioinformatiikka?
Bioinformatiikan kehitys itsenäiseksi tieteenalaksi alkoi, kun ensimmäiset biologiset tietokannat paisuivat niin suuriksi, että niissä olevan tiedon etsimiseksi ja analysoimiseksi tarvittiin tietokoneistettuja ratkaisuja. Suurten aineistojen käsittelyyn
luotiin myös tehokkaita algoritmeja. Erityisesti viime vuosina tietokannat ovat kasvaneet kiihtyvää vauhtia, ja kasvu jatkunee lähitulevaisuudessakin (Kuva 1.1). Tietokoneiden ja intenetin käyttö on nykyisin bioinformatiikassa keskeisellä sijalla.
Voidaan sanoa, että ilman tietokoneita ja internetiä ei nykyaikaista bioinformatiikkaakaan olisi olemassa.
Bioinformatiikan määritelmä ei ole toistaiseksi vakiintunut. Varsin kaikenkattavan määritelmän mukaan bioinformatiikka on informaatiotieteen ja biologian yhtymäkohtaan syntynyt tieteenala. Bioinformatiikkaan voidaan katsoa myös alaksi,
jonka tarkoituksena on kehittää biologisten ongelmien ratkaisemiseen soveltuvia
tietoteknisiä välineitä. Kolmannen määritelmän mukaan bioinformatiikalla käsitetään informaatioteknologia ja sen menetelmät, joita käytetään biologisen datan tallentamiseen, ylläpitämiseen ja analysoimiseen. Lisäksi bioinformatiikan katsotaan
usein kuuluvan osaksi laskennallista biologiaa.
Bioinformatiikan määritelmää on pohdittu laajemmaltikin. Luscomben (2001)
mukaan bioinformatiikalla on kolme pyrkimystä. Yksinkertaisimmillaan bioinformatiikka organisoi aineistoa siten, että se saadaan tutkijoiden saataville, ja että he
voivat liittää tähän informaatioon omia tuloksiaan. Tyypillisiä esimerkkejä tästä
ovat esimerkiksi sekvenssitietokanta GenBank, johon on kerätty sekvenssejä jo
yli parikymmentä vuotta, ja ArrayExpress, joka ottaa Euroopassa vastaan DNAmikrosiru-dataa. Toisena tavoitteena on kehittää työkaluja, jotka auttavat tutkijoita
aineistojen analysoinnissa. Kolmantena päämääränä on käyttää näitä työkaluja ja
tietoresursseja aineistojen analysointiin siten, että tulokset voidaan tulkita biologisesti mielekkäästi.
Helsingin yliopistossa geneettinen bioinformatiikka määritellään lisäksi seuraavasti. “Geneettinen bioinformatiikka on perinnöllisyystieteen eli genetiikan osaalue, joka on keskeisessä asemassa lähes kaikessa modernissa genetiikassa. Geneettinen tutkimus ja sen kautta koko biologia on viimeisen vuosikymmenen aikana kokenut valtavan mullistuksen uusien genomitason menetelmien myötä. Nämä
uudet funktionaalisen genomiikan työkalut mahdollistavat geenitoiminnan ymmärtämisen, geenien ilmenemisestä siitä seuraavien aineenvaihdunnan muutosten kokonaisvaltaiseen tunnistamiseen koko genomin tasolla. Tällaiset systeemitason lähestymistavat tuottavat valtavasti tietoa, jonka täysimittainen hyödyntäminen vaatii
bioinformatiikan menetelmiä, ja geneettinen bioinformatiikka onkin viime vuosina noussut keskeiseksi osaksi geneettistä tutkimusta. Genomitason sekvenssitiedon käsittely vaatii aina bioinformatiikan menetelmiä. Geneettisen bioinformatiikan tutkimuskohteina voi olla esimerkiksi tautigeenien identifiointi ihmisellä, geenien säätelyelementtien tunnistus genomisekvensseistä, geenien ja geeniperheiden
fylogeneettinen analyysi, genomien evoluution tutkimus tai geenien ilmenemisen
tutkiminen koko genomin tasolla. [professori Tapio Palva 14.4.2005]”
1
Johdanto
19
Kuva 1.1: GenBank-nukleotiditietokannan uusimman julkaisun koko lajeittain ja tietokannan koon kasvu parin vuosikymmenen aikana. Tietokannasta yli 2/3 koostuu ihmisen
tai laboratoriojyrsijöiden sekvensseistä.
20
Bioinformatiikan perusteet
Perinteinen bioinformatiikan määritelmä on sisältänyt ainoastaan sekvenssianalytiikan, ja senkin suhteellisen suppeassa muodossa, käsittäen ainoastaan DNAja aminohapposekvensseihin liittyvät primäärianalyysit, kuten BLAST-haut ja parittaiset sekä usean sekvenssin rinnastukset, muttei esimerkiksi promoottorianalyysia. Lavean määritelmän mukaan bioinformatiikka sisältää myös genomiikan, toiminnallisen genomiikan (muun muassa polymorfia-analyysit, ekspressiotutkimukset ja proteomiikka) ja uutena suuntauksena kirjallisuuden louhinnan, mikä laajentaa bioinformatiikan määritelmän kattamaan pitkälti myös erilaisten biologisten
aineistojen tilastotieteellisiä analyysivaiheita.
Nykyisin bioinformatiikka on läheisesti kosketuksissa monien sitä soveltavien
alojen tutkimuksen kanssa. Esimerkiksi molekyylisystematiikan, proteiinien kiderakenteiden analysoinnin, ja geenikartoituksen katsotaan nykyisin kuluvan bioinformatiikan kenttään. Hyvin läheisiä aloja ovat myös molekyyliepidemiologia, joka kytkeytyy bioinformatiikkaan erityisesti tutkittaessa ihmisten perinnöllistä monimuotoisuutta, ja tiedonlouhinta, joka tarkoittaa lähinnä tilastollisten mallien soveltamista moniulotteisten ja monia muuttujia sekä paljon aineistoa sisältävien biologisten tutkimusten analysointiin. Koska bioinformatiikan tutkimuskenttä on näin
laaja, ei sen yksiselitteinen määritteleminen ole helppoa. Yhtäkaikki, mainittuja
tutkimuskohteita yhdistää kaksi tekijää: ne kaikki liittyvät biologiaan ja niihin liittyvien ongelmien ratkaisemiseen tarvitaan tietokonetta.
1.2 Keitä bioinformaatikot ovat?
Perinteisen käsityksen mukaan bioinformaatikko on henkilö, joka osaa sekä biologiaa että tietojenkäsittelytiedettä niin, että hän kykenee kehittämään uusia hyödyllisiä työkaluja biologisten ongelmien ratkaisemiseksi. Toinen vaihtoehto on jakaa
bioinformaatikot osaamistason mukaan eri luokkiin (Hack, 2005).
1. Superkäyttäjiksi kutsutaan henkilöitä, jotka tuntevat laajan valikoiman ohjelmia tai ohjelmistoja, ja heillä on peruskäsitys siitä, miten eri parametrien muokkaaminen vaikuttaa tuloksiin. Heillä ei kuitenkaan välttämättä ole
ohjelmointi- tai tietokantakehityskokemusta. Tilastotieteen tuntemus rajoittuu perusteisiin.
2. Tehokäyttäjiksi voitaisiin katsoa henkilöt, joilla on hyvä ymmärrys eri parametrien vaikutuksesta ohjelmien antamiin tuloksiin, ja jotka osaavat kirjoittaa skriptejä, joilla ohjelmat voidaan liittää tietokantoihin tai toisiinsa analyysiputkien luomiseksi ja jotka kehittävät tietokantoja. Tilastotieteellinen osaaminen on laajaa ja sitä osataan soveltaa monien biologisten ongelmien selvittämiseen.
3. Bioinformaatikoita leimaa ohjelmakehitykseen osallistuminen, algoritmien
ja mallien kehitys sekä tiedonlouhintamenetelmien soveltaminen biologisten
aineistojen analysointiin.
Hackin jaottelun mukaan useimmat biologit sijoittunevat ryhmiin 1 ja 2, ja
pääosin vain insinöörit ja tietokäsittelytieteilijät saavuttavat ryhmää 3 vastaavan
osaamistason. Viime vuosina bioinformatiikan ongelmiin on kuitenkin jo kehitetty niin monia tietokoneistettuja ratkaisuja, että ohjelmointitaitojen sijaan näiden
työkalujen tuntemus alkaa korostua. Yksinkertaisella Internet-haulla on usein mahdollista löytää useita tietyn ongelman ratkaisemiseen kehitettyjä ohjelmistoja. On
kuitenkin tilanteita, jolloin ohjelmointitaidoista on selvää hyötyä, sillä kaikkien ongelmien ratkaisemiseen ei ole vielä olemassa valmiita työkaluja.
1
Johdanto
1.3
21
Bioinformatiikan merkitys biologiassa
Bioinformatiikan perimmäinen tarkoitus on selvittää biologisia ilmiöitä. Vaikka
bioinformatiikka onkin itsenäinen tieteenala, on sillä lisäksi nykyisessä molekyylibiologisessa tutkimuksessa erittäin suuri välinearvo. Bioinformatiikkaa ei voi tehdä
biologiasta irrallaan, joten alan tutkimuksen pääpaino onkin työkalujen kehittämisessä rajattujen biologisten ongelmien ratkaisemiseksi. Bioinformatiikka on työkalu, ei päämäärä sinänsä, vaikka osa tutkimuksesta on kohdennettukin biologia
suoranaisesti varsin vähän hyödyttäviin hankkeisiin.
Bioinformatiikan avulla on mahdollista hahmottaa, kuinka eliöt rakentuvat,
kehittyvät ja toimivat, ja kuinka ne muuttuvat aikojen saatossa. Tämä ei ole välttämättä helppoa. Esimerkiksi tuntemattomien geenien ennustaminen DNA-sekvenssistä tietokoneen avustuksella on edelleen jokseenkin epävarmaa. Vielä ei myöskään osata täydellisesti ennustaa hnRNA:n (heterogenous nuclear RNA) silmikointikohtia tai proteiinin laskostumista aminohapposekvenssin perusteella. Bioinformatiikan ansiosta muun muassa näiden ongelmien ratkaisussa on kuitenkin huomattavasti edistytty. Tuntemattomien geenien lukuraami selviää nykyisin noin 75%
tapauksista, ja intronien ja eksonien väliset rajatkin noin 90% aitotumallisten geeneistä pelkällä tietokoneanalyysillä.
On kuitenkin hyvin tärkeää muistaa, että tietokoneanalyysillä ei voida todistaa, miten esimerkiksi proteiinit toimivat soluissa. Bioinformatiikka tarjoaa työkaluja valistuneiden arvausten tekemiseksi, mutta viimekädessä arvaukset on todennettava laboratoriomenetelmin. Biologinen data on hyvin moniulotteista. Esimerkiksi DNA-sirulla oleva täplä voidaan yhdistää sen fluoressenssin voimakkuuteen,
mutta myös DNA-juosteen sekvenssiin ja sitä vastaavan proteiinin rakenteeseen ja
toimintaan. Näin monimutkaisia verkostoja muodostavan aineiston pukeminen helposti käsiteltävään muotoon, saati sen analysoiminen ei ole yksinkertaista. Apua
tällaisten biologisten ongelmien ratkaisemiseen tarvitaan niin tietojenkäsittelijöiltä
kuin tilastotieteilijöiltäkin. DNA-sekvenssien, geenisäätelyverkkojen ja biokemiallisten aineistojen yhdistäminen tulee luultavasti olemaan vielä useiden bioinformaatikkosukupolvien työmaana.
22
Bioinformatiikan perusteet
2
Laskennallisen biologian
perusteet
2.1 Laskennalliset asiat ovat bioinformatiikassa keskeisiä
Seuraavassa käsitellään algoritmeja ja ohjelmien ajoaikoja ja niiden vaatimaa keskusmuistin määrää. Saattaa tuntua siltä, etteivät tällaiset asiat liity millään tavalla
bioinformatiikkaan, mutta se on harhakäsitys. Monet bioinformatiikan ongelmat
ovat kooltaan suuria sikäli, että aineistoa on paljon. Tällöin aineiston analysoimiseksi on käytettävä mahdollisimman tehokkaita algoritmeja, jotka suoriutuvat tehtävästään nopeasti ja mahdollisimman vähäisiä muita resursseja käyttäen. Esimerkiksi yksinkertainen sekvenssirinnastustehtävä, jossa halutaan rinnastaa joitakin satoja sekvenssejä, vie helposti niin paljon laskenta-aikaa ja muistia, ettei tavallinen
tietokone tehtävästä enää selviydy (ClustalX - slow-optio). On kuitenkin olemassa algoritmeja (ClustalX - fast-optio), joilla tämä ongelma voidaan välttää, ja sekvenssit saadaan rinnastettua, kunhan jaksaa odotella muutamia tunteja. Tämä luvun
tarkoituksena on antaa pohjatietoa esimerkiksi sellaisista laskenta-aikaan ja muistintarpeeseen liittyvistä seikoista, joista usein puhutaan ohjelmien käyttöohjeissa
ja tieteellisissä artikkeleissa, mutta joita ei selitetä sen tarkemmin, koska ne ovat
"yleisesti tunnettuja asioita".
2.2 Mikä on algoritmi?
Algoritmilla tarkoitetaan yleisesti joukkoa ohjeita, joiden perusteella jokin ongelma voidaan ratkaista tai jokin tehtävä saadaan suoritettua. Monet jokapäiväiset toimemme ovat itseasiassa yksinkertaisia algoritmeja. Oletetaan, että serkkusi Oulusta
tulee vierailulle luoksesi Helsinkiin, ja sovitte tapaamisen Viikin kampukselle. Voit
opastaa häntä esimerkiksi seuraavasti: "Biokeskus on osoitteessa Viikinkaari 9 A,
tule sinne."tai "Ota taksi ja aja osoitteeseen Viikinkaari 9 A". Seuraavat ohjeet voidaan myös pukea algoritmiksi, joka luettelee erilaisia päätössääntöjä esimerkiksi
seuraavasti:
1. Jos osaat lukea karttaa ja Helsingin bussien aikatauluja, tule osoitteeseen Viikinkaari 9 A.
2. Jos sinulla on rahaa tai pääset jonkun toisen mukana, aja taksilla osoitteeseen
Viikinkaari 9 A.
3. Jos haluat ulkoilla tai sinulla ei ole rahaa, hanki Helsingin kartta ja suunnista
osoitteeseen Viikinkaari 9 A.
Useimmiten algoritmit on istutettu osaksi jotakin tietokoneohjelmaa. Algoritmi ja tietokoneohjelma eivät ole kuitenkaan sama asia. Ohjelman ydin voi olla tietokoneen ymmärtämään muotoon käännetty algoritmi, joka suorittaa jonkin tehtävän, mutta sen ympärille on kasattu paljon muutakin. Ohjelma saattaa esimerkik-
2
Laskennallisen biologian perusteet
23
si kysellä käyttäjältä tarvittavia taustatietoja, ratkaista ongelman niiden perusteella algoritmia käyttäen, ja lopuksi kertoa tulokset kauniissa graafisessa muodossa.
Algoritmin ohjelmoimista jonkin tietokoneohjelman osaksi kutsutaan myös implementoinniksi (engl. implementation), ja ohjelmaa, jossa algoritmi on, kutsutaan algoritmin implementaatioksi.
Kahden sekvenssin rinnastuksia käsittelevässä luvussa esitellään Smith-Watermanin
algoritmi kahden sekvenssin välisen paikallisen rinnastuksen muodostamiseksi. Tämä algoritmi on ohjelmoitu moniin erilaisiin ohjelmiin, esimerkiksi water ja matcher, jotka kuuluvat osaksi EMBOSS-ohjelmistopakettia. Water ja Matcher on ohjelmoitu (käännetty tietokoneen ymmärtämään muotoon) C++-ohjelmointikieltä käyttäen, mutta joissakin muissa ohjelmissa sama algoritmi on toteutettu Java-kieltä
käyttäen. Ohjelmien tekemiseen on siis olemassa useita erilaisia ohjelmointikieliä,
ja sama algoritmi voidaan toteuttaa mitä hyvänsä kieltä käyttäen. Siten, algoritmi
ei ole sama asia kuin tietokoneohjelma.
2.3
Kuinka nopea tietokoneohjelma on?
Tietokoneohjelman nopeus voidaan mitata yksinkertaisimmillaan siten, että sillä
ajetaan jokin analyysi, ja mitataan kuinka kauan aikaa tuon analyysin suorittaminen vei. Analyysin kuluttamaa aikaa kutsutaan ajoajaksi. Ajoaika voi vaihdella sen
mukaan mitä muita ohjelmia tietokoneella on samaan aikaan ajossa, mitä käyttöjärjestelmää käytetään, ja erityisesti jos puhutaan keskitetyistä laskentaresursseista, kuten CSC:n supertietokoneista tai WWW-palvelimista, ajoaika riippuu suuresti
samanaikaisten käyttäjien kokonaismäärästä. Lisäksi ajoaika riippuu tietokoneen
prosessorin nopeudesta ja mahdollisesti myös keskusmuistin määrästä (joudutaanko käyttämään esimerkiksi kovalevyjä heittovaihtotiedostojen väliaikaiseen tallentamiseen). Eri tietokoneilla eri aikoina mitatut ajoajat eivät olekaan suoraan verrattavissa toisiinsa. Siksi tietojenkäsittelytieteessä pyritään ennemmin kuvaamaan
jonkin algoritmin vaatimaa laskenta-aikaa tai tarvittavan muistin määrää yleisemmin.
On oletettavaa, että jonkin algoritmin tai ohjelman, johon tuo algoritmi on ohjelmoitu, ajoaika riippuu syötteen koosta. Esimerkiksi, jos halutaan verrata kahta
DNA- tai aminohapposekvenssiä toisiinsa, syötetään sekvenssit jonkin algoritmin,
kuten Smith-Watermanin algoritmi, käsiteltäväksi. Algoritmin vaatima ajoaika on
sitä pidempi, mitä pidempiä sekvenssejä käytetään syötteenä. Sama asia voidaan
ilmaista formaalisti seuraavasti. Merkitään syötteen kokoa N:llä. N voi olla esimerkiksi verrattavien DNA-sekvenssien yhteenlaskettu pituus. Nyt algoritmin vaatima ajoaika voidaan ilmaista tarkasti syötteen koon perusteella: ajoaika voi riippua
syötteen koosta esimerkiksi lineaarisesti (N) tai eksponentiaalisesti (N 2 ) tai jollakin muulla tavalla. Jos kaksi algoritmia tekee saman asian, mutta toinen käyttää
vähemmän ajoaikaa N:n avulla ilmaistuna, sanotaan nopeampaa ohjelmaa toista
tehokkaammaksi.
Toisinaan algoritmin vaatimasta ajoajasta käytetään ilmaisua O(N). Yleensä
voidaan olettaa, että ajoaika on tuolloin lineaarisesti suhteessa syötteen kokoon,
mutta tarkkaan ottaen merkinnällä tarkoitetaan pisintä mahdollista ajoaikaa. Tämä
tarkoittaa, ettei ajoaika ikinä ylitä k N:ää, millä tahansa vakion k:n arvolla. Saattaa
olla, että tällaisissa tapauksissa keskimääräinen ajoaika on lyhyempi kuin pahimmassa tapauksessa, mutta näin ei välttämättä ole. Esimerkiksi Smith-Watermanin
algoritmi vaatii kahden sekvenssin rinnastusta varten O(N 2 ) ajoaikaa. Toisin sanoen, algoritmin vaatima ajoaika on suhteessa sekvenssien pituuksien neliöön (tarkkaan ottaen N on tässä erikoistapauksessa pidemmän sekvenssin pituus). BLASTja FastA-algoritmit tekevät saman asian kuin Smith-Watermanin algoritmi ja vieläpä pahimmassa tapauksessa samassa ajassa O(N 2 ). Keskimäärin BLAST:in FastA:n ajoaika on kuitenkin huomattavasti lyhyempi kuin pahimmassa tapauksessa.
24
Bioinformatiikan perusteet
BLAST onkin Smith-Watermania huomattavasti suositumpi algoritmi juuri keskimäärin lyhyemmän ajoaikansa vuoksi.
2.4 Kuinka paljon muistia ohjelma vaatii?
Ohjelman tai algoritmin tilantarve mitataan paljolti samalla tavoin kuin ajoaikakin:
tilantarve ilmoitetaan useimmiten syötteen koon (N) funktiona. Tämä on järkeenkäypää, sillä mitä suurempi syöte ohjelmalle annetaan, sitä enemmän tietokoneen
keskusmuistia ongelman ratkaiseminen kuluttaa. Esimerkiksi, Smith-Watermanin
algoritmi muodostaa rinnastettavista sekvensseistä N ∗ M -matriisin, jossa N ja M
ovat rinnastettavien sekvenssien pituudet. Algoritmin tilantarve on siten O(N M).
Jokaiseen taulukon soluun liittyy numero ja vektori, joka ilmoittaa mistä solusta ko.
taulukon soluun saavuttiin. Tämä vie muutamia (3–4) tavuja tietokoneen keskusmuistia. Nykyisissä tietokoneissa on tyypillisesti 256–512 Mb (256000000 bittiä)
keskusmuistia. Yksi tavu vastaa laskennallisesti kahdeksaa bittiä, joten teoriassa
tietokoneen muistiin mahtuu 8–16 miljoonan solun tiedot. Käytännössä käyttöjärjestelmä, joka ohjaa tietokoneen toimintaa, ja sen oheisohjelmat kuluttavat helposti
100 Mb keskusmuistia, ja ohjelmien käyttöön jää loppuosa. Siten 256 Mb:n muistilla varustetulla tietokoneella on mahdollista rinnastaa Smith-Watermanin algoritmia
käyttäen kaksi noin 2 200 nukleotidia pitkää DNA-sekvenssiä.
Smith-Waterman algoritmin mainittiin kuluttavan O(N M) verran tilaa. Algoritmi on mahdollista sovittaa tilaan O(N) nerokkain ohjelmallisin ratkaisuin. Tällöin ajoaika kuitenkin likimain kaksinkertaistuu. Usein ajoajan ja tilantarpeen välillä vallitseekin vastaavanlainen yhteys, ja ainoastaan toinen voidaan kerrallaan minimoida. Ilmaiseen EMBOSS-ohjelmistopakettiin sisältyvä ohjelma water sisältää
perinteisen Smith-Waterman algoritmin. Ohjelma matcher puolestaa sisältää version, joka käyttää vähemmän keskusmuistia, mutta on hitaampi suorittaa.
2.5 NP-ongelmat
Jotkut ongelmat ovat laskennallisesti hyvin raskaita, ja nykyisin tietokoneita käyttäen niiden selvittäminen veisi äärettömästi aikaa. Tällaisia ongelmia kutsutaan
NP-ongelmiksi. Tietojenkäsittelijät ovat yrittäneet ratkoa tällaisia ongelmia jo vuosikausia, mutta parhaatkin algoritmit vievät syötteen kokoon suhteutettuna vähintään eksponentiaalisesti aikaa (2 N ). NP-ongelmia ei tällä hetkellä voida ratkaista
lyhyemmässä ajassa, lukuunottamatta niitä erikoistapauksia, joissa N on suhteellisen pieni. Vaikkei tarkkaa ratkaisua NP-ongelmiin voidakaan löytää, voidaan usein
käyttää algoritmeja, jotka antavat likimääräisen ratkaisun. Näin löydetty ratkaisu
ei kenties ole kaikkein paras mahdollinen, mutta nykyisiä työkaluja käyttäen paras
saavutettavissa oleva ratkaisu.
Useimmat laskennallisesti tärkeät ongelmat bioinformatiikassa näyttävät kuuluvan NP-ongelmien ryhmään. Tällaisia ovat esimerkiksi useiden sekvenssien rinnastaminen, fylogeneettisten puiden muodostaminen muun muassa parsimonia-menetelmää
käyttäen ja proteiinien laskostumisen ennustaminen. Kaikkin näihin on löydetty likimääräisiä ratkaisuja, joita ongelmien ratkaisuun voidaan suhteellisen menestyksekkäästi käyttää.
Fylogenetiikassa pyritään kuvaamaan eliöiden evoluutiohistoriaa puukaavion
avulla. Keskeisenä ideana löytää sellainen puu, jossa on tapahtunut minimimäärä muutoksia ominaisuuksista toisiksi. Jotta tällainen lyhyin mahdollinen puu löydettäisiin, pitäisi tarkastella kaikki mahdolliset puut. Jos tutkittavien lajien määrä
suhteellisen pieni, esimerkiksi alle 15, voidaan näin menetellä. Puiden lukumäärä
kuitenkin kasvaa hyvin nopeasti lajien määrän kasvaessa, eikä suuremmilla lajimäärillä kaikkia mahdollisia puita voida käydä läpi. Niinpä puun muodostaminen
onkin NP-ongelma, jonka ratkaisemiseksi on kehitetty useita likimääräisiä (heuris-
2
Laskennallisen biologian perusteet
25
tisia) menetelmiä.
Toinen hyvin tunnettu, ja usein esimerkkinä käytetty ongelma, on kauppamatkustajan ongelma (the travelling salesman problem). Ideana on, että kauppamatkustajan täytyy käydä matkallaan N:ssä kaupungissa siten, että hän aloittaa ja lopettaa matkansa samaan kaupunkiin. Koska kaupparatsu joutuu kuluttamaan omia
kengänpohjiaan matkallaan, hän haluaa löytää mahdollisimman lyhyen reitin. Ongelman tunnettu ratkaisu on algorimi, joka löytää ratkaisun ajassa 2 N . Muutamien
kaupunkien tapauksessa ongelma ei ole vaikea, mutta jo 60 kaupungin kohdalla
mahdollisia reittejä on 2 60 = 1,15 * 10 15 kappaletta. Nykyiset tietokoneet pystyvat
helposti kokeilemaan noin 10 000 000 ratkaisua sekunnissa. Kaikkien ratkaisujen
läpikäyminen vaatisi siis likimain 3 500 vuotta! Kauppamatkustajan ongelma on
siinä mielessä mielenkiintoinen poikkeustapaus, että ongelmaan tunnetaan nopea
ratkaisu: DNA-tietokone, jossa eri kaupunkeja vastaavat DNA-pätkät saavat hybridisoitua keskenään, ja paras ratkaisu saadaan selville elektroforeesin jälkeen (Adleman, 1994, 1998).
2.6
Rinnakkaislaskenta
Rinnakkaislaskennalla tarkoitetaan sitä, että tiettyyn ongelmaan liittyvä laskenta
jaetaan useammalle kuin yhdelle tietokoneelle tai prosessorille. Tavanomainen tietokone suorittaa laskennan peräkkäislaskentana: Seuraava ajo käynnistyy, kun edellinen on loppunut. Rinnakkaislaskennassa sama ajo pyörii yhtäaikaa usemmalla
tietokoneella, ja valmistuu siten nopeammin kuin jos ajoon olisi käytetty vain yhtä tietokonetta. Esimerkiksi yllä mainittu 60 kaupunkia koskeva kauppamatkustajan ongelma voidaan ratkaista vuodessa, jos käytössä on 3500 rinnakkaislaskentaan
soveltuvaa tietokonetta.
Käytännössä rinnakkaislaskenta toimii nykyisin useimmiten Linux-käyttöjärjestelmällä
toimivista PC-koneista (jokaisessa yksi prosessori), jotka on koottu yhteen niin sanotuksi klusteriksi. Jokainen klusteriin liitetty PC-kone on yksi solmu ("noodi"). Siten klusteri koostuu useista solmuista. Toinen rinnakkaislaskentaan soveltuva vaihtoehto on supertietokone, jossa on saman kuoren sisään rakennettuna useita prosessoreita, tyypillisesti 32 - 512.
Rinnakkaislaskennan ydinajatuksena on yksinkertaistaen se, että samaan ongelmaan liittyvä ajo jaetaan usemmalle kuin yhdelle prosessorille laskettavaksi, jolloin suuriakin ongelmia saadaan ratkaistuksi järkevässä ajassa. NP-ongelmille tämä tarkoittaa esimerkiksi, että suurempi ongelma voidaan ratkaista tarkasti tai että
vieläkin suurempaan ongelmaan saadaan likimääräinen vastaus tavanomaista nopeammin.
Nykyisin klusterit ovat varsin suosittuja, koska PC-tekniikka on halpaa. Supertietokoneet ovat tietyissä laskentatehtävissä klustereita tehokkaampia, mutta ne
ovat vastaavasti paljon klustereita kalliimpia. Toisaalta, varsinkin suuren klusterin
ylläpitäminen vaatii huomattavasti enemmän käsitöitä kuin supertietokoneen, sillä
tyypillisesti klusteriratkaisuissa on paljon enemmän rikkoutumiselle altista tekniikkaa kuin supertietokoneissa. Tänä johtuu yksinkertaisesti muun muassa siitä, että
jokaisessa klusterin koneessa on oma kovalevy ja virtalähde, jotka voivat käytössä
rikkoutua. Supertietokoneessa nämä voivat olla koko koneen yhteisiä, ja niitä on
lukumääräisesti vähemmän, joten rikkoutuvia osia on siten vastaavasti vähemmän.
2.7
Dynaaminen ohjelmointi
Dynaaminen ohjelmointi (dynamic programming) tai dynaaminen optimointi toistuu kerta toisensa perään bioinformatiivisessa kirjallisuudessa. Dynaaminen ohjelmointi juontaa juurensa 1950-luvulle, jolloin tietokoneohjelmien kirjoittaminen ei
ollut jokapäiväistä rutiinia. Dynaamisella ohjelmoinnilla ei nimittäin ole mitään te-
26
Bioinformatiikan perusteet
kemistä varsinaisen ohjelmoinnin kanssa, vaan se on eräs optimointimenetelmä.
Tästä eteenpäin menetelmästä käytetäänkin nimeä dynaaminen optimointi.
Dynaamista optimointi käytetään tyypillisesti erilaisten hakuongelmien, kuten
sekvenssirinnastuksen, ratkaisuun. Kaikkien dynaamista optimointia käyttävien algoritmien taustalla on sama periaate. Suurempi ongelma jaetaan useiksi pienemmiksi ongelmiksi, jotka ratkaistaan erikseen ja lopuksi yhdistetään, jolloin alkuperäinen suurempikin ongelma tulee ratkaistuksi. Optimointi tarkoittaa sitä, että jokin
ongelma pyritään ratkaisemaan mahdollisimman tarkasti, optimaalisesti.
Dynaamisen optimoinnin ideaa valottanee seuraava esimerkki. Oletetaan, että haluamme löytää mahdollisimman lyhyen reitin Helsingin ja Tampereen välille.
Koska matkassamme on yksi jos toinenkin kapsäkki, haluamme mieluiten käyttää
autoa, joten reitin pitää noudatella autoteitä. Kaupunkien välisiä etäisyyksiä hahmottamme tavanomaisella kartalla, johon on merkitty kaikkien kaupunkien väliset
etäisyydet. Lisäksi laadimme taulukon, jossa kaikki suoraan toisiinsa yhteydessä
olevien kaupunkien välimatkat on ilmoitettu. Löytääksemme Helsingin ja Tampereen välisen etäisyyden, voimme pilkko ongelman kahteen osaan: etsitään lyhyin
etäisyys Helsingistä Hämeenlinnaan ja Hämeenlinnasta Tampereelle. Tässä suurempi ongelma (Helsinki-Tampere) on pilkottu kahdeksi pienemmäksi osaongelmaksi (Helsinki-Hämeenlinna + Hämeenlinna-Tampere). Kun kapunkien etäisyydet Hämeenlinnasta on selvitetty, saadaan Helsingin ja Tampereen välinen etäisyys
selville laskemalla etäisyydet yhteen.
Ongelmat, jotka voidaan jakaa itsenäisiin, yksinään ratkaistaviin osaongelmiin, voidaan helposti rinnakkaistaa. Rinnakkaistaminen tarkoittaa sitä, että ohjelma tai algoritmi kirjoitetaan sellaiseen muotoon, että sen ratkaisemiseen voidaan
käyttää rinnakkaislaskentaa. Eräs esimerkki dynaamisen optimoinnin soveltamisesta bioinformatiikassa on Smith-Watermanin algoritmi kahden sekvenssin rinnastamiseksi.
3
Esiteltävien menetelmien sovellusalueet
3
3.1
27
Esiteltävien menetelmien
sovellusalueet
Miksi esimerkkejä?
Seuraavassa esitellään muutamien kirjassa esiteltävien menetelmien sovellusalueita ja mainitaan joitakin ohjelmia tai ohjelmistoja, joiden avulla menetelmiä voidaan soveltaa. Luvun lopuksi annetaan konkreettinen biologinen esimerkki SARSepidemian analysoinnista bioinformatiikan menetelmiä soveltaen.
3.2
Sekvenssien hankkiminen
Nykyisin biologisista sekvenssitietokannoista, kuten Genbank/EMBL, löytyy jo
varsin suuri valikoima sekvenssejä erilaisista eliöistä. Tällä hetkellä Genbank-tietokannasta
löytyy vähintää yksi sekvenssi jo yli 100 000 erilaisesta eliöstä. Joitakin eliöitä, kuten ihminen ja kana, on jo kokonaan sekvensoitu, ja niiden genomi on saatavilla
tietokannoista. Siten, helpoin tapa hankkia tutkimuksessa tarvittava sekvenssi onkin etsiä se sopivasta tietokannasta. Kaikkia mahdollisia sekvenssejä ei tietenkään
ole saatavilla, jolloin joudutaan palaamaan laboratorioon ja sekvensoimaan haluttu
eliön perimän osa.
Sekvenssejä voi etsiä tietokannoista monella eri tavalla. Haku kannattanee
aloittaa asiasanahaulla, jossa tietokannasta voidaan etsiä esimerkiksi kaikki ihmisen tRNA-geenit. Kun saatujen tulosten joukosta on valittu halutut geenit, voidaan
niillä vielä sekvenssivalikoiman laajentamiseksi tehdä haku tietokantaan BLASTtai FastA-ohjelmaa käyttäen. BLAST- ja FastA-ohjelmia käytetään siis, jos tietokannasta halutaan etsiä tunnetun sekvenssin kaltaisia sekvenssejä esimerkiksi eri
eliöistä.
Yhdysvaltojen biotekniikan informaatiokeskuksen NCBI:n sivuilla on mahdollista tehdä hakuja moniin tietokantoihin: http://www.ncbi.nlm.nih.gov. Euroopassa samanlaisia palveluja tarjoaa Euroopan bioinformatiikan keskus EBI: http:
//srs.ebi.ac.uk.
3.3
Sekvenssien ominaisuuksien selvittäminen
Jatkoanalyyseja varten on monesti tarpeen tuntea sekvenssin ominaisuudet tarkemmin. Useimmat tietokannat kertovat sekvenssistä perustiedot, kuten sen pituuden
tai molekyylipainon. Näiden lisäksi tietokannoissa on useimmiten tietoa myös sekvenssien sekundäärirakenteista, kuten proteiinimotiiveista tai DNA:n toiminnallisista osista, kuten introni-eksoni rajapinnoista.
Tämän lisäksi voi olla tarpeen selvittää esimerkiksi restriktioentsyymien katkaisukohtia, DNA-sekvenssin GC% (guaniini- ja sytosiininukleotidien suhteellinen
määrä) tai promoottorialueen alkukohdan selvittäminen. Lisäksi voi olla mielenkiintoista tarkastella esimerkiksi geenin vaihtoehtoisia silmukointimuotoja tai gee-
28
Bioinformatiikan perusteet
nin ekspressiota säätelevien antisense-RNA-molekyylien tunnistaminen.
Monia yllämainittuja analyysejä varten on jo kehitetty valmiita työkaluja, joita
löytyy esimerkiksi ilmaisesta EMBOSS-ohjelmistokokoelmasta. EMBOSS-ohjelmistoja
voi käyttää esimerkiksi osoitteessa http://bioweb.pasteur.fr/intro-uk.html.
3.4 Kahden sekvenssin rinnastus
Parittaisen sekvenssirinnastuksen avulla voidaan helposti selvittää, mitkä osat kahdessa sekvenssissä ovat keskenään samankaltaisia ja millaisia evolutiivisia muutoksia kahdessa sekvenssissä on mahdollisesti tapahtunut. Rinnastuksella voidaan selvittää esimerkiksi sekvenssikohdat, joissa on tapahtunut mutaatioita, insertioita tai
deleetioita. Lisäksi parittaisen rinnastuksen avulla voidaan selvittää, onko sekvensseissä tapahtunut kääntymiä (inversioita) tai onko sekvensseissä kopiojaksoja.
Kahden sekvenssin rinnastukseen käytettävät menetelmät voidaan jakaa kolmeen pääluokkaan, pistematriisimenetelmään, sanakokomenetelmään ja dynaamiseen algoritmiin perustuvat menetelmät. Pistematriisimenetelmin on helppo saada
visuaalinen kuva rinnastuksesta ja siten etsiä esimerkiksi kääntymiä. Kääntymien
löytäminen ja huomioiminen on tärkeää, sillä ne eivät linjaudu oikein esimerkiksi
dynaamista algoritmia käyttäen tai usean sekvenssin rinnastuksissa. Siksi lieneekin
syytä tarkistaa tuntemattomat sekvenssit pistematriisimenetelmällä ennen tarkempien menetelmien soveltamista.
Sanakokoon perustuvin menetelmin sekvenssit voidaan rinnastaa hyvin nopeasti, muttei kovinkaan tarkasti. Esimerkiksi sekvenssihaut tietokannoista soveltavat sanakokoon perustuvia menetelmiä. Dynaamisella algoritmilla saadaan tiettyä asetuksia käyttäen aina tuotettua kahden sekvenssin välinen paras mahdollinen
rinnastus, mutta rinnastuksen muodostaminen kestää pidempään kuin muilla menetelmillä.
Kahden sekvenssin rinnastus voidaan muodostaa esimerkiksi EMBOSS-ohjelmistopaketin
työkaluilla tai ClustalX-ohjelmaa käyttäen. Clustal:ssa on mahdollista muodostaa rinnastus sanakokomenetelmää ja dynaamista algoritmia käyttäen. Clustal- ja
EMBOSS-ohjelmia on mahdollista käyttää esimerkiksi osoitteessa http://bioweb.
pasteur.fr/intro-uk.html.
3.5 Usean sekvenssin rinnastus
Usean sekvenssin rinnastuksella on monia käyttötarkoituksia. Sen avulla voidaan
esimerkiksi selvittää yhtäaikaisesti useiden sekvenssien keskinäinen samankaltaisuusaste. Vaikka samaan tulokseen päästään parittaisilla rinnastuksillakin, voidaan
usean sekvenssin rinnastuksesta helpommin hahmottaa esimerkiksi kokonaista proteiiniperhettä luonnehtivia konservoituneita alueita. Monet proteiiniperheiden ja
motiivien tai domeenien selvittämiseen kehitetyt menetelmät ja tietokannat, kuten
PRINTS ja PROSITE, perustuvatkin usean sekvenssin rinnastuksen antamien tietojen soveltamiseen. Konservoituneet alueet vastaavat usein proteiinien toiminnallisia
alueita, joten näiden alueiden vertaaminen proteiinin kolmiulotteiseen rakenteeseen
voi antaa mielenkiintoista lisäinformaatiota proteiinin toiminnasta.
Usean sekvenssin rinnastuksen perusteella voidaan konservoitumisen lisäksi
päätellä myös sekvenssialueet, joilla esiintyy vaihtelua. Tällöin mielenkiinto keskittyy usein esimerkiksi väestötutkimuksissa sellaisten alueiden tai sekvenssikohtien löytämiseen, joilla esiintyy yhden nukleotidin vaihtelua (SNP) tai mahdollisia
tautimutaatioita. Tällaisia muutoksia kartoitettaessa verrataan useiden eri geenien
sekvenssien sijaan saman geenin sekvenssejä, jotka on selvitetty useilta eri yksilöiltä.
Usean sekvenssin rinnastuksilla on myös keskeinen sijan evolutiivisissa tutkimuksissa (molekyylisystematiikassa), joissa jatkoanalyysit, esimerkiksi evoluutio-
3
Esiteltävien menetelmien sovellusalueet
29
historian tai virusepidemian selvittäminen, perustuvat sekvenssien rinnastukseen.
Molekyylisystematiikan antamat tulokset ovat suoraan riippuvaisia rinnastuksen
hyvyydestä, ja siihen tulisikin kiinnittää erityistä huomiota. Rinnastuksen laatua
voidaankin arvioida ennen jatkoanalyysejä esimerkiksi sen konservoitumisastetta
tai sekvenssiä vastaavaa tunnettua proteiinirakennetta käyttäen.
Usean sekvenssin rinnastusta varten on olemassa useita erilaisia menetelmiä
ja ohjelmistoja. Nykyisistä menetelmistä progressiivinen rinnastus on osoittautunut kaikkein tarkimmaksi ja "hinta-laatu-suhteeltaan parhaaksi. Suosituin rinnastustyökalu lienee edelleen Clustal, mutta kaikkein tarkimmaksi on viime aikoina
osoittautunut Muscle. Clustalia voi käyttää esimerkiksi Pasteur Instituutissa (http:
//bioweb.pasteur.fr/intro-uk.html), ja Musclen käyttöliittymä löytyy osoitteesta http://phylogenomics.berkeley.edu/cgi-bin/muscle/input_muscle.
py.
3.6
Molekyylisystematiikka
Perinteisesti systematiikan tarkoituksena on ollut selvittää eliöiden evoluutiohistoriaa. Molekyylisekvenssien selvittämisen helpotuttua on molekyylisystematiikka pitkälti korvannut perinteisen systematiikan. Erona on vain se, että kun morfologisiin piirteisiin turvautuva systematiikka selvittää eliöiden evoluutiosuhteita,
kykenee molekyylisystematiikka selvittämään ainoastaan tutkittujen geenien evoluutiohistoriaa. Molekyylisystematiikan menetelmien sovellukset eivät kuitenkaan
rajoitu systematiikkaan ja taksonomiaan, vaan ovat huomattavasti laajemmat. Itseasiassa suuri osa tutkimuksista, joissa menetelmiä käytetään ei ensisijaisesti pyri
selvittämään eliöiden luokittelua.
Muina sovelluskohteina voidaan mainita esimerkiksi molekyyliepidemiologia,
jossa pyritään selvittämään esimerkiksi virusten aiheuttamien epidemioiden syntymistä ja etenemistä. Molekyyliepidemiologian sovellukset voivat liittyä myös
oikeuslääketieteeseen sikäli, että esimerkiksi HIV-epidemioiden ja pernaruttokirjeiden alkuperää on selvitetty menetelmiä käyttäen. Menetelmiä voidaan soveltaa
myös esimerkiksi geeniperheiden evoluution tutkimukseen, luonnonsuojelubiologiassa (esimerkiksi lajirikkaustutkimukset) ja populaatiogenetiikassa (esimerkiksi
ihmislajin kehitys ja leviäminen maapallolla).
Pasteur Instituutti (http://bioweb.pasteur.fr/intro-uk.html) tarjoaa mahdollisuuden käyttää monia molekyylisystematiikan ohjelmistoja.
3.7
SARS-epidemian selvittäminen
SARS (severe acquired respiratory syndrome) puhkesi Guangdong-maakunnassa
Hong Kongin lähistöllä loopuvuodesta 2002, ja levisi Hong Kongin kautta kulkeneiden liikemiesten ja turistien mukana ympäri maailmaa. Epidemia sai ilmeisesti
alkunsa, kun kiinalainen lääkäri vieraili Guangdongin maakunnassa työmatkalla ja
sai SARS-tartunnan. Hän yöpyi hongkongilaisessa hotellissa, ja tartutti sillä matkalla SARS:n muihin hotellissa yöpyneisiin matkalaisiin. Lääkärin hotellihuoneen
ulkopuolelta löydettiin myöhemmin "hot zone"(tartuntavaarallinen alue), läikkä ihmisperäistä eritettä, jossa SARS-virusten (tai ainakin nukleiinihappojen) konsentraatio oli varsin suuri. Ilmeisesti SARS siirtyi muihin hotellivieraisiin heidän käveltyään läikän läpi, ja sormeiltuaan silmiään tai nenäänsä riisuttuaan SARS-virusta
sisältäneet kenkänsä.
Aluksi SARS-epidemian epäiltiin olevan bioaseisku, mutta kun tartunnan saaneista henkilöistä otetuista näytteistä eristettyjen virusten muoto ja perimä selvitettiin, voitiin huokaista helpotuksesta - virus oli luonnollinen koronavirus, joka
oli sattunut siirtymään ihmiseen. Koska tartuntoja ei aikaisemmin ollut esiintynyt,
oli virus hypännyt lajista toiseen vastikään. Koska Etelä-Kiinassa syödään kaikkea
30
Bioinformatiikan perusteet
mikä liikkuu, esimerkiksi sivettikissoja, turvauduttiin aluksi laajamittaisiin teurastuksiin epidemian leviämisen ehkäisemiseksi.
Epidemian alussa hyvin keskeistä sen seuraamiselle oli viruksen sekvenssin
selvittäminen. Jopa viruksen perimän selvittäminen on suhteellisen työlästä, vaikkei enää viekään kovin kauaa aikaa. Viruksen sekvenssi selvitettiin aluksi Yhdysvalloissa, jossa työhön kului raporttien mukaan kokonaista viisi päivää. Aluksi perimä sekvensointiin lyhyissä pätkissä, koska sekvensointireaktio ei ole kovin tehokas, jos kerralla yritetään selvittää kovin pitkä sekvenssi. Näin saatiin luotua suuri
määrä osittain päällekkäisiä sekvenssejä, joiden perusteella koottiin viruksen koko
sekvenssi. Menetelmää, jossa sekvensoidaan satunnaisia sekvenssejä, ja niiden perusteella muodostetaan kokonainen sekvenssi, kutsutaan haulikkosekvensoinniksi
(shotgun sequencing). Sekvenssien yhdistäminen ei ole laskennallisesti kovin helppoa, ja projektista kokonainen päivä kului sekvenssipätkien yhdistelemiseen, sillä
SARS-viruksen perimä on suhteellisen suuri, kooltaan noin 30 kiloemästä.
Sekvenssipätkien selvittyä ja tultua yhdistellyiksi, selveitettiin koko perimän
avulla viruksen geenien ja niitä koodaavien aminohapposekvenssien rakenne. Tätä
vaihetta kutsutaan geenien ennustamiseksi, ja on viruksilla suhteellisen yksinkertaista, koska niiden geeneissä ei yleensä esiinny introneita. Niinpä geenit ja aminohapposekvenssit voidaankin selvittää periaatteessa transloimalla koko viruksen
perimä kaikissa mahdollisissa lukuraameissa aminohapposekvenssiksi, ja valitsemalla niistä parhaat ehdokkaat. Tämän jälkeen aminohapposekvenssejä verrattiin
tietokannoissa jo oleviin sekvensseihin BLAST-ohjelmalla, ja havaittiin, että suurin osa niistä vastaa jo tunnettujen koronavirusten sekvenssejä, eikä SARS:ssa siten
ollut mitään kummallista, eikä bioaseeseen viittaavaa.
Seuraavassa vaiheessa eri henkilöiltä otettujen näytteiden perusteella pyrittiin
seuraamaan epidemian kehittymistä ja selvittämään sen alkuperä. Epidemian selvittämiseksi virusnäytteitä kerättiin useita kymmeniltä henkilöiltä ympäri maailmaa, ja niiden koko sekvenssi selvitettiin. Tämän jälkeen fylogeneettisin menetelmin selvitettiin mitkä sekvenssit ovat toisilleen läheisempää sukua, ja siten voitiin
päätellä, mitä reittiä epidemia on minnekin levinnyt.
Seuraavassa on esitetty 32 SARS-näytteen sekvenssin perusteella muodostettu paras parsimoniapuu (Kuva 3.1). Virusnäytteet voidaan jakaa kahteen luokkaan:
sellaisiin, jotka ovat suoraan yhteydessä hongkonglaiseen hotelliin, jossa kiinalainen lääkäri yöpyi ("linked to hotel M") ja sellaisiin, joilla tällaista suoraan linkkiä ei
ole osoitettavissa ("no link to hotel M"). Tällaiset virukset voivat olla sellaisia, jotka
ovat vasta siirtyneet alkuperäisestä isäntäeliöstään ihmiseen. Puun perusteella näyttää siltä, että epidemia sai alkunsa Hong Kongista tai Gunagdong-maakunnasta,
ja siirtyi sieltä muualle. Tämä voidaan päätellä siitä, että kiinalaiset SARS-kannat
ovat lähinnä puun juurta. Lisäksi esimrkiksi Frankfurtista eristetty kanta on läheistä
sukua Singaporen kannoilla (Sin2677 ja Sin2774), joten Saksaan virus on todennäköisesti kulkeutunut Singaporesta.
Eri viruskantojen välillä havaittiin myös huomattavia eroja kuolleisuudessa.
Kannoilla, joilla on suora liittymä hotelliin M, on muita kantoja suurempi kuolleisuus. Jos tutkitaan kuvaan 160105-2 eri kuolleisuusryhmiin kuuluvien SARSvirusten sekvenssejä, havaitaan, että kutakin ryhmää karakterisoi aivan tietty mutaatioiden kirjo (Taulukko 3.2).
Taulukon 3.2 perusteella voidaan päätellä, että viruksen pintaproteiinissa (S)
olevat mutaatiot voisivat selittää, miksi eri ryhmiin kuuluvilla viruksilla on toisistaan eroava kuolleisuus. Erot voisivat selittyä esimerkiksi sillä, että eri mutaatiot sisältävät virukset sitoutuvat isäntäsolun reseptoriin eri tehokkuuksilla, eivätkä kaikki viruskannat siten aiheuta yhtä pahaa infektiota, eivätkä myöskään johda yhtä
suurella todennäköisyydellä potilaan kuolemaan.
Viruksen alkuperää selvitettäessä kerättiin näytteitä myös muista lajeista kuin
ihmisestä, ja jälleen fylogeneettisiä menetelmiä käyttäen muodostettiin virusten
evoluutiota kuvaava puu. Tällöin havaittiin, että kaikilla ihmisestä kerätyillä SARSvirsukannoilla on tismalleen sama 29 bp:n deleetio, jota muilla lajeilla ei esiin-
3
Esiteltävien menetelmien sovellusalueet
31
Kuva 3.1: SARS-viruksista muodostettu parsimoniapuu. Puuhun on merkitty eri virusryhmiin liittyvä kuolleisuus ja se, voidaanko viruksen alkuperä johtaa suoraan hongkongilaiseen hotelliin.
Kuva 3.2: Kuvassa 3.1 eri kuolleisuusryhmiin kuuluvien SARS-viruskantojen mutaatiokirjot.
32
Bioinformatiikan perusteet
ny. Tämä deleetio puuttui myös yhdeltä ihmiskannalta, ja kyseisen kannan ajateltiin olevan peräisin ensimmäisestä ihmisestä, jonka virus on infektoinut. SARSviruksen alkuperää ei ole pystytty aukottomasti osoittamaan, mutta sivettikissoista
ja supikoirista eristetyt sekvenssit sijoittuvat puussa kaikkein lähimmäksi ihmisen
SARS-virusten sekvenssejä.
Tutkimuksissa on myös havaittu, että ihmisen SARS-viruksella on rekombinattinen polymeraasi. Tämä on selvitetty siten, että on verrattu polymeraasigeenin
alkupään ja loppupään perusteella muodostettuja puita, ja havaittu, etä ne tuottavat erilaiset puut. Puissa nimittäin ihmisen SARS-viruksen polymeraasin alkupää
sijoittuu tunnettujen koronavirusten joukossa eri kohtaan kuin polymeraasin loppupää. Tämä kertoo, että jossakin vaiheessa SARS-viruksen evoluutiota ainakin kaksi
eri SARS-virusta on vaihtanut keskenään osia perimästään.
Koska joidenkin muiden koronavirusten muodostamien proteiinien kristallirakenteita jo tunnettiin, mallitettiin tiettyjen SARS:n proteiinien rakennekin varsin
nopeasti. Jos SARS-epidemiasta olisi tullut maailmanlaajuinen epidemia (pandemia), oltaisiin potilaita kenties voitu hoitaa tehokkaasti, sillä molekyylimallituksen avulla kyettiin ripeästi osoittamaan joitakin kenties SARS:ia vastaan tehokkaita proteinaasi-inhibiittoreita, joita oltaisiin voitu käyttää myös hoidoissa. Inhibiittoreien käyttö perustuu siihen, että ne estävät viruksen lisääntymisen soluissa.
Lisäksi esimerkiksi pintaproteiinien mallituksen avulla selvitettiin alueet, jotka olisi viisainta valita kohdealueiksi mahdollista SARS-rokotetta kehitettäessä.
Koska epidemia kuitenkin eteni nopeasti, ei rokotetta olisi ehkä ehditty kehittää,
mutta samoja pintaproteiinin rakenteita vastaan oltaisiin voitu kehittää vasta-aineita,
jotka sitoutuessaan virukseen olisivat puolestaan estäneet viruksen sitoutumisen
isäntäsoluun ja siten myös taudin kehittymisen.
Koska SARS sijoittui jo ennalta tunnettujen koronavirusten joukkoon, voitiin
tutkimuksissa tehokkasti hyödyntää bioinformatiikan menetelmiä. Juuri vastaavankaltaisissa tilanteissa vapaasti saatavilla olevat genomisekvenssit ovatkin osoittaneet vahvuutensa. Virologiassa postgenomista aikakautta onkin eletty jo reilun vuosikymmenen, kun korkeampien eliöiden tutkimuksessa ollaan vasta hiljalleen pääsemässä samalle tasolle.
SARS-tutkimuksessa on jouduttu soveltamaan monia seuraavassa esiteltäviä
menetelmiä. Monet tutkimuksessa sovelletut menetelmät, kuten molekyylimallitus
eivät valitettavasti edes ole mahtuneet tämän kirjan kansien väliin, mutta toivottavasti tämä luku on hahmottanut lukijalle hieman sitä, mihin eri menetelmiä voidaan
käyttää, ja miten niitä voidaan soveltaa.
Osa II
Sekvenssianalyysi
34
4
Bioinformatiikan perusteet
Sekvensointi ja
DNA-sekvenssit
4.1 Sekvensointi
Proteiini- ja DNA-sekvenssejä kerätään sekvensoimalla. Sekvenssi on joukko peräkkäisiä, sovitun aakkoston merkkejä, joilla kuvataan millaisessä peräkkäisessä
järjestyksessä aminohapot ovat proteiinissa tai emäkset DNA-rihmassa. DNA-sekvenssi
kuvataan useimmiten neljää emästä kuvastavien koodien A (adeniini), C (sytosiini),
G (guaniini) ja T (tymidiini) avulla. Lisäksi käytössä on muutamia erikoismerkkejä,
kuten N, joka tarkoittaa mitä tahansa emästä. Aminohapposekvenssejä kuvataan 20
merkistä koostuvalla aakkostolla. Sekä DNA- että aminohapposekvensseissä käytetyt koodit on lueteltu Taulukossa 4.1.
Nykyisin sekvensoidaan useimmiten DNA:ta, sillä sitä varten on kehitetty suhteellisen yksinkertaisia, nopeita ja halpoja (noin 0,17 euroa / emäs) menetelmiä.
Tarvittaessa DNA-sekvenssi voidaan kääntää aminohapposekvenssiksi, eikä proteiinien sekvensointi ole enää välttämättä tarpeen. Tosin, jos halutaan esimerkiksi
selvittää millaista vaihtoehtoisen silmukoinnin (alternative splicing) aiheuttamaa
pituusvaihtelua saman geenin tuottamissa proteiineissa esiintyy, voi olla tarpeen
tutustua myös yksittäisten proteiinimolekyylien sekvensseihin.
DNA:n sekvensointi hoidetaan useimmiten automaattisilla sekvensaattoreilla. Ennen näytteiden syöttämistä sekvensaattoriin, tehdään yksi sekvensointireaktio kutakin näytettä kohden. Sekvensointireaktiossa DNA-polymeraasi jatkaa lyhyttä DNA-aluketta käyttäen näyte-DNA:ta mallina periaatteessa samaan tapaan
kuin normaalisti DNA:n kahdentuessa soluissa. Sekvensointireaktio on siis hyvin
samankaltainen kuin tavanomainen PCR-reaktio. Tärkeimpänä erona on, että sekvensoinnissa käytetään vain yhtä aluketta, ja tavallisten deoksinukleotidien lisäksi reaktiossa on mukana dideoksinukleotideja. Dideoksinukleotideista puuttuu yksi OH-ryhmä molekyylin 3’-päästä. Tällaisen nukleotidin sattuessa kahdentuvan
DNA-juosteen päähän, reaktio pysähtyy.
Eri emäksiä vastaavat dideoksinukleotidit on leimattu fluoresoivilla väreillä.
Sekvensaattori erottelee syntyneet DNA-juosteet koon mukaan, ja selvittää, mikä
on kunkin DNA-juosteen viimeisen emäksen väri. Tietokone muuttaa värien voimakkuudet elektroferogrammiksi (Kuva 4.1), ja kääntää sen sekvenssiksi.
Jokainen elektroferogrammin huippu vastaa yhtä nukleotidia. Usein jokaiselle nukleotidille annetaan luotettavuusarvo, joka ilmoittaa todennäköisyyden, että
nukleotidi on tulkittu elektroferogrammista oikein. Yleensä säästetään ainoastaan
tekstimuodossa oleva sekvenssi, mutta esimerkiksi perimän monimuotoisuutta tutkittaessa myös elektroferogrammin säilyttämisestä voi olla hyötyä.
4.2 Yleiset sekvensointivirheet
Sekvensaattorit tuottavat sekvensseihin yleensä paljon virheitä. Jotta valmiista sekvensseistä saadaan poistettua menetelmällisistä syistä johtuvat virheet, pitää se-
4
Sekvensointi ja DNA-sekvenssit
35
Kuva 4.1: Applied Biosystems:in ABI Prism 377 -sekvensaattorin tuottaman elektroferogrammi. Kuvan alaosassa näkyvän käyrästön huiput vastaavat yksittäisiä nukleotideja.
Nukleotidisekvenssi näkyy kuvassa ylimpänä. Kuva on tuotettu BioEdit-ohjelman mukana
tulleesta sample.abi-tiedostosta mainitulla ohjelmalla.
Taulukko 4.1: DNA- ja aminohapposekvenssien koodit ja niiden merkitykset.
Merkki
A
B
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
X
Y
Z
Emäs
a, adeniini
ei a
c, sytosiini
ei c
g, guaniini
ei g
g tai t
a tai c
mikä tahansa
a tai g
c tai g
t, tymidiini
ei t
a tai t
c tai t tyrosiini
Aminohappo
alaniini
asparagiini
kysteiini
aspartaatti
glutamaatti
fenyylialaniini
glysiini
histidiini
isoleusiini
lysiini
leusiini
metioniini
asparagiini
proliini
glutamiini
arginiini
seriini
threoniini
valiini
tryptofaani
mikä tahansa
Tyr
glutamaatti
Aminohappolyhenne
Ala
Asx
Cys
Asp
Glu
Phe
Gly
His
Ile
Lys
Leu
Met
Asn
Pro
Gln
Arg
Ser
Thr
Val
Trp
Xaa
Glx
36
Bioinformatiikan perusteet
kvenssiä tarkastella silmämääräisesti.
Useimmiten sekvenssin alussa on pitkähkö (40-100 bp) sekvenssialue, jolla
sekvenssi on epäluotettavaa (Kuva 4.2). Tällaisen alueen tunnistaminen on helppoa,
sillä elektroferogrammissa alueella olevat huiput eivät erotu toisistaan selkeästi,
värien intensiteetti on alhainen ja tulkittu sekvenssi sisältää monia mitä tahansa
emästä (N) tarkoittavia merkkejä.
Toinen helposti tunnistettava sekvensointiongelma liittyy sekvenssin loppupäähän. Pitkän sekvenssin loppupäässä yksittäisiä emäksiä vastaavien huippujen
erottuminen toisistaan on huonoa (Kuva 4.2). Tällaisilta elektroferogrammin alueilta tulkittu sekvenssi on huonolaatuista, koska emästen laadusta ei saada täyttä varmuutta.
Sekä sekvenssin alkupäässä olevat 40-100 emästä, että sekvenssin loppupäässä
oleva alue tulee poistaa lopullisesta sekvenssistä.
Kuva 4.2: ABI:n 377-sekvensaattorin tuottama elektroferogrammi ja siitä tulkittu sekvenssi. Kuva on tuotettu BioEdit-ohjelman mukana tulleesta sample.abi-tiedostosta mainitulla ohjelmalla.
Toisinaan sekvensointireaktiossa oleva korkea taustan intensiteetti antaa vääriä
tuloksia, erityisesti jos pyritään löytämään polymorfisia kohtia (Kuva 4.3). Taustan
korkea intensiteetti on helppo tunnistaa elektroferogrammista. Normaalisti emästen aiheuttamat piikit ovat elektroferogrammissa tasaisin väliajoin. Jos voimakkaimpien piikkien välissä on ylimääräisiä piikkejä epämääräisin väliajoin, on todennäköisesti kyseessä korkean taustan aiheuttama ongelma. Keskellä sekvenssiä
esiintyviin N-merkkeihin kannattaa siis suhtautua varauksella, ja tutkia elektroferogrammia tarkasti.
Edellämainittujen sekvensointivirheiden lisäksi on hyvin yleistä, että sekvenssi sisältää kloonausvektorin (DNA-molekyyli, johon yhdistettyä kiinnostavaa sekvenssiä on monistettu bakteereissa) jäänteitä. Nämä tulisi poistaa ennen sekvenssin sijoittamista tietokantaan. On kuitenkin varsin tavallista, ettei näin tehdä. Onkin
arvioitu, että jopa 5% EMBL-tietokannan sekvensseistä on tosiasiassa kloonausvektorin sekvenssiä. Näin suuri määrä roskaa hankaloittaa muun muassa paikkan-
4
Sekvensointi ja DNA-sekvenssit
37
Kuva 4.3: Taustan korkea intensiteetti aiheuttaa näytteen tulkinnan (väärin) heterozygootiksi (nuoli). Kuva on tuotettu BioEdit-ohjelman mukana tulleesta sample.abi-tiedostosta
mainitulla ohjelmalla.
sapitävien sekvenssihakujen tekemistä tietokannoista.
Kun vähintäänkin edellämainittujen ongelmien aiheuttamat mahdolliset virheet on poistettu sekvenssistä, se voidaan tarvittaessa tallentaa julkisiin tietokantoihin.
4.3
Sekvenssin tallentaminen EMBL-tietokantaan
Sekvenssiaineiston ensisijainen tallennuspaikka on joko Eurooppalainen EMBLtai Yhdysvaltalainen Genbank-tietokanta. EMBL-, Genbank-, ja DDBJ tietokannat sisältävät tismalleen saman aineiston, joten sekvenssin lähettäminen jokaiseen
erikseen ei ole tarpeen.
Sekvenssien lähettäminen esimerkiksi Genbank-tietokantaan hoituu BankItpalvelun kautta (http://www.ncbi.nlm.nih.gov/Genbank). Genbank-tietokannan
sivuilta löytyy myös työkaluja esimerkiksi plasmidikontaminaation havaitsemiseksi ja poistamiseksi. Vastaavanlainen palvelu, nimeltään WEBIN, löytyy myös Euroopan Bioinformatiikan Instituutin sivuilta (http://www.ebi.ac.uk/embl/Submission/
webin.html). Sekä BankIt että WEBIN on tarkoitettu käytettäväksi silloin, jos tietokantaan talletetaan korkeintaan muutamia sekvenssejä eivätkä sekvenssiä koskevat tiedot ole kovin monimutkaisia. Useiden kymmenien tai satojen sekvenssien
tallentamiseen soveltuu parhaiten graafinen työkalu Sequin (Kuva 4.4), jolla voidaan lähettää sekvenssejä kaikkiin jäsentietokantoihin. Sequin on tarkoitettu käytettäväksi myös sellaisissa tapauksissa, joissa sekvenssin annotaatiotiedot ovat monimukaisia, eikä niiden syöttäminen BankIt- tai WEBIN-palvelua käyttäen onnistu.
Kun sekvenssiä viedään tietokantaan, on oltava erityisen huolellinen ja annettava mahdollisimman paikkansapitävää informaatiota, sillä annettujen tietojen päivittäminen jälkikäteen on hieman konstikasta. Päivityspyyntö on nimittäin tehtävä
tietokannan kuraattorille jokaisesta sekvenssistä erikseen, ja ainoastaan alkuperäisen sekvenssin lähettänyt henkilö saa muuttaa sitä koskevia tietoja.
EMBL-, Genbank- tai DDBJ-tietokantoihin ei tällä hetkellä hyväksytä sekvenssejä, joiden pituus on alle 50 bp:ä tai jotka ovat alukesekvenssejä. Genomiset sekvenssit tulee esittää kokonaisuudessaan, intronit mukaanlukien. Sekvenssit eivät
saa olla sekoituksia genomisesta ja lähetti-RNA-sekvenssistä, vaan puhtaasti jompaa kumpaa. Ribosomaalista-RNA:ta, siirtäjä-RNA:ta ja muista vastaavia sekvenssejä tietokantoihin hyväksytään, mutta EST- ja genomic survey (GSS) -sekvesseille
on omat tietokantansa (dbEST ja dbGSS), joihin ne tulee sijoittaa.
4.4
Sekvenssin tallentaminen omaan käyttöön
Kun sekvenssejä tallennetaan omaan käyttöön, riippuu tallennustapa käyttötarkoituksesta. Yksittäisten sekvenssien tallentamiseen käytetään erilaista tiedostomuotoa kuin esimerkiksi useiden sekvenssien rinnastusten tallentamiseen. Yhtäkaikki,
38
Bioinformatiikan perusteet
Kuva 4.4: Esimerkki Sequin-ohjelman käyttöliittymästä. Ohjelmalla on mahdollista tutkia talletettavia sekvenssejä graafisessa muodossa, ja määritellä niille monimutkaisiakin
annotaatiotietoja.
sekvenssit tulee tallentaa tekstimuodossa (flatfile).
Yleisin sekvenssimuoto, jota miltei kaikki nykyiset ohjelmat osaavat käsitellä,
on Fasta. Fasta-muotoinen sekvenssi koostuu otsikkorivistä, joka alkaa >-merkillä,
ja heti seuraavalta riviltä alkavasti sekvenssistä. Fasta-muotoa voidaan käyttää sekä
yhden että useampien sekvenssien tallentamiseen. Myös usean sekvenssin rinnastukset taipuvat tarvittaessa Fasta-muotoon.
Yhden sekvenssin tallentamiseen tarkoitettu sekvenssimuoto näyttää seuraavalta:
>hXRCC1 NM_003425.2
CCACGCGTCCGGGCTCTCTGCTGAAGGGTCAAGTGGAATCTGGAATCCAG
Usean sekvenssi tallentamiseen soveltuvassa Fasta-muodossa sekvenssit on
lueteltu peräkkäin siten, että sekvenssejä erottaa tyhjä rivi. Esimerkiksi:
>hXRCC1_1 NM_003425
CCACGCGTCCGGGCTCTCTGCTGAAGGGTCAAGTGGAATCTGGAATCCAG
>hXRCC1_2 NM_003425
AGCCATGTGAAGCTGCAGACTCCAAGCAACAGAGAGACAAGATTTAGAA
Fasta-muotoisten sekvenssien otsikkoriviä voi muotoilla mielensä mukaan, mutta sillä on hyvä säilyttää sekvenssin tunnistenumero, kuten ylläoleva NM_003425,
jolla se voidaan aina yhdistää alkuperäiseen tietokannassa olevaan sekvenssiin.
Muita sekvenssimuotoja esitellään muun muassa tietokantojen ja usean sekvenssin rinnatusmenetelmien yhteydessä.
4
Sekvensointi ja DNA-sekvenssit
4.5
39
Tietopankeissa olevien sekvenssien luotettavuus
Useimmiten sekvenssit lähetetään tietopankkiin jo ennen varsinaisen artikkelin julkaisemista, eikä sekvenssien luotettavuutta mitenkään tarkasteta ulkopuolisten tahojen toimesta. Tämä asettaa paljon vastuuta tutkijan harteille. Jokaisen tutkijan
velvollisuus onkin tarkistaa sekvensaattorin tuottaman sekvenssin luotettavuus, erityisesti jos sekvenssi on tarkoitus lähettää julkisiin tietopankkeihin. HUGO (Human Genome Organization) -projektissa sekvensseissä sallitaan yksi lukuvirhe 10 000
nukleotidia kohden. Tämä toimikoon hyvänä suuntaviivana sekvenssejä tietopankkiin lähetettäessä. Käytännössä vastaavaan tarkkuuteen pääseminen vaatii saman
sekvenssialueen lukemista noin kymmeneen kertaan.
Tietokannoista löytyy paljon sellaisia sekvenssjä, joiden luotettavuus ei ole
parhaasta päästä. Toisinaan tämä johtuu menetelmällisistä syistä. Esimerkiksi EST
(expressed sequence tags) -sekvenssit ovat usein varsin epäluotettavia ja sisältävät
monia sekvensointivirheitä, koska jokainen näyte on sekvensoitu vain kertaalleen,
jolloin sekvensseihin jää väkisinkin virheitä. Hyvin tyypillisesti EST-sekvenssit sisältävät lukukehyksen muuttamvia lukuvirheitä. EST-sekvenssejä on tietokannoissa useimmiten kuitenkin useita kappaleita, joiden huolellisella tarkastelulla useimmat lukuvirheet voidaan erottaa ja korjata.
EST-sekvenssien epäluotettavuutta pahempi ongelma on, että suuri osa, noin
4-5% tietopankeissa olevista sekvensseistä, sisältää plasmidisekvenssien jäänteitä.
Plasmidijäänteet vaikeuttavat tietopankkihakuja ja antavat suorastaan harhaanjohtavaa tietoa esimerkiksi monien geenien promoottorialueiden rakenteesta. Useimmiten plasmidisekvensseistä koituvat ongelmatkin on mahdollista ratkaista, kunhan
malttaa tutkia tietopankista hakemiaan sekvenssejä riittävän huolellisesti. Plasmidisekvenssien havaitsemiseen ja poistamiseen on myös kehitetty useita tietokoneohjelmia.
Tietokannasta haetussa sekvenssissä voi olla moniselitteisyyttä (ambiquity, Nmerkit). Ainakin sellaiset sekvenssialueet, joilla on paljon moniselitteisyyttä, on
tulkittava epäluotettavaksi. Sekvenssin luotettavuutta voidaan usein parantaa muodostamalla useiden samankaltaisten sekvenssien perusteella konsensus-sekvenssi,
johon on merkitty ainoastaan sellaiset nukleotidit, jotka ovat ainakin 50% alkuperäisistä sekvensseistä.
Tietokantojen ylläpitäjät ovat tietoisia sekvenssien laatueroista. Kuratoidut tietokannat, kuten NCBI:n ylläpitämä nr, sisältävät kaikkein luotettavimmat sekvenssit, joskin niissäkin on yleisesti plasmidijäänteitä.
4.6
Sekvensseistä genomiksi
Moniin tarkoituksiin riittää vain lyhyen sekvenssipätkän sekvensoiminen, mutta
toisinaan on tarvetta selvittää pidempienkin DNA-pätkien sekvenssi. Esimerkiksi HUGO-projekti, joka tähtää koko ihmisen genomin sekvensointiin, joutui läpikäymään kolme miljardia emäsparia. Yleensä yhdellä sekvensointireaktiolla voidaan saada hyvälaatuista sekvenssiä korkeintaan noin tuhannesta emäsparista, joten parhaassakin tapauksessa HUGO-projektin toteuttaminen olisi vaatinut vähintään kolme miljoonaa sekvensointireaktiota. Kokonaisten genomien sekvenointiin
sovelletaankin pääasiassa kahta erilaista sekvensointitaktiikkaa (Kuva 4.5), joiden
molempien tarkoituksena on koota lyhyemmät sekvenssipätkät yhteen pidemmän
sekvenssin selvittämiseksi.
Lyhyemmistä sekvenssipätkistä yhteenkoottua pidempää sekvenssiä kutsutaan
jatkumoksi (contig). Useiden jatkumoiden keskinäinen järjestys voidaan selvittää
esimerkiksi samaan tapaan kuin lyhyempien sekvenssienkin. Kun riittävän monia
jatkumoita on liitetty yhteen, selviää lopulta koko kromosomin sekvenssi. Useiden
kromosomien sekvenssit muodostavat yhdessä koko eliön perimän sekvenssin.
40
Bioinformatiikan perusteet
Kuva 4.5: Esimerkki kahdesta erilaisesta sekvensointitaktiikasta. Nykyisin yleisempi menetelmä on haulikkosekvensointi (shotgun sekvensointi). Haulikkosekvenssoinnissa (A)
DNA pätkitään sopivan mittaisiksi pätkiksi, jotka sitten sekvensoidaan (ohuet mustat viivat). Alkuperäisen DNA-pätkän (paksu musta viiva) sekvenssi selviää, kun osittain toistensa kanssa päällekkäin menevät sekvenssipalaset sijoitetaan oikeaan järjestykseen. Perinteisessä menetelmässä (B) sekvensoidaan ensin tunnetun DNA-pätkän alusta lyhyt alue.
Näin selvitettyä aluetta käytetään hyväksi seuraavaa aluetta sekvensoitaessa. Näin sekvensoitujen DNA-pätkien järjestys pysyy koko ajan tiedossa, eikä niiden keskinäisiä sijainteja
tarvitse enää jälkikäteen selvitellä. Sekvenssipätkien järjestelyä kutsutaan sekvenssin kokoamiseksi (assembly). Kokoamisen jälkeen muodostetaan pätkien perusteella konsensussekvenssi, joka sisältää jokaisesta sekvenssikohdasta sen yleisimmän nukleotidin.
4.7 Genomin toiminnan selvittäminen
Kun riittävän pitkä DNA-sekvenssi on selvitetty, pyritään myös sen toiminta selvittämään. Esimerkiksi, geenit (intronit ja eksonit), toistojaksot ja signaalisekvenssit
pyritään paikallistamaan sekvenssistä. Tähän on useita erilaisia menetelmiä, joista
osaa käsitellään tulevissa luvuissa. Eliön perimän selvittäminen on vasta ensimmäinen askel sen toiminnan ymmärtämisessä. Toiminnallinen (funktionaalinen) genomiikka pyrkii selvittämään geenien toimintaa ja toiminnan säätelyä.
4.8 Eri tyyppiset sekvenssit
Sekvoisoimalla erilaisia lähtömateriaaleja tai esittämällä sekvenssi eri tavalla, voidaan tuottaa eri tyyppisiä sekvenssejä. Seuraavassa on esitelty muutamia tyypillisimpiä sekvenssimuotoja. Sekvensointiprojekteissa on useimmiten tavoitteena selvittää eliön kokonainen genominen sekvenssi. Genomisella sekvenssillä tarkoitetaan sekvenssiä, jossa kaikki genomin rakenneosat, intronit, eksonit, promoottorialueet ym., ovat mukana. Lähetti-RNA sekvenssi eroaa genomisesta sekvenssistä
siten, että siitä puuttuvat intronit ja promoottorialue. Sekvensoitu lähetti-RNA vas-
4
Sekvensointi ja DNA-sekvenssit
41
taakin siten biologista lähetti-RNA:ta. Toisinaan ilmoitetaan, että on sekvensoitu
cDNA:ta, mikä tarkoittaa sitä, että mRNA on ensin käännetty DNA:ksi, joka on
sitten sekvensoitu. Käytännössä cDNA- ja mRNA-sekvenssit kuvaavat siis samaa
molekyyliä. EST (expressed sequence tag) -sekvenssit on tuotettu lähetti-RNA:sta
sekvensoimalla vain lyhyt pätkä mRNA:n alku- tai loppupäästä. STS (sequence
tagged site) -sekvenssit liittyvät genomiseen sekvenssiin siten, että ne ovat lyhyitä,
200-500 bp:ä pitkiä yksilöllisiä sekvenssejä jostakin genomin kohdasta. Esimerkiksi ihmisen genomia sekvensoitaessa STS-sekvenssejä käytettiin merkkeinä osoittamaan sekvenssipätkien oikeaa järjetsystä genomissa. HTGS- tai HTG- (high throughput genomic sequence) -sekvenssit ovat viimeistelemättömiä sekvensoitiprojektien tuottamia sekvenssejä. Kun eliön genomia sekvensoidaan, tuotetaan usein
hyvin nopeassa tahdissa sekvenssejä, joiden laatua tai paikkaa genomissa ei välttämättä tunneta. Tällaiset sekvenssit ovat HTGS-sekvenssejä, ja niitä käytetään viime
vaiheessa koko eliön genomin selvitämiseen. HTGS-sekvenssit ovat siis genomiprojektien tuottamia viimeistelemättömiä tuloksia. GSS (genome survey sequence)
-sekvessit vastaavat EST-sekvenssejä, mutta ne ovat peräisin genomisesta sekvenssistä. GSS-sekvenssit voivat olla esimerkiksi genomiprojekteissa käytettyjen YAC
(yeast artificial chromosome) -kloonien alku- ja loppupäiden sekvenssejä.
Tietokannoissa olevien sekvenssien yhteydessä saatetaan mainita, että sekvenssi on esimerkiksi peräisin lähetti-RNA:sta. Tällöin on syytä muistaa, että genominen sekvenssi on sille komplementaarista. Sama pätee esimerkiksi ribosomaalisiin RNA-sekvensseihin. Yleensä tietokannoissa ilmoitetaan aina sen rakenneyksikön sekvenssinä, josta se on peräisin, eikä suinkaan genomisena sekvenssinä, ellei
näin erityisesti mainita. Toisin sanoen, jos tietokannassa sanotaan, että sekvenssi on rRNA:ta, on ilmoitettu sekvenssi todellakin rRNA-molekyylin sekvenssi, ei
esimerkiksi sitä vastaavan geenin sekvenssiä.
42
5
Bioinformatiikan perusteet
Biotietokannat
5.1 Mitä tietokannat ovat?
Lyhyesti sanottuna tietokanta on kokoelma tietoja. Nykyisin käytössä on pääasiassa
kahdenlaisia tietokoneistettuja tietokantoja, tekstitiedostopohjaisia (flat file) ja relaatiotietokantoja. Kolmas tietokantatyyppi, objektiorientoitunut tietokanta on vasta tulollaan. Mainittujen tietokantatyyppien välillä on tärkeitä eroja, jotka vaikuttavat paitsi tietokannan käytettävyyteen myös sen päivitettävyyteen. Seuraavassa
esitellään lyhyesti tietokantojen päätyypit tarkemmin.
5.1.1 Flat file -tietokanta
Flat file eli tekstitietokanta on kenties helpoimmin ymmärrrettävä tietokantamuoto,
sillä se on kokoelma samassa standardimuodossa olevia tiedostoja. Tekstitietokannan voidaan ajatella vastaavan arkistokaappia, johon samalla tavalla muotoiltuja
yhden paperin mittaisia tekstejä on talletettu sopivalla tavalla järjestettynä. Toisena
esimerkkinä voidaan käyttää artikkelien tallentamista arkistoon. Artikkelit voi järjestää monella tavalla, aihealueen mukaan eri mappeihin, aakkostettuna tai vaikkapa käytetyn menetelmän mukaan. Ideana on kuitenkin, ettei aina jotakin artikkelia
etsiessään tarvitse muistaa tarkkaan mihin sen pisti, vaan ainoastaan arkistosysteemin periaate, minkä avulla artikkeli sitten aina löytyy.
Tekstitietokannoista tehdään usein sellaisia, että niihin talletettuja tiedostoja
voidaan etsiä jotakin termiä käyttäen. Tällöin tietokannassa olevista tiedoista etsitään tietyltä kohtaa sanoja, joiden perusteella muodostetaan hakemisto (index) siitä,
mistä kohtaa tietokantaa tieto löytyy. Hakemiston luomista kutsutaan indeksoinniksi. Arkistoanalogiaa käyttäen indeksin luomista voidaan ajatella esimerkiksi kortistona siitä, mistä mapista tai laatikosta tietty artikkeli tai paperi löytyy. Usein indeksejä luodaan eri tietoja käyttäen. Esimerkiksi artikkeliarkistolle voitaisiin luoda
indeksi artikkelin ensimmäisen kirjoittajan mukaan ja aihealueen mukaan. Tällöin
meillä olisi kaksi kortistoa, joiden perusteella voitaisiin tehdä hakuja esimerkiksi
yhdisteltyjä hakuja. Esimerkkinä yhdistellystä hausta voisi olla "etsi kaikki artikkelit, jotka käsittelevät sekvenssianalyysiä ja joiden ensimmäisen kirjoittajan nimi
alkaa C-kirjaimella".
Esimerkkinä tekstitietokannan tietueesta eli yhdestä tietokantaan talletetusta
"artikkelista"toimii EMBL-tietokannan kuvassa 5.1 esitetty kuvaus ihmisen hemoglobiinista.
5.1.2 Relaatiotietokanta
Relaatiotietokannassa tiedot on talletettu taulukoihin. Kuhunkin taulukkoon talletetaan vain yhteen tai muutamiin asioihin liittyviä tietoja. Relaatiotietokannan taulua
voi ajatella olevan kuin Excel-ohjelman taulukko. Tällaisessa taulukossa kullakin
rivillä on mainittu yhteen tietokannan tietueeseen liittyviä tietoja, ja kukin sarake
sisältää samasta tietueesta erilaista tietoa. Esimerkki relaatiotietokannasta voisi olla yrityshakemisto. Tällainen hakemisto voisi koostua esimerkiksi tauluista, joista
5
Biotietokannat
43
ensimmäisessä on lueteltu kaikki yritykset ja niiden yhteystiedot, ja toisessa kaikki firmojen työntekijät ja heidän yhteystietonsa. Kullekin yritykselle on yhdessa
sarakkeessa annettu tunniste, jonka perusteella myös työntekijät toisessa taulussa
tunnistetaan. Tämän tunnisteen perusteella voidaan tarvittaessa yhdistää yritys- ja
henkilöstö-taulujen sisältämä informaatio.
Relaatiotietokannan rakenne eli sen eri taulujen yhteydet toisiin tietokannan
tauluihin kuvataan skeemaa (database scheme) käyttäen. Skeema on yleensä paperi, jolle kaikki tietokannan taulut on piirretty, ja niiden suhteet toisiin tauluihin
kuvataan erilaisin nuolin. Skeeman tulkinta voi toisinaan olla haastavaa, varsinkin
jos tietokanta on monimutkainen ja taulujen välillä on paljon yhteyksiä ja ristiviittauksia.
Elektronisia relaatiotietokantoja hallinnoidaan esimerkiksi Oracle- tai MySQL
-ohjelmistojen avulla. Ohjelmistojen avulla tietokantaa voidaan muun muassa luoda uusia tauluja, poistaa tarpeettomia tauluja ja tietueita ja etsiä tietoa järkevällä
tavalla. Sekvenssi- ja muiden biologisten tietokantojen hallintatyökaluna on tullut tunnetuksia esimerkiksi SRS-järjestelmä, Lion Biosciences -yrityksen tuottama
tietokantojen integrointiin tarkoitettu työkalu. Tietokantojen integrointi antaa mahdollisuuden hakea samaa informaatiota useista tietokannoista yhtäaikaa, esimerkiksi tehdä haku geenin nimellä yhtä aikaa sekä aminohappo- että nukleiinihapposekvenssitietokannoista.
5.2
Mitä molekyylibiologiset tietokannat ovat?
Biologisiin tietokantoihin on talletettu muun muassa sekvenssejä, proteiinien motiiveja ja kiderakenteita, mutaatioita, tietoa geenien ja proteiinien ilmentymisestä
kudoksissa, proteiinien välisiä interaktioita sekä reaktioteitä ja kuvauksia sairauksista.
Primääritietokannoiksi kutsutaan DNA-sekvenssejä (EMBL, GenBank, DDBJ)
ja aminohapposekvenssejä (PIR, MIPS, SWISS-PROT, TrEMBL, NRL-3D) sisältäviä tietokantoja, joihin on talletettu laboratoriokokeiden ensisijaiset tulokset. Sekundääriset (tunniste)tietokannat, kuten PROSITE ja BLOCKS, on johdettu primäärisistä, ja ne sisältävät esimerkiksi sekvensseille yhteisiä piirteitä, kuten proteiinien motiiveja tai sormenjälkiä. Yhdistelmätietokannat on muodostettu useiden
alkuperäisten tietokantojen pohjalta kokoamalla tietoa yhteen. Tunnetuin yhdistelmätietokanta lienee NCBI:n ylläpitämä NRDB.
Tietokantoihin talletettujen sekvenssien lukumäärä on kasvanut räjähdysmäisesti erityisesti viime vuosien aikana, eikä kasvun odoteta taittuvan vielä lähitulevaisuudessakaan. Vuoden 2002 lopulla EMBL-tietokanta sisälsi noin 31 miljardia
nukleotidia 20 miljoonassa sekvenssissä. Tietokannan koko kaksinkertaistuu lähes
vuosittain. Yli puolet sekvensseistä oli peräisin ihmisestä (Homo sapiens) tai hiirestä (Mus musculus).
Useimmiten sekvenssitietokannoista etsitään tietoa asiasanan perusteella (tekstihaut) tai tunnettua sekvenssiä käyttäen (samankaltaisuushaut). Asiasanahaut on
yleensä toteutettu jokseenkin samalla tavalla kuin kirjastojen hakukoneet tai Internethakukoneet, kuten Google (http://www.google.fi). Erona on, että haun nopeuttamiseksi valitaan yleensä aluksi tietokanta, jotka halutaan käyttää. Samankaltaisuushakuihin käytetään erityisesti tähän suunniteltuja ohjelmistoja, kuten
BLAST:ia.
Useimmista suurista tietokannoista on yhtä aikaa käytettävissä sekä uusin julkaisu että päivitys. Tietokannoista muokataan tietyin väliajoin, esimerkiksi kerran puolessa vuodessa, julkaisu, joka sisältää kaiken siihen mennessä tietokantaan
talletetun informaation. Julkaisujen välillä tietokantaan lisätyt sekvenssit lisätään
aluksi päivitykseen, joka sisällytetään varsinaiseen tietokantaan seuraavassa julkaisussa.
Esimerkiksi EMBL-tietokannasta on tällä hetkellä (syyskuu 2005) levitykses-
44
Bioinformatiikan perusteet
sä julkaisu (release) 84. Sekvenssit, jotka eivät sisälly varsinaiseen julkaisuun ovat
saatavilla EMBL-tietokantapäivityksessä (update). Erityisesti vastikään kuvattujen
geenien sekvenssejä etsittäessä onkin muistettava tehdä haut sekä julkaisusta että
päivityksestä.
Taulukossa 5.1 on lueteltu muutamia yleisimmin käytettyjä biologista aineistoa sisältäviä tietokantoja.
Taulukko 5.1: Muutamien yleisesti käytettyjen biotietokantojen www-osoitteita.
Tietokanta
EMBL
GenBank
RefSeq
UniGene
LocusLink
dbEST
UniProt
TrEMBL
InterPro
Ensembl
NCBI Map Viewer
PDB
PubMed
Internet-osoite
http://srs.ebi.ac.uk
http://www.ncbi.nih.gov/Genbank
http://www.ncbi.nlm.nih.gov/RefSeq
http://www.ncbi.nlm.nih.gov/UniGene
http://www.ncbi.nlm.nih.gov/LocusLink
http://www.ncbi.nlm.nih.gov/dbEST
http://www.uniprot.org
http://www.ebi.ac.uk/trembl
http://www.ebi.ac.uk/interpro
http://www.ensembl.org
http://www.ncbi.nlm.nih.gov/mapview
http://www.rcsb.org/pdb
http://www.ncbi.nlm.nih.gov/Pubmed
5.3 Nukleotidisekvenssitietokannat
5.3.1 EMBL, GenBank ja DDBJ
Yhdysvaltain, Euroopan ja Aasian ensisijaiset sekvenssitietokannat ovat GenBank,
EMBL (European Molecular Biology Laboratory) ja DDBJ (DNA Data Bank of
Japan). NCBI (National Center for Biotechnology Information), EBI (European
Bioinformatics Institute) ja NIG (National Institute of Genetics) ylläpitävät tietokantoja yhteistyössä. Tietokantojen sisältö päivitetään keskenään ristiin joka yö
(mitä se sitten tarkoittaakaan eri mantereilla oleville instituuteille), joten ne sisältävät viime hetken lisäyksiä lukuunottamatta kaikki samat sekvenssijoukon.
Jokaiselle tietokannassa olevalle sekvenssille on annettu oma tunnistenumero, jolla siihen päästään käsiksi milloin tahansa. Tämä tunnistenumero ei muutu, ja
saman sekvenssin löytäminen tietokannasta on edelleen mahdollista kymmenenkin
vuoden kuluttua. Tämän vuoksi jokaisesta tietokannasta voi myös hakea tietoa samalla sekvenssiin liittyvällä tunnisteella (“GenBank accession number”). Tunnistenumero on kirjain- ja numerosarja, kuten X11122. Tutkimuksissa käytettyjen sekvenssien tunnistenumerot kannattaa ottaa talteen vaikkapa laboratoriokirjaan, sillä
oikean sekvenssin löytäminen tietokannasta ei myöhemmin ole välttämättä helppoa
pelkän ulkomuistin perusteella.
EMBL, Genbank ja DDBJ ovat historiallisia tietokantoja siinä mielessä, että niihin on säilötty sellaiset sekvenssit, jotka tutkijat, tutkimusryhmät ja sekvensointiprojektit ovat niihin tallettaneet. Esimerkiksi tiettyä geeniä vastaava sekvenssi saattaa esiintyä tietokannassa useampina kopioina. Tarkoituksena ei myöskään
ole ollut koota yksittäisistä sekvensseistä pitempiä yhtenäisiä jaksoja, esimerkiksi kokonaisia kromosomeja käsittäviä jatkumoita (contig). Niinpä tietokannassa
oleva sekvensssi voikin olla miltei mitä tahansa lyhyestä cDNA-pätkästä kokonai-
5
Biotietokannat
45
seen kosmidiklooniin. Hyvin pitkät sekvenssit on kuitenkin pilkottu noin 350 000
nukleotidia pitkiksi pätkiksi niiden käsittelyn helpottamiseksi. Sekvensseihin liitetyt lisätiedot voivat olla hyvin epätäydellisiä ja epäluotettavia, sillä sekvenssin
lähettäjä kirjaa ne tietokantaa sekvenssiä tallentaessaan, eikä niitä välttämättä enää
sen koomin päivitetä. Niinpä mainituissa tietokannoissa oleviin annotaatioihin kannattaakin suhtautua varauksella.
Kaikki EMBL-, GenBank- ja DDBJ-tietokannoissa olevat sekvenssit ovat julkisia, mikä ei kuitenkaan tarkoita sitä, että niitä voisi käyttää miten haluaa. Esimerkiksi sekvenssien julkaiseminen uudelleen www-sivuilla on kielletty. Sekvenssien
julkisuus tarkoittaakin lähinnä, että kuka tahansa saa käyttää niitä veloituksetta tutkimuksissaan.
EMBL-, GenBank-, ja DDBJ on jaettu edelleen osastoihin (division). Yhteen
osastoon kootaan esimerkiksi tiettyyn eliöön liittyviä sekvenssejä (taulukko 5.2).
Osastojakoa voidaan käyttää esimerkiksi samankaltaisuushakujen nopeuttamiseen,
sillä halutun tuloksen löytäminen pienestä tietokannasta on helpompaa ja nopeampaa kuin suuresta. Lisäksi hakutulosten määrä on pienempi kuin koko tietokannasta
saatujen tulosten määrä, eivätkä merkittävät BLAST-osumat huku taustakohinaan.
Taulukko 5.2: EMBL-, GenBank-, ja DDBJ-tietokantojen sisältämien sekvenssien osastojaot.
Osaston lyhenne
HUM
MUS
ROD
MAM
VRT
INV
PLN
FUN
PRO
VRL
PHG
ORG
SYN
EST
HTG
GSS
HTC
STS
CON
UNC
Sisältö
ihminen
hiiri
muut jyrsijät
muut nisäkkäät
muut selkärankaiset
selkärangattomat
kasvit
sienet
esitumalliset
virukset
bakteriofaagit
soluelimet
synteettiset (vektorit, plasmidit)
expressed sequence tags
high throughput genome (sekvensointiprojektit)
genome survey sequences (sekvensointiprojektit)
high throughput cDNA (sekvensointiprojektit)
sequence tagged sites
jatkumot (contigs)
luokittelemattomat
Koska tietokannoissa olevia sekvenssejä ei ole ylläpitäjien toimesta tarkastettu, ne sisältävät lukuisia sekvensointivirheitä, plasmideista peräisin olevaa sekvenssiä ja virheellisiä annotaatioita. Lisäksi samasta sekvenssistä on tietokannassa
useimmiten useita kopioita. Näitä ongelmia on pyritty poistamaan muodostamalla
GenBank-tietokannan perusteella uusi tietokanta, RefSeq.
EMBL-, GenBank- ja DDBJ-tietokannoissa olevien sekvenssien tiedot (entry) näytetään käyttäjälle tietyssä, yhteisesti sovitussa ja standardoidussa muodossa
(Text entry). Jokaisen sekvenssin tietokantamerkintä on jaettu kolmeen osaan (ku-
46
Bioinformatiikan perusteet
va 5.1). Johdanto-osa koostuu sekvenssin nimestä, tunnistetiedoista, päivityshistoriasta, lyhyestä kuvauksesta, siihen liittyvistä artikkeleista ja tietokantojen ristiviittauksista. Johdanto-osan jälkeen kuvataan sekvenssin ominaisuudet (feature table).
Tietokantamerkinnän lopusta löytyy itse sekvenssi, ja joitakin siihen liittyviä tilastotietoja, kuten nukleotidien runsaussuhteet.
EMBL-tietokannassa sekvenssimerkinnän jokainen rivi alkaa kaksikirjaimisella lyhenteellä (taulukko 5.3), joka kertoo, millaista tietoa rivi sisältää. GenBankmerkinnässä rivien lyhenteet on korvattu selkokielisillä merkinnöillä. Nykyisin merkinnöistä on saatavilla myös ihmissilmille soveltuvammin muotoiltu versio (Emblentry), jossa rivikohtaiset tunnistetiedot on korvattu www-ympäristöön soveltuvalla
graafisella merkintätavalla.
Taulukko 5.3: Yleisimpien EMBL-tietokannassa käytettyjen sekvensseihin liittyvien merkintöjen lyhenteitä.
Lyhenne
ID
AC
DT
DE
KW
OS
OC
RN
RP
RX
RA
RT
RL
DR
CC
FH
FT
SQ
Merkitys
Sekvenssin tunniste tietokannan nykyisessä julkaisuversiossa
Sekvenssin yksilöllinen tunniste, accession number
Sekvenssin julkaisu- ja päivityspäivämäärät
Lyhyt kuvaus sekvenssistä
Asiasanat, jotka liittyvät sekvenssiin
Sen lajin nimi, josta sekvenssi on peräisin
Lajin taksonominen luokittelu
Sekvenssiin liittyvän julkaisun juokseva numero
Julkaisuun liittyvät sekvenssialueet
Sekvenssiin liittyvän julkaisun tietokantaviitteet
Sekvenssiin liittyvän julkaisun kirjoittajat
Sekvenssiin liittyvän julkaisun otsikko
Sekvenssiin liittyvän julkaisun lehtiviite
Linkit ulkoisiin tietokantoihin, kuten SWISS-PROT:iin
Kommentit, jotka eivät sovi edellisiin kenttiin
Ominaisuustietojen otsikko
Ominaisuustiedot
Sekvenssi
5.3.2 RefSeq
NCBI:ssa perustetun Reference Sequence -projektin tarkoituksena on luoda tietokanta, jossa ei ole päällekkäisyyksiä. Kustakin geenin transkriptimuodosta (mRNA
tai sitä vastaava proteiinisekvenssi) on tietokannassa vain yksi ainut kopio. RefSeqtietokannassa olevat tiedot ovat luotettavuudeltaan huippuluokkaa silloin, kun tietokantaa hoitavat kuraattorit ovat valitsevat tai koonneet parhaan sekvenssin ja tarkistaneet siihen liittyvät tiedot.
RefSeq-sekvensseille annetaan omat tunnistenumerot tyyliin NM_123456, joiden perusteella ne voidaan tunnistaa. RefSeq-tietokannassa olevan sekvenssin tietue muistuttaa NCBI:n palvelimelta haettuna hyvin pitkälti edellä kuvattua EMBLmuotoa, mutta kuratoinnista on lisätty lyhyt kuvaus (kuva 5.2).
Tällä hetkellä RefSeq-tietokannasta on saatavilla julkaisu 13, joka sisältää sekvenssejä 3060 eliöstä. Vertailun vuoksi mainittakoon, että GenBank-tietokannassa
on sekvenssejä noin 100 000 eliöstä.
5
Biotietokannat
ID
XX
AC
XX
SV
XX
DT
DT
XX
DE
XX
KW
XX
OS
OC
HSAGLO1
47
standard; RNA; HUM; 575 BP.
V00493;
V00493.1
03-NOV-1982 (Rel. 02, Created)
11-JUN-2003 (Rel. 76, Last updated, Version 8)
Homo sapiens messenger mRNA for hemoglobin alpha chain
alpha-globin; HBA2 gene; hemoglobin alpha chain.
Homo sapiens (human)
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;
OC
XX
RN
RP
RX
RX
RA
RA
RT
RT
Eutheria; Primates; Catarrhini; Hominidae; Homo.
RL
XX
DR
DR
DR
DR
XX
FH
FH
FT
J. Biol. Chem. 255(7):2807-2815(1980).
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
XX
SQ
[1]
1-575
MEDLINE; 80137531.
PUBMED; 6244294.
Wilson J.T., Wilson L.B., Reddy V.B., Cavallesco C., Ghosh P.K.,
Deriel J.K., Forget B.G., Weissman S.M.;
"Nucleotide sequence of the coding portion of human alpha globin messenger
RNA";
ENSEMBL; ENSG00000130654; ENST00000251595.
ENSEMBL; ENSG00000130654; ENST00000320868.
GOA; P01922.
SWISS-PROT; P01922; HBA_HUMAN.
Key
Location/Qualifiers
source
1..575
modified_base
CDS
polyA_site
/db_xref="taxon:9606"
/mol_type="mRNA"
/organism="Homo sapiens"
1..1
/note="capped by m7G-ppp"
/mod_base=m7g
38..466
/db_xref="GOA:P01922"
/db_xref="SWISS-PROT:P01922"
/product="hemoglobin alpha chain"
/protein_id="CAA23752.1"
/translation="MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFP
HFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSH
CLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR"
575..575
Sequence 575 BP; 101 A; 211 C; 158 G; 105 T; 0 other;
actcttctgg tccccacaga ctcagagaga acccaccatg gtgctgtctc ctgccgacaa
gaccaacgtc aaggccgcct ggggcaaggt tggcgcgcac gctggcgagt atggtgcgga
60
120
ggccctggag
cctgagccac
caacgccgtg
cgcgcacaag
gaccctggcc
gttcctggct
agcagttcct
cttcctggtc
180
240
300
360
420
480
540
575
aggatgttcc
ggctctgccc
gcgcacgtgg
cttcgggtgg
gcccacctcc
tctgtgagca
cctgccagat
tttgaataaa
tgtccttccc
aggttaaggg
acgacatgcc
acccggtcaa
ccgccgagtt
ccgtgctgac
gggcctccca
gtctgagtgg
caccaccaag
ccacggcaag
caacgcgctg
cttcaagctc
cacccctgcg
ctccaaatac
acgggccctc
gcggc
acctacttcc
aaggtggccg
tccgccctga
ctaagccact
gtgcacgcct
cgttaagctg
ctcccctcct
cgcacttcga
acgcgctgac
gcgacctgca
gcctgctggt
ccctggacaa
gagcctcggt
tgcaccggcc
//
Kuva 5.1: EMBL-tietokannan sisältämä informaatio ihmisen alfa-hemoglobiinin mRNAsekvenssistä.
48
Bioinformatiikan perusteet
COMMENT
REVIEWED REFSEQ: This record has been curated by NCBI staff. The
reference sequence was derived from J00153.1.
On Jun 15, 2001 this sequence version replaced gi:6715603.
Summary: The human alpha globin gene cluster located on chromosome
16 spans about 30 kb and includes the following five loci: 5’zeta - pseudozeta - pseudoalpha-1 - alpha-2 - alpha-1 -3’. The
alpha-2 (HBA2) and alpha-1 (HBA1) coding sequences are identical.
These genes differ slightly over the 5’ untranslated regions and
the introns, but they differ significantly over the 3’ untranslated
regions. Two alpha chains plus two beta chains constitute HbA,
which in normal adult life comprises about 97% of the total
hemoglobin; alpha chains combine with delta chains to constitute
HbA-2, which with HbF (fetal hemoglobin) makes up the remaining 3%
of adult hemoglobin. Alpha thalassemias result from deletions of
each of the alpha genes as well as deletions of both HBA2 and HBA1
respectively; some nondeletion alpha thalassemias have also been
reported.
COMPLETENESS: full length.
Kuva 5.2: RefSeq-tietueen kuratoinnista tehty merkintä.
5.3.3 UniGene
Koska GenBank sisältää yleensä useita kopioita samasta geenisekvenssistä, ja näissä kopioissa on paljon sekvensointivirheitä, on aineiston tehokas käyttö toisinaan
mahdotonta. Ongelman poistamiseksi kehitettiin jo ennen RefSeq-projektia UniGenetietokanta, jossa GenBank-tietokannan EST- ja mRNA-sekvenssit on sijoitettu geenikohtaisiin ryhmiin. Jokaiseen ryhmään on liitetty tieto muun muassa geeniekspressiosta kudoksissa ja geenin sijainti eliön perimässä. Ryhmät on muodostettu automaattisesti, eikä tulosten paikkansapitävyyttä ole erikseen tarkistettu. Pitkään tunnetuilla geeneillä, joista on paljon sekvenssejä tietopankeissa, UniGene-tiedot ovat
pysyneet vakaasti samoina. Sen sijaan luotettavuusongelmia voi ilmetä UniGeneryhmillä, joihin kuuluu vain muutama sekvenssi.
Muodostetuille ryhmille on annettu UniGene-tunnistenumerot, jotka voivat
kuitenkin muuttua tietokantajulkaisusta toiseen. UniGene-tunnisteita ei siis voi käyttää kuten GenBank-tunnistenumeroita, sekvenssien identifiointiin vaikkapa kymmenen vuoden kuluttua alkuperäisen kokeen tekemisestä. Laboratoriopäiväkirjassa
pitäisikin ennemmin käyttää tiettyyn ryhmään kuuluvien sekvenssien GenBanktunnisteita.
Kuvassa 5.3 on esitetty esimerkki UniGene-tietueesta. Tietue sisältää UniGenetunnisteen, geenin nimen ja kuvauksen, sen sijainnin kromosomistossa, ilmentymisen kudoksissa, vastaavan proteiinin eri malliorganismeissa (PROTSIM) sekä
ryhmän muodostamiseen käytettyjen nukleotidisekvenssien ristiviittaukset eri tietokantoihin.
5.3.4 Locuslink
LocusLink ei oikeastaan ole tietokanta, vaan se tarjoaa yhtenäistetyn käyttöympäristön, jonka avulla on mahdollista hakea tiettyyn geeniin liittyvää informaatiota.
Locuslink sisältää informaatiota muun muassa geenien nimistä, sekvensseistä, sekvenssien tunnistenumeroista (ristiviitteet), UniGene-ryhmistä sekä geenin kromosomaalisesta sijainnista, annotaatioista (geenin funktiot) ja homologeista. Kaiken
Locuslink:iin sisällytetyn aineiston pitäisi olla hyvin luotettavaa, sillä se on kuratoitu.
Nykyisin NCBI:n Entrez Gene -palvelu on korvannut Locuslink-tietokannan.
Sen tärkeimpänä erona Locuslinkiin on suurempi organismivalikoima.
5
Biotietokannat
ID
TITLE
GENE
CYTOBAND
LOCUSLINK
49
Hs.424220
hemoglobin, alpha 1
HBA1
16p13.3
3039
EXPRESS
Liver and Spleen ; placenta ; fetal spleen ; FETAL LIVER ; olfactory
epithelium ; anaplastic oligodendroglioma with 1p/19q loss ; pre-eclamptic
placenta ; frontal lobe ; PLACENTA COT 25-NORMALIZED ; breast ; blood ;
pooled pancreas and spleen ; kidney ; PLACENTA ; Pituitary ; parathyroid
tumor ; pooled colon, kidney, stomach ; pooled lung and spleen ; ovary ;
insulinoma ... thyroid
GNM_TERMINUS
T
CHROMOSOME 16
PROTSIM
ORG=Homo sapiens; PROTGI=122412; PROTID=sp:P01922; PCT=100; ALN=142
PROTSIM
ORG=Mus musculus; PROTGI=122441; PROTID=sp:P01942; PCT=85; ALN=142
PROTSIM
SEQUENCE
SEQUENCE
SEQUENCE
SEQUENCE
SEQUENCE
SEQUENCE
ORG=Rattus norvegicus; PROTGI=122477; PROTID=sp:P01946; PCT=78; ALN=142
SCOUNT
1364
ACC=BC032122.1; NID=g21594678; PID=g21594679; SEQTYPE=mRNA
ACC=R78046.1; NID=g853156; CLONE=IMAGE:145520; END=5’; LID=271;
SEQTYPE=EST
ACC=T54430.1; NID=g656291; CLONE=IMAGE:70389; END=5’; LID=250; SEQTYPE=EST
ACC=R81591.1; NID=g858194; CLONE=IMAGE:147754; END=5’; LID=271;
SEQTYPE=EST
ACC=R70137.1; NID=g843654; CLONE=IMAGE:142528; END=5’; LID=271;
SEQTYPE=EST
ACC=T58693.1; NID=g660530; CLONE=IMAGE:69341; END=5’; LID=250; SEQTYPE=EST
Kuva 5.3: Esimerkki ihmisen alfa-hemoglobiinin UniGene-tietueesta (vain muutama
ensimmäinen SEQUENCE-kenttä esitettynä).
5.3.5 dbEST
GenBankin EST-osaston sekvenssit on annotoitu alkuperäistä kattavammin ja talletettu dbEST-tietokantaan. Annotaatiot sisältävät tarkan kuvauksen laboratorionäytteistä, tutkijoiden yhteystiedoista, julkaisuista ja sekvenssin sijainnista perimässä.
Lisäksi jokaiselle EST-sekvenssille on annettu uusi tunnistenumero ja joitakin ristiviitteita GenBank-tietokantaan.
5.4
Aminohapposekvenssitietokannat
5.4.1 UniProt
UniProt (Universal Protein Resource) on tällä hetkellä maailman kattavin proteiinitietokanta. Se on muodostettu yhdistämällä SWISS-PROT:ssa, TrEMBL:ssä ja
PIR:ssä olevat tiedot. UniProt koostuu kolmesta osasta: Knowledgebase (UniProt),
Non-redundant reference (UniRef) ja Archive (UniParc). Uniprot on keskeisin tietokanta, joka sisältää kuratoitua tietoa proteiinin toiminnasta ja luokittelusta sekä
kattavat ristiviittaukset toisiin tietokantoihin. Se koostuu SWISS-PROT- ja TrEMBLtietokannoista. UniRef on tietokanta, jossa kutakin proteiinia edustamaan on valittu
yksi edustava sekvenssi, ja muut sekvenssit on luokiteltu sen alle. Tämä nopeuttaa
hakuja tietokantaa vastaan. UniParc on kattava arkisto, jossa kunkin proteiinisekvenssin historia voidaan tarvittaessa jäljittää tarkkaan.
UniProt
on
korvannut
SWISS-PROT-tietokannan
proteiinisekvenssien primaarisena säilytyspaikkana. Vaikka SWISS-PROT, TrEMBL ja PIR
on nykyisin yhdistetty UniProt-tietokannaksi, esitellään seuraavassa kukin tietokanta kuitenkin vielä erikseen muun muassa historiallisista syistä, sillä esimerkiksi
SWISS-PROT esiintyy terminä monissa artikkeleissa. Kaikki se mitä seuraavassa
sanotaan SWISS-PROT-tietokannasta pätee myös UniProt-tietokantaan.
50
Bioinformatiikan perusteet
5.4.2 SWISS-PROT
SWISS-PROT on EBI:n ja SIB:n (Swiss Institute of Bioinformatics) ylläpitämä
laadukas aminohapposekvenssitietokanta. Sen sisältämissä sekvensseissä on vähän
päällekkäisyyksiä, tiedot ovat asiantuntijoiden tarkistamia ja tietokannasta on kattavat ristiviittaukset 60 muuhun tietolähteeseen. Ristiviittausten avulla on mahdollista hakea esimerkiksi proteiinia vastaava DNA-sekvenssi EMBL-tietokannasta,
proteiinin kiderakenne PDB-tietokannasta tai kuvaus proteiinin liittyvistä sairauksista OMIM (online Mendelian inheritance in man) -tietokannasta.
SWISS-PROT:in suurin etu on, että jokainen sekvenssi tarkistetaan ja annotoidaan käsin. Tarvittaessa ylläpitäjät myös korjaavat ja päivittävät tietoja. SWISSPROT sisältääkin kaikkein luotettavinta tietoa muun muassa proteiinien rakenteista,
funktioista, aktiivisista kohdista ja monimuotoisuudesta.
SWISS-PROT-tietueen esitysmuoto muistuttaa läheisesti EMBL-tietueen muotoa (kuva 5.1), ja jokaisella sekvenssillä on oma tunnisteensa. Suurin
ero näiden sekvenssimuotojen väliltä löytyy ominaisuustietojen kuvauksista (feature tablesta, FT-alkuiset rivit).
5.4.3 TrEMBL
TrEMBL (Translated EMBL) sisältää kaikki sellaiset nukleotidisekvenssien translaatiot, joita ei vielä ole sisällytetty SWISS-PROT-tietokantaan. TrEMBL jaetaan
normaalisti kahteen osaan, joista SPTrEMBL (SWISS-PROT TrEMBL) sisältää ne
sekvenssit, jotka aiotaan sisällyttää SWISS-PROT:iin. REMTrEMBL (Remaining
TrEMBL) sisältää ne sekvenssit, joita ei haluta sisällyttää SWISS-PROT:iin. Tällaisia ovat esimerkiksi immunoglobuliinit, T-solureseptorit, synteettiset sekvenssit ja pseudogeenit. SPTrEMBL-tietokannan sekvensseille on annettu tunnisteet,
REMTrEMBL-sekvensseille sen sijaan ei.
Toisin kuin SWISS-PROT, TrEMBL-tietokannat on annotoitu vain koneellisesti. Esimerkiksi arvio proteiinin mahdollisesta funktiosta, aktiivisista kohdista ja
domeeneista perustuu InterPro-hakuihin. SPTrEMBL on myöskin osittain päällekkäinen SWISS-PROT:in kanssa, sillä monet sen sisältämistä sekvensseistä ovat kopioita SWISS-PROT:ssa jo olevista sekvensseistä.
TrEMBL-tietokantojen tietueiden esitysmuoto muistuttaa paljolti EMBL-tietueen muotoa (Kuva 5.1). Tietokannat täydentävät hyvin SWISS-PROT tietokantaa,
ja usein onkin hyödyllistä tehdä haku molemmista.
5.4.4 PIR
PIR (Protein Information Resource) perustui alunperin Margaret Dayhoffin sekvenssikokoelmaan, joka sai alkunsa kirjasarjana Atlas of Protein Sequence and Structure. PIR ylläpiti tietokantaa yhdessä MIPS:n (Munich Center for Protein Sequences)
ja JIPID:n (Japan International Protein Information Database) kanssa. PIR:n tavoitteena oli tuottaa päällekkäisyyksiä sisältämätön tietokanta, jonka annotaatiotiedot
ovat hyvin luotettavia. Keskeinen osa PIR:n annotaatiota oli proteiinien luokittelu
perheisiin sekvenssi-identtisyyden perusteella. Proteiinit oli jaetttu homologiadomeeniperheisiin, esimerkiksi kaikki immunoglobuliinit kuuluvat luokittelussa samaan perheeseen, koska niissä kaikissa on immunoglobuliinidomeeni.
Tietokanta jakautui neljään osaan lähinnä historiallisista syistä. PIR1 ja PIR2
sisälsivät yli 99% kaikista sekvensseistä, eikä niiden välillä ollut mitään selkeää jakokriteeriä. PIR3 sisälsi sekvenssejä, joita ei ollut tarkistettu, yhdistetty, luokiteltu
eikä annotoitu. PIR4:ssä olevat sekvenssit olivat tarkistettuja ja annotoituja, mutta
niitä ei esiintynyt luonnossa. Tällaisia olivat synteettiset sekvenssit, pseudogeenien
translaatiotuotteet ja lukuraamimutaatioiden tuotteet.
PIR-tietokantaa ei nykyisin enää kehitetä, vaikka viimeisin julkaisu (31.12.2004)
5
Biotietokannat
51
onkin edelleen internetissä saatavilla.
5.5
Yhdistelmätietokannat
Koska erillisten tietokantojen määrä on kasvanut hyvin suureksi, on joissakin tapauksissa päädytty muodostamaan yhdistelmätietokantoja, jotka sisältävät yksittäisten tietokantojen tiedot yhdistettynä. Tiedon hakeminen yhdistelmätietokannoista on siis helpompaa kuin saman tiedon etsiminen monesta yksittäisestä tietokannasta. Haun nopeus ja tarkkuus parantuu, jos tietokantaa muodostettaessa samasta sekvenssistä tallennetaan tietokantaan vain yksi ainoa kopio.
NRDB (non-redundant database) tai lyhyesti NR on NCBI:ssa paikallisesti
muodostettu tietokanta. NR proteins yhdistää koko GenBank-tietokannan translaation, RefSeq:in aminohapposekvenssit, PDB:n, SwissProtin ja muutamia muita tietokantoja. NR nucleotide sisältää GenBank-, RefSeq-, EMBL-, DDBJ- ja PDBsekvenssit, muttei kuitenkaan sisällä EST (expressed sequence tag)-, STS (sequence
tagged
site)-,
GSS
(genome
survey
sequence)- tai HTGS (high throughput genomic sequence) -sekvenssejä.
Nykyisin NRDB ei ole enää ei-redundantti, vaan samasta kohteesta saattaa tietokannassa olla useampia, vaikkapa eri mittaisia kopioita. Samasta kohteesta saattaa NR-tietokannassa olla useampia kopioita, polymorfisia kohtia tai jopa suoranaisia sekvensointivirheitä sisältäviä tai eri mittaisia sekvenssejä. Vain täsmälleen
100on jätetty pois NR:stä.
5.6
Tunnistetietokannat
Tunnistetietokannat ovat arvokkaista tietolähteitä, sillä niitä voidaan käyttää apuna
tuntemattomien proteiinien funktioiden selvittämisessä tai proteiinin sijoittamisessa oikeaan proteiiniperheeseen tai -superperheeseen. Tunnistetietokantahauilla onkin mahdollista löytää hakusekvenssin kaukaisia sukulaisia tavanomaisia sekvenssihakuja tehokkaammin. Genomikartoitusprojektit käyttävät tunnistetietokantoja
tuottamiensa sekvenssien toimintojen tai toiminnallisten osien (domeenit) kuvaamiseen. Tunnistetietokantoja kutsutaan myös sekundaaritietokannoiksi.
PROSITE ja PRINTS ovat ensisijaiset tunnistetietokannat, sillä niiden sisältö on käsin tarkistettu, ja sekvenssien (motiivit, sormenjäljet) kuvaukset on tarkistettu. Ne siis sisältävät hyvin luotettavaa tietoa. Muut tunnistetietokannat luodaan
joko näiden pohjalta, tai käyttäen pitkälti automatisoituja menetelmiä. Tällaisia tietokantoja ei voida pitää yhtä luotettavina kuin PROSITE:a ja PRINTS:ia.
5.6.1 PROSITE
PROSITE on nykyisistä tunnistetietokannoista vanhin, ja siten myöskin kaikkein
kattavin. PROSITE on muodostettu usean sekvenssin rinnastusten perusteella siten,
että proteiiniperheen kuvaamiseksi on rinnastuksesta valittu yksi, kaikkein konservoitunein alue (motif, motiivi). Tällaiset motiivit tai blokit yleensä vastaavat alueita, joilla on tärkeitä biologisia toimintoja, kuten entsyymin aktiivinen kohta tai ligandin tai metalli-ionin sitoutumiskohta. PROSITE:n avulla pitäisi olla mahdollista
sijoittaa tuntematon proteiini oikeaan perheeseen tai selvittää minkälaisia domeeneja tai toiminnallisia kohtia siinä esiintyy.
Motiivit on tallennettu PROSITE:en säännöllisinä lausekkeina (regular expression), joita usein kutsutaan myös säännönmukaisuuksiksi (pattern). Säännölliset
lausekkeet kuvaavat sekvensseissä esiintyvää vaihtelua melko karkealla tasolla, eivätkä välttämättä sovellu kovin kaukaisten sukulaissekvenssien tunnistamiseen.
Esimerkiksi säännöllinen lauseke [AS] - D - G - DE - [FY]2 tarkoittaa, että ensimmäisessä paikassa saattaa olla joko A tai S, toisessa paikassa on D, kol-
52
Bioinformatiikan perusteet
mannessa G ja neljännessä mikä tahansa paitsi D ja E, viidennessä ja kuudennessa
paikassa kummassakin voi esiintyä joko F tai Y. Säännöllisiä lausekkeita voidaan
tehdä joustavammiksi käyttämällä hyväksi tietoa aminohappojen ominaisuuksista
eli niiden ryhmittelyä koon, varautumisen ynnä muun suhteen. Tällöin esimerkissä olevaa ensimmäistä [AS]-jäsentä voidaan laajentaa koskemaan myös esim. G,
P ja T eli [ASGPT]. Näitä joustavampia säännöllisiä lausekkeita kutsutaan termillä fuzzy regular expression (sumea/epämääräinen säännöllinen lauseke). Mitä epämääräisempi lauseke on, sitä kaukaisempia sukulaisia se voi paljastaa. Toisaalta se
lisää myös väärien sukulaisuuksien osuutta osumien joukossa. Sumeita säännöllisiä
lausekkeita käytetään motiivien kuvailuun IDENTIFY-tietokannassa.
Alkuperäisen lauseen muodostamisen jälkeen sillä tehdään haku koko SWISSPROT-tietokantaa vastaan, ja tutkitaan (käsipelillä) kuinka hyvin se toimii. Tässä vaiheessa väärien positiivisten osumien määrä pyritään minimoimaan, ja oikeiden positiivisten osumien määrä puolestaan maksimoimaan tarvittaessa lauseketta
muuttelemalla. Toisinaan jotakin proteiiniperhettä ei voida kuvata vain yhdellä ainoalla motiivilla. Tällöin käytetään useampia motiiveja, jotka yhteisesti optimoidaan toimimaan tietokantahauissa parhaalla mahdollisella tavalla.
5.6.2 PRINTS
Useimpia proteiiniperheitä on helpompi kuvailla useamman kuin yhden konservoituneen motiivin avulla. Tämä johtuu muun muassa siitä, että sama motiivi voi
esiintyä hyvin monissa erilaisissa proteiineissa ilman, että proteiinit kuuluvat samaan perheeseen. Esimerkiksi ATP:n (energiaa kuljettava molekyyli) sitova motiivi esiintyy yleisesti hyvin monissa entsyymeissä, eikä sen käyttäminen perheiden
erotteluun ole toimiva ratkaisu. Tämän vuoksi perustettiin PRINTS-tietokanta, joka käyttää proteiiniperheiden kuvailemiseen useita motiiveja (“sormenjäljet”, fingerprints).
PRINTS-tietokannan motiivit ovat aukottomia (ungapped) paikallisia rinnastuksia, joissa yksittäisten sekvenssien tieto on säilytetty, eikä sitä ole puristettu kokoon esimerkiksi säännölliseksi lausekkeeksi kuten PROSITE-tietokannassa. Sormenjäljet on muodostettu iteratiivisella menetelmällä, jossa ensin tehdään pieni, alkuperäinen usean sekvenssin rinnastus. Tästä rinnastuksesta etsitään konservoituneet motiivit, tehdään niillä tietokantahaku SWISS-PROT:ia vastaan, ja tuloksista
etsitään osumia sellaisiin uusiin sekvensseihin, joita ei alkuperäisessä rinnastuksessa vielä ollut. Uudet sekvenssit lisätään rinnastukseen, motiivit muodostetaan
uudelleen, ja tietokantahaku toistetaan. Tätä prosessia toistetaan, kunnes senhetkisestä SWISS-PROT-tietokannasta ei löydy enää uusia sekvenssejä. Lopuksi valmiit
sormenjäljet annotoidaan, eli tiedot niiden kuvaaman proteiiniperheen toiminnallisista ominaisuuksista liitetään sormenjäljen yhteyteen.
PRINTS-tietokanta sisältää samankaltaisuusmatriiseja (identity matrix). Tällaiset matriisit sisältävät konservoituneimman sekvenssialueen rinnastuksen, mutta
rinnastusta ei ole erityisesti pisteytetty. Sormenjäljet ilmaistaan yleensä frekvenssitaulukon muodossa (Kuva 5.4), jossa pystyrivillä on motiivi ja vaakarivillä aminohapot. Taulukon arvot vastaavat frekvenssejä, montako kertaa tietty aminohappo
esiintyy tietyssä motiivin kohdassa. Tätä taulukkoa voidaan sitten käyttää hyväksi
tietokantahauissa, kun halutaan tietää mihin proteiiniryhmään tutkittava sekvenssi
kuuluu. Jos tutkittava sekvenssi sisältää kaikki tai osan motiiveista oikeassa järjestyksessä ja oikealla etäisyydellä toisistaan, katsotaan sen kuuluvaan motiiveja
vastaavaan proteiiniperheeseen.
5.7 Tunnisteiden yhdistelmätietokannat - InterPro
InterPro, joka sisältää informaatiota proteiinien domeenirakenteista ja toiminnoista, on muodostettu useista pienemmistä tunnistetietokannoista (PROSITE, Pfam,
5
Biotietokannat
53
INITIAL MOTIF SETS
ALPHAHAEM1
Length of motif = 13
Motif number = 1
Alpha haemoglobin motif I - 1
DHVKGHEEAIGAE
HBA1\_PLEWA
15
15
DHVKGHEDAFGHE
HBA\_AMBME
16
16
GKVAGHLEEYGAE
HBA\_CAICR
15
15
SKVCVHAEEYGAE
HBA\_SPHPU
15
15
GKIGGHAGEYGAE
HBA\_MESAU
15
15
Kuva 5.4: Esimerkkinä on globiinin sormenjälki, joka on haettu PRINTS-tietokannasta
(http://www.bioinf.man.ac.uk/dbbrowser/PRINTS). Alla on annettu vain osa tulostuksesta,
esimerkiksi kunkin motiivin kohdalla on annettu vain viisi globiiniperheeseen kuuluvaa
sekvenssiä. Jokaisen motiivin kohdalla on annettu sen pituus (lenght of motif) ja motiivin
numero (motif number). ST tarkoittaa motiivin alkamiskohtaa kyseisessä sekvenssissä ja
INT sen aloituskohdan etäisyyttä edellisen motiivin lopetuskohdasta.
PRINTS, ProDom, SMART ja TIGRFAMs). Ennen yhdistämistä asiantuntijat ovat
käyneet läpi kaikkien tietokantojen tiedot, ja annotaatiot on saatettu ajantasalle.
Viittaukset jäsentietokantoihin on säilytetty, joten alkuperäiseen informaatioon on
mahdollista päästä käsiksi. InterProScan-palvelu mahdollistaa yhtäaikaisen haun
kaikista jäsentietokannoista, mikä on kätevää, sillä kaikkien jäsentietokantojen läpikäyminen on aikaaviepää. Lisäksi kaiken saatavilla olevan tiedon yhtäaikainen
tarkastelu saattaa tarjota uusia näkökulmia asiaan: Jos sama toiminnallinen alue
löytyy useista tietokannoista, se luultavasti on oikeastikin olemassa. Kuvassa 5.5
on esitetty erään InterProScan-haun tulos.
Kuva 5.5: InterProScan-haun tulos. Kuvassa keskellä on esitetty hakusekvenssiä vastaavan proteiinin domeenirakenne. Oikeassa reunassa ilmoitetaan domeenien nimet. Tunnistenumerot ja värilliset domeenipalkit toimivat linkkeinä tietokantoihin.
5.8
Genomitietokannat
5.8.1 Ensembl
EBI:n ja Sanger Instituutin Ensembl-projekti ylläpitää tietokantaa, joka sisältää
monisoluisten eliöiden genomeja. Genomeihin on koottu julkinen sekvenssiaineisto, joka sisältää tunnetut ja ennustetut geenit sekä geenien sijainnin kromosomistossa. Tietokannassa on aineistoa myös geenien monimuotoisuudesta ja ilmentymisestä sekä proteiineista. Ristiviitteet muihin tietokantoihin ovat erittäin kattavat. Geenituotteiden automaattinen annotointi perustuu pääasiassa InterPro-tietokantaan.
54
Bioinformatiikan perusteet
Kuvassa 5.6 on esitetty Ensembl-tietokannan käyttöliittymää.
Tällä hetkellä Ensembl-tietokannassa on saatavilla erityisesti monisoluisten
eläinten genomeja. Tietokanta ei tule näillä näkymin juurikaan lisäämään valikoimiinsa yksisoluisten genomeja, eikä suunnitelmassa ole laajentaa valikoimaan
myöskään kasvien suuntaan. Tietokannan avulla on mahdollista hakea esimerkiksi
geenien oletettuja promoottorialuesekvenssejä. Tietokanta tarjoaa myös mahdollisuuden BLAST-hakuihin eri eliöiden genomeja vastaan. Tällöin haku rajautuu suoraan valittuihin eliöihin, mikä on toisinaan kätevää, erityisesti jos halutaan päästä
eroon turhista ja vääristä osumista ei-mielenkiintoisiin lajeihin.
5.8.2 UCSC
UCSC genome browser on toinen laajalti käytetty genomitietokanta. Se on Yhdysvaltalaisen UCSC-yliopiston (University of California, Santa Cruz) ylläpitämä.
Esimerkiksi ihmisen genomin ollessa kysessä UCSC on yleensä ollut ensimmäinen
genomitietokanta, joka on julkaissut uusimman genomiversion sen ollessa saatavilla. UCSC:n genomivalikoima on hieman laajempi kuin Ensembl:n, mutta pääpaino
on kuitenkin monisoluisissa eläimissä.
5.9 Rakennetietokannat
5.9.1 PDB
PDB on tärkein proteiinien rakenteita sisältävä tietokanta. Tällä hetkellä tietokannassa on yli 32 000 proteiinin kiderakenne. Tietokanta sisältää hyvin luotettavaa
tietoa, sillä jokainen rakennekuvaus käy läpi hyvin tarkan laadunvalvonnan. Esimerkiksi, atomien väliset etäisyydet tarkistetaan ennen rakenteen lopullista sijoittamista tietokantaan. Myös NCBI tarjoaa käyttäjilleen rakennetietokannan, mutta
sen sisältämä aineisto on epätäydellistä, ja molekyylimallituksessa onkin turvauduttava PDB:n tarkempiin rakennekuvauksiin.
PDB:n ja NCBI:n lisäksi EBI:n ylläpitämä MSD-tietokanta sisältää proteiinirakenteita. Sen etuina PDB:hen verrattuna ovat kehittyneemmät hakutyökalut, kuten haku proteiinien ligandien perusteella ja listaukset mahdollisista konflikteista
rakenteessa mainitun ja SWISS-PROT:ssa olevan vastaavan sekvenssin välillä.
5.10
Julkaisutietokannat
5.10.1 PubMed
Maailma on pullollaan erilaisia julkaisutietokantoja, mutta biolääketieteellistä tutkimusta tekeville NLM:n (National Library of Medicine) MEDLINE on ylitse muiden. NCBI tarjoaa MEDLINE:n käyttöä varten oman palvelunsa, PubMed:in, joka
on käyttäjille ilmainen. Se sisältää yli 4500 lehden julkaisutiedot tiivistelmineen
alkaen vuodesta 1971. PubMed sisältää monipuoliset mahdollisuudet julkaisuhakujen muotoiluun ja rajaamiseen. Lisäksi useimmista tiivistelmistä on linkki elektronisiin julkaisuihin, joista monet ovat nykyisin ilmaisia.
5.11
Miten käytän tietokantoja?
Erilaisten tietokantojen paljous voi aluksi tuntua hämmentävältä. Tässä esitettävien
yksinkertaisten muistisääntöjen avulla pääsee nimittäin helposti alkuun. Esimerkit
on jaoteltu sen mukaan, millä alkutiedoilla haut aloitetaan.
5
Biotietokannat
55
Kuva 5.6: Ensembl-tietokannan ContigView, jolla yksittäisen kromosomialueen geenistön
tutkiminen on helppoa. Tutkittava kromosomialue on merkitty Chromosome- ja Overviewkenttiin punaisella laatikolla. Detailed View -kenttä näyttää geenien ja joidenkin kromosomimerkkien (marker) tarkemman sijainnin kromosomissa.
56
Bioinformatiikan perusteet
5.11.1 Mistä tietokannasta lähteä liikkeelle?
Useimmiten uuden käyttäjän on hankala päättää, mistä tietokannasta mitäkin tietoa kannattaisi lähteä hakemaan. Tähän voidaan antaa muutamia helposti muistettavia pääsääntöjä, jotka tuskin tulevat tulevaisuudessakaan kovin radikaalisti muuttumaan.
• DNA-sekvenssien, olivat ne sitten geenejä, EST-sekvenssejä tai vaikkapa ribosomaalista RNA:ta, hakemiseen soveltuu parhaiten GenBank- tai EMBLtietokanta. Erityisen hyvälaatuisia lähetti-RNA-sekvenssejä kannattanee etsiä RefSeq-tietokannasta.
• Pidempien genomisekvenssien ja mahdollisesti myös promoottorisekvenssien hankkimiseen paras paikka on Ensembl.
• Aminohapposekvenssien hankkiminen kannattaa aloittaa Swiss-Prot (UniProt) -tietokannasta.
• Yhden emäksen muutosten (SNP) selvittämiseksi kannattaa suunnata Ensembltietokantaan, jossa on suuri määrä informaatiota SNP:stä.
• Proteiinirakenteita on talletettu PDB-tietokantaan, ja molekyylimallitusta tai
muuta vastaavaa tekevien kannattaa kohdistaa www-selaimensa sinne.
• Sekvenssien annotoinnista kiinnostuneiden kannattanee suunnata
Ensembl-, EMBL-, RefSeq- ja UniProt-tietokantoihin, joissa kussakin on
suuri määrä informaatiota geenien toiminnasta ja sijainnista eliön genomissa.
Ensisijaisena vaihtoehtona useimmille liki täysin sekvenoiduille eukarytooteille on Ensembl-tietokanta. Annotaatioiden haku onnistuu geenin nimen tai
BLAST-haun perusteella.
5.11.2 Asiasanahaku
Asiasana voi tarkoittaa tässä yhteydessä esimerkiksi geenin nimeä, artikkelin kirjoittajaa tai sekvenssin tunnistenumeroa. Useimmista tietokannoista on mahdollista
tehdä hakuja asiasanaa käyttäen. Valittava tietokanta riippuu tietenkin siitä, minkälaista tietoa halutaan etsiä. Esimerkiksi, jos halutaan löytää ihmisen hemoglobiini
alfan lähetti-RNA:n nukleotidisekvenssi, kannattaa suunnata EMBL-tietokantaan.
Vastaavasti geenin paikallistaminen genomiin onnistuu LocusLink- tai Ensembltietokantoja käyttäen. Useimmiten asiasanahaulla halutaan päästä käsiksi tietyn
geenin tai proteiinin sekvenssiin tai saada lisätietoja sen toiminnasta tai sijainnista
genomissa.
5.11.3 Sekvenssihaku
Aminohappo- ja nukleotidisekvenssien perusteella voidaan tehdä monimutkaisempia tietokantahakuja kuin pelkällä asiasanalla. Esimerkiksi, aminohapposekvenssin
avulla on mahdollista selvittää proteiinin domeenirakenne, sen mahdollinen toiminta ja interaktiot muiden proteiinien kanssa (InterPro-tietokanta), sekä saada tietoa
proteiinin liittymisestä tiettyihin ihmisen sairauksiin.
Toisinaan on tarpeen selvittää nukleotidisekvenssiä vastaava proteiinisekvenssi. Tämä onnistuu helposti käyttäen EMBL-tietokantaa. Jokaisen EMBL-tietokannassa olevan nukleotidisekvenssin yhteyteen on nimittäin talletettu sen translaatiotuote. Lisäksi EMBL-tietueissa on ristiviite UniProt-tietokantaan talletettuun aminohapposekvenssiin. Tarvittaessa on tietenkin mahdollista kääntää nukleotidisekvenssi amonihapposekvenssiksi myös käsin.
5
Biotietokannat
57
Aminohapposekvenssin kääntäminen nukleotidisekvenssiksi ei onnistu, koska geneettisessä koodissa yhtä aminohappoa vastaa useampi DNA:n emäskolmikko (kodoni). Tällöin on tarpeen turvautua aminohapposekvenssitietokantojen ristiviitteisiin. Aminohapposekvenssin tunnistenumeron avulla on mahdollista löytää
SWISS-PROT tietokannasta ristiviite EMBL-tietokantaan, josta puolestaan saa selville proteiinia vastaavan nukleotidisekvenssin.
Kaikkein kattavimmat ristiviitteet löytyvät Ensembl- ja LocusLink-tietokannoista. Niistä voi tehdä hakuja sekä asiasanalla että sekvenssillä, joten kaiken muun
epäonnistuessa kannattanee turvautua genomitietokantoihin tarvittavan tiedon löytämiseksi. Genomitietokannoista löytyvät myös ristiviitteet julkaisutietokantoihin,
jolloin on mahdollista tutustua sekvensseihin liittyviin tieteellisiin artikkeleihinkin.
5.11.4 Tunnistenumerohaku
Tunnistenumero liittyy aina yhteen tietokannassa olevaan sekvenssiin. Sillä on helppo päästä käsiksi alkuperäiseen informaatioon, kunhan tietää mistä tietokannasta
sekvenssi on peräisin.
Jos muistikuva alkuperäisestä tietokannasta on hukassa, kannattaa turvautua
Ensembl-tietokantaan, josta voi tehdä hakuja hyvin monilla erilaisilla tunnistenumeroilla. Tämän jälkeen pääseekin käsiksi sekvenssiin ja muuhun informaatioon
nopeasti, sillä Ensembl:ssä on hyvin kattavat ristiviitteet muihin tietokantoihin.
Alkuperäisen tietokannan ollessa tiedossa voi sekvenssin käydä hakemassa
suoraan sieltä. Sekvenssillä voi sitten jatkaa tarvittavien analyysien tekemistä.
5.12
Tunnistenumeroista
Kun tietokantaan luodaan uusi tietue, joka tietokannasta riippuen sisältää esimerkiksi nukleiinihapposekvenssin ja sen annotaatiot (kuvauksen), luodaan tietueelle
niin sanottu “accession number” (tunnistenumero). Toinen vastaavassa yhteydessä
usein esiintyvä tietuetta vastaava tunniste on “id” (identification). Näiden periaatteellisena erona on, että id:n on tarkoitus olla ihmissilmin luettava ja ymmärrettävä
ja tunnistenumeron on tarkoitus palvella tietokannan sisäistä käyttöä. Kaikissa tietokannoissa ei käytetä molempia, ja niissäkin, joissa molemmat ovat käytössä, on
nykyisin usein tapana käyttää id:nä tunnistenumeroa. Tunnistenumeron käyttö on
ajanut monesti id:n ohi siksi, että uusia sekvenssitietueita syntyy niin nopeasti, ettei
tietokannan ylläpitäjillä ole ollut aikaa keksiä kaikille kuvaavia id:tä. Sekvenssien
tunnistenumerot siis ovat tavallaan historiallisia, sillä ne on annettu tietueille, kun
ne on tuotu tietokantaan, ja tunnistenumero pysyy monesti muuttumattomana, vaikka tietokantaa päivitetäänkin. Eräänä poikkeuksena tähän sääntöön ovat UniGeneja Locuslink-tietokannat, joissa sekvenssijoukon tunnistenumero voi muuttua eri
julkaisujen välillä. Siksi niiden käytössä tulee olla varovainen, ja aina sekvensseihin viitattaessa on turvallisempaa käyttää jonkin primaaritietokannan tunnistenumeroa.
Taulukossa 5.4 on esitetty muutamia esimerkkejä muutamien yleisesti käytettyjen tietokantojen tunnistenumeroista. Jos tapaa uuden tunnistenumeron, eikä ole
varma mistä tietokannasta se on peräisin, voi asiaa pyrkiä selvittämään Ensemblgenomitietokannan avulla. Sen etusivulta löytyvään pikahakuruutuun voi kirjoittaa
tunnistenumeron, ja jos se vastaa jotakin tietuetta jossakin Ensembl:n tunnistamassa tietokannassa, on tuloksena sekä itse tietue, että tieto mistä tietokannasta se on
peräisin.
58
Bioinformatiikan perusteet
Taulukko 5.4: Esimerkkejä muutamien tietokantojen tunnistenumeroista.
Tunnistenumero
XRCC1
M36089
P18887
XRCC1_HUMAN
NM_006297
NP_006388
Hs.98493
ENSG00000073050
ENSO00000262887
7515
IPR002706
Tietokanta
HUGO ID
EMBL accession number
UniProt accession number
UniProt ID
RefSeq, nukleotidisekvenssin accession number
RefSeq, aminohapposekvenssin accession number
UniGene ID
Ensembl, geenisekvessin accession number
Ensembl, aminohapposekvessin accession number
Locuslink ID, Entrez Gene GeneID
InterPro, motiivin accession number
6
Pisteytysmatriisit
6
6.1
59
Pisteytysmatriisit
Pisteytysmatriisit
Sekvenssirinnastuksessa on tärkeää erotella yhteensopivat parit, osumat (match), ja
yhteensopimattomat parit, hudit. Osumat ovat toivottavampia kuin hudit, ja antavat rinnastusta pisteytettäessä myös korkeamman pistemäärän. Osumien ja hutien
saamat pistemäärät ilmoitetaan pisteytysmatriisissa. Pisteytysmatriiseja käytetään
myös fylogeneettisten menetelmien apuna määrittelemään mallin, jonka mukaan
sekvenssien uskotaan evolvoituneen.
Matriisi on rakenteeltaan kaksiulotteinen taulukko, jossa jokainen rivi ja jokainen sarake vastaa yhtä aminohappoa. Tietyn rivin ja sarakkeen yhtymäkohtaa kutsutaan taulukon soluksi tai matriisin alkioksi. Alkiota merkitään usein merkinnällä
Ai j , jossa i tarkoittaa taulukon riviä ja j taulukon saraketta. Esimerkiksi A Ala,C ys
tarkoittaisi siis taulukon kohtaa, jossa alaniini-rivi ja kysteiini-sarake yhtyvät (taulukko 6.1). Solu A Ala,C ys pistemäärän (-2), joka sekvenssirinnastukseen lisätään,
jos alaniini ja kysteiini sattuvat kohdakkain. Diagonaalilla tarkoitetaan alkioiden
muodostamaa ketjua, joka alkaa matriisin vasemmasta yläkulmasta ja päättyy taulukon vasempaan alakulmaan. Matriisit voivat olla symmetrisiä tai epäsymmetrisiä. Pisteytysmatriisit ovat useimmiten symmetrisiä, mikä tarkoittaa, että esimerkiksi alaniinin todennäköisyys muuttua kysteiiniksi on yhtä suuri kuin kysteiinin
todennäköisyys korvautua alaniinilla.
Taulukko 6.1: Esimerkki pisteytysmatriisin ensimmäisistä riveistä ja sarakkeista. Diagonaalialkiot (tai solut) on väritetty harmaiksi. Alkiota AAla,Cys vastaavat taulukon kohdat
on ympyröity.
Ala
Arg
Asn
Asp
Cys
Ala
2
-2
0
0
-2
Arg
-2
6
0
-1
-4
Asn
0
0
2
2
-4
Asp
0
-1
2
4
-5
Cys
-2
-4
-4
-5
12
Yksinkertaisimmillaan pisteytysmatriisissa voidaan antaa yksi piste jokaisesta
osumasta ja nolla pistettä jokaisesta hudista. Useimmiten pisteytysmatriisit kuitenkin perustuvat aminohappojen kemialliseen tai rakenteelliseen samankaltaisuuteen
tai evolutiiviseen konservoitumiseen. Käytetyimmät pisteytysmatriisit ovat Dayhoffin PAM-matriisit (1978) ja Henikoffin BLOSUM-matriisit (1992). PAM-matriisit
perustuvat evolutiiviseen ajatteluun ja BLOSUM-matriisit konservoituneiden proteiinisekvenssien (blokkien) samankaltaisuuksiin.
60
Bioinformatiikan perusteet
6.2 PAM-matriisit aminohapoille
PAM (Percent Accepted Mutation) -matriisissa ilmoitetaan todennäköisyys, että
homologisissa aminohapposekvensseissä aminohapot korvautuvat toisilla aminohapoilla tai pysyvät ennallaan evoluution kuluessa. Nykyisissä aminohapposekvensseissä voidaan havaita vain sellaisia muutoksia, joita luonnonvalinta ei ole karsinut.
Tällaisia muutoksia kutsutaan hyväksytyiksi (accepted), mistä matriisien nimikin
juontaa juurensa.
Yksi hyväksytty aminohappomutaatio sataa aminohappo kohden vastaa yhtä PAM-yksikköä. Matriisit on nimetty sen mukaan, kuinka montaa hyväksyttyä
muutosta sataa aminohappoa kohden se vastaa. Esimerkiksi matriisi PAM250 vastaa 250 tapahtunutta muutosta. Vastaavasti matriisi PAM1 vastaa vain yhtä ainutta
mutaatiota sataa aminohappoa kohden. PAM-matriisit muodostavatkin sarjan, jossa
pienet PAM-arvot (1-5) ilmoittavat suoraan tapahtuneiden muutosten määrän sataa
aminohappoa kohden. Suuremmat arvot (>5) ottavat huomioon myös takaisinmutaatiot ja useammat samaan sekvenssikohtaan sattuneet mutaatiot. Tällöin PAMmatriisin arvo ei enää suoraan vastaa hyväksyttyjen muutosten määrää sataa aminohappoa kohden (taulukko 6.2).
Taulukko 6.2: Sekvenssien samankaltaisuuksien ja niille sopivien PAM-matriisien vastaavuus. Huomaa, että PAM-matriisien kuvastaa vertailtavien sekvenssien erilaisuutta eikä
samankaltaisuutta. Jos evolutiivinen etäisyys ei vastaa PAM-sarjan matriisia, on sopivan
PAM-matriisin arvo ilmoitettu sulkeissa varsinaisen evolutiivisen etäisyyden jälkeen.
Sekvenssien samankaltaisuus
99%
90%
80%
60%
40%
20%
Evolutiivinen etäisyys (PAM-matriisi)
1 PAM
11 PAM
23 (20) PAM
56 (60) PAM
112 (120) PAM
246 (250) PAM
Jos esimerkiksi kaksi proteiinia ovat 50% samankaltaisia (tai 50% erilaisia), on
niiden kehittymiseen tarvittu 83 aminohappomuutosta, sillä 50% samankaltaisuutta vastaa PAM-matriisi 83. Toisin sanoen, vaikka korvautumisia on havaittu 50 sataa aminohappo kohden, on korvautumisia todellisuudesssa tapahtunut 83. Ylimääräiset 33 korvautumista ovat takaisinmutaatioita, joita ei voida kahden sekvenssin
vertailulla edes havaita.
Sekvenssirinnastusten pisteyttämiseen on tärkeää käyttää sellaista PAM-matriisia,
joka vastaa sekvenssien havaittua samankaltaisuusastetta (taulukko 6.2). Samankaltaisuuden arvioiminen ennen sekvenssien rinnastamista on kuitenkin vaikeaa, joten
yleensä käytetään jotakin arviokaupalla valittua matriisia. Kun ensimmäinen rinnastus on tehty, voidaan samankaltaisuusaste arvioida jo paremmin, ja sekvenssit
voidaan rinnastaa uudelleen sopivampaa PAM-matriisia käyttäen. Kaukaisista sukulaisista peräisin oleville sekvensseille sopii aluksi PAM250-matriisi, keskimääräisille sekvensseille soveltuvat PAM120- ja PAM80-matriisit ja lähisukuisten sekvenssien rinnastuksen voi aloittaa PAM20-matriisilla.
PAM-matriiseja on kritisoitu siitä, etteivät ne välttämättä ole parempia kuin
yksinkertaiset pisteytysmatriisit, jotka perustuvat esimerkiksi aminohappojen kemialliseen ryhmittelyyn. Lisäksi PAM-matriisit on muodostetty pienten ja globulaaristen proteiinien, esimerkiksi globiinien, sekvensseistä, eivätkä oletettavasti sovellu erityisen hyvin kalvoproteiinien rinnastuksiin. Näiden ongelmien välttämiseksi voidaankin käyttää proteiiniperhekohtaisia pisteytysmatriiseja. Muita kritiikin aiheita ovat matriisien muodostuksessa käytetty mutaatioiden riippumattomuuso-
6
Pisteytysmatriisit
61
letus, käytetyn aineiston pienuus ja oletus, että mutaatioita tapahtuu samalla taajuudella koko sekvenssin pituudelta.
6.3
PAM-matriisien muodostaminen
Dayhoffin PAM-matriisit on muodostettu 71 fylogeneettisen puun perusteella, jotka
edustivat 34:ää proteiiniperhettä (Dayhoff, 1978). Puissa havaittiin yhteensä 1572
mutaatiota. Proteiiniperheiden sisäinen sekvenssien samankaltaisuusaste oli 85%
luokkaa, joten havaitut mutaatiot eivät yleensä vaikuttaneet proteiinin toimintaan,
eikä useita takaisinmutaatioita ollut oletettavissa.
Havaituista mutaatioista muodostettiin A-matriisi (Accepted point mutations).
A-matriisin alkio Aij kertoo kuinka monta kertaa aminohappo i on korvautunut
aminohapolla j. Esimerkiksi, kaikista 1572 havaitusta korvautumisesta fenyylialaniini oli vaihtunut 260 kertaa tyrosiiniin. Eli, A Phe,T yr = 260.
A-matriisin perusteella jokaiselle aminohapolle laskettiin mutatoitumisherkkyys (relative mutability), joka ilmoittaa kuinka yleistä kunkin aminohapon mutatoituminen ylipäätään on. Mutatoitumisherkkyys (taulukko 6.3) saatiin jakamalla
aminohapossa i havaittujen mutaatioiden lukumäärä (A-matriisista saatu arvo) aminohapon i kokonaislukumäärällä.
Taulukko 6.3: Aminohappojen mutatoitumisherkkyys. Dayhoffin alkuperäiseen aineistoon perustuvat arvot on ilmoitettu vuodelta 1978. Jonesin vuonna 1992 muodostamien
JTT-matriisien arvot on ilmoitettu vertailun vuoksi. Lukuarvot on suhteutettu alaniiniin
(100).
Aminohappo
A
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
Y
1978
100
20
106
102
41
49
66
96
56
40
94
134
56
93
65
120
97
74
18
41
1991
100
44
86
77
51
50
91
103
72
54
93
104
58
84
83
117
107
98
25
50
Mutatoitumisherkkyyden ja A-matriisin avulla jokaiselle aminohapolle laskettiin mutaatiotodennäköisyysmatriisi MPM (mutation probability matrix, taulukko 6.1). MPM-matriisin alkiot kertovat todennäköisyydet, että aminohappo sarak-
62
Bioinformatiikan perusteet
keessa j korvautuu aminohapolla rivillä i. MPM-matriisi, joka vastaa yhtä PAMyksikköä, saadaan skaalaamalla (normalisoimalla) saadun MPM-matriisin alkiot
siten, että kaiken kaikkiaan mikä tahansa aminohappo mutatoituu toiseksi 1% todennäköisyydellä (PAM1-matriisi).
Kuva 6.1: PAM1-mutaatiotodennäköisyysmatriisi. Sarakkeet kertovat alkuperäisen aminohapon, rivit korvaavan aminohapon. Todennäköisyydet on taulukoinnin helpottamiseksi
kerrottu 10 000:lla, joten esimerkiksi alaniini on korvautunut seriinillä 0,28% tapauksista.
Muut PAM-matriisit saadaan kertomalla PAM1 itsellään n kertaa, jossa n vastaa halutun PAM-matriisin numeroa. PAM250 on siis saatu kertomalla PAM1 250
kertaa itsellään ja vastaa 250% muutosta aminohapposekvensseissä. Matriisien kertominen itsellään ei onnistu lukion matematiikan tiedoilla, vaan vaatii matriisilaskennan alkeiden opettelua. Onneksi myös monet matemaattiset ohjelmistot, kuten
MatLab), osaavat matriisilaskentaa.
Mutaatiotodennäköisyysmatriiseja ei kuitenkaan käytetä suoraan sekvenssien
rinnastukseen, vaan saatuja todennäköisyyksiä verrataan todennäköisyyteen, että
tietty aminohappomuutos johtuu ennemmin sattumasta kuin evoluutiosta. Sattuman todennäköisyys riippuu ainoastaan aminohapon suhteellisesta taajuudesta tutkitussa aineistossa. Todennäköisyys, että mutaatio on evoluution tulosta, voidaan
siis laskea jakamalla aminohapon mutaatiotodennäköisyys sen taajuudella. Koska
mutaatiotodennäköisyys on esitetty erikseen esimerkiksi mutaatioille Phe -> Tyr
ja Tyr->Phe, ne jaetaan kumpikin omilla aminohappofrekvensseillään, ja saaduista
luvuista otetaan keskiarvo. Lopputuloksena saatua relatedness odds-matriisia voidaan käyttää rinnastusten pisteyttämiseen.
Rinnastuksen pistemäärä voidaan laskea kertomalla aminohappoparien relatedness odds-todennäköisyydet keskenään. Koska rinnastukset useimmiten lasketaan tietokoneella, ei relatedness odss-matriisia kuitenkaan käytetä, koska kertolasku kuluttaa varsin paljon laskenta-aikaa. Tästä syystä relatedness odds-matriisin todennäköisyyksistä lasketaan log of odds-matriisi (MD-matriisi). MD-matriisi muodostetaan ottamalla relatedness odds-matriisin arvoista kymmenkantainen logaritmi ja kertomalla logaritmiarvot kymmenellä kokonaislukujen saamiseksi. Käyttäen
MD-matriisin logaritmisia arvoja, voidaan rinnastuksen pistemäärä saada yhteenlaskulla, mikä on tietokoneistettuna nopeampaa kuin kertolasku relatedness odssmatriisin arvoilla.
MD-matriisissa positiiviset luvut merkitsevät (taulukko 6.2), että kahden aminohapon osuminen kohdakkain johtuu todennäköisemmin yhteisestä alkuperästä
kuin sattumasta. Negatiiviset luvut merkitsevät, että kahden aminohapon rinnastus
johtuu todennäköisesti sattumasta. Aminohappoparin saadessa arvon 0, on molempien tapahtuminen (evoluutio / sattuma) todennäköisyys sama.
Valmiille MD (PAM) -matriiseille ilmoitetaan relatedness odss-matriisin muuntokaava (scale), pisteiden keskiarvo tai oletusarvo (expected score) ja entropia (entropy) niiden otsikossa (kuva ??). Muuntokaava ilmoittaa arvon, jolla relatedness
6
Pisteytysmatriisit
63
Kuva 6.2: PAM250-matriisi. Diagonaalialkiot kertovat todennäköisyydet, että aminohappo ei mutatoidu. Sarakkeen ja rivin leikkauskohdat ilmoittavat todennäköisyydet, että
aminohappo muuttuu juuri tällä määrätyllä tavalla.
odds-matriisin arvot on kerrottu PAM-matriisin tuottamiseksi. Oletusarvo on kahden täysin satunnaisen rinnastuksen saama pistemäärä. Oletusarvon tulee olla negatiivinen tilastollisista ja loogisista syistä: Satunnaisten sekvenssien ei tule rinnastua
merkittävästi. Entropia kuvaa kahden emäksen rinnastuksen sisältämää informaatioarvoa. Informaatioarvo puolestaan kuvastaa matriisin tehokkuutta erottaa satunnaiset muutokset todellisista muutoksista. Matriisit, joilla on suuri entropia, ovat
käyttökelpoisia lähisukuisille sekvensseille, ja matriisit, joiden entropia on pieni,
soveltuvat parhaiten kaukaisten sekvenssien rinnastukseen.
\# \# This matrix was produced by "pam" Version 1.0.6 [28-Jul-93]
\# \# PAM 250 substitution matrix, scale = ln(2)/3 = 0.231049
\# \# Expected score = -0.844, Entropy = 0.354 bits
\# \# Lowest score = -8, Highest score = 17
Kuva 6.3: PAM250-matriisin otsikkotiedot.
PAM-matriisin entropia määritään seuraavasti. Matriisin suhteellinen entropia
(H) ilmoittaa, kuinka hyvin matriisi erottelee todelliset sekvenssirinnatukset satunnaisista rinnastuksista. Yksittäisen aminohappoparin entropia lasketaan kertomalla
sen si j (biteissä, log2-muunnettu relatedness odds-arvo) q i j :llä, joka on aminohapon esiintymistodennäköisyys alkuperäisessä aineistossa. Lopuksi aminohappopa-
64
Bioinformatiikan perusteet
rien entropiat lasketaan yhteen matriisin suhteellisen entropian selvittämiseksi:
H=
2
i
0
qi j si j
i=1
j =1
PAM250-matriisin entropia on noin 0.36, PAM120:n 0.98 ja PAM160:n 0.70.
6.4 BLOSUM-matriisit aminohapoille
Blosum-matriisit on muodostettu Blocks-tietokannasta, jonne on talletettu tietyille
proteiiniperheille ominaisia sekvenssialueita, blokkeja (Henikoff, 1992). Matriisien
muodostamiseen käytettiin liki 2000 blokkia, jotka kuuluivat yli 500 proteiiniperheeseen. Proteiiniperheeseen kuuluvat proteiinit ovat kemiallisilta toiminnoiltaan
samankaltaisia. Samaan perheeseen kuuluvista proteiineistä löytyy usein konservoituneita alueilta, jotka voidaan rinnastaa ilman, että yhtäkään aukkoa tarvitsisi
lisätä. Tällä tavoin rinnastuvia alueita kutsutaan blokeiksi.
Blosum-matriisien muodostamiseksi blokeista laskettiin sarake kerrallaan tapahtuneiden mutaatioiden määrä. Lähisukuisissa sekvensseissä voi kuitenkin tapahtua muutoksia tavanomaista useammin, mikä voi johtaa mutaatioiden määrän
yliarvioimiseen. Lähisukuisten sekvenssien vääristävän vaikutuksen poistamiseksi sekvenssit sijoitettiin ensin ryhmiin sekvenssien samankaltaisuuden perusteella.
Esimerkiksi, sekvenssiryhmästä, jonka keskimääräinen samankaltaisuus oli 60%
muodostettiin BLOSUM60-matriisi. Vastaavasti 80% samankaltaisten sekvenssien
perusteella muodostettiin BLOSUM80-matriisi. Matriisin numeroarvon perusteella voidaankin päätellä, minkälaisten sekvenssijoukkojen rinnastamiseen sitä tulisi
käyttää: BLOSUM60-matriisi soveltuu 60% samankaltaisten sekvenssien rinnastamiseen.
Blosum-matriisit ilmoitetaan PAM-matriisien tapaan log of odds-matriisina,
jossa aminohappojen korvautumistodennäköisyydet useimmiten ilmoitetaan bitteinä (log2) tai puolibitteinä (2 * log2). Taulukko 6.4 antaa esimerkin BLOSUM62matriisista.
6.5 PAM- ja Blosum-matriisien erot
Tärkein ero PAM- ja Blosum-matriisien välillä on tapa, jolla ne on muodostetty. PAM-matriisit on muodostettu yli 85% samankaltaisista aminohapposekvensseistä, joista on ensin muodostettu proteiinien evolutiivisia suhteita kuvaava puukaavio. PAM-matriisien voidaankin kuvitella kuvaavan ensimmäisiä mutaatioita,
jotka tapahtuvat proteiinien evolvoituessa (kehittyessä) yhteisestä kantamuodosta. Blosum-matriisit sen sijaan eivät perustu tarkkaan määritellylle evolutiiviselle
oletukselle. Blosum-matriisien muodostamiseen on kuitenkin käytetty proteiineja,
joiden biokemiallisten ominaisuuksien tiedetään olevan samanlaiset, joten voidaan
olettaa, että proteiineilla on yhteinen kantamuoto, josta ne ovat kehittyneet. Tällaista evolutiivista oletusta voidaan kuvata tähtimäisellä puukaaviolla, jossa samasta pisteestä lähtee useita haaroja.
Käytännölliseltä kannalta PAM- ja Blosum-matriisien käyttö eroaa juuri niiden muodostamisessa tarvittujen oletusten vuoksi. PAM-matriiseja käytetään usein
proteiinievoluutiotutkimuksissa. Blosum-matriisit soveltuvat PAM-matriiseja paremmin sekvenssihakuihin, koska ne on erityisesti suunniteltu tunnistamaan proteiineille yhteisiä blokkeja. Lisäksi matriisien numeroimistapa on erilainen. PAMmatriisin numeroarvo ilmoittaa tapahtuneen evoluution määrän, eli verrattavien sekvenssien erilaisuusasteen. Blosum-matriisien numeroarvo puolestaan ilmaisee verrattavien sekvenssien samankaltaisuusasteen.
6
Pisteytysmatriisit
65
Kuva 6.4: BLOSUM62-matriisi. Diagonaalialkiot kertovat todennäköisyydet, että aminohappo ei mutatoidu. Sarakkeen ja rivin leikkauskohdat ilmoittavat todennäköisyydet, että
aminohappo muuttuu juuri tällä määrätyllä tavalla.
6.6
Muut aminohappomatriisit
PAM- ja Blosum-matriisien lisäksi yleisesti käytetään Gonnet- ja JTT-matriiseja.
Gonnet-matriisi (Gonnet, 1992) perustuu koko tunnetun aminohapposekvenssitietokannan rinnastukseen. Rinnastuksesta tunnistettiin yhtenäiset, aukottomat alueet,
ja matriisit muodostettiin jotensakin kuten Blosum-matriisit. JTT-matriisit (Jones,
1992) perustuvat myös koko aminohapposekvenssitietokantaan, ja ne on muodostettu kuten PAM-matriisit. Koska JTT-matriisit on muodostettu suuremmasta tietokannasta, kuvaavat JTT-matriisit PAM-matriiseja tarkemmin proteiinievoluutiota ja nykyistä sekvenssitietokannan sisältöä. Esimerkiksi, aminohappojen taajuudet tietokannassa vuosina 1978 ja 1992 ovat olleet hieman erilaiset (taulukko 6.3).
Proteiinievoluutiotutkimuksissa olisikin nykyisin suotavaa käyttää enemmin JTTmatriiseja kuin PAM-matriiseja.
Aminohappojen kemiallisten ominaisuuksien perusteella laadittuja matriiseja ei enää suosita, sillä empiiriset matriisit, kuten PAM ja Blosum, sisältävät saman informaation, mutta lisäinformaatiolla höystettynä. PAM-matriisi ilmoittaa, että kemialtaan samankaltaisten aminohappojen välillä tapahtuu enemmän vaihdoksia kuin kemiallisesti kovin erilaisten aminohappojen välillä. Lisäksi PAM-matriisit
sisältävät informaatiota aminohappomuutosten evolutiivisestä tärkeydestä, joten se
on tarkempi kuin pelkille kemiallisille eroille rakentuvat matriisit.
66
7
Bioinformatiikan perusteet
Aukkosakot
7.1 Nykyisin käytetyt aukkosakkomallit
Aukot, joiden voidaan ajatella merkitsevän insertioita ja deleetioita, aiheuttavat aina rinnastuksen pistemäärän laskua, jos ne huomioidaan. Aukkosakkojen avulla
määritellään, kuinka paljon rinnastuksen pistemäärä laskee.
Tietokonealgoritmit tekevät rinnastukseen aukkoja alueille, jotka eivät osu kovin hyvin kohdakkain. Tämä parantaa rinnastuksen kokonaispistemäärää, ja tuottaa siis optimaalisen rinnastuksen. Aukkojen muodostumista voidaan kuvata useilla
tavoilla. Yksinkertaisimmassa aukkomallissa (Smith, 1981) sakotetaan vain aukon
muodostamisesta. Tällöin rinnastuksen pistemäärästä vähennetään
Wx = g ∗ x,
jossa Wx on aukoista johtuva kokonaispistemäärästä tehtävä vähennys, g on
yhdestä aukosta johtuva pistemäärän vähennys, ja x on aukkojen lukumäärä. Useimmiten jokaisesta rinnastukseen lisättävästä tavuviivasta (aukosta) vähennetään aukkosakko, vaikka uusi tavuviiva lisättäisiinkin jo olemassaolevan tavuviivan yhteyteen. Tämä ei ole biologisesti täysin realistista, sillä aukon syntyminen on evolutiivisesti kallista, eli aukot ovat yleensä varsin harvinaisia. Tällöin aukon avaamisesta
ja sen jatkamisesta pitäisikin sakottaa erikseen. Tällainen malli (affine gap) onkin
yleisimmin käytetty, ja se voidaan esittää muodossa
Wx = g + r ∗ x
tai yleisemmin käytetyssä muodossa
Wx = g + r ∗ (x − 1),
joissa Wx on aukoista johtuva kokonaispistemäärästä tehtävä vähennys, g on aukon
muodostamisesta johtuva sakko, r on aukon laajennuksesta johtuva sakko ja x on
aukon pituus. Yleensä aukon avaamisesta sakotetaan suhteessa enemmän kuin sen
laajentamisesta. Monimutkaisempiakin aukkomalleja on kehitetty (Miller, 1988),
mutta aukon pituuden mukaan muuttuva sakko on nykyisin yleisimmin käytetty.
Aukkosakkoparametrit määräytyvät usein käytetyn pisteytysmatriisin perusteella. Aukkosakkojen arvoista ei ole olemassa mitään varsinaista sääntöä, mutta
useimmat tietokoneohjelmat käyttävät sellaisia sakkoja, joiden on havaittu sopivan valittuun pistetysmatriisiin parhaiten. Esimerkiksi jos halutaan muodostaa kokonaisrinnastus, käytetään BLOSUM50-matriisin kanssa usein sakkoja -12 aukon
avaamiselle ja -2 sen laajentamiselle. Vastaavat aukkosakot BLOSUM62-matriisille
olisivat -14 ja -4 kokonaisrinnatusta muodostettaessa.
Jos aukkosakot ovat korkeita pisteytysmatriisin keskimääräiseen pistemäärään
nähden, rinnastus sisältää vähän aukkoja. Aukkosakkojen ollessa matalia suhteessa
käytettyyn pisteytysmatriisiin, sisältää rinnastus vain vähän aukkoja. Jos kokonaisrinnastuksessa käytetään hyvin korkeita aukkosakkoarvoja, on tuloksena paikallinen rinnastus. Jos aukkosakot ovat sopivia tai matalia, on tuloksena tavanomainen
kokonaisrinnastus.
7
Aukkosakot
67
Usein sekvenssirinnastuksen loppuun syntyy alue, jossa toinen sekvenssi päättyy aukkoon. Dynaamiset optimointimenetelmät tuottavat erilaisen tuloksen riippuen siitä, vähennetäänkö lopussa olevien aukkojen pistemäärä kokonaispistemäärästä vai ei. Jos vertaillaan kahta homologista ja samanpituista sekvenssiä, on syytä vähentää aukkojen pistemäärä kokonaispistemäärästä. Jos sen sijaan sekvenssit
ovat eri mittaisia, ei aukoista sakottaminen ole mielekästä. Tuntemattomien sekvenssien tapauksessa aukkosakkojen vähentämisen vaikutus rinnastukseen on erikseen testattava.
68
8
Bioinformatiikan perusteet
Kahden sekvenssin
rinnastus
8.1 Kahden sekvenssin rinnastusmenetelmät
Kahden sekvenssin rinnastuksen (pairwise alignment) päämääränä on selvittää, kuinka samanlaisia tai samankaltaisia sekvenssit ovat keskenään. Näin voidaan muun
muassa selvittää, onko sekvensseissä samanlaisia toiminnallisia alueita (domains)
tai sijaitsevatko proteiinien rakenteet (disulfidisillat) samoilla kohdin.
Samankaltaisilla sekvensseillä voi olla samanlainen tehtävä, kolmiulotteinen
proteiinirakenne tai yhteinen kantamuoto. Sekvenssejä, joilla on yhteinen kantamuoto, kutsutaan homologisiksi sekvensseiksi. Analogisiksi sekvensseiksi kutsutaan sellaisia, jotka ovat hyvin samankaltaisia, ja toimivat solussa samaan tapaan,
mutta eivät ole kehittyneet yhteisestä kantamuodosta. Esimerkiksi samansuuntainen evoluutio tai horisontaalinen geeninsiirto voi johtaa analogisten sekvenssien
kehittymiseen.
Homologiset sekvenssit jaetaan usein edelleen kahteen ryhmään, joilla on erilainen evoluutiohistoria. Jos kahdella eri lajilla on samanlainen ja samantoiminen
sekvenssi (useimmiten geeni), kutsutaan sitä ortologiseksi sekvenssiksi. Jos sekvenssien samankaltaisuus johtuu geenin kahdentumisesta yhden lajilinjan sisällä,
kutsutaan näin syntyneitä sekvenssejä paralogisiksi. Esimerkiksi hiiren ja ihmisen
alfa-hemoglobiinit ovat ortologisia, mutta alfa ja theta (alfan kaltainen hemoglobiini) paralogisia.
Sekvenssejä, jotka muistuttavat toisiaan hyvin paljon, sanotaan samankaltaisiksi. Samankaltaisuutta voidaan mitata vaikkapa prosentteina. Sen sijaan homologia on joko-tai -tyyppien ominaisuus. Sekvenssit joko ovat homologisia tai eivät
ole homologisia. Näiden väliin ei jää harmaata aluetta. Yleistäen voidaan sanoa, että mitän samankaltaisempia sekvenssit ovat, sitä suuremmalla todennäköisyydellä
sekvenssit ovat myös homologisia.
8.2 Mikä on sekvenssirinnastus?
Rinnastuksessa sekvenssit järjetetään allekkain niin, että samanlaiset (identical)
tai samankaltaiset (similar) merkit ovat samassa sarakkeessa. Yhteensopimattomat
merkit laitetaan joko samaan sarakkeeseen, jolloin kyseessä on huti (mismatch)
tai eri sarakkeisiin, jolloin rinnastukseen syntyy aukko (gap). Parhaassa mahdollisessa rinnastuksessa on mahdollisimman monta samanlaista merkkiä allekkain ja
mahdollisimman vähän yhteensopimattomia merkkejä ja aukkoja. Kuvassa 8.1 on
esitetty kolme esimerkkiä kahden sekvenssin rinnastuksesta.
Sekvenssirinnastus voidaan tehdä joko kokonaisrinnastuksena (global alignment) tai paikallisrinnastuksena (local alignment). Kokonaisrinnastuksessa pyritään rinnastamaan sekvenssit koko pituudeltaan. Paikallisrinnastuksessa puolestaan
pyritään löytämään sekvensseistä kaikkain samankaltaisimmat alueet, jotka rinnastetaan.
8
Kahden sekvenssin rinnastus
69
ACGTACGT
ACGTACGT
|| ||| |
ACCTAC-T
ACCTAC-T
VEEGYR
||:|
FEESYM
Kuva 8.1: Vasemmassa reunassa on nukleotidisekvenssirinnastus, jossa on merkitty palkilla (|) yhteensopivat nukleotidit. Yhteensopimattomat nukleotidit on merkitty välilyönnillä ( ). Rinnastuksen vaatimaa aukkoa on merkitty katkoviivalla (-). Keskimmäinen rinnastus on samanlainen kuin vasemmanpuoleinen, mutta nukleotidien samankaltaisuus on
jätetty erikseen korostamatta. Oikealla on esimerkki aminohapposekvenssirinnastuksesta,
jossa samanlaiset aminohapot on merkitty palkilla (|) ja samankaltaiset kaksoispisteellä (:).
Yhteensopimattomat aminohapot on merkitty välilyönnillä ( ).
Kokonaisrinnastus sopii esimerkiksi sekvensseille, jotka ovat peräisin samasta
geenistä, ja joissa ei ole suuria eroavia osia. Paikallisrinnastus sen sijaan soveltuu
sekvensseille, jotka ovat eri mittaisia, ja joissa osa alueista on samankaltaisia, mutta jotka muuten voivat poiketa toisistaan. Paikallisrinnastusta käytetään erityisesti,
jos kahdessa sekvenssissä olevat samankaltaiset alueet, esimerkiksi domeenit, halutaan rinnastaa toisiinsa niiden sijainnista riippumatta. Kuva 8.2 havainnollistaa
kokonais- ja paikallisrinnastuksen eroja.
Kuva 8.2: Kuvassa on esitetty neljän proteiinin rakenne domeeneina (neliöt, vinoneliöt ja
kolmio). Kaksi ylintä sekvenssiä on kokonaisrinnastettu, jolloin domeenit osuvat kohdakkain ja rinnastukseen on syntynyt yksi aukko (ei viivaa). Alimmat sekvenssit muodostavat
paikallisen rinnastuksen. Sekvenssejä yhdistää ainoastaan yksi samankaltainen domeeni
(neliö), ja muilta osin sekvenssit eroavat, minkä vuoksi rinnastuksessa on useampia aukkoja. Useimmiten paikallisista rinnastuksista esitetään vain samankaltaiset alueet, ja muut
alueet jätetään huomiotta.
Kahden sekvenssin rinnastukseen käytetään lähinnä kolmea eri menetelmää,
pistematriisia (dot plot), dynaamisia algoritmeja (dynamic programming) ja k-tuple
(sanakoko) -menetelmää. Sanakokomenetelmiä, kuten BLAST ja FastA käytetään
yleensä vain sekvenssihauissa tietokannoista.
70
Bioinformatiikan perusteet
8.3 Sekvenssirinnastusten kuvaaminen tietokoneelle
Nykyisin suurin osa sekvenssirinnastuksista tuotetaan tietokoneella. Ihmissilmin on
suhteellisen helppo havaita, että kuvan 8.1 aukollinen nukleotidisekvenssirinnastus
on parempi kuin vastaava rinnastus ilman aukkoa. Hyvän sekvenssirinnastuksen
kuvaaminen tietokoneelle ei kuitenkaan ole yhtä helppoa. Avuksi tarvitaankin pisteytysmatriisia ja aukkosakkoja, joilla määritellään kuinka rinnastus muodostetaan
ja pisteytetään. Pisteytyksen perusteella valitaan parhaan pistemäärän saanut rinnastus optimaalisimmaksi.
8.4 Rinnastuksen pistemäärän laskeminen
Paras rinnastus on sellainen, joka saa suurimman pistemäärän käytetyillä kriteereillä. Osumien ja hutien antama positiivinen tai negatiivinen pistemäärä määräytyy pisteytysmatriisin perusteella, ja mahdollisista aukoista muodostuva sakkoriippu valituista parametreista. Matemaattisesti tämä voidaan ilmaista seuraavasti kahdelle sekvenssille:
Aukkosakko, jos sekvenssi 1 i = − tai sekvenssi 2i = −
n
Osuma,
jos ei aukkoa j a sekvenssi 1 i = sekvenssi 2i
i=1
H uti ,
jos ei aukkoa j a sekvenssi 1 i ¬sekvenssi 2i
jossa n on pidemmän sekvenssin pituus. Eli, kun kahdesta sekvenssistä muodostetaan kokonaisrinnastus, tarkastellaan sekvenssejä koko pituudeltaan yksi sekvenssipaikka kerrallaan. Jokaisen paikan antama positiivinen tai negatiivinen arvo
lisätään tai vähennetään rinnastuksen kokonaispistemäärästä. Korkeimman pistemäärän saanut rinnastus on optimaalinen valitulla pisteytysmatriisilla ja aukkosakkoarvoilla.
Kuvassa 8.3 on esitetty neljä erilaista sekvenssirinnastusmahdollisuutta kahdelle sekvenssille. Jotta paras rinnastus voidaan valita, pitää kukin rinnastus pisteyttää. Ennen pisteytystä valitaan käytettävä pisteytysmatriisi ja siihen sopivat aukkosakot. Erilaisille aminohappomatriiseille on määritelty niiden kanssa erityisin hyvin
sopivat aukkosakkoarvot, mutta DNA-sekvensseille ei ole yhtä selviä suosituksia.
Yleensä käytetään aukonlaajennussakkoja, joka on noin 10% aukonavaussakosta.
AATCTATA
AATCTATA
AATCTATA
AATCTATA
AAG-AT-A
AA-G-ATA
AA--GATA
AAGATA--
Kuva 8.3: Neljä kahden sekvenssin rinnastusta. Rinnastukset vasemmalta oikealle: A, B,
C, D.
Valitaan tässä käytettäväksi BLAST-matriisi DNA-sekvensseille, ja aukon avaamissakoksi 11 ja laajennussakoksi 1. BLAST-matriisi antaa jokaiselle osumalle 5
pistettä ja hudeille -4 pistettä. Tällöin rinnastukset A-D saavat pistemäärät:
A: 5 + 5 + (-4) + (-11) + (-4) + (-4) + (-11) + 5 = -19
B: 5 + 5 + (-11) + (-4) + (-11) + 5 + 5 + 5 = -1
C: 5 + 5 + (-11) + (-1) + (-4) + 5 + 5 + 5 = +9
D: 5 + 5 + (-4) + (-4) + 5 + 5 + (-11) + (-1) = 0
Parhaaksi rinnastukseksi valitaan näin rinnastus C, jossa on yksi pitkä aukko keskellä. Erilaisilla asetuksilla jokin toinen rinnastus olisi voinut saada parhaan piste-
8
Kahden sekvenssin rinnastus
71
määrän. Rinnastus onkin aina riippuvainen valituista asetuksista. Käytännössä sekvenssejä rinnastettaessa onkin syytä kokeilla useita erilaisia asetuksia, ja arvioida
rinnastuksia silmämääräisesti, sillä tietokoneen ilmoittama paras rinnastus ei aina
ole biologisesti parhain rinnastus.
Sekvenssien pituuden (n) kasvaessa mahdollisten erilaisten rinnastusmahdollisuuksien määrä [(2n)!/(n!)2] kasvaa eksponentiaalisesti. Kaikkien mahdollisten
vaihtoehtojen läpikäyminen tulee ennen pitkää mahdottomaksi. Ongelman ratkaisemiseksi onkin kehitetty dynaamiseen optimointiin perustuvia menetelmiä, jotka
löytävät aina optimaalisen rinnastusratkaisun tietyille asetuksille. Ennen NeedlemanWunschin ja Smith-Watermanin dynaamisiin optimointialgoritmeihin perehtymistä
tarkastellaan yksinkertaisinta rinnastusmenetelmää, pistematriisimenetelmää.
8.5
Pistematriisimenetelmä
Pistematriisimenetelmä (dotplot) tarjoaa visuaalisen mahdollisuuden tarkastella kahden sekvenssin samankaltaisuutta. Pistematriisin avulla on helppo muodostaa karkea kuva suhteellisten samankaltaisten sekvenssien rinnastuvuudesta, ja samalla
voidaan selvittää mahdollisten toistojaksojen ja inversioiden sijainti. Dynaamiseen
optimointiin perustuvat menetelmät eivät osaa linjata inversioita sisältäviä sekvenssejä oikein, joten niiden olemassaolo on ennen varsinaisen optimaalisen rinnastuksen laatimista selvitettävä pistematriisimenetelmällä. Toistojaksot voivat häiritä sekvenssihakuja tietokannoista.
Pistematriisimenetelmässä toinen rinnastettavista sekvensseistä sijoitetaan kaksiulotteisen taulukon vaakariville ja toinen pystyriville. Tämän jälkeen vaaka- ja
pystyrivejä verrataan merkki kerrallaan, ja aina samanlaisten merkkien sattuessa
kohdakkain merkitään taulukon soluun piste. Molemmissa sekvensseissä sijaitsevat
samanlaiset tai samankaltaiset alueet muodostavat taulukkon halkaisijan suuntaisen suoran. Taulukon halkaisijalta sivuun sijoittuvat pisteet ovat sattuman tulosta ja
tuovat pistematriisiin hälyä. Insertiot ja deleetion katkaisevat halkaisijan suuntaisen
pistesuoran, joka saattaa jatkua hetken päästä oikealle tai alas siirtyneenä. Inversiot
havaitaan kuvassa halkaisijaan kohtisuoraan sijoittuneina pisteriveinä. Kuvassa 8.4
on esitetty esimerkki yksinkertaisesta pistematriisista.
Pistekartan havainnollisuutta voidaan usein parantaa suodattamalla hälyä, eli
tarkastelemalla usean nukleotidin tai aminohapon jaksoja yksittäisten nukleotidien
tai aminohappojen sijaan (Kuva 8.5). Tällöin sekvenssejä verrataan toisiinsa liukuvan ikkunan (sliding window) avulla. Sekvenssejä käydään läpi ikkunan mittaisissa palasissa niin, että ikkunaa liutetaan kohta kerrallaan eteenpäin sekvenssiä pitkin. Ainoastaan koko ikkunan mittaisen palasen vastatessa täysin toisen sekvenssin
merkkijonoa, merkitään matriisin pistesuora.
Usein ikkunakokoon perustuvaan vertailuun yhdistetään myös kynnysarvo.
Tällöin pistematriisiin merkitään ikkunan pituinen pistejoukko vain, jos ikkunassa
saavutetaan ennalta määrätty osumia. Aminohapposekvenssien vertailuissa ikkunan kokona käytetään usein kahta tai kolmea aminohappoa. Jos ikkunakooksi valittaisiin kolme ja osumien määräksi kaksi, merkittäisiin matriisin pistesuora vain, jos
kolmen aminohapon mittaisen ikkunan sisällä vähintään kaksi aminohappo osuu
kohdakkain verrattavissa sekvensseissä. Hyvin erilaisten proteiinien samankaltaisia alueita voidaan etsiä käyttämällä pitkää ikkunaa, mutta alhaista osumien määrää, esimerkiksi 20 ja 5. DNA-sekvensseille käytetään yleensä pitkiä ikkunoita,
tyypillisesti 15 nukleotidia ja 10:tä osumaa.
Yksinkertaisen huti/osuma -pisteytyksen sijaan voidaan osumien pisteyttämisen ikkunan sisällä käyttää myös pisteytysmatriiseja, kuten PAM250 tai Blosum62.
Tällöin matriisin merkitään pistesuora ainoastaan silloin, kun rinnastuksen pistemäärä tai identtisten ja samanlaisten merkkien yhteenlaskettu lukumäärä (similarity score) ylittää määrätyn raja-arvon.
Pistematriisimenetelmän asetuksille on hankalaa asettaa suoraviivaisia suunta-
72
Bioinformatiikan perusteet
R
K
N
E
L
G
A
S
A
G
L
E
R *
K
*
N
*
L
*
*
G
*
*
A
*
*
S
*
A
*
G
*
*
L
*
*
E
*
*
*
Kuva 8.4: Esimerkki pistematriisista. Kun vaakarivin ja pystyrivin merkki täsmäävät,
on pistematriisin merkitty tälle kohdin tähti. Vasemmasta yläreunasta oikeaan alareunaan
etenevän halkaisijan katkaiseen yhden emäksen deleetio: pystysekvenssissä ei ole vastinetta vaakasekvenssin kohdassa 4 olevalle glutamaatille (E). Sekvensseissä olevan inversio (ELGASAGLE) piirtyy kuvaan vasemmasta alakulmasta lähtevänä pistesuorana, joka
suuntautuu kohti oikeaa yläkulmaa.
A
D
E
R
T
S
W
Y
S
T
A*
D
*
D
S
*
R
*
D
E
R
T
S
W
Y
S
T
R
*
S
*
*
W
*
*
Y
*
*
*
T
*
S
*
W
*
S
*
S
*
T
E
A
A*
*
Y
*
*
S
E
*
*
Kuva 8.5: Ikkunan koon vaikutus pistematriisikuvion muodostumiseen. Vasemmanpuoleisessa rinnastuksessa on käytetty sanakokoa 1, jolloin merkkejä vaaka- ja pystyriveillä
on verrattu yksitellen toisiinsa. Samalaisten merkkien sattuessa kohdakkain on taulukkoon
merkitty tähti. Oikeanpuoleisessa rinnastuksessa on sekvenssejä verrattu toisiinsa kaksi
merkkiä kerrallaan*. Merkkiparien ollessa molemmissa sekvensseissä samanlaiset, on kuvioon merkitty tähti. Sanakoon suurentaminen poistaa pistematriisikuviosta taustaa (hälyä), eli satunnaisten merkkien kohdakkain sattumisesta johtuvien halkaisijan ulkopuolelle
sijoittuvien pisteiden määrää. *Ensimmäiseen ikkunaan kuuluvat vaakasekvenssin aminohapot A ja D. Kun niitä vastaavat sekvenssikohdat on pystysekvenssistä löydetty ja merkitty matriisiin, siirretään ikkunaan yhden aminohapon verran eteenpäin. Näin olleen seuraava ikkuna koostuu aminohapoista D ja E. Näin edetään sekvenssin loppuun saakka. Toisinaan käytetään myös ikkunoita, jotka eivät osu päällekkäin. Tällöin ikkunoina olisivat A
ja D, seuraavassa vaiheessa E ja R, ja niin edelleen sekvenssin loppuun saakka edeten.
8
Kahden sekvenssin rinnastus
73
viivoja. DNA:lle kuitenkin käytetään yleensä pidempää ikkunaa ja suhteessa alhaisempaa kynnysarvoa kuin aminohapposekvensseille. Mitä suurempi ikkunakoko ja
raja-arvon sen sisällä on, sitä tehokkaammin satunnaisten osumien aiheuttama häly pistematriisista poistuu. Samankaltaisten alueiden hahmottaminen pistematriisin
avulla perustuu pitkälti yritys-ja-erehdys -menetelmään, jossa ihmissilmin pyritään
tunnistamaan kuviossa olevat pitkät halkaisijan suuntaiset pistesuorat, ja niitä vastaavat sekvenssirinnastukset.
8.6
Dynaaminen optimointi
Dynaamiseen optimointiin perustuvat Needleman-Wunsch- ja Smith-Watermanalgoritmit ovat kaikkein yleisimmin käytetyt kahden sekvenssin rinnastusmenetelmät. Needleman-Wunsch-algoritmi (Needleman, 1970) tuottaa kokonaisrinnastuksen ja Smith-Waterman-algoritmi (Smith, 1981) paikallisen rinnastuksen. Dynaamista optimointia käyttävät menetelmät löytävät takuuvarmasti kaikkein optimaalisimman sekvenssirinnastuksen tiettyä pisteytysmatriisia ja aukkosakkoparametreja käyttäen. Optimaalisimmalla sekvenssirinnastuksella tarkoitetaan tässä sellaista, joka saa kaikkein korkeimman laskennallisen pistemäärän. Optimaalisuus ei ole
kuitenkaan universaalista, sillä optimaalisin rinnastus voi muuttua, jos rinnastuksen
muodostamiseen käytettyjen parametrien arvoja muutetaan. Lisäksi on mahdollista,
että on olemassa useita yhtä optimaalisia sekvenssirinnastuksia samalle sekvenssiparille. Seuraavassa esitellään sekä Needleman-Wunsch- että Smith-Watermanalgoritmien toiminta.
8.7
Needleman-Wunsch-algoritmi
Needleman-Wunschin dynaamisessa optimointialgoritmissa kaksi sekvenssiä asetetaan taulukon pysty- ja vaakariveille samaan tapaan kuin pistematriisimenetelmässä. Erona on, että taulukon ensimmäinen rivi ja sarake varataan aukolle. Kuten pistematriisimenetelmässäkin, tavoitteena on muodostaa yhtenäinen pistesuora
(kokonaisrinnastus) taulukon vasemmasta yläkulmasta oikeaan alakulmaan.
Matriisi alustetaan laskemalla tietyn mittaisten aukkojen aiheuttamat aukkosakot, ja sijoittamalla ne taulukon ensimmäiselle riville ja sarakkeelle. Lisäksi taulukon jokainen solu täytetään pisteytysmatriisin nukleotidi- tai aminohappopareille
antamilla pistemäärillä (tätä ei aina tehdä). Alustettuun matriisiin tullaan vasemmasta ylänurkasta. Tämän jälkeen seurataan korkeimpaan pistemäärän tuottavaa
polkua matriisin oikeaan alanurkkaan. Matriisissa voidaan liikkua joko vaakasuoraan tai pystysuoraan, jolloin rinnastuksen pistemäärästä vähennetään aukosta johtuva sakko, tai vinottain, jolloin rinnastukseen lisätään osumaa vastaava pistemäärä. Paras polku matriisin läpi saavutetaan liikkumalla aina suurimman kokonaispistemäärän tuottavan solun suuntaan. Lopulta optimaalisin polku saadaan selville
palaamalla takaisin vasempaan ylänurkkaan (traceback).
Matemaattisesti Needleman-Wunschin algoritmi voidaan ilmaista seuraavasti. Taulukon muodostavat kaksi sekvenssiä, i ja j . Yhdelle riville tai sarakkeelle on sijoitettu yksi nukleotidi tai aminohappo. Jos tiettyä solua edeltävien solujen F(i − 1, j − 1), F(i − 1, j ) ja F(i , j − 1) arvot tunnetaan voidaan laskea solun
F(i , j ) saama pistemäärä. Jos sarakkeessa ja rivillä olevat merkit täsmäävät, merkitään solun pistemääräksi F(i , j ) = F(i − 1, j − 1) + s(x i , y j ), jossa s(x i , y j ) on
kohdakkain osuvien merkkien saama pistemäärä pisteytysmatriisin perusteella. Jos
rivillä oleva merkki osuu kohdakkain sarakkeessa olevan aukon kanssa, tulee solun
pistemääräksi F(i , j ) = F(i − 1, j ) − d, jossa d on aukon aiheuttama sakko. Vastaavasti rivillä sijaitsevan aukon kanssa kohdakkain osuva merkki aiheuttaa soluun
pistemäärän F(i , j ) = F(i , j − 1) − d, jossa d on aukon aiheuttama sakko. Näistä
kolmesta parhaan F(i , j ) pistemäärän aiheuttava vaihtoehto valitaan poluksi (ku-
74
Bioinformatiikan perusteet
va 8.6).
Kuva 8.6: Dynaamisen optimointialgoritmin selitys. Yhtälöä käytetään toistuvasti matriisin täyttämiseksi F(i , j ) -arvoilla. F(i , j )-arvojen laskemisessa edetään vasemmasta ylänurkasta oikeaan alanurkkaan, siten että jokaiselle neljän solun muodostamalle kokonaisuudelle lasketaan oikean alanurkan F(i , j )-arvo. Kyseiseen soluun merkitään kolmesta
vaihtoehdosta se, joka maksimoi F(i , j ):n arvon. Taulukkoa täytettäessä pidetään myös
kirjaa niistä soluista, joiden läpi taulukossa edettiin.
Täytetyn taulukon viimeinen solu (oikeassa alanurkassa) kertoo optimaalisimman rinnastuksen saaman pistemäärän. Jotta varsinainen rinnastus saataisiin selville, edetään oikeasta alanurkasta takaisin kohti vasenta ylänurkkaa, eli tehdään
takaisinjäljitys, traceback. Takaisinjäljityksessä liikutaan niiden solujen läpi, joista
korkein pistemäärä muodostui (esimerkki ja kuva 8.7k). Samanaikaisesti muodostetaan rinnastus. Jos matriisissa liikuttiin halkaisijan suuntaisesti, merkitään rinnastukseen osuma tai huti. Liikuttaessa vaaka- tai pystysuoraan, merkitään jokaista
näin liikuttua solua kohden merkitään aukko vastaavaan sekvenssiin.
Takaisinjäljitys tuottaa tässä kuvatussa muodossaan ainoastaan yhden ainoa
optimaalisen sekvenssirinnastuksen, vaikka oikeasti niitä voisi olla useampiakin.
Tämä johtuu siitä, että algoritmin kohdatessa tilanteen, jossa rinnastuksessa voitaisiin edetä useampaan yhtä hyvään suuntaan, valitaan etenemissuunta mielivaltaisesti. Algoritmin modifioiminen sellaiseen muotoon, että yhtäaikaisesti voidaan
muodostaa useampia optimaalisia rinnastuksia on kuitenkin helppoa. Kaikkien mahdollisten yhtä hyvien rinnastusten kuvaaminen onnistuukin suhteellisen yksinkertaisesti käyttämällä sekvenssigraafirakennetta (sequence graph structure).
8.7.1 Esimerkki Needleman-Wunsch-algoritmista
Muodostetaan kokonaisrinnastus kahden nukleotidisekvenssin (ACTCG ja ACAGTAG) välille. Valitaan tässä käytettäväksi BLAST-matriisi (osuma, 5 pistettä; huti, -4 pistettä) ja aukon avaamissakoksi -11 ja laajennussakoksi -1. Muodostetaan
aluksi sekvensseistä matriisi ja alustetaan se (kuva 8.7a).
Optimaalisen polun ensimmäinen askel on helppo: liikutaan vasemman ylänurkan solusta oikealla alas, jolloin A-emästen kohdakkain osuminen tuottaa kokonaisrinnastukselle +5 pistettä (kuva 8.7b). Jos jommankumman sekvenssin ensimäinen kohta tulisi aukoksi, saisi kokonaisrinnastus -11 pistettä.
Ensimmäisen askeleen jälkeen on jokaiselle neljän solun muodostaman jou-
8
Kahden sekvenssin rinnastus
75
kon oikean alanurkan solulle laskettava vastaavalla tavalla pistemäärä. Alanurkan
soluun merkitään korkein pistemäärä, jonka rinnastus saa, kun soluun liikutaan yläviistosta tai suoraan vasemmalta tai ylhäältä. Näistä suunnista valitaan se, joka tuottaa suurimmaan pistemäärän. Esimerkiksi miltei kaikki toisen rivin ja sarakkeen
solut saavat negatiivisen arvon (kuva 8.7c), vaikka niihin liikutaankin halkaisijan
suuntaisesti korkeimman pistemäärän saavuttamiseksi.
Rinnastuksen pistemäärään laskemista jatketaan, kunnes päästään taulukon oikean alakulman soluun (kuvat 8.7d-i). Tämä solu kertoo kokonaisrinnastuksen pistemäärän (tässä -5).
Kun on päästy taulukon oikeaan alareunaan, suoritetaan takaisinjäljitys. Takaisinjäljityksessä liikutaan oikean alanurkan solusta kohti vasenta ylänurkkaa. Oikean alanurkan solusta liikutaan takaisinpäin sellaiseen soluun, josta alanurkan solun pistemäärä on voinut saada alkunsa (aina kohti suurinta pistemäärää). Pistemäärän -5 (G,G-solu) aikaansaaminen onnistuu vain yhdellä tavalla (solusta C,A
etenemällä), joten liikutaan takaisinpäin halkaisijaa pitkin. Vastaavasti C,A-solusta
liikutaan halkaisijaa taaksepäin T,T-soluun, koska ainoastaan siitä solusta etenemällä on voitu saavuttaa C,A-solun pistemäärä -10. Näin edetään, kunnes kohdataan matriisin vasen ylänurkka (kuva 8.7k).
Vasta takaisinjäljityksen perusteella on mahdollista muodostaa oikea, lopullinen sekvenssirinnastus:
ACTCG-ACAGTAG
8.8
Smith-Waterman-algoritmi
Paikallisten rinnastusten muodostamiseen käytetään Smith-Watermanin dynaamista optimointialgoritmia. Sen avulla voidaan verrata erimittaisia sekvenssejä, ja se
löytää hyvinkin erilaisista sekvensseistä yhteneväiset alueet. Matemaattisesti algoritmi eroaa Needleman-Wunschin algoritmista ainoastaan siinä, että jos pistemäärä
jossakin solussa saa negatiivisen arvon, se muutetaan nollaksi, eli


0
F(i − 1, j − 1) + s(x i , y j )
F(i , j ) = F(i − 1, j ) − d


F(i , j − 1) − d
Negatiivisten arvojen korvaaminen nollalla vastaa uuden rinnastuksen aloittamista: On parempi aloittaa uusi rinnastus kuin jatkaa vanhaa. Lisäksi erona on,
että vaikka Smith-Waterman-algoritmissa matriisi käydään läpi kuten NeedlemanWunsch-algoritmissa, aloitetaan takaisinjäljitys etsimällä korkein pistemäärä koko
matriisista, ei oikeasta alanurkasta.
Jotta paikallinen rinnastus dynaamisella optimoinnilla onnistuisi, tulee kahden
satunnaisesti kohdakkain sattuvan nukleotidin tai aminohapon saaman pistemäärän
olla keskimäärin negatiivinen. Jos näin ei ole, saattaa pitkä sekvenssialue saada
korkean pistemäärän rinnastuksessa vain siitä syystä, että se on pitkä. Tämä vastaa käytännössä sitä, että paikalliseen rinnastukseen käytettävän pisteytysmatriisin
entropian tulee olla negatiivinen.
8.9
Esimerkki Smith-Waterman-algoritmitmista
Käyttäen samaa esimerkkiä kuin Needleman-Wunsch-algoritmin yhteydessä, on
helppo osoittaa, että rinnastettavien sekvenssien välillä voidaan muodostaa vain
yksi merkittävä paikallinen rinnastus (Kuva 8.8).
76
Bioinformatiikan perusteet
Kuva 8.7: A-J. Needleman-Wunsch algoritmin käyttö DNA-sekvenssien rinnastamiseen.
Punainen väri ilmaisee matriisin läpi kuljetun reitin; K. Needleman-Wunsch algoritmilla
tehdyn DNA-sekvenssirinnastuksen takaisinjäljitys. Nuolilla on merkitty takaisinjäljityksessä käytetty polku. Punainen väri ilmaisee etenemisen aikana taitetun polun. Huomaa,
että takaisinpäin edetessä on edetty matriisin täytön yhteydessä syntynyttä polkua pitkin.
8
Kahden sekvenssin rinnastus
77
Kuva 8.8: Esimerkki Smith-Watermanin paikallisrinnastusalgoritmista. Ensivaiheessa
matriisi alustetaan pisteytysmatriisista saaduilla arvoilla, ja negatiiviset arvot korvataan
nollilla. Punaisella on merkitty etenemisreitti matriisissa, joka tässä tapauksessa vastaa
myös paikallisen rinnastuksen takaisinjäljitysreittiä ja sekvenssirinnastusta.
Tässä tapauksessa yksinkertaisen takaisinjäljityksen jälkeen voidaan muodostaa paikallinen rinnastus, joka on tässä tapauksessa:
AC
AC
8.10
Sekvenssirinnastuksen tilastollinen merkitsevyys
Dynaamiset algoritmit löytävät optimaalisen kahden sekvenssin rinnastuksen, ja
ilmoittavat sen saaman pistemäärän. Rinnastuksen pistemäärä ei kuitenkaan kerro, ovatko sekvenssit tilastollisesti merkitsevästi samankaltaisia. Pelkän rinnastuksen pistemäärän perusteella ei voida siis päätellä, ovatko sekvenssit todennäköisesti
homologisia keskenään vai onko samankaltaisuus sattuman aiheuttamaa.
Alunperin rinnastusten tilastollisen merkitsevyyden määrittäminen perustui olettamukseen, että rinnastusten saamat pistemäärät ovat normaalisti (niiden jakauma muodostaa kellokäyrän) jakautuneita. Näin ei kuitenkaan ole, vaan pistemäärät
noudattavat ennemminkin Gumbelin äärevien arvojen jakaumaa (Gumbel extreme
value distribution).
Paikallisten rinnastusten merkitsevyyden määrittäminen on matemaattisesti paremmin määritelty ja helpommin ratkaistava ongelma. Paikallinen rinnastus etsii
rinnastettavista sekvensseistä sellaiset alueet, jotka eniten muistuttavat toisiaan.
Tällaisia alueita esiintyy vain harvoin, jos rinnastetaan satunnaisia tai kovin erilaisia sekvenssejä. Joten, jos aidossa rinnastuksessa on samankaltaisia alueita, on
niiden löytyminen jo itsessään merkittävää. Samankaltaisten alueiden esiintyminen
satunnaisten sekvenssien rinnastuksissa on helppo laskea.
Kokonaisrinnastuksissa kaksi sekvenssiä sijoitetaan kohdakkain koko pituuk-
78
Bioinformatiikan perusteet
siltaan, ja usein tällaiset rinnastukset saavat hyvinkin korkeita pistemääriä. Samaa
pätee myös satunnaisille sekvensseille, sillä Needleman-Wunschin algoritmi pyrkii
aina luomaan rinnastukseen mahdollisimman monia sellaisia sarakkeita, joissa samanlaiset merkit osuvat kohdakkain. Siten kokonaisrinnastusten tilastollisen merkitsevyyden laskeminen on vaikeampaa kuin paikallisten rinnastusten. Kokonaisrinnastusta ei tulisikaan käyttää sekvenssien homologisuuden selvittämiseen. Onkin ensin parempi tunnistaa jokseenkin yhtäpitkät ja samankaltaiset sekvenssialueet
paikallisilla rinnastusmenetelmillä, ja sen jälkeen rinnastaa nämä alueet uudelleen
kokonaisrinnastusmenetelmin. Paikallinen rinnastus ei nimittäin välttämättä tuota samaa tulosta kuinkokonaisrinnastus samoille sekvensseille, ja kun sekvenssien
tiedetään olevan homologisia, tulisi ne rinnastaa kokonaisrinnastusmenetelmin.
8.10.1 Paikallisen sekvenssirinnastuksen tilastollinen merkitsevyys
Rinnastuksen saaman pistemäärän perusteella ei voida suoraan päätellä rinnatuksen tilastollista merkitsevyyttä, sillä pistemäärä on verrannollinen rinnastuksen pituuteen. Lisäksi käytetty pisteytysmatriisi vaikutta rinnastusten saamiin pistemääriin. Jotta pistemäärän perusteella voitaisiin määrittää rinnastuksen merkitsevyys,
on tunnettava pistemäärän jakauma silloin, kun samankaltaisuus johtuu sattumasta. Koska rinnastuksessa ollaan kiinnostuneita vain parhaasta rinnastuksesta, on jakauma määritettävä useiden rinnastusten parhaille pistemäärille. Nämä arvot noudattavat äärevien arvojen jakaumaa, joka on johdettu matemaattisesti aukottomista
paikallisista rinnastuksista useille erilaisille pisteytysmatriiseille. Jakauman perusteella voidaan määrittää todennäköisyys sille, että havaittu pistemäärä saataisiin
kahden satunnaisen sekvenssin rinnastuksessa. Tämä todennäköisyys on (Karlin ja
Altschul, 1990)
E = K ∗ m ∗ n ∗ e −λ∗S ,
jossa rinnastettujen sekvenssien pituudet ovat m ja n, e on Neperin luku (≈2,71828)
S on rinnastuksen pistemäärä, ja K ja λ ovat skaalaustekijöitä, joiden arvot riippuvat käytetystä pisteytysmatriisista ja aukkosakkojen arvoista. K :n likiarvona voidaan käyttää 0,1:tä, ja λ:n arvot vaihtelevat tyypillisesti välillä 0,1-0,3. Menetelmä
on alunperin kuvattu aukottomille rinnastuksille, mutta sen soveltuvuus myös aukkoja sisältävien rinnatusten tilastollisen merkitsevyyden arviointiin on sittemmin
osoitettu.
K ja λ voidaan määrittää esimerkiksi seuraavasti. Luodaan suuri joukko satunnaisia sekvenssejä sekoittamalla toisen rinnastettavan sekvenssin merkkien järjestys. Satunnaistettu sekvenssi rinnastetaan entisellään säilytetyn kanssa, ja rinnastuksen saama pistemäärä pannaan merkille. Muodostetaan esimerkiksi 10 000 rinnastuksen pistemääristä frekvenssihistogrammi, joka vastaa havaittua pistemäärien
jakaumaa. Havaittua jakaumaa verrataan äärevien arvojen jakaumaan K :n ja λ:n arvojen määrittämiseksi, sillä K ja λ ovat itseasiassa parametreja, jotka määrittelevät
äärevien arvojen jakauman.
Esimerkiksi mikä on todennäköisyys, että rinnastettaessa kahta 150 aminohapon mittaista sekvenssiä PAM250-matriisia käyttäen suurilla aukkosakoilla (λ=0,229),
saadaan rinnastuksen pistemääräksi 50? Sijoittamalla yllä esiteltyyn kaavaa saadaan:
E = K ∗ m ∗ n ∗ e −λ∗S = 0, 1 ∗ 150 ∗ 150 ∗ 2, 71828 −0,229∗50 = 0, 024
Todennäköisyys, että satunnaisten sekvenssien rinnastus saisi vastaavan pistemäärän on siis hyvin pieni. Luultavasti sekvenssien välinen samankaltaisuus on siis
todellista eikä sattuman aiheuttamaa. Jotta rinnastuksen todennäköisyyden laskemiseen tarkoitettua kaavaa voitaisiin turvallisesti soveltaa, tulee pisteytysmatriisin
keskimääräisen pistemäärän (expected score) olla negatiivinen.
Rinnastuksen tilastollisen merkitsevyyden arvioiminen käy nopeammin, jos
8
Kahden sekvenssin rinnastus
79
oletetaan, että K =1 ja tilastollinen merkitsevyystaso (p-value) on 0,05. Tällöin nimittäin laskentakaava yksinkertaistuu muotoon
S > log2(n ∗ m),
jossa n ja m ovat rinnastettavien sekvenssien pituudet. Jos rinnastuksen saama pistemäärä (S) on suurempi kuin laskennallisesti määritetty arvo, on rinnastus tilastollisesti merkitsevä riskitasolla 0,05. Tällaisella riskitasolla joka kahdeskymmenes (1
/ 0,05) kerta arvioimme sattumalta, että pistemäärä on merkitsevä, vaikka todellisuudessa näin ei olekaan.
8.10.2 Kokonaissekvenssirinnastuksen tilastollinen merkitsevyys
Kokonaisrinnastusten pistemäärien jakaumalla ei ole olemassa yhtä hyvin tunnettua tilastollista mallia kuin paikallisten rinnastusten pistemäärille. Esimerkiksi, ei
ole vielä selvää, ovat satunnaisten sekvenssien kokonaisrinnastuksien pistemäärät
normaalisti jakautuneet vai seuraavatko ne äärevien arvojen jakaumaa. Useita erilaisia menetelmiä kokonaisrinnastuksen tilastollisen merkitsevyyden arvioimiseksi
on kuitenkin kehitetty, mutta minkään antamat tulokset eivät ole täysin tyydyttäviä.
Yksinkertaisin menetelmä perustuu toisen rinnastettavan sekvenssin satunnaistamiseen (permutaatiotestaus). Tällöin muodostetaan suuri joukko satunnaisia sekvenssejä, jotka sitten rinnastetaan satunnaistamattoman sekvenssin kanssa. Näiden satunnaisten rinnastusten pistemäärin perusteella muodostuu jakauma, jota voidaan käyttää varsinaisen rinnastuksen merkitsevyyden arviontiin. Tällaista analyysia kutsutaan permutaatiotestiksi. Ideana on, että jos alkuperäisen rinnastuksen saama pistemäärä sijoittuu yli kolmen keskihajonnan päähän satunnaisten rinnastusten saamien pistemäärin keskiarvosta, tulkitaan alkuperäinen rinnastus tilastollisesti merkitseväksi. Vaikkei permutaatiotesti annakaan kovin tarkkaa kuvaa rinnastuksen todellisesta tilastollisesta merkittävyydestä, on sen käyttäminen silti perusteltua
edes likimääräisen merkitsevyysarvion saamiseksi.
8.11
Rinnastuksen asetusten määrittäminen
Sekvenssejä rinnastettaessa tulisi aina käyttää sellaista pisteytysmatriisia, joka kuvaa rinnastettavien sekvenssien samankaltaisuutta. Esimerkiksi 80% samanlaisille
aminohapposekvensseille tulisi käyttää esimerkiksi BLOSUM80-matriisia. Tämän
arviointi on luonnollisesti vaikeaa ennenkuin sekvenssejä on varsinaisesti edes rinnastettu, mutta aluksi on valittava jokin matriisi joko arvaamalla tai aiempaa, esimerkiksi artikkeleista hankittua, tietoa käyttämällä. Kun sekvenssit on kertaalleen
rinnastettu sellaisella matriisilla, joka on edes vähän oikeaan suuntaan, voidaan sekvenssien samankaltaisuudet arvioida ja käyttää uudelleenrinnastuksessa oikeampaa
matriisia. Sama pätee periaatteessa myös nukleotidisekvensseille, vaikka niille onkin yleensä tarjolla huomattavasti suppeampi valikoima erilaisia pisteytysmatriiseja
kuin aminohapposekvensseille.
Aukkosakkoparametrien määrittäminen on jo huomattavasti hankalampaa. Yleisenä sääntönä voidaan sanoa, että haluttaessa aukon jatkamissakko vaikutta aukkojen pituuteen ja aukon avaamissakko niiden yleisyyteen. Mitä korkeammaksi
avaamis- ja jatkamissakot määritetään sitä harvempia ja lyhyempiä aukkoja rinnastukseen muodostuu. On olemassa muutamia sääntöjä siitä, miten luonnolliset aukkosakot (natural gap weights) voidaan määrittää (Thorne, 1991). Ongelmaa mutkistaa se, ettei luonto ole matemaattisesti optimoitu. Aukkosakkojen määrittämiseksi
voidaan esittää muutamia nyrkkisääntöjä:
• Aukko ja sen pituus ovat kaksi eri asiaa. Niille pitää antaa eri parametrit
(aukon avaamissakko ja jatkamissakko).
80
Bioinformatiikan perusteet
• Rinnastuksessa tulisi ottaa huomioon, että kaikki substituutiot eivät ole yhtä
yleisiä. Esimerkiksi DNA:ssa transitiot ovat transversioita yleisimpiä. Aminohappotasolla puolestaan Ile->Val on Ile->Arg todennäköisempi muutos.
• Jos sekvenssit eivät ole alku- ja loppupäistään selkeästi samanlaisia, ei sekvenssien alku-ja loppupäiden aukoista tulisi sakottaa.
• Ellei sekvenssien tiedetä olevan homologisia koko pituudeltaan, on parempi
tehdä paikallinen rinnastus kuin kokonaisrinnastus.
• Optimaalinen rinnastus ei välttämättä ole tilastollisesti merkitsevä. Rinnastuksen merkitsevyys tulisikin jollakin tapaa arvioida.
• Rinnastus kuvaa ainoastaan sekvenssien samankaltaisuutta, eikä välttämättä tarkoita homologiaa. Sekvenssit voivat olla samankaltaisia sattumalta tai
samansuuntaisesta evoluutiosta johtuen.
Lisäksi on hyvä muistaa, ettei tilastollisesti merkitseväkään rinnastus välttämättä ole biologisesti merkittävä. Sekvenssijoukon biologian tunteminen on ensiarvoisen tärkeää niiden rinnastuvuutta arvioitaessa. Tietoa konservoituneista alueista
ja laskostumisesta on syytä käyttää apuna sekvenssejä rinnastettaessa milloin se
suinkin on mahdollista.
9
Sekvenssihaut
9
9.1
81
Sekvenssihaut
Sekvenssihaku on monille jokapäiväinen työkalu
Sekvenssihaut lienevät käytetyimpiä bioinformatiikan sovelluksia. Sekvenssihauilla etsitään sekvenssitietokannoista hakusekvenssiä vastaavaa tunnettua sekvenssiä.
Esimerkiksi sekvensointi- ja EST-projektit käyttävät laajamittaisesti sekvenssihakuja tuntemattomien sekvenssien toiminnan selvittämiseksi. Jos nimittäin tietokannasta löytyy hakusekvenssiä riittävästi muistuttava tunnettu sekvenssi, voidaan
olettaa, että hakusekvenssin toiminta solussa vastaa tai muistuttaa tunnetun sekvenssin toimintaa. Jos tuntematon aminohapposekvenssi on yli 50% samankaltainen kuin tunnettu sekvenssi, toimivat sekvenssit suurella todennäköisyydella samalla tavalla solussa. Alle 50% samankaltaisten, mutta samalla tavalla toimivien
proteiinien vertaamiseksi on käytettävä muita menetelmiä (esimerkiksi, tunnistetietokannat, proteiinirakenteiden vartaaminen) kuin yksinkertaista sekvenssihakua.
Sekvenssihakuja käytetään myös muun muassa saman geenin tunnistamiseen
lähisukuisista lajeista, kahdentuneiden geenien tunnistamiseen samasta eliöstä, ja
PCR-alukkeiden suunnitteluun. Esimerkiksi, hyvin suunniteltujen PCR-alukkeiden
tulee sitoutua genomissa vain yhteen ainoaan paikkaan, sillä muutoin voi syntyä
epäspesifisiä PCR-tuotteita. Erityisen tärkeää alukkeen sitoutumispaikan tarkistaminen on, jos tehdään sekvensointireaktioita, joissa käytetään vain yhtä ainutta aluketta kahden sijaan.
9.2
Kuinka tietohakuja tehdään?
Tietokantahauissa voidaan verrata yksittäistä sekvenssiä tai matriisia tietokantaan.
Hakuja voidaan tehdä myös iteratiivisesti, jolloin aluksi verrataan yhtä sekvenssiä
tietokantaan. Saaduista osumista muodostetaan matriisi, jota verrataan uudelleen
koko tietokantaan. Näin toimii esimerkiksi PSI-BLAST-ohjelma. . Ensimmäisen
haun tuloksista voidaan myös poimia mielenkiintoisimmat tai samankaltaisimmat
sekvenssit, ja käyttää niitä uusina hakusekvensseinä. Yksittäistä sekvenssiä käyttäen tietohakuja voidaan tehdä FastA- ja BLAST-ohjelmilla. Jos tietokantahauissa
käytetään profiileja, voidaan hakuihin käyttää hmmsearch-ohjelmaa (käyttää kätkettyjä Markovin malleja) tai muita vastaavia ohjelmia.
Nykyisille sekvenssitietokannoille on tyypillistä suuri koko ja nopea sekvenssien määrän lisääntyminen. Tämä vaikuttaa suoraan sekvenssihakujen nopeuteen.
Käytetyllä hakualgoritmilla onkin suurempi vaikutus tietokantahaun nopeuteen kuin
tietokoneen nopeudella. Karkeasti voidaan sanoa, että mitä herkemmin menetelmä
tunnistaa sekvenssien samankaltaisuuden, sitä kauemmin haku kestää. Hyvä menetelmä pystyy myös tunnistamaan suurimman osan hakusekvenssin kaltaisista sekvensseistä sisällyttämättä tuloksiin vääriä tuloksia eli sekvenssejä, jotka eivät todellisuudessa ole samankaltaisia kuin hakusekvenssi. Nykyisin käytetään sekvenssihakuihin miltei yksinomaan FastA- ja BLAST-ohjelmia, mutta muitakin menetelmiä on. Nopeutensa ja käänteisesti herkkyytensä perusteella sekvenssihakualgoritmit voidaan järjestää seuraavasti: BLAST, FastA, SSEARCH (Smith-Waterman)
82
Bioinformatiikan perusteet
ja BBA. BLAST ja FastA ovat heuristisia menetelmiä, SSEARCH on dynaaminen
optimointialgoritmi, ja BBA käyttää Bayesilaista lähestymistapaa.
Sekvenssihauissa tulee harkita käytettävä tietokanta ja/tai divisioona tarkoin,
sillä sopivaa tietokantaa ja osastoa käyttäen haku nopeutuu huomattavasti. Lisäksi
on valittava riittävän nopea algoritmi siten, että haun herkkyys riittää toivotun tuloksen saavuttamiseen, kuitenkin siten ettei haku kestä tolkuttoman kauan. Myös
hakukoneen ominaisuuksiin kannattaa kinnittää huomiota. Kaikki hakukoneet ovat
eniten kuormitettuja keskellä työpäivää (10.00-16.00 paikallista aikaa), joten ajankohdasta riippuen kannattaa mahdollisesti käyttää eri hakukonetta. Esimerkiksi,
NCBI:n BLAST-palvelut on erittäin hyvin optimoitu hakuja ajatellen, mutta niitä kannattaa käyttää vain suhteellisen aikaisin aamulla, ennen amerikkalaisten töihintuloa. Haut alkavat selvästi hidastua jo heti puolenpäivän jälkeen, jolloin tutkijat Yhdysvaltain länsirannikolla palailevat töihin. Periaatteessa haut paikalliselta koneelta tai kansalliselta palvelimelta (CSC, gepardi.csc.fi) ovat tehokkaampia
kuin haut Internetin kautta, mutta tehokkuus saattaa vaihdella palvelimen käyttöasteen mukaan. Käytännössä Gepardi-palvelin on osoittautunut noin kymmenen
kertaa NCBI:n palvelinta nopeammaksi vuorokaudenajasta riippumatta, mutta sen
käyttäminen vaatii käyttölupahakemuksen täyttämistä.
Jos halutaan löytää hakusekvenssille homologinen sekvenssi sekvenssihakua
käyttäen, kannattaa ensin kääntää DNA-sekvenssi aminohapposekvenssiksi (Kuva 9.1). Eliöissä esiintyy vaihtelua esimerkiksi kodonien käytössä ja nukleotidien
runsaussuhteissa, mikä voi aiheuttaa ongelmia tietokantahauissa. Ongelman merkitys pienenee, jos haku tehdään aminohapposekvenssiä käyttäen. Käännöksen voi
tehdä samanaikaisesti tietokantahaun yhteydessä esimerkiksi FastX- tai BLASTxohjelmilla. Jos halutaan verrata tunnettua sekvenssiä esimerkiksi saman eliön kaikkiin EST-sekvensseihin, on DNA-sekvenssin käyttö kuitenkin perusteltua.
Vaikkei DNA-sekvenssi koodaisikaan proteiinia tai se sisältää introneita, voidaan se kuitenkin kääntää aminohapposekvenssiksi käyttäen kaikkia kuutta mahdolista lukukehystä. Näin tehdyistä käännöksistä voidaan etsiä avoimet lukukehykset,
jotka ovat yleensä vähintään 100:n aminohapon mittaisia, ja joita voidaan käyttää
sekvenssihauissa. Sopivasti valittu BLAST-ohjelma tekee tämän myös automaattisesti.
9.3 BLAST
BLAST (Basic local alignment search tool) (Altschul, 1990) on nykyisin käytetyin sekvenssihakuohjelma (algoritmi). BLAST on nopeampi kuin Fasta mutta teoreettisesti ottaen sen sensitiivisyys eli kyky löytää oikeat sekvenssit on heikompi
kuin FastA:n. Käytännössä tällä erolla ei ole suurta merkitystä. Etuna BLAST:ssa
on, että se poistaa automaattisesti (jos käyttäjä niin haluaa) sellaiset alueet (lowcomplexity regions) hakusekvenssistä, jotka aiheuttaisivat paljon vääriä tuloksia.
Nämä alueet, joiksi luetaan esimerkiksi pitkät toistojaksot sekä SINE (short intersperced nuclear element)- ja LINE (long intersperced nuclear element)-elementit,
ovat yleisiä genomin eri osissa kautta eliökunnan.
BLAST käyttää samankaltaista hakualgoritmia (Kuva 9.3) kuin Fasta. BLAST:in
hakualgoritmi siis pilkkoo hakusekvenssin aluksi lyhyiksi sanoiksi, joiden oletuspituus on kolme aminohappoa tai 11 nukleotidia. Tätä kutsutaan sanakooksi. Sekvenssistä poimitaan sanakoon mittaisia sanoja järjestyksessä. Esimerkiksi jos aminohapposekvenssi on PQGLLGQP, ensimmäinen sana on PQG, toinen QGL ja
niin edelleen. Jokaista sanaa verrataan tietokantaan, ja löydetyt osumat pisteytetään käyttäen valittua pisteytysmatriisia ja kynnysarvoa (neighborhood word score
threshold, T-arvo). Vain ne osumat, joiden pistemäärä ylittää valitun kynnysarvon
valitaan jatkoon. Esimerkiksi käytettäessä BLOSUM62-matriisia ja kynnysarvoa
13, sana PQG ylittää kynnysarvon osuessaan tietokannassa kohdakkain esimerkiksi sanojen PQG (18 pistettä) ja PEG (15 pistettä) kanssa. Sama toistetaan kaikille
9
Sekvenssihaut
83
Kuva 9.1: Tietokantahakujen päätäntäkaavio homologisten sekvenssien löytämiseksi.
Kuva on muokattu Mountin (2001) esimerkin pohjalta.
84
Bioinformatiikan perusteet
sekvenssistä muodostetuille sanoille (Kuva 9.2).
Kuva 9.2: Esimerkki Blast-haun siemennyksestä. Hakusekvenssi pilkotaan sanakoon (W)
mittaisiksi sanoiksi, joille etsitään vastineita tietokannan kaikista sekvensseistä.
Valittujen sanojen avulla muodostetaan hakupuu, jota käytetään tietokantahaussa. Hakusekvenssin ensimmäisen sanan paikka (PQG) saa osuman, jos tietokannan vertailun kohteena olevassa sekvenssissä esiintyy esimerkiksi PQG tai
PEG, mutta ei jos siinä esiintyy esim. PQA. Tarpeeksi lähellä olevat osumat yhdistetään toisiinsa ja yhdistettyjä osumia jatketaan kummastakin päästä (Kuva 9.4 niin
kauan kunnes pistemäärä kasvaa (Kuva 9.5. Näitä jatkettuja sekvenssin osia kutsutaan HSP:hen (high-scoring segment pair). Näille HSP-alueille lasketaan tilastollinen merkitsevyys. Ohjelma tulostaa sekvenssit, joissa olevat HSP-alueet ylittävät tietyn merkitsevyystason (E-arvo). Löydetyjen sekvenssien ja hakusekvenssien
välille tehdään lopuksi rinnastus käyttämällä Smith-Waterman algoritmia. Rinnastuksessa sallitaan aukot, jolloin kaksi tai useampi HSP-alueista voidaan sisällyttää
samaan rinnastukseen.
Hakusekvenssissä olevat yksinkertaiset alueet (low-complexity) ja toistojaksot
voidaan poistaa ennen varsinaista hakua. Näin voidaan tehokkaasti vähentää biologisesti merkityksettömien samankaltaisuuksien löytymistä. Yksinkertaisia alueita ovat esimerkiksi proliinirikkaat ja happamat tai emäksiset aminohapposekvenssin alueet. Samaan suodatusmenetelmää käyttäen voidaan poistaa myös ihmisen
nukleotidisekvensseissä yleisesti esiintyvät LINE- ja SINE-toistojaksot. Suodatetut alueet merkitään automaattisesti BLAST-ohjelman tulostukseen X:llä tai N:llä
riippuen siitä, käsitelläänkö aminohappo- vai nukleotidisekvenssejä.
Suodatus perustuu siihen, että sekvenssiä tarkastellaan koko pituudeltaan liukuvan ikkunan periaatteella. Liukuvalla ikkunalla tarkoitetaan sitä, että aluksi tarkastellaan esimerkiksi sekvenssikohtia 1-12, sitten 2-13, 3-14, ... siten, että ikkunaa siirretään aina yhden nukleotidin tai aminohapon verran eteenpäin. Ikkunan pituus on BLAST-suodatuksen yhteydessä yleensä 12 nukleotidia tai aminohappoa.
Jokaisen ikkunan sisällä sekvenssille lasketaan kompleksisuutta kuvaava lukuarvo
kaavalla:
1
L!
K = ∗ log N ( ),
L
ni !
jossa N=4 nukleotidisekvensseille ja N=20 aminohapposekvensseille. K vaihte-
9
Sekvenssihaut
85
Kuva 9.3: BLAST-haun vaiheet. Vaiheessa A käyttäjä syöttää hakusekvenssin (musta)
BLAST-ohjelmalle. Vaiheessa B BLAST-algorimi pilkkoo hakusekvenssin määrätyn (sanakoon) mittaisiksi pätkiksi. Pätkät menevät toistensa kanssa päällekkäin siten, että ensimmäinen sana muodostuu esimerkiksi sekvenssin kohdista 1, 2 ja 3 ja seuraava kohdista
2, 3 ja 4 ja niin edelleen, kunnes koko hakusekvenssin on käyty läpi. Tätä kutsutaan seeding:ksi. Vaiheessa C sanakoon mittaisille pätkille etsitään paras vastaavuus tietokannan
sekvensseistä (harmaa). Tämä tehdään muodostamalla samanlainen etsintätaulukko kuin
FastA-menetelmässäkin, sillä se nopeuttaa hakua huomattavasti. Jatkoon valutaan vain sellaiset sekvenssipätkät, joiden saama pistemäärä ylittää määrätyn raja-arvon (threshold in
seeding). Vaiheessa D haku- ja tietokannan sekvenssin välistä rinnastusta pyritään jatkamaan päistään (ohuet mustat viivat). Rinnastusta jatketaan vain niin kauan kuin rinnastuksen saama pistemäärä jatkaa kasvuaan. Kun rinnastuksen drop of score putoaa riittävän
alhaiseksi, rinnastuksen katsotaan päättyvän. Jos esimerkiksi drop-off scoreksi on asetettu
-1, ja rinnastus saa tietyssä sekvenssikohdassa pistemääräksi -2, päättyy rinnastus siihen.
Tällaisia jatkettuja rinnastusalueita kutsutaan HSP-alueiksi (high-scoring segment pair).
HSP-alueille lasketaan tilastollinen merkitsevyys, ja ohjelma tulostaa vain sellaiset HSPrinnastukset, joiden merkitsevyys ylittää määrätyn raja-arvon (E-value threshold). Lopuksi tietokannan ja hakusekvenssin välille tehdään HSP-alueilla rinnastus Smith-Watermanin
menetelmällä (vaihe E). BLAST-algoritmi sallii aukkojen esiintymisen sekvensseissä (vaihe E), jolloin useampia HSP-alueita voidaan sisällyttää samaan rinnastukseen.
Kuva 9.4: Kun tietokannasta on löydetty hakusekvenssin sanoille osumia, pyritään hakusekvenssin ja tietokannan sekvenssin välistä rinnastusta jatkamaan.
86
Bioinformatiikan perusteet
Kuva 9.5: Sanoja jatketaan vain niin kauan kuin rinnastuksen saama pistemäärä jatkaa
kasvuaan. Kasvu määritellään drop-off score:n avulla. Drop-off score kasvaa aina, kun
rinnastuksen päähän lisätään peräkkäisiä negatiivisen pistemäärän saavia aminohappoja
tai nukleotideja. Kun drop-off score ylittää määrätyn raja-arvon (X), lopetetaan myös rinnastuksen jatkaminen.
lee välillä 0-1 riippuen sekvenssin kompleksisuudesta. Esimerkiksi sekvensseille
AAAA ja ACGT kompleksisuus lasketaan seuraavasti:
L! = 4! = 4 × 3 × 2 × 1 = 24,
A
A
A
A− > n a = 4, n c = 0, n g = 0, n t = 0,
n i ! = 4 × 3 × 2 × 1 × 0! × 0! × 0! = 24 × 1 × 1 × 1 = 24,
K = 1/4 × log4(24/24) = 0
L! = 4 × 3 × 2 × 1 = 24,
AC GT − > n a = 1, n c = 1, n g = 1, n t = 1,
n i ! = 1! × 1! × 1! × 1! = 1
K = 1/4 × log4(24/1) = 0.573
Sekvenssi AAAA on selvästi kompleksisuudeltaan alhainen, ja poistettaisiin
hakusekvenssistä koodaamalla sitä vastaavat nukleotidit tuntemattomiksi (NNNN).
BLAST-ohjelmistopaketissa on useampia eri ohjelmia, joita käytetään erilaisiin tarkoituksiin (Taulukko 9.1). Muutama esimerkki ohjelmien käytöstä valottanee niiden käyttöalueita paremmin. Blastn-ohjelmaa käytetään usein esimerkiksi geenian annotaatioiden etsimisen tietokannoista tai oligonukleotidien sijainnin
selvittämiseen pidemmässä sekvenssissä. Blastp-ohjelmalla puolestaa voidaan helposti selvittää proteiinien yhteiset rakenteet, sillä parittaiset rinnastukset vastaavat usein proteiinien toiminnallisia osia. Blastx-ohjelmalla on kätevää etsiä esimerkiksi proteiineja koodaavia geenejä tietokannoista. Tblastn-ohjelma soveltuu hyvin
transkriptien tunnistamisen, erityisesti jos tämä halutaan tehdä useita lajeja käyttäen. Tblastx-ohjelman käyttö kohdistuu lähinnä proteiinitietokannoista puuttuvien
geenien tunnistamiseen sekä eri geenien lajien väliseen vertailuun.
Blastp-ohjelman tuloste on esitetty kuvassa 9.6. Yleensä BLAST-hauissa käytetään BLOSUM62-pisteytysmatriisia, mutta muitakin matriiseja voidaan käyttää.
Erilaisille matriiseille on myös määritetty toimivimmat aukkosakkoparametrien arvot (Taulukko 9.2). Useimmiten haku kannattaa aloitaa aukkosakkojen oletusasetuksilla, sillä ne on havaitu hyviksi homologisten sekvenssien tunnistamiseen. Niitä
voi kuitenkin olla tarpeen muuttaa, jos ollaan esimerkiksi etsimässä homologia kovin kaukaisista sukulaisista, sillä tällöin rinnastuksessa voi olla tavanomaista enemmän aukkoja. Tällöin aukkosakkoja tulisi pienentää.
9
Sekvenssihaut
87
BLASTP 2.2.1 [Apr-13-2001]
Reference:
Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schäffer,
Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997),
"Gapped BLAST and PSI-BLAST: a new generation of protein database search
programs", Nucleic Acids Res. 25:3389-3402.
RID: 1011278262-1325-31515
Query= gi|2842712|sp|Q92889|XPF_HUMAN DNA-REPAIR PROTEIN
(905 letters)
Database: Non-redundant SwissProt sequences
102,387 sequences; 37,391,913 total letters
If you have any problems or questions with the results of this search please refer to the BLAST FAQs
Taxonomy reports
Distribution of 10 Blast Hits on the Query Sequence
Tästä puuttuu kuva
Score
(bits)
Sequences producing significant alignments:
gi|2842712|sp|Q92889|XPF_HUMAN DNA-REPAIR PROTEIN COMPLEMEN...
gi|548659|sp|P36617|RA16_SCHPO DNA REPAIR PROTEIN RAD16
gi|3914026|sp|Q24087|MEI9_DROME MEI-9 PROTEIN (MEIOTIC-9 PR...
gi|131810|sp|P06777|RAD1_YEAST DNA REPAIR PROTEIN RAD1
gi|3915469|sp|Q58900|YF05_METJA PUTATIVE ATP-DEPENDENT RNA ...
gi|3915778|sp|P10587|MYHB_CHICK
gi|1170385|sp|P44669|HSCA_HAEIN
1656
478
334
227
59
MYOSIN HEAVY CHAIN, GIZZARD...
CHAPERONE PROTEIN HSCA HOMOLOG
32
31
0.0
e-134
4e-91
8e-59
5e-08
4.1
10.0
Alignments
Poistettu rinnastus itsensä kanssa.
>gi|3914026|sp|Q24087|MEI9_DROME MEI-9 PROTEIN (MEIOTIC-9 PROTEIN)
Length = 926
Score = 334 bits (857), Expect = 4e-91
Identities = 168/349 (48%), Positives = 244/349 (69%), Gaps = 9/349 (2%)
Query: 554 ALTRVLHEVEPRYVVLYDAELTFVRQLEIYRASR---PGKPLRVYFLIYGGSTEEQRYLT 610
AL +L +++P YVV+Y+ +T +RQLE++ A R
P
++VYFLI+ + EEQ YLT
Sbjct: 529 ALEHMLEQLQPHYVVMYNMNVTPIRQLEVFEARRRLPPADRMKVYFLIHARTVEEQAYLT 588
Query: 611 ALRKEKEAFEKLIREKASMVVPEEREGRDETNLDLVR--GTASADVSTDTRKAGGQEQNG 668
+LR+EK AFE +I K+ MV+P+ ++G+ +
L++
D + +R+AGGQ
Sbjct: 589 SLRREKAAFEFIIDTKSKMVIPKYQDGKTDEAFLLLKTYDDEPTDENAKSRQAGGQAPQA 648
Query: 669 TQQS--IVVDMREFRSELPSLIHRRGIDIEPVTLEVGDYILTPEMCVERKSISDLIGSLN 726
T+++ ++VDMREFRS+LP LIH+RG+++ P+T+ +GDYILTP++CVERKSISDLIGSLN
Sbjct: 649 TKETPKVIVDMREFRSDLPCLIHKRGLEVLPLTITIGDYILTPDICVERKSISDLIGSLN 708
Query: 727 NGRLYSQCISMSRYYKRPVLLIEFDPSKPFSLTSRGALFQEIS--SNDISSKLTLLTLHF 784
+GRLY+QC+ M R+Y +P+LLIEFD +KPF L + L Q+ S + DI KL LLTLHF
Sbjct: 709 SGRLYNQCVQMQRHYAKPILLIEFDQNKPFHLQGKFMLSQQTSMANRDIVQKLQLLTLHF 768
Query: 785 PRLRILWCPSPHATAELFEELKQSKPQPDAATALAITADSETLPESEKYNPGPQDFLLKM 844
P+LR++W PSP+ATA+LFEELK KP+PD TA A+ +D
E
+N G DFLL++
Sbjct: 769 PKLRLIWSPSPYATAQLFEELKLGKPEPDPQTAAALGSDEPMAGEQLHFNSGIYDFLLRL 828
Query: 845 PGVNAKNCRSLMHHVKNIAELAALSQDELTSILGNAANAKQLYDFIHTS 893
PGV+ +N
L+
++ +L
SQ EL +L + +AK LYD +H +
Sbjct: 829 PGVHTRNIHGLLRKGGSLRQLLLRSQKELEELLQSQESAKLLYDILHVA 877
E
Value
88
Bioinformatiikan perusteet
Esimerkki yksinkertaisen alueen maskeeraamisesta.
Query: 304 ATEKAFGQNSGWLFLDSSTSMFINARARVYHLPDAXXXXXXXXXXXXXXXXXXXXXXXLV 363
+TE A
NSGW LD++ +F +R RV++
Sbjct: 297 STEYAL-SNSGWTLLDAAEQIFKLSRQRVFN-----------------------GQQEFE 332
Database: Non-redundant SwissProt sequences
Posted date: Jan 15, 2002 6:20 AM
Number of letters in database: 37,391,913
Number of sequences in database: 102,387
Lambda
0.320
K
H
0.136
Gapped
Lambda
K
0.267
0.0410
0.394
H
0.140
Matrix: BLOSUM62
Gap Penalties: Existence: 11, Extension: 1
Number of Hits to DB: 59,562,868
Number of Sequences: 102387
Number of extensions: 2382147
Number of successful extensions: 6449
Number of sequences better than 10.0: 13
Number of
Number of
Number of
Number of
length of
length of
effective
effective
effective
HSP’s better than 10.0 without gapping: 6
HSP’s successfully gapped in prelim test: 7
HSP’s that attempted gapping in prelim test: 6415
HSP’s gapped (non-prelim): 22
query: 905
database: 37,391,913
HSP length: 116
length of query: 789
length of database: 25,515,021
effective search space: 20131351569
effective search space used: 20131351569
T: 11
A: 40
X1: 16 ( 7.4 bits)
X2: 38 (14.6 bits)
X3: 64 (24.7 bits)
S1: 41 (21.8 bits)
S2: 69 (31.2 bits)
Kuva 9.6: Esimerkki blastp-ohjelman tulosteesta. Haussa käytettiin SwissProt tietokantaa,
ja ihmisen XPF-DNA-korjausentsyymin aminohapposekvenssiä. Ohjelma tulostaa kaikki
ne sekvenssit, joiden E-arvo on sama tai korkeampi, kuin ohjelman ajomäärittelyissä annettu arvo kohdassa ’Expect’. Fasta-hakuun verrattuna BLAST ei raportoinut (tai löytänyt)
YIS2_YEAST -geeniä. Sekvenssit, joilla on hyvin korkea merkitsevyys, löytyvät kummassakin haussa. Score in bits tarkoittaa pistearvoa tai z-arvoa, joka perustuu kaksikantaiseen logaritmiin log2 (ei kymmenkantaiseen kuten Fastassa). Tämän lisäksi alkuperäistä
z-arvoa on muokattu niin, että se ottaa huomioon käytetyn pisteytysmatriisin eli on pisteytysmatriisista riippumaton. Myöhemmin linjauksien kohdalla alkuperäinen ’score in bits’
on esitetty suluissa. E-arvo kertoo odotusarvon, kuinka monta sekvenssiä saisi saman pistearvon pelkän sattuman vaikutuksesta. Tämän jälkeen esitetään löytyneiden sekvenssien
rinnastukset. Jokaisesta sekvenssistä ilmoitetaan kuinka suuri osa aminohapoista on identtisiä ("identities"), kuinka paljon on aminohappoja, jotka ovat joko identtisiä tai odotettuja korvautumisia BLOSUM62-matriisiin perustuen (ne korvautumiset, joissa pistearvo
on positiivinen, "positives") ja mikä on aukkojen osuus rinnastuksessa. Lopuksi ohjelma
tulostaa haun aikana käytettyjä parametreja ja välituloksia.
9
Sekvenssihaut
89
Taulukko 9.1: Eri BLAST-ohjelmaversioiden käyttötarkoitukset.
Ohjelma
blastn
tblastx
blastx
blastp
tblastn
Hakusekvenssi
nukleotidi
nukleotidi
nukleotidi
aminohappo
aminohappo
Tietokanta
nukleiinihappo
käännetty nukleiinihappo
proteiini
proteiini
käännetty nukleiinihappo
Taulukko 9.2: BLAST-hakuihin parhaiten soveltuvien pisteytysmatriisien ja aukkosakkoparametrien yhdistelmät. Aukkosakot on esitetty muodossa (9,1), jossa ensimmäinen
lukuarvo tarkoittaa avaamisesta koituvaa sakkoa, ja jälkimmäinen aukon jatkamisesta koituvaa sakkoa.
Haun pituus
<35
35-50
50-85
>85
9.4
Pisteytysmatriisi
PAM-30
PAM-70
BLOSUM-80
BLOSUM-62
Aukkosakot
(9,1)
(10,1)
(10,1)
(11,1)
PSI-BLAST
Monissa BLAST-hakupalveluissa on normaalin sekvenssihaun lisäksi mahdollista tehdä niin sanottu PSI-BLAST-haku (position specific iterated blast) (Altschul,
1997). Haku on iteratiivinen ja perustuu PSS-matriisiin. Ensimmäisessä vaiheessa omalla hakusekvenssillä tehdään normaali BLAST-haku. Tulokset, joiden Earvo on alle annetun kynnysarvon (expect), rinnastetaan keskenään. Rinnastuksesta tehdään PSS-matriisi. Paikkakohtaisen pisteytysmatriisin avulla tietokannasta
haetaan uusia (samaan perheeseen kuuluvia) sekvenssejä. Löydetyt sekvenssit lisätään usean sekvenssin rinnastukseen, jos ne ylittävät annetun kynnysarvon (the expect value for inclusion in PSI-BLAST iteration), joka on oletusarvoisesti 0,001.
Uusien tulosten perusteella luodaan uusi paikkakohtainen pisteytysmatriisi. Iteraatioita voidaan tehdä niin monta kuin halutaan. Tällä tavoin alkuperäisen sekvenssin ja jokaisessa haussa löydettyjen samankaltaisten sekvenssien informaatio yhdistetään tehtäessä uutta hakua. Tämä lisää haun sensitiivisyyttä. Ongelmana PSIBLAST:n käytössä on, että se voi helposti johtaa harhaan, jos samankaltaisuus on
pelkästään sattuman aiheuttamaa, eikä kuvasta sekvenssien sukulaisuutta. Tehtäessä useita iteraatiokierroksia väärät sekvenssit voivat kasata uusia vääriä sekvenssejä, ja näin johtaa koko haun väärille urille. Toimiessaan hyvin, PSI-BLAST:in
avulla on mahdollista löytää suuri osa samaan proteiiniperheeseen kuuluvista proteiineista.
9.5
PHI-BLAST
PHI-BLAST (pattern-hit initiated BLAST) toimii pitkälti samalla tavalla kuin PSIBLAST, mutta hakusekvenssistä etsitään ensin käyttäjän antama säännönmukaisuus (pattern). Säännönmukaisuus esitetään ohjelmalle säännöllisen lauseen muodossa. Säännöllisiä lauseita on koottu PROSITE-tietokantaan. Tietokantaan kohdistuvat haut rajoitetaan vain alueille, joilta säännönmukaisuus löytyi. Siten PHIBLAST antaa mahdollisuuden tutkia yhdessä tietyssä sekvenssikohdassa esiintyvää
vaihtelua tietokantasekvensseissä.
90
Bioinformatiikan perusteet
9.6 Sekvenssihaut Smith-Waterman-algoritmilla
Smith-Watermanin paikallisen rinnastuksen algoritmia voidaan käyttää myös sekvenssihakujen tekemiseen. Käytännössä algoritmi on noin sata kertaa BLAST:ia
hitaampi, ja sen käyttö on tullut mahdolliseksi vasta viime vuosina, kun tietokoneiden laskentakapasiteetti on kehittynyt huimasti. Smith-Waterman-haku näyttää soveltuvan kaukaisten sukulaisten löytämiseen BLAST:ia ja FastA:ta paremmin, johtuen kenties siitä, että Smith-Waterman-algoritmi muodostaa sekvenssien vällille
parhaan mahdollisen rinnastuksen. BLAST ja FastA eivät puolestaan välttämättä
löydä parasta mahdollista rinnastusta, jolloin vähäisemmät samankaltaisuudet voivat jäädä huomaamatta. Smith-Waterman-hakuja ei vieläkään käytetä kovin usein,
sillä tuloksia saattaa joutua odottamaan useita tunteja nopeallakin koneella. Tällöin oikean tietokannan tai sen osasen (divisioonan) valitseminen tuleekin entistä
tärkeämmäksi.
9.7 BLAST:n ja FastA:n Hakuparametrien asettamisesta
Sekä FastA- että BLAST-algorimit antavat mahdollisuuden vaikuttaa hakuun ohjelman parametreja muuttamalla. Parametreja on miltei pakko toisinaan muuttaa. Esimerkiksi, jos haluaa löytää lyhyen sekvenssin (vaikkapa 20bp) ihmisen genomista,
on parametreja muutettava, sillä oletusarvoisilla asetuksilla ajaminen ei useinkaan
tuota minkäänlaista tulosta. Yleistäen voidaan sanoa, että käyttötarkoituksesta riippuen, haku kannattaa aina aloittaa oletusasetuksilla, ja jos tulokset eivät ole tyydyttäviä, voidaan asetuksia muuttaa sopivampaan suuntaan. Seuraavassa on esitetty
muutamia suuntaviivoja, joita käyttäen hakuaan voi muokata sopivammaksi. Suuntaviivat on annettu lähinnä blastn- ja blastp-ohjelmia ajatellen, mutta ovat hyödyllisiä pitkälti myös muita BLAST-ohjelmia käytettäessä.
9.7.1 Rajoita haku vain kiinnostavaan tietokantaan
Kaikkein tärkeintä on valita tarkoitukseen sopiva tietokanta tai tietokannan osa. Esimerkiksi, jos halutaan löytää ihmisen sekvenssi, kannattaa haku rajoittaa pelkästään
ihmisen sekvensseihin, sillä tämä nopeuttaa hakua ja parantaa sen tarkkuutta. On
myös mahdollista rajoittaa haku vain tiettyyn eliöryhmään, kuten nisäkkäisiin.
9.7.2 Suodata hakusekvenssi
Ihmisen ja nisäkkäiden sekvensseistä kannattaa yleensä poistaa sekä "low complexity regions"että toistojaksot (human repeats), paitsi jos on erityisen kiinnostunut
toistojaksoista tai esimerkiksi Alu,- SINE- ja LINE-jaksoista tai muista yleisesti
ihmisen genomissa esiintyvistä virussekvensseistä.
9.7.3 Lyhyiden sekvenssien hakeminen
Jos tarkoituksena on löytää lyhyt sekvenssi, on valittava tiukat asetukset, eli sellaiset, jotka sallivat ainoastaan hyvin samankaltaisten osumien löytämisen. Tällöin on
syytä lyhentää sanakokoa, ja suurentaa E-arvoa. Lyhyet sekvenssit nimittäin tuottavat sattumaltakin useita osumia tietokantaan, ja jos E-arvo on liian alhainen ei oikeitakaan osumia raportoida. Lisäksi on mahdollista muuttaa käytettävää pisteytysmatriisia, jos hakuna käytetään aminohapposekvenssiä. Etsittäessä lyhyitä sekvenssejä, tulisi pisteytysmatriisina käyttää sellaista, joka soveltuu hyvin lähisukuisille
sekvensseille. Esimerkiksi matriiseja PAM30, BLOSUM80 ja BLOSUM90 voi kokeilla (NCBI:n palvelimella advanced option esimerkiksi -M PAM30). Esimerkiksi
sanakoolla 7 ja E-arvolla 10 pitäisi löytyä paljon osumia tietokantaan, jos käytetään nukleotidisekvenssiä. Vastaavasti aminohapposekvenssiä käytettäessä voidaan
9
Sekvenssihaut
91
asetuksiksi valita sanakoko 2, E-arvo 100 ja matriisiksi PAM30.
Jos ollaan hakemassa genomista esimerkiksi PCR-alukkeiden sitoutumiskohtia, voi olla syytä muuttaa sanakokoa siten, että sanakoko on saman mittainen kuin
itse alukekin. Tällöin otetaan huomioon vain sellaiset kohdat, joita aluke täydellisesti vastaa. Jos tämä ei ole mahdollista, voi myös aukkosakkojen muuttaminen
suuremmiksi auttaa tekemään haun spesifisemmäksi.
9.7.4 Homologien tunnistaminen
Jos halutaan löytää samankaltaisia tai homologisia sekvenssejä muista eliöistä on
syytä käyttää löysempiä asetuksia, mutta E-arvoa ei kannata kasvattaa kovin suureksi, tai mukaan alkaa tulemaan paljon roskaa. Esimerkiksi etsittäessä hiivasta
vastinetta jollekin ihmisen sekvenssille, kannattaa käyttää kaukaisille sekvensseille sopivaa pisteytysmatriisia, kuten PAM250, BLOSUM62 tai jopa BLOSUM40.
Aukkosakkoparametrien muuttaminen suuremmiksi voi olla järkevää, jos tuloksena
saadut rinnastukset näyttävät kovin aukkoisilta; koodaavalla alueella, oli sekvenssi
sitten DNA:ta tai aminohappoja, on yleensä suhteellisen vähän aukkoja. Tuloksia
kannattaa tulkita harkiten, sillä erityisesti eri lajeja verrattaessa voi sekvensseissä
olla duplikaatioita, inversioita tai muita uudelleenjärjestelyitä, joiden tunnistaminen voi olla hankalaa.
9.7.5 Eksonien määrittäminen
Suurin osa eksoneista on pituudeltaan oli 50 bp:tä, joten haussa voidaan käyttää
suurta sanapituutta. Esimerkiksi sanapituus 15 toimii yleensä varsin hyvin. Ennen
hakua sekvenssistä kannattaa suodattaa toistojaksot, ja käyttää alhaista E-arvoa.
Koska BLAST tekee paikallisen rinnastuksen, on rinnastus yleensä eksoni-intronirajapinnassa muutamia nukleotideja pidempi kuin todellinen eksoni. Tarkan eksonin sijainnin määrittäminen onnistuu esimerkiksi Smith-Watermanin algoritmia
käyttäen tai tarkastelemalla BLAST-rinnastuksen päitä. Introneissa on yleensä tyypillinen splice-sekvenssi, joka rajaa eksonin ja intornin.
9.7.6 Pääsäännöt
Haun spesifisyyteen ja sensitiivisyyteen vaikuttavat käytettävä sanakoko, pisteytysmatriisi ja E-arvo. Pääsääntöisesti näiden asetuksia muuttamalla voidaan suurelta
osin vaikuttaa löytyvien sekvenssien määrään (E-arvo) ja laatuun (pisteytysmatriisi
ja sanakoko). Lisäksi sanakoko vaikuttaa haun nopeuteen siten, että suuremmilla
sanakoon arvoilla haku nopeutuu lyhyempiin sanakokoihin verrattuna.
Aukkosakkoparametrien arvoja muuttamalla voidaan vaikuttaa haun antaman
sekvenssirinnastuksen pituuteen sekä haun spesifisyyteen. Mitä suurempia aukkoja parametrit sallivat avattavan, sitä kaukaisempiakin sukulaisia hakusekvenssille voidaan löytää. Käytännössä on havaittu, että BLOSUM-matriisit toimivat
PAM-matriiseja paremmin tietokantahauissa. Yleisimmin käytetään BLOSUM62ja BLOSUM50-matriiseja, jotka ovat tavallaan yleiskäyttöisiä matriiseja. BLOSUM62matriisille sopivat aukkosakot ovat -8 avaamiselle ja -2 jatkamiselle (-8/-2"). Vastaavasti BLOSUM50-matriisille sopivat parhaiten asetukset -12/-2 tai -14/-2.
9.7.7 Suunnittele haut!
BLAST-hakuihin kannattaa suhtautua vakavasti, kuten laboratoriokokeisiinkin. Aivan kuten laboratoriossakin, BLAST vastaa vain esitettyihin kysymyksiin. Jos esimerkiksi olet kiinnostunut löytämään geenejä, jotka ovat homologisia ihmisellä ja
sukkulamadolla, ei kannattane käyttää esimerkiksi NCBI:n BLAST-palvelun oletusasetuksia (osuma +1, huti -3 pistettä), jotka on säädetty löytämään 99% identtisiä sekvenssejä.
92
Bioinformatiikan perusteet
Aiemmin esitelty Karlin-Altschulin menetelmä rinnastuksen merkitsevyyden
laskemiseksi auttaa myös BLAST-hakujen suunnittelussa. Oletetaan, että halutaan
löytää eksoneita, jotka ovat konservoituneet sekä ihmisessä, että pallokalassa. Tyypillisiä hakuparametrejä käyttäen tulee yhden 50 bp:n mittaisen eksonin pistemääräksi n. 27,5, ja jos ihmisen ja pallokalan genomit ovat kooltaan 1,5 Gbp ja 450 MB,
tulee tulokseksi, että noin 230 000 osumaa saadaan pelkästään sattumalta. Näistä
satunnaisista osumista eroon pääsemiseksi voidaan siis joko pidentää etsitävän eksonin kokoa tai rajoittaa hakua esimerkiksi pelkkiin geenisekvensseihin.
Useimmiten BLAST-haun tuloksena saadaan joko liikaa osumia tai ei lainkaan
osumia. Liian useiden osumien karsiminen onnistuu useimmiten ylläolevien vinkkien mukaan, mutta jos osumia ei saada lainkaan, on syytä tutkia BLAST-tuloksen
alaviitettä (Kuva 9.6. Ensimmäisenä kannattaa tutkia, mikä on sanapituus joka tosin ei käy ilmi NCBI:n BLAST-tuloksen alaviittestä. Jos sanakoko on liian suuri,
ei hakusekvenssistä kovasti erovia sekvenssejä löydetä. Lisäksi kannattaa tarkastaa
käytetty pisteytysmatriisi. Jos se on kovin tiukka, ei hakusekvenssistä kovasti erovia
sekvenssejä löydetä. Lisäksi kannattaa tarkistaa, mikä oli seeding-vaiheessa käytetty raja-arvo (threshold), sillä jos se on kovin suuri, ei tällöinkään hakusekvenssistä
kovasti erovia sekvenssejä ole mahdollista löytää. Lisäksi kompleksisuussuodatus
voi aiheuttaa sen, että tietyt sekvenssit eivät saa merkitsevää E-arvoa. Yleensä joidenkin näistä parametreistä muuttaminen auttaa, ja osumia alkaa löytymään.
Tuloksia tulkittaessa kannattaa suhtautua varovaisesti hypoteettisiin proteiineihin, ja erityisesti lyhyisiin sellaisiin. Lisäksi monilla sekvensseillä on väärä Nterminaali, sillä useimmiten proteiinisekvenssiä käännettäessä ensimmäisen metioniinin tulkitaan aloittavan proteiinituotteen, mutta näin ei välttämättä ole. Myös
EST-sekvensseihin kannattaa suhtautua varauksella, sillä niissä on paljon sekvensointivirheitä, eivätkä ne aina edes vastaa geenin transkriboitavaa aluetta.
On varsin helppoa löytää merkityksettömiä osumia BLAST-haulla. Tyypillinen tilanne, jossa tällaisia syntyy, on liian alhaisten aukkosakkojen käyttö. Tällöin
hyvin huonotkin osumat saavat korkean E-arvon, ja ne näyttävät merkityksellisiltä.
Huonot osumat on helppo tunnistaa suuren aukkomäärän perusteella, ja sellaisista on syytä hankkiutua eroon nostamalla aukkosakkoparametrejä. Kompleksisuussuodatuksen käyttämättäjättämälläkin on mahdollista tuottaa hyvinkin mielenkiintoisia tuloksia. Useimmiten suodattamaton sekvenssi löytää ainakin jonkinlaisen,
huononkin, osuman tietokannasta jotakin sellaista geeniä vastaan, että se näyttää
mielenkiintoiselta. Tällaisiin tuloksiin kannattaa suhtautua hyvin skeptisesti.
9.8 Pitkät sekvenssit - vaihtoehtoiset lähestymistavat
Pitkien sekvenssien vertailu muodostaa FastA:lle, Blastille ja Smith-Waterman algoritmeille ongelman. Smith-Waterman -algoritmi on aivan liian hidas. FastA, Blast,
Wu-Blast, Psi-Blast ja SIM puolestaan käyttävät suuria määriä muistia. SENSEI
on edellä mainittuja hieman nopeampi ja käyttää huomattavasti vähemmän muistia, mutta rajoittuu tällä hetkellä ainoastaan aukottomiin rinnastuksiin. MegaBlast
toimii suhteellisen tehokkaasti, sillä se käyttää pitkää sanakokoa (28) ja pitkille sekvensseille optimoituja aukkosakkoja, mutta se ei sovellu hyvin valtaville sekvensseille, eikä pääse suoritustasoltaan Blastin tasolle. MegaBlast onkin optimoitu sekvensseille, jotka eroavat toisistaan vähän (esimerkiksi sekvensointivirheet). Se on
noin kymmenen kertaa muita Blast-ohjelmia nopeampi ja sopii siten hyvin kahden
suuren sekvenssijoukon keskinäiseen vertailuun.
MUMmer, QUASAR ja REPuter eivät käytä hauissa sana (ktup) -perusteisia
menetelmiä, vaan suffiksipuita (suffix trees). Suffiksipuiden ongelmana on, että ne
on tarkoitettu tarkkojen osumien löytämiseen, ja niiden käyttöalue rajoittuukin hyvin samankaltaisten sekvenssien vertailemiseen. Ne myös vaativat suuria määriä
muistia.
9
Sekvenssihaut
93
9.8.1 Uusi ratkaisu - PatternHunter
PatternHunter -ohjelma perustuu periaatteessa Blast-algoritmiin, jota on muunneltu
siten, että nopeammat ja suuremmilla sekvensseillä toimivat haut ovat mahdollisia
(Ma, 2002). Ohjelmaa on käytetty muun muassa ihmisen ja hiiren koko genomien
vertailuun (Waterston, 2002).
PatternHunterin lähestymistapa perustuu sanakokoon, kuten Blastinkin. Siinä missä Blast etsii ensivaiheessa peräkkäisiä sanakoon (k) mittaisia osumia, etsii PatternHunter k:n mittaisia ei-peräkkäisiä osumia. Voidaan osoittaa, että parhaan pistemäärän antava osuma löytyy aina peräkkäisiä k:n mittaisia sanoja etsien.
Ei-peräkkäisiä sanoja käyttäen parasta osumaa ei voida taata. Tähän perustuukin
PatternHunterin lähestymistapa: siinä toteutettu algoritmi osaa etsiä ei-peräkkäiset
osumat siten, että paras osuma varmasti löytyy.
PatternHunterin sensitiivisyys ja spesifisyys näyttävät olevan omaa luokkaansa. MegaBlast on suunniteltu erityisesti hakujen nopeutta ajatellen ja Blastn sensitiivisyyttä ajatellen. Näyttää siltä, että PatternHunter samanaikaisesti pieksee Blastn:n
sensitiivisyydessä ja MegaBlastin nopeudessa (pitkillä sekvensseillä), ja molemmat
käytetyn muistin määrässä. Käytännössä PatternHunter mahdollistaa kokonaisten
ihmisen kromosomien käsittelyn tavanomaisella pöytäkoneella, joka on varustetty
2 GB:lla keskusmuistia.
94
Bioinformatiikan perusteet
10 Usean sekvenssin
rinnastus
10.1
Mikä on usean sekvenssin rinnastus?
Aiemmin on käsitelty kahden sekvenssin rinnastuksia. Niissä käytetyt menetelmät
voidaan laajentaa soveltumaan myös useampien sekvenssin rinnastukseen. Usean
sekvenssin rinnastuksen avulla voidaan selvittää esimerkiksi proteiinien samankaltaisuuksia (muodostaa fylogeneettisiä puita), jolloin sekvenssiltään samankaltaiset
proteiinit saattavat olla evolutiivisesti sukua keskenään tai niillä saattaa olla sama biokemiallinen tehtävä. Rinnastuksen avulla voidaan muodostaa konsensussekvenssejä, joita voidaan käyttää saman geeniperheen muiden jäsenten etsintään tietokannoista, tai niiden avulla voidaan suunnitella PCR-alukkeita. Tärkeä sovellus
on myös genomien sekvenssointi, jossa lyhyistä DNA-sekvensseistä pyritään muodostamaan koko genomin kattava esitys (haulikko-menetelmä). Tällöin on olemassa vain yksi oikea konsensussekvenssi, joka pyritään löytämään tarpeeksi usean
päällekkäin menevän lyhyen sekvenssin avulla. Sekvenssirinnastuksen perusteella
voidaan myös määrittää sekvenssijoukon konservoituneimmat alueet, jotka usein
vastaavat jotakin proteiinin toiminnalle keskeistä rakennetta. Sekvenssirinnastuksissa tulee jossakin vaiheessa vastaan tilanne, ettei riittävän muista eroavaa sekvenssiä voida enää rinnastaa luotettavasti tai lainkaan. Usein tämä tilanne tulee
vastaan, kun proteiinisekvenssien samankaltaisuus on alle 20%, nukleiinihapposekvensseille sama raja tulee vastaan huomattavasti aiemmin, noin 75% tienoilla.
Mainittua rajaa kutsutaan toisinaan nimellä twilight zone (hämärän rajamaa).
Kuvassa 10.1 on esitetty esimerkki usean sekvenssin rinnastuksesta.
I
A
T
G
G
A
A
-
T
A
II
A
T
G
G
-
-
-
T
A
T
T
III
C
G
G
G
T
C
C
T
A
T
IV
C
T
-
G
T
C
C
G
A
C
V
C
G
G
G
A
A
C
G
A
T
C
T
G
G
A/T A/C C
T
A
T
Kuva 10.1: Esimerkki viiden lyhyen sekvenssin rinnastuksesta. Alimpana konsensussekvenssi.
Kuten kahden sekvenssin rinnastuksissakin, ei usean sekvenssin rinnastuksissakaan ole välttämättä yhtä oikeaa vaihtoehtoa, vaan rinnastusparametreja muuttamalla voidaan useinkin tuottaa erilaisia rinnastuksia samalle sekvenssijoukolle.
Useiden rinnastusten tuottaminen ja niiden tarkastelu ja mahdollisesti käsin muok-
10
Usean sekvenssin rinnastus
95
kaaminen jälkikäteen on viisasta. Ohjelmien oletuasetukset eivät välttämättä tuota
parasta rinnastusta, vaan niitä on muuteltava!
Edellisissä kappaleissa esitettyä dynaamista ohjelmointia voidaan käyttää myös
usean sekvenssin rinnastuksessa, mutta usein tämä on mahdollista vain muutaman lyhyen sekvenssin kanssa, koska laskenta-aika kasvaa nopeasti. Tämän vuoksi
usean sekvenssin rinnastukseen on kehitetty approksimaalisia menetelmiä. Näitä
ovat progressiiviset menetelmät, joissa rinnastusta laajennetaan asteittain kahdesta
sekvenssistä kaikkia sekvenssejä koskevaksi, ja iteratiiviset menetelmät. Tutustutaan ensin tarkemmin dynaamiseen optimointiin ja sen jälkeen approksimaalisiin
menetelmiin.
10.2
Usean sekvenssin rinnastus dynaamista optimointia
käyttäen
Dynaamista optimointia voidaan käyttää usean sekvenssin rinnastuksen luomiseen,
mutta menetelmä ei sovellu kovin suurille sekvenssijoukoille. Aiemmin ylärajana
pidettiin 3-4 sekvenssiä, mutta nykyisin menetelmää voidaan laskentaympäristöstä riippuen käyttää jopa 10-20 sekvenssille. Dynaamisen optimoinnin käyttöä rajoittaa se, että rinnastettavat sekvenssit sijoitetaan taulukkon, jossa jokainen akseli
vastaa yhtä sekvenssiä. Kahden 300 aminohappoa pitkän sekvenssin rinnastaminen
vaatii 300*300 = 90 000 soluisen taulukon, ja kolmen vastaavan mittaisen aminohappoketjun rinnastaminen 27 000 000 soluisen taulukon. Jos sekvenssejä on
useampia kuin kolme, joudutaan kuvittelemaan vieläkin useampiulotteinen taulukko, ja tarvittavien solujen (vertailujen) määrä kasvaa nopeasti sekvenssien määrän
ja pituuden kasvaessa.
Nykyisin usean sekvenssin rinnastus dynaamista optimointia soveltaen tapahtuu siten, että jokaiselle sekvenssiparille lasketaan ensin optimaalinen rinnastus
Needleman-Wunshin algoritmilla (Gupta, 1995) (kuva 10.2). Parittaisten rinnastusten perusteella voidaan päätellä taulukosta sellainen alue, jolla optimaalisin rinnastus todennäköisesti sijaitsee, vaikka tällaisia rinnastuksia olisikin mahdollisesti
useita (kuva 10.3). Parittaisten rinnastusten perusteella arvioitujen sekvenssien välisistä samankaltaisuuksista muodostetaan puu kuten progressiivisessa rinnastuksessa. Puun perusteella muodostetaan sekvenssirinnastus, joka ei ole välttämättä
optimaalinen, mutta määrittää taulukossa sen alueen, jolle usean sekvenssin kaikkein optimaalisin rinnastus todennäköisesti sijoittuu. Tällä menettelyllä läpikäytävien taulukon solujen lukumäärä saadaan pienentymään murto-osaan alkuperäisestä määrästä, mikä sekä tarkentaa että nopeuttaa usean sekvenssin rinnastuksen
laskemista. Kun näin rajattu alue läpikäydään Needleman-Wunschin menetelmällä,
saadaan optimaalinen usean sekvenssin rinnastus selvitettyä (kuva 10.4).
Taulukon soluihin sijoitettavien pistemäärien arvo saadaan parisummamenetelmällä (sum of pairs, SP measure). Jokaiseen soluun sijoitetaan parittaisten rinnastusten saamien pistemäärien summa. Optimaalinen rinnastus määritetään NeedlemanWUnschin menetelmällä parisummia käyttäen siten, että suurimman yhteenlasketun parisumman saanut rinnastus tulkitaan optimaalisimmaksi usean sekvenssin
rinnastukseksi. Parittaisten rinnastusten pistemäärien ja parisummien laskemisessa
käytetään pisteytysmatriisia ja aukkosakkoja, kuten Needleman-Wunsch-menetelmässä.
Käytetyin ohjelma MSA käyttää ainoastaan aukon avaamisesta johtuvaa sakkoa, eikä avatun aukon jatkamisesta enää sakoteta lisää.
96
Bioinformatiikan perusteet
Kuva 10.2: Rinnastettaessa usean sekvenssin rinnastusta dynaamista optimointia käyttäen muodostetaan aluksi sekvenssien väliset parittaiset rinnastukset (katkoviiva). Parittaisen rinnastuksen voidaan ajatella olevan usean sekvenssin rinnastuksen (yhtenäinen viiva)
peilaus kahden sekvenssin suhteen yhdelle taulukon sivulle. Esimerkissä rinnastetaan kolme sekvenssiä, joten kahden sekvenssin rinnastuksen voidaan ajatella olevan usean sekvenssin rinnastuksen kuvaus yhdellä kuution sivulla. Kuution sivulle syntyvät kuvan voidaan ajatella muodostuvan kuution läpäisevästä usean sekvenssin rinnastuksesta, jos kuutiota valaistaan riittävän kaukaa lampulla, jolloin parittainen rinnastus heijastuu kuution
yhdelle sivulle. Kuva on julkaistu tekijän (Fuellen, 1997) luvalla.
10.3
Progressiiviset menetelmät eli asteittain etenevät
menetelmät
Progressiivisissa menetelmissä sekvenssien rinnastus tehdään asteittain kolmessa
osassa (Thompson, 1987). Ensimmäisenä rinnastetaan kaikki sekvenssit toisiaan
vasten. Tämä voidaan tehdä mitä hyvänsä kahdelle sekvenssille soveltuvaa kokonaisrinnastusmenetelmää käyttäen, vaikkapa pistematriisimenetelmää käyttäen,
mutta usein käytetään dynaamista optimointia. Seuraavassa vaiheessa muodostetaan sekvenssien välisten etäisyyksien perusteella puu jotakin puun muodostamiseen soveltuvaa menetelmää käyttäen. Yleensä käytetään UPGMA- tai neighbor
joining-menetelmää, joita käsitellään tarkemmin molekyylisystematiikan osuudessa. Viimeisessä vaiheessa rinnastetaan sekvenssit toisiaan vasten puun määrämässä
järjestyksessä siten, että ensimmäisenä rinnastetaan kaikkein samankaltaisimmat
sekvenssit.
10.3.1 Clustal-perhe
Seuraavassa tarkastellaan hieman tarkemmin Clustal-perheen (Higgins, 1988) ohjelmissa toteutettua progressiivista rinnastusmenetelmää.
• Aluksi kaikki sekvenssit rinnastetaan keskenään, jotta niiden välinen samankaltaisuusaste saadaan määritettyä (Kuva 10.5). Rinnastuksessa voidaan soveltaa joko aiemmin esiteltyä dynaamista algoritmia (slow-accurate -optio)
tai nopeampaa BLAST:in kaltaista k-tuple -menetelmää (fast-approximateoptio). Kun kaikki sekvenssit on rinnastettu, lasketaan sekvenssien väliset
samankaltaisuusasteet ja muodotetaan niiden perusteella etäisyysmatriisi.
Sekvenssien väliset etäisyydet arvioidaan sellaisten rinnastuksen kohtien perusteella, joissa ei esiinny aukkoja (parittainen poisto, pairwise deletion).
10
Usean sekvenssin rinnastus
97
Kuva 10.3: Kun kaikki rinnastettavat sekvenssit on rinnastettu pareittain (katkoviivat),
ne määrittelevät kuution läpäisevän alueen, jolla usean sekvenssin rinnastus todennäköisesti sijaitsee (yhtenäinen viiva). Näin saadaan supistettua kuution tarkasteltavien solujen
lukumäärää, mikä nopeuttaa rinnastuksen löytymistä. Kuva on julkaistu tekijän (Fuellen,
1997) luvalla.
Näin saadaan arvioitua sekvenssien välisten erojen suhteellinen osuus (samankaltaisuus). Suhteellinen osuus (K) ilmoitetaan "prosentteina"välillä 01. Periaatteessa sekvenssien väliset etäisyydet voitaisiin laskea vähentämällä samankaltaisuus 1:stä (1-K). Mitä samankaltaisempia sekvenssit ovat, sitä
pienempi etäisyys niiden välillä on (Kuva 10.6.
Käytännössä Clustalissa voi valita halutaanko sekvenssien välinen etäisyys
ilmoittaa prosenttiosuutena (K) vai samanlaisten emästen tai aminohappojen
absoluuttisena määränä. Jos sekvensseissä on suurta pituusvaihtelua, kannattanee enemmin käyttää prosenttiosuusmittaa.
• Etäisyysmatriisia käyttäen muodostetaan puu (guide tree) (Kuva 10.7). Puu
muodostetaan neighbor joining- menetelmässä, jota käsitellään tarkemmin
luvussa 16. Puun avulla kullekin sekvenssille määritetään sen painoarvo eli
sekvenssin suhteellinen vaikutus koko rinnastuksen pistearvoon. Painoarvot
skaalataan siten, että suurin painoarvo on aina yksi ja muut on suhteutettu
väliltä 0-1 siihen.
Puun sisempien oksien pituudet vaikuttavat ulompia oksia vähemmän kunkin
sekvenssin painoarvoon. Oksien pituudet jaetaan siis luvuilla, jotka kertovat,
kuinka moni sekvenssi jakaa tämän yhteisen kantamuodon kussakin puun
haarautumiskohdassa.
• Laskettuja painoarvojen perusteella muodostetaan lopullinen usean sekvenssin rinnastus (Kuva 10.8).
98
Bioinformatiikan perusteet
Kuva 10.4: Kun parittaisten rinnastusten määrittelemä aöue on läpikäyty NeedlemanWunschin kokonaisrinnastusmenetelmällä, muodostuu usean sekvenssin rinnastus. Kuvion
perusteella määritetty kokonaisrinnastus on
VSN-S
-SNAS
---AS Kuva on
julkaistu tekijän (Fuellen, 1997) luvalla.
Kuva 10.5: Rinnastettavien sekvenssien parittaiset rinnastukset.
10
Usean sekvenssin rinnastus
99
Kuva 10.6: Rinnastettujen sekvenssien väliset etäisyydet eri tavoin laskettuna. Clustal
käyttää oletusarvoisesti sekvenssien välisiä prosenttiosuuseroja, mutta joissakin toisissa
ohjelmissa voidaan käyttää Jukes-Kantorin (JC) -etäisyyttä.
Clustal-perheen ohjelmissa aukkojen sakotusta on muutettu siten, että käyttäjän määräämiä alkuperäisia avaamis- ja jatkamiss akkoja muutetaan sekvenssien pituuksien, samankaltaisuuksien ja painokertoimien perusteella. Tämän lisäksi
aukkosakot riippuvat siitä, mihin kohtaan rinnastusta aukkoja sijoitetaan. Uuden
aukon avaaminen jo olemassa olevan aukon sisään saa pienemmän sakon kuin uuden aukon avaaminen aiemmin aukottomalle alueella. Samaten esimerkiksi uuden
aukon avaaminen alle kahdeksan aminohapon päähän jo olemassa olevasta aukosta saa tavanomaista korkeamman aukkosakon. Tällainen aukkosakkojen muuntelu edesauttaa konservoituneiden alueiden löytymistä. Hydrofiiliset aminohapposekvenssialueet sijaitsevat usein proteiinien silmukkarakenteissa, ja niitä vastaavissa sekvensseissä aukot ovat yleisiä. Niinpä hydrofiilisille alueille muodostettavien
aukkojen sakotusta on pienennetty normaalitilanteeseen verrattuna. Aukkosakkoja
muunnetaan myös sen mukaan, mitä muita aminohappoja aukkokhdassa esiintyy.
Esimerkiksi aukosta isoleusiinin kanssa sakotetaan vähemmän kuin jos aukko sijaitsee rinnastuksessa samassa sarakkeessa kuin glysiini.
Progressiivisen menetelmän suurin heikkous liittyy parittaisten rinnastusten
muodostamiseen. Parittaisissa rinnastuksissa tehdyt virheet nimittäin moninkertaistuvat rinnastuksen edetessä. Erityisesti kaikkein samankaltaisimpien sekvenssien
rinnastusten paikkansapitävyys vaikuttaa voimakkaasti koko usean sekvenssin rinnastuksen lopputulokseen.
Parittaisen rinnastuksen aiheuttamia ongelmia pyritään poistamaan muun muassa siten, että kaikkein erilaisimpien sekvenssin lisäämistä usean sekvenssin rinnastuksen pyritään myöhäistämään. Koska kovin erilaisen sekvenssin lisääminen rinnastukseen aikaisessa vaiheessa voi aiheuttaa suuren aukkomäärän avamisen. Koska aukkoja ei rinnastuksen myöhemmissä enää voida poistaa, voi tämä aiheuttaa
suuria virheitä rinnastukseen. Clustalissa voidaan määrittää parametri, jolla määritetään myöhäistettävien sekvenssin samankaltaisuus (delay divergent sequences).
10.3.2 T-Coffeen menetelmä
T-Coffee (tree-based consistency objective function for alignment evaluation) käyttää rinnastusta muodostaessaan kahtalaista aineistoa: Samoista sekvensseistä muodostettua usean sekvenssien rinnastusta sekä parittaisista rinnastuksista muodos-
100
Bioinformatiikan perusteet
Kuva 10.7: Esimerkki Clustal-ohjelman tarvitsemasta ohjepuusta.
10
Usean sekvenssin rinnastus
101
Kuva 10.8: Esimerkki sekvenssirinnastuksen muodostamisesta viidelle esimerkkisekvenssillemme.
tettua valikoimaa, rinnastuskirjastoa (Notredame, 2000). T-Coffee yhdistää näiden
aineistolähteiden antaman informaation usean sekvenssin rinnastukseen siten, että
rinnastuksessa sekvenssit on rinnastettu siten, että se parhaiten sopii parittaisten rinnastusten antamaan tietoon sekvenssien samankaltaisista alueista. Menetelmä siis
yhdistää paikallisen ja kokonaisrinnastuksen hyvät puolet.
Aluksi rinnastettavista sekvensseistä muodostetaan parittaisten rinnastusten
valikoima jotakin soveltuvaa ohjelmaa, esimerkiksi Lalign:ia (FastA-paketista), käyttäen. Lisäksi muodostetaan usean sekvenssin rinnastus Clustal:ia käyttäen. Seuraavaksi parittaisia rinnastuksia käyttäen jokaiselle mahdolliselle nukleotidi-nukleotiditai aminohappo-aminohappo -rinnastusparille määritetään painoarvo. Esimerkiksi
rinnastuksissa parille, jossa adeniini ja adeniini osuvat kahdessa sekvenssissä kohdakkain voitaisiin määrätä painoarvo 0,1. Painoarvot määrätään eri pareille sen mukaan, kuinka samankaltaisia olivat ne sekvenssit, joista pari oli lähtöisin. Rinnastuksi käyttäen muodostetaan kaksi primäärikirjastoa painoarvoineen, toinen parittaisten rinnastusten perusteella ja toinen usean sekvenssin rinnastuksen perusteella.
Seuraavassa vaiheessa kahden primäärikirjaston sisältämät painoarvot pyritään yhdistämään. Jos sama pari esiintyy molemmissa kirjastoissa, se saa painoarvokseen noissa kirjastoissa saamiensa painoarvojen yhteenlasketun arvon. Tämän
jälkeen painoarvot vielä optimoidaan ("library extension") eräänlaista heuristista menetelmää käyttäen. Lopputuloksena on esimerkiksi aminohapposekvensseille
BLOSUM-matriisia muistuttava matriisi, jossa kullekin muutokselle on ilmoitettu
sen saama arvo rinnastusta muodostettaessa.
Lopullinen usean sekvenssin rinnastus T-Coffeessa muodostetaan siten, että
kaikkien sekvenssien välille lasketaan niiden etäisyydet toisistaan, ja muodostuvan parittaiset etäisyydet sisältävän matriisin perusteella muodostetaan neighborjoining puu. Sekvenssit rinnastetaan sitten dynaamista optimointia (kuten Clustal:ssakin) käyttäen toisiinsa tämän puun määräämässä järjestyksessä. Rinnastusten
saamia pistemääriä, siis niiden hyvyyttä määritettäessä käytetään edellä kuvatulla
tavalla muodostettuja painoarvoja. Koska aukkosakkoja on käytetty jo aiemmissa vaiheissa, nimittäin rinnastuskirjaston ja Clustal:in usean sekvenssin rinnastusta
muodostettaessa, ei aukkosakkoja enää tarvitse erikseen määrittää T-Coffeen muo-
102
Bioinformatiikan perusteet
dostaessa usean sekvenssin rinnastuksen.
T-Coffee on Clustal:ia huomattavasti tarkempi menetelmä, mutta myös noin
kymmenen kertaa hitaampi. Vaikka T-Coffee voikin tuottaa Clustal:ia parempia rinnastuksi, näyttää niiden molempien ohi ajaneen vieläkin uudempi menetelmä, joka on toteutettu ohjelmassa Muscle. Sen toimintaan tutustutaan hieman tarkemmin
seuraavassa kappaleessa.
10.3.3 Muscle-menetelmä
Muscle (Edgar, 2004) on uusimpia progressiivista rinnastusmenetelmää käyttäviä
ohjelmia. Siinä progressiivinen rinnastus suoritetaan kolmessa vaiheessa:
• Vedosrinnastus
• Rinnastus
• Parannettu rinnastus
Vedosrinnastusta muodostettaessa on tarkoituksena vain nopeasti muodostaa
rinnastus, jonka tarkkuudella ei ole niin väliä, ainoastaan nopeudella. Tässä vaiheessa lasketaan ktup-etäisyys kaikkien rinnastettavien sekvenssien välille. Ktupetäisyyttä laskettaessa jokainen sekvenssi pilkotaan tietyn mittaisiksi pätkiksi (ktup),
ja etäisyys vastaa kahden sekvenssin välillä olevin samanlaisten pätkien lukumäärää. Näin saadan nopeasti laskettua etäisyysmatriisi, jonka perusteella muodostetaan UPGMA-puu. Sekvenssit rinnastetaan UPGMA-puun perusteella edellä kuvattua progressiivista menetelmää käyttäen.
Rinnastusta muodostettaessa lasketaan sekvenssien välinen etäisyys ktup-etäisyyttä
tarkempaa Kimura-etäisyyttä käyttäen. Tällöin sekvenssien välisten parittaisten etäisyyksien arviointiin käytetään vedosvaiheessa muodostettua usean sekvenssin rinnastusta. Parittaisten etäisyyksien perusteella muodostetaan jälleen UPGMA-puu,
jonka perusteella muodostetaan rinnastus. Rinnastusta muodostettaessa optimoidaan rinnastus uudelleen ainoastaan sellaisille sekvensseille, joiden sijoitus vedosvaiheen ja rinnastusvaiheen puissa oli erilainen. Tällaisia sekvenssejä voi olla
useampiakin, joten rinnastuksessa voidaan joutua optimoimaan uudelleen kokonaisia ryhmiäkin.
Parannettua rinnastusta muodostettaessa valitaan rinnastusvaiheen puusta satunnaisesti yksi sisäinen oksa, jonka perusteella puu jaetaan kahdeksi pienemmäksi
puuksi. Näiden pienempien puiden perusteella muodostetaan profiili, jotka sitten
rinnastetaan ja näin muodostuu jälleen usean sekvenssin rinnastus. Tämä uusi rinnastus säilytetään, jos se on parempi kuin alkuperäinen rinnastus (sen saama pistemäärä on parempi kuin alkuperäisen rinnastuksen). Tätä paranteluvaihetta toistetaan kunnes rinnastusta ei voida enää parantaa tai kunnes käyttäjä käskee ohjelmaa
lopettamaan puun parantelun.
Musclessa rinnastus voidaan tallettaa missä tahansa vaiheessa. Näin samoista
sekvensseistä voidaan saada käyttöön kolme erilaista rinnastusta: vedos, varsinainen rinnastus ja parenneltu rinnastus. Riippuen käyttötarkoituksesta ainakin rinnastuksen ja parannellun rinnastuksen käytölle on varmasti tarvetta, mutta epätarkan
vedosrinnastuksen käytölle jatkoanalyyseissä on vaikea nähdä suoraan tarvetta.
Ennen Musclen julkistusta T-Coffeeta pidettiin tarkimpana ja parhaana rinnastusohjelmistona. Muscle näyttää kuitenkin pieksevän T-Coffeen, ei ylivoimaisesti, mutta tarkkuudella mitattuna noin kahdella prosentilla (Edgar, 2004). T-Coffee
oli tarkka, mutta huomattavasti Clustal:ia hitaampi. Muscle näyttää pääsevän TCoffeen tarkkuuteen vaikkei rinnastuksen paranteluvaihetta käytettäisikään. Rinnastuksesta riippuen Muscle näyttää saavuttavan Clustal:in nopeuden joko paranteltelun vaihetta käyttäen tai ilman sitä.
10
Usean sekvenssin rinnastus
10.4
103
Usean sekvenssin rinnastuksen pistemäärän laskeminen
Eri ohjelmat käyttävät usean sekvenssin rinnastuksen pistemäärän laskemiseen hieman eri menetelmiä, mutta periaate on useimmissa sama. Clustal-perheen ohjelmat
toimivat jokseenkin seuraavasti. Pistemäärään laskettaessa tarkastellaan vain yhtä
sekvenssikohtaa kerrallaan. Kaikkien mahdolisten sekvenssienparien saamat pistemäärät tässä sekvenssipaikassa lasketaan yhteen (Kuva 10.9). Kun kaikille mahdollisille sekvenssikohdille on laskettu pistemäärä, summataan kaikkien kohtien pistemäärät yhteen, ja näin saadaan koko rinnastuksen pistemäärä. Clustal skaalaa pistemäärää siten, että kunkin sekvenssin painoarvo pistemäärää laskettaessa on yhtä
suuri kuin sen painoarvo guide tree:ssä. Clustalin antamat rinnastusten pistemäärät
voivatkin olla desimaalilukuja.
Kuva 10.9: Esimerkki kolmen sekvenssin rinnastuksen pistemäärän laskemisesta.
10.5
Iteratiiviset menetelmät
Iteratiiviset menetelmät muistuttavat progressiivisia menetelmiä siten, että molemmissa tehdään alustava fylogeneettinen puu kahden sekvenssin rinnastuksiin perustuen (Notredame, 1996). Puun avulla lasketaan myös eri sekvenssien painokertoimet, ja niiden (ja puun) mukaan luodaan usean sekvenssin rinnastus. Iteratiiviset
menetelmät menevät tästä eteenpäin siten, että saadun usean sekvenssin rinnastuksen avulla muodostetaan uusi puu, josta taasen lasketaan sekvenssien painokertoimet ja muodostetaan uusi usean sekvenssin rinnastus. Tätä jatketaan niin kauan
kunnes rinnastus ei enää muutu edellisestä kierroksesta. Iteratiiviset menetelmät
eivät ole yhtä herkkiä alkuperäisille kahden sekvenssin rinnastuksille kuin puhtaat
progressiiviset menetelmät.
Geneettisiin algoritmeihin perustuvat menetelmät ovat uusimpia iteratiivisia
menetelmiä. Geneettinen algoritmi ei nimestään huolimatta liity genetiikkaan, vaan
on yleisnimi tietojenkäsittelytieteessa käytettävälle laskennalliselle algoritmille. Näillä algoritmeilla tapahtumia mutatoidaan ja rekombinoidaan. Usean sekvenssin rinnastus geneettisen algoritmin avulla tapahtuisi seuraavasti.
Ensin luodaan joukko satunnaisia usean sekvenssin rinnastuksia, esimerkiksi
100 kappaletta. Näille lasketaan pistearvot. Pistearvoltaan parhaimmat (esimerkik-
104
Bioinformatiikan perusteet
si 50 parasta) valitaan seuraavalle kierrokselle sellaisenaan. Loput 50 rinnastusta
valitaan arpomalla siten, että rinnastukset, joilla on paras pistemäärä, tulevat valituksi todennäköisemmin kuin rinnastukset, joilla on huono pistemäärä. Nämä satunnaisesti valitut rinnastukset joutuvat alttiiksi mutaatioille ja rekombinaatiolle.
Mutaatio tarkoittaa, että rinnastuksiin lisätään aukkoja. Satunnaisen pituisia aukkoja lisätään satunnaisiin paikkoihin, mutta otetaan huomioon, mitkä sekvenssit ovat
evolutiivisesti lähempänä toisiaan perustuen fylogeneettiseen puuhun. Lähellä toisiaan olevien sekvenssien aukko sijoitetaan samaan kohtaan. Jo olemassa olevien
aukkojen kohtia voidaan myös muuttaa mutaatioilla. Rekombinaatiolla eri rinnastusten osia vaihdetaan keskenään, ja luodaan uusia rinnastuksia. Mutaatioiden ja
rekombinaation avulla luodut uudet rinnastukset pisteytetään, ja jälleen valitaan
parhaat rinnastukset sellaisinaan seuraavalle kierrokselle, ja satunnaisesti valitulle
rinnastusten joukolle tehdään taas mutaatioita ja rekombinaatioita.
Kuvattua sykliä toistetaan (iteroidaan) esimerkiksi 100-1000 kertaa, ja valitaan
paras rinnastus. Koko prosessi aloitetaan uudestaan luomalla 100 uutta satunnaista
rinnastusta ja useiden mutaatio-rekombinaatiokierrosten jälkeen saadaan taas paras
rinnastus. Kun tätä koko operaatiota on toistettu riittävän monta kertaa, poimitaan
paras rinnastus. Algoritmi ei kuitenkaan takaa, että saatu rinnastus olisi kaikkein
paras mahdollinen rinnastus.
Geneettisissä algoritmeissa on se hyvä puoli, että algoritmin avulla voidaan
helposti ottaa talteen esimerkiksi 20 parasta sekvenssirinnastusta yhdellä kertaa parametreja muuttamatta. Tämä on etu, sillä yleensä joudutaan muuttamaan rinnastusohjelman parametreja useaan kertaan, jotta saadaan riittävä määrä erilaisia rinnastuksia tarkasteltavaksi.
10.6
Proteiineja koodaavien DNA-sekvenssien rinnastaminen
Proteiineja koodaavien DNA-sekvenssien rinnastaminen on eräs sekvenssirinnastusten erikoistapaus, joka kannattaa huomioida. On usein varsin epätodennäköistä,
että DNA:ssa tapahtuneet muutokset johtavat geenin lukukehyksen muuttumiseen.
Jos DNA:ssa tapahtunut insertio tai deleetio ei vaikuta lukukehykseen, on sen pituus kolmella jaollinen. Tämä täytyy ottaa huomioon rinnastusta muodostettaessa
joko siten, että käytetään sopivaa ohjelmaa tai muokataan rinnastusta käsin siten,
että aukkojen sijainti ja pituus sopivat tähän oletukseen. On myös mahdollista rinnastaa ensin vastaavat aminohapposekvenssit, ja vasta näin muodostetun rinnastuksen perusteella DNA-sekvenssit, jolloin aukoista tulee väkisinkin sen mittaisia, että
ne ovat kolmella jaollisia.
10.7
Aminohapposekvenssirinnastuksen editointi käsin
Koska aminohapposekvenssi vastaa yhtä toiminnallista proteiinia, josta mahdolisesti tunnetaan jopa sen 3D-rakenne, on aminohapposekvenssien rinnastaminen
toisinaan helpompaa kuin DNA-sekvenssien. Aminohapposekvenssien rinnastuksessa voidaan nimittäin käyttää apuna tietoa sitä vastaavan proteiinin sekundäärirakenteesta, toiminallisen keskuksen sijainnista ja rakenteesta ja mahdollisesta 3Dkristallirakenteesta.
Aminohapposekvenssirinnastuksen muodostaminen kannattaa aloittaa siten,
että antaa ensin tietokoneen tuottaa sekvensseistä rinnastuksen, jota sitten editoidaan käsin. Aminohapporinnastusta editoitaessa, kuten aina rinnastusta editoitaessa, on edettävä hitaasti askel kerrallaan, sillä virheitä syntyy helposti. Koska tavoitteena on muodostaa rinnastus, jossa suurin osa sarakkeista on mahdollisimman
konservoituneita, ja käyttää apuna proteiinin mahdollisesti tunnettuja rakenteita,
voidaan rinnastuksen laatuakin arvioida editoinnin edetessä, ja siten korjata huonolaatuisia alueita paremmiksi.
10
Usean sekvenssin rinnastus
105
Usein tunnettu proteiinin sekundäärirakenne kannattaa ottaa huomioon jo tietokonerinnastusta muodostettaessa, sillä tällöin tietokoneen tekemä rinnastus on
jo suhteellisen lähellä oikeaa. Esimerkiksi Clustal-ohjelmissa proteiinin sekundäärirakenne voidaan huomioida rinnastusta muodostettaessa. Clustal-ohjelma myös
antaa erilaisia hyvyysparametreja eri rinnatuskohdille, joita voidaan käyttää apuna
rinnastusta muokattaessa. Clustal esimerkiksi raportoi jokaisen rinnastussarakkeen
konservoitumisasteen, ja sitä apuna käyttäen voidaan pyrkiä editoimisen edetessä
maksimoimaan koko rinnastuksen konservoitumisaste.
Lisäksi rinnastuksen hyvyyden arviointiin voidaan esimerkiksi käyttää vertaamista konsensussekvenssiin. Esimerkiksi, tietyssä sekvenssikohdassa sijaitseva aminohappo ei kenties kuulu siihen rinnastuksen sarakkeeseen, jos se on kovin
kaukana sarakkeen konsensussekvenssistä. Rinnastuksesta voidaan myös muodostaa profiili, jota käyttäen rinnastuksen laadun arviointi voi myös onnistua. Aluksi
muodostetusta rinnastuksesta laaditaan profiili. Tämän jälkeen jokainen sekvenssin
vuorollaan poistetaan rinnastuksesta, ja jäljellejääneestä rinnastuksesta muodostetaan uusi profiili. Rinnastuksesta poistettua sekvenssiä verrataan nyt tähän uuteen
profiiliin, ja jos jokin muutamia aminohappoja pidempi sekvensialue saa negatiivisen arvon profiilia vastaan verrattaessa, on sen rinnastus väärä. Kun sekvenssin
rinnastus on korjattu, voidaan profiilit laskea uudelleen, ja jälleen korjata mahdollisesti vääriä rinnastusalueita. Tätä toistetaan, kunnes rinnastus on riittävän hyvä.
Rinnastuksen lopuksi on syytä tarkastella "lopullista"rinnastusta vielä kriittisesti. Jos aukkokohdat sijaitsevat tunnetuilla (tai estimoiduilla) sekundäärirakennealueille, ne on voitu sijoittaa väärin. Jos aukot sijaitsevat etupäässä satunnaisrakenteissa, on niiden sijoittelu parempi. Jos proteiineista tunnetaan niiden aktiivinen
keskus, tulee siihen kuuluvien aminohappojen todella olla rinnastuksessakin samassa sarakkeessa ja esiintyä yhdessä. Lisäksi niiden tulee olla saavutettavissa ei
hautautuneena proteiinin ytimeen.
10.8
Sekvenssirinnastuksen laadun arviointi
Jos rinnastettavat sekvenssit ovat aminohapposekvenssejä tai DNA-sekvenssit koodaavat proteiineja, voidaan sekvenssirinnastuksen onnistumista arvioida proteiinin
rakenteen perusteella (Kuva 10.10). Esimerkiksi kaseiinisekvenseissä on kaseiinimotiivi heti sekvenssin alussa. Lisäksi motiivi SSSEE esiintyy sekvensseissä myöhemmin. SSSEE-motiivi on tärkeä kaseiiniproteiinin laskostumisen ja koossapysymisen kannalta. Nämä rakennepiirteet löytyvät kaikista kaseiineista kaikilta nisäkkäiltä, joten niiden pitäisi myös sijoittua rinnastuksessa kohdakkain. Jos rakennepiirteet eivät osu kohdakkain, on rinnastus huono, ja sitä pitää parannella käsin tai
käyttää jotakin muuta koneen tuottamaa rinnastusta.
Jos sekvenssirinnastuksen apuna ei ole mitään ulkopuolista tietoa, on paras rinnastus valittava esimerkiksi konservoitumista käyttäen. Erityisesti on kiinnitettävä
huomiota aukkojen määrään ja sijaintiin. Usein suhteellisten kaukaistenkin sukulaissekvenssien rinnastuksessa muodostuu konservoituneita alueita, joilla on voinut
tapahtua substituutioita muttei insertioita tai deleetioita. Tällaisten sekvenssirinnastusalueiden määrä pitäisi pitää mahdollisimman suurena. Aukkojen määrässä pitäisi tähdätä minimimäärään. Evolutiivisesti ajatellen aukot ovat suhteellisen kalliita,
ja niitä esiintyy sitä harvemmin mitä lähisukuisempia sekvenssit ovat.
10.9
Clustal-perheen tekemiä tyypillisiä virheitä
Erityisesti Clustal-ohjelmat tekevät hyvin yleisesti sellaisia rinnastusvirheitä, joissa rinnastettavien aminohapposekvenssien ensimmäinen aminohappo (metioniini)
ei ole kohdakkai. Koska miltei kaikki tunnetut proteiinit alkavat metioniinilla, tulisi
niiden myös rinnastuksessa sijoittua kohdakkain. Jälleen, jos näin ei käy, on rinnas-
106
Bioinformatiikan perusteet
Kuva 10.10: Esimerkki neljästä erilaisesta kaseiinisekvenssien rinnastuksesta, joissa jokaisessa on kuusi sekvenssiä eri nisäkäslajeista. Näistä neljästä rinnastuksesta paras on
numero 2 (toinen ylhäältä).
tusta korjattava, sillä virhe on selkeästi ohjelmasta johtuva, eikä kuvasta sekvenssien tunnettua biologiaa. Seuraavat esimerkit on muokattu bioinfo-core -sähköpostilistalla
käydystä keskustelusta.
Alkuperäinen rinnastus Muokattu rinnastus
Sekvenssi 1 MVHLTPEEKS MVHLTPEEKS
Sekvenssi 2 -VHLTPEEKS -VHLTPEEKS
Sekvenssi 3 -MVLSPADKT MV-LSPADKT
Sekvenssi 4 -MVLSPADKT MV-LSPADKT
Toinen Clustalin, muttei Tree-Coffeen yleisesti tekemä virhe liittyy sekvenssirinnastuksen keskellä oleviin pitkiin aukkoihin. Usein Clustal sijoittaa pitkän aukkokohdan siten, että aukon jälkeen tulevan ensimmäisen aminohapon pitäisi itse
asiassa olla viimeinen aminohappo enne aukkoa. Alla olevassa rinnastuksessa aminohappo Q on siirtynyt virheellisesti aukon alusta aukon loppuun. Tällaisetkin virheet on rinnastuksen laadun varmistamiseksi korjattava ennen jatkoanalyysejä.
VARIANT_1 FDPTITDASLSLPSRRMQNDTAENETTEKEEKSESRQERYEIEETETVTKSYQKNDWRDA
VARIANT_2 FDPTITDASLSLPSRRMQNDTAENETTEKEEKSESRQERYEIEETETVTKSYQKNDWRDA
************************************************************
VARIANT_1 EENKKEDKEKEEEEEEKPKRGSIGEN---------------------------------VARIANT_2 EENKKEDKEKEEEEEEKPKRGSIGENQVEVMVEEKTTESQEETVVMSLKNGQISSEEPKQ
**************************
VARIANT_1 -----------------------------------------------------------VARIANT_2 EEEREQGSDEISHHEKMEEEDKERAEAERARLEAEERERIKAEQDKKIADERARIEAEEK
VARIANT_1 -----------------------------------------------------------VARIANT_2 AAAQERERREAEERERMREEEKRAAEERQRIKEEEKRAAEERQRIKEEEKRAAEERQRIK
VARIANT_1 -----------------------------------------------------------VARIANT_2 EEEKRAAEERQRARAEEEEKAKVEEQKRNKQLEEKKRAMQETKIKGEKVEQKIEGKWVNE
VARIANT_1 -----------------------------------------QIKDEKIKKDKEPKEEVKS
10
Usean sekvenssin rinnastus
107
VARIANT_2 KKAQEDKLQTAVLKKQGEEKGTKVQAKREKLQEDKPTFKKEEIKDEKIKKDKEPKEEVKS
:******************
VARIANT_1 FMDRKKGFTEVKSQNGEFMTHKLKHTENTFSRPGGRASVDTKEAEGAPQVEAGKRLEELR
VARIANT_2 FMDRKKGFTEVKSQNGEFMTHKLKHTENTFSRPGGRASVDTKEAEGAPQVEAGKRLEELR
************************************************************
Toisinaan myös kahden liki täydellisesti samankaltaisten sekvenssien välinen
rinnastus voi mennä pieleen, jos mukaan otetaan jompaa kumpaa sekvenssiä vastaava sekvenssifragmentti. Tällöin fragmentin jälkeinen rinnastuksen osa voi olla
siirtynyt yhden aminohapon verran siten, että kaikki fragmentin jälkeiset aminohapot ovat huteja, sillä koko sekvenssi on siirtynyt yhden pykälän eteenpäin. Tämä
johtuu siitä, että rinnastukseen tarvittavasta aukosta on tehty yhden aminohapon
verran liian pitkä.
Edellä mainittuihin ongelmiin ei ole yksinkertaista ratkaisua Clustalissa sikäli,
että ne eivät poistu rinnastusparametreja muuttelemalla, vaan ainoa tapa on tutkia
rinnastusta silmämääräisesti ja korjata huomatut virheet.
108
Bioinformatiikan perusteet
11 DNA-sekvenssin
ominaisuuksien
selvittäminen
11.1
Mitä DNA:sta voidaan selvittää?
Ensivilkaisulla DNA-sekvenssit saattavat näyttää vähän tylsiltä, mutta on useita
menetelmiä joiden avulla DNA-sekvenssistä saadaan paljon mielenkiintoista ja tärkeää tietoa. Tiettyä entsyymiä koodaavasta DNA-sekvenssistä ei välttämättä voida etsiä toiminnallisia rakenteita yhtä helposti kuin aminohapposekvenssistä, mutta esimerkiksi restriktioentsyymien katkaisukohtia ja kodonien käyttöä ei voida
analysoida aminohapposekvenssin perusteella. Tässä luvussa käsitellään muutamia
sellaisia yleisesti käytettyjä menetelmiä, joiden avulla DNA-sekvenssejä analysoidaan.
11.2
Restriktioentsyymien katkaisukohtien löytäminen
Molekyylibiologisessa laboratoriossa on usein tarpeen siirtää tietty DNA-pätkä bakteerissa monistuvaan plasmidi-vektoriin.Toisinaan on tarpeen määrittää myös plasmidin pituus ja koostumus restriktioentsyymien katkaisukohtia käyttäen. Myös SNP:ien
määrityksissä voidaan käyttää PCR-RFLP-menetelmää, joka perustuu siihen, että
restriktioentsyymien agaroosigeeliin luomaa katkoskuviota tulkitsemalla tulkitaan
yksilön genotyyppi tietyn SNP:n suhteen. Tällaisia menetelmiä varten on tarpeen
määrittää tunnetun DNA-sekvenssin sisältämät restriktioentsyymien katkaisukohdat.
Katkaisukohtien määrittäminen ei ole bioinformatiivisesti hankala tehtävä. Periaatteessa analyysi voidaan tehdä vaikkapa tekstinkäsittelyohjelmassa, jos restriktioentsyymin katkaisukohdan sekvenssi tunnetaan. Tekstinkäsittelyohjelma soveltuu tarkoitukseen kuitenkin vain, jos etsitään yhden tietyn tai muutamien entsyymien katkaisukohtia. Jos halutaan etsiä sekvenssistä kaikkien mahdollisten entsyymien katkaisukohdat, on paras turvautua tähän tehtävään erityisesti suunniteltuihin
ohjelmiin.
Käytännössä tällaiset ohjelmistot sisältävät tietokannan kaikkien tunnettujen
restriktioentsyymien katkaisukohdista, ja ne vertaavat katkaisukohtia esimerkiksi
säännöllisiä lauseita käyttäen hakusekvenssiin (kuva 11.1). Toiset ohjelmat käyttävät katkaisukohdista laadittuja profiileja, mutta lopputulos on sama, ja profiilien ja
säännöllisten lauseiden käytön välinen valinta on usein tehty laskennallisen nopeuden tai henkilökohtaisten mieltymysten perusteella.
11
DNA-sekvenssin ominaisuuksien selvittäminen
Hakusekvenssi:
...ACTTCGACCAGGTACCTG...
SexA I:
A-C-C-[AT]-G-G-T
109
A/CCWGGT
TGGWCC/A
ACCTGGT
ACCTGGT
ACCTGGT
ACCTGGT
ACCTGGT
CGACCAGGTAC
ACCAGGT
ACCAGGT
ACCAGGT
ACCAGGT
ACCAGGT
Tulos:
SexA I
|
CGACCAGGTAC
Kuva 11.1: Restriktioentsyymin katkaisukohdan etsiminen säännöllistä lausetta käyttäen
kaavamaisesti esitettynä. SexA I -entsyymin katkaisukohdan sekvenssissä /-merkillä on
osoitettu sekvenssikohta, johta entsyymi katkaisee DNA-kaksoiskierteen. Katkaisukohta
on symmetrinen. Entsyymin katkaisukohdan keskellä on voi olla joko A tai T. Etsittäessä katkaisukohtaa hakusekvenssi (lihavoitu) käydään läpi käyttäen molempia mahdollisia
tunnistesekvenssimuotoja tai säännöllistä lausetta A-C-C-[AT]-G-G-T. Kun katkaisukohta
on löydetty, saadaan sen sijainti laskettua hakusekvenssin alkuun suhteutettuna. Tekstimuotoisessa tuloksessa katkaisukohdan sijainti ilmoitetaan usein sille kohtaa, josta entsyymin tunnistekohta alkaa.
110
11.3
Bioinformatiikan perusteet
Nukleotidien ja kodonien runsaussuhteiden arviointi
Nukleotidien runsaussuhteiden selvittäminen on tärkeää esimerkiksi DNA:n sulamislämpötilan selvittämiseksi. Lisäksi mono-, di-, ja trinukleotidifrekvenssejä analysoimalla voidaan tutkia varsin tarkasti tietyillä genomialueilla tapahtuvia evolutiivisia muutoksi. Esimerkiksi, CpG-saarekkeiden avulla voidaan tutkia metylaation vaikutusta mutaatioihin: Ihmisellä metylaatio tapahtuu CpG-dinukleotidin Cnukleotidissa. Metylaatio lisää C->T mutaatioiden frekvenssiä. Jos siis suurin osa
tunnetuista mutaatioista (sairauksia aiheuttavat mutaatiot, SNP:t) erityisesti CpGsaarekkeissa on tapahtunut C:stä T:ksi, voidaan olettaa, että tämä on seurausta metylaatiosta. CpG-saarekkeet ovat pituudeltaa 0,5-2 kbp, ja niitä esiintyy erityisesti
geenien promoottorialueilla. Metylaatio on tärkeä geenisäätelyn muoto ainakin nisäkkäillä.
Arvioimalla kodonien runsaussuhteita proteiineja koodaavissa geeneissä, voidaan arvioida esimerkiksi tapahtuneiden mutaatioiden neutraalisuutta. Toisin sanoen, ovatko mutaatiot mistä tahansa nukleotidista miksi tahansa nukleotidiksi kaikki yhtä yleisiä. Tällaiset tutkimukset ovat tulleet entistä tärkeämmiksi erityisesti genomiikassa.
Myös eri genomien ja yksittäisten kromosomialueiden GC% vaihtelee suuresti. Eliön GC% voi riippua esimerkiksi sen elinympäristön lämpötilasta: Kuumissa
lähteissä kasvavien bakteerien perimän GC-pitoisuus on usein tavanomaista suurempi. Nisäkkäiden genomeissa on alueita, joiden GC-pitoisuus vaihtelee jopa 30
prosenttiyksikköä. Eri alueiden välillä ei ole selviä rajoja, mutta GC-pitoisuus korreloi usein kromosomivärjäyksessä (Giemsa) muodostuvien raitojen kanssa. Tällaisia eri tavalla värjäytyviä kromosomialueita on perinteisesti kutsuttu isokooreiksi,
ja GC-pitoisuus näyttää olevan eräs värjäytyvyyteen vaikuttava seikka.
Nukleotidien A, C, G ja T runsaussuhteet on helppoa arvioida sekvenssin
perusteella. Jokaisen nukleotidin lukumäärä sekvenssissä lasketaan, ja yksittäisen
nukleotidin frekvenssi on prosenttilukuna:
p(A) =
fA
,
fN
jossa p(A) on esimerkiksi adenosiinin prosenttiosuus kaikista nukleotideista, f A adenosiinien lukumäärä sekvenssissä ja f N sekvenssin pituus. GC% lasketaan laskemalla C:n ja G:n prosenttiosuudet yhteen. Mitä korkeampi on sekvenssin
GC%, sitä korkeammassa lämpötilassa se sulaa, ja sen sekvensointi voi myös olla
vastaavasti vaikeampaa.
Dinukleotidien taajuuksilla tarkoitetaan kahden nukleotidin mittaisten sanojen esiintymistaajuutta sekvenssissä. Esimerkiksi sekvenssistä ATGGCGATGCTG
voidaan lukea seuraavat dinukleotidit: AT, GG, CG, AT, GC ja TG. Vastaavasti
sekvenssistä voidaan lukea seuraavat trinukleotidit (kodonit): ATG, GCG, ATG,
CTG. Yleensä trinukleotidien frekvenssillä tarkoitetaankin juuri eri kodonien frekvenssejä, ja ne voidaan arvioida vain proteiineja koodaavista geeneistä. Eri kodonien yleisyyden arviointi voi olla tärkeää esimerkiksi, kun jonkin toisen eliön
proteiinia yritetään tuottaa bakteerissa. Jos bakteerin ja siirtogeenin isäntäeliön kodonien käytössä (frekvensseissä) on suuria eroja, ei geeni välttämättä toimi bakteerissa.
11.4
DNA-sekvenssin translointi aminohapposekvenssiksi
DNA-sekvenssiä vastaavan aminohapposekvenssi tunteminen avaa uusia ulottuvuuksia esimerkiksi sekvenssin toiminnan selvittämiseksi. Lisäksi proteiineja ei
nykyisin enää juuri sekvensoida, sillä DNA:n sekvensointi on nopeampaa ja yksinkertaisempaa, joten ainoa vaihtoehto aminohapposekvenssin saamiseksi voi olla sen translointi DNA-sekvenssistä. Jos translaation aloituskohta (ATG-kodoni)
11
DNA-sekvenssin ominaisuuksien selvittäminen
111
tiedetään varmasti, on DNA-sekvenssin transloiminen helppoa: aloitetaan kääntäminen ATG-kodonista eteenpäin ja lopetetaan se ensimmäiseen loputuskodoniin.
Yleensä translaatioaloitukohtaa ei kuitenkaan ennalta tunneta tarkasti, joten DNAsekvenssi onkin transloitava kaikissa mahdollisissa lukuraameissa (Kuva 11.2). Tätä kutsutaan oikean lukukehyksen (ORF, open reading frame) etsimiseksi.
DNA-sekvenssin transloimiseen käytetään useimmiten lähetti-RNA -sekvenssiä
tai cDNA:ta, bakteereilla myös genomista sekvenssiä. Bakteereilla ei nimittäin juurikaan esiinny introneja. Jos monisoluisista eliöistä saatavilla on ainoastaan genominen sekvenssi, joka sisältää sekä eksonit että intronit, on ensin selvitettävä eksonien sijainti, jotta saadaan selville lähetti-RNA:ta vastaava sekvenssi.
Yllä esitetyllä menetelmällä on mahdollista tunnistaa ja löytää oikea lukukehys ja sitä vastaava aminohappoketju arviolta 80-90% tapauksista. Jos tunnistettava proteiinituote on hyvin lyhyt, eri geenien lukukehykset menevät päällekäin tai
sijaitsevat eri DNA-juosteissa tai translaation aloituskodonin tarkkaa sijainti ei tunneta, on käytettävä tehokkaampia menetelmiä. Eräs tallainen menetelmä on ohjelmoitu GeneMark-tietokoneohjelmaan. Tällaisia menetelmiä käsitellään tarkemmin
luvussa Geenien rakenteen selvittäminen.
11.5
DNA:n käänteiskomplementarisointi
DNA:ssa on kaksi juostetta, joista toinen kulkee 5’->3’ suuntaan, ja toinen on tälle
vastakkainen. Tämän säännön perusteella voidaan tunnettu DNA-sekvenssi muuttaa käänteiseksi (takaperoiseksi), komplementaariseksi (vastinjuoste) tai käänteiskomplemetaariseksi (takaperoinen vastinjuoste). Periaate on kuvattu kuvassa 11.3.
11.6
Eksonien ja intronien määrittäminen
Eksonien ja intronien tunnistaminen genomisesta sekvenssistä on tärkeää, jotta geeniä vastaavan aminohappoketjun koostumus saadaan selville. Myös vaihtoehtoisen
silmukoinnin selvittämiseksi on tarpeen tuntea geenin tarkempi rakenne. Tässä esitettävä yksinkertainen menetelmä perustuu oletukseen, että genomisen sekvenssin
lisäksi käytettävissä on muutakin tietoa geenialueesta. Jos käytössä on ainoastaan
genominen sekvenssi, on turvauduttava menetelmiin, joita käsitellään tarkemmin
luvussa Geenien rakenteen selvittäminen.
Jos geenistä tunnetaan sekä genominen sekvenssi että lähetti-RNA -sekvenssi,
onnistuu eksonien tunnistaminen helposti rinnastamalla lähetti-RNA -sekvenssi genomisen sekvenssin kanssa. Tällöin genomisen sekvenssin alueet, jotka rinnastuvat
lähetti-RNA:n kanssa vastaavat geenissä olevia eksoneita. Sekvenssit voidaan rinnastaa joko pistematriisimenetelmällä (kuva 11.4), jolloin saadaan visuaalinen tulos eksonien sijainnista, tai paikalliseen rinnastukseen soveltuvilla menetelmillä,
Smith-Waterman-algoritmilla tai BLAST-algoritmilla (Kuva 11.5).
11.7
Vaihtoehtoinen silmukointi
Saman geenin tuottaman lähetti-RNA:n vaihtoehtoinen silmukointi (alternative splicing)
on luultavasti hyvin tärkeä geenisäätelyn muoto. Vaihtoehtoista silmukointia käyttäen solu voi ilmentää erilaista proteiinia solun eri osissa, vaikka kaikki muodot
ovatkin peräisin yhdestä ja samasta geenistä. Vaihtoehtoisessa silmukoinnissa nimittäin tuotetaan erilaisia lähetti-RNA -muotoja siten, että yksi tai useampia eksoneita, jotka ovat olemassa alkuperäisessä geenissä, poistetaan lähetti-RNA:sta.
Toinen tärkeä geenisäätelyn muoto on luultavasti vaihtelevan ensimmäisen eksonin
käyttö. Joistakin geeneistä tunnetaan vaihtoehtoisia muotoja, joista geenin ensimmäinen eksoni puuttuu. Vaihtoehtoisen silmukoinnin tunnistaminen biokemiallisia
tutkimusmenetelmiä käyttäen on hankalaa, joten useimmiten asian selvittämiseen
112
Bioinformatiikan perusteet
SHOWORF of ECRECA from 1 to 1391
---------|---------|---------|---------|---------|
1 agagaagcctgtcggcaccgtctggtttgcttttgccactgcccgcggtg 50
F1
1 R
F2
1
E
E
A
K
C
P
R
V
H
G
R
T
L
V
V
W
C
F
F
A
C
F
H
A
C
T
P
A
R
R
*
G
F3
1
R
S
L
S
A
P
S
G
L
L
L
P
L
P
A
V
R1
48
S
F
G
T
P
V
T
Q
N
A
K
A
V
A
R
P
R2
24
R3
18
L
L
S
R
A
D
Q
A
R
G
C
D
R
P
R
K
T
S
Q
K
K
G
Q
S
W
G
Q
A
G
16
E 17
16
33
T
R
9
H 3
---------|---------|---------|---------|---------|
51 aaggcattacccggcgggatgcttcagcggcgaccgtgatgcggtgcgtc 100
F1
1
F2
18
R
H
F3
17 K
A
L
P
R1
32 S
P
M
V
R2
8
R3
2
G
F
Y
I
A
L
P
T
N
C
A
R
G
*
S
P
A
F
A
M
R
P
G
C
D
G
R
G
G
R
I
P
S
S
G
A
D
A
L
Q
R
R
A
E
A
A
S
H
*
K
R
L
R
T
P
P
S
R
H
S
R
C
G
I
H
R
V
R
C
T
G
A
M
*
V
R
D
V
P
A
R 17
V
33
A
S
4
H
T
16
A
T
D 3
R
2
---------|---------|---------|---------|---------|
101 gtcaggctactgcgtatgcattgcagaccttgtggcaacaatttctacaa 150
F1
18
F2
34 V
Q
F3
5
S
R1
15
T
R2
2
R3
1 R
A
R
G
*
S
*
A
Y
R
C
S
P
A
L
Y
L
D
T
L
Q
V
A
M
L
H
Q
C
V
C
I
A
R
I
C
Q
T
A
H
Y
M
A
T
R
D
N
C
P
T
K
Q
N
A
Q
R
V
Q
G
V
G
S
W
C
L
L
A
L
P
A
H
F
N
L
F
Q
Y
T
I
S
T
L
L
K
*
V
C
I
C
E
N
33
K
50
K 21
L 19
V
R
14
C
32
---------|---------|---------|---------|---------|
151 aacacttgatactgtatgagcatacagtataattgcttcaacagaacata 200
F1
34 N
F2
51
T
F3
22
H
L
I
L
Y
E
H
T
V
*
L
L
Q
Q
N
I
R1
18
V
S
S
V
T
H
A
Y
L
I
I
A
E
V
S
C
R2
13 F
R3
31
T
F
*
L
C
V
Y
D
K
Q
C
T
I
M
V
S
Y
S
*
Y
Q
I
A
S
I
C
L
Q
Y
M
Y
S
V
C
N
I
T
Y
C
I
Y
F
A
N
L
N
S
S
Q
R
T
*
K
T
E
C
L
F
L
Y
H
V
14
I 11
6
3
M
6
Y 15
Kuva 11.2: Eräs kolibakteerin geeni transloituna kuudessa eri lukuraamissa. Lukukehyksiin on merkitty tähdellä (*) translaation lopetuskohdat. Todennäköisin lukukehys antaa
pisimmän yhtäjaksoisen aminohapposekvenssin. Aloitusaminohappona käytetään liki aina metioniinia, joten transloidun aminohappoketjun pitäisi alkaa M:llä. Toisen lukukehyksen tuottama aminohapposekvenssi (lihavoitu) vastaa tunnettua proteiinia, ja onkin oikea
tulos. Useimmiten translaation tulosta arvioidaan vielä siltä kannalta, että lyhyimmät tunnetut proteiinit ovat 50-100 aminohappoa pitkiä, joten lyhyemmät translaatio tuotteet ovat
luultavasti vääriä.
11
DNA-sekvenssin ominaisuuksien selvittäminen
Alkuperäinen sekvenssi:
113
5’-ACG GCT TGC-3’
Komplementaarinen sekvenssi:
3’-TGC CGA ACG-5’
Käänteinen sekvenssi:
3’-CGT TCG GCA-5’
Käänteiskomplementaarinen sekvenssi:
3’-GCA AGC CGT-5’
Kuva 11.3: DNA:n rakenteeseen perustuva sekvenssin manipulointi.
Kuva 11.4: Genomisen ja lähetti-RNA -sekvenssin pistematriisimenetelmällä toteutettu
rinnastus. Vaaka-akselilla on ihmisen alfa 1 -hemoglobiinin genominen sekvenssi, ja pystyakselilla sitä vastaava lähetti-RNA -sekvenssi. Geenissä näyttää olevan kolme eksonia
(poikittaiset viivat) ja kaksi intronia.
käytetään tietokannoissa olevia EST-sekvenssejä. EST-sekvenssit ovat lyhyitä pätkiä pidemmästä lähetti-RNA -sekvenssistä. Monissa tietokannoissa on jo tietoa eri
geenien vaihtoehtoisista silmukointimuodoista (Kuva 11.6), mutta analyysien perusajatus käsitellään tässä kuitenkin lyhyesti (Modek, 2001).
Vaihtoehtoisten silmukointitulosten tunnistaminen perustuu laajamittaiselle ESTsekvenssien käytölle. EST-sekvenssejä verrataan genomiseen DNA-sekvenssiin. Jos
jonkin eksonialueen havaitaan puuttuvan EST-sekvenssien joukosta, voidaan sen
mahdollisesti olettaa olevan vaihtoehtoinen silmukointituote. Aiemmissa tutkimuksissa vastaavaa menetelmää käyttäen on havaittu, että vähintään noin viidesosalla
ihmisen geeneistä vaihtoehtoista silmukointia tapahtuu.
Tässä kuvattavaa menetelmää varten tarvitaan ihmisen genominen sekvenssi, joka on tätä kirjoitettaessa helposti saatavissa vaikkapa Ensembl-tietokannasta.
Lisäksi tarvitaan tutkittavaa geeniä vastaavat EST-sekvenssit, jotka voidaan selvittää BLAST-haulla EMBL-tietokannasta. Tietty geeniä vastaavat EST-sekvenssit
voi myös suoraan kopioida UNIGENE-tietokannasta. UNIGENE-tietokannan etuna on, että se on annotoitu, eikä sen pitäisi sisältää paralogisia sekvenssejä, jotka
voivat aiheuttaa vääriä tuloksia analyysissä. BLAST-haun jälkeen paralogiset sekvenssit pitää itse poistaa analyysistä.
Tämän jälkeen genomisesta sekvenssistä selvitetään eksonien paikat, joko rinnastamalla geeniä vastaavat mRNA- ja EST-sekvenssit sen kanssa tai tietokannasta saatuja annotaatioita käyttäen. Eksonit voidaan siis tunnistaa mRNA- ja EST-
114
Bioinformatiikan perusteet
Kuva 11.5: Ihmisen alfa 1 -hemoglobiinin genomisen ja lähetti-RNA sekvenssien rinnastus NCBI:n BLAST-algoritmia ja -palvelinta käyttäen. BLAST palauttaa kuvan sekvenssien rinnastuvuudesta ja rinnastuvien alueiden parittaiset rinnastukset. Tästä on pistematriisimenetelmään verrattuna se etu, että eksoni-introni-rajojen määrittäminen käy helposti
yhden nukleotidin tarkkuudella.
sekvenssien kanssa tehdystä rinnastuksesta, koska rinnastuvia alueita löytyy ainoastaan eksoneista. Alueet, joille ei löydy vastinetta mRNA- tai EST-sekvensseistä
ovat introneita. Eksonien selvittämisen jälkeen mRNA- ja EST-sekvenssit rinnastetaan joka tapauksessa genomisen sekvenssin kanssa.
Vaihtoehtoiset silmukointimuodot voidaan tunnistaa EST-rinnastuksista pitkinä insertioina (kuva ??). Jos EST-sekvenssit vastaavat täydellisesti (sekvensointivirheet armahtaen) genomista sekvenssiä mahdollisen vaihtoehtoisen silmukointikohdan molemmin puolin, ja tällaisen täydellisen osuman sisällä on pitkä insertio, voi kysymyksessä olla vaihtoehtoinen silmukointi. Vaihtoehtoisen silmukoinnin vahvistamiseksi intronin pitää alkaa GT-sekvenssillä ja päättyä AG-sekvenssiin.
Intronin silmukoinnissa nämä donoriksi ja akseptoriksi kutsutut lyhyet sekvenssialueet osallistuvat silmukan muodostukseen. Täydelliset sekvenssit ovat itseasiassa
AGGTAAGT intronin alussa ja (Py)nNCAGG intronin lopussa. Lisäksi oikeaan silmukointiin tarvitaan adeniini intronin keskellä.
11.8
Promoottorialueen tunnistaminen
Periaatteessa aitotumallisten eliöiden, kuten ihmisen, geenien promoottorialueiden
tunnistaminen ja niiden sekvenssien hakeminen esimerkiksi Ensembl-tietokannasta
on helppoa. Jos geeni, geenin nimi tai siihen liittyvän sekvenssin tunnistenumero
tunnetaan, voidaan promoottorialueen sekvenssi hakea näitä tietoja käyttäen Ensembltietokannasta. Vaikka tämä kuulostaa helpolta, ei asia ole näin yksinkertainen. Ihminen geenikartta ei ole vielä täysin vakiintunut, joten promoottorialue ei välttämättä ole juuri etsitystä geenistä. Lisäksi Ensembl-tietokanta sisältää epätarkkuuksia: sama geeni voi palauttaa useampia promoottorialueita jopa eri kromosomeista!
11
DNA-sekvenssin ominaisuuksien selvittäminen
115
Kuva 11.6: BLAT-ohjelmalla osoitteessa http://genome.ucsc.edu/ suoritetun haun
tulos. Hakusekvenssinä oli ihmisen RAB-geeniä vastaava sekvenssi (EMBL-tunniste
BG334944). Kuvassa on esitetty geenirakennetta tukeva tieto ylimpänä erivärisin nuoliviivoin, ja näiden alla geeniä vastaavat EST-sekvenssit mustilla nuoliviivoilla. Nuoliviivojen
keskellä sijaitsevat värilliset tai mustat laatikot vastaavat eksoneita. Jotkin EST-sekvenssit
eivät olet täysmittaisia, jolloin nuoliviivasta puuttuu pala. EST-sekvenssien perusteella voidaan tehdä johtopäätöksiä vaihtoehtoisen silmukoinnin vaikutuksesta lähetti-RNA:n ja sitä
vastaavan proteiinin rakenteeseen: Esimerkiksi EST-sekvenssistä W52533 näyttävät puuttuvan kaikki eksonin kolme jälkeiset eksonit. Yhtä EST-sekvenssiä lukuunottamatta kaikissa sekvensseissä esiintyvät eksonit yksi ja kaksi. Jokaisesta EST-sekvenssistä on myös
saatavilla lisätietoja, jolloin saattaa olla mahdollista myös päätellä, millaisiin solutyyppeihin tai tautitiloihin tietynlaisten geenimuotojen ilmeneminen voi liittyä.
Sellaisten lajien kohdalla, joista koko perimää ei tunneta, ongelma on vielä huomattavasti vaikeampi.
Promoottorialueen pituus vaihtelee eri eliöillä ja eri geeneillä. Esimerkiksi hiivalla promoottorialueet ovat useimmiten korkeintaan 500-1000 bp:n mittaisia, kun
ihmisellä promoottorialueet ovat yleensä korkeintaan 3 500 bp:a. Promoottorialueen tarkkaa pituutta on myös vaikea arvioida, jollei esimerkiksi tunneta tutkittavaa geeniä edeltävän geenin sijaintia. Promoottorialueeseen ei nimittäin haluta
ottaa mukaan edeltävän geenin eksoneita tai 3’-pään UTR-alueita. Kaikista geeneistä ei myöskään tiedetä, esiintyykö niillä vaihtoehtoista silmukointia, jossa geenin ensimmäinen eksoni ei aina ilmene proteiinissa. Geenillä voi myös olla vaihtoehtoisia transkription aloituskohtia esimerkiksi siten, että geenistä tuotetaan jo
transkriptiossa kahta eri muotoa, sellaista joka alkaa eksonilla 1, ja sellaista joka
alkaa eksonilla 2. Tällaisissa tapauksissa promoottorialueen määrittely on entistä
vaikeampaa, koska TATA-sekvenssialue, joka vastaa polymeraasin sijoittamisesta
juuri transkription aloiutskohtaan, sijaitsee aina liki täsmälleen 10 bp:a ylävirtaan
transkription aloituskohdasta. Geenisäätelyyn osallistuvat sekvenssialueet voivatkin sijaita introneissa tai jopa alavirtaan transkription aloituskohdasta. Seuraavassa
käytetään kuitenkin promoottorialueesta seuraavaa määritelmää: promoottorialue
sijaitsee geenin ensimmäisestä eksonista ylävirtaan tietyn matkaa.
116
Bioinformatiikan perusteet
A.
>Genomic
ctcagcctgggctgcacag.ga.g.caggtaaggacacttcttctggggactctcccttc
>Hs#S1714
>Hs#S3280631
>Hs#S2416307
>Hs#S5344
>Hs#S3590010
>Hs#S3584920
>Hs#S3590058
>Hs#S3281340
>Hs#S3583980
ctcagcctgggctgcacag.ga.g.cag................................
ctcagcctgggctgcacag.gaagacaggt..............................
ctcagcctgggctgcacag.ga.g.cag................................
ctcagcctgggctgcacag.ga.g.cag................................
ctcagcctgggctgcacag.ga.g.cag................................
ctcagcctgggctgcacag.ga.g.cag................................
ctcagcctgggctgcacag.ga.g.cag................................
ctcagcctgggctgcacag.ga.g.cag................................
ctcagcctgggctgcacag.ga.g.cag................................
>Genomic
>Hs#S1714
>Hs#S3280631
>Hs#S2416307
>Hs#S5344
>Hs#S3590010
>Hs#S3584920
>Hs#S3590058
>Hs#S3281340
>Hs#S3463410
........aggtggctt.cgtgg.cccatgtggaaa.gcac.ctgtctgttg.g.a.tga
........aggtggctt.cgtgg.cccatgtggaaa.gcac.ctgtctgttg.g.a.tga
........ag..ggttttcgtggacccatgtggaaatgcgcactgtctgttgcgcagtga
........aggtggctt.cgtgg.cccatgtggaaa.gcac.ctgtctgttg.g.a.tga
........aggtggctt.cgtgg.cccatgtggaaa.gcac.ctgtctgttg.g.a.tga
........aggtggctt.cgtgg.cccatgtggaaa.gcac.ctgtctgttg.g.a.tga
........aggtggctt.cgtgg.cccatgtggaaa.gcac.ctgtctgttg.g.a.tga
........aggtggctt.cgtgg.cccatgtggaaa.gcac.ctgtctgttg.g.a.tga
........aggtagatt.cgtgg.cacatgtggaaa.gcgc.ctgtctgttg.g.a.tga
........aggtggctt.cgtgg.cccatgtggaaa.gcac.ctgtctgttg.g.a.tga
B.
>Genomic
>Hs#S1714
>Hs#S1827422
g.gtagagc..aca.tt.gggg.ct.cct.ga.gccc..at.ccttcg..gg.actggag
g.gtagagc..aca.tt.gggg.ct.cct.ga.gccc..at.ccttcg..gg.actgga.
g.gtagagc..aca.tt.gggg.ct.cct.ga.gccc..at.ccttcg..gg.actgga.
>Genomic
taagtgtatggcagatggatggaattagggtcaaagcagagaaaatgagatgtggatcga
>Genomic
tacatggtacatggtagacagcgaagtgctgaaaatggggactgagtctggaggaactta
>Genomic
aaggacacatgggag..............................atctagatgtagaag
>Hs#S3130488
...............cggaccggcata.....ctggac.ttctacatctagatgtagaag
>Hs#S3130536 ...........................catacctggaccttctacatctagatgtagaag
>Genomic
>Hs#S3719681
>Hs#S182107
gagctgggataaaggaccttttaacccactgagaggtggctgcaataaatggaattgccc
gagctgggataaaggaccttttaacccactgagaggtggctgcaataaatggaattgccc
gagctgggataaaggaccttttaacccactgagaggtggctgcaataaatggaattgccc
>Genomic
>Hs#S1714
tgggggtgagcaacagaaactgggtcaagtaagtttctattttttgcagcacc.tggg.c
.................................................cacc.tggg.c
>Hs#S1592422
.................................................cacn.tggg.c
Kuva 11.7: Esimerkki vaihtoehtoisten silmukointimuotojen tunnistamisesta sekvenssirinnastuksesta. Kohdassa A on esitetty intronin tunnistaminen, kun vaihtoehtoista silmukointia ei esiinny. Genomiselle sekvenssille ei löydy vastinetta EST-sekvensseistä, ja introni
alkaa sekvenssillä GT ja loppuu sekvenssiin AG (lihavoitu). Kohdassa B on tilanne, jossa
vaihtoehtoista silmukointia todennäköisesti esiintyy. Introni alkaa normaalisti sekvenssillä GT ja loppuu sekvenssiin AG (lihavoitu). Tämän jälkeen rinnastus jatkuu alueella, joka
vastaa genomista sekvenssiä. Tämän osuman jälkeen tulee uusi lyhyehkö sekvenssialue,
jolta ei löydy EST-sekvenssiä, ja joka päättyy sekvenssiin AG. Tällainen kahden pisteillä
merkityn sekvenssialueen välinen alue saattaa vastata vaihtoehtoisen silmukoinnin aikana
poistettavaa eksonia.
11
DNA-sekvenssin ominaisuuksien selvittäminen
117
Jos ei halua luottaa Ensembl-tietokannan tuloksiin, voi promoottorialueen määrittää seuraavalla tavalla itsekin. Tätä menetelmää voi käyttää myös sellaisille lajeille, joiden koko perimää ei tunneta. Jos geenistä on saatavilla RefSeq-mRNA, onnistuu promoottorialueen selvittäminen rinnastamalla lähetti-RNA vastaavan genomisen sekvenssin kanssa (Kuva 11.8). Toisinaan myös RefSeq-mRNA-sekvensseissä
on epätäydellisyyksi ja virheitä, sillä esimerkiksi ihmisen genomia ja geenien eri
transkriptiomuotoja ei vielä tunneta täydellisesti. Jos RefSeq-sekvenssiä ei ole saatavilla, voi tavanomaista mRNA-sekvenssiäkin käyttää, mutta tällöin on suuri riski
tehdä virhepäätelmiä, jollei ensin tutkita, esiintyykö geenissä vaihtoehtoista silmukointia.
Query: 1
aggacggcgggaagaggagtgcggaacccgcgggagg 37
|||||||||||||||||||||||||||||||||||||
Sbjct: 2022 aggacggcgggaagaggagtgcggaacccgcgggagg 2058
1 agaaccgtaa gatcagtgca tgtgtacagc agggagaaag aaattgtgct ttggtggaaa
61 cctctgcctc atcttggcca cactttctca cgtgctcctt acggttcata cagacgtaga
121 gtatttctgt gctattaaga gttcgttaca ccataaatac aattttcacg tgtcaactta
181 aaagtaaatt ttaaaaaaga tgaaggagga tgattggcgg aaagtgtcta aaaagactcc
241 tcatggtggc gatactgggg agaggtgggc agcactggtc tcaactctcc aggacacgct
301 cagtgaccgg tgatggctcc gtacactgta gatgccagag acacttcccc agagtcactc
361 gaattccgtc ctgtccccga ggctctgtgg ccgctcaccc cccaccaggc ctccaaccaa
421 gcttcaatga acccagtcaa ttagtgctac tttgacttct tgaacctagt tccaacgtct
481 gcttagttct atcactgagg gaattaaacg aatctgtaac acgtgttaag tatgaaagtc
541 atattacaaa aattcttttt ctcccccaat ttttttttta tcgtggtaaa atccacagaa
601 cagaaactgg acacacctgt tagcgcacag ccagtgggat taaatgcact cggggccttc
661 ccagttggcc aaggggctgg tgtgaggcaa aggcacctcc gatcaggtca cagggaaccc
721 cacgggaggc ccagcggatg gcctggctca gggaccccac gcccacgccc caatgtctgc
781 aggagtggcc tgggcaactc ctgccgtgtc tgggcccatg ggaaacgggt gcaaatctgc
841 ggtctccttc aaactgtcca gtgggcgact gcgacctcgc ttccgaggtg gagggtggta
901 tagacgaagg gaaacggggg gcagcctggc ccgcagactg ggtcctggcc ctccttccga
961 gcaggaggtg gcttcggaac cggccacccg cccgcggcac cgacgcctcc cccggttccc
1021 gggagggacc cctgcggggc cgccagctcc agcgcttccg cggacagcac gcgccctccc
1081 caccgagcct gcgaggaagg cgctccgcct tccactttct cgggagcgag ccccagctct
1141
1201
1261
1321
1381
1441
1501
1561
1621
1681
cgggacgcag
cccccgggac
tcctgccctc
gtaggagcct
gccggctggg
cggggccggg
cctccttgtc
gttcgggcac
cggacacctc
ccctcgccca
tccacacgcg
cagcccgcgc
ccgggacccc
gaggcggcgg
gaaggggccg
ccggggcggc
cgggacccac
catgcgcagg
ggaggacatg
gcccggggca
ctagcccagc
cccgcacccc
cgcaccggga
cccggggacg
cccggaggcg
ggggcgggtc
tgcggctcct
ccgctcgggg
acgccgcctc
ccgcccgccc
acgaaccggc
gcctcccggc
caccgcgcgc
cggccaacct
gaggggtcgt
ggaggcgctg
ccaggccgaa
agcgcaccag
agcctctcgg
cgccccggtc
ctcgggcagg
gcccgccctg
ctcccgccct
gggagagagc
cgcgggagcc
gccggggcga
cgggcttccg
cttcttggcg
ccagcggccc
cgcgcgcggc
gccgcaccca
gacaggtgcc
ccccgcgggc
gggggcgggg
tggaagcccg
cggccaccca
aaggcgcggt
tcgcggcgcg
cgcacccggc
tgacagcgcc
1741
1801
1861
1921
1981
ggcgtccaat
atcgctgccc
aatcggcggc
gattggttag
agggtgctag
cgccaagccc
tctccaatcc
gagggctggc
ttagtcagtc
gcgcctattg
gccacggagc
gtgtaagggc
ccgggtacgc
acgttagcgc
gaggagaagg
gcggactaat
accgcccctg
tccgcccctc
cgcttcgtct
ccgagaggag
cggagcttga actccgcccc
caaccctgag gtcgatcacc
tcagggagat tgagactttg
ctgattggtg tagcccactc
c aggacggcg ggaagaggag
Kuva 11.8: Promoottorialueen määrittäminen RefSeq-lähetti-RNA:ta ja sitä vastaavaa genomista sekvenssiä käyttäen. Ihmisen XRCC3-proteiinia koodava lähetti-RNA
(NM_005432) rinnastettiin genomisen sekvenssin (AF508041) kanssa. Rinnastuvasta
alueesta ylävirtaan sijaitsee geenin promoottorialue. Ylimpänä on esitetty ensimmäisen eksonin paikka geenissä sekvenssirinnastuksen perusteella määritettynä. Rinnastuvan alueen
alku on merkitty lihavoituna alempana esitettyyn promoottorialueen sekvenssiin. Promoottorialueella on tavanomaista korkeampi GC-pitoisuus. Huomaa, että varsinainen TATAsekvenssialue puuttuu, koska XRCC3 on taloudenpitogeeni, jota ekspressoidaan kudoskissa jatkuvasti.
Jos genomista sekvenssiä geenistä ei ole suoraan saatavilla, voidaan se kaivaa esiin esimerkiksi koko eliön perimästä tai siitä kromosomista, jossa geenin tiedetään sijaitsevan. Tällöin tehdään paikallinen rinnastus esimerkiksi lähetti-RNA-
118
Bioinformatiikan perusteet
sekvenssiä käyttäen koko eliön perimää vastaan. Ennen rinnastusta saattaa olla syytä pilkkoa eliön perimä pienemmiksi palasiksi, jotta rinnastus sujuu nopeammin ja
tehokkaammin. Rinnastuksen tuloksia on tulkittava huolellisesti ja varoen, sillä varsin monista geeneistä esiintyy pseudogeenikopioita, joiden erottelu pelkän rinnastuksen perusteella on toisinaan hankalaa. Periaatteena voi käyttää ainakin sitä, että
mRNA- ja genomisen sekvenssin tulisi rinnastua täydellisesti ilman aukkoja ja huteja geenin toiminnalliseen kopioon. Yksi huti tuhatta emäsparia kohden voitaneen
kuitenkin sallia.
Jos geeni toiminta tunnetaan huonosti, eikä siitä ole saatavilla EST-sekvenssejä
vaihtoehtoisen silmukoinnin tutkimiseksi, voidaan promoottorialue tunnistaa fylogeneettistä päättelyä käyttäen. Jos esimerkiksi ihmisen vastaavan geenin rakenne
tunnetaan, ja promoottorialueen sijainti on määritelty, voidaan tätä tietoa käyttää
hyväksi esimerkiksi hiiren tai rotan geenin tutkimiseksi. Jos hiiren sekvenssi rinnastetaan ihmisen sekvenssin kanssa, eivät erot esimerkiksi eksonien ja intronien
sijoittumisessa yleensä ole suuria. Tällöin voidaan rinnastuksen perusteella päätellä
myös hiiren geenin rakenne ja sitä kautta myös promoottorialueen ja transkription
aloituskohdan sijainti. Menetelmän tehokkuutta voi entisestään parantaa käyttämällä suurempaa määrää eliöitä, esimerkiksi hiirtä, rottaa, koiraa ja simpanssia.
On kehitetty myös laskennallisia menetelmiä promoottorialueiden tunnistamiseen genomisesta sekvenssistä. Ne toimivat enimmäkseen samaan tapaan kuin luvussa Geenien rakenteen selvittäminen kuvatut menetelmät, joilla pyritään löytämään geenin eksonit ja intronit. Uusimmissa ja tehokkaimmissa menetelmissä käytetään EST-sekvenssien antamaan tietoa geenin rakenteesta hyödyksi (Liu, 2002).
11.9
Antisense-RNA
Antisense-RNA:lla tarkoitetaan sellaista RNA:ta, joka on komplementaarinen lähettiRNA:lle (sense-RNA). Antisense-RNA:n kautta tapahtuva geenisäätely näyttää olevan, ainakin nisäkkäillä ja joillakin kasveilla, jokseenkin yleinen tapa säädellä geenien ilmentymistä transkription jälkeen. Antisense-RNA muodostaa kaksijuosteisen RNA-molekyylin lähetti-RNA:n kanssa. Koska monilla viruksilla on kaksijuosteinen RNA-genomi, on soluille kehittynyt tapoja tunnistaa ja hajottaa tällainen
molekyyli solulimassa, sillä samalla voidaan estää viruksen lisääntyminen solussa. Antisense-RNA:n avulla tapahtuva geenisäätely luottaa samaan mekanismiin:
kaksijuosteiset RNA-molekyylit hajotetaan, eikä niitä ikinä transloida proteiiniksi.
RNA:n avulla tapahtuvaa geenisäätelyä kutsutaan RNA-häirinnäksi (RNA interference tai RNAi).
RNA-häirinnän tutkiminen laboratoriomenetelmin oli vaivalloista ennen DNAsiruteknologian kehittymistä. Nykyisin DNA-sirujen avulla voidaan tutkia tuhansien lähetti-RNA- ja antisense-RNA-molekyylien ilmentymistä soluissa yhtäaikaisesti. Myös bioinformatiikan menetelmät ovat olleet tärkeitä RNAi-ilmiöta tutkittaessa, mutta kuten yleensäkin, on tulokset varmennettava laboratorimenetelmin.
Yksinkertaisin menetelmä antisense-RNA:n tunnistamiseen on käyttää BLASThakua. BLAST-haussa voidaan käyttää sellaista sekvenssiä, joka vastaa lähettiRNA:lle komplementaarista juostetta. Tällöin löytyvät hakutulokset saattavat vastata soluissa ilmentyviä antisense-RNA-molekyylejä. Tällä tavalla on kuitenkin
löydetty vain harvoja lähetti-RNA - antisense-RNA -pareja, sillä EST-sekvenssit
on jätetty analyysien ulkopuolelle. Tutkimuksissa, joissa EST-sekvenssit ovat mukana, on löytynyt lukuisampia pareja. Yelin (2003) kuvaa menetelmän lähetti-RNA
- antisense-RNA -parien tunnistamiseen. Tätä menetelmää voidaan menestyksekkäästi käyttää mille tahansa aitotumalliselle organismille. Menetelmän ongelmana
on luultavasti suuri väärien tulosten määrä, sillä tuloksia ei ole korjattu pseudogeenien ja geeniperheiden (paitsi immunoglobuliinit ja T-solureseptorit) suhteen.
Menetelmä toimii seuraavasti.
Tutkimusta varten Genbank-tietokannassa olevista lähetti-RNA- ja EST-sekvensseistä
11
DNA-sekvenssin ominaisuuksien selvittäminen
119
poistettiin päissä sijaitsevat vektori-DNA:n jäänteet ja poly-A- ja poly-T-sekvenssit.
Sekvenssit, joiden keskellä oli vektori-DNA-kontaminaatio, tai sellaiset, jotka kuuluvat runsaslukuisiin geenieperheisiin (immunoglobuliinit ja T-solureseptorit), poistettiin sekvenssijoukosta. Toistoalueet ja low complexity regions jätettiin hauissa
pois käsittelystä. Esikäsitellyillä sekvensseillä tehdään Blast-haku ihmisen genomia vastaan. Tulokset rinnastetaan siten, että rinnastuksen keskellä sallitaan pitkät aukkokohdat, jotka kuvastavat introneja. Alhaisen luotettavuustason alueet sekvenssien lopuissa leikataan rinnastusvaiheessa pois. Ainoastaan sekvenssejä, jotka
ovat vähintään 94% samankaltaisia genomisen sekvenssin kanssa, käytetään jatkoanalyyseissä. Jatkoanalyyseissä sekvenssirinnastusta, joka sisältää kaikki saman
genomisen lokuksen kanssa rinnastuvat sekvenssit kutsutaan ryhmäksi (cluster).
Seuraavaksi ryhmät syötetään tietokoneohjelmaan, joka kykenee erottelee samasta lokuksesta, mutta eri juosteista tuotetut transkriptit toisistaan. Kun transkriptia vastaava oikea juoste on tunnistettu, rinnastetaan sekvenssit oikean juosteen
kanssa. Eri juosteista peräisin olevien transkriptien erottamiseksi käytetään apuna sekvenssien annotaatiotietoja sekä silmukointikohtien sijaintia ja sekvenssien
poly-A-häntiä tai poly-T-päitä.
Annotaatiotiedoissa kerrotaan cDNA-klooneista useimmiten, onko cDNA peräisin lähetti-RNA:n 5’-päästä vain 3’-päästä. cDNA-pätkien kloonauksessa käytetään usein NotI-entsyymidigestiota. NotI-kohdat keskittyvät erityisesti geenin 5’päähän ja ensimmäiseen eksoniin (CpG-saarekkeet), joten jos EST-sekvenssissä
esiintyy NotI-entsyymin tunnistekohta, voidaan sen olettaa olevan sekvenssin 5’pää. Silmukointikohtien sijainti on kenties luotettavin tapa tunnistaa se DNA-juoste,
josta transkripti on peräisin. Noin 98% ihmisen geenien introneista rajautuu binukleotidisekvensseihin GT (alku) ja AG (loppu). Käänteiskomplementaarisessa
juosteessa vastaavat sekvenssit ovat CT (alku) ja AC (loppu). Kun transkriptia
vastaava sekvenssi on rinnastettu genomisen sekvenssin kanssa oikein, voidaan
introni-eksoni-rajat määrittää. Jos silmukointikohdat ovat GT...AG, on sekvenssi
oikein päin, jos silmukointikohdat ovat CT...AC, on sekvenssi väärin päin (tai kotoisin käänteiskomplementaarisesta juosteesta). Poly-A-häntiä voidaan myös käyttää
sekvenssin oikean suunnan määrittämiseen. Lähetti-RNA päättyy poly-A-häntään,
joten sen monistamiseen käytetään usein poly-T-aluketta. Tällöin tietokannan sekvenssissä on usein poly-T-alkupää. Poly-A-häntä siis kertoo, kummasta juosteesta
transkripti on kotoisin.
Jos saman genomisen lokuksen molempien juosteiden sekvensseihin rinnastuu mRNA, cDNA tai EST-sekvenssejä, tuottaa lokus todennäköisesti sekä proteiinia vastaavaa mRNA:ta että mRNA:n ekspressiota säätelevää lyhyttä siRNA:ta
(antisense-RNA:ta). Tässä kuvattu menetelmä ei kuitenkaan kykene löytämään sellaisia antisense-RNA:ta, jotka eivät koodaa proteiinia, eivät osallistu silmukointiin
tai joita ei poly-adenyloida.
120
Bioinformatiikan perusteet
12 Aminohapposekvenssin
ominaisuuksien
selvittäminen
12.1
Mitä aminohapposekvensseistä voidaan ennustaa?
Aminohapposekvenssin perusteella voidaan tehdä monia hyödyllisiä ennustuksia
vastaavan proteiinin ominaisuuksista ja selvittää mitä toiminnallisia osasia proteiinissa on.
12.2
Aminohappokoostumuksen selvittäminen
Aminohapposekvenssin koostumuksen selvittäminen tapahtuu likipitäen samaan
tapaan kuin DNA-sekvenssi koostumuksen selvittäminen. Yksittäisten aminohappojen absoluuttiset ja suhteelliset osuudet voidaan määrittää helposti laskemalla
yksittäisten aminohappojen määrä tietyn mittaisessa aminohapossa. Aminohappokoostumus vaihtelee eliöiden välillä, ja on yhteydessä kodonien käyttöön. Usein
ihmisen proteiinin ilmentäminen bakteerissa on ongelmallista siksi, että bakteerin
perimässä kodonien taajuudet ovat erilaiset kuin ihmisen perimässä, eikä lähettiRNA:ta synny tarpeeksi. Toisaalta ongelmia voi tuottaa myös ihmisen proteiinin
erilainen aminohappokoostumus, mikä aiheuttaa sen, ettei proteiini laskostu bakteerissa oikein, eikö toiminnallista proteiinia siten ikinä muodostu.
12.3
Sekundäärirakenteen ennustaminen
Aminohapposekvenssin perusteella voidaan yrittää päätellä, millaisia sekundäärirakenteita tietty aminohappoketju laskostuneessa proteiinissa omaksuu. Tällaisten
ennustusten perusteellä pyritään päättelemään esimerkiksi mitkä alueet proteiinista
ovat hydrofobisia, ja siten mahdollisesti lipidikalvon läpäiseviä proteiinin osia, tai
mitkä alueet muodostavat hydrofiilisten aminohappojen ketjuja, jotka voivat vastata proteiinin pinnan rakenteita. Myös alfaheliksien muodostamien coiled-coil alueiden tunnistaminen saattaa olla mielenkiintoista, sillä tällaiset alueet usein osallistuvat proteiinien välisiin vuorovaikutuksiin. Lisäksi coiled-coil-alueet voivat tuottaa
vääriä tuloksia sekvenssihauissa, joten niiden poistaminen hakusekvenssistä saattaa
olla tarpeellista.
12.3.1 Coiled-coil alueiden tunnistaminen
Coiled-coil-alueiden tapahtuu vertaamalla hakusekvenssiä tietokannassa oleviin sekvensseihin. Vertailun perusteella lasketaan samankaltaisuusarvio. Kun tätä samankaltaisuusarviota verrataan globulaaristen (esimerkiksi globiinit) ja coiled-coil-proteiinien
12
Aminohapposekvenssin ominaisuuksien selvittäminen
121
(esimerkiksi, myosiini, kinesiinit ja keratiinit) tunnettuihin samankaltaisuusarvojen jakaumiin, voidaan laskea todennäköisyys, että proteiini omaksuu coiled-coilmuodon. COILS-ohjelma on vanhimpia tähän tarkoitukseen kehitettyjä ohjelmia, ja
se tunnistaa parhaiten alueet, jotka koostuvat kahdesta alfaheliksistä ja sijaitsevat
proteiinin pinnalla (Lupas, 1996).
12.3.2 Hydrofobisten alueiden tunnistaminen
Hydrofobisten ja -fiilisten alueiden tunnistaminen tapahtuu yleensä liukavan ikkunan menetelmillä (kuva 12.1). Liukuvan ikkunan menetelmässä valitun mittaista
ikkunaa liutetaan aminohapposekvenssin yli siten, että ikkunan mittaisen sekvenssialueen sisällä lasketaan aminohappojen keskimääräinen hydrofobisuus. Nykyisin käytetyin hydrofobisuusindeksi lienee Kyten (1982), mutta muitakin tapoja tarkastella aminohappojen hydrofobisuutta on kehitetty. Kyten ehdottamat hydrofobisuusarvot eri aminohapoille on esitetty taulukossa 12.1, joten aminohapposekvenssin tarkatsellu käsipelilläkin on mahdollista, joskin tietokone tekee saman asian
huomattavasti nopeammin.
Kuva 12.1: Liukuvan ikkunan periaate ja esimerkki tuloksista. Ylimpänä on esitetty
liukuvan ikkunan periaate. Liukuvan ikkunan kooksi on tässä valittu neljä aminohappoa.
Ensimmäisen ikkunan sisällä lasketaan aminohappoketjun hydrofobisuus, ja merkitään se
kuvaan. Tämän jälkeen ikkunaan siirretään neljä aminohappo eteenpäin ja sama toistetaan kunnes sekvenssi on käyty kokonaan läpi. Analyysin tuloksena muodostuu alimpana
esitetyn kaltainen kuva. Tässä on analysoitu halobakteerin bakteriorodopsiinin (SWISSPROT P33972) hydrofobisuutta. Bakteriorodopsiini näyttää koostuvan seitsemästä hydrofobisesta alueesta (A-G), joiden onkin biokemiallisissa tutkimuksissa havaittu läpäisevan
solukalvon.
122
Bioinformatiikan perusteet
Taulukko 12.1: Kyten (1982) aminohapoille empiirisesti määrittämät hydrofobisuusarvot.
Positiivinen arvo merkitsee, että aminohappo on hydrofobinen ja negatiivinen arvo, että se
on hydrofiilinen.
Aminohappo
A
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
Y
Hydrofobisuus
1,8
2,5
-3,5
-3,5
2,8
-0,4
-3,2
4,5
-3,9
3,8
1,9
-3,5
-1,6
-3,5
-4,5
-0,8
-0,7
4,2
-0,9
-1,3
12.3.3 Sekundäärirakenteiden selvittäminen
Sekundäärirakenteen ennustamiseen tarkoitetut tietokoneohjelmat käyttävät kuka
mitäkin algoritmia. Toiset soveltavat neuroverkkoja tai kätkettyjä Markovin malleja, muutamat muut puolestaan lähimmän naapurin menetelmää (nearest neighbor
classification). Uusimmat sovellukset, kuten Predator, muodostavat aluksi tutkittavasta sekvenssistä ja sen lähisukulaisista parittaisia sekvenssirinnastuksia. Rinnastuksen perusteella voidaan päätellä kunkin aminohapposekvenssin kohdan konservoitumisaste. Konservoitumisasteen ja tunnetuista proteiineista johdettujen vetysidossääntöjen avulla voidaan oikein ennustaa arviolta 68% (yhden sekvenssin
perusteella) ja 75% (parittaisten rinnastusten perusteella) alfahelikseistä ja betalevyistä. Uudemmista menetelmistä Jpred käyttää aluksi useita erilaisia menetelmiä
sekundäärirakenteen ennustamiseen ja muodostaa sitten näiden tulosten perusteella
oman konsensusarvionsa (Kuva 12.2).
Chou-Fasman -menetelmä
Perinteinen sekundäärirakenteiden ennustamiseen käytetty menetelmä on ChouFasman (Chou 1974a, Chou 1974b), jossa jokaiselle aminohapolle on määrätty todennäköisyys, että se kuuluu osaksi alfaheliksiä, betalevyä tai satunnaisrakennetta.
Todennäköisyydet on määritetty tunnettujen proteiinien perusteella. Eri rakenteet
tunnistetaan seuraavalla tavalla:
1. Alfaheliksit tunnistamiseksi etsi aluksi kaikki sellaiset alueet, joilla kuuden
aminohapon mittaisella alueella vähintään 4 aminohaposta saa P(alfaheliksi)-
12
Aminohapposekvenssin ominaisuuksien selvittäminen
123
Kuva 12.2: Jpred-ohjelman antama tulos kuva 7010 bakteriorodopsiinista. Kuvassa ylimpänä on muutamien samankaltaisten sekvenssien BLAST-rinnastus. Tämän jälkeen luetellaan eri menetelmien (jalign, jfreq, jhmm, jnet, jpssm) antamien ennustusten tulokset.
Näiden alapuolella on Jpred:n laatima konsensusarvio (jpred). Eri sekvenssikohdille on
laskettu myös ennustuksen luotettavuus, joka löytyy riviltä Jnet Rel. Luotettavuusrivillä
suuri luku merkitsee ennustuksen hyvää luotettavuutta. Yksittäisten ohjelmien antamissa
ennustuksissa H (helix) vastaa alfaheliksiä ja E (extented) betalevyä. Jpred:in ennustamat
alfaheliksit sijoittuvat suunnilleen samoilla alueille kuin hydrofobisuuden perusteella (kuva 12.1) ennusteut solukalvon läpäisevät alueet.
124
Bioinformatiikan perusteet
arvokseen yli 100 (taulukko 12.2). Jokaista näin tunnistettua sekvenssialuetta kohden jatketaan aluetta päistään kunnes neljän peräkkäisen aminohapon
P(alfaheliksi)-arvo tippuu alle sadan. Jokaista näin jatkettua aluetta kohden,
laske sekä P(alfaheliksi)- että P(betalevy)-arvojen summa. Jos alue on yli
viisi aminohappoa pitkä, ja P(alfaheliksi)-arvojen aumma on suurempi kuin
P(betalevy)-arvojen summa, tulkitaan alue alfaheliksiksi.
2. Betalevyjen tunnistaminen etenee samaan tapaan kuin alfaheliksien, mutta
nyt P(alfaheliksi)-arvojen sijaan käytetään P(betalevy)-arvoja.
3. Jos edellä ennustetut alfaheliksit ja betalevyt menevät päällekkäin, niin päällekkäin menevän alueen ennustetaan kuuluvan heliksiin, jos P(alfaheliksi)arvojen summa on suurempi kuin P(betalevy)-arvojen summa sillä alueella. Jos P(betalevy)-arvojen summa on suurempi kuin P(alfaheliksi)-arvojen
summa, tulkitaan alue betalevyksi.
4. Satunnaisrakenteiden määrittäminen etenee edellisestä poikkevalla tavalla neljän aminohapon ryhmissä. Jokaista neljän aminohapon ryhmää kohden lasketaan niiden f(i)...f(i+3) -arvojen summa P(t) (taulukko 12.3). Nelikon ensimmäinen aminohappo saa arvon f(i), sitä seuraava f(i+1) ja niin edelleen.
Satunnaisrakenne (hairpin) alkaa kohdasta i, jos summa P(t) on suurempi
kuin 0.000075, nelikon P(satunnaisrakenne) (taulukko 12.2) arvojen keskiarvo on yli 100, ja P(satunnaisrakenne)-arvojen summa on nelikossa suurempi
kuin P(alfaheliksi)- tai P(betalevy) -arvojen summa.
Lähimmän naapurin menetelmät
Lähimmän naapurin menetelmät (nearest neighbor methods) etsivät hakusekvenssiä muistuttavan sekvenssin, jota vastaava proteiinirakenne on tunnettu. Tunnetun
rakenteen perusteella voidaan myös hakusekvenssin sekundäärirakenteet selvittää.
Suuresta määrästä sekvenssejä (100-400), joita vastaava proteiinirakenne tunnetaan
ja joiden keskinäinen samankaltaisuus on mahdollisimman pientä, muodostetaan
joukko lyhyita sekvenssipätkiä liuttamalla tietyn mittaista (esimerkiksi 17 aminohappoa) ikkunaa sekvenssin päällä. Jokaisen ikkunan mittaisen aminohappopätkän
keskimmäisen aminohapon sekundäärirakenne merkitään muistiin. Hakusekvenssi pätkitään samaa ikkunakokoa käyttäen ja pätkiä käyttäen tunnistetaan 50 parasta vastinetta tunnetuista sekvensseistä muodostetuista pätkistä. Parhaiden vastineiden tunnistaminen tapahtuu usein laskemalla hakusekvenssin pätkän ja tunnettujen
sekvenssipätkien samankaltaisuus pisteytysmatriiseja (BLOSUM) käyttäen, mutta
muitakin menetelmiä, kuten usean sekvenssin rinastukseen perustuvat menetelmät,
on kehitetty. Hakusekvenssin pätkien keskimmäisten aminohappojen sekundäärirakenne voidaan parhaiden vastineiden tunnistamisen jälkeen selvittää käyttäen tietoa
tunnettujen sekvenssipätkien keskimmäisten aminohappojen jakautumisesta luokkiin alfaheliksi, betalevy ja satunnaisrakenne. Kuten edellä esitetyissä menetelmissä, näin saadut raakaennusteet varmennetaan jotakin sääntöä tai neuroverkkosovellusta käyttäen.
Yi (1993) kuvasi menetelmän, jolla voidaan arvioida aminohappojen esiintymistiheydet kussakin sekundäärirakennen ryhmässä tarkasti, jolloin menetelmän
antamien ennusteiden paikkansapitävyys paranee huomattavasti. Tätä menetelmää
käyttäen parhaat 28% ennusteista antoivat oikean tuloksen 86% varmuudella, ja
parhaat 43% ennusteista 81% tarkkuudella. Predator-ohjelma, joka käyttää lähimmän naapurin menetelmää, pääsee ennusteissa noin 68-75% paikkansapitävyyteen.
Neuroverkkomenetelmät
Neuroverkkomenetelmät ovat saaneet nimensä siitä, että ne pyrkivät matkimaan
älykkyyttä tiettyjä laskennallisia keinoja käyttäen. Neuroverkkomenetelmät perus-
12
Aminohapposekvenssin ominaisuuksien selvittäminen
125
Taulukko 12.2: Chou-Fasmanin eri aminohapoille määrittämät todennäköisyydet, että aminohappo kuuluu alfaheliksiin, betalevyyn tai satunnaisrakenteeseen. Mitä suurempi
lukuarvo aminohapolla on, sitä todennäköisempää on, että se kuuluu tiettyyn rakenteeseen.
Esimerkiksi alaniinilla on todennäköisyys 142, että se kuuluu alfaheliksiin, ja 83, että se
lukeutuu osaksi betalevyä. On siis paljon todennäköisempää, että jos aminohapposekvenssissä havaitaan alaniini, se kuuluu osaksi alfaheliksiä.
Aminohappo
Alaniini
Arginiini
Asparagiini
Asparagiinihappo
Kysteiini
Glutamiinihappo
Glutamiini
Glysiini
Histidiini
Isoleusiini
Leusiini
Lysiini
Metioniini
Fenyylialaniini
Proliini
Seriini
Treoniini
Tryptofaani
Tyrosiini
Valiini
P(alfaheliksi)
142
98
67
101
70
151
111
57
100
108
121
114
145
113
57
77
83
108
69
106
P(betalevy)
83
93
89
54
119
37
110
75
87
160
130
74
105
138
55
75
119
137
147
170
P(satunnaisrakenne)
66
95
156
146
119
74
98
156
95
47
59
101
60
60
152
143
96
96
114
50
tuvatkin siihen, että menetelmälle (tai tietokoneohjelmalle) opetetaan tai se opettelee itse millaisia aminohappoja tunnettujen sekundäärirakenteiden alueella sijaitsee, ja miten tällaiset alueet eroavat aminohappokoostumukseltaan alueista, joilla
sekundäärirakennetta ei ole. Opetukseen käytetään sellaisia aminohapposekvenssejä, joita vastaavan proteiinin kristallirakenne tunnetaan.
Neuroverkkomenetelmät perustuvat liukuvan ikkunan sovelluksiin. Tietyn mittaista (13-17 aminohappoa) liukuvaa ikkunaa liutetaan hakusekvenssillä. Näin saadut sekvenssipätkät syötetään neuroverkkosovellukseen, joka on aiemmin opetettu
tunnistamaan mihin kolmesta sekundäärirakenneluokasta (alfaheliksi, betalevy, joku muu) sekvenssipätkän keskimmäinen aminohappo kuuluu. Neuroverkkosovellus käyttää tässä apuna keskimmäistä emästä edeltäviä ja sen jälkeen tulevia 68 aminohappoa. Neuroverkkosovelluksen antama ennustus varmennetaan tiettyjen
sääntöjen, kuten alfaheliksin on oltava vähintään 4 aminohappoa pitkä, tai toisen
neuroverkkosovelluksen avulla.
PHD lienee nykyisin käytetyin neuroverkkosovellus. Sen antamat alfaheliksejä koskevat ennusteet (Rel-arvo 9) ovat liki 100% luotettavia, mutta betalevyjen
ennusteet (Rel-arvo 9) ovat vähemmän (noin 75%:sti) luotettavia.
126
Bioinformatiikan perusteet
Taulukko 12.3: Chou-Fasmanin eri aminohapoille määrittämät todennäköisyydet, joita
käytetään satunnaisrakenteiden tunnistamiseen.
Aminohappo
Alaniini
Arginiini
Asparagiini
Asparagiinihappo
Kysteiini
Glutamiinihappo
Glutamiini
Glysiini
Histidiini
Isoleusiini
Leusiini
Lysiini
Metioniini
Fenyylialaniini
Proliini
Seriini
Treoniini
Tryptofaani
Tyrosiini
Valiini
12.4
f(i)
0.060
0.070
0.161
0.147
0.149
0.056
0.074
0.102
0.140
0.043
0.061
0.055
0.068
0.059
0.102
0.120
0.086
0.077
0.082
0.062
f(i+1)
0.076
0.106
0.083
0.110
0.050
0.060
0.098
0.085
0.047
0.034
0.025
0.115
0.082
0.041
0.301
0.139
0.108
0.013
0.065
0.048
f(i+2)
0.035
0.099
0.191
0.179
0.117
0.077
0.037
0.190
0.093
0.013
0.036
0.072
0.014
0.065
0.034
0.125
0.065
0.064
0.114
0.028
f(i+3)
0.058
0.085
0.091
0.081
0.128
0.064
0.098
0.152
0.054
0.056
0.070
0.095
0.055
0.065
0.068
0.106
0.079
0.167
0.125
0.053
Motiivien ja domeenien tunnistaminen
Motiivien ja domeenien tunnistaminen proteiinista onnistuu nykyisin helpoimmin
käyttämällä apuna valmiita tietokantoja, kuten InterPro, SCOP, CATH ja Dali.
12.5
Translaation jälkeisten modifikaatiokohtien tunnistaminen
Prosite-tietokanta sisältää lyhyitä, proteiineja kuvaavia säännöllisiä lauseita, joita
voidaan käyttää myös translaation jälkeisten modifikaatiokohtien tunnistamiseen.
Monet Prosite-tietokannan säännöllisistä lauseista kuvaavat nimittäin juuri sellaisia
alueita, joilla modifikaatio tapahtuu.
12.6
Rakenteiden rinnastaminen
Proteiineja, joiden rakenne on selvitetty, on PDB-tietokannassa tällä hetkellä yli 20
000 kappaletta. Siinä missä sekvenssirinnastuksia käyttäen selvitetään sekvenssien
samankaltaisuutta, käytetään rakennerinnastuksia (structural alignment) samankaltaisten rakenteiden tunnistamiseen. Rakennerinnastuksilla ja sekvenssirinnastuksilla on kuitenkin yksi tärkeä ero. Jos proteiinien aminohapposekvenssit ovat hyvin
samankaltaisia, voidaan niillä olettaa olevan yhteinen evoluutiohistoria. Sama ei
päde rakennerinnastuksiin. Samankaltaiset rakenteet ovat hyvin yleisiä, eikä niiden
esiintyminen kahdessa eri proteiinissa välttämättä kerro mitään proteiinien evolutiivisista suhteista. Proteiineilla voi olla yhteinen kantamuoto, jos rakenteiden rinnastuvuuden lisäksi saadaan muuta oletusta tukevaa tietoa: Proteiinien sekundääri-
12
Aminohapposekvenssin ominaisuuksien selvittäminen
127
rakenteet esintyvät samassa järjestyksessä ja niiden välimatkat ovat eri proteiineissa likipitäen samanlaiset ja proteiinien hiiliselkärankojen atomit sopivat keskenään
kohdakkain.
Rakennerinnastuksen menetelmät ovat samankaltaisia kuin sekvenssirinnastuksessa käytetyt, mutta koska proteiinien rakenne on kolmiulotteinen, joudutaan
ottamaan huomioon muutamia ylimääräisiä seikkoja. Sekvenssejä rinnastettaessa
sijoitetaan kohdakkain kahdessa aminohapposekvenssissä olevia kirjaimia. Proteiineja rinnastettaessa toimitaan kolmiulotteisessa avaruudessa, jossa vertaillaan atomien keskinäistä sijaintia eri proteiineissa. Rakennerinnastusmenetelmät tutkivat
ensin sekundäärirakenteiden lukumäärää, tyyppiä ja keskinäistä sijaintia sen määrittämiseksi, ovatko rakenteet samankaltaisia tai onko proteiineilla samankaltainen
rakenne. Seuraavaksi jokaisen aminohapon hiiliatomien sijaintia tutkitaan, jotta
saadaan selville kuinka hyvin proteiinien selkärangat voidaan sijoittaa kohdakkain.
Jos muutamat rakenteet voidaan rinnastaa (asettaa kohdakkain), ja niitä yhdistävät
suurinpiirtein samanlaiset satunnaisrakenteet, voidaan todeta, että proteiineilla on
yhteinen laskos (fold). Mitä paremmin rinnastettavien proteiinien rakennepiirteet
voidaan asettaa kohdakkain, sitä merkitsevämmäksi ja vakuuttavammaksi proteiinien samankaltaisuus tulee.
Proteiinien rakennerinnastus perustuu siihen, että proteiinissa olevia kolmiulotteisia rakenteita kuvataan vektoreilla (tässä matemaattisessa merkityksessä), jotka kertovat kunkin sekundäärirakenteen sijainnin, pituuden ja suunnan. Useimmiten vektorin muodostamiseen käytetään proteiinin selkärankaa (aminohappojen hiiliatomien sijainnit). Näin muodostettuja vektoreita käyttäen voidaan arvioida ovatko sekundäärirakenteet eri proteiineissa samoilla kohdin. Vektoreiden lisäksi proteiinien välisen samankaltaisuuden (etäisyyden) laskemiseen käytetään selkärangan hiiliatomien antamaa tietoa. Lisäksi voidaan verrata myös aminohappojen sivuketjujen sijaintia, atomien välisiä etäisyyksiä ja sidoskulmia toisiin atomeihin.
Proteiinien rinnastaminen on hankalampaa kuin sekvenssien, sillä samanlainen kolmiulotteinen rakenne voi syntyä monella eri tavalla. Samaa sekundäärirakennetta voi siis vastata varsin moni erilainen proteiiniselkärangan muoto. Tästä
syystä samankaltaiset alueet eivät aina sijaitse proteiineissa samassa järjestyksessä tai samankaltaisten alueiden välissä voi olla pitkiä satunnaisrakenteita. Usein
on myös niin, että sekundäärirakenteen keskikohta on säilynyt muuttumattomana,
mutta rakenteen päissä on voinut tapahtua huomattavia muutoksia. Tästä johtuvien
ongelmien välttämiseksi useimmiten verrataankin useita proteiineja kerrallaan, ja
muodostetaan niiden perusteella jonkinlainen keskimääräinen arvio samankaltaisista alueista. Nykyisin on käytössä useita menetelmiä proteiinirinnastusten tekemiseen. Koska kahden kolmiulotteisen rakenteen rinnastaminen ei vielä onnistu, joudutaan käyttämään laskennallisia oikoreittejä. Seuraavassa käsitellään näistä kahta,
SSAP- ja DALI-algoritmeja, hieman tarkemmin.
12.6.1 SSAP-algoritmi
SSAP-algoritmia (secondary structure alignment program) on menestyksekkäästi
käytetty muun muassa CATH-tietokannan muodostamiseen. Nykyisin uudet rakenteet lisätään tietokantaan SSAP-algoritmia käyttäen täysin automaattisesti. Varsinainen algoritmi on sekvenssirinnastukseen käytettävän dynaamisen optimoinnin
sovellus. Aluksi jokaisen aminohapon sijainti ja ympäristö määritellään, ja algoritmi etsii samankaltaisimmat proteiinialueet vertailemalla näitä sijainti- ja ympäristötietoja. Aminohapon ympäristön määrittelyyn käytetään tietoa sekundäärirakenteesta, johon aminohappo kuuluu, sekä tietoa aminohapon ja sen sijaintipaikan
hydrofobisuudesta. Aminohapon sijainnin määrittämiseen käytetään proteiinin selkärangan määrittävien hiiliatomien avulla muodostettuja vektoreita. Vektorit muodostetaan piirtämällä vektori vuorollan jokaisen aminohapon hiiliatomin sijainnista kaikkien muiden aminohappojen hiiliatomien sijaintipaikkoihin. Jos proteiinin
geometrista muotoa kuvaavat vektorit ovat samankaltaiset, täytyy silloin proteii-
128
Bioinformatiikan perusteet
nien rakenteidenkin olla samankaltaisia.
Koska SSAP-algoritmi vertailee aminohappoja pareittain siinä järjestyksessä
kuin ne proteiinissa esiintyvät, on proteiinien tunnistaminen samankaltaisiksi mahdollista vain, jos samat sekundäärirakenteet sijaitsevat suunnilleen samoilla kohdin molemmissa proteiineissa. Jos samankaltaisten alueiden välissä on satunnaisrakenteita, jotka eivät osu kohdakkain on samankaltaisuuden tunnistaminen SSAPalgoritmilla hankalaa. Tällaisia tilanteita varten onkin kehitetty muunnos SSAP1,
joka vastaa käsitteellisesti paikallisen rinnastuksen muodostamista aminohapposekvensseille. Algoritmin toimintaa nopeuttaa huomattavasti, jos verrataan keskenään
vain sellaisia aminohappoja, joiden sidoskulmat ja hydrofobisuus on samankaltaisia.
12.6.2 DALI-algoritmi
DALI (distance alignment tool) muodostaa aluksi molemmista verrattavista proteiineista etäisyysmatriisin, joka ilmoittaa, kuinka lähekkäin proteiinin hiiliselkärangan atomit rakenteessa sijaitsevat. Proteiinien yhteiset rakennepiirteet selvitetään
sitten asettamalla näissä etäisyysmatriiseissa olevat samankaltaiset alueet kohdakkain. Etäisyysmatriisissa proteiinin aminohapposekvenssi on kirjoitettu sekä vaakaettä pystyakselille, ja numeroarvot ilmaisevat hiiliatomien väliset etäisyydet proteiinin kolmiulotteisessa rakenteessa. Pienimmät etäisyydet vastaavat sekundäärija tertiäärirakeiteissa sijaitsevia hiiliatomeja. Matriisiin merkitään piste niille kohdin, joilla on kaikkein lyhin etäisyys, jotta tällaiset alueet on helpompi havaita myös
silmämääräisesti. Proteiinien välisten rakenteiden (hiiliselkärangan) samankaltaisuus selvitetään sijoittamalla matriisiin muodostuneet pistekuviot mahdollisimman
tarkoin kohdakkain siten, että proteiinien hiiliatomien välisten etäisyyksien summa
on mahdollisimman pieni.
SSAP-menetelmällä muodostettu rinnastus sai samankaltaisuusarvokseen dynaamisella optimoinnilla saavutetun suurimman taulukoidun lukuarvon. Vastaavankaltainen samankaltaisuusarvo voidaan muodostaa myös DALI-menetelmällä tehdyille rinnastuksille. Oletetaan, että proteiinissa A on kaksi alfaheliksiä (a ja b),
jotka sijaitsevat hyvin lähekkäin. Oletetaan edelleen, että proteiinissa B on kaksi
alfaheliksiä (a ja b ), jotka voidaan rinnastaa proteiinin A heliksien kanssa. Proteiinin A alfahelikseissä sijaitsee kaksi hiiliatomia (i A ja j A ), joiden välinen etäisyys on di j A , ja vastaavasti proteiinissa B hiiliatomien (i B ja j B ) on di j B . Samankaltaisuusarvo voidaan siten laskea kaavalla
|di j A − di j B |
,
di j ∗
jossa di j ∗ on di j A :n ja di j B :n keskiarvo. Jos kaksi aminohappoa voidaan sijoittaa tismalleen kohdakkain, niille annetaan raja-arvo 0,20, muutoin raja-arvo saadaan vähentämällä samankaltaisuusarvo 0,20:stä. Raja-arvo 0,20 vastaa tilannetta, jossa vierekkäisten betalevyjen hiiliatomien välinen etäisyys on 1 ånström (Å)
ja alfaheliksien etäisyys 2-3 Å. Yhteensopivien rakenteiden osalta raja-arvot lasketaan yhteen kuitenkin siten, että kaukaisempien atomien raja-arvojen painoarvo
kesiarvossa vähennetään, mikä sallii osaltaan proteiinirakenteen taipumisen. Tästä
muunnoksesta on se hyötyä, sillä sen jälkeen raja-arvojen summa kasvaa rinnastuksen pituuden kasvaessa.
Osa III
Molekyylisystematiikka
130
Bioinformatiikan perusteet
13 Johdatus
molekyylisystematiikkaan
13.1
Mitä molekyylisystematiikka on?
Tässä luvussa käsitellään eliöiden ja niiden geenien sukulaisuussuhteiden selvittämistä lähinnä sekvenssiaineistoja käyttäen. Sukulaisuussuhteilla tarkotetaan tässä
kohdin eliöiden tai geenien evolutiivisen kehittymisjärjestyksen selvittämistä. Vaikka luvun otsikkona on molekyylisystematiikka, on seuraavassa kuvattavilla menetelmillä sovelluksia monella muullakin tutkimusalalla, kuten virologiassa (molekyyliepidemiologia), populaatiogenetiikassa (populaatioiden muuttumisen seuraaminen ja eliöiden leviämisen tutkiminen) ja geenitutkimuksessa (homologisten geenien selvittäminen yms.).
Molekyylisystematiikka on tieteenala, joka tutkii eliöiden sukulaisuussuhteiden ja luokittelun teoreettisia ongelmia erityisesti siltä osin kuin eliöiden geenejä
ja proteiineja voidaan käyttää asian selvittämiseen. Taksonomia on molekyylisystematiikkaa laajempi termi, ja sisältää myös työn käytännön puolen, kuten maastotyöskentelyn ja näytteiden keräämisen sekä näytteiden analysoinnin laboratoriossa.
Jotkut karsovat, että systematiika ja taksonomia ovat likipitäen synonyymejä, mutta
tässä kirjassa jako on selkeä, emmekä aio tutustua taksonomiseen työskentelyyn.
Usein (molekyyli)systematiikasta kuulee puhuttavan myös fylogenetiikkana.
Nimitys on sikäli hiukan harhaanjohtava, että fylogenetiikka tarkoittaa varsinaisesti ainoastaan yhtä systematiikan suuntausta, kladistiikkaa, ja sen käyttämiä menetelmiä. Toisaalta nimitys fylogenetiikka on sikäli osuva, että fylogenia kuvaa eliöryhmän kehityshistoriaa. Jos siis uskomme, että kladistiikan lisäksi muutkin menetelmät, kuten suurimman uskottavuuden menetelmät (ML) ja etäisyysmenetelmät,
tuottavat kehityshistoriaa kuvaavia tuloksia, voimme kaiketi puhua myös fylogenetiikasta. Tässä kirjassa kuitenkin käytetään koko tieteenalasta ainoastaan nimitystä
molekyylisystematiikka.
13.2
Fylogeneettinen puu
Fylogeneettinen puu kuvaa eliöryhmän kehityshistoriaa. Fylogeneettistä puuta yleisemmin voimme puhua vain puusta, joka koostuu lehdistä, oksista, haaroista ja juuresta, kuten mikä tahansa luonnossa esiintyvä puukin (Kuva 13.1). Puiden esitysmuodoiksi on vakiintunut joko tekstimuotoinen sulkukaavio tai sitä vastaava graafinen esitys. Graafinen esitys ja sulkukaavio voidaan milloin tahansa muuttaa toisikseen, esimerkiksi Vennin diagrammeja käyttäen (Kuva 13.2).
Puun oksiin ja haaroihin voi liittyä erilaista informaatiota. Esimerkiksi parsimoniamenetelmä pyrkii määrittämään puun sisäisten haarautumiskohtissa olevien
hypoteettisten kantamuotojen ominaisuuksien tasot käyttäen apuna tunnettujen lajien ominaisuuksien tasoja. Tässä ominaisuudella voidaan tarkoittaa esimerkiksi
silmien väriä, ja ominaisuuden tasolla vaikkapa sitä, minkä väriset silmät todella
ovat, siniset, vihreät, ruskeat vain kenties punaiset. Useimmat menetelmät pyrkivät
13
Johdatus molekyylisystematiikkaan
131
Kuva 13.1: Yksinkertainen puu, joka koostuu neljästä lajista (A-D). Jokainen puun lehti vastaa yhtä lajia. Tarkemmin sanoen, jokainen kirjain A-D vastaa yhtä tietystä lajista
määritettyä sekvenssiä tai ominaisuusjoukkoa; ne kuitenkin kuvaavat lajin olemusta, joten jatkossa pitäydytään puhumaan lajeista, vaikka tarkoitettaisiinkin molekyylisekvenssiä. Kuvaan on merkitty joitakin keskeisimpiä puihin liittyviä suomen- ja englanninkielisiä termejä.
Kuva 13.2: Puun muodon esittäminen Vennin diagrammin (sisäkkäiset, hierarkkisesti
järjestetyt joukot, merkitty sinisellä) ja sulkukaavion avulla.
132
Bioinformatiikan perusteet
myös arvioimaan kuinka paljon muutoksia kussakin puun haarassa on tapahtunut.
Tästä saadaan puun oksien haarojen pituudet, jotka voidaan esittää puukaaviossa tai
olla esittämättä (Kuva 13.3). Toisinaan samasta puusta saadaan hyvinkin erilaisia
esityksiä piirtämällä puu eri tavoin (Kuva 13.4). Sellaista puuta, jonka haarojen pituudet tunnetaan, kutsutaan toisinaan myös nimellä painotettu puu (weighted tree).
Jos jokin puun sisäinen haara saa pituudekseen nolla, mikä voi tarkoittaa esimerkiksi sitä, ettei yhdenkään ominaisuuden taso ole tuossa puun haarassa muuttunut,
syntyy puuhun polytomia (Kuva 13.5).
Kuva 13.3: Puukaavioiden yleisimmät esitysmuodot. Puut A ja B ovat kladogrammeja,
sillä ne eivät sisällä oksien pituuksia. Ne ilmoittavat ainoastaan haarautumisjärjestyksen,
joka puussa on. Kladogrammin esitysmuoto A on erityisesti morfologia tuntomerkkejä
käyttävien tutkijoiden suosima, esitysmuot B puolestaan on molekyylejä käyttävien tutkijoiden mieleen. Puut C ja D ovat fenogrammeja, sillä niissä oksien pituuksilla on merkitys.
Ne kertovat kussakin oksassa tapahtuneen evoluution määrän, esimerkiksi eri tuntomerkkien tasojen muutosten määrän kyseisessä puun haarassa. Puu C on juurtamaton puu, sillä
sille ei ole määrätty juurta. Juurtamattoman puu tunnistaa helposti tähtimäisestä muodosta. Puu D on juurrettu puu. Puissa A, B ja C liikkuminen pystysuunnassa (alhaalta ylös)
ei tarkoita mitään. Kahden haaran välinen välimatka tässä suunnassa on piirtretyn mittainen yksin piirtoteknisistä syistä. Ainoastaan liike vaakasuunnassa (vasemmalta oikealle)
kuvaa evoluution kulkua tai mittaa tapahtuneiden muutosten määrää.
Usein käytetään myös nimityksiä additiivinen puu ja ultrametrinen puu. Additiiviseksi puuksi kutsutaan sellaista fenogrammia, jonka oksat voivat olla eri mittaisia. Ultrametrinen puu puolestaan tarkoittaa fenogrammia, jonka kaikki lehdet ovat
yhtä kaukana juuresta. Additiiviselle ja ultrametriselle puulle on olemassa myös
tarkemmat matemaattiset määritelmänsä, joihin palataan tarkemmin myöhemmin.
Puut voivat olla juurrettuja tai juurtamattomia. Juurretussa puussa on juuri,
joka on fylogeneettisistä puista puhuttaessa kaikkien puussa olevien lajien (hypoteettinen) kantamuoto. Siten puu, jossa on juuri, on myös suunnattu puu, sillä juuri
kertoo, mihin suuntaan aika (evoluutio) puussa etenee. Juurtamaton puu on suuntaamaton puu, eikä sen avulla voida esimerkiksi päätellä eri lajien kantamuototytärlajisuhteita, mikä juurrettuja puita käyttäen on mahdollista.
Fylogeneettisistä puista puhuttaessa juuri luodaan useimmiten ulkoryhmävertailun avulla, sillä liki kaikki puiden muodostamiseen käytettävät laskennalliset
menetelmät luovat juurtamattoman puun. Ulkoryhmäksi valitaan jokin tutkittaval-
13
Johdatus molekyylisystematiikkaan
133
Kuva 13.4:
Kuvassa olevat kladogrammit voidaan molemmat esittää sulkukaaviolla
(A (B (C D))), vaikka niiden graafinen esitys onkin hämäävän erilainen. Huomaa, että
puut ovat kladogrammeja, eikä oksien pituuksilla ole merkitystä. Puun muodosta toiseen
muuttamista voi kuvitella mielessään esimerkiksi siten, että kuvittelee puun saunavihdaksi.
Jos tarttuu vihdan kantaan (A) ja roikuttaa vihtaa alassuin, valahtavat oksat B, C ja D
alas. Oksat valahtavat alas samalla tavalla riippumatta siitä roikutetaanko vasenta puuta
vai oikeaa puuta, joten puut ovat pohjimmiltaan saman puun erilaisia graafisia esityksiä.
Puiden vertaileminen onkin yllättävän hankalaa ja vaivalloista sekä aikaaviepää juuri siitä
syystä, että tismalleen sama puu voidaan esittää graafisesti varsin monella eri tavalla.
Kuva 13.5: Kuvan kladogrammi sisältää yhden polytomia. Polytomialla tarkotetaan sellaista puun haaraa josta lähtee useampia kuin kaksi oksaa. Tässä puussa tälläisesta haarasta lähtevät lajeihin C, D ja E johtavat oksat, joten tätä polytomiaa voidaan kutsua myös
trikotomiaksi. Tällaisille tapauksille on annettu erikoisnimitys, sillä perusoletuksena analyyseissä on aina, että pyritään luomaan sellainen puu, jonka kaikki haarautumiset ovat
dikotomisia, tai siis, että jokaisesta oksasta lähtee tasan kaksi haaraa. Trikotomia voi aiheutua puuhun kahdesta seikasta: joko oksassa ei ole tapahtunut yhtäkään muutosta minkään ominaisuuden tasosta toiseksi tai sitten kantamuoto on lajiutunut siten, että siitä on
yhtäaikaisesti syntynyt kolme tytärlajia. Vaikka perusoletuksena onkin, että kaikki haarat
ovat dikotomisia, voidaan polytomioista saada mielenkiintoista informaatiota lajien evoluutiosta. Paljon tavallisempaa kuitenkin on, ettei dataa ole riittävästi, jotta sen perusteella voitaisiin arvioida kaikki puun oksan pituudet, ja polytomioita esiintyykin tyypillisesti
puissa, jotka on muodostettu vähäisen tai vaikeasti tulkittavan aineiston perusteella.
134
Bioinformatiikan perusteet
le joukolle läheinen laji siten, ettei ulkoryhmä kuitenkaan kuulu tutkittavien lajien
joukkoon. Puuta muodostettaessa ulkoryhmää käsitellään kuten mitä tahansa tutkittavaa lajiakin (jotka yhdessä muodostavat sisäryhmän), mutta analyysin lopuksi
puu esitetään siten, että ulkoryhmä muodostaa sille juuren. Voidaankin sanoa, että
juuri sitoo muodostetun lajiryhmän evoluutiota kuvaavan puun koko eliöhistoriaa
kuvaavaan puuhun, ja kertoo mistä kohtaa elämänpuuta tutkittava lajijoukkomme
haarautui. Esimerkiksi, jos tutkisimme vanhan maailman apinoiden (ihminen, simpanssi, gorilla, oranki) evoluutiota, voisimme käyttää ulkoryhmänä vaikkapa jotakin muuta nisäkästä, kuten hiirtä.
Ulkoryhmän käyttöä analyysissä voi pitää myös nerokkaana tapana tuoda ulkopuolista informaatiota analyysiin. Ulkoryhmän käyttö kuitenkin vaatii, että todella tiedämme jotakin lajiryhmän evoluutiosta jo ennen varsinaista analyysiämme. Vaikka ulkoryhmän käytölle on esitettävissä yllämainittuja pääperiaatteita, jotkut kuitenkin käyttävät jotakin sisäryhmän lajia laskennallisena ulkoryhmänä, ja
esittävät tuloksena juurretun puun. Tämä ei kuitenkaan ole rohkaistava menettelytapa.
Edellä on määritelty, että fylogeneettinen puu on suunnattu puu, joka haarautuu dikotomisesti. Jos meillä on n kappaletta lajeja, voidaan erilaisten mahdollisten
puiden lukumäärä laskea seuraavia kaavoja käyttäen. Juurtamattomia puita (U) on
n:lle lajille olemassa
U = (2n − 5)(2n − 7)...(3)(1),
kun n>2. Juurrettujen puiden (R) määrä saadaan kaavasta
R = (2n − 3)(2n − 5)...(3)(1) = (2n − 3)U
Taulukkoon 13.1 on taulukoitu juurtamattomien ja juurrettujen puiden määriä eri lajimäärillä. Taulukosta on helppo huomata, että mahdollisten puiden määrä kasvaa eksponentiaalisesti lajilukumäärän kasvaessa. Jos lajilukumäärä on yli
15-20, ei nykyisin menetelmin voida käydä kaikkia mahdollisia puita läpi. Tämä
onkin eräs keskeinen ongelma molekyylisystematiikassa, ja sen ratkaisemiseksi on
kehitetty menetelmiä, jotka lähestyvät ongelmaa varsin moninaisista näkökulmista.
Menetelmiin tutustutaan tarkemmin heurististen hakujen yhteydessä.
Taulukko 13.1: Juurtamattomien ja juurrettujen puiden lukumäärä muutamilla 2-10:lle
lajille.
Lajimäärä
2
3
4
5
6
7
8
9
10
13.3
juurtamattomia puita
1
1
3
15
105
945
10395
135135
2027025
juurrettuja puita
1
3
15
105
945
10395
135135
2027025
34459425
Lajien ja tuntomerkkien evoluutio
Edellä kuvattu molekyylisekvenssejä käyttäen muodostettu puu kuvaa molekyylisekvenssien evoluutiota, eikä ole välttämättä yhtäpitävä lajien evoluutiota kuvaavan
13
Johdatus molekyylisystematiikkaan
135
puun kanssa. Tämä tarkoittaa sitä, ettei lajien evoluutiota voida välttämättä selvittää
sekvenssien perusteella. Esimerkiksi geenisekvenssien evoluutioon vaikuttaa moni
muukin seikka kuin eliöiden lajiutumisjärjestys. Geenit muodostavat usein geeniperheitä, jotka ovat syntyneet alkuperäisestä geenin kantamuodosta kopioitumalla.
Jotta eri tavoin evolvoituneet geenit voidaan erotella toisistaan, on syytä esitellä
muutamia käsitteitä.
Fylogeneettinen puu muodostetaan homologisten tuntomerkkien perusteella.
Homologia tarkoittaa sitä, että rakenteet tekevät samaa asiaa eri eliöissä. Keskenään homologisten morfologisten tuntomerkkien tunnistamiseen voidaan käyttää
tietoa rakenteen kehityksestä yksilönkehityksessä, sen paikasta aikuisessa eliössä
ja sen toiminnasta. Sama homologiaoletus pätee myös sekvenssiaineistoihin. Oletamme, että analyysiin valitsemamme geenit ovat keskenään homologisia, ja että
sekvenssirinnastuksen jälkeen olemme saaneet keskenään homologiset nukleotidit,
kodonit tai aminohapot kohdakkain. Molekyylisystematiikka perustuukin sekvenssirinnastuksille, ja pitkälti niiden laadusta on kiinni myös lopullisen puun laatu.
Sellaisia geenejä, jotka ovat keskenään homologisia siksi, että ne ovat kulkeutuneet evoluution kuluessa eri eliöihin suoran polveutumisen kautta (ei siis esimerkiksi horisontaalisella geeninsiirrolla eliöstä toiseen), kutsutaan keskenään ortologisiksi. Geenejä, jotka ovat keskenään homologisia siksi, että ne ovat kahdentuneet yhden lajin sisällä, kutsutaan paralogisiksi (Kuva 13.6). Tutkittaessa geenien
ja geeniperheiden evoluutiota on syytä tutkia sekä paralogeja että ortologeja, mutta
selvitettäessä lajien evoluutiota on pitäydyttävä ainoastaan ortologisissa sekvensseissä.
Kuva 13.6: Esimerkki ortologisten ja paralogisten geenimuotojen syntymisestä. Keskenään ortologiset geenikopiot syntyvät lajiutustapahtumien yhteydessä, paralogiset kopioitumalla yhden lajilinjan sisällä. Tyypillisesti erilaisten geenimuotojen syntymisestä on
käytetty esimerkkinä nisäkkäiden hemoglobiineja. Alkuperäinen geenimuoto nisäkkäillä
on hemoglobiini alfa. Siitä on istukallisten nisäkkäiden erotessa pussieläimistä muodostanut keskenään ortologiset geenikopiot, yksi alfa-globiini pussieläimiin ja yksi kopio istukallisiin nisäkkäisiin. Istukallisten nisäkkäiden lajiutuessa edelleen, on alfa-globiinista
muodostunut toinen geenikopio, beta-globiini. Alfa- ja beta-globiini ovat keskenään paralogisia geenejä. Tässä on kuitenkin huomattava, että kaikki globiinit ovat keskenään homologisia, paralogia ja ortologia ovat vain homologian erilaisia asteita.
Homologisten geenien erotteleminen paralogeiksi ja ortologeiksi ei välttämättä onnistu ennen molekyylisystemaattista analyysiä, ja oletuksia voidaan joutua tarkistamaan analyysin jälkeen. Tämä on aivan normaalia, sillä homologia on aina
136
Bioinformatiikan perusteet
pelkkä oletus ennen analyysitulosten tulkintaa. Voimme esimerkiksi olettaa ihmisen käden ja lepakon siiven olevan homologisia rakenteita (mitä ne oikeasti ovatkin), mutta ennen fylogeneettistä analyysiä emme voi olla tästä vakuuttuneita. Siksi
homologiaoletukset voivatkin muuttua analyysin jälkeen. Tämä pätee yleensä vain
morfologisiin tuntomerkkeihin ja kokonaisten geenien homologiaoletuksiin, muttei
niinkään yksittäisten sekvenssikohtien homologiaoletuksiin. On kuitenkin olemassa menetelmiä, jotka laajentavat homologiaoletusten analyysin jälkeisen tarkastelun koskemaan myös yksittäisiä sekvenssikohtia (tietokoneohjelmat Treealign ja
POY).
Siinä missä homologia perustuu oletukseen ennen analyysiä, on analyysin tuloksena saatava puukin oletus, kunnes muu riippumaton aineisto joko tukee tai ei
tue muodostettu fylogeniaa. Jokaista puuta on käsiteltävä hypoteesina siitä, miten
geeni- tai eliöjoukon evoluutio on edennyt. Hypoteesit ovat avoimia tieteelliselle
testaukselle, ja uusien aineistojen valossa saatuja tuloksia voidaan joutua tarkistamaan.
Edellä korostettiin, että fylogeneettinen analyysi on perustettava homologisille
piirteille. Homologia ei ole kuitenkaan riittävä edellytys lajien sukulaisuussuhteiden selvittämiseksi. Ominaisuus voi olla tutkittavilla lajeilla homologinen, mutta
sen homologisuus voi olla niin vanhaa perua, ettemme näe ominaisuuden kehittymistä tutkittavien lajiemme joukossa. Tällaisia ominaisuuksia kutsutaan plesiomorfioiksi, ja vaikka ne eivät anna suorastaan harhaanjohtavaa tietoa lajien fylogeniasta, ne haittaavat analyysiä, sillä ne eivät tarjoa mitään lisäinformaatiota lajien
evoluutiosta (antavat epätäsmällistä tietoa). Plesiomorfiat on yleensä suhteellisen
helppo tunnistaa, sillä ne ovat ominaisuuksia, joissa sama taso esiintyy sekä ulkoryhmällä että ainakin osalla sisäryhmän lajeista. Apomorfiset piirteet puolestaan
ovat sellaisia, jotka ovat homologisia, ja joiden ilmestymisen näemme tutkittavien
lajiemme joukossa. Lajien luotettava luokittelu voidaan perustaa ainoastaan apomorfisille piirteille. Apormorfisia piirteitä kutsutaan toisinaan suomeksi evolutiivisiksi uutuuksiksi. Jos apomorfia havaitaan ainoastaan yhdessä ainoassa lajissa, sitä
kutsutaan synapomorfiaksi.
Ominaisuudet voivat olla myös homoplasisia tai homoplasioita. Tällaisia ovat
ominaisuudet, jotka eivät periydy yhteiseltä kantamuodolta, mutta vaikuttavat ensisilmäyksellä siltä, että ne saattaisivat olla peräisin yhteiseltä kantamuodolta. Homoplasia antaa harhaanjohtavaa tietoa lajien sukulaisuussuhteista, jos sitä ei kyetä erottamaan homologiasta. Homoplasiaa voi syntyä esimerkiksi samansuuntaisen
evoluution seurauksena. Esimerkiksi hylje ja kala näyttävät päällisin puolin pitkälti
samanlaisilta. Ne ovat ruumiinrakenteeltaan pitkulaisia, niillä on evät, ja ne oleilevat pitkiä aikoja veden alla, kalat jopa koko elämänsä. Ulkoinen samankaltaisuus
on kuitenkin sopeuma samaan elinympäristöön, veteen, ja siten piirteet eivät ole homologisia vaan homoplasisia. DNA-sekvensseissä homoplasiaa aiheuttaa usein se,
että mahdollisia nukleotideja on ainoastaan neljä kappaletta, ja kahdessa sekvenssisä voi olla samalla kohtaa tismalleen sama nukleotidi puhtaasti sattumalta.
Voidaankin sanoa, että homoplasisten tuntomerkkien erottaminen homologisista on koko fylogeneettisen analyysin ydinajatus. Oletetaan, että on olemassa
vain yksi oikea puu, joka kuvaa tutkittavien lajien evoluutiota. Jos eri ominaisuudet
tukevat eri puita, sanotaan, että ominaisuuksien välillä on yhteensopimattomuutta (incongruence). Kahden ominaisuuden yhteensopimattomuus tarkoittaa sitä, että
ainakin toinen ominaisuuksista on homoplasinen.
Lajien luokittelussa samaa ryhmään, esimerkiksi sukuun, pyritään sijoittamaan
sellaiset lajit, jotka muodostavat monofyleettisen ryhmän. Monofyleettinen ryhmä
tarkoittaa sellaista ryhmää, jota luonnehtivat apomorfiset ominaisuudet. Parafyleettisiä ryhmiä luonnehtivat plesiomorfiat ja polyfyleettisiä ryhmiä homoplasiat (Kuva 13.7). Luonnollinen luokittelu (lajien luokittelu niiden kehityshistorian perusteella) perustuu monofyleettisten ryhmien muodostamiseen.
Monofyleettinen ryhmä voidaan tunnistaa siten, että se voidaan erottaa muusta puusta leikkamalla poikki ainoastaan yksi puun oksa. Parafyleettisen ryhmän
13
Johdatus molekyylisystematiikkaan
137
Kuva 13.7: Lajien luokittelu monofyleettisiin, parafyleettisiin ja polyfyleettisiin ryhmiin.
Kuvassa on seurattu yhden ominaisuuden tasoja fylogeneettisessä puussa. Punaisella on
kuvattu ominaisuuden tason vaihtuminen siten, että se eroaa mukana olleesta ulkoryhmästä
(ei kuvassa).
poistaminen puusta vaatii tasan kaksi oksan katkaisua, ja polyfyleettisen ryhmän
poistamiseksi tarvitaan vähintään kaksi poikkaistua oksaa.
13.4
Lajit luokitellaan monofyleettisiin ryhmiin
Nykyinen, alunperin Linnean kehittämä eliöiden luokittelusysteemi perustuu eliöiden sijoittamiseen monofyleettisiin ryhmiin. Samaan ryhmään sijoitetaan siis kaikki sellaiset eliöt, jotka evoluutiohistoriallisesti lähempänä toisiaan kuin muita eliöitä. Luokittelusysteemi perustuu eri tasoihin, jotka ovat hierarkkisesti riippuvaisia
toisistaan, eli ne voidaan esittää tai järjestää puun muotoon. Esimerkiksi koirat ja
kissat voidaan sijoittaa luokittelusysteemiin seuraavalla tavalla (huomaa laijinimen
kursivointi):
Luokittelutaso
Kunta
Pääjakso
Luokka
Lahko
Heimo
Suku
Laji
Kissa
Animalia
Chordata
Mammalia
Carnivora
Felidea
Felis
Felis catus
Koira
Animalia
Chordata
Mammalia
Carnivora
Canidea
Canis
Canis familiaris
Kaikkia sukulaisuussuhteen perusteella nimettyjä eliöryhmiä kutsutaan yleinimellä taksonominen yksikkö tai lyhyemmin taksoni. Toisinaan lajitason yksiköitä kutsutaan myös operatiivisiksi taksonomiksi yksiköiksi, otuksiksi (operational
toxonomic unit, OTU). Taksoneiksi luetaan kuitenkin vain sellaiset ryhmät, jotka
on virallisesti kuvattu ja joilla on hyväksytty tieteellinen nimi. Siten esimerkiksi Carnivora on lahkotason ja Felis sukutason taksoni. Nykyisin eri tasojen väliin
sijoittuu monia välitasoja, esimerkiksi alaheimoja ja -lahkoja, lähinnä siitä yksinkertaisesta syystä, että nykyinen luokittelujärjestelmä on liian vähäportainen kaikkien tunnettujen lajien sukulaisuussuhteiden luotettavaan kuvaamiseen. Ongelman
ratkaisemiseksi on ehdotettu esimerkiksi Phylocode-nimistä uutta luokittelujärjestelmää, mutta se ei kuitenkaan kykene luomaan järjestystä nykyiseen kaaokseen.
Phylocoden käyttöönotto luultavasti sekoittaisikin lajien luokittelua entisestään.
Tieteelle uusien lajien kuvaaminen käy jokseenkin seuraavasti. Kuvaus uudesta lajista julkaistaan jossakin kansainvälisesti arvostetussa taksonomian alan lehdessä ja lajia vastaava näyteyksilö talletetaan johonkin luonnontieteelliseen museoon.
138
Bioinformatiikan perusteet
Museossa se säilyy vertailunäytteenä, jota vastaan kaikkia uusia mahdollisesti samaa lajia edustavia yksilöitä voidaan verrata. Lisäksi näyte tietenkin palvelee eliöryhmästä kiinnostuneita tutkijoita. Lajien nimeämisestä on sovittu yhteisesti, ja monille eliöryhmille, kuten kasveille, eläimille ja bakteereille on oma nimeämiskäytäntönsä. Esimerkiksi kasvien luokittelussa ei puhuta pääjaksoista vaan kaarista ja
bakteerien lajinimiä ei toisinaan kursivoida (esimerkiksi streptokokit).
Uutta lajia kuvattaessa se sijoitetaan osaksi jo jotakin olemassa olevaa taksonia. Kuten on tullut jo esille, edustavat taksonit sellaisia ryhmiä, joita karakterisoivat apomorfiat. Käytännössä siis sellaiset piirteet, joilla on yhteinen evoluutiohistoria. Tällaisia ryhymiä kutsutaan monofyleettisiksi. Nykyisessä luokittelusysteemissä pyritään luomaan vain monofyleettisiä ryhmiä ja välttämään sekä paraettä polyfyleettisiä ryhmiä. Uusi tieto ryhmästä voi tietenkin aina muuttaa ryhmän
luokittelua, ja jälkikäteen voidaan esimerkiksi havaita, ettei kuvattu ryhmä ollutkaan oikeasti monofyleettinen. Asian korjaamiseksi havaittu parafyleettinen ryhmä
voidaan esimerkiksi pilkkoa kahdeksi erilliseksi monofyleettiseksi ryhmäksi, jotka sitten nimetään sopivalla tavalla uudelleen. Periaatteessa nykyisin siis jokaisen
taksonin pitäisi vastata yhtä jollakin tasolla monofyleettistä ryhmää.
Aina monofyleettiseen ryhmittelyyn ei kuitenkaan päästä. Klassinen esimerkki lienee ihmisen ja ihmisapinoiden luokittelu (kuva 12008). Perinteisesti simpanssi, gorilla ja oranki on sijoitettu parafyleettiseen ryhmään nimeltä Pongidae. Vaikka ihminen on lähempänä simpanssia ja gorillaa kuin kumpikaan niistä on orankia, sijoitetaan ihminen omaan heimoonsa (Hominidae). Kladistinen eli luonnollinen luokittelu, johon nykyisin pyritään, vaatii, että Pongidae pilkotaan kahdeksi
tai kolmeksi monofyleettiseksi heimotason taksoniksi. Ongelmia aiheuttaa lähinnä
se, että ihmisen aseman korostaminen ei ole luonnollisen luokittelun mukaista. Nykyisin ongelmaa on yritetty poistaa lukemalla ihminen, simpanssi, gorilla ja oranki
Hominidae-ryhmäksi. Gibbonit muodostavat edelleen Hylobatidae-ryhmän.
Parafyleettisiin ryhmiin liittyvän ongelman korostaminen saattaa vaikuttaa yhdentekevältä, mutta sillä on merkitystä evoluutiomeknismien kannalta. Esimerkiksi, jos sanotaan, että ihminen kehittyi apinoista sen sijaan, että sanottaisiin ihmisellä ja apinoilla on yhteinen kantamuoto, asettaa kantamuotoryhmän (apinat) välittömästi parafyleettisen ryhmän asemaan. Kladistikot käyttävät yhteisestä kantamuodoista kehittyneistä taksoneista nimitystä sisartaksonit tai sisarryhmät. Esimerkiksi
ihmisen, simpanssin ja gorillan muodostama ryhmä kuvassa 13.8 on orangin sisarryhmä.
13.5
Molekyylisystematiikan suuntaukset
Nykyisin molekyylisystematiikassa käytetään pääsääntöisesti jotakin neljästä menetelmästä, etäisyysmenetelmät (distance methods), parsimonia, suurimman uskottavuuden menetelmät (maximum likelihood) ja Bayesilaiset menetelmät (Taulukko 13.9). Suurimmaksi osaksi tutkimuksissa käytetään edelleen kolmea ensiksi
mainittua, mutta Bayesilaiset menetelmät ovat jatkuvasti lisänneet suosiotaan.
Kaikki menetelmät olettavat, että evoluutiota voidaan kuvata dikotomisesti
haarautuvalla puulla, joskin polytomiat sallitaan. Tällainen kuva evoluutiosta vastaa varmasti hyvin esimerkiksi eläinten evoluutiota, mutta on täysin riittämätön
muun muassa bakteerien evoluution esittämiseen. Bakteerit vaihtavat perintöainesta keskenään horisontaalisella geeninsiirrolla, jolloin puurakenteen sijasta joudutaan käyttämään verkostoa, jos horisontaalinen geeninsiirto halutaan ottaa huomioon. Tällaisten tapausten analysointiin on joitakin menetelmiä ("splits"), mutta niiden kehitys ei ole vielä toivottavalla tasolla. Toisen ongelman dikotomisesti
(kaksijakoisesti) haarautuville puille aiheuttaa anageneesi, eli evolutiivinen tapahtuma, jossa jo olemassa oleva laji muuttuu toiseksi ilman haarautumista. Tällöin on
hankala sanoa, missä alkuperäinen laji lakkaa olemasta ja uusi on syntynyt. Kladistikoille lajikäsitys ei ole tässä mielessä ongelma, sillä uuden lajin (tai muun takso-
13
Johdatus molekyylisystematiikkaan
139
Kuva 13.8: Ihmisen, simpanssi, gorillan, orangin ja gibbonin vanha, polyfyleettinen luokittelu, josta nykyisin on pyritty pääsemään eroon.
Kuva 13.9: Eräs tapa luokitella molekyylisystematiikassa käytettyjä menetelmiä sekvenssiaineiston käsittelytavan ja parhaan puun valintakriteerin mukaan. Etäisyysmenetelmät,
kuten UPGMA ja neighbor joining, tiivistävät sekvenssien väliset erot yhdeksi etäisyysmitaksi. Parsimonia- ja suurimman uskottavuuden menetelmät sen sijaan käsittelevät yksittäisiä sekvenssikohtia erikseen toisistaan riippumatta. Yksittäisiä sekvenssikohtia käsittelevät menetelmät kulkevat myös nimellä optimaalisuuskriteeriä soveltavat menetelmät.
140
Bioinformatiikan perusteet
nin) katsotaan syntyneen silloin, kun puussa havaitaan haarautuminen.
Dikotomisen evoluution lisäksi oletetaan, että evoluutio on tapahtunut mahdollisimman yksinkertaisella tavalla, mutta tämäkään oletus ei välttämättä pidä paikkaansa. Kuitenkin, jos tätä yksinkertaisuusoletusta ei tehtäisi, voisimme valita mielivaltaisen puun eliöryhmän evoluutiota kuvaamaan. Oletamme evoluution tapahtuneen mahdollisimman yksinkertaisesti juuri siksi, että meillä olisi jokin objektiivinen lähtökohta, jonka perusteella voimme arvottaa erilaisia sukupuuehdokkaita.
Perinteisimpiä yllä mainituista menetelmistä ovat etäisyysmenetelmät, joiden
periaatteena on laskea tuntomerkkien perusteella eri eliöiden väliset etäisyydet (=
1 - samankaltaisuusaste), ja muodostaa näiden perusteella yleensä hierarkkista ryhmittelyanalyysiä käyttäen puu. Menetelmiä kutsutaan myös feneettisiksi menetelmiksi, ja niihin lukeutuvat sellaiset (ryhmittelyanalyysi) menetelmät kuin UPGMA (unweighted pair-group method using arithmetic averages) ja NJ (neighborjoining). Etäisyysmenetelmin voidaan periaatteessa käsitellä mitä tahansa sellaista
aineistoa, joka on muunnettavissa lajien eroja kuvaaviksi etäisyyksiksi. Näin voidaan tehdä varsin monenlaisille aineistoille DNA-hydribisaatiotutkimusten antamista sulamislämpötiloista ja restriktiofragmenttien pituuksista DNA-sekvensseihin
ja morfologisiin tuntomerkkeihin.
1970-luvulla ja erityisesti 1980-luvun alussa parsimoniamenetelmää soveltavat kladistikot tekivät selkeän eron feneetikkoihin. Pesäeron kladistikot tekivät erityisesti Steven Farrisin johdolla. Parsimoniamenetelmien periaatteena on Occamin
partaveitsi: se puu, joka selittää aineiston vähimmin muutoksin (kaikkien ominaisuuksien tasojen yhteenlaskettujen muutosten määrä), on kaikkein parsimonisin,
"paras puu". Ideaa voidaan soveltaa varsin monenlaisiin aineistoihin morfologisista tuntomerkeistä sekvenssiaineistoihin ja geeniduplikaatioihin.
Suurimman uskottavuuden menetelmät alkoivat muuttua suosituiksi 1990-luvulla,
jolloin tehokkaiden tietokoneiden markkinoille tulo mahdollisti menetelmien soveltamisen. Toki idea oli esitetty jo aiemmin. Suurimman uskottavuuden menetelmien ideana on löytää sellainen puu, jonka uskottavuus on kaikkein suurin. Uskottavimman puun etsiminen vaatii määrittelemään evoluutiomekanismin, jolla aineiston uskotaan evolvoituneen. Tällaisia evoluutiomalleja ovat DNA-sekvensseille
esimerkiksi Jukes-Cantorin malli ja proteiineille mallina voidaan käyttää jotakin
aminohappokorvautumismatriisia, kuten PAM tai JTT. Pääasiassa suurimman uskottavuuden menetelmiä sovelletaan sekvenssiaineistoihin, mutta viime vuosina on
kehitetty joitakin morfologisille tuntomerkeillekin sopivia malleja.
Bayesilaiset menetelmät ovat molekyylisystematiikan uusinta uutta. Ne eroavat suurimman uskottavuuden menetelmistä vain hiukan. Bayesilaisen kaavan mukaan tapahtuman A todennäköisyys voidaan kaavasta, jossa nimittäjä (kaavan jakoviivan yläpuolinen lauseke) vastaa suurimman uskottavuuden estimaattia. Käytännössä Bayesilaisia menetelmiä on tähän mennessä sovellettu menestyksekkäästi lähinnä DNA-sekvenssiaineistoille. Niiden heikkoudeksi on sanottu, että vastemuuttujan (tässä puu) nollahypoteesin mukainen jakauma (puille tuntematon) täytyy tietää, jotta analyysi päätyy oikeaan lopputulokseen. Asia ei kuitenkaan ole niin, sillä
Bayesilaiset menetelmät ovat juuri siitä syystä niin hyviä, etteä ne päätyvät jokseenkin robustisti (lue: aine) oikeaan lopputulokseen, vaikkei alkuperäistä niin sanottua
á priori -jakaumaa tunnettaisikaan.
Eri suuntausten välillä, nykyisin enää lähinnä parsimonia- ja suurimman uskottavuuden meentelmiä suosivien tutkijoiden välillä, on toisinaan käyty varsin kiihkeäsanaistakin mielipiteiden vaihtoa siitä, mikä menetelmä on milloinkin paras, ja
mille filosofisille periaatteille mikäkin menetelmä perustuu. Nykyisin kiivasluontoisuus on hiukan laimentunut, johtuneeko sitten siitä, että alkuperäiset puuhamiehet ovat kummallakin puolella rajalinjaa seestyneet, vai jostakin muusta. Tosiseikka
kuitenkin on, että hieman yli puolet julkaistuista sukupuista on muodostettu parsimoniamenetelmää käyttäen. Toisesta liki puolikkaasta vastaavat siten etäisyysmenetelmät, suurimman uskottavuuden menetelmät ja bayesilaiset menetelmät yhdessä, joskin näistä leijonanosan omivat suurimman uskottavuuden menetelmät.
13
Johdatus molekyylisystematiikkaan
141
Aiemmin tieteen filosofinen keskustelu etäisyys-, suurimman uskottavuuden
ja prasimoniamenetelmien keskinäisestä paremmuudesta on keskittynyt pitkälti sen
ympärille, tuottavatko ne monofyleettisiä ryhmittelyitä. Tilanne on tällä hetkellä se,
ettei etäisyysmenetelmien katsota tuottavan monofyleettisiä ryhmiä, mutta sen sijaan suurimman uskottavuuden menetelmät ja parsimonia katsotaan sikäli samanarvoisiksi, että niiden käyttö on vaihtoehtoista. Molemmat optimoivat jotakin kriteeriä (puun pituus tai sen uskottavuus), mutta laskennallinen lähtökohta on hieman
erilainen.
Nykyisin keskustelu eri menetelmien käytöstä pyörii hyvin pitkälti niiden sovellettavuuden ympärillä: milloin parsimoniamenetelmä antaa väärän vastauksen,
missä tilanteessa jokin tietty evoluutiomalli, jota suurimman uskottavuuden menetelmät käyttävät erehtyy, ja mikä puun luotettavuuden arviointiin käytetyistä menetelmistä oikeastaan on käyttökelpoinen. Simuloiduilla aineistoilla on tutkimuksissa pystytty osoittamaan joitakin eri menetelmien heikkoja kohtia, mutta tulosten
yleistäminen biologisesti relevanteille tutkittavien lajien määrille voi olla hyppy
tuntemattomaan. Suurin osa simulaatiotutkimuksista on nimittäin tehty neljää lajia käyttäen. Simulaatiotutkimusten antamia tuloksia käsitellään tarkemmin omassa luvussaan.
142
Bioinformatiikan perusteet
14 Tavanomaisen analyysin
eteneminen
14.1
Yksinkertaisen analyysin työvaiheet
Jatkossa keskitytään miltei yksinomaan biologisten sekvenssiaineistojen analysointiin, ja tällöin on syytä pitää mielessä, että olemme muodostamassa geenipuuta,
joka ensisijaisesti kuvaa geenien evoluutiota. Geenipuu voi olla tai olla olematta
yhtäpitävä lajien evoluutiota kuvaavan puun kanssa. Yleensä kuitenkin oletamme,
että geenipuu kuvaa myös lajien evoluutiota. Tällöin on kuitenkin oltava erityisen
tarkkana, ettei analyysissä ole sotkettu paralogisia ja ortologisia sekvenssejä keskenään. Jos tutkitaan geenien evoluutiota, voi tietysti olla kiinnostavaa yhdistää sekä
paralogiset että ortologiset sekvenssit samaan analyysiin, mutta lajien evoluutiota
tutkittaessa niillä ei ole oikeastaan mitään paikkaa samassa analyysissä.
Tavanomainen analyysi etenee jokseenkin siten, että valitaan ja hankitaan tutkittavista lajeista sopivat sekvenssit. Tämän jälkeen sopivaa evoluutiomallia käyttäen rinnastetaan sekvenssit. Sekvenssirinnastus analysoidaan valitulla analyysimenetelmällä (etäisyys, parsimonia, suurin uskottavuus, Bayesilainen), ja lopuksi
muodostetun puu luotettavuutta pyritään arvioimaan. Alla on kuvailtu lajien sukulaisuusushteiden määrittämiseen keskittyvä analyysi pääpiirteissään.
14.2
Sekvenssien valinta
Seuraavassa oletetaan, että työtä aloittava tutkija tuntee tutkimansa lajijoukon hyvin, ja tietää millaisia aikaisempia tuloksia niiden evoluutiosta ja sukulaisuussuhteista on mahdollisesti aiemmin julkaistu. Tämä voi tarkoittaa huomattavaa kenttäja laboratoriotyöjaksoa ennen varsinaisen tietokoneistetun analyysin aloittamista.
Molekyylisekvensseillä, olivatpa ne sitten DNA:ta tai aminohappoja, tehtävä
analyysi alkaa tietenkin sekvenssien hankkimisella. Nykyisin sekvenssitietokannoista, kuten EMBL tai NCBI:n taxonomy, löytyy jo varsin suuri määrä erilaisia
sekvenssejä noin 100 000 eri lajista tai kannasta. Onkin tullut tavaksi ensin tarkistaa, millaisia sekvenssejä julkisisssa tietokannoissa on, ja sen jälkeen tarvittaessa
täydentää aineistoa uusista näytteistä saaduilla sekvensseillä.
Tutkimuksessa käytettäviin sekvensseihin kohdistuu muutamia oletuksia. Ensinnäkin niiden on evolvoiduttava sopivalla nopeudella. On toivottavaa, että sekvensseissä on tapahtunut riittävä määrä muutoksia, että lajit voidaan luotettavasti
erottaa toisistaan, mutta toisaalta sekvenssit eivät ole saaneet eriytyä liikaa. Jos samassa sekvenssipaikassa on tapahtunut useita muutoksia, ne usein peittävät toisensa, ja analyysi saattaa vääristyä.
Monia lajiryhmiä on tutkittu siksi paljon, että tunnetaan “yleiskäyttöön” soveltuvat geenit. Esimerkiksi, bakteerien tapauksessa käytetään usein 16S rRNA molekyylin sekvenssiä, sillä se evolvoituu suhteellisen nopeasti, ja se löytyy varmasti kaikilta bakteerikannoilta ja lajeilta. Kasveilla voidaan vastaavasti käyttää
esimerkiksi rbcL-geenin (ribuloosi-1,5-bisfosfaattikarboksylaasi) sekvenssiä, sillä
14
Tavanomaisen analyysin eteneminen
143
se koodaa kloroplastien toiminnalle oleellista entsyymiä (toimii C O 2 -molekyylien
muuttamisessa orgaanisiksi yhdisteiksi). Eläimillä valinta voi kohdistua esimerkiksi ribosumin suuren alayksikön sekvenssi, sillä se on jokseenkin samanlainen
useimmilla eläimillä.
Käytännössä yhden ainoan geeni- tai proteiinisekvenssin perusteella saatu puu
ei välttämättä ole kovin luotettava, joten nykyisin on yleistymässä käytäntö, jossa samassa analyysissä käsitellään useampia sekvenssejä. Yhdistettyyn analyysiin
liittyviä ongelmia ja ratkaisumalleja käsitellään omassa luvussaan. Lajien välisten sukulaisuussuhteiden selvittämiseksi useimmiten myös otetaan näyte ainoastaan yhdestä lajin yksilöstä, jolloin koko lajia edustaa analyysissä vain yksi ainoa
sekvenssi. Tällöin muun muassa lajin sisäinen polymorfia (monimuotoisuus) jää
havaitsematta, mikä voi aiheuttaa ongelmia, jos lajilla on kovin läheisiä sukulaisia. Parempi tapa olisikin ottaa näyte useammasta yksilöstä, mutta aina se ei ole
teknisestikään mahdollista. Populaation monimuotoisuuden selvittämiseen tähtäävissä tutkimuksissa näytteitä tietenkin luonnostaankin kerätään useista tai useista
kymmenistä yksilöistä, jolloin ainakin yleisimmät polymorfiat saadaan selvitettyä.
14.3
Sisäryhmän valinta ja ulkoryhmän käyttö
Sisäryhmä koostuu niistä lajeista, joiden sukulaisuussuhteista olemme kiinnostuneita. Tutkittavien lajien valintaa säätelevät usein käytännön seikat. Esimerkiksi,
jos tutkitaan uutta lajiryhmää, niin miten näytteitä on saatavilla, onko näytteiden
keräämiseen tarjolla tarpeeksi resursseja ja tunnetaanko tutkittavaa ryhmää jo ennalta. Tutkittavien lajien valinta voi nimittöin vaikuttaa analyysituloksiin, mutta tällä hetkellä ei tunneta tarkkaan miten paljon ja millä tavalla. Parhaassa tapauksessa
taksoniotanta kattaa tutkittavan ryhmän tasaisesti ilman suuri puutteita tai hyppäyksiä joidenkin ryhmien yli. Tällaisen otannan avulla saattaa olla mahdollista havaita
kaikki sekvensseissä tapahtuneet substituutiot ja toisaalta se myös helpottaa polymorfian havaitsemista ja tulkintaa. Lisäksi taaja taksoniotanta pienentää long brach
attraction (LBA) -ongelmaa. LBA johtuu siitä, että monet menetelmät, myös parsimonia ja suurimman uskottavuuden menetelmät, ryhmittelevät pitkät oksat yhteen
siitä huolimatta ovatko ne oikeasti toistensa lähisukulaisia vai eivät.
Ulkoryhmä on tutkittavan ryhmän läheinen sukulainen, tarkoituksenmukaisimmillaan erityisesti sisäryhmän sisarryhmää edustava laji. Esimerkki tällaisesta olisi esimerkiksi gibbonin käyttö ulkoryhmänä tutkittaessa ihmisen, simpanssin,
gorillan ja orangin sukulaisuussuhteita (Kuva 13.8). Useimmiten käytetään useita
ulkoryhmiä, mikä mahdollistaa ulkoryhmiin kohdistuvien ongelmien ja analyysivirheiden havaitsemisen ja poistamisen (Kuva 14.1). Toisinaan ulkoryhmä aiheuttaa LBA-ongelman (ulkoryhmä sijoittuu sisäryhmään), mikä saattaa olla mahdollista poistaa tai ainakin havaita käyttämällä useita ulkoryhmiä.
Ulkoryhmän käytöllä analyysissä on oikeastaan kahtalainen tarkoitus. Ulkoryhmän avulla luodaan puuhun juuri, sillä useimmat menetelmät eivät muodosta
juurrettua puuta (poikkeuksena UPGMA). Tällöin alkoryhmää käsitellään puussa kuten mitä tahansa lajia, mutta analyysin päätteeksi ulkoryhmä siirretään puun
uloimmaksi oksaksi, tai ulkoryhmä kiinnitetään heti analyysin aluksi uloimmaksi
oksaksi. Ulkoryhmän avulla siis tuodaan analyysiin mukaan jo tunnettua tietoa lajien välisistä sukulaisuussuhteista. Ulkoryhmän säilyttäminen puussa juuren muodostamisen jälkeen saattaa tuntua turhalta, mutta sen tarkoituksena on myös antaa
tietoa sisäryhmän yhteisen kantamuodon ominaisuuksista. Tätä tietoa tarvitaan erityisesti morfologisten ominaisuuksien yhteydessä arvioitaessa ominaisuustasojen
muutosten suuntaa evoluutio kuluessa.
144
Bioinformatiikan perusteet
Kuva 14.1: Esimerkki useiden ulkoryhmien käytöstä analyysissä. Mustalla neliöllä merkityt lajit muodostavat ulkoryhmän (valittu aikaisempien tulosten perusteella), ja muilla
väreillä merkityt sisäryhmän. Tutkittavat lajit ovat Alveolata-ryhmään kuuluvia yksisoluisia eukaryootteja. Ulkoryhmän muodostavat siliaatit ja hiiva, sisäryhmän panssarisiimalevät (dinoflagelaatit). Muut ulkoryhmät sijoittuvat oletuksemme mukaisesti puun juureksi,
mutta Oxyrrhis marina sijoittu panssarisiimalevien joukkoon. Tulos on oikea, ja johtunee
siitä, ettei Oxyrrhis:in oikeaa luokittelua vielä tunneta. Toisin sanoen, sen asema puussa on varmaankin oikea, mutta sen lukeminen ulkoryhmäksi oli lähtökohtaisesti väärin.
(Tuimala, 2004)
14
Tavanomaisen analyysin eteneminen
14.4
145
Evolutiivisen mallin valinta ja sekvenssien rinnastaminen
Kun analysoitavat lajit ja niitä vastaavat sekvenssit on hankittu, siirrytään varsinaisesti tietokoneistettuun työvaiheeseen. Ensimmäisenä on päätettävä millaista evoluutiomallia (evolutiivista mallia) haluamme käyttää. Evoluutiomallilla tarkoitetaan niitä perusoletuksia, joita haluamme sekvenssien evoluutiosta tehdä. Tässä ei
tarkoiteta minkäänlaista puuta, vaan yksinomaan oletuksia esimerkiksi siitä, miten
yleistä adeniinin muuttuminen sytosiiniksi on tai miten yleisiä insertiot ja deleetiot
sekvensseissä ovat.
Proteiinisekvensseille evoluutiomalli tarkoittaa yleensä jotakin korvautumismatriisia, kuten PAM- tai JTT-matriisia. DNA-sekvensseille evoluutiomallit ovat
yleensä matemaattisia kuvauksia siitä, kuinka yleisiä erilaisten nukleotidimuutosten uskotaan olevan. Tällaisen matemaattisen mallin parametrit (muutostodennäköisyydet) arvioidaan yleensä aineiston perusteella. Aminohapposekvenssien evoluutiomallit on esitelty tarkemmin luvussa Pisteytysmatriisit ja aukkosakot. DNAsekvenssien evoluutiomallit esitellään tarkemmin seuraavissa luvuissa.
Evoluutiomalliin liittyy myös insertioiden ja deleetioiden yleisyys sekvensseissä. Perinteisessä menetelmässä sekvenssit on rinnastettu ensin, ja sitten on valittu analyysiin sopiva evoluutiomalli, mutta samaa evoluutiomallia tulisi käyttää
sekä sekvenssirinnastuksessa että analyysissä. Proteiinisekvenssien osalta tämäon
helppo ratkaista: käytetään rinnastukseen samaa korvautumismatriisia kuin analyysiinkin. DNA-sekvenssien osalta ongelma on hankalampi, sillä DNA:lle tarkoitetut
pisteytysmatriisit, joita rinnastuksessa käytetään, ovat yliyksinkertaistettuja, eikä
ongelmaa ole oikeastaan mitään hyvää ratkaisua nykyisissä rinnastusohjelmissa.
Ainoa tällä hetkellä käytössä oleva menetelmä, joka suoraan yhdistaa sekä rinnastuksen että puun muodostamisen, on saatavilla tietokoneohjelma POY:ssa (Wheeler, 1996). POY:ta käsitellään myöhemmin tarkemmin.
Evoluutiomallin valinnan jälkeen sekvenssit aluksi rinnastetaan sitä käyttäen.
Molekyylisystematiikkaa varten laaditaan kustakin käytettävästä sekvenssijoukosta
niiden globaalirinnastus. Paikallinen rinnastus ei anna riittävästi tietoa sekvenssien eroista. Sekvenssirinnastuksen tarkoituksena on selvittää, mitkä nukleotidit tai
aminohapot kussakin sekvenssissä vastaavat toisiaan. Toisin sanoen, sekvenssirinnastuksella pyritään luomaan hypoteesi eri nukleotidien ja aminohappojen homologiasta.
Sekvenssirinnastus ei ole siinä mielessä yksioikoista, että valitut rinnastusparametrit, erityisesti pisteytysmatriisi ja aukkosakot, vaikuttavat usein suuresti lopputulokseen. Erilaiset sekvenssirinnastukset antavat usein varsin erilaisia tuloksia
lajien evoluutiohistoriasta, joten rinnastukseen on kiinnitettävä huomiota. Useimmiten oletetaan, että proteiinin rakenteeseen perustuva rinnastus antaa oikeamman
lopputuloksen kuin sokkona tehty rinnastus. Jos siis rinnastetaan aminohapposekvenssejä, lienee syytä käyttää apuna tietoa proteiinin kolmiulotteisesta rakenteesta. Tämä tieto on helppo syöttää esimerkiksi Clustal-ohjelmaan. Jos puolestaan
rinnastetaan RNA-molekyyliä, kuten ribosomaalista RNA:ta, voidaan käyttää hyväksi tietoa sen silmukkarakenteesta. Rinnastettaessa proteiinia koodaavia DNAsekvenssejä lienee helpointa ensin rinnastaa vastaavat proteiinisekvenssit, ja sitten
näin saadun rinnastuksen perusteella DNA-sekvenssit. On nimittäin tunnettua, että
proteiineja koodaavissa geeneissä insertiot ja deleetiot usinkin esiintyvät kolmikkoina, siis yhden kodonin mittaisina (muutoinhan geenin lukuraami muuttuisi, ja
tuotettu proteiini voisi olla toimimaton).
Aina ei kuitenkaan ole mahdollista käyttää rakennetietoa avuksi. Tällainen tilanne tulee vastaan esimerkiksi transloitumattomia pseudogeenejä rinnastettaessa.
Tällöin voi olla syytä vaihdella aukkosakkojen arvoja, esimerkiksi 50% kerrallaan
ylös ja alaspäin, ja sitten silmämääräisesti verrata tuotettuja rinnastuksia toisiinsa.
Tässä menetelmässä on heikkous, että parhaan rinnastuksen arviointi joudutaan perustamaan yksinomaan samankaltaisuuden maksimointiin, mikä ei aina ole tyydyttävä ratkaisu. Samaa menetelmää voi tietysti käyttää myös sellaisille sekvensseil-
146
Bioinformatiikan perusteet
le, joista rakenneinformaatio on tiedossa. Jokaisesta tuotetusta rinnastuksesta muodostetaan sitten puu, ja puiden välisiä eroja tarkastelemalla pyritään päättelemään
kuinka paljon rinnastus vaikutti tuloksiin, ja mikä on kaikkein luotettavin puu.
Rinnastuksen muodostaminen yksinomaan käsin on hiukan arveluttavaa, sillä
tällöin analyysiin tuodaan huomattava määrä subjektiivisuutta, mikä ei ole tieteellisesti perusteltavissa. Eri ihmiset nimittäin muodostavat varsin erilaisen rinnastuksen samoista sekvenssesitä. Parempi tapa onkin muodostaa rinnastus tietokoneella,
ja ilmoittaa käytetyt parametrit raportissa, jotta kuka tahansa muukin voi toistaa
tuloksen. Tämä lähestymistapa on siinä mielessä ongelmallinen, että monet rinnastusohjelmat tekevät virheitä, joita ei ole mukava jättää analysoitaviin sekvensseihin. Monet tällaiset rinnastuksen aikana syntyvät virheet ovat tunnettuja, ja ne
lienee syytä korjata ennen varsinaista analyysiä, vaikka ne määritelmän mukaan
tuovatkin subjektiivisuutta analyysiin.
Kaikki eivät myöskään usko, että proteiinin rakenteen käyttäminen rinnastuksen apuna parantaa rinnastusta merkittävästi. Tämä perustuu lähinnä siihen, että heidän mielestään on väärin käyttää analyysissä staattista, muuttumatonta sekvenssirinnastusta. Tarkkaan ottaen näin ehkä onkin, sillä esimerkiksi morfologisten tuntomerkkien homologia on aina pelkkä hypoteesi ennen varsinaisen analyysituloksen (puu) tarkastelua. Jos puu antaa aihetta olettaa, että jotkin ominasuudet
eivät olekaan keskenään homologia, homologiahypoteesia muutetaan, ja analyysi
tehdään uudelleen muutetulla aineistolla. Sama pätee kenties myös sekvensseihin.
Rinnastuksessa muodostetaan eri sekvenssikohtien homologiahypoteesi, jota voi
olla syytä muuttaa analyysitulosten perusteella. Esimerkiksi, POY-ohjelma toimii
juuri näin.
Usein kuulee sanottavan, ettei parsimoniamenetelmä käytä mitään evoluutiomallia, ja on siksi niin erinomainen menetelmä (yksinkertaisuusoletus). Tämä on
kuitenkin virhekäsitys, sillä parsimoniamenetelmä käyttää kyllä eräänlaista, joskin
hyvin yksinkertaista evoluutiomallia: se olettaa, että kaikki muutokset ovat yhtä
yleisiä. Sankoff-matriisien avulla parsimoniamenetelmässäkin voidaan toki painottaa erilaisia muutoksia eri painoarvoin.
14.5
Analyysimenetelmän valinta
Usein analyysimenetelmä on lyöty lukkoon jo ennen tutkimuksen aloittamista. Myös
tutkimukseen perustuvan artikkelin julkaisijalla voi olla oma vahva mielipiteensä
siitä, mitä menetelmää tutkimuksessa olisi pitänyt käyttää. Laskennalliselta kannalta kaikilla menetelmillä on omat vaatimuksena, jotka voivat rajoittaa menetelmän
valintaa.
Etäisyysmenetelmät ovat hyvin nopeita, eivätkä vaadi paljon laskentaa, poislukien minimievoluutiomenetelmä. Muistin tarve on hieman suurempi, sillä aluksi
kaikkien sekvenssien parittaisten etäisyyksien laskemiseen tarvittava muistimäärä
riippuu lajien lukumäärästä. Yksittäinen parsimonia-ajo tuottaa myös suhteellisen
nopeasti tuloksen, eikä muistintarvekaan ole suuri. Suurimman uskottavuuden menetelmät puolestaan kuluttavat suunnilleen saman verran muistia kuin parsimoniamenetelmä, mutta huomattavasti enemmän laskenta-aikaa. Bayesilaiset menetelmät
kuluttavat hieman suurimman uskottavuuden menetelmiä vähemmän aikaa, mutta
huomattavasti enemmän muistia.
Ensisijaisena valintana on aina jollekin optimaalisuuskriteerille perustuva menetelmä, mikä rajaa etäisyysmenetelmät pois pääasiallisten menetelmien joukosta.
Nykyisin ei pitäisikään olla mitään syytä käyttää etäisyysmenetelmiä, sillä parsimoniamenetelmällä pystytään nykyisin helposti käsittelemään sadoista tai tuhansista lajeista koostuvia aineistoja (TNT-ohjelma, Goloboff, 1999; Nixon, 1999). Tämä johtuu viimeaikaisesta laskenta-algoritmien kehityksestä. Myös suurimman uskottavuuden menetelmiä on kehitetty tähän suuntaan (esimerkiksi MetaPIGA-ohjelma,
Lemmon ym., 2002). Jossakin vaiheessa, olkoon raja sitten sadoissa tai tuhansissa
14
Tavanomaisen analyysin eteneminen
147
sekvensseissä, laskenta-aika tai muistintarve kuitenkin kasvaa varsin suureksi. Tällöin on kaksi vaihtoehtoa, joko siirtyä laskemaan tehokkaammalla tietokoneella tai
vaihtaa esimerkiksi etäisyysmenetelmiin.
Nykyisin tuntuu olevan tapana analysoida sama aineisto useammalla menetelmällä, ja raportoida kaikkien antamat tulokset. Usein tuloksia vieläpä vertaillaan
keskenään, ja todetaan, että jokin menetelmä antoi parhaan tuloksen. Tämä on oikeastaan laskenta-ajan hukkaamista, ja parempi tapa olisikin valita yksi menetelmä, jolla aineisto analysoidaan. Useampaa menetelmää käyttäen voidaan toki selvittää, minkälaisia ongelmia aineistossa on, sillä eri menetelmät ovat herkkiä erilaisia aineistossa oleville virheille. Analyysin alkuvaiheessa pilottikoe eri menetelmiä
käyttäen tämä voi ohjata oikean menetelmän käyttöön, mutta on turhaa analysoida
aineisto perinpohjin joka ainoaa saatavilla olevaa menetelmää käyttäen, sillä useidenkaan eri menetelmien käyttö ei anna lisätietoa siitä, kuinka robusti saatu tulos
oikeasti on.
14.6
Tuloksen luotettavuuden arviointi
Kun puu on muodostettu jotakin sopivaa analyysimenetelmää käyttäen, pyritään
sen luotettavuutta yleensä arvioimaan. Puun luotettavuuden arviointiin on esitetty
käytettäväksi useita erilaisia menetelmiä, joista käytetyimmät lienevät bootstrapping, jackknifing ja Bremerin tukiarvo (Bremer support). Bayesilaisten menetelmien yhteydessä käytetään usein eri ryhmien esiintymistiheyksiä posteriori-jakaumassa
tukiarvon mittana.
Suuri osa viimeaikaisesta molekyylisystematiikan menetelmien ympärillä vellovasta keskustelusta keskittyy tukiarvoihin. Bootstrapping-menetelmän alkuperäisenä tarkoituksena on ollut laskea puulle luottamusväli. Luottamusväli on tilastotieteessä käytetty otannan tarkkuuden mittari. Esimerkiksi puolueiden kannatusluvuille, jotka on mitatty kyselytutkimuksessa (gallupissa), voidaan laskea luottamusväli. Sanotaan esimerkiksi, että Kokoomuksen kannatus kunnallisvaaligallupissa oli
20% ja sen luotttamusväli 18-22%. Tällöin, jos Kokoomuksen kannatus mitataan
vaikkapa sadassa gallupissa, sen oikean kannatuksen kunnallisvaaleissa koko Suomessa oletetaan osuvan välille 18-22%.
On hieman kyseenalaista, voidaanko puille laskea vastaavalla tavalla luottamusvälejä. Yhtä kaikki, bootstrapping- ja jackknifing-menetelmiä kuitenkin käytetään puun saaman tuen mittaamiseen. Koska luottamusvälitulkinta on puille hieman
ongelmallinen, puhutaan puiden yhteydessä mieluummin tukiarvosta kuin luottamusvälistä.
Bootstrapping-tukiarvo muodostetaan siten, että alkuperäisen aineiston (sekvenssirinnastus) perusteella arvotaan joukko uusia satunnaisia sekvenssirinnastuksia. Jokaisen alkuperäisen rinnastuksen sekvenssikohta voidaan valita yhden tai
useamman kerran kuhunkin satunnaiseen rinnastukseen. Muodostetut satunnaiset
rinnastukset analysoidaan kuten alkuperäinen aineistokin, ja muodostetuista puista
lasketaan kuinka monessa saman ryhmä esiintyy. Näin saadaan laskettua prosenttiarvo kullekin puunhaaralle. Tätä kutsutaan bootstrapping-tukiarvoksi. (Felsenstein, 1985) Tukiarvojen laskentaa ja teoriaa käsitellään tarkemmin myöhemmin.
Jos tukiarvo on suuri, se kertoo, että analysoidun aineiston perusteella näyttää siltä, että kyseinen ryhmä voidaan oikeasti muodostaa. Jos taas ryhmän saama
tukiarvo on pieni, ei aineiston perusteella voida varmasti sanoa, että tuloksena muodostettu ryhmä siinä oikeasti esiintyy (Kuva 21.2).
148
Bioinformatiikan perusteet
15 Evoluutiomallit
15.1
Mikä on evoluutiomalli?
Evoluutiomalli on kuvaus siitä, millaisia muutoksia ja millä taajuudelle muutosten
odotetaan tapahtuvan esimerkiksi aminohaposta tai nukleotidista toiseksi. Evoluutiomalli voi olla myös kodonitasoinen, jolloin kuvataan, miten eri kodonit muuttuvat toisikseen. Periaatteessa evoluutiomalliin kuuluu myös insertioiden ja deleetioiden käsittely, mutta niille ei ole luotu mitään yksinkertaista matemaattista kuvausta
evoluution kulkua kuvaamaan.
Aminohapposekvensseille evoluutiomallina käytetään yleensä jotakin pisteytysmatriisia, kuten PAM- tai JTT-matriisia. Yleensä evoluutiomallia valittaessa valinta kohdistuu juuri PAM tai JTT-matriisiin, sillä ne on muodostettu evoluutioajatus mielessä. Esimerkiksi BLOSUM-matriisisarja on koostettu BLOCKS-tietokannan
perusteella eikä ota evoluution suuntaan ja aikaskaalaa huomioon. Siten BLOSUMmatriisi kuvanneekin evolutiivisia aminohapposekvenssin muutoksia PAM- ja JTTmatriiseja huonommin.
DNA-sekvensseille evoluutiomallina käytetään yleisimmin jotakin matemaattista yhtälöä, joka ilmoittaa kuinka yleisiä muutoksia nukleotidista toiseksi ovat.
Matemaattisen mallin parametrit arvioidaan yleensä tutkittavasta aineistosta, sillä
ne vaihtelevat huomattavasti aineistosta toiseen. Suurimmassa osassa DNA-evoluutiomalleja
otetaan myös huomioon eri nukleotidien frekvenssit, joskaan ei kaikissa.
15.2
Mihin evoluutiomallia käytetään?
Edellä on korostetty sitä, että sekvenssirinnastus ja analyysi eivät varsinaisesti ole
erillisiä vaiheita, vaan niiden pitäisi muodostaa saumaton analyysijatkumo. Tämä
tarkoittaa sitä, että samaa evoluutiomallia tulisi käyttää sekä sekvenssien rinnastamiseen että varsinaisen rinnastuksen analysointiinkin. Aminohapposekvensseille
tämä onkin pisteytysmatriisin osalta mahdollista, DNA-sekvensseille ei. Tällä hetkellä kummallekaan sekvenssityypille ei voida käyttää samoja oletuksia insertioiden ja deleetioiden frekvensseistä (aukkosakot) sekä rinnastuksessa että analyysissä.
Sekvenssirinnastuksen lisäksi evoluutiomallia siis käytetään apuna varsinaisessa analyysissä. Parsimonia-analyysissä ei välttämättä käytetä evoluutiomallia
(muuta kuin sisäänrakennettua yksinkertaista oletusta), joskin sellainen on mahdollista määrittää Sankoff-matriisia käyttäen. Etäisyysmenetelmissä evoluutiomallia käytetään eri sekvenssien välisten etäisyyksien laskemiseen. Suurimman uskottavuuden menetelmät ja bayesilaiset menetelmät käyttävät evoluutiomallia muodostettavan puun uskottavuuden tai posteriori-todennäköisyyden laskemiseen.
Evoluutiomallilla on siis hyvin keskeinen sija koko analyysissä, ja lopputulos riippuukin usein tehdyistä oletuksista siis suoraan evoluutiomallista. Evoluutiomalli on mahdollista valita tyystin väärin, jolloin myös tulokset ovat voivat olla virheellisiä. Oikean evoluutiomallin valintaan ei kuitenkaan ole olemassa mitään
yleispätevää sääntöä. Seuraavassa käydään läpi erilaisia evoluutiomalleja, ja lopuk-
15
Evoluutiomallit
149
si kerrotaan, miten aineistolle sopivin evoluutiomalli pyritään valitsemaan.
15.3
Aminohapposekvensseille sopivat evoluutiomallit
Aminohapposekvensseille soveltuvat evoluutiomallit on käyty kattavasti läpi jo luvussa Pisteytysmatriisit ja aukkosakot. Yleensä valinta kohdistuu PAM- tai JTTmatriisiin. Muitakin matriiseja on käytössä, mutta ne ovat saatavilla varsin harvoissa ohjelmissa, ja ovat usein jollekin proteiinisuperperheelle tai muulle proteiinijoukolle räätälöityjä. Suurimman uskottavuuden menetelmät ja bayesilaiset menetelmät käyttävät yksinomaan jotakin pisteytysmatriisia evoluutiomallina, mutta
etäisyysmenetelmät voivat käyttää jotakin yksinkertaisempaa menetelmääkin. Katsahdetaanpa ensin aminohapposekvenssien välisten etäisyyksien laskemiseen.
Kahden sekvenssin välinen samankaltaisuus on niiden aminohappojen prosenttiosuus kaikista aminohapoista, jotka ovat molemmissa sekvensseissä tismalleen samanlaisia. Jos esimerkiksi kaksi sadan aminohapon mittaista sekvenssiä rinnastetaan, ja niissä havaitaan olevan 95 tismalleen samanlaista aminohappoa, voidaan niiden välinen samankaltaisuus laskea kaavalla:
ps = n s /n,
jossa p on sekvenssien välinen samankaltaisuus, n s on samanlaisten aminohappo määrä ja n on rinnastuksen pituus. Siis, p = 95 / 100 = 0.95. Vastaavasti
kahden sekvenssin välinen erilaisuus (etäisyys) voitaisiin laskea kaavalla
pd = n d /n,
jossa n d on kahdessa sekvenssissä olevien erilaisten aminohappojen määrä ja
n on rinnastuksen pituus. Saman tuloksen antava kaava voitaisiin kirjoittaa myös
hieman eri tavalla:
pd =
(n − n s )
.
n
Yllä kuvattua etäisyyttä p d kutsutaan toisinaan myös p-etäisyydeksi (p distance). Usein p-etäisyyttä laskettaessa aukkokohdat jätetään kokonaan huomiotta
tai käsitetään eroiksi sekvenssien välillä. Siitä, kummin aukkokohtia käsitellään,
riippuu käytetystä tietokoneohjelmasta.
Kahden sekvenssin välillä tapahtuneiden muutosten absoluuttista määrää kutsutaan Hamiltonin etäisyydeksi. Esimerkiksi sekvenssien
KIMMO
KIMMA
Hamiltonin etäisyys on 1, ja niiden p-etäisyys on 1 / 5 = 0,2. Hamiltonin etäisyys on hyvin lähellä niin sanottua edit-etäisyyttä, jossa lasketaan sekvenssien välillä tapahtuneiden muutosten määriä, aukkokohdat mukaan lukien. Siten sekvenssien
KIMMO
TI-MO
Hamiltonin etäisyys olisi 1 ja p-etäisyys 1 / 4 = 0,25, jos aukkokohdat jätetään
huomiotta, mutta edit-etäisyys olisi 2. Tuohon edit-etäisyyteen päädytään laskemalla sekvenssien välillä tapahtuneiden aminohappomuutosten (1) ja mahdollisten
insertioiden ja deleetioiden lukumäärä (1) yhteen (2).
150
Bioinformatiikan perusteet
Johtuen siitä, että ajan kuluessa samaan sekvenssikohtaan sattuu todennäköisesti useampia kuin yksi substituutio, ei pd tarkkaan ottaen mittaa sekvenssien välisen evoluution määrää kovinkaan tarkasti, erityisesti kun edetään tarpeeksi kauaksi
ajassa sekvenssien yhteisestä kantamuodosta (Kuva 15.1). Tällöin paremman arvion sekvenssien välisestä etäisyydestä antaa Poisson-korjattu etäisyys (PC):
V (d p ) = pd /[(1 − pd )n],
Jossa pd on sekvenssien välinen p-etäisyys ja n on rinnastuksen pituus.
Kuva 15.1: Ajan kuluessa samaan sekvenssikohtaan kohdistuu useampia muutoksia, jolloin havaittu ja odotettu etäisyys eroavat toisistaan sitä enemmän, mitä enemmän muutoksia sekvenssissä ylipäätään on tapahtunut. Yksinkertaisimmillaan havaittujen ja odotettujen etäisyyksien välisten erojen korjaamiseen voidaan käyttää Poisson-korjattua etäisyyttä,
V (d p ). Sama ongelma ja ratkaisu koskee niin aminohappo- kuin DNA-sekvenssejäkin.
Myös Kimuran esittämä kaava ottaa huomioon samassa sekvenssikohdassa tapahtuneet useammat muutokset:
d = −ln(1 − p − 0, 2 p 2),
jossa p on niiden aminohappojen prosenttiosuus (0>p>1), jotka eroavat kahden sekvenssin välillä. Tämä malli ei ota huomioon sitä, että eri aminohapot korvautuvat toisillaan eri taajuuksilla, joten malli ei vastaa todellisuutta kovinkaan hyvin.
15
Evoluutiomallit
151
Jos oletetaan lisäksi, että sekvenssien korvautumisnopeus eri sekvenssikohdissa vaihtelee, voidaan käyttää gamma-etäisyyttä. Se perustuu siihen, että gammajakauma on hyvin monimuotoinen jakauma, jonka muoto määräytyy alfa-parametrin
perusteella (Kuva 15.2). Pienillä alfan arvoilla gamma-jakauma muistuttaa Poissonjakaumaa (suurin osa sekvenssikohdista on sellaisia, joissa on tapahtunut vain hyvin vähän muutoksia), ja suurilla alfan arvoilla sen muoto lähenee normaalijakaumaa. Gamma-etäisyys voidaan laskea kaavalla:
dg = a[(1 − pd )−1/a − 1],
jossa a on gamma-jakauman muotoparametri, ja p d on proteiinien välinen petäisyys. Muotoparametri arvioidaan yleensä aineiston perusteella.
Kuva 15.2: Gamma-jakauma eri muotoparametreilla. Pienillä arvoilla gamma-jakauma
muistuttaa Poisson-jakaumaa (alfa=2), suurilla normaalijakaumaa (alfa=10).
Dayhoff ryhmineen kuvasi 1978 kuinka PAM-matriiseja käyttäen voidaan laskea kahden proteiinin välinen etäisyys. PAM-matriisin avulla laskettua etäisyyttä
voidaan estimoida yllä kuvatulla d g -kaavalla, kun a:n oletetaan olevan 2,25, eli:
d P AM = 2, 25[(1 − p d )−0.44 − 1],
jossa pd on kahden proteiinin välinen p-etäisyys.
Sekvenssien välisiä etäisyyksiä laskettaessa on jätettävä huomiotta sellaiset sekvenssikohdat, joissa jommassakummassa sekvenssissä on aukko. Jos näin ei menetellä ei etäisyydelle voida laskea järkevää mittaa.
15.4
DNA-sekvensseille soveltuvat evoluutiomallit
DNA:lle laaditut evoluutiomallit ovat aminohapposekvensseille laadittuja malleja
monimutkaisempia, sillä DNA-mallit ovat matemaattisia malleja, jotka pohjautuvat
oletuksiin sekvenssien evoluutiosta. DNA-sekvensseille ei juurikaan käytetä PAMmatriisien tapaisia pisteytysmatriiseja, vaikka periaatteessa sellaisia olisi mahdollista laatia. Niiden huonona puolena on kuitenkin huono yleistettävyys, ja siksipä
mallien parametrit onkin tapana arvioida analysoitavasta datasta.
152
Bioinformatiikan perusteet
Kuten aminohapposekvenssien tapauksessa, niin myös DNA-sekvenssien tapauksessa mallien käyttö eroaa eri menetelmien kesken. Etäisyysmenetelmille riittää, että sekvenssien väliset etäisyydet voidaan jollakin luotettavalla tavalla arvioida. Parsimoniamenetelmät soveltavat yleensä DNA-sekvensseille menetelmää, jossa kaikki muutokset otetaan huomioon samalla painoarvolla, siis muutos A->T saa
saman painoarvon (lasketaan puun pituutta määritettäessä yhdeksi muutokseksi)
kuin muutokset A->C ja A->G. Suurimman uskottavuuden menetelmissä ja Bayesilaissa menetelmissä evoluutiomallia sovelletaan keskeisenä osana koko menetelmää.
DNA-sekvensseille p-etäisyys lasketaan samalla tavalla kuin aminohappo-sekvensseillekin:
pd = n d /n,
jossa n d on kahdessa sekvenssissä olevien erilaisten aminohappojen määrä ja
n on rinnastuksen pituus. P-etäisyys ei kutenkaan mittaa oikeaa, sekvensseissä tapahtuneiden muutosten määrää kovinkaan tarkasti. Ongelma on DNA-sekvensseille
korostuneempi kuin aminohapposekvensseille, sillä DNA-sekvensseissä on käytössä vain neljä erilaista kirjainta. Siksipä DNA-sekvensseille yleensä käytetäänkin jotakin tarkemman etäisyysarvion antavaa mittaa.
Ennen monimutkaisempien etäisyysmittojen esittelyä on tarpeen selvittää, mitä tarkoitetaan transversioilla ja transitioilla. Jos tarkastellaan yhtä homologista
nukleotidikohtaa kahdessa eri sekvenssissä, voi nukleotidimuutos tapahtua kahdellatoista eri tavalla. Transitioiksi lasketaan muutokset kemiallisesti samanlaisten
nukleotidien välillä (A->G, G->A; C->T, T->C) ja transversioiksi muutokset, joissa
nukleotidin kemiallinen rakenne muuttuu (A->C, C->A; A->T, T->A; G->C, C->G;
G->T, T->G).
Jos kaikki muutokset olisivat yhtä todennäköisiä, olisi transitioiden (P) ja transversioiden (Q) suhde (R = P / Q) suunnilleen puoli. Käytännössä transversiot ovat
yleensä transitioita yleisempiä, ja transitio/transversio suhteen arvo vaihteleekin
normaalisti tumageeneille välillä 0,5-2,0. Mitokondrion geeneissä suhde voi olla
vieläkin suurempi, jopa 15. Jotkin evoluutiomallit ottavat huomioon transitio/transversio
suhteen, toiset taas eivät. Seuraavassa esitellään joitakin yleisimmin käytettyjä DNAevoluution malleja.
DNA-evoluutiomallit ovat useimmiten symmetrisiä, jolloin frekvenssi, jolla
esimerkiksi adeniini muuttuu sytosiiniksi oletetaan yhtä suureksi kuin frekvenssi,
jolla sytosiini muuttuu adeniiniksi. Evoluutiomallit on tullut tavaksi esittää taulukonmuodossa siten, että rivillä mainitun nukleotidin katsotaan muuttuvan sarakkeessa mainituksi nukleotidiksi näiden leikkauskohdassa sijaitsevassa solussa esitetyllä frekvenssillä (Taulukko reffig:dnamallit).
Jukes-Cantorin malli (JC69) on käytetyistä evoluutiomalleista yksinkertaisin.
Se olettaa, että muutokset mistä tähansa nukleotidista miksi tahansa muuksi nukleotidiksi ovat kaikki yhtä yleisiä (transitiot ja transversiot ovat yhtä yleisiä). Lisäksi mallissa oletetaan, että kaikki nukleotidit ovat yhtä yleisiä. Sinällään JukesCantorin malli vastaa perinteisen parsimonia-analyysin tekemään oletusta muutosfrekvensseistä. Parsimonia-menetelmän yhteydessä tällainen malli tuottaa väkisin jotakin muullatavaoin muutoksia painottavaa mallia parsimonisemman tuloksen, mutta esimerkiksi suurimman uskottavuuden menetelmiin ei päde sama. DNAsekvenssien biologiaa ajatellen Jukes-Cantorin mallin tekemät oletukset ovat jokseenkin epärealistisia, ja siksi malli ei sovellu ainakaan yleiskäyttöön.
Kimuran kahden parametrin (K2P) malli sallii transitioiden ja transversioiden esiintyä eri taajuuksilla, mutta olettaa edelleen, että kaikki nukleotidit ovat yhtä yleisiä. Felsensteinin 1981 esittämä malli (F81), jota enää harvoin missään näkee, muistuttaa Kimuran kahden parametrin mallia sikäli, että se sallii nukleotidien
esiintyä eri taajuuksilla, mutta olettaa, että kaikki muutokset ovat yhtä yleisiä.
HKY85-malli yhdistää Kimuran kahden parametrin mallin ja F81-mallin tekemät oletukset ja sallii sekä nukleotidien esiintyä eri taajuuksilla että transitio/transversio-
15
Evoluutiomallit
153
Kuva 15.3: Eräitä yleisimmin käytettyjä evoluutiomalleja DNA-sekvensseille. A. JukesCantorin malli, B. Kimuran kahden parametrin malli (Kimura 2-parameter), C. HKY-malli
(Hasegawa, Kishino, Yano -malli), D. symmetrinen yleismalli (General time reversible).
Tällaista evoluutiomallin esitystä kutsutaan myös Q-matriisiksi. Taulukoissa ga , gc , gg ,
ja gt vastaavat nukleotidien yleisyyksiä, sekä α ja β ja a , b, c, d , e ja f nukleotiden
muutostodennäköisyyksiä.
suhteen vaihdella. Se on ensimmäinen biologiselta kannalta riittävän realistinen
malli, sillä se ottaa huomioon kaksi tärkeintä DNA-sekvenssien evoluutioon vaikuttaa tekijää. Felsensteinin esittämä F84-malli vastaa käytännössä HKY85-mallia.
Symmetrinen yleismalli laajentaa HKY85-mallia siten, että se antaa mahdollisuuden määritellä kaikille symmetrisille muutoksille omat frekvenssiparametrit,
siis sen, kuinka usein ne korvautuvat jollakin tietyllä toisella nukleotidilla. Lisäksi malli antaa että transitio/transversio-suhteen vaihdella. Symmetrisestä yleismallista voidaan muodostaa mikä tahansa muista edellämainituista malleista, kunhan
frekvenssiparametrit ja nukleotidifrekvenssit määritellään sopivalla tavalla. Tämä
symmetrisen yleismallin taipuisuus kannattaa muistaa, sillä joissakin tietokoneohjelmissa ei ole vaihtoehtona muita malleja kuin yleismalli, jolloin käyttäjän tulee
itse osata määrittää mallin parametrit sopivalla tavalla, jos jotakin muuta mallia
halutaan käyttää.
LogDet-malli on DNA:lle sopivien evoluutiomallien erikoistapaus, sillä sitä
voi käyttää ainoastaan etäisyysmenetelmien yhteydessä, ei lainkaan suurimman uskottavuuden mallien kanssa. Edellämainitut mallit olettavat, että kaikissa analyysiin
valituissa sekvensseissä nukleotidien määräsuhteet ovat samanlaiset. Tämä oletus
ei kuitenkaan useinkaan pidä paikkaansa, vaan nukleotidit esiintyvät eri sekvens-
154
Bioinformatiikan perusteet
seissä eri frekvensseillä. Koska tämä voi vaikuttaa analyysin tuloksiin, voidaan
ongelman korjaamiseksi soveltaa LogDet-mallia, jos osaa korjata nukleotidien eri
määräsuhteista johtuvan virheen. Haittana LogDet-mallissa on, ettei se osaa ottaa
huomioon sitä, että eri sekvenssikohtiin voi sattua mutaatioita eri todennäköisyyksillä.
Eri mallit muodostavat hierarkkisen järjestelmän, jossa yksinkertaisin JukesCantorin malli on symmetrisen yleismallin erikoistapaus. Mallit voidaan esittää
kaavamaisesti seuraavalla tavalla (Kuva 15.4. Kuvassa Ti/Tv-suhteella tarkoitetaan
transitioiden ja transversioiden lukumääräsuhdetta.
Kuva 15.4:
Kahden DNA-sekvenssin välinen etäisyys voidaan laskea esimerkiksi JukesCantorin mallia käyttäen seuraavasti:
dx y = −(3/4)ln(1 − 4/3D),
jossa dx y on kahden sekvenssin välinen etäisyys ilmoitettuna muutosta sekvenssikohtaa kohden, D on kahden sekvenssin välillä havaittujen muutosten määrä (prosentteina), ja 3/4 ja 4/3 kuvastavat sitä, että sekvensseissä esiintyy neljää
nukleotidia, jotka voivat kukin muuttua toisikseen kolmella eri tavalla. Siten kahden sekvenssin maksimaalinen etäisyys Jukes-Cantorin mittaa käyttäen on 75%.
Esimerkiksi, jos kaksi sekvenssiä on 95% samanlaisia (5% erilaisia), saa JukesCantorin mitta arvon d x y = −3/4ln(1 − 4/30.05) = 0.0517, mutta jos sekvenssit
ovat vain 50% samanlaisia saa etäisyys arvon d x y = −3/4ln(1 − 4/30.50) = 0.824.
Mitä erilaisempia sekvenssit ovat, sitä enemmän menetelmä korjaa niien välistä
etäisyyttä: kaavassa oleva logaritmi korjaakin juuri useampien samaan sekvenssipaikkaan osuneiden muutosten aiheuttamia ongelmia.
Samaan tapaan kuin aminohapposekvenssien välisille etäisyyksille, voidaan
DNA-sekvesseillekin käyttää gamma-jakaumaan perustuvaa korjausta. Jos siis mutaatioiden määrä kahden sekvenssin välillä noudattaa esimerkiksi Jukes-Cantorin
15
Evoluutiomallit
155
mallia, ja substituutioiden määrä eri sekvenssikohdissa vaihtelee gamma-jakauman
mukaisesti, tulee sekvenssien välisen gamma-etäisyyden arvoksi
d = (3/4)a[(1 − (4/3) p) −1/a − 1],
jossa a on gamma-jakauman alfa-parametri (muotoparametri), ja p on sekvenssien välillä havaittujen muutosten prosenttiosuus.
Evoluutiomalleissa on siis erotettavissa varsinainen evoluutiomalli ja siihen
lisätty gamma-jakaumaan perustuva korjaus useiden samanpaikkaisten mutaatioiden varalle. Tämä tärkeää huomata, sillä gamma-jakaumaan perustuva korjaus ei
ole mitenkään elimellisesti sisäänrakennettuna malleihin, ja jos sitä haluaa käyttää, on se analyysiohjelmistoissa itse käännettävä päälle. Käytännössä gammajakauman muotoparametri arvioidaan aineistosta ennen analyysiä. Esimerkiksi ohjelmat PAUP ja TreePuzzle osaavat arvioida muotoparametrin, ja periaatteessa se
onnistuu Phylip-paketin ohjelmiakin käyttäen, vaikkei toiminto olekaan niissä suoraan optiona löydettävissä.
Jos sekvenssien välinen etäisyys on pieni, arviolta alle 0,25, antavat kaikki
edellä esitetyt DNA:lle soveltuvat evoluutiomallit likipitäen saman arvion sekvenssien välisistä etäisyyksistä. Sen sijaan suuremmilla etäisyyksillä mallien erot korostuvat, ja oikean mallin valinta korostuu.
Oikean mallin valintaa helpottamaan on kehitetty muun muassa ohjelma nimeltään Modeltest, joka PAUP-ohjelmaa käyttäen muodostaa puun suurimman uskottavuuden menetelmällä eri malleja ja korjauksia käyttäen, ja ilmoittaa sitten
käyttäjälle tulokset. Tämän jälkeen käyttäjän on osattava valita sopivin malli. Ohjelma ilmoittaa jokaisesta mallista sekä todennäköisyysosamäärätestin (likelihood
ratio test) tulokset että Akaiken informaatikriteerin (Akaike information criteria) arvon. Todennäköisyysosamäärätesti ottaa huomioon ainoastaan mallien antamat todennäköisyydet, mutta Akaiken kriteeri huomioi myös mallin kompleksisuuden; se
korjaa (pienentää) todennäköisyyksiä sitä enemmän, mitä monimutkaisempi evoluutiomalli on. Siten, mallin valinnassa kannattanee keskittyä tutkimaan lähinnä
Akaiken kriteerin antamia tuloksia, ja valita sovellettava malli sen perusteella.
15.5
Parsimoniamenetelmä ja evoluutiomalli
Usein kuulee väitettävän, ettei parsimoniamenetelmä käytä mitään evoluutiomallia,
ja on siten menetelmänä ylivertainen muihin verrattuna, koska ei tee mitää yksinkertaistavia oletuksia evoluutio kulusta. Perusmuodossaan parsimoniamenetelmä
kuitenkin olettaa, että kaikki muutokset ovat yhtä todennäköisiä, ja että jokainen
sekvenssirinnastuksen kohta on riippumaton sitä edeltävistä tai seuraavista kohdista.
Parsimoniamenetelmää (tai mallia), joka käyttää jotakin muuta evoluutiomallia kuin "kaikki muutokset yhtä todennäköisiä-mallia, kutsutaan painotetuksi parsimoniaksi. Painotetuksi parsimoniaksi kutsutaan myös sellaista analyysiä, jossa osa
sekvenssirinnastuksen kohdista otetaan huomioon, mutta toisia ei. Siten, myös eri
sekvenssikohdat voivat saada toisistaan eriävän painotuksen.
On toistaiseksi hieman epäselvää, tulisiko muutoksia painottaa jollakin tapaa,
ja jos ei niin miksei. Jos ollaan tarkkoja, niin jo "kaikki muutokset yhtä todennäköisiä-malli painottaa muutoksia; kaikkienhan oletetaan olevan yhtä todennäköisiä. Toinen mahdollinen painotusmalli voisi olla esimerkiksi antaa transversioille ja
transitioille erilaiset painoarvot. Voitaisiin määrittää, että puun pituutta laskettaessa
transitiot saavat kaksi kertaa suuremman painoarvon (2) kuin transversiot (1), jolloin puun pituus kasvaisi jokaista transitiota kohden kahdella, mutta vain yhdellä
jokaista transversiota kohden.
Jos koko analyysin ohjaavana tekijänä käytetään parsimoniaa, eli pyritään kaikkein pienimpään määrään muutoksia, on painottamaton parsimonia ylivertainen.
156
Bioinformatiikan perusteet
Millään painotuksella ei ole mahdollista saada aikaiseksi lyhyempää puuta kuin tasaisella painotuksella. Siten, itse menetelmä puhuu sen puolesta, että painotuksen
käytöstä tulisi luopua.
Jos painotusta kuitenkin halutaan käyttää, se voidaan toteuttaa Sankoffin parsimonialla. Tällöin määritetään jo ennen analyysiä miten erilaisia nukleotidimuutoksia halutaan analyysissä painottaa. Useimmiten painotukset esitetään taulukossa,
jossa sekä sarakkeet että rivit muodostuvat nukleotideista, ja taulukon soluissa esitetään muutosten saamat painoarvot. Mukaan voidaan ottaa myös viides sarake/rivi,
nimittäin aukot. Toisin kuin esimerkiksi suurimmaan uskottavuuden menetelmien
yhteydessä, ei parsimoniamenetelmän yhteydessä kuitenkaan ole kovin hyviä kriteereitä parhaan mallin valinnalle, ellei kriteerinä sitten käytetä mudostetun puun
pituutta. Tällöin tulokset kuitenkin käytännössä aina puhuvat tasaisen painotuksen
puolesta.
15.6
Aukkokohtien käsittely
Evoluutiomalliin kuuluvaksi voidaan laskea myös aukkokohtien käsittelyn. Aukkokohtien käsittely lähtee niiden sijoittamisesta sekvenssirinnastukseen. Useimmiten
käytetään aukkosakkomallia, jossa aukkojen avaaminen ja jo avattujen aukkojen
jatkaminen saavat erilliset sakot sekvenssirinnastuksen aikana. Kun aukot on avattu sekvenssirinnastukseen, voidaan niitä käsitellä eri tavoin analyysin aikana.
Yleisin tapa käsitellä aukkoja on jättää aukkoja sisältävät sekvenssirinnastuksen kohdata (kokonaiset sarakkeet) kokonaan pois analyysistä. Sarakkeet voidaan
joko deletoida pareittain, jolloin esimerkiksi sekvenssien väliset etäisyydet lasketaan vain niistä sarakkeista, joissa aukkoja ei esiinny. Parittaista deletointia käytetään analyysissä vain harvoin, sillä se voi vaikuttaa esimerkiksi etäisyyksien laskemisen haitallisesti, koska käytetty aineisto ei kaikkien sekvenssien osalta ole sama. Aukkoja sisältävät sarakkeet voidaan myös deletoida kerralla kaikista sekvensseistä, jolloin sarake poistetaan analyysistä kokonaan, jos yhdessäkin sekvenssissä
esiintyy siinä aukko. Aukkojen poistaminen analyysistä, joko pareittain tai kaikista sekvensseistä yhtäaikaa aiheuttaa usein sen, että suuri osa aineistosta heitetään
hukkaan.
Siksipä monesti aukkokohtia käsitelläänkin analyysissä viidentenä nukleotidina. Tällöin jokaiselle muutokselle nukleotidista aukoksi on määrätty oma todennäköisyytensä. Menetelmässä on kuitenkin se haitta, että aukot eivät välttämättä
koostu yksittäisistä yhden nukleotidin mittaisista aukoista, vaan evoluution kuluessa rinnastukseen aukon aiheuttava deleetio on voinut tapahtua kerralla. Siis, esimerkiksi kymmenen nukleotidin kokoinen aukko on voinut syntyä kerralla eikä
kymmenen pienemmän deleetion tuloksena. Jos tällaisessa tapauksessa jokaiselle
yhden nukleotidin muutokselle annetaan tietty muutoskulu (evoluutiomallissa), voi
tuloksena olla epärealistisen suuri muutoskulu koko aukolle.
Aukot voidaan myös koodata analyysissä puuttuviksi havainnoiksi, mutta tämä on väärä tapa analysoida aineistoa. Esimerkiksi DNA-sekvenssien tapauksessa puuttuvat havainnot käsitellään N-nukleotideina, siis siten, että ko. sekvenssikohdassa saattaisi esiintyä mikä tahansa nukleotidi. Analyysissä N:n paikalle sitten sijoitettaisiin yksi kerrallaan kukin nukleotideista, ja tuloksiin parhaiten sopiva
nukleotidi valittaisiin siihen analyysin ajaksi. Jos siis esimerkiksi adeniinin sijoittaminen puuttuvan havainnoin paikalle muodostaisi lyhyimmän parsimoniapuun,
oletettaisiin, että puuttuva havainto oikeasti olisi adeniini.
Eräs suhteellisen harvoin käytetty tapa käyttää aukkojen antamaa tietoa lajien
suhteista hyödyksi on koodata aukot erillisiksi ominaisuuksiksi, ja analysoida ne
siten rinnastuksen ohella (Kawakita, 2003). Tällöin aukot useimmiten deletoidaan
analyysistä kokonaan, mutta niiden antama informaatio on mukana analyysissä binaarisissa ominaisuuksissa. Jos esimerkiksi ihmisellä ja simpanssilla on sekvensseissä aukko samalla kohtaa, mutta gorillalta ja orangilta aukko puuttuu, tukee au-
15
Evoluutiomallit
157
kon esiintyminen rinnastuksessa ihmisen ja simpanssin sijoittamista puussa yhteen.
Analyysissä aukon esiintyminen voidaan sitten koodata esimerkiksi omaisuuteen
aukko, joka saa siten lajeille arvot 1100 (ihminen, simpanssi, gorilla, oranki). Koska aukkokohdat todennäköisesti ovat oikeita evolutiivisia tapahtumia, varsinkin jos
ne esiintyvät hyvin konservoituneilla alueilla, joiden rinnastuksessa ei ole epäelvyyksiä, on perusteltua käyttää niiden sisältämää informaatiota analyysissä hyödyksi.
Kaikki aukkojen käsittelyyn käytetyt yllä esitellyt menetelmät ovat epätyydyttäviä. Aukkojen poistaminen analyysistä aiheuttaa usein mittavan aineiston pienenemisen, joskin jos aukkoja on rinnastuksessa vain vähän, ei ongelma ole suuri.
Aukkojen käsitteleminen viidentenä nukleotidina on biologisesti arveluttavaa, eikä
juuri perusteltavissa sekvenssirinnastuksen menetelmälliseltä kannaltakaan. Aukkojen kohteleminen puuttuvina havaintoina on epäilyttävää, ja vaikka aukkojen sisältämä informaatio lajien sukulaisuussuhteista koodattaisiin binaarisiin muuttujiinkin, on aineiston radikaali pieneneminen silti haittana. Ei siis ole olemassa yhtä
oikeaa tai ehdottomasti parasta menetelmää käsitellä aukkokohtia analyysissä. Lähinnä on pyrittävä löytämään tasapaino aineiston hukan ja analyysin tulevan epätarkkuuden välillä.
Suuntaaviivana voidaan sanoa, että aukkokohtien deletoiminen koko rinnastuksesta kerrallaan on parempi menettelytapa kuin parittainen deletoiminen. Kuitenkin, jos aukkokohtia on vään voidaan parittaistakin deletointia käyttää. Deletoitujen aukkokohtien sisältämä informaatio pitäisi kuitenkin pyrkiä lisäämään analyysiin vaikkapa binaarisina muuttujina.
158
Bioinformatiikan perusteet
16 Etäisyysmenetelmät
16.1
Mitä etäisyysmenetelmät ovat
Etäisyysmenetelmät ovat nykyisistä evolutiivisten puiden muodostamiseen käytetyistä menetelmistä kaikkein vanhimpia. Alunperin etäisyysmenetelminä käytettiin tilastolliseen tiedonlouhintaan kehitettyjä hierarkkisen ryhmittelyanalyysin menetelmiä, joiden tarkoituksena oli luoda feneettinen puu (fenogrammi) eri lajien
samankaltaisuusasteiden perusteella (Sokal ja Mitchener, 1958; Sneath ja Sokal
1973).
Kaikki etäisyysmenetelmät perustuvat sille idealla, että sekvenssirinnastuksen
perusteella lasketaan kaikkien mahdollisten sekvenssiparien väliset etäisyydet ("parittaiset etäisyydet") jotakin evoluutiomallia käyttäen. Tulokset taulukoidaan, ja niiden perusteella muodostetaan puu haluttua menetelmää käyttäen. Siten etäisyysmenetelmillä tarkoitetaan puun koostamismenetelmää. Etäisyysmenetelmät voidaan
jakaa kolmeen ryhmään, ultrametriset puut, additiiviset puut ja pienimmän neliösumman puut.
16.2
Ultrametriset puut
Myöhemmin samoja menetelmiä käytettiin ultrametristen puiden luomiseen. Ultrametrisen puun ominaisuutena on, etä mille tahansa puussa olevalle taksonille, A, B
ja C, pätee sääntö:
d AC = max(d AB , d BC ),
jossa d AC , d AB ja d BC ovat kahden lajin välisiä etäisyyksiä. Lajien tai niitä
edustavien sekvenssien väliset etäisyydet saadaan laskettua jotakin evoluutiomallia
käyttäen, ja etäisyyksien laskeminen on esitetty edellisessä luvussa. Ultrametrisyyden vaatimus täyttyy, kun kaksi etäisyyttä ovat yhtä suuria ja vähintään yhtä suuria
kuin kolmas etäisyys.
Ultrametriset puut ovat juurrettuja puita, joissa jokainen laji (tai siitä määritetty sekvenssi) on yhtä kaukana juuresta. Tämä on tietenkin mahdollista vain olettaen, että evoluutio on edennyt kellomaisesti. Käsite tunnetaan myös molekyylikellon nimellä, ja tarkoittaa toisin sanoen sitä, jokaisessa lajissa oletetaan tapahtuneet
niiden yhteisestä kantamuodosta eroamisen jälkeen yhtä suuri määrä mutaatioita.
16.2.1 UPGMA ja WPGMA
Ultrametrisiä puita voidaan muodostaa esimerkiksi UPGMA (unweighted-pair group
method with arithmetic mean)- ja WPGMA (weighted-pair group method with
arithmetic mean) -menetelmillä. Jos analysoitava aineisto on todella ultrametrista, antavat UPGMA ja WPGMA saman tuloksen. Jos aineisto ei ole ultrametrista,
voivat menetelmien antamat tulokset erota toisistaan.
UPGMA- ja WPGMA-mnetelmiä käytettiin aiemmin paljon evolutiivisten puiden muodostamiseen sekvenssidataa käyttäen, mutta nykyisin menetelmät ovat aut-
16
Etäisyysmenetelmät
159
tamattomasti vanhentuneita. Ne olettavat sekvenssien evolvoituneen molekyylikelloa noudattaen, mikä on käytännössä osoittautunut paikkansapitämättömäksi oletukseksi. Jos aineisto ei noudata analyysimenetemän tekemiä oletuksia, ovat sen
antamat tulokset väistämättä ainakin jossakin määrin vääriä. Niinpä UPGMA- ja
WPGMA-menetelmät antavatkin usein vääriä tuloksia. Ei-ultrametriset etäisyydet
on periaatteessa mahdollista muuttaa ultrametrisiksi kalibroimalla ne ulkoryhmän
sekvenssiä vastaan, mutta tälle on nykyisin enää vähän tarvetta, sillä ongelman ratkaisemiseksi on parempiakin menetelmiä, esimerkiksi minimievoluutio ja neighborjoining.
16.3
Additiiviset puut
Koska tavanomaisissa ryhmittelyanalyysimenetelmissä esiintyy ongelmia, muun
muassa molekyylikello-oletuksen vuoksi, kehitettiin niin sanottuja additiivisia menetelmiä, jotka muodostavat additiivisen puun. Additiivinen puu on sellainen, jossa
oksien pituudet noudattavat neljän pisteen metriikkaa: mille tahansa neljälle lajille
A, B, C ja D additiivisuus määritellään
d AB + dC D = max(d AC + d B D , d AD + d BC ),
jossa dx y määrittelevät kahden lajin välisen etäisyyden. Vain additiiviset etäisyydet voidaan sijoittaa puuhun täydellisesti siten, että evoluutiomallin antama kahden sekvenssin välinen etäisyys vastaan puun oksien yhteenlaskettuja pituuksia.
Tällöin muodostuu juurtamaton puu.
Jos lajien väliset etäisyydet ovat ultrametrisiä, ovat ultrametrinen puu ja additiivinen puu yhtäpitäviä jos additiivinen puu juurretaan samasta kohdasta kuin
ultrametrinen puukin. Jos sekvenssien väliset etäisyydet eivät ole ultrametrisiä, sopii additiivinen puu miltei aina ultrametrista paremmin aineistoon. Koska analysoitavat sekvenssit ovat yleensä suhteellisen lyhyitä, saattaa niihin sattuman vaikutuksesta kertyä mutaatioita siten, että sekvenssien väliset etäisyydet eivät olekaan
additiivisia. Esimerkiksi, jonkin lajin sekvenssiin saattaa sattumalta sattua enemmän mutaatioita kuin oletettaisiin, mikä voi rikkoa additiivisuus oletuksen. Tällöin
muodostettu puukin voi olla väärä.
16.3.1 Minimievoluutiomenetelmä
Minimievoluutiomenetelmää ei tule sekoittaa parsimoniamenetelmään, josta toisinaan puhutaan myös minimievoluutiomenetelmänä. Tässä kirjassa minievoluutiomenetelmällä käsitetään kuitenkin vain seuraavassa esiteltävää etäisyysmenetelmää. Menetelminä parsimonia ja minievoluutio ovat hyvin erilaisia, vaikka niiden
taustalla oleva idea onkin varsin samanlainen. Minievoluutiomenetelmässä tarkoituksena on muodostaa sellainen puu, jonka oksien (vi) yhteenlaskettu pituus (S) on
mahdollisimman lyhyt. Toisin sanoen,
S=
2n−3
vi ,
i=1
jossa n on aineistossa (puussa) olevien lajien määrä.
Jokaiselle mahdolliselle puun topologialle (muodolle) voidaan laskea oksien
pituudet arvioimalla kahden sekvenssin väliset etäisyydet jotakin evoluutiomallia
käyttäen. Käymällä kaikki mahdolliset puut läpi on periaatteessa mahdollista löytää puu, jonka oksien yhteenlaskettu pituu on lyhin. Tämä periaate vertautuu parsimoniamenetelmään, jossa oksien pituuksinä käytetään eri sekvenssien välillä tapahtuneiden substituutioiden absoluuttista määrää.
160
Bioinformatiikan perusteet
Perinteisesti etäisyysmenetelmät ovat käyneet läpi kaikki mahdolliset puuvaihtoehdot, mutta kun tutkittavien lajien määrä paisuu riittävän suureksi, ei kaikkia
mahdollisia puita voida enää käydä läpi. Tällöin voidaan siirtyä käyttämään jotakin
puun uudelleenjärjestelymenetelmää (ks. vastaava luku), jolla voidaan pyrkiä heuristisesti löytämään paras puu. Heuristiset menetelmät eivät kuitenkaan takaa, että
paras puu löytyy, mutta käytännössä se kyllä pääsevät aika lähelle lyhyintä mahdollista puuta.
16.3.2 Neighbor-joining
Neighbor-joining (NJ) on heuristinen menetelmä, joka pyrkii estimoimaan minimievoluutiomenetelmää. Se ei siis välttämättä anna samaa tulosta kuin varsinainen
minievoluutiomenetelmä. NJ on menetelmällisesti hyvin lähellä aiemmin kuvatuja
ryhmittelyanalyysimenetelmiä, mutta se ei oleta sekvenssievoluution olevan kellomaista.
NJ on nykyisin käytetyin etäisyysmenetelmä, osittain siitä syystä, että se antaa suhteellisen hyviä tuloksia ja varsin nopeasti. NJ eroaa minimievoluutiomenetelmästä siinä, että kun minimievoluutiomenetelmä pyrkii minimoimaan koko
puun oksien yhteenlasketun pituuden, minimoi NJ kerrallaan vain kahta puun samaan haaraan kuuluvaa sekvenssiä erottavien oksien yhteenlasketun pituuden. Koska puun pituutta ei edes yritetä minimoida globaalisti, voivat NJ:n ja minimievoluutiomenetelmän tuottamat puut erota toisistaan, erityisesti jos sekvenssien väliset
(parittaiset) etäisyydet eivät ole additiivisia.
Uusimmat NJ-menetelmän muunnokset BIONJ ja weighbor (saatavilla saman
nimisinä ohjelmina) olettavat, että suurien parittaisten etäisyyksien keskihajonta
(etäisyyksille voidaan laskea niiden keskihajonta) on suurempaa kuin lyhyiden parittaisten etäisyyksien. Tämä menettely näyttää johtavan perinteistä NJ-menetelmää
suurempaa tarkkuuteen, erityisesti jos mukana on muista sekvensseistä kovasti eroavia sekvenssejä.
16.4
Pienimmän neliösumman menetelmät
Pienimmän neliösumman menetelmät perustuvat sille periaatteelle, että tietylle puun
topologialle voidaan laskea sen oksien pituuksien ero sekvenssien ja tietyn evoluutiomallin perusteella lasketuista oksien pituuksien arvioista. Useimmiten nimittöin
sattuu, että puun oksien yhteenlasketu pituus eroaa sekvenssien perusteella arvioiduista oksien pituuksista. Tänä ero (patristic distance) johtuu siitä, että oksien arvioidut pituudet aina hieman eroavat täydellisestä additiivisuudesta.
Siinä missä minievoluutiomenetelmä pyrkii löytämään puun, jonak oksien yhteenlaskettu pituus on pienin mahdollinen, pyrkivät pienimmän neliösumman menetelmät löytämään puun, jonka oksien pituuksien ero sekvenssien perusteella arvioiduista etäisyyksistä on pienin. Pienimmän neliösumman menetelmät siis minimoivat hyvyysmittaa F:
F=
wi j (Di j − di j )2 ,
ij
jossa Di j on sekvenssien perusteella arvioitu oksan pituus, d i j on sekvenssejä
erottavan oksan pituus puussa ja w i j riippuu käytetystä menetelmästä. Esimerkiksi Fitch-Margoliash-menetelmässä w i j = 1/Di2j , ja Cavalli-Sforzan ja Edwardsin
menetelmissä wi j = 1.
Kun tutkittavien lajien lukumäärä nousee yli kymmeneen, ei kaikkia mahdollisia puita enää voida käydä läpi parhaan mahdollisen löytämiseksi, vaan on turvauduttava heuristiseen puun uudelleenjärjestelymenetelmiin.
16
Etäisyysmenetelmät
16.5
161
Molekyylisystematiikka ja etäisyysmenetelmät
Historiallisesti etäisyysmenetelmien merkitys molekyylisystematiikassa on ollut
hyvin merkittävä, mutta menetelmien ja tietokoneiden parannuttua ja nopeuduttua
ei etäisyysmenetelmiä enää suosita samassa mittakaavassa. Eräs etäisyysmenetelmien keskeisimmistä ongelmista on, että ne tiivistävät suuren määrän informaatiota
yhteen ainoaan lukuarvoon, kahden sekvenssin väliseen etäisyysarvioon. Siten etäisyysmenetelmät hukkaavat suuren määrän informaatiota, jota voitaisiin analyysissä
käyttää hyödyksi.
Etäisyysmenetelmien ei myöskään voida katsoa välttämättä muodostavan fylogeneettistä puuta, siis sellaista, joka kuvastaisi lajien välisiä evolutionäärisiä suhteita. Etäisyysmenetelmät eivät nimittäin millään tapaa erottele homologisia ja homoplasisia tuntomerkkejä toisistaan, vaan menetelmät perustuvat yksinomaan sekvenssien samankaltaisuudelle. Nykyisin etäisyysmenetelmien sijaan käytetään mieluummin parsimonia- ja suurimman uskottavuuden menetelmiä, sillä ne näyttävät
yleensä saavuttavan etäisyysmenetelmiä parempia tuloksia samoilla sekvenssijoukoilla.
Toisinaan myös etäisyysmenetelmien antamien oksien tai puiden pituuksien
tulkinta voi olla hankalaa. Esimerkiksi puu voi olla pituudeltaan 100,5 nukleotidisubstituutiota pitkä. Ongelma on siinä, että nukleotidi joko on muuttunut tai se ei
ole muuttunut, joten 0,5:n muutoksen tulkinta on hieman hankalaa. Puolikas substituutio voidaan kuitenkin selittää esimerkiksi siten, että puun pituus kuvastaa odotettujen muutosten määrää. Siten puun oikea pituus voisi olla esimerkiksi joko 100
tai 101, jolloin 100,5 on puun pituuden odotusarvo, ja siten järkevästi tulkittavissa.
Negatiiviset oksien pituudet ovat kuitenkin hankalampi ongelma, ja niitä esiintyy tuloksissa suhteellisen usein. Negatiivisille oksien pituuksilla ei ole biologisessa mielessä järkevää tulkintaa. Periaatteessa niiden käsittelyyn on muutamia vaihtoehtoja. Luonnollisesti negatiivissista oksanpituuksista voidaan olla välitämättä,
mutta tämä tuskin on tyydyttävä ratkaisu. Negatiiviset oksanpituudet voidaan asettaa nollaksi, ja niiden pituus voidaan siirtää puussa toiseen oksaan tai negatiivisista
pituuksista voidaan ottaa niiden itseisarvo, ja käyttää sitä oksanpituuden arviona.
Jokatapauksessa oksien pituuksien arvioihin tule mitä hyvänsä negatiivisten arvojen kohtelumenetelmää käyttäen jonkin verran virhettä.
Etäisyysmenetelmin muodostetun puun oksat voivat olla lyhyempiä kuin varsinaisen aineiston perusteella havaitut sekvenssien väliset etäisyydet. Siten myös
koko puu voi olla lyhyempi kuin aineistossa havaittujen muutosten yhteenlaskettu
kokonaismäärä. Tämä on biologisesti ajatellen järjetöntä, ja johtuu etäisyysmenetelmien laskennallisista välivaiheista.
Etäisyysmenetelmien käyttöä puolustava seikka on se, etteivät tavanomaiset
evoluutiomallit osaa ottaa huomioon että analyysiin valituissa sekvensseissä nukleotidien määräsuhteet voivat olla erilaiset. Jos määräsuhteet eroavat toisistaan eri sekvensseissä, voidaan ongelmaa korjata käyttämällä LogDet-evoluutiomallia, jonka
käyttö onnistuu vain etäisyysmenetelmien yhteydessä.
16.6
Etäisyyspuun luotettavuuden arviointi
Etäisyysmenetelmin muodostetun puun luotettavuutta voidaan arvioida samoin menetelmin kuin muilla menetelmillä muodostettujen puidenkin. Suosittuja menetelmiä ovat bootstrapping ja jackknifing, joita molempia käsitellään jäljempänä luotettavuuden arviointiin tarkoitettuje menetelmiä esittelevässä luvussa.
162
Bioinformatiikan perusteet
16.7
Molekyylikello-oletuksen testaaminen etäisyysmenetelmin
Olemme jo lyhyesti sivunneet molekyylikello-oletusta, ja miten se vaikuttaa etäisyysmenetelmien sovellettavuuteen. Molekyylikello-oletuksen pitävyyttä voidaan
formaalisti testata monin tavoin, joista seuraavassa esitetään menetrelmä, joka perustuu pienimmän neliösumman menetelmien antamien tulosten vertailuun. Ennen
varsinaista tilastollista testaamista muodostetaan puu pienimmän neliösumman menetelmää soveltaen kahdella eri tavalla: olettaen, että sekvenssit evolvoituvat kellomaisesti (kaikki lajit yhtä kaukana juuresta), ja siten että sekvenssit eivät evolvoidu
kellomaisesti (lajit voivat olla eri pituuksien päässä juuresta). Esimerkiksi Phylippaketin ohjelmat Fitch (ei kello-oletusta) ja Kitsch (kello-oletus) tekevät juuri tämän. Ohjelmien antamista tuloksista merkitään ylös neliösummat, joita tässä merkitään SS f itch ja SSkitsch .
Seuraavassa esimerkissä esitetään, kuinka testisuureen arvo lasketaan eräille
neliösummien arvoille. Oletetaan, että SS f itch = 0,26008 ja SSkitsch = 0,938. Testisuureen osoittaja lasketaan kaavalla
SSkitsch − SS f itch
= 0, 67792,
n−2
jossa n on analysoitavien sekvenssien määrä.
Testisuureen nimittäjä lasketaan kaavalla
SS f itch
n(n−1)
2
− (2n − 3)
= 0, 04335,
jossa n on jälleen analysoitavien sekvenssien määrä.
Nyt varsinainen testisuure lasketaan osoittajan ja nimittäjän osamääränä: F =
0,67792 / 0,04335 = 15,64. Testisuureen F antaman tuloksen tulkitsemiseksi lasketaan vielä F-jakauman vapausasteiden lukumäärä seuraavasti (n on sekvenssien
lukumäärä).
d f1 = n − 2
d f2 =
n(n − 1)
− (2n − 3)
2
Esimerkissämme analysoimme kuusi sekvenssiä, joten d f 1 = 4, ja d f 2 = 6. Tämän jälkeen F-testisuureen arvoa verrataan F-jakauman taulukoituihin arvoihin, ja
jos testisuureen arvo on taulukoitua arvoa suurempi, hylätään kello-oletus. Nyt laskemamme F-testisuureen arvo on taulukoitua arvoa (F = 4.53, p = 0,05) selvästi
suurempi, joten näyttää siltä, etteivät analysoidut sekvenssit ole evolvoituneet kellomaisesti.
16.8
Laskennalliset esimerkit
Seuraavassa esitetään laskennallinen esimerkki sekä UPGMA-menetelmästä. Sekvenssijoukon paritteiset etäisyydet lasketaan ensin Jukes-Cantorin-evoluutiomallia
käyttäen. Parittaisten etäisyyksien perusteella muodostetaan sitten puu UPGMAmenetelmää käyttäen.
16.8.1 Parittaisten etäisyyksien laskeminen
Seuraavan sekvenssirinnastuksen pohjalta
16
Etäisyysmenetelmät
ihminen
ACGTACGTCC
simpanssi
ACCTACGTCC
gorilla
ACCACCGTCC
oranki
ACCCCCCTCC
makaki
CCCCCCCCCC
163
voidaan sekvenssien väliset parittaiset etäisyydet laskea. Seuraavassa taulukossa on esitettynä kuinka moni nukleotidi kahden tarkastellun sekvenssin välillä
eroaa.
ihminen
simpanssi
gorilla
oranki
makaki
ihminen
1
3
4
6
simpanssi
gorilla
oranki
makaki
2
3
5
2
4
2
-
Erovaisuuksien määrä voidaan ilmaista myös prosentteina koko sekvenssien
pituudesta:
ihminen
simpanssi
gorilla
oranki
makaki
ihminen
0,1
0,3
0,4
0,6
simpanssi
gorilla
oranki
makaki
0,2
0,3
0,5
0,2
0,4
0,2
-
Jo tätä voidaan pitää sekvenssien välisenä etäisyytenä, mutta se on vain karkea
arvio oikeasta etäisyydestä. Tarkempi etäisyys voidaan arvioida Jukes-Cantorinevoluutiomallia käyttäen. Tällöin etäisyysarvioille (d) saadaan seuraavan taulukon
mukaiset arviot. Huomaa, etä arvioita on korjattu havaittuihin arvoihin nähden sitä
enemmän, mitä enemmän sekvenssit eroavat. Näitä etäisyysarvioita käyttäen piirretään seuraavaksi puut.
Ihminen
Simpanssi
Gorilla
Oranki
Makaki
ihminen
0,107
0,383
0,571
1,207
simpanssi
gorilla
oranki
makaki
0,232
0,383
0,823
0,232
0,571
0,232
-
16.8.2 Puun muodostaminen UPGMA-menetelmällä
Aluksi etsitään parittaisten etäisyyksien joukosta kaikkein pienin arvio, joka tässä
tapauksessa on ihmisen ja simpanssin välillä.
Nyt muodostettavassa puussa yhdistetään ensimmäiseksi ihminen ja simpanssi. Puuhun piirrettävien oksien pituudet saadaan jakamalla lajien välinen etäisyys
kahdella (0,107 / 2 = 0,0537).
164
Bioinformatiikan perusteet
Ihminen
Simpanssi
Gorilla
Oranki
Makaki
ihminen
0,107
0,383
0,571
1,207
simpanssi
gorilla
oranki
makaki
0,232
0,383
0,823
0,232
0,571
0,232
-
Tämän jälkeen päivitetään etäisyystaulukko siten, että nyt muodostetun ryhmän ja muiden lajien väliset etäisyydet lasketaan edellisen (nyt alkuperäisen) taulukon etäisyysarvioiden keskiarvoina. Esimerkiksi, ihmisen ja simpanssin muodostaman ryhmän etäisyys gorillaan lasketaan seuraavasti:
d(ihminen,simpanssi)gorilla = (d(ihminen,gorilla) +d(simpanssi,gorilla) )/2 = (0, 383+0, 232)/2 = 0, 3075
Kun vastaavalla tavalla on laskettu kaikkien lajien etäisyydet muodostetusta
ryhmästä, saadaan uusi taulukko. Tästä uudesta taulukosta etsitään nyt uusi lyhyin
etäisyys. Taulukossa voidaan edetä joko ylävasemmalta alaoikealle tai päinvastoin.
Tällä on vaikutusta silloin, kun taulukosta löytyy kaksi tismalleen yhtä suurta etäisyyttä, ja eri tavoin edetessä voivat tuloksetkin olla hieman erilaiset.
Esimerkissämme etenemissuunta vaikuttaisin tuloksiin. Etenemme taulukossa
ylävasemmalta alaoikealle, joten seuraavaksi yhdistetään gorilla ja oranki.
ihminen-simpanssi
gorilla
oranki
makaki
ihminen-simpanssi
0,3075
0,477
1,015
gorilla
oranki
makaki
0,232
0,571
0,232
-
Puuhun tulevien gorillaan ja orankiin vievien haarojen pituudet saadaan taas
16
Etäisyysmenetelmät
165
puolittamalla lajien välinen etäisyysarvio (0,232 / 2 = 0,116). Muodostuva puu
näyttää tämän jälkeen seuraavalta:
Päivitetty etäisyystaulukko näyttää gorillan ja orangin yhdistämisen jälkeen
seuraavalta, joten seuraavaksi puussa yhdistetään ihminen-simpanssi ja gorilla-oranki.
ihminen-simpanssi
gorilla-oranki
Makaki
ihminen-simpanssi
0,3923
1,015
gorilla-oranki
makaki
0,4015
-
Kutsutaan ihminen-simpanssi- ja gorilla-oranki -ryhmiä yhdistävää puun oksaa U:ksi. Siten etäisyys U-(gorilla-oranki) = 0,3923 / 2 = 0,1962. Vastaavasti etäi-
166
Bioinformatiikan perusteet
syys U-(ihminen-simpanssi) on 0,1962. Etäisyyksien perusteella muodostuva puu
näyttää seuraavalta:
Viimeinen päivitetty taulukko näyttää seuraavalta, ja viime vaiheessa puuhun
yhdistetään makaki.
ihminen-simpanssi-gorilla-oranki
makaki
ihminen-simpanssi-gorilla-oranki
0,7083
makaki
-
Valmis UPGMA-puu on siten muodoltaan ja oksan pituuksiltaan seuraavanlainen:
16
Etäisyysmenetelmät
167
WPGMA eroaa ylläesitetystä UPGMA:sta vain siten, että päivitettäessä taulukkoa, eri ryhmille annetaan niiden sisältämien lajien mukainen painoarvo. Toisin
sanoen, jos UPGMA:ssa kahden ryhmän (A:ssa 2 ja B:ssä 5 lajia) etäisyys lasketaan (a + b) / 2, niin WPGMA:ssa tuo keskiarvo laskettaisiin (a*2 + b*5) / (2
+ 5). Kaavoissa a ja b vastaavat eri ryhmien etäisyyksiä. Käyttäen yllä esitettyä
esimerkkiä ihminen-simpanssi-ryhmän ja gorillan välisen etäisyyden laskemisesta,
laskettaisiin sama etäisyys WPGMA:ta käytten seuraavasti:
d(ihminen,simpanssi)gorilla = (2 ∗ d(ihminen,gorilla) + d(simpanssi,gorilla) )/2
= (2 ∗ 0, 107 + 0, 232)/3 = 0.1487
Etäisyys on tässä tapauksessa pienempi kuin UPGMA:aa käyttäen. Jos etäisyydet olisivat täysin ultrametrisiä, olisivat UPGMA:n ja WPGMA:n antamat tulokset täysin yhdenpitäviä. Koska ne eivät tässä ole, voidaan päätellä, ettei aineisto
ole ultrametrinen, ainakaan kaikkien sekvenssien osalta.
168
Bioinformatiikan perusteet
17 Parsimoniamenetelmä
17.1
Mikä on parsimoniamenetelmä?
Parsimoniamenetelmä on pysytellyt suosituimpana systematiikan ja molekyylisystematiikan menetelmänä aina 1970-luvun alusta viime vuosiin saakka. Parsimoniamenetelmä perustuu Occamin partaveitseen: aja pois kaikki mitä et tarvitse. Siten
parsimoniamenetelmän ideana onkin etsiä sellainen puu tai useampia sellaisia puita, joilla aineisto (sekvenssirinnastus) voidaan selittää vähimmin muutoksin. Sekvenssirinnastusten tapauksessa parsimonisin puu (lyhyin tai paras puu) olisi siis
sellainen, joka selittäisi havaitun rinnastuksen vähimmin substituutioin.
Usein parsimoniamenetelmän käyttöä perustellaan filosofisin perustein, esimerkiksi juuri Occamin partaveitsellä. Myös Karl Popperin töiden on uskottu osoittavan, että parsimoniamenetelmä on ainut menetelmä, joka soveltuu käytettäväksi tieteellisessä hypoteettis-deduktiivisessä työskentelyssä. Parsimoniamenetelmän
ja yksinkertaisuusoletuksen välinen yhteys ei kuitenkaan ole kovin yksioikoinen.
Tuffley ja Steel nimittäin osoittivat, että parsimonia ja suurimman uskottavuuden
kriteeri ovat yhtäpitäviä, jos molemmissa käytetään äärettömän moniparametrista
evoluutiomallia, jossa jokaiselle sekvenssirinnastuksen sarakkeelle ("ominaisuus")
on määrätty oma parametrin muodostettavan puu jokaisessa haarassa.
On oikeastaan väärin puhua parsimoniamenetelmästä, sillä parsimoniamenetelmä sisältää monia erilaisia menetelmiä, joita kaikkia yhdistää sama päämäärä,
pyrkimys selittää aineisto pienimmällä mahdollisella muutosten määrällä. Siten
parsimoniamenetelmä luetaan optimaalisuuskriteeriä käyttäviin menetelmiin. Menetelmällähän on kriteeri, jonka avulla erilaisia puita voidaan arvottaa ja vertailla,
ja jonka arvo pyritään minimoimaan.
Parsimoniamenetelmästä esiintyy monia muunnelmia, jotka käyttävät hieman
erilaista tapaa optimoida (optimaalisuuskriteeriä) muutokset tiettyyn puun topologiaan. Tässä yhteydessä optimointitapa voidaan tulkita myös evoluutiomallina, sillä
esimerkiksi Fitch-parsimonia olettaa, että kaikki muutokset ovat yhtä todennäköisiä, ja että palautuvat muutokset sallitaan. Fitch-parsimoniaa käytetäänkin usein sekvenssidatalle, joka sopii luonteeltaan Fitch-parsimonian tekemiin oletuksiin. Muita vastaavankaltaisia menetelmiä ovat esimerkiksi Wagner-, Dollo- ja Camin-Sokalparsimonia. On myös olemassa generalisoitu optimointimenetelmä, joka tunnetaan
Sankoffin algoritmina. Siinä muutokset ominaisuuden tasosta toiseksi voivat saada mielivaltaisen, ennaltapäätetyn painoarvon, ja siten Sankoffin parsimoniamenetelmässä voitaisiin hyvin käyttää esimerkiksi PAM-matriiseja proteiinisekvenssien
ollessa kyseessä.
17.2
Parsimoniapuun muodostamisen periaate
Parsimoniapuun muodostamiseksi tarvitaan ominaisuusmatriisi, esimerkiksi usean
sekvenssin rinnastus, jossa jokainen rivi vastaa yhtä lajia, ja jokainen sarake vastaa yhtä ominaisuutta. Yhdellä ominaisuudella voi olla useita tasoja. Esimerkkinä
ominaisuusmatriisista voisi toimia esimerkiksi seuraava rinnastus. Rinnastuksessa
17
Parsimoniamenetelmä
169
eri sarakkeet on numeroitu niistä puhumisen helpottamiseksi.
0123456789
ihminen
ACGTACGTCC
simpanssi
ACCTACGTCC
gorilla
ACCACCGTCC
oranki
ACCCCCCTCC
makaki
CCCCCCCCCC
Esimerkiksi sarake 0 on yksi ominaisuus, jolla on kaksi tasoa tai ilmenemismuotoa, A ja C. Parsimoniamenetelmää on perinteisesti sovellettu erityisesti
morfologisten tuntomerkkien analysointiin, jolloin ominaisuudet ovat usein olleet
vain kaksitasoisia: joko eliöllä on mainittu ominaisuus tai sillä ei ole mainittua
ominaisuutta. Periaatteessa mikä tahansa monitasoinen ominaisuus voidaan koodat
useammalla kaksitasoisella ominaisuudella, mutta ei ole täysin selvää onko kannattavampaa analysoida yksi monitasoinen kuin useampia kaksitasoisia ominaisuuksia.
Parsimoniamenetelmä käyttää analyysissä periaatteessa vain niin sanottuja informatiivisia ominaisuuksia. Informatiivisia ovat vain sellaiset ominaisuudet, joissa
vähintään kahdella lajilla on tismalleen sama ominaisuuden taso. Esimerkkirinnastuksemme tapauksessa siis ominaisuudet 0-2, 5 ja 7-9 eivät ole informatiivisia ja ne
voidaan jättää kokonaan pois analyysistä.
Kladogrammin muodostamiseen ominaisuusmatriisin perusteella on olemassa
kaksi vaihtoehtoista tapaa, Hennigin argumentaatio ja Wagnerin menetelmä. Kun
puu on muodostettu jompaa kumpaa tapaa käyttäen, lasketaan sen pituus jotakin
optimaalisuuskriteeriä käyttäen. Wagnerin puunkoostamismenetelmää ei tule sotkea Wagner-parsimoniaan, joka on optimaalisuuskriteeri. Wagner-parsimonia esitellään tarkemmin jäljempänä, ja seuraavassa tutustumme Wagnerin puunkoostamismenetelmään.
17.3
Hennigin argumentaatio
Koska menetelmän ymmärtäminen on helpompaa, jos käytäme suhteellisen yksinkertaista aineistoa, on esimerkkirinnastustamme karsittu seuraavaan hieman. Nyt
rinnastus, josta on poistettu gorilla ja muutamia ominaisuuksia, näyttää seuraavalta, ja koostuu vain kolmesta ominaisuudesta. Makaki toimii ulkoryhmänä, ja muut
lajit kuuluvat sisäryhmään.
123
ihminen
AGA
simpanssi
ACA
oranki
ACC
makaki
CCC
Hennigin argumentaatio ei vaadi epäinformatiivisten ominaisuuksien poistamista aineistosta ennen analyysiä, ja perustuu siihen, että jokainen apomorfinen
ominaisuus tai sen olemassaolo määrittelee ryhmän. Sen sijaan ominaisuuden puuttuminen ei määrittele ryhmää. Esimerkiksi karvapeitteen ilmestyminen evoluutiossa määrittelee ryhmän nisäkkäät, mutta sen puuttuminen ei määrittelee ryhmää,
joka sisältää muut eliöt, paitsi nisäkkäät.
Hennigin argumentaatiossa jokaista ominaisuutta tarkastellaan aluksi yksinään,
ja lopullinen puu saadaan muodostettu näiden yhdistelmänä. Esimerkkirinnastuksemme perusteella voidaan muodostaa siis kolme erillistä puuta, joista ensimmäinen sisältää makakin, toinen ihmisen ja kolmas yhdistää ihmisen ja simpanssin. Jos
lähdetään liikkeelle puskasta, näyttää alkutilanne seuraavalta:
170
Bioinformatiikan perusteet
Ensimmäisen ominaisuuden lisäämisen jälkeen puu näyttää seuraavalta.
Toisen ominaisuuden lisäämisen jälkeen puu näyttää seuraavalta.
Ja kolmannen eli viimeisen ominaisuuden lisäämisen jälkeen puu näyttää seuraavalta.
17
Parsimoniamenetelmä
171
Esimerkissämme ulkoryhmänä käytettiin makakia, jonka avulla ominaisuudet
polarisoitiin. Polarisoinnilla tarkoitetaan sitä, että ulkoryhmää käyttäen ominaisuudet jaetaan alkukantaisiin ja siitä kehittyneisiin ominaisuuksiin. Esimerkiksi ominaisuuden nolla alkumuoto oli sytosiini, ja siitä kehittyi adeniini, joka on yhteinen
kaikille sisäryhmän (ihminen, simpanssi, oranki) lajeille. Koska ulkoryhmän avulla
voidaan päätellä ominaisuuksien kehittymissuunta, auttaa sen ottaminen analyysiin
puun muodostamisessa tarvittavaa päättelyä.
Hennigin argumentaatiossa siis puuhun lisätään ominaisuuksia yksi kerrallaan,
ja samalla puuhun luodaan tarvittaessa uusia haarautumiskohtia. Siten Hennigin
menetelmä soveltuu suhteellisen pienille ja yksinkertaisille aineistoille, joissa on
vähän tai ei lainkaan homoplasiaa. Aineistoille, joissa on paljon homoplasiaa, Hennigin argumentaatio ei kykene löytämään kaikkein lyhyintä mahdollista parsimoniapuuta, ja vaikka se löytäisikin lyhyimmän puu, ei se kykene löytämään kaikkia
lyhyimpiä puita, jos sellaisia sattuisikin olemaan useampia analysoitavalle aineistolle.
17.4
Wagnerin menetelmä
Kladogrammi voidaan muodostaa myös yhdistämällä puuhun yksi taksoni kerrallaan, kunnes kaikki taksonit on sijoitettu puuhun. Taksoni lisätään puussa siihen
paikkaan, johon sijoitettuna se minimoi puun pituuden. Useissa ohjelmistoissa parsimoniapuu muodostetaan yllä kuvatulla Wagnerin menetelmällä.
Havainnollistetaan Wagnerin menetelmää seuraavan esimerkin avulla. Oletetaan, että olemme jälleen analysoimassa samaa, jo edellä tutuksi tullutta sekvenssirinnastusta, jossa makaki toimii ulkoryhmänä, ja muut lajit kuuluvat sisäryhmään.
012
kehittyneitä ominaisuuksia
ihminen
AGA
3
simpanssi
ACA
2
oranki
ACC
1
makaki
CCC
0
Orangilla on ulkoryhmään verrattuna vähiten kehittyneitä ominaisuuksia, joten
se yhdistetään puussa ulkoryhmään. Muodostuva saa siis seuraavan muodon:
172
Bioinformatiikan perusteet
Seuraavaksi puuhun lisätään seuraavaksi vähiten kehittyneitä ominaisuuksia
sisältävä taksoni, siis simpanssi. Se yhdistetään orankiin johtavaa oksaan, ja muodostuvaa haaraa merkitään näille lajeille yhteisten ominaisuuksien tasot. Muodostuva puu saa seuraavan muodon:
Puun haaraan merkittyä lajeille yhteistä piirrettä kutsutaan optimoinniksi, ja
sillä pyritään minimoimaan puun pituus. Optimointiin palataan jäljempänä tarkemmin. Nyt haaraan merkitty piirre on muodostettu siten, että tietystä ominaisuudesta
on valittu kehittynein taso, joka orankia ja simpanssi yhdistää. Ominaisuudet 0 ja
1 saavat siten merkinnät A ja C. Kolmannen ominaisuuden taso poikkeaa simpanssilla ja orangilla, ja haaraan merkittävään piirteeseen on merkitty ulkoryhmän taso,
koska mikään kehittynyt ominaisuuden taso ei yhdistä simpanssia ja gorillaa.
Seuraavaksi puuhun liitetään jälleen seuraavaksi eniten kehittyneitä ominaisuuksia sisältävä taksoni, siis ihminen. Ihminen voidaan sijoittaa puussa neljään
eri kohtaan. Näistä kohdista valitaan se, joka vaatii vähimmän määrän muutoksia.
Mahdolliset neljä puuta näyttävät seuraavilta:
17
Parsimoniamenetelmä
173
Näistä vaihtoehtoisista puista parhaalta näyttää hypoteesi 2, sillä siinä puun
pituus kasvaa vain yhdellä, muissa tapauksissa kahdella. Näille neljälle lajille paras parsimoniapuu on siis hypoteesin 2 mukainen puu, ja analyysi voidaan päättää
tähän.
174
Bioinformatiikan perusteet
Wagnerin menetelmä on selvästi Hennigin argumentaatiota tehokkaampi tapa
etsiä lyhyintä parsimoniapuuta. Wagnerin menetelmä ei kuitenkaan takaa kaikkein
lyhyimmän puun löytymistä monimutkaisille aineistoille, mutta löytää varmasti lyhyimmän puu, jos aineistossa ei ole lainkaan homoplasiaa, joka sekoittaisi analyysiä.
17.4.1 Wagnerin kaava
Wagnerin menetelmä voidaan helposti yleistää koskemaan myös aineistoja, joissa ulkoryhmä ei ole eksplisiittisesti määriteltynä. Tällöin muodostetaan etäisyysmatriisi eri taksonien välille, ja lajit yhdistetään tätä matriisia käyttäen. Etäisyysmatriisia muodostettaessa lasketaan vain absoluuttisten muutosten määriä (patristinen etäisyys), eikä havaintoja pyritä korjaamaan ueiden samaan paikkaan sattuneiden substituutioiden suhteen. Patristinen etäisyys voidaan laskea Wagnerin kaavalla
seuraavasti.
Wagnerin kaava ilmoittaa, kuinka monta muutosta tietyn taksonin liittäminen
toiseen taksoniin vie, ja muutosten määrä voidaan laskea helposti kaavalla
d A,B =
|X(A i ) − X(Bi )|,
jossa d on muutosten määrä kahden taksonin A ja B välillä, X(A i ) on tietyn
ominaisuuden taso taksonilla A ja X(B i ) on saman ominaisuuden taso taksonilla
B. Ominaisuuksien tasojen muutokset siis lasketaan yhteen kaikkien eri ominaisuuksien yli, ja tämä on taksonien välinen niin kutsuttu patristinen tai Hamiltonin
etäisyys.
Esimerkiksi, jos tutkimme jälleen viittä kädellislajia, ja havaitsemme seuraavan taulukon mukaiset määrät muutoksia eri lajien välillä, yhdistettäisiin ensimmäiseksi puuhun ihminen ja simpanssi.
ihminen
simpanssi
gorilla
oranki
makaki
ihminen
1
3
4
6
simpanssi
gorilla
oranki
makaki
2
3
5
2
4
2
-
Ihmisen ja simpanssi yhdistämisen jälkeen taulukko päivitetään. Taulukkoa
päivitettäessä jo yhdistettyjen lajien etäisyys toistaiseksi yhdistämätömiin lasketaan
seuraavasti. Esimerkiksi
D(ihminen,simpanssi),gorilla
= |dgorilla,ihminen + dgorilla,simpanssi − dihminen,simpanssi |/2
= |3 + 2 − 1|/2 = 2
Päivitetty taulukko näyttää seuraavalta.
ihminen-simpanssi
gorilla
oranki
makaki
ihminen-simpanssi
2
3
5
gorilla
oranki
makaki
2
4
2
-
17
Parsimoniamenetelmä
175
Seuraavaksi puuhun yhdistetään se laji, jonka etäisyys jo muodostettuun ihminensimpanssi -ryhmään on kaikkein pienin. Esimerkissämme puuhun sijoitettaisiin siis
seuraavaksi gorilla, ja muodostuva puu näyttäisi seuraavalta:
Taulukon päivittämistä ja lajien yhdistämistä puuhun jatkettaisiin kunnes kaikki lajit on yhdistetty puuhun.
17.5
Optimaalisuuskriteeri
Parsimoniamenetelmä valitsee sen puu, jossa on tapahtunut pienin määrä muutoksia. Edellä esitettiin kaksi vaihtoehtoista tapaa muodostaa kladogrammi. Ennen
puun muodostamista on kuitenkin tarpeen määrittää jokaisen ominaisuuden tasojen
välisten muutosten määrä. Esimerkiksi, jos ominaisuuden taso muuttuu adeniinista sytosiiniksi, määrittelee optimaalisuuskriteeri lasketaanko tuo yksi muutos puuta muodostettaessa yhdeksi muutokseksi vain kenties useammaksi. Tätä optimaalisuuskriteeriä voidaan pitää parsimoniamenetelmien yhteydessä evoluutiomallina
vastaavalla tavalla kuin esimerkiksi Jukes-Cantorin malli saattoi toimia evoluutiomallina etäisyysmenetelmien yhteydessä.
Erilaisia optimaalisuuskriteereitä on useita. Kaikkein yleistetyin kriteeri käyttää Sankoffin matriisia, jossa voidaan määrittää minkä tahansa ominaisuustasojen
väliset muutoskulut. Sankoffin matriisi muistuttaa siten esimerkiksi PAM-matriiseja,
ja niitä käytetäänkin usein sekvenssiaineistojen yhteydessä. Sankoffin algoritmin
avulla voidaan optimoida parsimoniapuu, joka käyttää Sankoffin matriisia.
Optimaalisuuskriteeri on siis oikeastaan hypoteesi siitä, miten oletamme tutkittavien ominaisuuksien evolvoituneen. Erilaiset hypoteesit tuottavat erilaisia tuloksia, ja toiset hypoteesit ominaisuuksien evoluutiosta on yksinkertaisesti vääriä
tai järjetömiä. Seuraavassa esitellään yleisimmät optimaalisuuskriteerit sekä muutamia niiden käyttöalueita.
17.5.1 Wagnerin optimaalisuuskriteeri
Wagnerin optimaalisuuskriteeri on eräs yksinkertaisimmista kriteereistä. Se olettaa,
että muutokset ovat additiivisia eli summautuvia siten, että muutos 0->1 tulkitaan
yhdeksi muutokseksi, mutta muutos 0->2 kahdeksi muutokseksi, sillä evoluution
nollasta kakkoseksi tulkitaan kulkeneen välillä ykkösen kautta. Muutokset voivat
olla palautuvia, joten muutos 0->1 tulkitaan yhdeksi muutokseksi kuten myös muutos 1->0.
Wagnerin kriteeriä käytetään usein morfologisten tuntemerkkien kanssa. Esimerkiksi nisäkkäiden raajat eivät ole ilmestyneet yhtäkkiä, vaan ne ovat kehittyneet
176
Bioinformatiikan perusteet
vaiheittain kalan evistä. Raajat voivat kuitenkin hävitä tai surkastua, kuten valailla
on tapahtunut, joten palautuvat muutokset ovat sallittuja.
Puun pituus Wagnerin kriteeriä käyttäen lasketaan seuraavasti. Tutkitaan jälleen viittä kädellislajia. Jokaiselta lajilta on nyt selvitetty tietyn morfologisen ominaisuuden taso, ja tuloksista voidaan muodostaa seuraava matriisi.
ihminen
1
simpanssi
2
gorilla
2
oranki
4
makaki
0
Nyt voimme laskea tietoja käyttäen seuraavan puun pituuden:
Tässä puun pituutta laskettaessa (tai puuta optimoidessa) käytetään ulkoryhmänä makakia. Jos aineistossa ei olisi yhtään taksonia, joka olisi vartavasten valittu
ulkoryhmäksi, valittaisiin puun pituuden laskemista varten jokin keinotekoinen ulkoryhmä, jona voi toimia mikä tahansa tutkittavista taksoneista. Tämä keinotekoinen valinta ei vaikuta puun pituuden laskemiseen.
Puussa edetään ylhäältä alas, ja jokaiseen haaraan merkitään haarassa sijaitsevan hypoteettisen kantamuodon ominaisuuden tasot. Tätä vaihetta puun pituuden
laskemisessa kutsutaan downward pass:ksi. Jos kahdessa hypoteettistä kantamuotoa ylempänä olevissa taksoneissa tai haaroissa on sama ominaisuuden taso, merkitään niitä yhdistävään haaraan niiden pienin mahdollinen suljettu väli. Jos taksoneilla tai haaroilla on ominaisuuden suhteen eri tasot, merkitään niiden hypoteettiselle kantamuodolle molemmat (unioni).
Ylhäältä alaspäin edettäessä ensimmäisille kantamuodoille merkittäisiin siis
ominaisuuden taso [2,4] ja [1,2]:
17
Parsimoniamenetelmä
177
Koska ominaisuuksien katsotaan oleva summautuvia, lisää ominaisuuden taso
[2,4] puun pituuteen kaksi (4 - 2 = 2). Vastaavasti ominaisuuden taso [1,2] lisää
puun pituutta yhdellä.
Seuraavassa vaiheessa edetään jälleen puussa alemmas, ja seuraavalle hypoteettiselle kantamuodolle merkitään [2,4]:n ja [1,2]:n pienin suljettu väli (tässä sama kuin leikkaus), siis 2:
Koska nyt käsiteltävää hypoteettistä kantamuotoa edeltävillä kantamuodoilla
oli ominaisuus 2, ei puun pituutta nyt kasvateta. Puussa on jäljellä vielä yksi kantamuoto, jonka ominaisuuden tasoja ei ole määritelty, ja sille merkitään nyt makakin
(0) ja sitä edeltävän kantamuodon (2) pienin suljettu väli, koska tasot eivät ole samanlaiset:
178
Bioinformatiikan perusteet
Puun pituus voidaan nyt laskea, sillä viimeisen kantamuodon ominaisuuden
tasot tunnetaan, ja e lisää puun pituutta kahdella (2 - 0 = 2) eli puun kokonaispituudeksi muodostuu viisi.
Downward pass ei riitä sen päättelemiseksi, mikä on parsimonisin valinta hypoteettisten kantamuotojen ominaisuuden tasoksi. Tämän määrittämiseksi on tarpeen tehdä vielä upward pass. Siinä puussa edetään alhaalta ylöspäin, ja jokaiselle
hypoteettiselle kantamuodolle merkitään sitä edeltävien kantamuotojen perusteella ominaisuus. Jos hypoteettisellä kantamuodolla on vain yksi ominaisuuden taso,
ei sitä muuteta, muutoin merkitään tarkasteltavan kantamuodon ja sitä edeltävän
kantamuodon leikkaus:
Nyt kaikille kantamuodoille on asettu niille sopivin ominaisuuden taso, ja
puun pituus on edelleen viisi. Tämä menetelmä toimii hyvin, jos ominaisuudessa
tai ominaisuuksissa ei ole lainkaan homoplasiaa. Jos homoplasiaa esiintyy, voi yhtä
hyviä kantamuotojen ominaisuuksien tasojen rekonstruointeja esintyä useita. Tällöin vaihtoehtoja on kaksi, ACCTRAN (accelerated transformation) ja DELTRAN
(delayed transformation). Jos tarkastellaan puuta juuresta kohti lehtiä, sijoitetaan
ACCTRAN:ssa muutokset hypoteettisille kantamuodoille mahdollisimman aikaisin eli mahdollisimman lähelle juurta. DELTRAN:ssa muutokset puolestaan sijoitetaan kantamuodoille niin myöhään kuin mahdollista eli mahdollisimman kauaksi
juuresta.
Puun pituuden tai kantamuotojen ominaisuuksien määrittämiseksi tarvittavat
työvaiheet voidaan tiivistää siis seuraavasti:
17
Parsimoniamenetelmä
179
• Downward pass
1. Jos molemmilla taksoneilla on sama ominaisuuden taso, merkitään se
myös yhteiselle kantamuodolle (leikkaus).
2. Jos taksoneilla on ominaisuuden suhteen eri taso, merkitään niiden yhteiselle kantamuodolle molemmat (unioni)
3. Jos toisella taksonilla on useampia ominaisuuden tasoja, ja toisella vain
yksi, merkitään niiden yhteiselle kantamuodolle se, joka on niille yhteinen (leikkaus).
• Upward pass
1. Jos hypoteettisellä kantamuodolla on jokin yksittäinen ominaisuuden
taso, sitä ei muuteta.
2. Jos hypoteettisellä kantamuodolla on molemmat ominaisuuden tasot,
ja sitä edeltävällä kantamuodolla vain toinen, merkitään hypoteettiselle kantamuodollekin vain se taso, joka on molemmille yhteinen (leikkaus).
17.5.2 Fitchin optimaalisuuskriteeri
Fitchin kriteeri on siinä mielessä samankaltainen kuin Wagnerin kriteeri, että palautuvat muutokset ovat sallittuja. Sen sijaan Fitchin kriteerin mukaan ominaisuuksien
tasojen ei katsota olevan summautuvia, vaan jokainen muutos tulkitaan yhdeksi
muutokseksi. Esimerkiksi muutos 0->1 tulkitaan yhdeksi muutokseksi, kuten myös
muutos 0->2.
Fitchin kriteeriä käytetään usein sekvenssiaineistoille, sillä periaatteessa mikä
tahansa aminohappo tai nukleotidi voi suoraan korvautua millä tahansa toisella ilman, että välissä tarvittaisiin muita välivaiheita. Siten esimerkiksi adeniini voi suoraan vaihtua sytosiiniksi ilman, että välissä pitäisi käydä esimerkiksi guaniini kautta. Fitchin kriteeri tuottaa samalle aineistolle aina suuremman määrä yhtä lyhyitä
puita kuin Wagnerin kriteeri.
Fitchin kriteeriä käyttäen puun pituus lasketaan kuten Wagnerin kriteeriä käytettäessäkin, mutta hypoteettisen kantamuodon ominaisuuden tasoksi määritetään
sen ja sitä edeltävän kantamuodon ominaisuuksien leikkaus eikä pienin suljettu väli. Jos leikkaus on tyhjä, eli kantamuodoilla ei ole yhtään yhteistä ominaisuuden tasoa, määrätään tarkasteltavan kantamuodon ominaisuuden taso mielivaltaisesti sille
mahdollisten ominaisuuden tasojen joukosta.
17.5.3 Dollon optimaalisuuskriteeri
Dollo havaitsi jo 1800-luvun lopulla, että evoluutio harvoin palaa takaisin aiempaan muotoon. Nykyisin tämä tunnetaan Dollon sääntönä. Esimerkkinä toiminee
hyvin vaikkapa nisäkkäiden eturaaja. Eri luiden tarkka järjestys on Dollon mukaan
voinut evolvoitua vain kerran, koska on erittäin epätodennäköistä, että niin monimutkainen rakenne olisi evoluutiossa syntynyt toisistaan riippumatta useita kertoja.
Jos tarkastellaan eturaajaa ominaisuutena, tulee siinä esiintyvä homoplasia tulkita
siten, että rakenne on eliöltä hävinnyt.
Dollon kriteerin ei salli ominaisuuksissa palautuvia muutoksia. Dollon kriteerin ongelmaksi voidaan katsoa, että se olettaa evoluution etenevän tiettyä mallia
käyttäen. Kriteeriä kuitenkin käytetään morofologisten ominaisuuksien kanssa. Lisäksi kriteerille on käyttöä esimerkiksi jos tarkallaan restriktioentsyymien katkaisukohtien esiintymistä DNA-sekvensseissä. On nimittäin huomattavasti todennäköisempää, että katkaisukohta katoaa mutaation seurauksena kuin että mutaatio loisi
180
Bioinformatiikan perusteet
uuden katkaisukohdan. Jos Dollon kriteerin tekemät oletukset eivät päde tutkittavalle ominaisuusjoukolle, tullaan puun pituus ja homoplasian määrä yliarvioitua
runsaasti.
17.5.4 Camin-Sokalin optimaalisuuskriteeri
Camin-Sokalin kriteeri olettaa, että kun ominaisuus on kerran saatu, ei se voi koskaan hävitä. Homoplasiat selittyvät kriteerin mukaan siten, että ominaisuus on kehittynyt useita kertoja toisistaan riippumatta. Kriteeriä käytetään hyvin harvoin,
koska sen tekemät oletukset ovat jokseenkin epärealistisia.
17.5.5 Yleistetty optimaalisuuskriteeri
Yleistetty optimaalisuuskriteeri vastaa matriisia, jossa on esitetty eri ominaisuuden
tasojen vaihtumisesta toiseksi johtuvan puun pituuden kasvu. Tällaisen matriisin
avulla voidaan esittää millainen optimaalisuuskriteeri tahansa. Esimerkiksi edellä
esitellyt kriteerit näyttävät matriisein esitettyina seuraavilta.
Wagner
0
1
2
3
0
1
2
3
1
1
1
2
2
2
1
1
3
3
2
1
-
Fitch
0
1
2
3
Dollo
0
0
1
1
2
2
3
3
Wagner
0
1
2
3
0
1
1
1
1
1
1
1
1
1M
1
2
0
∞
∞
∞
2
1
1
1
3
1
1
1
-
2
2M
1M
1
1
1
∞
∞
2
2
1
∞
3
3M
2M
1M
3
3
2
1
-
Dollon kriteerin yhteydessä käytetään jotakin mielivaltaisen suurta arvoa M,
jolla varmistetaan se, että ominaisuuden taso esiintyy apomorfiana puussa vain yhden ainoan kerran. Camin-Sokal kriteerissä palautuvat muutokset on kokonaan estetty käyttämällä niille äärettömän suurta painoarvoa.
Menetelmä, jolla minkä tahansa puun pituus yleistettyä optimaalisuuskritee-
17
Parsimoniamenetelmä
181
riä käyttäen voidaan laskea, tunnetaan Sankoffin algoritmina (Sankoff ja Rousseau,
1975). Sankoffin algoritmi on toteutettu dynaamisen optimoinnin tapaan siten, että
suurempi ongelma, siis puun pituuden laskeminen on siinä pilkottu pienemmiksi
osaongelmiksi, jotka sitten ratkaistaan siten, että koko ongelman ratkaisu muodostuu optimaaliseksi. Käytännössä siis vastaavalla tavalla kuin Fitchin kriteerilläkin:
tarkastellaan yhtä ominaisuutta kerrallaan.
Tarkastellaan esimerkiksi seuraavaa aineistoa:
ihminen
g
simpanssi
a
gorilla
c
oranki
c
Ja seuraavaa matriisia, joka kuvaa vaihdosten saamat painoarvot:
a
c
g
t
a
2
1
2
c
2
2
1
g
1
2
2
t
2
1
2
-
Esimerkissämme siis transversiot ovat kaksi kertaa yleisempiä kuin transitiot.
Lasketaan nyt Sankoffin algoritmia käyttäen seuraavan puu pituus:
Tarkoituksena on kuten Fitchin ja Wagnerin kriteerien yhteydessäkin, löytää
kaikkein parsimonisin ominaisuuden taso kullekin puun sisäiselle haaralla, siis hypoteettisille kantamuodoille. Sankoffin algoritmillä valinta tapahtuu siten, että spesifioitua kriteeriä käyttäen lasketaan, mikä hypoteettisen kantamuodon ominaisuuden tason tulisi olla, jotta puun pituus kasvaisin mahdollisimman vähän. Tällöin
pyritään minimoimaan muutossumma (esimerkiksi 1->ihminen + 1->simpanssi)
jokaiselle kantamuodolle. Jos muutosta ominaisuuden tasossa siirryttäessä kantamuodosta havaittuun taksoniin ei tapahdu (ominaisuus pysyy muuttumattomana),
ei puun pituus kasva käytetystä kriteeristä huolimatta.
Ensimmäiseen haaraan (1) liittyvät laskutoimituksen ovat siten:
a− > g + a− > a = 1 + 0 = 1
c− > g + c− > a = 2 + 2 = 4
g− > g + g− > a = 0 + 1 = 1
t− > g + t− > a = 2 + 2 = 4
Nyt puun haaraan merkitään niin sanottu S-vektori, joka siis koostuu eri vaihtoehtojen saamista arvoista:
Samaan tapaan S-vektori voidaan laskea haaralle 2:
a− > c + a− > c = 2 + 2 = 4
c− > c + c− > c = 0 + 0 = 0
182
Bioinformatiikan perusteet
g− > c + g− > c = 2 + 2 = 4
t− > c + t− > c = 1 + 1 = 2
Ja vastaava puu saa siten seuraavan muodon:
Nyt kaikkien lajien yhteisen hypoteettisen kantamuodon eri ominaisuuksien
tasot saadaan suoraan yhteen edelliset S-vektorit. Tarkemmin sanoen, puun pituuden laskemiseksi kaikki mahdolliset kombinaatiot haarasta 3 lähtevissä alapuissa
olisi tullut tarkastella, mutta koska esimerkkipuussamme on vain kaksi kantamuotoa ennen haaraan 3 saapumista, on kaikki mahdollisuudet jo tarkasteltu. Tuloksena
on seuraava puu:
Nyt haaran 3 S-vektorista voidaan suoraan lukea puun pituus. Tässä tapauksessa puun pituus on neljä, koska se on haaran 3 S-vektorin pienin arvo. Puuhun
voitaisiin periaatteessa merkitä näkyviin hypoteettisten kantamuotojen ominaisuuden tasot:
Yleisen optimaalisuuskriteerin käytössä on muutamia käytännön ongelmia.
Ensinnäkin, on hankalaa määrittää eri muutosten saamat "painoarvot"ennen varsinaista analyysiä. Painoarvojen valinta liittyy tietysti hyvin läheisesti siihen miten
uskomme ominaisuuksien evolvoituneen. Jos ei ole erityisen hyvää syytä olettaa,
että ominaisuuksien evoluutio on edennyt jotakin tiettyä reittiä, tulisi monimutkaisten matriisien käyttöä välttää. Toiseksi, Sankoffin algoritmillä tapahtuva laskenta
on hitaampaa kuin jotakin toista optimaalisuuskriteeriä käyttäen, joten suurilla aineistoilla voi tietokoneen suorituskykykin muodostua sen käytön esteeksi.
17.6
Lyhyimmän mahdollisen puun etsintä
Edellä esitellyt menetelmät, kuten Wagnerin menetelmä käyttäen Fitchin optimaalisuuskriteeriä, eivät välttämättä löydä aineistoon sopivaa kaikkein lyhyintä mahdollista parsimoniapuuta, jos aineistossa esiintyy homoplasiaa. Koska parsimoniame-
17
Parsimoniamenetelmä
183
netelmän tarkoituksena on löytää nimenomaan kaikkein lyhyin mahdollinen puu,
joka kuvaa ominaisuuksien evoluutiota, on yleensä tarpeen turvautua muihin keinoihin lyhyimmän puun löytämiseksi.
Yksinkertaisimmillaan voidaan käydä läpi kaikki mahdolliset puu, jotka aineistolle voidaan muodostaa, laskea niiden pituudet vaikkapa Fitchin optimaalisuuskriteeriä käyttäen, ja siten löytää kaikkein lyhyin mahdollinen puu. Tällaista
menetelmää kutsutaan nimellä exhaustive search, koska kaikki mahdolliset vaihtoehdot käydään läpi. Kun sekvenssien määrä nousee yli 10-20:n, ei exhaustive
search-menetelmää enää voida käyttää, sillä laskenta-aika muodostuu millä tahansa nykyisellä tietokoneella turhan pitkäksi. Silloin turvaudutaan heuristisiin niin
sanottuihin puun uudelleenjärjestelymenetelmiin.
Heuristiset menetelmät eivät takaa, että ne löytävät kaikkein lyhyimmän mahdollisen puun, mutta käytännösä tulokset ovat usein varsin tyydyttäviä. Heuristisiin
menetelmiin tutustutaan tarkemmin puun uudelleenjärjestelymenetelmiä käsittelevässä luvussa. Niitä käytettäessä on hyvä tiedostaa, että järjestys, jossa sekvenssit
menetelmää syötetään, saattaa vaikuttaa tuloksiin. Niinpä sekvenssien syöttöjärjestys usein arvotaankin ennen varsinaista analyysiä, käytännössä satoja, jopa tuhansia kertoja. Yhdestä satunnaistamisesta käytetään useimmiten nimistystä random
addition sequence (RAS) tai jumble.
Heuristisille hakumenetelmille annetaan puu, jonka pituus jo tunnetaan. Tällainen puu voidaan muodostaa esimerkiksi Hennigin argumentaatiota tai Wagnerin
menetelmää käyttäen, mutta muitakin mahdollisia menetelmiä on olemassa. Tämän
jälkeen heuristiset menetelmät järjestelevät puun haaroja uudelleen, ja pyrkivät siten löytämään alkuperäistä puuta lyhyemmän puun.
Käytännössä analyysi etenee siis siten, että sekvenssien syöttöjärjestys arvotaan vaikkapa sata kertaa ("100 RAS"). Jokaiselle satunnaistetulle syöttöjärjestykselle muodostetaan Wagnerin menetelmää käyttäen alkuperäinen puu. Nämä puut
syötetään edelleen heuristisille uudelleenjärjestelymenetelmille, ja koko joukosta
pyritään etsimään kaikkein lyhyin aineistoon sopiva puu. Huomaa, että tässä satunnaistetaan vain sekvenssien syöttöjärjestys, eikä RAS:lla ole mitään tekemistä
esimerkiksi bootstrapping-menetelmän kanssa.
17.7
Muodostettujen puiden kuvailu ja vertailu
17.7.1 Puun pituus
Puun pituus kuvaa tiettyä puun topologiaa, ja kertoo kuinka monta kertaa mikä tahansa ominaisuuden taso on muuttunut toiseksi koko aineistossa. Mitä paremmin
puu kuvaa aineistoa sitä vähemmän homoplasioita aineiston selittämiseen tarvitaan, ja sitä lyhyempi on myös puun pituus. Siten lyhyempi puu siis sopii aineistoon premmin kuin pidempi puu. Siksi taksonien välistä evoluutiota kuvaavaksi
hypoteesiksi valitaan aina lyhyin puu. Siksi myös lyhyimmän puun löytäminen on
niin oleellisen tärkeää.
Tarkastellaan jälleen esimerkiksi seuraavaa sekvenssirinnastusta.
123
184
Bioinformatiikan perusteet
ihminen
AGA
simpanssi
ACA
oranki
ACC
makaki
CCC
Voimme verrata esimerkiksi kahta seuraavaa puuta keskenään laskemalla niille
pituuden, ja valitsemme sitten parhaaksi hypoteesiksemme lyhyemmän puun.
Puun pituus on 3 (puussa on kolme poikkiviivaa).
Puun pituus on neljä.
Näistä puista siis ensimmäinen (pituus 3) on parempi eliöiden evoluutiohistoriaa kuvaava puu.
17.7.2 Yhdenmukaisuusindeksi
Yhdenmukaisuusindeksi (consistency index, CI) mittaa suhteellisen homoplasian
määrää tietyssä puussa. CI ilmoitetaan prosentteina, ja odotettujen (m) ja puussa
havaittujen muutosten osamääränä (s). Odotettujen muutosten määrä on sama asia
kuin evolutiivisten muutosten pienin mahdollinen määrä. Yhdelle ominaisuudelle
CI voidaan laskea seuraavasti:
m
ci =
s
Ja kokonaiselle puulle kaava muuttuu muotoon:
17
Parsimoniamenetelmä
185
m
CI = s
Odotettujen muutosten määrä voidaan laskea aineiston perusteella, ja vastaa
suurinta määrää muutoksia, joka missään puussa voitaisiin aineiston perusteella
havaita. Yksitäiselle binääriselle (0/1) ominaisuudelle odotettujen muutosten määrä on korkeintaan 1. Samaiselle binääriselle ominaisuudelle havaittujen muutosten
määrä puolestaa riippuu siitä, kuinka monta kertaa sen havaitaan muuttaneen tasoaan puussa. Monitasoisille ominaisuuksille odotettujen muutosten määrä voidaan
laskea kaavalla
m = n − 1,
jossa n on ominaisuuden tasojen lukumäärä.
Esimerkiksi, seuraavassa puussa ominaisuuden a ci = 1 / 1 * 100 = 100.
Sen sijaan puussa, jossa ominaisuuden a taso on vaihtunut kahdesti, CI on
edellistä pienempi eli ci = 1 / 2 *100 = 50.
Tietyn ominaisuuden yhdenmukaisuusindeksin saadessa arvon 100, sopii ominaisuus täydellisesti puuhun, eikä siinä esiinny lainkaan homoplasiaa. CI:n ollessa
sataa pienempi, esiintyy ominaisuudessa homoplasiaa. Samaan tapaan voidaan CI
tulkita myös kokonaisille puille. Mitä surempi CI sitä vähemmän puussa esiintyy
homoplasiaa.
186
Bioinformatiikan perusteet
17.7.3 Synapomorfiaindeksi
Synapomorfiaindeksi (retention index, RI) on yhdenmukaisuusindeksin ohella toinen yleisesti käytetty suhteellisen homoplasian mitta. Synapomorfiaindeksi mittaa
sen synapomorfian määrää, joka aineiston perusteella havaitusta synapomorfiasta
havaitaan myös muodostetussa puussa. RI lasketaan yhdelle ominaisuudella kaavalla:
ri =
g−s
,
g−m
ja kokonaiselle puulle ja sitä vastaavalle aineistolle
g− s
,
RI = g− m
joissa g on evolutiivisten muutosten suurin mahdollinen määrä, m on muutosten pienin mahdollinen määrä, ja s evolutiivisten muutosten todellinen määrä
tietyssä puussa. Muuttujan m arvo saadaan laskettua kuten yhdenmukaisuusindeksin tapauksessakin, ja s voidaan tietenkin lukea suoraan puusta. Muuttujan g arvo
saadaan suoraan ominaisuusmatriisista. Esimerkiksi binäärisillä ominaisuuksilla se
on sellaisten ominaisuuden tasojen määrä, joita käsiteltävässä ominaisuudessa on
vähiten.
Esimerkiksi seuraavalle aineistolle synapomorfiaindeksi on helppo määrittää.
Ennen indeksin laskemista nukleiinihappoaineisto koodattiin binäärisiksi muuttujiksi sen seikan korostamiseksi, etä kyseissä aineistossa kaikki ominaisuudet todella
olivat binäärisiä eivätkä monitasoisia, vaikka nukleiinihapposekvenssirinnastukset
usein sisältävätkin monitasoisia ominaisuuksia.
123
123
ihminen
AGA
simpanssi
ACA
-\
101
111
oranki
ACC
-/
100
makaki
CCC
000
123
ihminen
111
simpanssi
101
oranki
100
makaki
000
m
111 (binäärisille muuttujille aina 1)
s
112 (luettu puusta)
g
112
17
Parsimoniamenetelmä
187
Koko puun synapomorfiaindeksiksi muodostuu siten
RI =
4−4 0
= =0
4−3 1
ja yhdenmukaisuusindeksiksi
CI =
3
∗ 100 = 75
4
Vaikka CI:n mukaan puussa ei ole paljoakaan homoplasiaa, antaa RI silti epätyydyttävän tuloksen, ja kertoo, ettei puussa ole yhtään synapomorfiaakaan.
CI ei ota huomioon ominaisuuksien tasojen jakaumista tutkittavien taksonien
kesken. RI on kehitetty ottamaan tämä seikka huomioon. Se nimittäin painottaa
sellaisia ominaisuuksia, joiden perusteella voidaan muodostaa suuri monofyleettisiä ryhmiä enemmän kuin ominaisuuksia, joiden perusteella muodostuu vain pieniä
monofyleettisiä ryhmiä. Ominaisuudet, joissa on tapahtunut muutos lähellä puun
juurta saavat siis RI:tä laskettaessa suuremman painon kuin ominaisuudet, joissa
muutos on tapahtunut lähellä lehtiä (taksoneita).
17.7.4 Muokattu yhdenmukaisuusindeksi
Muokattu yhdenmukaisuusindeksi (rescaled consistency index, rc) lasketaan yhdenmukaisuusindeksi ja synapomorfiaindeksin tulona seuraavasti
r c = ci ∗ ri
yhdelle ominaisuudelle ja seuraavasti
RC = C I ∗ R I
koko aineistolle. Siten ylläolevan puun RC = 0,75 * 0 = 0.
17.7.5 Indeksien ongelmista
Epäinformatiiviset ominasuudet (autapomorfiat) vaikuttavat CI:n laskemiseen huomattavasti. Usein epäinformatiiviset ominaisuudet saavat hyvin korkea CI:n arvon,
mikä vääristää tuloksia. Siksi onkin tavallista, että epäinformatiiviset ominaisuudet
jätetään huomiotta CI:n arvoa laskettaessa. Useimmat tietokoneohjelmat osaavat
huomioida tämän ongelman, mutta tuloksia kannattanee tulkita varovaisesti, jollei
ole varma minkä arvon CI:lle ohjelma ilmoittaa.
188
Bioinformatiikan perusteet
CI:n arvo myös usein pienenee sitä mukaa kuin analysoitavien taksonien määrä kasvaa, vaikkei aineiston informatiivisten ominaisuuksien määrässä tapahtuisi
lainkaan muutosta. Tämä on odotettavaakin, koska CI on homoplasian määrän suhteellinen mittari ja siten suhteutettu aineiston kokoon.
CI:n arvo ei myöskään voi koskaan saavuttaa nollaa, edes silloin, kun ominaisuuden homoplasia on täydellistä: Jos ominaisuudesta esiintyy aineistossa vain
kahta eri tasoa, täytyy aineistoa vastaavassa puussa olla tapahtunut ominaisuudelle
ainakin yksi muutos, jolloin ci = 100. Jos puussa on tapahtunut muutoksia esimerkiksi sata, on ci:n arvo 1. Vastaavasti, tapahtuipa muutoksia kuinka monta hyvänsä,
ei ci:n arvo ikinä saavuta nollaa.
17.8
Ominaisuuksien painotus analyysissä
Erilaisten muutosten, esimerkiksi transversioiden ja transitioiden, painottaminen on
luonnollista suurimman uskottavuuden menetelmiä käytettäessä, sillä niiden yhteydessä pitää eksplisiittisesti valita jokin käytettävä evoluutiomalli. Parsimoniamenetelmien yhteydessä ominaisuuksien painottaminen voidaan tehdä Sankoffin matriisia käyttäen. On kuitenkin epäselvää, tulisiko ominaisuuksia painottaa parsimoniaanalyysin yhteydessä, ja jos tulisi, niin miten.
Ominaisuuksien painotuksessa voidaan erottaa kaksi tapaa, a priori- ja a posteriori -painotus, mikä tarkoittaa sitä, että ominaisuuksille voidaan määrätä painotus
joko ennen tai jälkeen analyysin. DNA-sekvenssien painotus analyysissä on useimmiten a priori-painotusta, sillä ominaisuuksille tai tarkemmin sanoen ominaisuuksien tasojen muutoksille määritetyt painoarvot määrätään yleensä jo ennen analyysiä sen perusteella, miten sekvenssien uskotaan evolvoituneen tai minkälaisten evoluutiovoimien katsotaan aineistossa olevan merkittäviä. DNA-sekvenssille voidaan
käyttää esimerkiksi seuraavia painotuksia:
• A priori
1. Kaikki nukleotidit saavat saman painoarvon (tasainen painotus)
2. Epätasainen painotus
– Painotus riippuu nukleotidin sijainnista kodonissa (kolmannet positiot voivat saada muita positioita alhaisemman painoarvon analyysissä)
– rRNA:n varsi- ja silmukka-alueet saavat erilaiset painoarvot analyysissä.
– Transitio-transversio epäsuhteesta riippuva painotus
– Painotus, jossa painoarvot määrätään havaittujen 12 erilaisen substituution määräsuhteiden mukaan.
– Synonyymiset ja ei-synonyymiset substituutiot saavat eri painoarvon.
• A posteriori
1. Painoarvot määrätään ominaisuuksille niiden havaitun homoplasian määrän suhteen. Samaa painotusta voidaan käyttää myös morfologisille ominaisuuksille.
Painotukset voivat siis olla kahdella eri tasolla: analyysissä voidaan painottaa joko yksittäisiä ominaisuuksia tai yksittäisiä muutoksia, esimerkiksi muutoksia
nukleotidista toiseksi. Näillä painotuksilla on hyvin erilainen tarkoitus.
Usein analyysissä näkee painotetun kodonien kolmansia positioita muita vähemmän. Kodonien kolmannet positiot vaihtelevat kahteen muuhun verrattuna huomattavasti enemmän, koska kolmannessa positiossa tapahtuneet muutokset ovat
17
Parsimoniamenetelmä
189
useimmiten synonyymisiä, eivätkä siis aiheuta muutosta geeniä vastaavan proteiinin aminohappoketjussa. Kolmansissa positioissa kuitenkin huomattavasti informaatiota, joskin informaatio on suhteellisen homplasista, mutta niiden jättäminen
analyysistä saattaa tuottaa huonompia tuloksia kuin jos ne pidetään analyysissä.
Toinen usein DNA-sekvensseille käytetty ennen analyysiä suoritettava painotus perustuu transitio-transversio-suhteeseen. Pelkästään sattumalta voitaisiin olettaa, että sekvensseissä tapahtuu enemmän transversioita kuin transitioita, koska
transitio voi tapahtua vain kahdella eri tavalla, mutta transitio kahdeksalla eri tavalla. Totuus on kuitenkin usein toinen, ja transitioita havaitaan useinkin tapahtuneen
huomattavasti runsaammin kuin transversioita. Tällöin voidaan käyttää painotusta, joka poistaa eri substituutiomuotojen välisen runsaussuhde-eron (transversioita siis painotetaan enemmän kuin transitioita). Eri ominaisuuksien yhteensopivuus
näyttää olevan parempi, jos analyysiin käytetään vain transversioita, verrattuna tilanteeseen, jossa analyysiin käytetään sekä transitioita että transversioita. Pelkkien
transversioiden käyttö analyysissä tunnetaan nimellä transversioparsimonia.
Myös eri muutosten painottamista suhteessa niiden yleisyyteen käytetään suhteellisen usein. Tällöin painoarvoista muodostuu Sankoffin matriisi, jonka analysointia on käsitelty jo aikaisemmin.
A posteriori -painotuksessa on usein kyse siitä, että sellaiste ominaisuudet, jotka tuovat analyysiin enimmäkseen hälyä, saavat vain pienen painoarvon, ja hyvin
informatiiviset ominaisuudet saavat suuremman painoarvon. Painotus tehdään vasta analyysin jälkeen käyttäen apuna muokattua yhdenmukaisuusineksiä. Jos ominaisuus sopii täydellisesti puuhun, on sen muokattu yhdenmukaisuusindeksi RC =
1. Jos ominaisuus sen sijaan on homoplasinen, on sen RC < 1. Jokaiselle ominaisuudelle voidaan laskea RC analyysin jälkeen. Kutakin ominaisuutta painotetaan
seuraavaksi suhteessa sen saamaan RC-arvoon (arvot voidaan skaalata esimerkiksi
välille 0-10), ja analyysi toistetaan käyttäen näin määrättyjä painoarvoja.
Painoarvoja on käytetty useampien yhtä hyvien parsimoniapuiden erottelemiseen toisistaan. Esimerkiksi, tasaista painotusta käyttäen analyysi tuottaa kolme yhtä lyhyttä parsimoniapuuta (pituus 150). Näiden välillä ei voida tehdä eroa muulla
keinoin, joten sovelletaan analyysiin painoarvoja: transversioita ja transitioita painotetaan eri tavoin. Nyt tuloksena on enää kaksi puuta (jotka ovat miltei samanlaisia
kuin alkuperäisen analyysin tuottamat puut), joista toisen pituus tasaista painotusta
käyttäen olisi 151 ja toisen 152. Siten voisimme kenties valita tuon 151 muutoksen mittaisen parsimoniapuun analyysimme tuottamaksi parhaaksi puuksi vaikkapa seuraavalla päättelyllä: painotetussa puussa ominaisuudet ovat tasaista painotusta yhteensopivampia muodostetun puun kanssa, ja siten 151 muutoksen mittainen
puu on alkuperäisestä analyysistä saatua parempi. Painoarvojen käyttö ei sen sijaan
välttämättä vähennä analyysin tuottamien yhtä lyhyiden parsimoniapuiden määrää,
eikä painotusta pitäisi siihen käyttää.
190
Bioinformatiikan perusteet
18 Suurimman
uskottavuuden menetelmä
ja bayesilainen menetelmä
18.1
Mitä ovat suurimman uskottavuuden menetelmät?
Suurimman uskottavuuden (maximum likelihood, ML) menetelmät ovat etäisyysja parsimoniamenetelmien ohella kolmas suuri menetelmäperhe, jonka avulla pyritään muodostamaan eliöiden suhteita kuvaava puu. Siinä missä parsimoniamenetelmässä optimaalisuuskriteerinä käytettiin puun pituutta, käytetään ML-menetelmissä
kriteerinä uskottavuutta. Uskottavuus on todennäköisyys, että havaitsemme aineiston, jonka olemme koonneet, olettaen tietyn hypoteesin. Sama voidaan merkitä matemaattisesti muotoon
L = P(D|H ),
L on uskottavuus, P merkitsee todennäköisyyttä, D aineistoa, H hypoteesia
ja merkintä D|H luetaan "aineisto ehdolla hypoteesi"siis aineiston todennäköisyys
olettaen tietyn hypoteesin.
Otetaan esimerkiksi joukko DNA-sekvenssejä. Suurimman uskottavuuden menetelmien tapauksessa hypoteesin muodostavat yhdessä evoluutiomalli (nukleotidien esiintymistiheydet, niiden muutostodennäköisyydet, ym.) ja puu, jonka uskotaan kuvaavan sitä, miten sekvenssit ovat evolvoituneet. Kun parsimoniamenetelmässä laskettiin puun pituus ehdolla aineisto (pituus | aineisto), käsitellään suurimman uskottavuuden menetelmien yhteydessä varsinaisesti todennäköisyyttä, että havaitsemamme aineisto on syntynyt hypotetisoimaamme mallia käyttäen. Koska nukleotidien frekvenssit ja muutostodennäkösiyydet yleensä arvioidaan datasta, ne pysyvät koko analyysin ajan muuttumattomina. Samaten aineistomme säilyy
muuttumattomana, joten voimme myös turvallisesti puhua puun todennäköisyydestä, koska analyysin kuluessa ainut, jota muutamme on puun topologia. Eri puun
topologiat voivat saada erilaisia uskottavuusarvoja, ja koko analyysi perustuu sellaisen puun muodon löytämiseen, jolla on suurin mahdollinen uskottavuus. Tässä
apuna käytetään puunuudelleenjärjestelymenetelmiä.
Suurimman uskottavuuden menetelmien yhteydessä käsitellään lukuja, jotka
ovat välillä 0-1. Puun uskottavuutta laskettaessa joudutaan näitä desimaalilukuja
kertomaan keskenään, usein hyvinkin monia kertoja. Tällöin muodostuvasta luvusta tulee hyvin pieni, eli siinä on hyvin monia desimaalinollia. Koska tietokoneiden laskentakapasiteetti loppuu kesken, kun luvussa on useita nollia, ja koska
tietokoneella kertominen on hitaampaa kuin yhteenlaskeminen, käytetäänkin laskutoimituksissa useimmiten lukujen logaritmeja. Esimerkiksi todennäköisyyksien
0,0001 ja 0,00001 tulo on 0,000000001. Jos alkuperäisistä luvuista otettaisiin nyt
10-kantainen logaritmi, saataisiin luvut -4 ja -5. Vastaavasti luvun 0,00000001 10kantainen logaritmi on -9 (-4 + (-5) = -9). Laskettaessa siis pienten desimaalilukujen logaritmeilla, voidaan todennäköisyyttä laskettaessa toimia tulon sijaan summilla. Siksi puiden todennäköisyyskin useimmiten ilmoitetaan negatiivisena luku-
18
Suurimman uskottavuuden menetelmä ja bayesilainen menetelmä
191
na, joka on todennäköisyyden 10-kantainen logaritmi. Siten, mitä lähempänä nollaa eli mitä suurempi luku ilmoitettu todennäköisyys on, sitä uskottavampi kyseinen
puu on.
18.2
Uskottavuuden käyttö todennäköisyyden arviointiin
Oletetaan, että haluamme määrittää, millä todennäköisyydellä saamme kruunan
heittämällä rahaa n kertaa. Voimme tietenkin etukäteen olettaa, että kruunan todennäköisyys on puoli (1/2). Entäpä, jos rahasta riippuu, voitammeko suuren röykkiön
rahaa vai emme? Rahahan voi olla painotettu, minkä haluamme toki tietää, jos voittomme riippuu siitä veikkaammeko heiton tuloksen oikein. Tällöin voisimme määrittää todennäköisyyden empiirisesti suurimman uskottavuuden menetelmää käyttäen seuraavasti.
Heitetään rahaa vaikkapa 11 kertaa (Felsenstein, 2003). Tällöin saamme tulokseksi seuraavan sarjan: kruuna, kruuna, klaava, klaava, kruuna, klaava, kruuna, kruuna, klaava, klaava, klaava. Jos nyt merkitsemme kruunan todennäköisyyttä
p:llä, ja klaavan todennäköisyyttä 1-p:llä (näin voidaan menetellä, koska todennäköisyydet summautuvat aina ykköseen), voimme laskea saamamme sarjan. Jos
oletamme, että heitot ovat toisistaan riippumattomia, saadaan koko sarjan todennäköisyys kertomalla yksitäisten heittojen todennäköisyydet keskenään. Kertomalla
todennäköisyydet keskenään muodostuu seuraava lauseke:
L = p ∗ p ∗ (1 − p) ∗ (1 − p) ∗ p ∗ (1 − p) ∗ p ∗ p ∗ (1 − p) ∗ (1 − p) ∗ (1 − p) =
p 5 ∗ (1 − p)6
Lausekkeen perusteella voitaisiin määrittää kruunan suurin uskottavuus näiden
havaintojen perusteella derivoimalla ylläoleva lauseke ja ratkaisemalla sen nollakohta. Useimmiten uskottavuudet muutetaan logaritmeiksi, jolloin ylläoleva lauseke muuttuisi muotoon:
lnL = 5lnp + 6ln(1 − p),
jonka derivaatta on
d(lnL)/d( p) = 5/ p − 6/(1 − p),
josta ratkaisemalla saadaan tulokseksi, että p ≈ 0.454. Samaan tulokseen oltaisiin tässä esimerkissä päädytty myös huomaamalla, että kruuna havaittiin viidessä
tapauksessa yhdestätoista heitosta (5 / 11 ≈ 0.454).
Sama esimerkki voidaan esittää uskottavuusfunktiona kuvan 18.1 mukaisesti.
Käyrän huippu ilmoittaa kruunan todennäköisyyden tai uskottavuuden, ja sijaitsee
kohdassa p = 5 / 11 ≈ 0.454.
18.3
Puun uskottavuuden laskeminen
18.3.1 Evoluutiomallin määrittäminen DNA-sekvensseille
Erilaisten evoluutiomallien yhteydessä esiteltiin erilaisia nukleotidievoluutiota kuvaavia evoluutiomalleja, kuten Jukes-Cantor ja Kimuran kahden parametrin malli.
Tässä yhteydessä esiteltiin evoluutiomalli niin sanottuna Q-matriisina, joka esimerkiksi Jukes-Cantorin mallille näyttää seuraavalta:
A
C
G
T
A
α
α
α
C
α
α
α
G
α
α
α
T
α
α
α
-
192
Bioinformatiikan perusteet
Kuva 18.1: Esimerkki uskottavuusfunktiosta.
Q-matriisissa on esitetty yhdellä ajanhetkellä havaitut taajuudet, joilla kukin
nukleotidi muuttuu toiseksi. Tietyn mittaisen puun haaran uskottavuuden laskemiseksi tarvitsemme kuitenkin matriisin, jossa on yleistäen esitetty kunkin nukleotidin muutostoennäköisyys toiseksi nukleotidiksi. Tällaista matriisia kutsutaan Pmatriisiksi. Q- ja P-matriisien välillä vallitsee suhde
P(t) = e Qt ,
jossa P(t) on P-matriisi, e on Neperin luku, Q on Q-matriisi, ja t on oksan pituus ("aika"). Ratkaisemalla yhtälö, voidaan P-matriisi esimerkiksi Jukes-Cantorin
mallille esittää seuraavasti. Jos muutos tapahtuu samasta nukleotidista samaksi (i =
j), saadaan
Pi j (t) = 1/4 + 3/4e −µt ,
ja jos muutos tapahtuu joksikin muuksi nukleotidiksi (i = j), saadaan
Pi j (t) = 1/4 − 1/4e −µt ,
joissa µ on aineistosta havaittu muutosfrekvenssi, ja t on puun oksan pituus.
Edellä esitettyjä kaavoja käyttäen voidaan muodostaa P-matriisi Jukes-Cantorin
mallille. Jukes-Cantorin mallissa oletetaan, että kaikki nukleotidit ovat yhtä yleisiä
(a = c = g = t = 0.25), ja että kaikki muutokset yhtä todennäköisiä. Oletetaan lisäksi, että kussakin sekvenssikohdassa tapahtuu vain 0,1 muutosta (oksan pituus = µ
= 0,1). Tällöin
Pi j (t)[i = j ] = 1/4 + 3/4e −µt = 0, 25 + 0, 75 ∗ e −0,25∗0,1 = 0, 9815
Pi j (t)[i = j ] = 1/4 − 1/4e −µt = 0, 25 − 0, 25 ∗ e −0,25∗0,1 = 0, 0062
Sama voidaan ilmoittaa P-matriisina seuraavasti.
A
C
G
T
A
0,9815
0,0062
0,0062
0,0062
C
0,0062
0,9815
0,0062
0,0062
G
0,0062
0,0062
0,9815
0,0062
T
0,0062
0,0062
0,0062
0,9815
18
Suurimman uskottavuuden menetelmä ja bayesilainen menetelmä
193
Rivit summautuvat ykköseen, mikä on huojentavaa, sillä todennäköisyyksien
pitääkin. Sarakkeetkin summautuvat Jukes-Cantorin mallia käytettäessä ykköseen,
mutta muita malleja käytettäessä eivät välttämättä mihinkään erityiseen lukuun.
Diagonaalilla sijaitsevat luvut ovat varsin lähellä ykköstä, mikä kertoo siitä, että
nukleotidin pysyminen muuttumattomana on paljon todennäköisempää kuin sen
muuttuminen.
Jos P-matriisi kerrotaan riittävän monta kertaa itsellään, on tuloksena matriisi,
joka sisältää nukleotidifrekvenssit:
A
C
G
T
A
0.2577311
0.2560318
0.2560318
0.2560318
C
0.2560318
0.2577311
0.2560318
0.2560318
G
0.2560318
0.2560318
0.2577311
0.2560318
T
0.2560318
0.2560318
0.2560318
0.2577311
P-matriisiin on siis sisäänrakennettu nukleotidien frekvenssit.
18.3.2 Uskottavuuden laskeminen
Edellä muodostettua P-matriisia ja nukleotidien runsaussuhteita käyttäen voidaan
laskea mille tahansa puulle sen uskottavuus. Suurimman uskottavuuden menetelmät olettavat, että ominaisuudet (rinnastuksen eri kohdat) evolvoituvat toisistaan
riippumatta, ja että eri sekvenssit evolvoituvat toisistaan riippumatta. Uskottavuus
voidaan laskea kaavalla
(i)
L = P(D|T ) = m
i=1 P(D |T ),
(i)
jossa D on kussakin kohdassa sekvenssikohdassa havaittu aineisto. Koska
yksittäisten sekvenssikohtien uskottavuudet kerrotaan keskenään, laskeaksemme
koko puun uskottavuuden meidän tarvitsee vain osata laskea yhden sekvenssikohdan uskottavuus.
Yhden sekvenssikohdan todennäköisyys saadaan kertomalla keskenään siinä
havaitun nukleotidin runsaus ja sen todennäköisyys muuttua puussa nukleotidista
toiseksi. Jos oletamme, että evoluutio on jatkunut jo pitkään tiettyä mallia noudattaen, voimme pitää nukleotidin runsautta arviona siitä, että sekvenssijoukossa
sattumalta havaitsisimme kyseisessä kohdassa tietyn nukleotidin.
18.3.3 Kahden taksonin puu
Jos esimerkiksi tutkisimme kahta sekvenssiä (acct ja gcct), jotka voidaan tietenkin
sijoittaa puuhun vain yhdellä tavalla (acct-gcct), voisimme laskea havaitsemamme
aineiston todennäköisyyden edellä muodostettua P-matriisia ja nukleotidien runsaussuhteista (a = c = g = t = 0,25) käyttäen seuraavasti.
P(ACC T , GCC T ) = 0, 25 ∗ 0, 0062 ∗ 0, 25 ∗ 0, 9815 ∗ 0, 25 ∗ 0, 9815 ∗ 0, 25 ∗
0, 9815 ≈ 0, 00002289932
log(0, 00002289932) ≈ −4, 64
Muodostimme edellä P-matriisin siten, että se kuvasi oksaa, jossa on tapahtunut 0,1 muutosta kutakin sekvenssikohtaa kohden. Sanotaan, että tämä matriisi
kuvasi yhden ced:n mittaista oksaa (ced = certain evolutionary distance). Muilla oksan pituuksille todennäköisyys voidaan laskea muodostamalla P-matriisi eri
ced-pituuksille. Tämä tapahtuu kertomalla matriisi itsellään haluttu määrä kertoja.
Esimerkiksi pituudelle ced = 2, matriisi näyttää seuraavalta.
194
Bioinformatiikan perusteet
A
C
G
T
A
0.96345757
0.01224748
0.01224748
0.01224748
C
0.01224748
0.96345757
0.01224748
0.01224748
G
0.01224748
0.01224748
0.96345757
0.01224748
T
0.01224748
0.01224748
0.01224748
0.96345757
Nyt kahden ced:n mittaiselle oksalle voidaan laskea uskottavuus kuten edelläkin, siis
P(ACC T , GCC T ) = 0, 25 ∗ 0, 0122 ∗ 0, 25 ∗ 0, 9634 ∗ 0, 25 ∗ 0, 9634 ∗ 0, 25 ∗
0, 9634 ≈ 0, 00004261277
Todennäköisyydet eri mittaisille oksille voidaan taulukoida seuraavasti
ced
1
5
10
15
20
25
30
uskottavuus
0,00002289932
0,00008743635
0,0001260524
0,0001378325
0,0001355449
0,0001264883
0,0001147375
Uskottavuuksista on tarkoitus etsiä kaikkein suurin. Oksan pituus ced-yksikköinä
määräytyy siis sen mukaan, millä ced:n arvolla oksan uskottavuus maksimoituu.
Uskottavuudet voidaan piirtää ced:n suhteen kuvaan 18.2, jonka perusteella on suhteellisen helppo määrittää, että suurimman uskottavuuden saa oksa, jonka pituus on
15 ced-yksikköä. Koska yksi ced vastasi 0,1 muutosta kutakin sekvenssikohtaa kohden, saa suurimman uskottavuuden arvon oksa, jossa on tapahtunut keskimäärin 1,5
muutosta kutakin sekvenssikohtaa kohden.
18.3.4 Kolmen taksonin puu
Edellä laskimme yksioksaisen puun uskottavuuden, ja optimoimme oksan pituuden. Seuraavassa esitetään, miten uskottavuus voidaan laskea puulle, jossa on kolme haaraa. Oletetaan, että haluamme laskea seuraavan puun uskottavuuden:
Aineiston, jota olemme analysoimassa näyttää seuraavalta.
A
acct
B
gcct
C
agct
Puuhun on merkitty oksien pituudet. Tarvitsemmekin uskottavuuden laskemista varten nyt P-matriisit ekä oksan pituudelle 0,1, että 0,2. Matriisit on esitetty seuraavassa taulukossa.
Puun uskottavuus voidaan laskea nyt helpoiten laskea puun sisäisen haaran
O suhteen. Koska O:n ominaisuuksien tasoja ei tunneta, pitää laskuissa tarkastella
kaikki vaihtoehdot.
Jos oletetaan, että O:n ensimmäisen ominaisuuden taso olisi A, näyttäisi sen
perusteella muodostettu uskottavuus seuraavalta. Kunkin nukleotidin runsautta merkitään p:llä, ja oksanpituutta vastaavasta P-matriisista luettua todennäköisyyttä P:llä.
L = π A ∗ P(0,1,A−>A) ∗ P(0,2,A−>G) ∗ P(0,1,A−>A)
18
Suurimman uskottavuuden menetelmä ja bayesilainen menetelmä
Kuva 18.2: Esimerkki uskottavuusfunktion maksimoinnista.
195
196
Bioinformatiikan perusteet
Taulukko 18.1:
t=0,1
A
C
G
T
A
0,9815
0,0062
0,0062
0,0062
C
0,0062
0,9815
0,0062
0,0062
G
0,0062
0,0062
0,9815
0,0062
T
0,0062
0,0062
0,0062
0,9815
t=0,2
A
C
G
T
A
0.96345757
0.01224748
0.01224748
0.01224748
C
0.01224748
0.96345757
0.01224748
0.01224748
G
0.01224748
0.01224748
0.96345757
0.01224748
T
0.01224748
0.01224748
0.01224748
0.96345757
Uskottavuutta laskettaessa otetaan siis huomioon jokaisen haaran pituus siten,
että käytetään laskutoimituksissa ko. haaran pituutta varten laskettua P-matriisia ja
sen lukuarvoja.
Sekvenssirinnastuksen ensimmäisen kohdan uskottavuutta laskettaessa tulee
kuitenkin tutkia kaikki vaihtoehdot, jotka taksonilla O on, ja täydellinen lauseke
näyttäisi seuraavalta:
L = π A ∗ P(0,1,A−>A) ∗ P(0,2,A−>G) ∗ P(0,1,A−>A) +
πc ∗ P(0,1,C−>A) ∗ P(0,2,C−>G) ∗ P(0,1,C−>A) +
πg ∗ P(0,1,G−>A) ∗ P(0,2,G−>G) ∗ P(0,1,G−>A) +
πt ∗ P(0,1,T −>A) ∗ P(0,2,T −>G) ∗ P(0,1,T −>A) +
= 0, 25 ∗ 0, 9815 ∗ 0, 0122 ∗ 0, 9815 +
0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062 +
0, 25 ∗ 0, 0062 ∗ 0, 9635 ∗ 0, 0062 +
0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062
= 0, 0003
Seuraavaksi sama laskutoimitus tehdään erikseen jokaiselle sekvenssikohdalle, ja näin saadut todennäköisyydet kerrotaan keskenään. Tulokseksi saadaan koko
puun uskottavuus eli
L = (π A ∗ P(0,1,A−>A) ∗ P(0,2,A−>G) ∗ P(0,1,A−>A) +
πc ∗ P(0,1,C−>A) ∗ P(0,2,C−>G) ∗ P(0,1,C−>A) +
πg ∗ P(0,1,G−>A) ∗ P(0,2,G−>G) ∗ P(0,1,G−>A) +
πt ∗ P(0,1,T −>A) ∗ P(0,2,T −>G) ∗ P(0,1,T −>A) ) ∗
(π A ∗ P(0,1,A−>C) ∗ P(0,2,A−>C) ∗ P(0,1,A−>G) +
πc ∗ P(0,1,C−>C) ∗ P(0,2,C−>C) ∗ P(0,1,C−>G) +
πg ∗ P(0,1,G−>C) ∗ P(0,2,G−>C) ∗ P(0,1,G−>G) +
πt ∗ P(0,1,T −>C) ∗ P(0,2,T −>C) ∗ P(0,1,T −>G) ) ∗
(π A ∗ P(0,1,A−>C) ∗ P(0,2,A−>C) ∗ P(0,1,A−>C) +
πc ∗ P(0,1,C−>C) ∗ P(0,2,C−>C) ∗ P(0,1,C−>C) +
πg ∗ P(0,1,G−>C) ∗ P(0,2,G−>C) ∗ P(0,1,G−>C) +
πt ∗ P(0,1,T −>C) ∗ P(0,2,T −>C) ∗ P(0,1,T −>C) ) ∗
(π A ∗ P(0,1,A−>T ) ∗ P(0,2,A−>T ) ∗ P(0,1,A−>T ) +
πc ∗ P(0,1,C−>T ) ∗ P(0,2,C−>T ) ∗ P(0,1,C−>T ) +
πg ∗ P(0,1,G−>T ) ∗ P(0,2,G−>T ) ∗ P(0,1,G−>T ) +
πt ∗ P(0,1,T −>T ) ∗ P(0,2,T −>T ) ∗ P(0,1,T −>T ) )
≈ (0, 25 ∗ 0, 9815 ∗ 0, 0122 ∗ 0,9815 +
0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062 +
0, 25 ∗ 0, 0062 ∗ 0, 9635 ∗ 0, 0062 +
18
Suurimman uskottavuuden menetelmä ja bayesilainen menetelmä
197
0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062) ∗
(0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062 +
0, 25 ∗ 0, 9815 ∗ 0, 9635 ∗ 0, 0062 +
0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 9815 +
0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062) ∗
(0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062 +
0, 25 ∗ 0, 9815 ∗ 0, 9635 ∗ 0, 9815 +
0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062 +
0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062) ∗
(0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062 +
0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062 +
0, 25 ∗ 0, 0062 ∗ 0, 0122 ∗ 0, 0062 +
0, 25 ∗ 0, 9815 ∗ 0, 9635 ∗ 0, 9815)
≈ 0, 0000002356
log(0, 0000002356) ≈ −15, 26
Jos puun oksien pituuksia ei tunnettaisi, voitaisiin niiden pituus optimoida kuten kahden sekvenssin tapauksessakin. Tämä tapahtuisi siis kokeilemalla erilaisille
oksan pituuksille laskettuja P-matriiseja, ja valitsemalla kullekin oksalle se matriisi
(siis oksan pituus), joka maksimoi oksan uskottavuuden.
18.3.5 Neljän taksonin puun uskottavuuden laskeminen
Edellä kuvatuille kahta ja kolmea sekvenssiä yhdistäville puille on helppo laskea
uskottavuus, sillä puut koostuvat käytännössä vain muutamista haaroista. Suuremmalle puulle uskottavuuden laskeminen muodostuu huomattavasti työläämmäksi,
sillä puun oksien pituuksien optimoimiseksi, tulee puun sisäisiin haaroihin optimoida niissä sijaitsevien hypoteettisten kantamuotojen sekvenssit.
Esimerkiksi, neljän taksonin suhteita kuvaava juurtamaton puu voidaan piirtää kolmella eri tavalla, joista yksi on muodoltaan ((A,B)(C,D)). Jos tarkastellaan
yhtä ominaisuutta, havaitaan, että A:lla ja B:llä sen taso on adeniini (A) ja C:llä
ja D:llä tymiini (T). A:ta ja B:tä yhdistävää haaraa kutsutaan X:ksi, ja C:tä ja D:tä
yhdistävää haaraa Y:ksi. Puu näyttää siis seuraavalta:
Puun molempiin sisäisiin haaroihin kokeillaan kaikkia mahdollisia nukleotideja (A, C, G ja T), joten erilaisia ominaisuusyhdistelmiä muodostuu puun sisäisiin
haaroihin yhteensä 16 kappaletta. Jos laskuissa käytetään edellä muodostettua Pmatriisia, tulee todennäköisimmäksi puuksi sellainen, jossa haarassa X on adeniini,
ja haarassa Y tymiini. Neljälle lajille kaikkein uskottavimman puun läpikäyminen
vaatisi 16*3 = 48 puun läpikäymistä, ja ominaisuuksien sekä oksan pituuksien optimoimista niihin. Suurimman uskottavuuden menetelmät ovat laskennallisesti varsin raskaita, ja niiden käyttö rajoittuu edelleenkin suhteellisen pieniin aineistoihin
(<100 taksonia).
198
Bioinformatiikan perusteet
18.3.6 Ominaisuuksien evoluutionopeuden vaihtelun ottaminen huomioon
Monesti sekvenssien eri kohdat muuttuvat eri nopeuksilla siten, että tietyissä paikoissa tapahtuu enemmän mutaatioita kuin muissa. Evoluutiomallien yhteydessä
oli puhetta tästä ilmiöstä, ja sitä voidaan mallittaa esimerkiksi käyttäen gammajakaumaa. Usein jotkin sekvensikohdat eivät ole muuttuneet lainkaan, vaan kaikilla
analysoitavilla taksoneilla on niissä sama nukleotidi. Tällaisia sekvenssikohtia kutsutaan nimellä vaihtelematon (invariant), ja ne voidaan huomioida gammajakaumaa
käytettäessä.
Jos eri sekvenssikohtien muutosnopeutta mallitetaan gammajakaumalla, liitetään käytetyn evoluutiomallin perään usein merkintä . Siten esimerkiksi merkintä
JC + tarkoittaisi Jukes-Cantorin mallia, jossa ominaisuuksien muutosnopeuksien
vaihtelu on mallitettu gammajakaumaa käyttäen. Jos mallissa käytetään pelkkää
gammajakaumaa, ei tällöin varsinaisesti oleteta, että jokin osa sekvenssikohdista ei
voisi muuttua. Jos kuitenkin voidaan olettaa, että jotkin kohdat eivät vaihtele, tulee
malliin lisätä myös kyseinen (invariant) oletus. Useimmiten tämä merkitään mallin
yhteyteen kirjaimella I. Siten merkintä JC + + I tarkoittaa Jukes-Cantorin mallia,
jossa eri sekvenssikohtien muutosnopeuksien eroja mallitetaan gammajakaumalla,
ja lisäksi oletetaan, että osa kohdista ei vaihtele.
Yleensä gammajakaumasta käytetään diskreettiä muotoa, millä tarkoitetaan sitä, että muutostodennäköisyys voi kuulua johonkin ryhmään. Diskreetillä jakaumalla tarkoitetaan ylipäätään sitä, että jakauma ei ole jatkuva vaan koostuu yksittäistä ryhmistä. Asian hahmottamista voi auttaa, jos tarkastelee kuvaa 15.2. Siinä
on kuvattu muutamia erilaisia jatkuvia gammajakaumia. Jos nyt sama jakauma haluttaisiin piirtää histogrammia käyttäen, voitaisiin histogrammiin piirtää vaikkapa
20 pylvästä. Nyt tuo histogrammi olisi tavallaan diskreetti gammajakauma, jossa
on 20 luokkaa. Diskreettiä jakaumaa käytetään laskutoimituksissa yleensä siksi,
että sitä käyttäen laskutoimitukset ovat yksinkertaisempia ja nopeampia suorittaa.
Jos gammajakaumaa käytetään sekvenssikohtien vaihtelutodennäköisyyden mallintamiseen, se vaikuttaa myös edellä kuvatuihin laskutoimituksiin. Jokaiselle gammajakauman luokalle voidaan määrätä todennäköisyys, jolla jokin sekvenssikohta
on peräisin kyseisestä gammajakauman luokasta. Laskutoimituksissa tämä näkyy
siten, että todennäköisyys havaitulle muutokselle (vaikkapa yhdelle puun oksalle)
lasketaan erikseen jokaista gammajakauman luokkaa käyttäen, ja eri vaihtoehtojen
tuottamat tulokset lasketaan yhteen.
Esimerkiksi ylläkuvatulle kahdesta sekvenssistä koostuvalle yksioksaiselle puulle todennäköisyys lasketaan seuraavasti, kuten jo aiemmin on todettu.
P(ACC T , GCC T ) = π A P(0,1,A−>G) πC P(0,1,C−>C) πC P(0,1,C−>C) πT P(0,1,T −>T )
= 0, 25 ∗ 0, 0062 ∗ 0, 25 ∗ 0, 9815 ∗ 0, 25 ∗ 0,9815 ∗ 0,25 ∗ 0, 9815
≈ 0, 00002289932
log(0, 00002289932) ≈ −4, 64
Jos oletetaan, että kahden gammajakauman luokan todennäköisyydet ovat 0,8
ja 0,2, muodostuu todennäköisyydeksi
P(ACC T , GCC T ) = (π A P(0,1,A−>G) 1 + π A P(0,1,A−>G) 2 ) ∗
(πC P(0,1,C−>C) 1 + πC P(0,1,C−>C) 2 ) ∗
(πC P(0,1,C−>C) 1 + πC P(0,1,C−>C) 2 ) ∗
(πT P(0,1,T −>T ) 1 + πT P(0,1,T −>T ) 2 )
= (0, 25 ∗ 0, 0062 ∗ 0, 8 + 0,25 ∗ 0, 0062 ∗ 0, 2) ∗
(0, 25 ∗ 0, 9815 ∗ 0,8 + 0, 25 ∗ 0, 9815 ∗ 0, 2) ∗
(0, 25 ∗ 0, 9815 ∗ 0,8 + 0, 25 ∗ 0, 9815 ∗ 0, 2) ∗
(0, 25 ∗ 0, 9815 ∗ 0,8 + 0, 25 ∗ 0, 9815 ∗ 0, 2)
= 0, 00002289932
Jos analyysissä käytetään gammajakaumaa, on analyysiaika huomattavasti pidempi kuin analyysissä, jossa gammajakaumaa ei käytetä. Tämä johtuu siitä, laskutoimitusten tarve kutakin sekvenssikohtaa kohden kasvaa, mikä tietnkin lisää myös
18
Suurimman uskottavuuden menetelmä ja bayesilainen menetelmä
199
laskenta-ajan tarvetta.
Monet ohjelmat käyttävät edelleen gammajakaumaa, mutta esimerkiksi PHYLIPpaketin suurimman uskottavuuden menetelmää soveltavat ohjelmat, esimerkiksi
dnaml, toteuttavat saman idean kätkettyjä Markovin malleja (HMM) käyttäen. Periaatteessa HMM:ä käyttäen voitaisiin sekvenssikohdat jakaa mihin tahansa ryhmiin. Esimerkiksi voitaisiin haluta erotella proteiinia koodaavan geenin kodonien
ensimmäiset, toiset ja kolmannet positiot toisistaan. Tämäkin on mahdollista esimerkiksi dnaml-ohjelmassa (käyttäen optiota C ja categories-tiedostoa, jossa ei sekvenssikohdat sijoitetaan eri kategorioihin).
HMM:ien käyttö poistaa tai oikeastaan vain löyhentää menetelmään sisäänrakennettua oletusta siitä, että sekvenssin vierekkäiset nukleotidit ovat riippumattomia toisistaan. HMM:ssä on mahdollista käyttää oletustä, että vierekkäiset nukleotidit korreloivat keskenään, eivätkä siten ole riippumattomia, mutta nukleotideista
voidaan myös tehdä riippumattomia. Ohjelmassa dnaml tämä on mahdollista optiota A käyttäen. Jos HMM on otettu ohjelmassa käyttöön, voidaan lisäksi asettaa sekvenssikohtien autokorrelaatio (autocorrelation). Option asetuksena käytetään sen
sekvenssipätkän pituutta, jolla oletetaan HMM:ssä olevan sama evoluutionopeus.
Jos pituus on 1, käsitellään sekvenssikohtia käytännössä toisistaan riippumattomina, mutta jos pituusasetus on suurempi, esimerkiksi 10, oletetaan HMM:ssä, että
aina keskimäärin 10 nukleotidilla on sama muuttumisnopeus.
18.3.7 Evoluutiomallin määrittäminen aminohapposekvensseille
Kuten aiemminkin on ollut puhetta, käytetään evoluutiomallina aminohapposekvensseille yleensä jotakin empiiristä matriisia, kuten PAM- tai Blosum-matriisia. Nämä matriisit kuvataan yleensä log-odds muodossa, jolloin niissä esitetyt luvut ovat
pyöristettyjä kokonaislukuja. Molekyylisystematiikan työskentelyä varten tarvitaan
kuitenkin hieman tarkempi esitys, ja tällöin käytetäänkin mutation probability matrix (M) -matriisia. Tästä oli puhetta jo, kun PAM-matriisien muodostaminen selitettiin. Se on muodostettu siten, että perusmatriisi vastaa tilannetta, jossa puun oksan pituus olisi 0,01. Matriisi voidaan muuttaa koskemaan pidempiä oksan pituuksia kertomalla se tarpeellinen määrä kertoja itsellään (kuten yllä on tehty DNAsekvenssimallie yhteydessä). Koska matriisi vastaa käytännössä DNA-mallien Pmatriisia on kertolaskutoimituksen antama tulos itseasiassa approksimaalinen, ja
parempi tapa olisikin ensin muuttaa P-matriisi Q-matriisiksi, ja sitten kertoa Qmatriisi itsellään haluttu määrä kertoja. Käytännössä ero on useimmiten todennäköisyyksissä alle 1matriisin kertomisen P-matriisia käyttäen, toiset Q-matriisia
käyttäen.
18.4
Kuinka paras puu löydetään
Suurimman uskottavuuden menetelmillä paras eli uskottavin puu etsitään kuten
parsimoniamenetelmilläkin. Aluksi muodostetaan yksi puu jollakin nopealla tavalla, esimerkiksi kokoamalla puu siten, että sekvenssit lisätään puuhun yksi kerrallaan, ja jokainen uusi sekvenssi sijoitetaan puussa siihen kohtaan, jossa se maksimoi muodostuvan puun uskottavuuden. Toisinaan alkuperäinen puu voidaan myös
muodostaa etäisyys- tai parsimoniamenetelmin.
Alkuperäistä puuta muodostettaessa on tärkeää satunnaistaa sekvenssien lisäysjärjestys. Sekvenssien lisäysjärjestys nimittäin vaikuttaa tuloksiin, vaikka jokainen sekvenssi sijoitetaankin aina kohtaan, joka maksimoi puun uskottavuuden
(Kuva 18.3). Tätä sekvenssien lisäysjärjestyksen satunnaistamista kutsutaan random addition sequence:ksi tai jumble:ksi, ja asiaan tutustutaan tarkemmin puun
uudelleenjärjestelymenetelmien yhteydessä.
Kun alkuperäinen puu on muodostettu, pyritään sitä uudelleenjärjestelemään
jollakin menetelmällä, ja siten maksimoimaan puun uskottavuus. Jokaisen uudel-
200
Bioinformatiikan perusteet
Kuva 18.3: Ylärivillä on kuvattu alkuperäinen, rinnastettu aineisto, ja puun muodostus
sen perusteella vaihe vaiheelta. Rinnastuksesta valitaan puuhun liitettäväksi ylhäältä alaspäin lukien aina seuraava sekvenssi puussa vielä olematon. Kussakin vaiheessa seuraavana
vuorossa olevan sekvenssi on lisätty puussa siihen paikkaan, jossa puun uskottavuus maksimoituu. Alarivillä on kuvattu, mitä voi tapahtua, kun sekvenssien lisäysjärjestys satunnaistetaan. Jossakin puun koostamisvaiheessa jotkin lajit vaihtavat paikkaa alkuperäisen
järjestyksen perusteella muodostettuun puuhun nähden.
leenjärjestelyn jälkeen puun uskottavuus lasketaan uudelleen, ja kun kaikki uudeleenjärjestelyt on kokeiltu, otetaan talteen vain uskottavin puu. Puun uudelleenjärjestelymenetelmät on esitelty omassa luvussaan. Monissa ohjelmissa suurimman
uskottavuuden menetelmien yhteydessä voidaan käyttää joko NNI-, SPR- tai TBRmenetelmiä, toisissa TBR-menetelmä ei ole saatavilla. Lisäksi joissakin uudemmissa ohjelmissa on saatavilla esimerkiksi geneettisiin algoritmeihin perutuvia uudelleenjärjestelymenetelmiä. Esimerkki tällaisesta ohjelmasta on metaPIGA (metapopulation genetic algorithm).
Koska sekä parsimonia- että suurimman uskottavuuden menetelmien tarkoituksena on optimoida jotakin, siis joko puun pituutta tai sen uskottavuutta, on
molemmissa menetelmissä tärkeää pyrkiä aktiivisesti etsimään parasta puuta. MLmenetelmien yhteydessä tämä ei ole yhtä helppoa, koska jo yhden uudelleenjärjestelyn jälkeen puun uskottavuuden uudelleenlaskeminen voi olla työläs ja aikaaviepä prosessi. Siksi ML-menetelmissä, etenkään hiukankaan suuremmilla aineistoilla, ei useinkaan löydetä kaikkein uskottavinta puuta, yksinkertaisesti siitä syystä,
ettei sitä ole etsitty riittävän tarmokkaasti, koska ajoaika on analyysin suorittamista
rajoittava tekijä.
Eräs tapa kiertää pitkän ajoajan aiheuttamia hankaluuksia on muodostaa aluksi aineistolle optimaalisin parsimoniapuu, ja jatkaa sitten uudelleenjärjestelyitä tällä puulla ML-menetelmää optimaalisuuskriteerinä käyttäen. Optimaalisin parsimoniapuu on usein suhteellisen lähellä optimaalisinta ML-puuta, joten parsimoniapuun perusteella aloitettu heuristinen haku löytänee parhaan ML-puunkin suhteellisesti huomattavasti nopeammin kuin jos analyysi olisi suoritettu alusta loppuun
ML-menetelmää käyttäen.
18.5
Mitä ovat bayesilaiset menetelmät?
Bayesilaiset menetelmät ovat hyvin lähellä suurimman uskottavuuden menetelmiä,
ja siten niiden käsittely ML-menetelmien yhteydessä onkin perusteltua. Bayesilaiset menetelmät ovat edelleen varsin kiisteltyjä, vaikka alkuperäinen idea on esitetty
jo 1790. Bayesin teoreeman mukaan hypoteesin (H) todennäköisyys, kun havaitaan
data (D) saadaan kaavasta
P(H |D) = P(H)P(D|H)
P(D)
Huomaa, että osoittajan toinen tekijä, P (D | H) on itseasiassa hypoteesimme
uskottavuus. Bayesin teoreeman avulla voidaan muuttaa jokin oletuksemme asiain
18
Suurimman uskottavuuden menetelmä ja bayesilainen menetelmä
201
tilasta (priori-jakauma) asiaintilan todennäköisyydeksi, kun olemme keränneet aineiston (posteriori-jakauma). Bayesin teoreema on juuri siksi niin houkutteleva,
että sen avulla voimma laskea erilaisten hypoteesien, kuten erilaisten puiden, todennäköisyydet havaitsemallamme aineistolla.
Vaikka bayesilaisia menetelmiä on sovellettu molekyylisystamatiikan ongelmiin aiemminkin, käyttivät Rannala ja Yang (1996) ensimmäisenä täydellistä bayesilaista lähestysmistapaa. Se oli kuitenkin laskennallisesti varsin raskas, ja soveltui siten vain pienille sekvenssimäärille. Nykyisin bayesilaiset menetelmät onkin
toteutettu Markov Chain Monte Carlo (MCMC) - menetelmää käyttäen, joka on
laskennallisesti huomattavasti kevyempi (Yang, 1997).
MCMC-menetelmät valitsevat posteriori-jakaumasta, siis tässä tapauksessa puista, tietyn kokoisen satunnaisotoksen. Siten "todellisen"puun todennäköisyyksistä
voidaan vetää suoraan johtopäätöksiä. Jos esimerkiksi valituista puista 96perustuu
tietenkin aineiston perusteella vedyttyihin johtopäätöksiin, jotka ovat vain yhtä hyviä kuin aineistomme.
MCMC-menetelmän ideana on vaeltaa satunnaisesti kaikkien mahdollisten
puiden muodostamassa avaruudessa siten, että loppujen lopuksi puujakaumalla on
posteriori-jakauman ominaisuudet. Kuvittele puuavaruus, josta valitaan yksi puu
(T1). Yhden uudelleenjärjestelyn päässä siitä on puu T2. Puiden todennäköisyyksien suhde (puun todennäköisyys voidaan laskea kuten ML-menetelmien yhteydessä haluttua evoluutiomallia käyttäen) lasketaan, ja jos suhde on suurempi kuin
1, jatketaan puuavaruudessa vaeltelua puusta T2. Jos suhde on pienempi kuin 1,
voidaan satunnaisesti valita puuksi myös T1. Tämä vaelteluprosessi ei ikinä pääty,
mutta hakeutuu lopulta tasapainotilaan, jossa todennäköisyys, että puusta T2 jatketaan on yhtä suuri kuin että puusta T1 jatketaan. Vaihetta, jossa vaeltelu hakeutuu
tasapainotilaan, kutsutaan burn-in -vaiheeksi. Burn-in -vaiheessa voidaan käydä läpi vaikkapa 5 000 puuta. Tämän jälkeen puuavaruudesta löydetyistä puista poimitaan vaikkapa joka sadas, kunnes 100 000 puuta on käyty läpi. Puut voidaan tämän
jälkeen vetää yhteen käyttäen ryhmätodennäköisyyksiä: Jos esimerkiksi valituista
puista 96% esiintyy ryhmä (ihminen, simpanssi), voimme sanoa, että ryhmä on monofyleettinen todennäköisyydellä 96%. Lisäksi näin muodostetulle puulle voidaan
estimoida oksien pituudet ML-menetelmiä käyttäen. Bayesilaista menetelmää soveltava ohjelma MrBayes toimii kuten edellä on hahmoteltu, muissa ohjelmissa voi
olla toisenlaisia toteutustapoja.
Bayesilaisten menetelmien kritiikki perustuu lähinnä siihen, että ennen menetelmän soveltamista täytyy määrittää millaista puiden priori-jakaumaa käytetään.
Usein käytetään erilaisia rajoituksia esimerkiksi oksien pituuksille ja nukleotidien
muutostodennäköisyyksille. Lisäksi on mahdollista olettaa, että kaikki puut ovat
yhtä todennäköisiä (flat prior) tai niiden todennäköisyyksiä voidaan rajoittaa esimerkiksi määrittelemällä puuhun monofyleettisiä ryhmiä. Menetelmän antamat tulokset voivat riippua käytetystä priori-jakaumasta, eikä jakauman valintaa ole olemassa mitään yleispätevää sääntöä - kuinka puiden todennäköisyyksistä voitaisiinkaan hypotetisoida paljonkaan mitään varmaa. Usein bayesilaiset menetelmät näyttävät olevan suhteellisen robusteja tehtyjen alkuoletusten suhteen, mutta oletusten
vaikutusta tuloksiin ei ole vielä tutkittu kovin kattavasti.
202
Bioinformatiikan perusteet
19 Superpuumenetelmät
19.1
Mitä superpuumenetelmät ovat?
Superpuumenetelmät ovat molekyylisystematiikan lähestymistapa, jossa pyritään
yhdistämään ominaisuusmatriisien sijasta puita siten, että tuloksena on alkuperäisiä puita kattavampi tulos. Superpuumenetelmät eroavatkin esimerkiksi konsensusmenetelmistä, joissa useammissa samat lajit sisältävissä puissa oleva informaatio
pyritään esittämään yksinkertaisemmassa muodossa: superpuumenetelmien soveltamiseksi kaikissa yhdistettävissä puissa ei tarvitse olla mukana samoja lajeja, joskin mitä suurempi päällekkäisyys, sitä tarkempi tulos. Superpuussa onkin yleensä useampia lajeja kuin yhdessäkään sen muodostamiseen käytetyssä yksittäisessä
puussa.
Supermatriisimenetelmiin, joissa yksittäisten tutkimusten tuottamat ominaisuusmatriisit yhdistetään ja analysoidaan yhtenä aineistona, perustuvat analyysit
ovat tähän mennessä parhaimmillaankin kattaneet vain muutamia tuhansia lajeja.
Supermatriisimenetelmin tuskin onkaan koskaan mahdollistaa koota koko eliökunnan sisältävää puuta, vaan tällaisen puun muodostamiseen tarvitaan miltei välttämättä superpuumenetelmiä, jotka ainakin periaatteessa kykenevät käsittelemään
analyysissä hyvinkin suuria lajimääriä.
Superpuumenetelmät ovat tällä hetkellä noin 15 vuoden ikäisiä, ja siten edelleen varsin aktiivisen kehitystyön alla. Osittain siksi menetelmät ovat saaneet myös
osakseen huomattaa ja voimakasta kritiikkiä, joka liittyy keskusteluun "taksonominen vai ominaisuuksien yhteensopivuus", jota on käsitelty tarkemmin luvussa
"Molekyylisystematiikan avoimia kysymyksiä".
19.2
Olemassa olevat superpuumenetelmät
Superpuumenetelmiä on olemassa varsin suuri joukko, joilla, kuten monilla muillakin menetelmämuunnoksilla, on kullakin hyvät ja huonot puolensa. Tällä hetkellä
käytössä olevat tai ainakin algoritmitasolla esitellyt superpuumenetelmät ovat:
• Yhteensopivuusmenetelmät
–
–
–
–
–
–
–
Gordon’s strict
MinCutSUPERTREE
Ranked tree
Semi-labelled
Ancestral build
Semi-strict
Strict consensus merger
• Optimointimenetelmät
– Average consensus
19
Superpuumenetelmät
203
– Bayesian supertrees
– Gene tree parsimony
– Matrix representation with compatibility (MRC)
– Matrix representation with flipping (MRF)
– Matrix representation with parsimony (MRP)
– Quartet supertrees
Mainituista superpuumenetelmistä Quartet supertrees esiteltiin jo puun uudelleenjärjestelymenetelmien käsittelyn yhteydessä. Seuraavassa keskitytään tarkastelemaan MRP-menetelmää hieman tarkemmin.
19.3
MRP-menetelmän periaate
MRP-menetelmän kuvasivat yhtäaikaa toisistaan riippumatta Baum, Doyle ja Ragan (1992). MRP onkin vanhin toimiva superpuumenetelmä. Baum ja Ragan mainitsevat motiiveikseen kehittää supermenetelmiä muun muassa tarpeen yhdistellä
erilaisia aineistoja, joita ei muutoin voida yhdistää (sekvenssit, morfologia ja hybridisaatiotulokset) ja tarve menetelmille, jotka pystyvät tuottamaan tuloksia, vaikka
esimerkiksi tarvittavaa sekvensiä ei tunnettaisikaan kaikille lajeille. Tilanne 1990luvun alussa oli nykyistä heikompi myös laskentakapasiteetin suhteen: suuria yhdistettyjä aineistoja ei yksinkertaisesti voitu käsitellä tehokkasti, ja samaan lopputulokseen pääsemiseksi tarvittiin muita keinoja.
MRP-menetelmä koostuu viidestä vaiheesta (Kuva 19.1).
1. Valitaan eri aineistojen perusteella muodostettujen puiden joukosta ne, jotka
halutaan ottaa mukaan analyysiin.
2. Juurretaan kaikki puut samalla taksonilla. Jos sama taksoni ei esinny kaikissa
analysoitavissa puissa, luodaan pseudo-ulkoryhmä, jonka ominaisuudet koodataan seuraavissa vaiheissa kaikissa puissa nollalla.
3. Koodataan puiden muoto binaarisiksi adiitiivisiksi ominaisuuksiksi.
4. Yhdistetään kaikkia puita kuvaavat ominaisuumatriisit.
5. Yhdistetty ominaisuusmatriisi analysoidaan parsimoniamenetelmää käyttäen.
MRP-superpuiden laskeminen voi kestää paljon pitempään kuin esimerkiksi
MinCutSUPERTREE-puiden laskeminen. Tämä johtuu siitä, että MRP-menetelmän
vaativa laskentaaika kasvaa eksponentiaalisesti aineiston kokoon nähden, MinCutSUPERTREEmenetelmän vain polynomiaalisesti. MRP-menetelmän vaatimaa laskenta-aikaa voidaan kuitenkin nykyisin jo pienentää käyttäen esimerkiksi Markov chain Monte
Carlo (MCMC) -menetelmiä parsimonia-analyysiin. Tällaisia menetelmiä löytyy
esimerkiksi ohjelmasta MrBayes.
Jos analyysissä syntyy useita yhtä hyviä parsimoniapuita, kuten usein käy,
voidaan niiden sisältämä informaatio tiivistää yhteen puuhun jollakin konsensusmenetelmällä. Usein on käytetty tiukkaa konsensusta, mutta se johtaa varsin usein
erotuskyvyn huononemiseen (polytomioihin). Jos polytomiota syntyy superpuuanalyysissä, voidaan ne tulkita johtuvan alkuperäisten aineistojen yhteensopimattomuudesta.
204
Bioinformatiikan perusteet
Kuva 19.1: MRP-superpuumenetelmän toiminta. A, B Superpuun muodostamiseen käytettävät lähtöpuut. C Lähtöpuiden perusteella koodattu ominaisuusmatriisi. Jos taksonit
esiintyvät puussa yhdessä, ne koodataan ykkösellä, muutoin nollalla. Jos taksoni ei esiinny tarkasteltavassa puussa, sen ominaisuuden arvo koodataan kysymysmerkillä (puuttuva tieto). Puun ulointa haaraa (ulkoryhmää) ei koodata mukaan analyysiin. Lähtöpuiden
perusteella muodostetut ominaisuusmatriisit yhdistetään, ja analysoidaan. D Yhdistetyn
ominaisuusmatriisin perusteella muodostettu paras parsimoniapuu.
19
Superpuumenetelmät
19.4
205
MRP-menetelmän muunnokset
MRP-menetelmää voidaan muunnella esimerkiksi käyttämällä heuristisissa parsimoniaanalyysin hauissa jotakin muuta optimaalisuuskriteeriä kuin Fitchin mallia. Fitchin malli on yleisimmin käytetty malli, mutta Dollo-parsimoniaa on myös sovellettu. Dollon mallia soveltavaa MRP-menetelmää kutsutaan irreversiibeli-MRPmenetelmäksi.
Koska MRP-menetelmä perustuu parsimoniamenetelmään, voidaan sitä muunnella myös ominaisuuksien erilaisella koodaamisella ja ominaisuuksien painottamisella. Erilaisia ominaisuuksien painotuksia onkin testattu jo aiemmin: Esimerkiksi koodausta, jossa kukin MRP-analyysiin koodattu ominaisuus saa painoarvonsa
sen mukaan, kuinka paljon tukea sen kuvastama taksoniryhmä sai alkuperäisessä analyysissä, kutsutaan yksinkertaisesti painotetuksi MRP-menetelmäksi. Toinen
vaihtoehto voisi olla painottaa ominaisuuksia sen mukaan, kuinka hyvin ne sopivat
muodostuvaan parsimoniapuuhun (successive weighting).
19.5
Menetelmän edut
Verrattuna yhdistettyyn analyysiin, superpuumenetelmissä analysoitavat ominaisuusmatriisit ovat useinkin kertaluokkaa pienempiä, mikä nopeuttaa analyysiä. Ominaisuuksien muodostamisessa käytetty binäärinen koodaus aiheuttaa sen, että kukin alkuperäinen aineisto saa tasapuolisemman mahdollisuuden vaikuttaa tuloksiin
kuin yhdistetyssä analyysissä olisi mahdollista. Superpuumenetelmät voivat myös
yhdistellä aineistoa varsin erilaisia lähtöaineistoja. Esimerkiksi sekvenssiaineiston,
morfologisten tuntomerkkien ja taksonien välisten serologisten etäisyyksien yhdistäminen samaan analyysiin ei tuota ongelmia. Näiden aineistojen yhdistäminen
muita menetelmiä käyttäen on toistaiseksi mahdotonta.
19.6
MRP-menetelmään kohdistettu kritiikki
Koska MRP-menetelmä on sekä suosituin että ensimmäisenä käyttöönotettu menetelmä, on suurin osa superpuumenetelmiin kohdistetusta kritiikistä kohdistunut
juuri siihen. Monet MRP:n jälkeen kehitetyistä menetelmistä on itseasiassa kehitetty MRP:n heikkouksia silmälläpitäen, siis niiden korjaamiseksi.
Systemaatikoiden keskuudessa MRP-menetelmässä käytetty parsimonia-periaate
yhdistetään tiiviisti kladistiikan kanssa. Varsin suuri osa kritiikistä kohdistuukin
menetelmään, kun sen käyttöä on yritetty tarkastella kladistiselta katsantokannalta.
Esimerkiksi, on väitetty, ettei MRP-menetelmä voi toimia, koska siinä käytetyillä ominaisuuksilla ei ole olemassa apomorfian ja homoplasian kaltaisia tulkintoja.
Apomorfia ja homoplasia ovat kuitenkin ominaisuuksiin kohdistettuja tulkintoja,
eivätkä ne sinällään vaikuta itse parsimoniamenetelmän algoritmiseen toimintaan.
MRP-superpuumenetelmään liittyy kuitenkin muutamia systemaattisia virheitä, joiden merkitystä tai vaikutusta tuloksiin ei vielä tiedetä. Esimerkiksi, MRPmenetelmä näyttää painottavan eri kokoisia puita eri tavoin, siten että suuremmat
puuta saavat suhteessa pienempiä puita suuremman painoarvon analyysissä. Myös
symmetrisistä puista saadut ominaisuudet näyttävät vaikuttavan analyysin tuloksiin epäsymmetrisiä puita enemmän. Pahiten menetelmän luotettavuus kärsii, jos
analyysin valitut puut eivät jostakin syystä ole toisistaan riippumattomia. Yleensä puut ovat toisistaan riippumattomia, jos ne on muodostettu eri lähtömateriaalien
perusteella. Useimmiten tutkimuksiin kuitenkin sisällytetään sekä jo olemassaolevaa aineistoa esimerkiksi tietokannoista sekä uutta materiaalia, jotka kuitenkin analysoidaan yhdessä. Tällöin vanhan materiaalin perusteella tehty analyysi ja uusi,
enemmän aineistoa sisältävä tutkimus eivät ole toisistaan riippumattomia. MRPmenetelmä, eivätkä superpuumenetelmät ylipäätäänkään, ei myöskään kykene sel-
206
Bioinformatiikan perusteet
ventämään polytoimioiden varsinaista haarautumisjärjestystä yhtä tehokkaasti kuin
supermatriisimenetelmä.
20
Parhaan puun etsiminen ja puun uudelleenjärjestelymenetelmät
207
20 Parhaan puun etsiminen
ja puun uudelleenjärjestelymenetelmät
20.1
Mitä puun uudelleenjärjestelymenetelmät ovat?
Puun uudelleenjärjestelymenetelmät ovat heuristisia menetelmiä, joiden avulla pyritään löytämään kaikkein paras puu, joko lyhyin parsimoniapuu tai kaikkein uskottavin puu. Jos analysoidaan alle 20 taksonia kerrallaan, on mahdollista käyttää menetelmiä, jotka takaavat lyhyimmän puun löytymisen. Tällaisia ei-heuristisia
menetelmiä ovat exhaustive search- ja branch-and-bound -menetelmät, ja ne käyvät
periaatteessa kaikki mahdolliset puut läpi ja löytävät siten takuuvarmasti kaikkein
lyhyimmän puun.
Jos analyysissä on useita kymmeniä taksoneita, on käytännössä pakko käyttää
jotakin heuristista menetelmää. Heuristiset menetelmät eivät käy kaikkia mahdollisia vaihtoehtoja läpi, eivätkä siten takuuvarmasti löydä kaikkein parasta kaikkien
puuta mahdollisten puiden joukosta. Heuristisia menetelmiä ovat perinteiset menetelmät nearest neighbor interchange (NNI)-, subtree pruning and regrafting (SPR)ja tree bisection and reconnection (TBR). Lisäksi viime vuosina on otettu käyttöön
useita uudempia tekniikoita, kuten (parsimony) ratchet, tree drifting, tree fusing,
sectorial search ja divide-and-conquer. Heuristisissa menetelmissä ideana on joko
pilkkoa puu useampiin osiin, ja vaihtaa niiden paikkaa lyhyimmän puu löytämiseksi tai pilkkoa puu useammiksi pienemmiksi osasiksi, joiden pituus tai uskottavuus
optimoidaan erikseen ja sitten muodostaa näiden pikkupuiden perusteella kaikki
taksonit sisältävä puu.
Uudelleenjärjestelymenetelmät toimivat siten, että niille annetaan jollakin tapaa muodostettu "alkuperäinen"puu, jonka pituutta tai uskottavuutta pyritään sitten
optimoimaan alkuperäistä paremmaksi. Jos menetelmille annettava alkuperäinen
puu on varsin lähellä puuta, joka on aineistolle kaikkein paras, löytyy tuo paras
puu yleensä varsin nopeasti. Jos alkuperäinen puu sen sijaan on kovin kaukana
parhaasta mahdollisesta puusta, voi sen löytämiseen mennä hyvinkin kauan. Siksi
alkuperäien puun koostamismenetelmällä on vaikutusta, jollei välttämätä suoranaisesti analyysin tuloksiin, niin ainakin analyysiin vaatimaan ajoaikaan. Käytännössä
esimerkiksi parsimoniamenetelmää käytettäessä alkuperäinen puu usein muodostetaan Wagnerin menetelmää käyttäen.
Sekä parsimonia- että suurimman uskottavuuden menetelmässä on tarkoituksena löytää analysoitavalle aineistolle kaikkein paras puu. Perinteiset puunuudelleenjärjestelymenetelmät ovat saatavilla sekä parsimonia- että suurimman uskottavuuden menetelmille, mutta uudemmat tekniikat ovat toistaiseksi yleistyneet runsaammissa määrin vain parsimonia-analyysien yhteydessä.
208
20.2
Bioinformatiikan perusteet
Menetelmien käyttö
Koska käytettävät menetelmät ovat useimmiten heuristisia, on niiden käyttöön kiinnitettävä hieman huomiota. Ensinnäkin, kun alkuperäistä puuta muodostetaan, voi
sekvenssien syöttöjärjestys vaikuttaa tuloksiin, mikä saattaa edelleen kasaantua puunuudelleenjärjestelymenetelmiä käytettäessä. Siksi onkin muodostunut tavaksi sekoittaa sekvenssien syöttäjärjestys satoja tai tuhansia kertoja. Tämä tapahtuu siis
siten, että esimerkiksi ennen puun muodostamista Wagner-menetelmällä, sekoitetaan sekvenssien syöttöjärjestys. Yhtä tällaista satunnaistamista kohden saadaan
siten yksi Wagner-puu (toisinaan useampiakin). Kun satunnaistaminen ja alkuperäisen puun muodostus Wagnerin menetelmää käyttäen toistetaan sata kertaa, on
tuloksena sata alkuperäistä puuta, jotka voidaan syöttää puunuudelleenjärjestelymenetelmille. Tällaista sekvenssien syöttöjärjestyksen satunnaistamista ja siihen
liittyvää toistuvaa alkuperäisen puun muodostamista kutsutaan nimellä random addition sequence (RAS) tai jumble.
Ainakin parsimonia- ja suurimman uskottavuuden menetelmän yhteydessä sekvenssien syöttöjärjestys vaikuttaa tuloksiin, todennäköisesti myös bayesilaisten menetelmien tapauksessa. Käytännössä RAS-toistoja tehdään parsimonia-analyyseissä
hyvin usein 100-1000 kertaa, suurimman uskottavuuden menetelmää käytettäessä näkee usein käytettävän vain kymmentä toistoa. Vähintään sadan RAS-toiston
käyttö voi pitää milteipä suosituksena käytti kumpaa menetelmää hyvänsä.
Heuristiset puunuudelleenjärjestelymenetelmät tunnetaan myös nimellä "hill
climbing methods", koska niiden avulla voidaan löytää jostakin maastosta korkein
kohta. Kaikkien mahdollisten puiden muodostama ryhmä, puuavaruus, voidaan käsittää maastoksi, jossa on huippuja ja kukkuloita. Analyysin tarkoituksena on löytää sellainen puu, joka sijaitsee maastossa mahdollisimman korkealle, ja on siis pituudelta lyhyin tai uskottavuudeltaan kaikkein suurin. Asian havainnollistamiseksi
tehdään seuraava ajatusleikki.
Kuvitellaan, että haluamme löytää maapallon korkeimman kohdan, ja käytössämme on sokeita laskuvarjohyppääjiä, jotka jollekin maastonkohdalle laskeuduttuaan kykenevät etsimään sen lähistöltä korkeimman kohdan siten, että he aina etenevät ylämäkeen, eivät ikinä alamäkeen (Kuva 20.1). Kuten tiedämme, on maapallon korkein kohta Mount Everest. Jos käytössämme on yksi sokea laskuvarjohyppääjä ja tiputamme hänet koneesta jossakin satunnaisessa maapallon kohdassa,
on varsin epätodennäköistä, että hän löytää Mount Everestin. Sanotaan, että hyppääjä tippuu Kilpisjärven kirkonkylälle. Jos hän nyt etenee systemaattisesti kohti
lähimaaston korkeinta kohtaa, hän saapuu ennen pitkää Saanan, Suomen toiseksi
korkeimman huipun laelle. Jos meillä olisi käytössämme sata laskuvarjohyppääjää,
olisi todennäköisyys löytää Mount Everest jo huomattavasti suurempi, tai ainakin
melko suurella varmuudelle edes yksi hyppääjä löytäisi Saanaa korkeamman kohdan, esimerkiksi Haltin. Jos meillä olisi niin paljon laskuvarjohyppääjiä, että voisimme tiputtaa yhden hyppääjän jokaiselle maapallon neliömetrille, voisimme olla
liki varmoja, että korkein kohta löytyisi.
Nyt voimme vetää uudelleenjärjestelymenetelmien ja laskuvarjohypääjien välille seuraavan analogian. Jokainen laskuvarjohyppääjä toimii kuin yksi RAS-toisto.
Sen sijaan laskuvarjohypääjän eteneminen kohti korkeinta lähimaaston huippua
vastaa jonkin uudelleenjärjestelymenetelmän käyttöä. Riippuen käytetystä uudelleenjärjestelymenetelmästä, laskuvarjohyppääjä etenee hitaasti tai hyvin tehokkaasti kohti huippua.
Myös maaston ja puuavaruuden välille voidaan vetää yhtäläisyyksiä. On helppo ymmärtää, että maapallon pinta koostuu yksittäisistä saarekkeista, siis yksinäisistä muita korkeammista huipuista, vähän samaan tapaan kuin järvessä on saaria,
jotka pistävät veden pinnan yläpuolelle. Osa näistä saarekkeista on suuria metsäisiä
saaria, toisille mahtuu vain yksi kitukasvuinen mänty. Puuavaruus koostuu tismalleen samanlaisista saarekkeista. Yhdessä puuavaruuden saarekkeessa tosin esiintyy
useimmiten vain yhdenmittaisia puita, jotka voivat kuitenkin olla topologialtaan
20
Parhaan puun etsiminen ja puun uudelleenjärjestelymenetelmät
209
Kuva 20.1: Menetelmä, jolla maapallon korkein kohta löytyy sokeiden laskuverjohypääjien avulla. Mustalla on merkitty hyppääjän tiputuspaikka ja vihreällä paikka, johon hän
päätyy (tiputuspaikan lähimaaston korkein kohta).
hyvinkin erilaisia. Esimerkiksi kaikki parsimoniapuut, joiden pituus on 100, saattavat muodostaa yhden saarekkeen, joskin puiden muoto voi erota toisistaan, yleensä
ei kuitenkaan kovin paljon.
Koska yhden laskuvarjohyppääjän käyttäminen ei riitä kaikkein korkeimman
huipun löytämiseksi maapallolta, on analogiaamme vedoten molekyylisystemaattisessa analyysissäkin käytettävä useita RAS-toistoja. Näin voimme kartoittaa suuren osan puuavaruudessa olevista saarekkeista. Koska samalla saarekkeella puut
ovat keskenään varsin samanlaisia, yleensä riittää, että saarekkeelle osutaan yhden
kerran, ja saarekkeesta löydetyn yhden puun perusteella voidaan sitä uudelleenjärjestelemällä haluttaessa löytää kaikki muutkin samalla saarekkeella sijaitsevat
puut. Useimmiten on kuitenkin hedelmällisempää kartoittaa mahdollisimman suuri
osa saarekkeista kuin samalla saarekkella olevista puista.
Jos siis laskenta-aika rajoittaa analyysiä, on kannattavampaa käyttää tuo aika
useiden RAS-toistojen tekoon kuin yhden RAS-toiston (puun) analysointiin hyvin
tehokkaista uudelleenjärjestelymenetelmiä käyttäen. Käytännössä on nimittäin havaittu, että aineistolle kaikkein paras puu löytää parhaiten juuri yllä hahmoteltua
menetelmää käyttäen. Jos tutkitaan vain yhtä RAS-toistoa, niin sille varmasti löydetään tuossa käytettävissä olevassa ajassa varsin hyvä puu, mutta se ei välttämättä ole aineistolle kaikkein paras puu, mikä olisi löytynyt, jos olisi tehty useampia
RAS-toistoja. Paras tilanne on tietenkin silloin, kun ainesto voidaan analysoida esimerkiksi sataa RAS-toistoa käyttäen siten, että kullekin toistolle kyetään etsimään
paras puu jotakin uudelleenjärjestelymenetelmää käyttäen.
20.2.1 Perinteinen haku
Seuraavassa hahmotellaan vielä perinteisen hakustrategian toiminta parsimoniaanalyysiä esimerkkinä käyttäen. Perinteinen hakustrategia toimii hyvin suhteellisen
pienille aineistoille, siis sellaisille, joissa on korkeintaan 50-100 taksonia.
1. Sekoitetaan sekvenssien järjestys 100-10000 kertaa (RAS-toistot), ja muodostetaan jokaiselle Wagner-menetelmää käyttäen puu.
2. Etsitään jokaiselle RAS-toistolle lyhyin puu käyttäen uudelleenjärjestelymenetelmiä.
210
Bioinformatiikan perusteet
• Alle 20 taksonia -> täydellinen haku tai rajatu haku
• 21-100 taksonia -> NNI-, SPR- tai TBR-uudelleenjärjestely.
– NNI ei ole kovin tehokas uudelleenjärjestelymenetelmä
– SPR on tehokkaampi kuin SPR
– TBR on perinteisistä menetelmistä tehokkai uudelleenjärjestelymenetelmä
– Laskenta-aika: NNI < SPR < TBR
3. Säilytetään haun eri välivaiheissa muistissa vain pieni määrä puita, esimerkiksi yksi lyhyin parsimoniapuu kutakin RAS-toistoa kohden. Periaatteessa
useampiakin puita voitaisiin säilyttää, mutta se paranna tuloksia oleellisesti,
kuluttaa vain enemmän aikaa. Kaikkia mahdollisia puita ei siten tarvitse säilyttää muistissa, sillä jo pieneekin puiden määrään perustuva konsensusdiagrammi välittää saman inormaation kuin suuremmaan puumäärän perusteella muodostettu, mutta vain jos konsensuspuuhun yhdistetyt puut edustavat
erillisiä saarekkeita puuavaruudessa.
4. Haku voidaan keskeyttää, esimerkiksi jos kymmenen ensimmäistä RAS-toistoa
tuottavat kaikki tulokseksi saman puun. Toisaalta hakua kannattaa jatkaa, jos
esimerkiksi vain joka sadas RAS-toisto löytää saman puun. Niinpä kerrallaan
kannattanee tehdä esimerkiksi vain 100 RAS-toistoa, ja tulokset kannattanee
tarkistaa ennen seuraavan sadan toiston ajamista.
Analyysi voidaan toteuttaa perinteisellä hakustrategialla esimerkiksi tietokoneohjelmia PAUP (NNI, SPR ja TBR) ja PHYLIP (NNI ja SPR) käyttäen.
20.2.2 Uudempia menetelmiä käyttävä haku
Uudemmilla menetelmillä, kuten parsimony ratchet, toteutettua hakua on välttämätöntä käyttää, kun aineiston koko kasvaa kohtuullisen suureksi, käytännössä jos
aineistossa on yli 100-500 taksonia. Perinteinen menetelmä ajautuu suurten aineistojen kohdalla ongelmiin, sillä suuressa puussa kaikkien yksittäisten osien tulisi
olla mahdollisimman edullisella tavalla järjestettyjä, jotta koko puu muodostuisi
mahdollisimman yksinkertaiseksi.
Uudempia menetelmiä käyttävä haku etenee kuten perinteinen hakukin, mutta
NNI-, SPR- ja TBR-uudelleenjärjestelymenetelmien sijasta käytetään edellä lueteltuja tehokkaampia menetelmiä. Käytännössä esimerkiksi hakustrategia, jossa uudelleenjärjestelymenetelmänä käytetään jotakin seuraavista on usein osoittautunut
toimivaksi:
• ratchet
• consensus based sectorial search + tree fusing (CSS + TF)
• CSS + TF + tree drifting (CSS + TF + DFT)
Ratchet tuottaa usein yksinäänkin hyviä tuloksia, mutta sen vaatima ajoaika on
kahta muuta yhdistelmää selvästi pidempi, jos halutaan päästä lopputuloksena samaan, yhtä lyhyeen puuhun. CSS + TF toimii varsin hyvin monenlaisille aineistoille, mutta kovin monimutkaisille aineistolle on enemmin syytä käyttää CSS + TF +
DFT -menetelmää. Siten, nykyinen suositeltavin, suurille aineistoille soveltuva uudellenjärjestelymenetelmä yhdistelee simuloitua jäähdytystä (simulated annealing,
tree drifting), geneettistä algoritmia (tree fusing) ja divide-and-conquer -algoritmiä
(sectorial search).
Uudet hakustrategiat ovat kuvanneet Goloboff (1999) ja Nixon (1999). Ratchet on saatavilla sekä ohjelmissa PAUP että ohjelmassa TNT. Muut yllämainitut
20
Parhaan puun etsiminen ja puun uudelleenjärjestelymenetelmät
211
menetelmät löytyvät TNT-ohjelmasta. Lisäksi ohjelma POY käyttää algoritmeja
lyhyimmän parsimoniapuun löytämiseen.
Yllämainitujen uudempien menetelmien lisäksi on kehitetty useita muitakin
vaihtoehtoja, joista ainakin Rec-I-DCM3-ohjelman sisältämä disc-covering method, joka on eräänlainen divide-and-conquer -algoritmin muunnos, näyttää erityisesti TNT:n (CSS + TF + DFT) kanssa yhdistettynä näyttää toimivan erittäin tehokkaasti (Roshan ja Moret, 2004). Ohjelman kehittäjien testeissä TNT-ohjelma ei
enää kyennyt löytämään kaikkein lyhyintä puuta aineistolle, jossa oli yli 4500 16S
rRNA-sekvenssiä. Ainoastaan Rec-I-DCM3:n kanssa yhdistettynä analyysi tuotti
hyväksyttävän tuloksen. Siten näyttääkin siltä, että TNT:n sisältämät menetelmät
eivät välttämättä suoriudu enää yli 2000-3000 sekvenssiä sisältävien aineistojen
analysoinnista täysin moitteettomasti.
20.3
Miten menetelmät toimivat?
20.3.1 Täydellinen haku
Täydellisen hauan idean on yksinkertainen: muodostetaan kaikki mahdolliset puut,
lasketaan niiden pituudet, ja valitaan kaikkien läpikäytyjen puiden joukosta SE
kaikkein lyhyin puu. Tietenkin yhtä lyhyitä puita voi löytyä useita, mutta täydellinen haku takaa, että lyhyin puu tai kaikki lyhyimmät puut varmasti löytyvät. Täydellinen haku vie kuitenkin runsaasti aikaa, ja nopeallakin tietokoneella on tällä
hetkellä mahdollista analysoida vain noin 20 sekvenssin aineisto täydellistä hakua
käyttäen. Pienemmille aineistoille sen käyttäminen on mahdollista, ja jopa heuristisia menetelmiä suotavampaa, koska heuristiset eivät välttämättä löydä kaikkein
lyhyintä puuta.
Täydellisen haun periaate on vielä kuvattu kuvassa 20.2 viittä taksonia käyttäen.
Kuva 20.2: Täydellinen haku. Kuva: Jaakko Hyvönen, mukaellen Swoffordia (1996).
212
Bioinformatiikan perusteet
20.3.2 Rajattu haku
Rajattu haku, kuten täydellinen hakukin, takaa että lyhyin tai kaikki lyhyimmät
puut löydetään. Rajattu haku on kuitenkin parannus täydelliseen hakuun nähden
siinä mielessä, että rajatussa haussa ei kaikkia mahdollisia vaihtoehtoja käydä läpi,
vaan osa vaihtoehdoista karsitaan pois turhina läpikäytävinä.
Kuvassa 20.3 on havainnollistettu menetelmä toimintaa. Turhien vaihtoehtojen
karsiminen toimii sillä periaatteella, että jos esimerkiksi puun IIb havaitaan olevan
pidempi kuin mikään puista IIIa-IIIe, ei puusta IIb kehittyviä puita kannata tutkia
enää tarkemmin. Päättely perustuu siihen, että kun puuhun lisätään uusi taksoni,
voi sen pituus ainoastaan lyhentyä, ei pidentyä, joten IIb:stä erkanevat viiden taksonit puut kaikki pidempiä kuin yksikään IIIa-IIIe puista, ja siten niitä turha enää
tarkastella tarkemmin.
Kuva 20.3: Rajattu haku. Kuva: Jaakko Hyvönen, mukaellen Swoffordia (1996).
20.3.3 Nearest neighbor interchange
Nearest neighbor interchange (NNI) menetelmää kutsutaan toisinaan myös nimellä
"local rearrangement"tai "local branch-swapping". Se on yksinkertaisin heuristisista puunuudelleenjärjestelymenetelmistä. NNI menetelmä perustuu siihen, että jokainen binaarisen puun sisäinen haara jakaa puun neljään "nearest neighbor"(lähinaapuri)
oksaan. Kuvassa 20.4 tämä on havainnollistettu. Punaisin täplin merkitty puun sisäinen haara jakaa puun neljään lähinaapurioksaan, jotka ovat (A,B), C, D ja (E,F).
Yksi NNI koostuu kahden lähimmän naapurin keskinäisestä vaihdosta. Toinen naapureista valitaan puun sisäisen oksan vasemmalta ja toinen oikealta puolelta. Yllä olevassa kuvassa on esitetty kaksi mahdollista NNI:tä. Kullekin puun
sisäiselle oksalle on itseasiassa mahdollista tehdä vain kaksi erilaista NNI:tä. NNI
toistetaan jokaiselle puun sisäiselle oksalle, ja näin muodostuvien puiden pituudet
lasketaan, ja niiden joukosta valitaan lyhyin tai lyhyimmät. NNI ei ole kovin tehokas uudelleenjärjestelymenetelmä, eikä siten kovinkaan hyvin löydä aineistolle
kaikkein lyhyintä mahdollista puuta.
20
Parhaan puun etsiminen ja puun uudelleenjärjestelymenetelmät
213
Kuva 20.4: NNI-haku. Kuva: Jaakko Hyvönen, mukaellen Swoffordia (1996).
20.3.4 Subtree pruning and regrafting
Subtree pruning and regrafting (SPR) tunnetaan myös nimellä "global branch-swapping".
Se on NNI:tä tehokkaampi, ja löytää siten useimmiten samalle aineistolle lyhyemmän puun kuin NNI yksinään. SPR perustuu siihen, että puu pilkotaan tietystä puun
sisäisestä oksasta kahteen osaan, joista toinen on juurrettu, ja toinen juurtamaton.
Sitten juurrettu puun osa istutetaan uudelleen (juuresta) jokaiseen juurtamattoman
puun oksaan. Sama toistetaan jokaiselle puun sisäiselle oksalle, ja näin muodostettuista puista valitaa lyhyin tai lyhyimmät.
Kuvassa 20.5 menetelmän toiminta on esitetty kuvallisesti. Puu (A,B) on juurrettu puu, ja se istutetaan jokaiseen juurtamattoman (((E,F),D),C) oksaan. Kuvassa
on esitetty vain yksi mahdollinen istutus.
20.3.5 Tree bisection and reconnection
Tree bisection and reconnection (TBR) toimii samaan tapaan kuin SPR, mutta puun
puolikkaat muodostuvat juurtamattomiksi. Toinnen irroitetuista oksista juurretaan
uudelleen ennen en istuttamista takaisin jäljellejääneeseen (juurtamattomaan) puuhun. Allaolevassa kuvassa 20.6 on esitetty TBR:n toiminta tarkemmin. Kuvassa
taksonien (A,B,C) muodostama oksa juurretaan B:n ja (A,C):n välistä, ja liitetään
takaisin jäljellejääneeseen puuhun.
TBR on usein varsin tehokas uudelleenjärjestelymenetelmä lyhyimmän puun
löytämiseksi. Sen vaatima ajoaika on kuitenkin huomattavasti pidempi kuin NNI:n
ja SPR:n vaatima aika.
NNI-, SPR- ja TBR-uudelleenjärjestelymenetelmät eivät kykene löytämään lyhyintä puuta, jos menetelmälle annetun puun ja lyhyimmän puun välillä ei ole yksittäisistä uudelleenjärjestelyistä muodostuvaa polkua. Jos esimerkiksi jossakin vaiheessa tulisi kulkea sellaisen puun kautta, joka on tismalleen yhtä pitkä kuin puu,
jota uudelleenjärjesteltiin, ei lyhintä puuta löydetä, jos ainoastaan edellistä paremmat vaihtoehdot hyväksytään eli jos vain edellistä lyhyemmät puut säästetään, ja
niitä uudelleenjärjestellään. Ratkaisuna on tietenkin säästää kaikki yhdellä uudelleenjärjestelykierroksella (siis kun on tehty yksi NNI, SPR tai TBR) löydetyt yhtä
hyvät puut, ja järjestellä kaikkia niitä edelleen seuraavalla kierroksella.
Menetelmät eivät myöskään löydä lyhintä puuta, jos syötepuun ja lyhintä puuta erottavat tarvittavat muutokset sijaitsevat puun eri osissa. Ratkaisuna tähän ongelmaan on jakaa puu uudelleenjärjestelyiden aikana (SPR ja TBR) useampaan
214
Bioinformatiikan perusteet
Kuva 20.5: SPR-haku. Kuva: Jaakko Hyvönen, mukaellen Swoffordia (1996).
kuin kahteen osaan. Tällainen vaihtoehto löytyy esimerkiksi ohjelmasta Nona, mutta analyysin laskenta-aika voi muodostua varsin pitkäksi, ja nykyisin uudemmat
menetelmät, joita esitellään seuraavassa ovat pitkälti korvanneet tämän menetelmän.
20.3.6 Ratchet
Seuraavassa käsitellään ratchet-menetelmää siten kuin se toimii parsimoniamenetelmän yhteydessä, mutta samalla periaatteella ratchet-analyysi voidaan toteuttaa
myös suurimman uskottavuuden menetelmää käyttäen. Usein heuristinen haku juuttuu paikalliseen optimiin, esimerkiksi kuvassa 301204-1 hyppääjä 5 ei löydä kaikkein korkeinta huippua, koska se ei ole laskeutumispaikan lähimaastossa, eikä hyppääjä voi ylittää laskeutumispaikkansa ja korkeimman huipun välistä solaa. Ratchet mahdollistaa sen, että hypääjät voivat ylittää myös solia, joten sitä käyttäen pitäisi todennäköisyyden, että lyhyin puu löydetään analysoitavalle aineistolle, olla
suurempi kuin perinteisiä hakumenetelmiä käyttäen. Ratchet koostuu seuraavista
vaiheista:
1. Usein ratchet-analyysi tehdään noin 200:aa RAS-toistoa käyttäen. Jokaiselle toistolle muodostetaan Wagnerin menetelmällä puu, jonka pituus optimoidaan TBR-uudelleenjärjestelymenetelmällä. Näin löydetyistä lyhyimmistä puista säilytetään yksi tai kaksi. Nämä puut siirretään vaiheeseen 2, ja sama toistetaan jokaisesta RAS-toistosta saaduille lyhyimmille puille, siis yhteensä
200-400:lle puulle.
2. Valitaan satunnaisesti alkuperäisen rinnastuksen informatiivisista ominaisuuksista, useimmiten noin 5-25% kerrallaan, ja muutetaan niiden painotusta, esimerkiksi kaksinkertaistaen niiden painoarvo analyysissä. Tämä tarkoittaisi
siis sitä, että normaalisti yhdeksi muutokseksi tulkittava mutaatio lisäisikin
yhden asemasta puun pituutta kahdella.
20
Parhaan puun etsiminen ja puun uudelleenjärjestelymenetelmät
Kuva 20.6: TBR-haku. Kuva: Jaakko Hyvönen, mukaellen Swoffordia (1996).
215
216
Bioinformatiikan perusteet
3. Vaiheesta 1 saatu puu uudelleenjärjestellään vaiheessa 2 muodostettua painotettua aineistoa käyttäen, ja näin saatavan uuden puun pituus lasketaan. Tyypillisesti uudelleenjärjestelyyn käytetään TBR-menetelmää, ja vain yksi puu
mahdollisesti useampienkin yhtä lyhyiden puiden joukosta säilytetään. Tässä
vaiheessa muodostettu puu siis sellainen, ettei sen pituutta voida käytetyllä
uudelleenjärjestelymenetelmällä enää enempää lyhentää.
4. Aineiston painoarvot palautetaan alkuperäisen aineiston mukaisiksi, ja vaiheessa 3 löydetty puu alistetaan jälleen uudelleenjärjestelyille esimerkiksi
TBR-menetelmää käyttäen, nyt siis alkuperäistä aineistoa käyttäen. Näin pyritään jälleen löytämään mahdollisin lyhyt puu alkuperäiselle aineistolle.
5. Kun optimaalinen puu on vaiheessa 4 löytynyt, siirrytään jälleen takaisin vaiheeseen 2, ja tätä toistetaan jokaiselle vaiheessa 1 löydetylle puulle muutamia kertoja. Iteraatioiden jälkeen jokaisesta RAS-toistosta säilytetään vain
yksi puu, siis yhteensä 200 puuta, jotka ovat käyneet vaiheet 2-4 läpi muutamia kertoja.
6. Kun kaikki RAS-toistot on käyty läpi, valitaan kaikkien 200 lyhyimmän puu
joukosta kaikkein lyhyin, ja sailytetään se.
20.3.7 Tree fusing
Tree fusing -menetelmässä on ideana vaihtaa kahden puun välillä kaksi oksaa (Kuva 20.7). Näissä oksissa sijaitsevien taksonien tulee olla molemmissa puissa identtiset, joskaan oksien topologian ei tarvitse olla identtinen, mihin koko menetelmän
toimivuus perustuukin. Parhaiten menetelmä toimii, jos sille syötetään kerrallaan
useita puita, ja näitä yhdistellään pareittain seuraavasti:
1. Valitse satunnaisesti yksi puu. Tätä kutsutaan kohdepuuksi.
2. Valitse satunnaisesti toinen puu. Tätä kutsutaan lähdepuuksi. Jos yhtään yhdisteltäviä puita ei ole jäljellä (kaikki mahdollisuudet on jo kokeiltu), tee
puulle SPR-uudelleenjärjestelyt, talleta näin muodostunut puu uudeksi puuksi, ja siirry kohtaan 1.
3. Tarkastele lähdepuuta ja kohdepuuta, ja vaihda jokin yhteensopiva oksa niiden välillä. Siirry sitten takaisin vaiheeseen 2.
4. Vaihe 1 toistetaan useita kertoja, tyypillisesti 3-5.
5. Lopuksi kaikkien puiden pituudet lasketaan, ja niiden joukosta valitaan lyhyin puu.
Tree fusing on hyvin samankaltainen kuin Moilasen (1999) kuvaama geneettiseen algoritmiin perustuva menetelmä.
20.3.8 Tree-drifting
Tree-drifting-menetelmässä hyväksytään puuta uudelleenjärjestellessä myös puun
pituutta huonontavia uudelleenjärjestelyitä, tosin suhteellisen pienellä todennäköisyydellä. Tällaisten suboptimaalisten ratkaisujen hyväksyminen on usein vaikeiden
ongelmien ratkaisuun käytetty menetelmä, ja tunnetaan paremmin nimellä simuloitu jäähdytys (simulated annealing).
Tree-drifting -menetelmässä suboptimaalisten uudelleenjärjestelyiden hyväksymiseen käytetään RFD:tä (relative fitness difference) ja puun pituutta. RFD voidaan laskea kahden puun (A ja B) välille kaavalla
R F D AB = (F − C)/F,
20
Parhaan puun etsiminen ja puun uudelleenjärjestelymenetelmät
217
Kuva 20.7: Tree fusing-menetelmän periaate: tietyt oksat vaihdetaan kahden puun välillä.
Kuva: Jaakko Hyvönen.
218
Bioinformatiikan perusteet
jossa F on puuhun A parhaiten sopivien ominaisuuksien suhteen laskettu puiden välinen pituusero, ja C on sama puulle B.
Suboptimaalinen uudelleenjärjestely hylätään (sitä ei tehdä), jos RFD on suurempi kuin Z, joka saadaan kaavasta
Z = X/(F + J − C),
jossa X on satunnaisnumero väliltä 0-99, J on alkuperäisen puun ja uudelleenjärjestelyn seurauksena syntyvän puun pituuksien erotus, ja C on puuhun tehtyjen
muutosten kokonaismäärä.
Tree-drfiting, jota voidaan käyttää minkä tahansa muun uudelleenjärjestelymenetelmän kanssa, useimmiten TBR-menetelmän yhteydessä, toimii seuraavasti.
1. Laske lähtöpuun pituus (saatu esimerkiksi RAS-toistosta Wagnerin menetelmällä).
2. Laske RDF ja Z samalle puulle mahdollisen uudelleenjärjestelyn jälkeen.
Uudelleenjärjestely hyväksytään, jos RFD < Z. Puuhun tehdään uudelleenjärjestely, ja niiden kokonaismäärää C kasvatetaan yhdellä. RFD:hen ja Z:taan
käytettävät puun pituudet määritetään uudelleenjärjesteltävänä olevan puu ja
siitä uudelleenjärjestelynä muodostuvan puun välille. Kun puuhun on tehty
tietty määrä uudelleenjärjestelyitä (C), yksi tree-drifting kierros päättyy.
3. Vaiheessa 2 muodostettu puu alistetaan uudelleen vaiheeseen 2, eli tree-drifting
toistetaan puulle, yleensä muutamia (3-5) kertoja.
20.3.9 Sectorial searches
Sectorial searches (SS) perustuu puun pilkkomiseen pienemmiksi osasiksi. Suuremmasta puusta irrotetaan pieni osa, siis yksi oksa, jonka pituus sitten optimoidaan perinteisiä menetelmiä käyttäen (Kuva 20.8). Jos tuloksena on pituudeltaan
alkuperäistä oksaa lyhyempi oksa, puun alkuperäinen oksa korvataan näin löydetyllä uudella oksalla. SS:n tehokkuus perustuu siihen, että pienempien puiden uudelleenjärjestely ja optimointi on huomattavasti suuria puita nopeampaa. Puusta valittavat oksat, sektorit, voidaan valita joko käyttäen satunnaismenetelmää (RSS) tai
konsensuksen perusteella (CSS). Myös näiden yhdistelmää voidaan käyttää (MSS).
Random sectorial search (RSS)
RSS-menetelmä toimii seuraavasti.
1. Valitse puusta sellainen sektori, että siihen kuuluu S taksonia. Sopiva määrä
näyttää käytännössä olevan 35-55 taksonia.
2. Tee R kappaletta RAS+TBR-toistoja tämän sektorin muodostamalle pikkuaineistolle. Jos nämä R kappaletta toistoja tuottavat kaikki saman pituisen puun
kuin alkuperäinen sektorikin oli, siirry vaiheeseen 3, muutoin tee vielä r kappaletta RAS+TBR-toistoja. Jos sektorin koko oli 35-55 taksonia, ovat R=3 ja
r=3 sopivat asetuksen tässä vaiheessa.
3. Valitse R + r -toiston tuottamista puista paras, ja sijoita se takaisin sektorin
paikalle alkuperäiseen puuhun. Siirry vaiheeseen 4.
4. Tee muodostuneelle puulle yksi kierros TBR-uudelleenjärjestelyitä, mutta
vain, jos vaiheessa 3 puuhun on tehty uudelleensijoituksia yli X kertaa. Siirry
vaiheeseen 1 ja toista tämä N kertaa. X:n arvoksi sopivat hyvin arvot väliltä
5-10, ja N:n määräksi noin 20-25, riippuen tietenkin paljon analysoitavasta
aineistosta.
20
Parhaan puun etsiminen ja puun uudelleenjärjestelymenetelmät
219
Kuva 20.8: Sectorial search:in periaate. Kuva: Jaakko Hyvönen.
Consensus-based sectorial searches (CSS)
CSS on hyvin samankaltainen kuin RSS, mutta sektorin valinta perustuu aiemmin
laskettuun konsensuspuuhun. Konsensuspuu on laadittu ennen menetelmän soveltamista esimerkiksi kaikista muistissa (tehty vaikkapa RAS+TBR-menetelmällä)
olevista puista. CSS:ää varten valitaan sellaisia sektoreita, joissa konsensuspuussa
esiintyy polytomioita. Polytomiathan ovat sellaisia puun alueita, joilla aineistossa
esiintyy eri ominaisuuksien välisiä konflikteja.
On epätodennäköistä, että alle kymmen taksonin muodostama sektori olisi
puussa suboptimaalisesti muodostettu, joten CSS-menetelmälle sektorin koko S
= 10. Valittavien sektorien määrä riippuu siitä, kuinka monessa kohdassa puussa
esiintyy polytomioita.
20.3.10 Mixed sectorial searches (MSS)
MSS on RSS:n ja CSS:n yhdistelmä. Jokainen MSS-toisto alkaa RAS+SPR-haulla.
Kun SPR on valmis, lasketaan siitä ja edellisen toiston parhaasta puusta konsensus, jota käytetään sitten rajoitteena (constrain) TBR-uudelleenjärjestelyssä. Tämä
vastaa CSS-menetelmää, ja kun se on valmistunut, tehdään puulle vielä RSS. Koska MSS:ssä käytetään yhdistelmänä sekä RSS:ää että CSS:ää, se tuottaa parempia
tuloksia kuin kumpikaan menetelmistä yksinään.
20.4
Superpuumenetelmät
Superpuumenetelmät (supertree methods) ovat menetelmiä, joiden avulla useammista pienemmistä puista kootaan yksi suuri kaikki analysoitavat taksonit käsittävä
puu. Superpuumenetelmien kehitykseen kohdistuu suuria odotuksia, sillä pienempien aineistojen analysoiminen on suurempia yksinkertaisempaa ja nopeampaa, ja
jos tällaisten pienten aineistojen antamat tulokset voitaisiin helposti yhdistyy yhteen puuhun, olisi siitä suurta apua.
Superpuumenetelmät voidaan käsittää divide-and-conquer -algoritmien (DCM)
220
Bioinformatiikan perusteet
erikoistapauksiksi. DCM on yleinen ohjelmointi- tai ongelmienratkontatekniikka,
jonka avulla voidaan ratkoa vaikeita optimointitehtäviä. Siksi sen soveltaminen systematiikkaan on luonnollista; lyhyimmän parsimoniapuun tai uskottavimman puun
löytäminen ei ole laskennallisesti yksinkertainen tehtävä. Menetelmä esitellään tässä, vaikka se ei olekaan varsinainen puunuudelleenjärjestelymenetelmä.
DCM toimii molekyylisystematiikan menetelmien yhteydessä jokseenkin seuraavasti.
1. Jaa alkuperäinen aineisto pienempiin, osittain päällekkäisiin aineistoihin.
2. Muodosta haluttua menetelmää käyttäen puu jokaiselle näistä aineistoista.
3. Yhdistä pienemmistä aineistoista saadut puut yhdeksi suureksi, koko aineistoa kuvaavaksi puuksi. Näin saatu puu voi sisältää polytoimioita.
4. Uudelleenjärjestele vaiheessa 3 muodostettua puuta lyhyimmän binäärisen
puun löytämiseksi.
DCM ei rajoitu mihinkään tiettyyn analyysimenetelmään, vaan sitä voidaan
soveltaa niin parsimonia- kuin suurimman uskottavuuden menetelmänkin kanssa.
Tllä hetkellä kenties tunnetuin DCM:ää soveltava menetelmä on quartet puzzling
(Strimmer, 1996), joka on toteutettu suurimman uskottavuuden menetelmää soveltavassa TreePuzzle-ohjelmassa. Toinen vastaavankaltaista DCM:ää soveltava parsimoniaohjelma on Rec-I-DCM (Roshan, 2004).
DCM:ää käyttäen saadaan usein tavallista nopeammin muodostettua puu, jonka pituus tai uskottavuus voidaan sitten muilla menetelmillä optimoida. Esimerkiksi Rec-I-DCM:n tapauksessa näyttää myös siltä, että menetelmä tuottaa nykyisten menetelmien (TNT-ohjelma) kanssa yhdistettynä erinomaisia tuloksia. Koska
molemmat ohjelmat soveltavat parsimoniamenetelmää, on niiden vaatima ajoaika
huomattavasti lyhyempi kuin esimerkiksi TreePuzzle-ohjelman ajoaika.
Sekä Rec-I-DCM- että TreePuzzle-ohjelmissa siis muodostetaan DCM:ää käyttäen superpuu, jota sitten uudelleenjärjestlymenetelmin pyritään parantamaan. Kummassakaan ohjelmassa ei ole varsinaisia uudelleenjärjestelymenetelmiä, mutta RecI-DCM:n tuloksia on käsitelty esimerkiksi PAUP- ja TNT-ohjelmissa, TreePuzzlen
tuottamia tuloksia voi hyvin optimoida niinikään PAUP-ohjelmaa käyttäen.
21
Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit
221
21 Puun luotettavuuden
arviointi, konsensuspuut
ja tilastolliset testit
21.1
Puun luotettavuuden arviointi
Kun paras puu on löydetty, yleensä on tapana tutkia, kuinka luotettava se on. On
oikeastaan väärin puhua puun luotettavuuden arvioinnista, sillä menetelmät eivät
niinkään arvioi kuinka luotettava itse puu on, vaan ne lähinnä kertovat kuinka luotettava tai hyvä tai käyttökelpoinen on keräämämme aineisto. Tämän perusteella
pystytään tietenkin päättelemään jotakin myös puusta, sillä muodostettu puu on ainoastaan niin hyvä kuin aineisto, jonka perusteella on se on muodostettu.
Puun luotettavuuden arviointiin käytetään nykyisin pääosin kolmea menetelmää, bootstrapping, jackknifing ja Bremerin tukiarvo (Bremer support, decay index). Bootstrapping on usein erityisesti etäisyys- ja suurimman uskottavuuden menetelmiä soveltavien tutkijoiden suosiossa, ja parsimoniamenetelmää soveltavat tutkijat tukeutuvat useammin Bremerin tukiarvoon tai jackknifing-menetelmään kuin
bootstrapping-menetelmään. Lisäksi käytössä on muitakin harvinaisempia menetelmiä, kuten permutation tail probability (PTP), kladogrammien pituusjakauma
(distribution of cladogram lengths, DCL) ja parametrinen bootstrapping, mutta niitä näkee käytettävän vain suhteellisen harvoin. Lisäksi ne eivät mittaa yksittäisten
ryhmien saamaa tukea, vaan koko puun saamaa tukea tai luotettavuutta.
Bootstrapping, jackknifing ja bremerin tukiarvo määritetään siten, että aluksi
aineisto analysoidaan jotakin haluttua menetelmää käyttäen. Sen jälkeen samaiselle aineistolle tehdään luotettavuusanalyysi, ja sen tulokset siirretään alkuperäisen
analyysin tuottamaan puuhun. Käytännössä tämä tapahtuu siten, että bootstrappinganalyysin tulokset, siis tukiarvot ilmoitetaan alkuperäisen analyysin perusteella muodostetun puun haaroissa. Esimerkiksi pelkkä bootstrapping-analyysi ei siis riitä aineiston analyysiksi, vaan sen tarkoituksena on tukea varsinaista analyysia. Seuraavassa esitetään tarkemmin eri menetelmien toiminta.
21.2
Bootstrapping
Bootstrapping-menetelmä on tilastollinen satunnaistamismenetelmä, joka avulla voidaan arvioida luottamusvälejä. Tavallisesti toimitaan siten, että väestöstä kerätään
useita otoksia, joista jokainen koostuu esimerkiksi 20 henkilöstä, ja näiden otosten keskiarvojen perusteella saadaan määritettyä sekä väestön keskipituus etä keskipituuden luottamusväli. Bootstrapping-menetelmässä väestön keskipituus ja sen
luottamusväli pyritään arvioimaan yhden ainoan otoksen perusteella (Kuva 21.1).
Siitä menetelmä on saanut nimensäkin, mikä tarkoittaa suunnilleen “vetää itsensä
kengännauhoista ylös”.
Systematiikan aineistoille sovellettuna bootstrapping poimii ominaisuusmat-
222
Bioinformatiikan perusteet
Kuva 21.1: Bootstrapping-menetelmän periaate. Kuva: Jaakko Hyvönen.
riisista, esimerkiksi sekvenssirinnastuksesta, satunnaisesti ominaisuuksia uuteen,
satunnaistettuun ominaisuusmatriisiin (Felsenstein, 1985). Osa ominaisuuksista poimitaan satunnaistettuun matriisiin kertaalleen, jotkut useampia kertoja ja jotkut eivät tule valituiksi lainkaan. Osa ominaisuuksista siis deletoidaan analyysistä satunnaisesti, ja osaa muista ominaisuuksista painotetaan satunnaisesti (valitaan useampia kertoja).
Satunnaismateriiseja luodaan tällä tapaa tyypillisesti 100-1000 kappaletta. Jokainen satunnaismatriisi analysoidaan kuten alkuperäinen aineistokin. Siten jokaista satunnaismatriisia kohden muodostuu vähintään yksi puu; jos useampia yhtä hyviä puita löytyy, otetaan niistä yleensä talteen vain yksi. Satunnaisaineistojen pohjalta muodostettujen puiden sisältämä informaatio tiivistetään enemmistökompromissipuuksi (majority rule consensus). Puussa jokaiselle puun haaralle ilmoitetaan
numeroarvo, joka on niiden satunnaisaineistojen tuottamien puiden määrä, joissa
kyseinen ryhmä esiintyy (Kuva 21.2). Usein numeroarvo muutetaan lopuksi prosenteiksi. Numeroarvot tulkitaan siten, että jos arvo on esimerkiksi 95%, sanotaan
sen bootstrapping-tukiarvon olevan 95%. Ei ole täysin selvää, mikä voidaan tulkita merkittäväksi boostrapping-tukiarvoksi, mutta yleensä arvojen väliltä 70-100
katsotaan tukevan tietyn ryhmän esiintymistä puusta.
Kuten sanottu, ei tukiarvo kerro varsinaisesti puun oikeellisuudesta, vaan siitä
miten hyvin aineisto tukee kyseistä puun muotoa. Siten bootstrapping-arvot voitaisiin tulkita siten, että jos arvo on korkea, näyttää aineiston perusteella siltä, että
kyseinen ryhmä kuuluu puuhun sellaisenaan.
Bootstrapping-tukiarvojen tulkitaan sisältyy muutamia hankaluuksia. Jotta tietylle ryhmälle saatu tukiarvo voitaisiin suoraan tulkita luottamusvälinä, olisi analyysissä pitänyt määrittää kyseinen ryhmä monofyleettiseksi, mutta käytännössä
näin menetellään vain harvoin. Siksi bootstrapping-tukiarvoja tuskin voidaan tulkita varsinaisina luottamusväleinä. Lisäksi, jotta bootstrapping-arvot voitaisiin tulkita
luottamusväleinä, pitäisi analysoitavan aineiston olla suuri. Käytännössä tämä tarkoittanee noin 1000-10000 ominaisuutta käsittävää aineistoa, mikä on hankala saavuttaa jopa sekvenssejä käyttäen; muuntelemattomat ominaisuudet kun eivät anna
tietoa lajien välisistä suhteista.
21
Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit
223
Kuva 21.2: Boostrapping-menetelmän periaate käytettäessä taksonomista ominaisuusmatriisia ja parsimoniamenetelmää. Kuva: Jaakko Hyvönen.
Bootstrapping-arvojen voidaan katsoa myös kuvastavan tiettyä ryhmää tukevien ominaisuuksien määrää. Jos monet ominaisuudet tukevat jotakin tiettyä ryhmää, sen voidaan otaksua esiintyvän tavallista useammin myös satunnaistettujen aineistojen perusteella muodostetuissa puissa ja saavan siten korkean bootstrappingtukiarvon. Esimerkiksi parsimoniamenetelmää käytettäessä tämä tulkinta on hieman ongelmallinen, sillä jos jotakin ryhmää tukee vain yksi ainut ominaisuus, mutta ryhmää vastaan ei puhu yksikään ominaisuus (jolloin sen pitäisi muodostua monofyleettiseksi ryhmäksi puuhun), on hyvin epätodennäköistä, että kyseinen ryhmä
löytyy bootstrapping-puusta tai saa edes korkeaa tukiarvoa. Bootstrapping näyttääkin tekevän vain yksisuuntaisen testi: ryhmät, jotka ovat aineiston perusteella tuettuja, saavat korkean tukiarvon, mutta ryhmien, jotka eivät ole edustettuna
bootstrapping-puussa ei voida katsoa olevan tukemattomia (ja siten hylättäviä).
Mainittujen ongelmien poistamiseksi Goloboff (2003) on kehittänyt uuden
bootstrapping-menetelmän muunnelman, symmetrisen bootstrappingin, jossa ominaisuuksien saamat painoarvot tai määritelty evoluutiomalli eivät vaikuta tukiarvoihin. Tukiarvo voidaan esimerkiksi ilmoittaa sellaisten otosten suhteena, joissa
ryhmä esiintyy ja jotka ovat ryhmän kanssa ristiriidassa. Tällaista tukiarvoa kutsutaan GC-tukiarvoksi, ja se näyttää antavan tavanomaista paremman kuvan muun
muassa vähäisesti tuettujen ryhmien saamasta todellisesta tuesta.
Bootstrapping-menetelmä olettaa, että aineistoon valitut ominaisuudet ovat satunnainen otos kaikista mahdollisista ominaisuuksista. Tämä ei kuitenkaan pidä
paikkaansa, ei ainakaan morfologisten ominaisuuksien ollessa kyseessä, sillä ne on
yleensä huolellisesti valittu ja mahdolisesti karsittu useiden vaihtoehtojen joukosta.
Samaa tapaan esimerkiksi proteiineja koodaavien geenien vierrekkäiset nukleotidit
eivät ole toisistaan riippumatomia, eivätkä siten välttämättä edusta satunnaista otosta kaikista mahdollisista ominaisuuksista. Jos ominaisuudet eivät edusta satunnaista otosta kaikista mahdollisista ominaisuuksista, ei niitä voida tulkita luottamusväleinä. Tätä bootstrapping-menetelmän ominaisuutta voidaan kiertää käyttämällä
block-bootstrapping-menetelmää.
Block-bootstrapping-menetelmässä pyritään aineiston ominaisuuksien riippu-
224
Bioinformatiikan perusteet
vuus toisistaan ottamaan huomioon. Esimerkiksi proteiineja koodaavien geenien
tapauksessa kolme peräkkäistä nukleotidi muodostaa aminohappoa koodaavan kodonin, ja nukleotidit ovat siten riippuvaisia toisistaan. Tällöin block-bootstrappingmenetelmässä voitaisiin valita blokin kooksi kolme, jolloin satunnaisia aineistoja
muodostettaessa ominaisuudet poimitaan aina kolmen nukleotidin erissä.
21.3
Jackknifing
Jackknifing-menetelmä on varsin samantapainen kuin bootstrapping. Siinä missä bootstrapping-menetelmässä satunnaiset aineistot muodostettiin käyttämällä takaisinpanoa, ei jackknifing:ssa käytetä takaisinpanoa, vaan jokainen ominaisuus
voi tulla valituksi samaan satunnaiseen aineistoon korkeintaan yhden kerran. Siksi
jackknifing-menetelmällä muodostetut satunnaisaineistot ovat aina pienempiä kuin
alkuperäinen aineisto. Tilastollisesti jackknifingin avulla ei pyritä arvioimaan luottamusvälejä, vaan saamaan varianssille pienemmän arvion kuin muutoin olisi mahdollista yhtä ainoaa aineistoa käyttäen saavuttaa.
Jos satunnaista aineistoa luotaessa poistetaan vain yksi ominaisuus (first-order
jackknifing, ensimmäisen asteen jackknifing), testaa näin suoritettu jackknifing vain
sitä, tukeeko jotakin tiettyä ryhmää enemmän kuin yksi ominaisuus tai apomorfia,
jos puhutaan parsimonia-analyysistä. Jos poistetaan kerrallaan useampia ominaisuuksia, menetelmä oikeastaan vain laajentaa samaa testiä kuin jos olisi poistettu
vain yksi ominaisuus. Käytännössä jackknifing-tukiarvojen tulkinta on hyvin samanlainen kuin bootstrapping-arvojenkin. Viime kädessä vain sellaiset ryhmät, joita tukee vähintään yhtä moni ominaisuus kuin analyysissä on lajeja, tulevat analyysissä esiin.
Farris (1996) ehdotti parsimonia-ementelmän ohessa käytettäväksi jackknifingmenetelmää, jossa jokaisen ominaisuuden todennäköisyys tulla valituksi on e −1 ,
jossa e on Neperin luku (likimain 2.73), ja e −1 ≈ 0.37 (Kuva ??). Tällöin aineistosta, jossa ei ole puuttuvia havaintoja, voidaan laskea jackknifing-tukiarvon odotusarvo kaavalla 1 − e k , jossa k on ryhmää G tukevien homoplasiattomien ominaisuuksien määrä. Bootstrapping-menetelmän antamat tukiarvot lähestyvät tätä odotusarvoa, kun aineiston koko on hyvin suuri.
Jackknifing-menetelmää voidaan soveltaa myös lajeille. Tällöin useimmiten
muodostetaan satunnaisaineistoja poistamalla vain yksi taksoni kerrallaan. Jos aineistossa ei ole lainkaan homoplasiaa, yhden taksonin poistaminen analyysistä ei
vaikuta ainakaan parhaan parsimoniapuun muotoon muutoin kuin siten, että siitä
tietenkin puuttuu analyysistä poistetty taksoni. Jos aineistossa sen sijaan esiintyy
homoplasiaa, ei tuloksena välttämättä olekaan sama kuin alkuperäisen analyysin
tuottama puu. Homoplasia voidaan paljastaa, kun jackknifing-menetelmällä luotujen satunnaisaineistojen tuloksista muodostetaan strict consensus -puu. Tavallinen strict consensus -menetelmä kuitenkin jättää huomiotta ne taksonit, jotka eivät
esiinny kaikissa puissa, joten tuloksena olisi vain ulkoryhmän muodostama puu.
Siksi usein käytetäänkin menetelmän moifikaatiota jackknife strict consensus, joka tuottaa puun, jossa esitetään ryhmät, jotka esiintyvät kaikissa satunnaistetuiden
aineistojen perusteella laadituissa puissa.
21.4
Bremerin tukiarvo
Bremerin tukiarvoa on kutsuttu nimillä Bremer support, branch support, lenght difference, clade stability, support index ja decay index. Bremerin tukiarvon on ehdotettu olevan muita tukiarvoja parempi, sillä siihen vaikuttavat vain sellaiset ominaisuudet, jotka tukevat tietyn ryhmän esiintymistä puussa. Bremerin tukiarvo onkin puun, josta ryhmä puuttuu (se on mukana vain polytomiana muiden kanssa eikä
ole siten monofyleettinen), pituuden erotus parhaaseen aineistoa kuvaavaan puuhun
21
Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit
225
Kuva 21.3: Jackknifing-menetelmän periaate käytettäessä taksonomista ominaisuusmatriisia ja parsimoniamenetelmää. Vertaan kuvaan 21.2. Kuva: Jaakko Hyvönen.
nähden. Jos siis puu, josta tietty ryhmä puuttuu, on pituudeltaan yhden muutoksen
pidempi kuin paras puu, saa ryhmä Bremerin tukiarvokseen 1. Bremerin tukiarvoa
käytetään vain parsimonia-puiden yhteydessä. (Bremer, 1988)
Käytännössä Bremerin tukiarvot tietylle puulle saadaan määritettyä siten, että
aluksi aineistolle etsitään kaikkein lyhyin parsimoniapuu. Tämän jälkeen etsitään
kaikki puut, jotka ovat yhden muutokset verran tätä parasta puuta pidempiä. Näiden lyhyempien ja parhaan puun sisältämä informaatio tiivistetään strict consensuspuuhun. Etsittävien huonompien puiden pituutta lisätään yhdellä, ja sama analyysi
toistetaan. Tätä jatketaan kunnes tietyn mittaisia, kaikkein lyhyintä puuta pidempiä
puita löytyy aineistolle ainoastaan yksi. Kun tällainen puu löytyy, kaikkien jäljelläolevien puunhaarojen tukiarvojen täytyy olla >1, ja analyysi voidaan siten lopettaa.
Jos saman pituisia yhtä hyviä puita löytyy aineistolle useampiakin, aloitetaan
Bremerin tukiarvojen laskeminen muodostamalla puista strict konsensus -puu. Tällöin ainakin osa ryhmistä katoaa (ne eivät esiinny konsensuspuussa muutoin kuin
polytomioina) ja sellaisten ryhmien Bremerin tukiarvoksi tulee 0.
Puun oksan pituutta voidaan tietenkin myös käyttää kyseisen ryhmän saaman
tuen arviointiin (jos yksikään apomorfia ei tue ryhmää, on siihen johtavan haaran
pituus puussa nolla), mutta Bremerin tukiarvolla on pituuteen nähden muutamia
etuja. Kun kaikki ominaisuudet ovat täysin yhteensopivia (ei homoplasiaa), löytyy
aineistolla ainoastaan yksi kaikkein lyhyin parsimoniapuu, ja Bremerin tukiarvo
kussakin puun haarassa vastaa siihen johtavan oksan pituutta. Jos ominaisuuksissa
esiintyy homoplasiaa, tukiarvo pienenee suhteessa siihen kuinka paljon erilaisia
yhtä hyviä puita aineistolle löytyy.
Bremerin tukiarvoa on käytetty myös kokonaistukiarvon laskemiseen. Kokonaistukiarvo on kaikkien yksittäisten puun haarojen Bremerin tukiarvojen yhteenlaskettu summa. Kokonaistukiarvo voidaan skaalata mielekkäästi, sillä sen suurin
mahdollinen arvo on puun pituus. Tämä on seurausta siitä, ettei yhden haaran saama
tukiarvo voi ylittää siihen johtavan oksan pituutta. Kokonaistukiarvo siis skaalataan
puun pituutta käyttäen välille 0-1 seuraavasti:
226
Bioinformatiikan perusteet
kokonai stuki ar vo =
br emeri ntuki ar vot
puunpi tuus
Jos kaikki puun haarat ovat täysin yksikäsitteisiä eli aineistossa ei esiinny homoplasiaa, on kokonaistukiarvo 1. Jos muodostuvat puu on täysin puskamainen, on
tukiarvo 0.
Bremerin tukiarvossa on sama heikko kohta kuin bootstrapping- ja jackknifingmenetelmissäkin, sillä se mittaa ainoastaan tiettyä puun haarautumiskohtaa tukevien ominaisuuksien määrää, eikä ota huomioon, että jotkin ominaisuudet voivat
myös puhua haarautumiskohtaa vastaan. Tämä epäkohta on huomioitu, ja relative
fit difference -tukiarvo (RFD) ottaa sekä haarautusmiskohtaa tukevat että sitä vastaan puhuvat ominaisuudet huomioon. Jos haaran saama RFD-arvo on esimerkiksi 0,25, se merkitsee, että 25% ominaisuuksista (siis haaraan johtavan oksan pituudesta) tukee haaraa ja 75% ei tue haaraa (ovat siis homoplasisia). RFD-arvon laskeminen on käsitelty tarkemmin puunuudelleenjärjestelymenetelmien, erityisesti tree
drifting-menetelmän yhteydessä.
21.5
Puun pituuksien jakauma (DCL)
Puun pituuksien pituusjakaumaa (distribution of cladogram lenghts) tutkittu suhteellisen vähän, mutta sitä pidetään aineistossa olevan fylogeneettisen signaalin
mittana. Toisin sanoen DCL siis mittaa aineiston informatiivisuutta tai puumaisuutta. Puumaisuudella tarkoitetaan sitä, miten hyvin aineiston perusteella voidaan
muodostaa täydellisesti kahtiajakoinen (binäärinen) puu. DCL:llä puolestaan tarkoitetaan tarkkaan ottaen kaikkien mahdollisten tietylle aineistolle muodostettavissa olevien binääristen puiden pituusjakaumaa. Jos puiden pituusjakauma on symmetrinen, on suurin osa puista vain yhden tai korkeintaan muutaman askelen toisiaan lyhyempiä, ja aineiston fylogeneettinen signaali on heikko. Jos pituusjakauma sen sijaan on vasemmalle vino, eli sillä on vasemmalle suuntautuva pitkä häntä,
on olemassa vain muutamia puita, jotka ovat lyhyintä puuta hieman pidempiä, ja
aineiston fylogeneettinen signaali on voimakas.
DCL:ää voidaan käyttää formaalin tilastollisen testin kasaamiseen (Hillis, 1991).
Testiä varten generoidaan nollahypoteesi (aineisto), jossa kaikki ominaisuuden tasot ilmenevät yhtä usein. Näin luodusta aineistosta määritetään DCL, ja jos oikean
aineistomme vinousparametri g1 on pienempi kuin 95%:ia nollahypoteesiaineistojen vinousparametrien arvoista, voimme vetää johtopäätöksen, että aineistossamme
on voimakas fylogeneettinen signaali (Kuva 21.4). Tulos voi kuitenkin johtua esimerkiksi siitä, että ominaisuuksien tasot ovat jakaantuneet nollahypoteesiaineistossa epätasaisesti eri taksonien kesken. Ominaisuudet, jotka jakavat tutkittavan taksoniryhmän kahtia tapaavat tehdä DCL-jakaumasta symmetrisemmän. Vastaavasti
ominaisuudet, joiden perusteella voidaan muodostaa pieniä ryhmiä, tekevät DCLjakaumasta vasemmalle vinon.
Simulaatioissa on havaittu, että aineistot, jotka tuottavat vain yhden lyhyimmän parsimoniapuun, tuottavat myös myös hyvin vasemmalle vinon puiden pituusjakauman. Aineistot, joiden perusteella on mahdollista muodostaa useampia yhtä
hyviä parsimoniapuita, tuottavat symmetrisemmän jakauman. Mainittujen simulaatioiden tulokset tosin tarkkaan ottaen pätevät vain, jos ominaisuuden muutostodennäköisyys on kussakin puun oksassa sama.
Mitä symmetrisempi jakauma, sitä lähempänä nollaa vinousparametri g1 on.
Vasemmalle vinoilla aineistoilla g1 on negatiivinen, ja useimmat aineistot, jopa
satunnaiset aineistot saavat negatiivisen g1:n arvon.
DCL:n ongelmana on, että g1-parametri määräytyy pitkälti puiden pituusjakauman keskusmassan perusteella. Jakauman keskustassa on yleensä enemmän havaintoja (puita) kuin sen hännissä, ja sama pätee vasemmalle vinoon jakaumaan.
21
Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit
Exhaustive search completed:
Number of trees evaluated = 34459425
Score of best tree found = 423
Score of worst tree found = 501
Number of trees retained = 1
Time used = 57.86 sec
Frequency distribution of tree scores:
423
424
425
426
mean=474.754044 sd=8.726937 g1=-0.790417 g2=0.839645
/--------------------------------------------------------------+ (1) <---- paras puu
+ (3)
+ (10)
+ (24)
427
428
429
430
431
432
433
434
435
436
+
+
+
+
+
+
+
+
+
+
437
438
439
440
441
442
443
444
445
446
+ (5732)
+ (7395)
+ (9407) <---- ylimmän promillen raja
+ (11846)
+# (14493)
+# (17210)
+# (20475)
+# (24070)
+# (29233)
+# (34473)
447
448
449
450
451
452
453
454
455
456
+# (41547)
+## (50171)
+## (60411)
+### (72904)
+### (88022)
+#### (105289)
+#### (124883)
+##### (148696)
+###### (175854)
+####### (206653)
457
458
459
460
461
462
463
464
465
466
+######## (239733)
+########## (276467)
+########### (314149)
+############ (355512)
+############## (400644)
+################ (447037)
+################# (497778)
+################### (553867)
+###################### (617542)
+######################## (687123)
467
468
469
470
471
472
473
474
475
476
+########################### (763846)
+############################## (851871)
+################################# (947834)
+##################################### (1057813)
+######################################### (1171285)
+############################################# (1291741)
+################################################# (1414835)
+##################################################### (1529707)
+######################################################### (1635266)
+############################################################ (1721583)
477
478
479
480
481
482
483
484
485
486
+############################################################## (1780030)
+############################################################### (1809134)
+############################################################### (1795837)
+############################################################# (1741252)
+######################################################### (1645527)
+#################################################### (1505693)
+############################################### (1342997)
+######################################## (1158322)
+################################# (961727)
+########################### (772788)
(72)
(180)
(348)
(629)
(857)
(1235)
(1734)
(2284)
(3215)
(4204)
487 +##################### (595936)
488 +############### (442508)
227
228
Bioinformatiikan perusteet
489
490
491
492
493
+########### (315584)
+####### (214729)
+##### (141568)
+### (87300)
+## (51883)
494
495
496
497
498
499
500
501
+# (28934)
+# (15509)
+ (7747)
+ (3381)
+ (1317)
+ (416)
+ (100)
+ (13)
--------------------------------------------------------------
Kuva 21.4: Esimerkki DCL-testin tuloksesta. Jakaumassa on esitetty kaikkien 11 lajille laskettujen puiden pituusjakauma. Lyhyin parsimoniapuu on pituudeltaan 423. Koska jakauma on generoitu käyttäen täydellistä hakua, on tämä takuuvarmasti lyhyin parsimoniapuu. Lyhyin parsimoniapuu sijoittuu jakaumassa selvästi ylimmän 5% sisään (jopa
ylimmän promillen sisään), ja siten analysoidut ominaisuudet ovat hyvin yhteensopivia ja
aineistossa on voimakas fylogeneettinen signaali ("p-arvo« 0,001). Jakauma on tuotettu
PAUP* 4.0b10-ohjelman alltrees-komennolla.
Pienille aineistoille (alle 12 taksonia) tämä ei ole ongelma, koska kaikki puut voidaan käydä läpi, mutta suuremmille aineistoille g1:n määrittäminen on ongelmallisempaa. Kun erilaisten puiden määrä on suuri, pitää niistä kerätä satunnaisotos g1:n
laskemiseksi. Satunnaisotoksessa on se huono puoli, että mitä suuremmaksi mahdollisten puiden määrä kasvaa, sitä pienempi satunnaisotos kaikista mahdollisista
puista voidaan kerätä ja sitä pienemmäksi tulee myös todennäköisyys, että satunnaisesti valitsemamme puu osuu pituusjakauman häntään. Koska tällöin jakauman
keskusmassan vaikutus g1:n määrittämisessä korostuu entisestään, on epäselvää,
miten pitkälle meneviä päätelmiä satunnaisotosten perusteella voidaan vetää. Voihan nimittäin olla, että paras puu näyttää entistä paremmalta DCL-analyysin perusteella vain siitä syystä, ettei satunnaisotokseemme sattunut riittävästi puita pituusjakauman hännästä.
Yllämainittu ongelma on DCL-menetelmän vakavin ongelma. Otetaan esimerkiksi aineisto, joka koostuu 43 taksonista. 43 taksonille voidaan muodostaa
jo varsin lukuisa määrä erilaisia binäärisiä puita. Aineiston perusteella muodostettu lyhyin parsimoniapuu oli pituudeltaan 48, mutta 10 miljoonaan satunnaisen
puun perusteella muodostettu satunnaisjakauma ei vielä päässyt lähellekään parhaan puun pituutta; satunnaisjakauman lyhyin puu oli pituudeltaan 79. Jos haluttaisiin päästä lähemmäksi parhaan puun pituutta, pitäisi satunnaisten puiden määrää
lisätä moninkertaisesti, kenties useita kertaluokkia. Yhden kertaluokan lisääminen
noin kymmenkertaistaa analyysin vaatima tietokoneajan, joten testin tuloksellinen
tai luotettava suorittaminen voi vaatia hyvin pitkiä ajoja.
21.6
Permutaatiohännäntodennäköisyys (PTP)
Toinen aineiston puumaisuutta mittava testi on permutaatiohännäntodennäköisyys
(permutation tail probability, PTP). Sen avulla on pyritty ratkaisemaan esimerkiksi
CI- ja RI-indekseihin liityvää ongelmaa: Indeksit, kuten DCL:kin, eivät ota huomioon kuinka moni ominaisuus tiettyä puuta tukee. Tiettyä puuta voi tukea hyvin
eri määrä ominaisuuksia kahdessa eri aineistoissa, vaikka molemmat aineistot saisivatkin samat CI- ja RI-indeksien arvot.
21
Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit
229
CI- ja RI-indeksien heikko kohta voitaisiin välttää, jos ominaisuuksien lukumäärä ja niiden tasojen jakauma eri taksonien kesken voitaisiin ottaa tukiarvoa laskettaessa yhtäaikaisesti huomioon. CI:n arvo saavuttaa maksiminsa, jos aineistossa
ei ole lainkaan homoplasiaa. Kaikkein lyhyimmät parsimoniapuut, jotka sisältävät paljon homoplasiaa, voivat olla peräisin aineistoista, joiden ominaisuudet ovat
niin heikkolaatuisia, että vähintään samanpituinen ellei lyhyempikin puu voitaisiin
muodostaa samankaltaisen satunnaistetun aineiston perusteella (Faith, 1991). Jos
satunnaistettu aineisto tuottaisi alkuperäistä paremman tuloksen, voitaisiin alkuperäisen analyysin tulos kyseenalaistaa. Tämän tutkimiseksi sovelletaan PTP-testiä.
PTP-testissä alkuperäinen aineisto permutoidaan (uudelleenjärjestellään tai satunnaistetaan) siten, että jokaisen ominaisuuden tasot satunnaistetaan sisäryhmään
kuuluvien taksonien kesken. Ulkoryhmän ominaisuuksien tasoihin ei kosketa. Ominaisuudet satunnaistetaan siten, että niide runsaussuhteet pysyvät samanlaisina kuin
alkuperäisessä aineistossakin. Esimerkiksi, jos viiden sisäryhmän taksonin yhden
ominaisuuden tasot olisivat 00111, niin eräs permutaation näistä voisi olla 10110.
Sama toistetaan jokaiselle taksonille, ja näin saadaan muodostettua yksi permutoitu aineisto. Permutoituja aineistoja muodostetaan ueimmiten 100-1000. Jokainen
näistä permutoiduista aineistoista analysoidaan kuten alkuperäinen aineistokin, ja
lopuksi alkuperäisen aineiston tuottaman puun pituutta verrataan permutoitujen aineistojen tuottamien puiden pituusjakaumaan. PTP-arvoksi kutsutaan niiden permutoitujen aineistojen tuottamien puiden osuutta, jotka ovat yhtä lyhyitä tai lyhyempiä kuin alkuperäisen aineiston tuottama puu (Kuva 21.5).
PTP-arvo voidaan tulkita todennäköisyydeksi, että aineisto, jonka ominaisuuksien yhteisvariaatio (ominaisuuksien tasojen yhteisesiintyvyys) on satunnaistettu,
tuottaa vähintään yhtä lyhyen puu kuin alkuperäinen aineisto. Testin nollahypoteesina voidaan pitää oletusta, ettei aineistossa ole muuta puumaisuutta kuin sattumalta esiintyvä puumaisuus (jotkut ominaisuudet aina sattumaltakin esiintyvät samoilla taksoneilla ja luovat aineistoon puumaisuutta). Nollahypoteesi voidaan hylätä,
jos permutoitujen aineistojen tuottamista puista korkeintaa 5% on lyhyempiä kuin
alkuperäisen aineiston tuottama puu. Pieni PTP-arvo on siis toivottavaa ja kielii
siitä, että alkuperäisessä aineistossa on huomattava fylogeneettinen signaali.
Koska PTP-testi perustuu lyhyimpien puiden etsimiseen jokaisesta permutoidusta aineistosta, voi testin ajoaika muodostua pitkäksi. Pienillä aineistoilla voidaan käyttää täydellistä hakua tai rajoitettua hakua, mutta suuremmilla aineistoilla joudutaan turvautumaan heuristisiin hakuihin, ja niiden ei voida taata löytävän
kaikkein lyhyintä puuta, mikä voi aiheuttaa virhettä PTP-testin tuloksien tulkintaan.
Lisäksi testin antama merkitsevyystaso (PTP-arvo) ei voi ylittää arvoa 1/(W + 1),
jossa W on permutaatioiden määrä. Jos halutaan päästä 1% tasolle (PTP-arvo 0,01),
pitää permutaatioita siten tehdä vähintää 99 kappaletta.
PTP-testiä vastaan esitetty kritiikki perustuu pitkälti siihen, että ominaisuuksien ei voida otaksua kovarioivan satunnaisesti, sillä jokainen ominaisuus on mahdollinen synapomorfia, joka määrittelee puuhun yhden monofyleettisen ryhmän.
Jos puuhun ylipäätään voidaan muodostaa monofyleettisiä ryhmiä, seuraa siitä automaattisesti, että jotkin ominaisuudet sisältävät väkisinkin hierarkkista informaatiota taksonien välisistä suhteista. Juuri ominaisuuksien hierarkkisen rakenteen vuoksi aineiston sisältämä informaatio voidaan kuvata puun muodossa. Koska permutoiduissa aineistoissa ei ole tällaista sisäsyntyistä taksonomista rakennetta, on niiden
perusteella luotu nollahypoteesin mukainen jakauma väärä, ja siten myös PTP-testi
testaa väärää nollahypoteesia.
Voikin olla, että PTP-testin tuloksia tulisi tulkita ennemmin lisätukena analyysille kuin varsinaisena mittana aineiston puumaisuudesta: jos PTP-testin tulos on
hyvin merkitsevä (pieni PTP-arvo), voimme luottaa analyysimme tuloksiin enemmän kuin jos testin tulos olisi ollut ei-merkitsevä.
230
Bioinformatiikan perusteet
10000 permutation test replicates completed
Time used = 51.26 sec
Results of PTP test:
Number of
Tree length
replicates
------------------------423*
1
436
1
437
1
438
8
439
17
440
35
441
70
442
120
443
241
444
364
445
572
446
822
447
1049
448
1297
449
1353
450
1258
451
1087
452
790
453
465
454
264
455
134
456
32
457
19
* = length for original (unpermuted) data
P = 0.000100
Kuva 21.5: Permutaatiotestin tulokset. Alkuperäinen aineisto saa PTP-arvon ("p-arvon")
0,0001, sillä yksikään tuotetuista permutoiduista aineistoista ei tuottanut alkuperäistä puuta lyhyempää puuta. Permutoitujen aineistojen perusteella muodostettujen puiden pituusjakauma on tuotettu PAUP* 4.0b10-ohjelman permute-komennolla.
21
Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit
21.7
231
Topologia-riippuvainen permutaatiohännäntodennäköisyys
(T-PTP)
Topologia-riippuvainen permutaatiohännäntodennäköisyys-testi (T-PTP) on PTPtestin laajennus, ja sen avulla voidaan testata, onko jokin tietty puun ryhmä monofyleettinen vai ei. Ryhmän monofylian katsotaan olevan voimakkaasti tuettua, jos
kaikkein parsimonisin puu, jossa ryhmä on monofyleettinen on merkitsevästi lyhyempi kuin kaikkein lyhyin puu, jossa ryhmä ei ole monofyleettinen. Käytännössä testi toteutetaan siten, että tehdään PTP sekä aineistolle (puulle), jossa ryhmä on
analyysin ajaksi pakotettu monofyleettiseksi (topological constraint), että aineistolle (puulle), jossa ryhmä ei ole monofyleettinen. Näin saatujen puiden pituuksisista
muodostuu pituusjakauma. Tätä jakaumaa vastaan verrataan sen lyhyimmän parsimoniapuun, jossa ryhmä oli monofyleettinen, ja sen lyhyimmän parsimoniapuun,
jossa ryhmä ei ollut monofyleettinen, pituuksien erotusta. Jos alkuperäisten puiden
pituuksien erotus sijoittuu permutoiduista aineistoista muodostettujen puiden pituusjakauman lyhimmän 5% joukkoon, voidaan katsoa, että ryhmän monofylia on
aineistossa hyvin tuettu.
21.8
Parametrinen bootstrapping
Parametrisen bootstrapping-analyysin (PB) idea on hieman samantapainen kuin
PTP-testin. PB:tä varten pitää ensin selvittää, mikä evoluutiomalli kuvastaa parhaiten alkuperäistä aineistoa; analyysiä käytetäänkin suurimman uskottavuuden menetelmien yhteydessä. Kun aineistoon parhaiten sopiva malli on valittu, tuotetaan
sitä käyttäen akuperäisen rinnastuksen kokoisia, satunnaisia sekvenssirinnastuksia,
tyypillisesti 100-1000 kappaletta. Jokainen näistä satunnaisista rinnastuksista analysoidaan kuten alkuperäinen aineistokin, ja näin saatujen uskottavuuksien jakauma
selvitetään. Jakaumaa vastaan verrataan alkuperäisestä analyysistä saatua puuta, ja
jos alkuperäisen puun uskottavuus on satunnaisista rinnastuksista muodostettujen
puiden uskottavuusjakauman uskottavimman 5% joukossa, voidaan sanoa, että testin perusteella aineistossa on selkeä signaali, joka tukee muodostettua puuta.
PB:tä voidaan käyttää myös hypoteesien, kuten tietyn eliöryhmän monofyliaoletuksen todenmukaisuuden testaamiseen (Huelsenbeck, 1996). Huelsenbeckin
alunperin esittämä menetelmä on kuitenkin laskennallisesti raskas, ja useimmiten
käytetäänkin Ruedin esittämää kevyempää muunnosta (Ruedi, 1998). Tällöin testaaminen suoritetaan pääpiirteissään seuraavasti. Aluksi valitaan aineistoon parhaiten sopiva evoluutiomalli, ja sitä käyttäen suoritetaan analyysi käyttäen kahta
puuta: toisessa ryhmät saavat muodostua vapaasti, toisessa tietty ryhmä on kiinnitetty monofyleettiseksi. Lopuksi lasketaan puiden välisten uskottavuuksien erotus. Tämän jälkeen simuloidaan 100-1000 sekvenssirinnastusta käyttäen aineistolle
parhaiten sopivaa evoluutiomallia. Näin saadut aineistot analysoidaan kahta puuta
käyttäen, kuten alkuperäinen aineistokin. Simuloitujen aineistojen pohjalta muodostettujen puiden uskottavuuksien erotuksista muodostuu jakauma, johon alkuperäisen aineiston perusteella saatujen puiden uskottavuuksien erotusta verrataan.
Jos vähintään 95% simuloitujen aineistojen perusteella lasketuista uskottavuuksien
erotuksista on pienempiä kuin alkuperäisen aineiston perusteella laskettu erotus,
on tulos merkitsevä 5%:n riskitasolla (p-arvo=0,05). Esimerkiksi, jos simuloiduista
1000:sta erotuksesta viisin on suurempia kuin alkuperäinen erotus, on tulos merkitsevä riskitasolla 5 / 1000 = 0,005.
Parametrisen bootstrapping-analyysin onnistuminen riippuu valitun evoluutiomallin oikeellisuudesta. Jos valittu malli on väärä, ovat PB:n tuottamat tuloksetkin
vääriä. Menetelmää kohtaa esitetty kritiikki onkin pitkälti perustunut mallin valintaan. Lisäksi menetelmän soveltamisella on käytännön ongelmia, sillä tavanomaisen suurimman uskottavuuden menetelmiä soveltavan analyysin tekeminen suurel-
232
Bioinformatiikan perusteet
le aineistolle voi viedä jopa viikkoja. Nyt sama aikaaviepä analyysi pitäisi toistaa
useille kymmenille tai sadoille aineistoille. Tähän ei ole helppoa ratkaisua, ja sama ongelma koskettaa monia muitakin uudelleenotantamenetelmiä, mukaan lukien
tavanomainen (ei-parametrinen) bootstrapping.
21.9
Konsensuspuut
Usein analyysissä, erityisesti parsimonia-analyysissä löytyy aineistolle useampia
yhtä hyviä puita. Näiden puiden sisältämä informaatio voidaan kiteyttää yhteen
puuhun käyttäen konsensuspuumenetelmiä. Konsensuspuusta voidaan havaita esimerkiksi ne taksoniryhmät, joille aineistosta ei löydy riittävää tai yksiseltteistä tukea. Tällaiset ryhmät voivat nimittäin näyttäytyä konsensuspuussa polytomioina.
Toinen merkittävä konsensuspuiden käyttökohde on uudelleenotantamenetelmien
tulosten muodostaminen. Esimerkiksi bootstrapping-analyysin tuloksen saatujen
puiden sisältämä informaatio tiivistetään yhdeksi majority rule -konsensuspuuksi.
Lisäksi konsensuspuiden avulla voidaan tiivistää eri aineistojen perusteella muodostettujen puiden sisältämä informaatio helpommin käsittävään muotoon, jossa
myös eri analyysien väliset erot tulevat helpommin esiin konsensuspuun polytomioina.
Kaikki konsensus-menetelmät kadottavat informaatiota, eikä konsensuspuuta
voida yleensä tulkita esitykseksi taksonien evoluutiohistoriasta, vaan konsensuspuu esittää vain useampien puiden sisältämän informaation tiiviimmässä muodossa. Erilaisia konsensus-menetelmiä on kehitetty varsin monia, mutta seuraavassa
käsitellään vain joitakin yleisimmin käytetyistä menetelmistä, kuten strict, semistrict, majority-rule, Nelson- ja Adams-konsensus sekä agreement subtrees.
21.9.1 Strict konsensus
Strict eli tiukka konsensuspuu sisältää vain ne ryhmät, jotka ovat kaikille alkuperäisille puille (niille, joista konsensus muodostetaan) yhteisiä. Esimerkiksi kahdesta
puusta (Kuva 21.6 voidaan muodostaa tiukka konsensuspuu (Kuva 21.7.
Molemmissa puissa esiintyivät vain ihminen ja simpanssi yhdessä, muiden lajien sijoittuminen vaihteli, joten ne esitetään puussa polytomiana.
Analyysimenetelmät voivat tuottaa esimerkiksi useampia saman mittaisia parsimoniapuita, koska ominaisuudet voidaan toisinaan optimoida samaan puuhun
usella eri tavalla (vrt. ACCTRAN ja DELTRAN). Tällöin puiden haarautumisjärjestyskin voi hiukan muuttua. Oletetaan, että saamme analyysin tuloksena kaksi puuta, jotka ovat täysin binäärisiä, mutta joiden välillä on eroa jonkin ryhmän
koostumuksessa. Kun puista muodostetaan tiukka konsensuspuu, alkuperäisiä puita erottava ryhmä muodostaa polytomian. Jos ero alkuperäisten puiden välillä johtui yksinomaan siitä, että ominaisuudet on optimoitu niihin hiukan eri tavoin, on
puissa tällöin ollut sellaisia haaroja, joissa ei ole tapahtunut yhtään ominaisuuden
tason muutosta. Tällaiset haarat on konsensuspuussa poistettu, ja konsensuspuun
pituus ei eroa alkuperäisen puun pituudesta. Tässä tapauksessa konsensuspuun voidaan katsoa olevan paras esitys taksonien välisistä suhteista, koska se on kaikkein
lyhyin puu sekä tarkkaan ottaen ainut aineiston suoraan tukema puu. Jos sen sijaan
konsensuspuun ja alkuperäisten puiden pituudet eroavat, on syynä aineistossa oleva
homoplasia, ei analyysin keinotekoinen tuote.
21.9.2 Semi-strict konsensus
Semi-strict eli puolitiukka konsensuspuu sisältää sellaiset ryhmät, jotka eivät välttämättä esiinny kaikissa alkuperäisissä puissa, mutta ovat kuitenkin keskenään yhteensopivia. Tällaisia ryhmiä voi esiintyä, jos jossakin alkuperäisitä puista on ollut
yksikin polytomia. Jos kaikki alkuperäiset puut ovat täysin binäärisiä (niissä ei ole
21
Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit
233
Kuva 21.6: Puut, joiden perusteella muodostettu strict konsensus on esitetty kuvassa 21.7.
Kuva 21.7: Strict konsensus -puu
234
Bioinformatiikan perusteet
polytomioita) eikä ominaisuuksia voida optimoida niihin kuin yhdellä tavalla, ovat
tiukka ja puolitiukka konsensuspuu yhtäpitäviä.
21.9.3 Majority-rule konsensus
Majority-rule eli enemmistökompromissipuussa esitetään vain sellaiset ryhmät, jotka ovat esiintyneet vähintään 50% alkuperäisistä puista. Prosenttiosuutta voidaan
muuttaakin, mutta jos se kasvatetaan yli 50%:in, ei voida enää puhua varsinaisesta enemmistökompromissipuusta. Enemmistökompromissipuuta käytetään esimerkiksi tiivistämään bootstrapping-analyysin tulokset.
Enemmistökompromissipuuta hyvin läheisesti muistuttava menetelmä on mediaanikonsensuspuumenetelmä. Siinä puiden samankaltaisuuden vertaamiseen käytetään jotakin puiden välisen etäisyyden laskemiseen soveltuvaa menetelmää, esimerkiksi symmetristä etäisyyttä. Käytettäessä symmetristä etäisyyttä mediaanikonsensuspuu on yhtäpitävä enemmistökompromissipuun kanssa, mutta muilla menetelmillä välttämättä ei.
21.9.4 Nelson-konsensus
Nelson-konsensuspuussa esitetään vain sellaiset ryhmät, joita tukevat ominaisuudet eivät ole ristiriidassa keskenään (niissä ei siis ole homoplasiaa). Lisäksi esitettävien ryhmien tulee olla keskenään yhteensopivia. Siten Nelson-konsensuspuussa
voi esiintyä myös ryhmiä, jotka ovat joidenkin alkuperäisten puiden kanssa ristiriidassa. Menetelmällisesti Nelson-konsensus on hyvin lähellä enemmistökonsensusmenetelmää.
21.9.5 Adams-konsensus
Adams-konsensuspuissa esitetään sellaiset ryhmät, jotka muodostuvat, kun alkuperäisissä puissa keskenään ristiriidassa olevat taksonien ryhmittelyt ratkaistaan siirtämällä keskenään ristiriidassa olevat taksonit lähimpään puun haaraan, joka on
molemmille yhteinen. Sietn Adams-konsensuspuu sisältää kaikki sisäkkäiset (nested) ryhmät, jotka ovat yhteisiä kaikille alkuperäisille puille.
Jos alkuperäisten puiden joukkoon lisätään puu, joka on samankaltainen jonkin jo joukossa mukana olevan puun kanssa, voi enemmistökompromissipuu muuttua. Adams-konsensuspuu ei tässä tapauksessa sen sijaan muutu, mikä on menetelmän vahvuus. Heikkoutena on, että Adams-konsensus on määritelty vain juurretuille puille, ja tulos riippuu siitä, mikä taksoneista valitaan juureksi. Menetelmää
voidaan siis käyttää vain sellaisille aineistoille, joille ulkoryhmä on erityisesti määritelty.
21.9.6 Agreement subtrees
Agreement subtree eli yksimielisyyspuu sisältää sellaiset ryhmät, jotka ovat kahdelle puulle yhteisiä. Nämä kaksi puuta voivat olla hyvinkin erilaisia, mutta niiden
tulee sisältää samat taksonit (sama vaatimus on tietysti muillakin konsensusmenetelmillä), ja yksimielisyyspuu sisältää ryhmät, jotka löytyvät niistä kaikista. Yksimielisyyspuu löydetään siten, että puista pudotetaan yksi kerrallaan yksi taksoni pois, kunnes kaikille puille yhteinen topologia (ryhmä) on löydetty. Tällä tapaa
muodostuu itseasiassa taksonimäärältään alkuperäisiä puita pienempi alapuu (subtree), joka ei kuitenkaan toivottavasti ole kovin paljon alkuperäisiä pienempi. Eräänä yhden alkuperäisen puun ja yksimielisyyspuun välisenä mittana voidaan käyttää
poistettujen taksonien lukumäärää.
21
Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit
21.10
235
Tilastolliset testit
Seuraavassa esitellään muutamia tilastollisia testejä, joilla voidaan selvittää, onko
muodostettujen puiden välillä, jos niitä on useampia, merkitsevää eroa. Tällaisia
testejä ovat Kishino-Hasegawan ja Templetonin testit, todennäköisyysosamäärätesti sekä puiden välisten etäisyyksien laskeminen, joka ei varsinaisesti ole tilastollinen testi, vaan pyrkii lähinnä kuvailemaan puiden välisiä eroja. Lisäksi esitellään
incongruence lenght difference (ILD) -testi, jonka avulla voidaan selvittää, pitäisi kaksi erillistä aineistoa yhdistää analyysi varten yhdeksi suureksi aineistoksi vai
olisiko ne syytä pitää erillään.
21.10.1 Kishino-Hasegawa
Kishino-Hasegawa testi (KHT) soveltuu suurimman uskottavuuden menetelmällä muodostettujen puiden vertailuun. Testi suoritetaan seuraavasti. Oletetaan, että
olemme saaneet analyysin tuloksena kaksi miltei samanlaista uskottavinta puuta.
Näiden puiden uskottavuuksien erotus on 3. Uskottavuuksien erotuksen varianssi
(arvioidaan aineiston perusteella) on 0,05, ja analysoitavassa rinnastuksessamme
on 200 kohtaa, joten kokonaisvarianssi √
on 0,05*200 = 10. Koska keskihajonta on
varianssin neliö, on keskihajonta siten 10 ≈ 3, 16. Testissä käytettävän testisuureen z arvo saadaan laskettua jakamalla puiden uskottavuuksien erotus sen kokonaiskeskihajonnalla eli z = 3/3, 16 ≈ 0, 95. Testisuureen z oletetaan olevan normaalisti jakautunut, jolloin normitetun normaalijakauman tiheysfunktion arvoja tarkastelemalla huomaamme, että todennäköisyys, että normaalisti jakautunut muuttuja
on yli 0,95 keskihajonnan päässä keskiarvostaan (tässä 0) on 0,329. Koska näin
saatu todennäköisyys on suurempi kuin yleisesti raja-arvona käytetty 0,05, voimme sanoa, että puiden välillä ei näytä olevan merkitsevää eroa, joten molemmat
ovat yhtä hyviä hypoteeseja taksonien evoluutiohistoriasta.
KHT-testi ei anna oikeaa tulosta, jos verrattavia puita on useita, koska se ei
korjaa tesisuuretta useiden tehtyjen vertailujen suhteen. Tavanomaisen tilastollisen testauksen yhteydessä tällainen korjaus voitaisiin tehdä esimerkiksi Bonferronikorjausta käyttäen. Puiden tapauksessa Bonferroni-menetelmää ei voi käyttää, vaan
korjauksessa käytetään uudelleenotantamenetelmiä. Useiden vertailujen suhteen korjattua testiä kutsutaan Shimodaira-Hasegawa (SH) -testiksi.
Toinen KHT-testin "muunnos"on RELL-testi, jossa alkuperäisen aineiston perusteella muodostetaan suuri määrä (10000) satunnaisia aineistoja bootstrappingmenetelmällä. Jokaiselle aineistolle lasketaan niiden uskottavuuksien erotus kahden tutkittavan topologian suhteen. Jokaisesta erotuksesta tutkitaan, onko se positiivinen vai negatiivinen. Esimerkkitapauksessamme 8350 satunnaisaineistoa 10000:sta
tuotti positiivisen erotuksen. Tämä vastaisi kaksisuuntaisen testi merkitsevyyttä (1
- 0,8350) * 2 = 0,33. RELL-testi on kenties luotettavin tilastollinen testi, joka suurimman uskottavuuden menetelmillä muodostetuille puille voidaan suorittaa, mutta
sen huonona puolena on sen usein vaatima pitkä ajoaika.
21.10.2 Templeton
Templetonin testiä sovelletaan useimmiten parsimoniapuille, koska se käsittelee
verrattavien puiden pituuksien erotusta. Jokaiselle aineiston ominaisuudelle lasketaan sen muutosten määrä kummassakin verrattavassa puussa (puita voi toki olla
useampiakin), ja muutosten määrästä muodostetaan erotus. Nämä erotukset järjestetään arvonsa mukaan, ja negatiivisen erotuksen saaneiden ominaisuuksien järjestysnumerot lasketaan yhteen. Näin saatuja järjestylukujen summaa merkitään seuraavassa T:llä. Järjestysnumeroiden
√ (n kappaletta) summan odotusarvo 1/4 ∗ n(n +
1), ja summan keskihajonta on (n(n + 1)(2n + 1)/24. Tässä oletetaan, etä aineisto koostuu yli 16 ominaisuudesta, jolloin testissä voidaan normaaliapproksimaa-
236
Bioinformatiikan perusteet
tiota. Jos ominaisuuksia on vähemmän, voidaan normaalijakauman sijaan käyttää
Wilcoxonin testisuureen jakaumaa, koska Templetonin testi on oleellisesti sama
kuin Wilcoxonin testi. Erona Wilcoxonin testiin on lähinnä se, ettei testisuuretta
laskettaessa käytetä epäjatkuuvuskorjausta. Varsinainen testisuure saadaan kaavasta
z=
|T − summanodostusar vo|
summankeski ha j onta
Testisuureen arvoa verrataan sitten normitetun normaalijakauman tiheysfunktion taulukoituihin arvoihin.
21.10.3 Todennäköisyysosamäärätesti
Todennäköisyysosamäärätesti (likelihood ratio test, LRT) voidaan muodostaa kahden kilpailevan hypoteesin välille seuraavasti:
L RT = 2[ln(L 1 ) − ln(L 0 )],
jossa L 0 on nollahypoteesi ja L 1 vaihtoehtoinen hypoteesi ja ln on luonnollinen logaritmi. Monet suurimman uskottavuuden menetelmää soveltavat ohjelmat
raportoivat uskottavuudet jo valmiiksi logairitmisina arvoina, joten ne voidaan suoraan sijoittaa testisuureen kaavaan. LRT-testisuureen voidaan olettaa olevan jakautunut X 2 -jakauman mukaan, jolloin vertaamalla testisuureen arvoa jakauman taulukoituihin arvoihin, voidaan määrittää testin p-arvo eli tilastollinen merkitsevyys.
LRT-testiä voidaan käyttää esimerkiksi molekyylikello-oletuksen testaamiseen,
jolloin X 2 -jakauman vapausasteiden (df) määrä voidaan laskea kaavalla n −2, jossa
n on aineistossa olevien sekvenssien lukumäärä. Vapausasteita tarvitaan testin parvon määrittämiseen. LTR-testi olettaa, että nollahypoteesi ja vaihtoehtoinen hypoteesi ovat sisäkkäisiä (nested hypothesis). Esimerkiksi molekyylikello-oletuksen
testaamisessa LTR:ää käyttäen tämä oletus ei tarkkaan ottaen pidä paikkaansa, jolloin testisuurekaan ei välttämättä noudata X 2 -jakaumaa. Testisuureen jakauma voidaan kuitenkin selvittää parametrista bootstrapping-menetelmää käyttäen (Goldman, 1993).
LTR-testin avulla voidaan kuitenkin menestyksekkäästi selvittää, mikä evoluutiomalli sopii tutkittavaan aineistoon parhaiten. Erilaiset evoluutiomallit ovat toisilleen sisäkkäisiä, ja tällöin niiden vertaamisen keskenään voidaan käyttää LTRtestiä. LTR-testisuuretta vastaavan p-arvon määrittämiseksi lasketaan vapausasteiden määrä eri mallien vapaiden parametrien erotuksena. Vapaiden parametrien määrä riippuu käytetystä evoluutiomallista, ja ne on esitelty tarkemmin evoluutiomalleja tarkastelevassa luvussa.
21.11
Puiden välinen etäisyys
Puiden välinen etäisyys voidaan laskea esimerkiksi sellaisten oksien määränä, jotka puiden välillä eroavat. Tällöin puhutaan symmetrisestä etäisyydestä (symmetric
difference). Puiden välinen etäisyys voidaan laskea myös oksien pituuksia käyttäen, jolloin menetelmää kutsutaan pituuseroetäisyydeksi (branch-lenght distance,
BLD). Symmetrinen etäisyys käyttää laskennassa vain puun muotoa, mutta pituuseroetäisyys ottaa sen lisäksi huomioon myös puun oksien pituudet.
Puiden välisillä etäisyysmitoilla ei ole mitään varsinaista tilastollista tulkintaa,
sillä niiden perusteella ei esimerkiksi voida päätellä, onko jokin puu toista puuta
tilastollisesti merkitsevästi pidempi.
21
Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit
237
21.11.1 Symmetrinen etäisyys
Symmetrisen etäisyyden laskeminen lienee helpointa havainnollistaa seuraavaa esimerkkiä käyttäen (Felsenstein, Phylip-dokumentaatio), jossa etäisyys lasketaan kahden puun välille. Oletetaan, että olemme saaneet analyysistämme tulokseksi seuraavat kaksi puuta:
((A,C),(D,(B,E)))
(((A,D),C),(B,E))
Molemmissa puissa on kaksi sisäistä haaraa (merkitty alla olevaan kuvaan punaisella ja mustalla) sekä viisi terminaalista, lehtiin johtavaa haaraa.
Sisäisten haarojen perusteella puut voidaan jakaa kahtia seuraavasti:
(A,C | D,B,E)
(A,D | C,B,E)
(A,C,D | B,E)
(A,D,C | B,E)
Lisäksi terminaalisten haarojen perusteella kummastakin puusta voidaan muodostaa seuraavat puut:
(A | B,C,D,E)
(B | A,C,D,E)
(C | A,B,D,E)
(D | A,B,C,E)
(E | A,B,C,D)
Jos jakopuissa olevat taksonit sijoitetaan vielä aakkosjärjestykseen, saadaan
molemmille puille seuraavat jaot:
(A,C | B,D,E)
(A,D | C,B,E)
(A,C,D | B,E)
(A,C,D | B,E)
(A | B,C,D,E)
(A | B,C,D,E)
(B | A,C,D,E)
(B | A,C,D,E)
(C | A,B,D,E)
(C | A,B,D,E)
(D | A,B,C,E)
(D | A,B,C,E)
(E | A,B,C,D)
(E | A,B,C,D)
Symmetrinen etäisyys voidaan nyt laskea niiden jakojen määränä, joka puita
erottaa. Ylläolevassa esimerkissä molemmille puille yhteisiä jakoja on yhteensä 12,
ja niitä erottavia jakoja 2, joten puiden symmetrinen etäisyys on 2.
238
Bioinformatiikan perusteet
21.11.2 Pituuseroetäisyys
Pituuseroetäisyys jatkaa siitä, mihin symmetrinen etäisyys jäi, ja ottaa huomioon
puiden etäisyyttä laskettaessa myös oksien pituudet. Havainnollistetaan pituuseräetäisyyden laskemista seuraavan esimerkin avulla (Felsenstein, Phylip-ohje).
Oletetaan, että olemme saaneet analyysistä tulokseksi seuraavat kaksi puuta.
((A,C),(D,(B,E)))
(((A,D),C),(B,E))
Näille voidaan jälleen muodostaa puista löytyvät jaot seuraavasti.
(A,C | B,D,E)
(A,D | C,B,E)
(A,C,D | B,E)
(A,C,D | B,E)
(A | B,C,D,E)
(A | B,C,D,E)
(B | A,C,D,E)
(B | A,C,D,E)
(C | A,B,D,E)
(C | A,B,D,E)
(D | A,B,C,E)
(D | A,B,C,E)
(E | A,B,C,D)
(E | A,B,C,D)
Lisäksi voidaan muodostaa vielä seitsemän jakoa, joita kummastakaan puusta
ei löydy.
(A,B | C,D,E)
(A,E | B,C,D)
(B,C | A,D,E)
(B,D | A,C,E)
(C,D | A,B,E)
(C,E | A,B,D)
(D,E | A,B,C)
Jos puut, joihin oksien pituudet on merkitty ovat seuraavat
(((B:0,3,E:0.8):0.2,D:0.25):0.2,(A:0.1,C:0.01):0.2)
(((A:0.1,D:0.25):0.05,C:0.01):0.2,(B:0.3,E:0.8):0.2),
voidaan kuhunkin jakoon liittyvän oksan pituus taulukoida seuraavasti:
(A,C | B,D,E)
(A,D | C,B,E)
(A,C,D | B,E)
(A | B,C,D,E)
(B | A,C,D,E)
(C | A,B,D,E)
(D | A,B,C,E)
(E | A,B,C,D)
((A,C),(D,(B,E)))
0,4
0,4
0,1
0,3
0,01
0,25
0,8
(((A,D),C),(B,E))
0,05
0,4
0,1
0,3
0,01
0,25
0,8
Puista löytymättömiin seitsemään jakoon liittyvien oksien pituudet ovat nollia.
Nyt kahden puun välinen etäisyys saadaan laskettua oksien pituuksien erotuksien neliöiden summana. Jos jakoa ei esiinny puussa, korvataan sen pituus laskutoimituksissa nollalla.
21
Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit
239
pi tuus = (0, 4 − 0)2 + (0 − 0, 05)2 + ... + (0, 8 − 0, 8)2
= 0, 16 + 0, 0025 = 0, 1625
Tässä esitetty pituuseroetäisyys on laskettu, kuten Kuhner ja Felsenstein ovat
sen esittäneet. Toista vastaavankaltaista etäisyysmittaa, Robinson-Fouldsin etäisyysmittaa laskettaessa ei oksien pituuksien erotuksia neliöidä, vaan niistä otetaan
itseisarvot.
Pituuseroetäisyysmitan liittyminen symmetriseen etäisyyteen tulee selvimmin
esille, jos takastellaan taulukkoa, jossa oksien pituudet kummallekin puulle ja kullekin jaolle on lueteltu. Symmetrinen etäisyys vastaa suoraan kyseissä taulukossa
olevien miinusmerkkien (-) lukumäärää.
21.12
Incongruence lenght difference
Incongruence length difference (ILD) -testin avulla voidaan testata, ovatka kaksi
eri aineistoa riittävän yhteensopivia, jotta ne voitaisiin yhdistää samaan analyysiin.
Testin tarkoituksena on selvittää, kannattaisi aineistot analysoida erikseen, ja lopuksi yhdistää tulokset puutasolla (taksonominen yhteensopivuus) vai ennemmin
analysoida erilliset aineistot yhtenä suurena aineistona (ominaisuuksien yhteensopivuus). On edelleen keskustelun alla, pitäisikö analyysissä painottaa taksonomista
vai ominaisuuksien yhteensopivuutta, ja ongelmaa tarkastellaan tarkemmin luvussa
Molekyylisystematiikan avoimia kysymyksiä.
Jos halutaan esimerkiksi tutkia, tulisiko kaksi aineistoa yhdistää vain analysoida erikseen, ILD etenee seuraavasti. Aluksi etsitään lyhyin mahdollinen parsimoniapuu yhdistetylle aineistolle, siis sellaiselle, jossa molemmat aineistot analysoidaan yhdessä ja muodostavat siten vain yhden aineiston. Sitten molempien erillisten
aineistojen perusteella muodostetaan lyhyin mahdollinen parismoniapuu, ja niiden
pituudet lasketaan yhteen. Testisuureen arvo saadaan vähentämällä yhdistetyn analyysin tuottaman parhaan puun pituudesta
(L c ) yksittäisten aineistojen tuottamien
parhaiden puiden pituuksien summa ( L i ):
I = Lc −
Li
Testisuuretta laskettaessa siis yksittäisten aineistojen tuottamista puista vain
lyhyin valitaan testiin, ja jos aineistolle löytyy useampia yhtä lyhyitä puita, vain
yksi (tai sen pituus) valitaan.
Testisuureen I nollahypoteesin mukainen jakauma määritetään muodostamalla
yhdistetyn aineiston perusteella suuri määrä satunnaisia aineistoja. Esimerkissämme tutkimme kahta aineistoa, joten I:n jakaumaa muodostettaessa yhdistettyyn aineistoon kuuluvat ominaisuudet jaettaisiin satunnaisesti kahteen eri aineistoon, jotka ovat kooltaan alkuperäisten aineistojen kokoisia. I lasketaan jokaiselle näin muodostetulle satunnaiselle aineistolle, ja alkuperäisten aineistojen perusteella muodostettua I:n arvoa verrataan satunnaisten aineistojen perusteella lasketujen I:n arvojen
jakaumaan.
Jos alkuperäinen I on suurempi kuin 95% satunnaisten aineistojen perusteella
saaduista I:n arvoista, voidaan sanoa, että aineistoissa on huomattavaa yhteensopimattomuutta, enemmän kuin voitaisiin olettaa johtuvan pelkästään satunnaisista
seikoista. Tällöin voi olla parempi analysoida aineistot erikseen, ja tukeutua taksonomiseen yhteensopivuuteen ominaisuuksien yhteensopivuuden sijaan.
21.13
Likelihood heterogeneity test
Suurimman uskottavuuden menetelmiä soveltaen voidaan muodostaa ILD:tä likeisesti muistuttavat testi, likelihood heterogeneity test (LHT). LHT-testisuure lasketaan kaavalla δ = 2(lnL 1 − lnL 0 ), jossa L 0 on puun uskottavuus, kun saman puun
240
Bioinformatiikan perusteet
voidaan katsoa olevan kaikkien aineistojen taustalla (yhdistetty analyysi), ja L 1 on
puun uskottavuus, kun eri puut voivat selittää eri aineistot (Huelsenbeck, 1996).
Testisuureen d jakauma selvitetään parametrista bootstrapping:iä käyttäen siten, että muodostetaan satunnaisia yksittäisten alkuperäisten aineistojen kokoisia aineistoja. Simuloituja aineistoja muodostettaessa parametrisen bootstrapping:in parametreina käytetään alkuperäisten aineistojen perusteella estimoituja arvoja.
LHT-testisuureen käytöstä Huelsenbeck antaa seuraavan esimerkin, jossa tutkitaan neljän eläinryhmän tai tarkemmin sanoen niitä edustavan taksonin (lintu, alligaattori, lisko, nisäkäs) taksonomiaa. Neljästä taksonista voidaan muodostaa kolme erilaista juurtamatonta puuta, jotka ovat:
Aineistomme koostuu viidestä eri geenistä, 12S, 16S, 18S ja 28S rRNA sekä
tRNA (Val.). Yhdistetty analyysi suosii puuta I. Erinäisistä syistä johtuen epäilemme, että 18S rRNA saattaa tuottaa yhdistetyssä analyysissä ongelmia, joten LHTtestiä käyttäen selvitämme, onko asia todella näin. Testi voidaan suorittaa vaikkapa
Jukes-Cantorin evoluutiomallia käyttäen, jolloin saamme seuraavat tulokset 21.1.
21
Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit
241
Taulukko 21.1:
Puu
1
2
3
12S
-2451.37
-2458.43
-2453.23
16S
-3606.93
-3623.90
-3628.92
18S
-2089.59
-2091.62
-2072.38
28S
-447.30
-454.53
-454.53
tRNA
-223.98
-224.27
-223.43
Taulukossa on esitetty eri geenien suhteen kullekin puulle laskettu suurin uskottavuus, ja jokaisen geenin kohdalla suurin uskottavuus on korostettu. Yhdistetystä aineistosta saadun puun uskottavuus on -8816.19. Nyt voimme muodostaa
testisuureen arvon seuraavasti:
δ = 2(lnL 1 − lnL 0 )
= 2∗[−2451.37 + (−3606.93) + (−2072.38) + (−447.30) + (−223.43)] − (−8816.19)
= 2 ∗ [(−8798.43) − (−8816.19)]
= 35.52
Kun testisuureen δ jakauma on selvitetty parametrista bootstrapping:iä käyttäen, saamme testi p-arvoksi 0,03.
Kun 18S rRNA jätettiin pois yhdistetystä analyysistä, saatiin tulokseksi, ettei
geenien välillä ole heterogeenisuutta (p = 0,15), joten ne voidaan analysoida yhdistetyssä analyysissä. 18S rRNA sen sijaan pitää analysoida erikseen, sillä testin
perusteella näyttää siltä, että siihen ovat vaikuttaneet erilaiset evoluutiovoimat kuin
muihin tutkittaviin geeneihin. Tulos säilyy samana, vaikka testeissä käytettäisiin
jotakin muuta evoluutimallia, kuten HKY-mallia gamma-korjauksella.
242
Bioinformatiikan perusteet
22 Molekyylisystematiikan
avoimia kysymyksiä
22.1
Taksonominen vai ominaisuuksien yhteensopivuus?
Molekyylisystematiikassa on yhä tavallisempaa, että samoista taksoneista on saatavilla useampia eri sekvenssejä, jotka edustavat esimerkiksi eri geenejä. Lisäksi monista taksoneista on saatavilla morfologisia tuntomerkkejä. Yhdistetyssä analyysissä kaikki aineisto, joka taksoneista on saatavilla yhdistetään yhdeksi aineistoksi ja
analysoidaan yhdessä. Tällöin pyritään saavuttamaan mahdollisimman hyvä ominaisuuksien yhteensopivuus eri aineistojen kesken. Jos aineistot puolestaan analysoidaan jokainen erikseen, ja analyyseistä saadut puut yhdistetään jotakin konsensusmenetelmää käyttäen, puhutaan taksonomiseen yhtensopivuuteen pyrkimisestä.
Kysymys, pitäisikö aineistot analysoida yhdessä vai erikseen on eräs nykyaikaisen
molekyylisystemaattisen analyysin keskeisimmistä keskustelunaiheista (Huelsenbeck, 1996).
Yhdistettyä analyysia kannattavat tutkijat katsovat, että analyysin tarkoituksena on maksimoida aineiston selitysvoima. Parsimonia-analyysin termejä käyttäen
yhdistetyssä analyysissä pyritään selittämään kaikkien tunnettujen ominaisuuksien
jakauma eri taksoneissa kaikkein parsimonisimmalla tavalla. Erillisessä analyysissä
puolestaan oletetaan, että on olemassa todella toisistaan riippumattomia aineistoja,
jotka pitää analysoida erikseen. Esimerkiksi morfologiset aineistot ja sekvenssiaineistot eroavat erillistä analyysiä kannattavien katsantokannan mukaan, ja siksi ne
tulisi analysoida erikseen. Perusteluna voidaan lisäksi käyttää sitä, että erilliset aineistot (ja niiden tulokset) voivat toimia toistensa testinä. Jos siis eri aineistojen
analyyseissä esiintyy toituvia ryhmiä, voidaan tämän katsoa tukevan ryhmien olemassaoloa.
Seuraavassa tarkastellaan molempia katsantokantoja hieman tarkemmin.
22.1.1 Erillinen analyysi
Erillisen analyysin perusteluna käytetään usein sitä, että uskotaan olevan olemassa
aineistoja joissa on perustavaa laatua olevia eroja. Tällaisia toisistaan riippumattomia aineistoja voivat olla esimerkiksi morfologiset aineistot, joiden perusteella voidaan muodostaa lajipuu ja sekvenssiaineistot, joiden perusteella voidaan muodostaa geenipuu. Aineistot siis kuvastavat samojen lajien evoluutiohistoriaa hieman eri
tavoin. Samantapaisia toisistaan eroavia aineistoja on helppo kuvitella enemmänkin: esimerkiksi yksinomaan äidiltä periytyvät mitokondriosekvenssit ja molemmilta vanhemmilta periytyvät tumasekvenssit tai proteiineja koodaavat ja proteiineja koodaamattomat geenit.
Yksittäiset ominaisuudet voivat siis evolvoitua erilaisten mekanismien ajamina eri aineistoissa. Jos mutaatiomekanismit vaikuttavat eri sekvensseihin eri tavoin,
voi mutaatiomekanismien suhteen eroavien aineistojen erillinen analyysi olla perusteltua. Ongelmaksi muodostuu, miten tällaiset erilaiset mekanismit tunnistetaan,
22
Molekyylisystematiikan avoimia kysymyksiä
243
ja kuinka hienolla tasolla niitä tulisi tarkastella. Suurimman uskottavuuden menetelmissä mutaatiomekanismit on sisällytetty evoluutiomalliin, mutta parsimoniaanalyysin yhteydessä sopivan mallin (painotuksen) määritteleminen voi olla vaikeampaa.
Simulaatiotulosten perusteella näyttää siltä, että jos käsillä on kaksi erilaista
aineistoa, joista toisen sekvenssit muuttuvat nopeasti, ja toisen hitaasti, voi erillinen analyysi antaa tulokseksi luotettavamman puun kuin yhdistetty analyysi. Tämä
tulos pätee olettaen, että molemmissa aineistoissa kaikkia ominaisuuksia on painotettu tasaisesti. Jos nopeammin evolvoituvia sekvensejä painotetaan vähemmän
kuin hitaasti evolvoituvia kuitenkin siten, että molemmat aineistot saavat yhtä suuren yhteenlasketun painoarvon analyysissä, ongelma poistuu, ja yhdistetty analyysi
tuottaa luotettavamman tuloksen.
Yhdistetyssä analyysissä eri kokoiset aineistot voivat vaikuttaa tuloksiin siten,
että jos kaikkia ominaisuuksia painotetaan tasaisesti, suurempi aineisto voi vaikuttaa tuloksiin pientä aineistoa enemmän. Koska suuressa aineistossa on enemmän
ominaisuuksia, voi pienessä aineistossa oleva informaatio hukkua suuremman aineiston alle. Erillisessä analyysissä tätä ongelmaa ei ole, vaan molemmat aineistot
vaikuttavat tuloksiin yhtä paljon.
22.1.2 Yhdistetty analyysi
Yhdistetyn analyysin etuna verrattuna erilliseen analyysiin on, että muodostuvan
puun haarautumisjärjestys on miltei aina paremmin tunnettu eli siinä on vähemmän polytomioita kuin erillisen analyysin tuloksena saatu konsensuspuu. Yhdistetyllä analyysillä on erillista analyysiä parempi selitysvoima, mikä onkin menetelmän käytön tärkein perustelu. On kuitenkin mahdollista, että erillisen analyysin
tuottama konsensuspuu on konservatiivinen arvio lajien välisistä suhteista, ja siten
sen käyttämiseen liittyy pienempi vaara vetää vääriä johtopäätöksiä.
Yhdistetyssä analyysissä kyetään välttämään eri konsensusmenetelmistä aiheutuvat erot tuloksissa. Jos jokaisesta erillisestä aineistoista saadaan usemapia puita, ja niiden sisältämä informaatio tiivistetään jokaisesta aineistosta eri konsensusmenetelmää käyttäen, on tällaisten eri menetelmin muodostettujen konsensuspuiden yhdistäminen erillisen analyysin päätteeksi hankalaa. Yhdistetyssä analyysissä
sen sijaan useat yhtä hyvät puut voidaan tiivistää yhdeksi konsensuspuuksi käyttäen yhtä ja samaa konsensusmenetelmää. Näin voidaan tietysti tehdä erillisessä
analyysissäkin.
22.1.3 Ehdollinen aineistojen yhdistäminen
Ehdollisella aineistojen yhdistämisellä tarkoitetaan sitä, että ennen kuin aineistot
yhdistetään, tutkitaan ovatko ne yhteensopivia. Aineistojen yhteensopivuuden testaamiseen voidaan käyttää ILD- tai LHT-testejä, jotka on esitelty tarkemmin tilastollisia testejä käsittelevässä luvussa. Jos aineistot ovat testin perusteella yhteensopivia, ne yhdistetään ja analysoidaan yhtenä aineistona. Jos sen sijaan aineistoissa
on huomattavaa yhteensopimattomuutta, ne analysoidaan erillisinä aineistoina, ja
tulokset tiivistetään konsensuspuuksi.
Aineistojen yhteensopivuuden testaaminen on tärkeää erityisesti suurimman
uskottavuuden menetelmien tapauksessa, jolloin väärän evoluutiomallin käyttäminen analyysissä vaikuttaa tuloksiin epäsuotuisasti. Jos eri aineistoihin näyttävät
LHT-testin perusteella vaikuttavan erilaiset evoluutiovoimat ei aineistoja kannata
yhdistää, koska saman evoluutiomallin käyttäminen kaikille aineistoille vääristäisi
tuloksia. Sama pätee myös parsimonia-analyysiin, jos evoluutiomallista (erilaisten
nukleotidimuutosten painoarvoista, ym.) halutaan erityisesti olettaa jotakin.
244
Bioinformatiikan perusteet
22.1.4 Käytännön ehdotuksia
Erillisen analyysin ongelmana on, että jos kaikissa aineistoissa eivät esiinny samat taksonit, muodostuu konsensuspuun muodostamisesta ongelma. Tällöin pitää
turvautua superpuiden laatimiseen tarkoitettuihin menetelmiin, joihin liittyy omia
ongelmiaan.
Oletetaan, että tutkimme neljää erilaista sekvenssiä, joiden perusteella pyrimme hahmottamaa koiraeläinten evoluutiohistoriaa. Yhdistetyn analyysin ongelmaksi muodostuu yhdistetyn ominaisuusmatriisin muodostaminen, jos yhdeltä tai useammalta taksonilta puuttuu jokin sekvensseistä. Tällöin on mahdollista valita analyysiin vain sellaiset taksonit, joista kaikki sekvenssit löytyvät, mutta näin voidaan
joutua uhraamaan suuri osa aineistosta. Toinen vaihtoehto on koodata puuttuvat
sekvenssit puuttuvina havaintona analyysiä varten. Useimmissa analyysiohjelmissa tämä tapahtuu korvaamalla koko puuttuva sekvenssi kysymysmerkeillä. Puuttuvien sekvenssien korvaaminen puuttuvilla havainnoilla mahdollistaa kaiken aineiston käyttämien yhdistetyssä analyysissä, mutta en huonona puolena on, että puun
luotettavuus, esimerkiksi bootstrapping-arvoilla tarkasteltuna kärsii.
Yhdistetyssä analyysissä ongelmia voivat tuottaa myös polymorfiset ominaisuudet, siis sellaiset ominaisuudet, joista esiintyy yhdellä tai useammalla taksonilla vähintää kahta eri muotoa. Monista taksoneista on edelleen saatavilla vain yksi
ainut sekvenssi, mutta joistakin analyysiin valituista taksoneista sekvenssejä voikin olla saatavilla useita. Tämä voi vääristää analyysiä, koska emme tiedä ominaisuuksien polymorfisuudesta mitään sellaisilla taksoneilla, joilla analyysiin on
valittu vain yksi ainut sekvenssi. Tällaisissa tapauksissa lienee parasta poistaa analyysistä sellaiset ominaisuudet, joissa esiintyy polymorfiaa yhdessäkin taksonissa.
Koska yhdistetty analyysi antaa taksonien välisistä suhteista tarkempaa tietoa, lienee menetelmän suosiminen erillisen analyysin kustannuksella paikallaan.
Yhdistettyä analyysiä ei kuitenkaan kannata suosia varauksetta, vaan sen oletusten
täyttyminen pitää testata esimerkiksi ILD- tai LHT-testiä käyttäen.
Felsenstein johtaa kirjassaan (2004) parsimonia-analyysissä sovellettavat ominaisuuksien painoarvot parsimonian suurimman uskottavuuden ominaisuuksia soveltaen. Tällöin ominaisuudet, joissa on tapahtunut eniten muutoksia saavat pienimmän painoarvon. Tämä on periaatteessa suurimman uskottavuuden menetelmien käyttämä "painotus", mutta Felsenstein yleistää saman painotuksen koskemaan myös parsimonia-analyysiä. Sama idea voidaan Felsensteinin mukaan edelleen yleistää koskemaan myös eri sekvenssejä. Tällöin analyysissä eri ominaisuuksien saamiin painoarvoihin vaikuttaisivat yhdessä sekä itse ominaisuus, siis siinä tapahtuneiden muutosten määrä, että sen sekvenssin ominaisuudet, johon ominaisuus
kuuluu. Tällöin tuloksena olisi painotettu parsimonia-menetelmä, joka yhtäaikaiesti toimisi sekä kokonaisaineistomenetelmänä (yhdistetty analyysi) että muistuttaisi
läheisesti konsensusmenetelmää (erillinen analyysi). Sama menettelyä voidaan soveltaa myös suurimman uskottavuuden menetelmiin kätkettyjä Markovin malleja
käyttäen.
22.2
Analyysiin DNA- vai proteiinisekvenssit?
Koska DNA-sekvenssi sisältää toiminnallisen proteiinin tuottamiseen tarvittavan
informaation, usein molekyylisystematiikassakin käytetään analyysiin DNA-sekvenssejä.
Koska valinta kuitenkin tapahtuu pitkälti proteiinitasolla, voi toisinaan olla tarpeen
analysoida aminohapposekvenssejä DNA-sekvenssien sijaan. DNA:han kohdistuvat valintapaineet voivat (tuotetun proteiinin pitää olla toiminnallinen, GC% korkeissa lämpötiloissa kasvavissa eliöissä) olla monimutkaisempia kuin aminohappotasolle kohdistuvat valintapaineet, jolloin tarvittavan evoluutiomallin valinta voi
muodostua vaikeaksi. Tämän lisäksi aminohapposekvenssin valintaa puolustavat
muutkin seikat, joista seuraavassa tarkastellaan muutamia.
22
Molekyylisystematiikan avoimia kysymyksiä
245
Aminohapposekvenssien avulla kyetään kurkistamaan pidemmälle ajassa taaksepäin kuin DNA-sekvenssejä käyttäen, koska niisä tapahtuu huomattavasti vähemmän muutoksia kuin DNA-sekvensseissä. Proteiineja koodaavissa DNA-sekvensseissä
suurin osa muutoksista tapahtuu kodonin kolmannessa kohdassa, ja muutokset ensimmäisessä tai toisessa kohdassa ovat harvinaisempia, koska ne saattavat aiheuttaa
aminohappomuutoksen muodostuvassa proteiinissa. Aminohapposekvenssien analysointi vastaakin pitkälti DNA-sekvenssin kodonien kolmansien kohtien poistamista analyysistä. Eräs tapaus, jossa kodonien kolmansien kohtien jättäminen analyysistä, niiden muita kohtia vähäisempi painotus analyysissä tai aminohapposekvenssien analysointi DNA-sijaan, on kodonien kolmansissa kohdissa tapahtuneiden muutosten saturoituminen (Kuva 22.1).
Kuva 22.1: Proteiinia vastaavan geenin kodonin eri kohtien muutosten saturaatioasteen
tutkiminen. Kuvassa on esitetty transitioiden (s) ja transversioiden (v) osuus eri kodonien
kohdissa F84-evoluutiomallin perusteella lasketun etäisyyden suhteena. Sekä transitioiden
että transversioiden lukumäärän oletetaan kasvavan etäisyyden kasvaessa kuitenkin siten,
että transitioiden lukumäärän odotetaan kasvavan transversioiden lukumäärää nopeammin.
Ajan kuluessa samaan sekvenssikohtaan sattuu sattumalta useita muutoksia, jolloin transversioiden lukumäärä ajaa transitioiden lukumäärän ohi. Tämä kielii kodonissa tapahtuneesta saturaatiosta, jota evoluutiomalli ei kykene korjaamaan. Kuvan perusteella kodonien kolmansissa kohdissa esiintyy saturaatiota, ja ne voidaan jättää esimerkiksi pois analyysistä. Kuva on tuotettu DAMBE 4.2.13 -ohjelmalla.
Jos siis DNA-sekvenssit näyttävät kovin erilaisilta (niitä ei voida luotettavasti rinnastaa) tai niissä esiintyy huomattavaa saturaatiota, jolloin DNA-sekvenssien
analysoiminen voi antaa hyvinkin harhaanjohtavia tuloksia, voi olla parempi analysoida aminohapposekvenssejä DNA-sekvenssien sijaan.
DNA-sekvenssien ongelmana on, että kahdessa satunnaisessa sekvenssissä voidaan olettaa olevan sama nukleotidi samassa paikassa noin 25% todennäköisyydellä. Proteiineissa samat aminohapot esiintyvät samassa paikassa sattumalta vain noin
5% todennäköisyydellä. Siten aminohapposekvenssien käyttö DNA-sekvenssien sijaan saattaa vähentää aineistossa olevaa hälyä, ja mahdollistaa voimakkaamman
analyysin.
Aminohapposekvenssien ongelmana on, ettei niitä käyttäen voida useinkaan
tutkia kovin läheisiä lajeja tai esimerkiksi virusinfektion epidemiologiaa, sillä näis-
246
Bioinformatiikan perusteet
sä tapauksissa aminohapposekvensseissä ei välttämättä havaita tarpeeksi muutoksia
luotettavaa analyysia varten. Valinta DNA- ja aminohappoaineistojen välillä on siten häilyvä, ja riippuu viime kädesä tutkittavista eliöistä tai eliöryhmistä. Valintaa
ei välttämättä ole mahdollista tehdä etukäteen, vaan valinta joudutaan usein tekemään yrityksen ja erehdyksen kautta.
DNA-sekvenssit siis sisältävät huomattavasti enemmän informaatiota kuin aminohapposekvenssit, mutta niiden sisältämä informaatio voi olla harhaanjohtavaa,
siis suuri osa aineiston ominaisuuksista voi olla homoplasisia, erityisesti kodonien
kolmannet kohdat. On kuitenkin niin, että homoplasisetkin ominaisuudet tuovat
analyysiin lisäinformaatiota taksonien välisistä suhteista, joskaan eivät yhtä paljon ominaisuutta kohden kuin synapomorfiat. Siksi onkin tarkkaan harkittava, onko analyysissä syytä siirtyä käyttämään aminohapposekvenssejä DNA-sekvenssien
sijaan.
Eräs osittainen ratkaisu ongelmaan voi olla proteiiniparsimonia, jossa analysoidaan aminohapposekvenssejä, mutta muodostettavassa puussa muutokset optimoidaan käyttäen tietoa aminohappoja vastaavista lähetti-RNA-sekvenssin kodoneista. Eräs tällainen proteiiniparsimoniamenetelmä löytyy PHYLIP-paketin PROTPARSohjelmasta. PROTPARS-ohjelmassa pyritään muodostamaa aminohapposekvenssien perusteella parismoniapuu, joka minimoi lähetti-RNA:ssa tapahtuneiden muutosten määrän. Synonyymiset muutokset, siis DNA-sekvenssin sellaistet, jotka eivät aiheuta aminohappomuutosta, eivät lisää puun pituutta. Esimerkiksi PROTPARSohjelmassa muutos lysiinistä (AAA) arginiiniksi (AGA) laskettaisiin yhdeksi muutokseksi, mutta muutos lysiinistä (AAA) proliiniksi (CCA) kahdeksi, koska välillä
pitää käydä glutamminia koodaavan kodonin (CAA) kautta. Jotkin muutokset vaativat kolme nukleotidimuutosta, mutta ne lasketaan vain kahdeksi, koska muutoksiin
sisältyy synonyymisiä muutoksia. Esimerkiksi muutos fenyylialaniinista (AAA)
leusiinin (GAA) ja leusiinin (GAT) kautta glutamiiniksi (GTT) laskettaisiin vain
kahdeksi muutokseksi. Tietenkin sekvenssit voidaan analysoida muitakin menetelmiä tai tavanomaista parsimoniaa (yksi aminohappomuutos lisää puun pituutta
yhdellä) käyttäen, mutta PROTPARS voi tarjota näille mielenkiintoisen DNA- ja
aminohapposekvenssien välimaastoon sijoittuvan menetelmän.
Eräs aminohapposekvensseihin liittyvä mielenkiintoinen yksityiskohta on, että jos parsimonian halutaan olevan tarkentuva (consistent), mikä tarkoittaa sitä, että
aineiston koon lisääntyessä menetelmän tulee saavuttaa oikea tulos varmemmin ja
varmemmin, tulee yhdessä oksassa tapahtuneen muutoksen todennäköisyyden olla suhteellisen pieni. Tämä johtaa puolestaan siihen, että jokaisessa ominaisuudessa muutoksien täytyy olla suhteellisen harvinaisia. Jos siis DNA-sekvensseissä on
tapahtunut suuri määrä muutoksia tai ne ovat jopa saturoituneet, puolustaa tämä
aineiston transloimista aminohapposekvensseiksi ja analysoimista niitä käyttäen.
22.3
Long branch attraction
Long branch attraction (LBA) on molekyylisystematiikassa tunnettu ongelma, johon ei ole olemassa yhtä ja oikeaa, yksiselitteitä ja joka tilanteeseen sopivaa selitystä. LBA:lla tarkoitetaan tilannetta, jossa muodostetussa puussa samaan ryhmään
sijoitetut taksonit ovat yhdessä vain siksi, että niihin johtavat oksat ovat pitkiä. Tällöin taksonien sijoittelu samaan ryhmään on siis väärä, koska se perustuu vain siihen, että pitkät oksat vetävät analyysissä toisiaan puoleensa. Parsimoniamenetelmä
näyttää olevan suurimman uskottavuuden menetelmiä herkempi LBA:lle, mutta sitä
voi esiintyä minkä tahansa menetelmän yhteydessä.
LBA:n tunnistamista varten on ehdotettu neljää sääntöä (Huelsenbeck, 1997):
1. "Yhteen houkuteltuihin"taksoneihin johtavien oksien tulee olla hyvin pitkiä
muihin verrattuna.
2. Pitkäoksaisten taksonien yhteenkuuluvuuden täytyy saada korkea tukiarvo.
22
Molekyylisystematiikan avoimia kysymyksiä
247
3. Oksien täytyy olla riittävän pitkät, jotta ne voisivat vetää toisiaan puoleensa.
4. Jonkin toisen menetelmän, jonka tiedetään olevan käytettyä menetelmää vähemmän herkkä LBA:lle täytyy muodostaa puu, jossa pitkät oksat eivät sijoitu puussa yhteen.
Säännön 2 mukaan meidän pitäisi siis luottaa vähemmän sellaisiin taksonien
ryhmittelyihin, joihin johtaa pitkä oksa ja jotka saavat korkean tukiarvon. Paradoksaalisesti tämä tarkoittaisi sitä, että mitä suurempi määrä ominaisuuksista tukee
tiettyä ryhmittelyä (korkea tukiarvo), sitä vähemmän meidän pitäisi siihen luottaa.
Sääntöä 3 voidaan käytännössä testata parametrisella bootstrapping-analyysillä.
Aineistosta arvioituja parametreja (muun muassa puuta ja sen oksien pituuksia sekä nukleotidien muutostodennäköisyyksiä) käyttäen simuloidaan aineistoja, jotka
sitten analysoidaan kuten alkuperäinen aineisto. Simulaatioissa epäilystä herättävä(t) oksa(t) sijoitetaan puussa eri kohtiin (esimerkiksi erilleen toisistaan), ja jos
pitkät oksat sijoituksestaan simulaatiopuussa riippumatta aina sijoittuvat analyysin jälkeen muodostuvassa puussa yhteen, ne ovat riittävän pitkiä houkuttaakseen
toisiaan analyysissä.
Parametrista bootstrapping-menetelmää LBA:n testaamiseksi on arvosteltu (Siddall, 1999), ja parempi tapa sen selvittämiseen voisikin olla muuttaa alkuperäistä
aineistoa siten, että pitkän oksan päässä sijaitsevan taksonin ominaisuuksista osa
(jopa kaikki) korvattaisiin satunnaisesti siten, että oksa tulisi alkuperäistä pidemmäksi. Kun tämä tehdään useita kertoja ja näin muodostetut aineistot analysoidaan,
voidaan niiden perusteella tutkia houkuttaako taksoni, jonka ominaisuudet on korvattu, johdonmukaisesti jotakin muuta taksonia.
Sääntö 4 tarkoittaa sitä, että puu pitäisi muodostaa esimerkiksi sekä suurimman uskottavuuden menetelmää että parsimoniamenetelmää käyttäen, ja jos suurimman uskottavuuden menetelmässä tuotetussa puussa pitkät oksat eivät houkuta
toisiaan, mutta parsimoniapuussa houkuttavat, voi tulos johtua LBA:sta. Ongelmia
voi aiheuttaa jälleen oikean evoluutiomallin valinta. Kaikkein tarkimpana mallina
pidetään yleismallia (GTR), joka sisältää eniten parametrejä, joten se kuvastanee
evoluutiota parhaiten. Jos sen sijaan kaikki muutkin, esimerkiksi Jukes-Cantorin
malli, tuottavat GTR-mallin mukaisen tuloksen, ei syynä välttämättä olekaan LBA,
vaan parsimonia ja suurimman uskottavuuden menetelmien sisäsyntyinen ero.
Parar LBA-testi on, että jos analyysissä on esimerkiksi kaksi taksonia, jotka sijoittuvat analyysissä yhteen, ja syyksi epäillään LBA:ta, voidaan toinen jättää analyysistä, ja tutkia vaikuttaako tämä tuloksiin. Kaksi pitkäoksaista taksonia eivät voi
vetää toisiaan puoleensa, jos vain toinen niistä on kerrallaan analyysissä mukana.
Analyysin tuloksia voi tosin hankaloittaa runsas homoplasia, koska homoplasian
vuoksi analyysitulos, jossa taksoni on mukana voi erota huomattavasti tuloksesta,
jossa taksoni ei ole mukana.
Toisinaan on havaittu, että suurimman uskottavuuden menetelmän yhteydessä
väärä evoluutiomalli lisää todennäköisyyttä löytää oikea puu, mutta tämä johtunee
lähinnä siitä, että väärän mallin käyttä lisää LBA:n mahdollisuutta. Mainituissa tutkimuksissa pitkät oksat todellisuudessa kuuluivat puuhun vierekkäin, joten väärän
mallin käyttö ja sitä kautta LBA lisäsi todennäköisyyttä löytää puu, jonka tiedettiin
olevan oikea. Havainto johtuu siis LBA:sta eikä liene millään tavalla yleistettävissä
analyysia koskevaksi suositukseksi.
LBA on otettava huomioon tuloksia analysoitaessa, jos näyttää siltä, että pitkät
oksat sijoittuvat muodostetussa puussa toistensa naapureiksi huolimatta mahdollisista oletuksistamme (esimerkiksi morfologisen aineiston perusteella) ettei näin tulisi tapahtua. Yllä lyhyesti esiteltyjen testien lisäksi voidaan analyysia varten kerätä
lisää aineistoa, jolla pyritään löytämään mahdollisesti pitkien oksien väliin sijoittuvia taksoneita. Jos uudet taksonit sijoittuvat pitkien oksien väliin, voidaan LBA
turvallisesti sulkea laskuista. Taksoniotantaa käsitellään seuraavassa kappaleessa
tarkemmin.
248
22.4
Bioinformatiikan perusteet
Taksoniotanta ja häly - miten ne vaikuttavat analyysiin?
22.4.1 Taksoniotanta
Taksoniotannalla tarkoitetaan tutkimukseen valittavien taksonien valintaa. Hyvä
taskoniotanta kattaa tutkittavan ryhmän riittävällä tarkkuudelle siten, etei tutkimuksessa jätetä huomiotta esimerkiksi kokonaisia tutkimukseen piiriin selvästi kuuluvia eliöryhmiä. Jos tätä periaatetta noudatetaan, on eliöryhmän taksoniotanta kattava ("tasainen"). Useinkaan kattavaan otantaan ei päästä, sillä kaikki ryhmään kuuluvia taksoneita ei tunneta, niistä ei ole saatavilla näytteitä tai tutkimuksessa on
muita esteitä mahdollisimman laajan taksoniotannan saavuttamiselle.
Eräs peruste kattavan taksoniotannan käyttämiselle on, että sen avulla voidaan
mahdollisesti välttää long brach attraction (LBA) ja sen tuottamat virheet analyysissä. Kun taksoneita kerätään tasaisesti koko eliöryhmästä, ovat jotkin taksonit
voineet evolvoitua muita nopeammin, ja niiden sekvensseissä tavataan runsaammin muutoksia. Tällaiset taksonit saattaisivat muodostetussa puussa sijoittua yhteen LBA:sta johtuen, mutta tasaisella taksoniotannalla voidaan pitkiä oksia pyrkiä
pilkkomaan pienemmiksi, jolloin LBA:n todennäköisyyskin pienenee.
Kattavan taksoniotannan vuoksi LBA:n mahdollisuus näyttää pienenevän juuri siksi, että terminaalisten oksien siis lehtiin (taksoneihin) johtavien oksien pituudet tulevat keskimärin lyhyemmiksi, kun analyysiin mukaan otettujen taksoneiden
lukumäärää kasvatetaan (Rannala, 1998). Tällöin homoplasian havaitseminen tulee helpommaksi kuin pienempää taksonimäärää käyttäen. Tämä puolestaan johtaa
luotettvampaa tulokseen. Suuren taksonimäärän valitseminen analyysiin todellakin
näyttää tekevän luotettavan puun helpommaksi kuin pienemmällä taksonimäärällä
(Hillis, 1996).
Rosenbergin (2001) mukaan epätäydellinen taksoniotanta ei kuitenkaan aiheuta ongelmia, ja analyysistä saadaan luotettavampi analysoitujen sekvenssien pituutta kasvattamalla ei lisäämällä taksoneita analyysiin. Lisäksi näyttää siltä, ettei satunnainen taksonien lisääminen analyysiin paranna sen luotettavuutta. Jos sen sijaan taksoneita lisätään jo tunnettuihin monofyleettisiin ryhmiin, saatetaan näin
saavuttaa lisäetua sellaiseen analyysiin verrattuna, jossa on ollut vähemän taksoneita.
Vaikka taksoniotannan laajuudesta on hieman ristiriitaisia tuloksia evoluutiohistorian selvittämistä ajatellen, on taksoniotantaan kuitenkin kiinnitettävä huomiota esimerkiksi sekvenssien evoluutiota kuvaavien parametrien arvioinnissa. Parametrit, kuten nukleotidimuutosten todennäköisyyksien arviot saattavat riippua suuresti tutkimukseen valituista taksoneista, joten tällöin kannattanee pyrkiä mahdollisimman kattavaan tai tasaiseen taksoniotantaan.
22.4.2 Häly
Molekyylisystemaatisessa analyysissä hälyllä (noise) tarkoitetaan satunnaista aineistoa. Vaikka satunnaisten ominaisuuksien perusteella voikin muodostua säännönmukaisuutta sattumalta, ei taustalla ole taksonomista informaatiota tai ominaisuuksien valinnassa ilmennyttä systemaattista virhettä. Hälyllä ei siis tarkoiteta tässä suoraan homoplasiaa, sillä homoplasia voi johtua esimerkiksi samansuuntaisesta
evoluutiosta kahdessa eri puun osassa sijaitsevissa taksoneissa.
Wenzel (1999) on tutkinut aineistoon lisätyn hälyn vaikutusta parsimoni-analyysin
tuloksiin. Hälyä lisättiin aineistoon joko lisäämällä ominaisuusmatriisiin satunnaisia ominaisuuksia tai korvaamalla satunnaisesti osa ominaisuusmatriisin havainnoista. Kun ominaisuusmatriisin kanssa yhdistettiin samankokoinen pelkästään hälystä koostuva matriisi, ei häly häirinnyt analyysiä kovin merkittävästi, kunhan alkuperäisessä ominaisuusmatriisissa oli riittävästi synapomorfioita (1-3) taksonien
välisten suhteiden määrittämiseksi. Samansuuntaisia tuloksia saatiin, kun osa ominaisuuksista (20%) korvattiin hälyllä.
22
Molekyylisystematiikan avoimia kysymyksiä
249
Usein hälyn poistamiseksi on ehdotettu käytettävän erilaisia ominaisuuksien
painotuksia. Näyttää kuitenkin siltä, ettei niistä olisi hälyn kannalta juuri mitään
hyötyä, pikemminkin päinvastoin. Wenzel (1999) nimittäin raportoi tutkimuksessaan, että luotettavimmat tulokset saatiin, kun analyysiin käytettiin DNA-sekvenssiä
kokonaisuudessaan, kaikki kodonin kohdat mukaanluettuina. Vaikka kodonien kolmannet positiot ovatkin usein mutaatioiden määrällä mitattuna saturoituneita, ja
siten sisältävät paljon homoplasiaa, lisäävät ne kuitenkin analyysiin enemmän informaatiota kuin hälyä taksonien suhteista. Siten kodonien kolmansien positioiden
poistaminen analyysistä ei välttämättä ole perusteltua.
Koska häly ei vaikuttanut häiritsevästi puun muodostamiseen, kunhan ominaisuusmatriisissa oli riittävästi synapomorfioita monofyleettisten ryhmien muodostamiseksi, ei erilaisia aineistojen yhdistettäessäkään luultavasti kohdata ongelmia.
Useinhan huolena on ollut, että molekyylisekvesseissä on niin paljon hälyä, että siitä johtuva ristiriitainen informaatio taksonien välisistä suhteista peittää alleen sekvenssisineistoon yhdistettävän morfologisia tuntomerkkejä sisältävän huomattavasti kooltaan pienemmän aineiston. Wenzelin (1999) tutkimukseen nojaten, huoli
näyttää turhalta. Tämä johtunee siitä, että aineistoja yhdistettäessä taksonien suhteista kerovan signaalin määrä moninkertaistuu esimerkiksi suhteessa aineistojen
kokoihin, mutta hälyn määrä ainoastaan summautuu. Signaalin määrä siis näyttää
kasvavan aineistoja yhdistettäessä hälyä nopeammin.
22.5
Sekvenssirinnastus ja POY
Molekyylisekvenssien rinnastaminen, jota on käsitelty sekvenssirinnastusluvussa,
ei ole helppoa eikä välttämättä objektiivistakaan, varsinkin jos sekvenssejä rinnastaa käsin. Eri henkilöt nimittäin muodostavat samoista sekvensseistä varsin erilaisia
rinnatuksia, ja molekyylisystemattisen analyysin antamat tulokset voivat eri rinnastuksista tehtyinä olla hyvinkin erilaisia. Sekvenssirinnastus on kuitenkin keskeinen
osa molekyylisystemaattista analyysiä, ja se saattaa vaikuttaa saatuihin tuloksiin
huomattavasti (Morrison, 1997; Mugridge, 2000). Voidaankin sanoa, että analyysitulos on korkeintaan niin hyvä kuin rinnastus, jonka perusteella se on saavutettu.
Rinnastukseen liittyvä ongelma voidaan ratkaista joko perinteisellä lähestymistavalla tai POY-tietokoneohjelmaa käyttäen. Molemmilla tavoilla on sekä hyviä
että huonoja puolia, ja molemmat menetelmät esitellään seuraavassa lyhyesti.
22.5.1 Perinteinen lähestymistapa
Rinnastuksen editointi käsin tuo analyysiin subjektiivisuutta, ja siksi molekyylisystematiikan työskentelyä varten lieneekin parempi rinnastaa sekvenssit useita erilaisia rinnastusohjelman asetuksiä käyttäen ja sitten analysoida nämä kaikki rinnastukset tai vain niistä parhaaksi katsottu. Tuloksia raportoidessa tulisi myös ilmoittaa rinnastuksissa käytetyt asetukset, ja mahdollisuuksien mukaan samoja asetuksia, esimerkiksi evoluutiomallia (PAM-matriisia vaikkapa), tulisi käyttää sekä sekvenssejä rinnastettaessa että rinnastusta analysoitaessa.
Koska jo muutamasta sekvenssistä voidaan muodostaa hyvin suuri määrä erilaisia rinnastuksia, on kaikkien mahdollisten sekvenssirinnastusten analysointi mahdotonta. Jos sekvenssit on rinnastettu vaikkapa yhdeksää eri asetusyhdistelmää käyttäen, voidaan jokainen rinnastus analysoida erikseen, ja lopuksi yhdistää tulokset konsensuspuumenetelmiä käyttäen. Vaihtoehtoiseksi tavaksi on ehdotettu rinnastusten yhdistämistä ja analysoimista yhtenä aineistona, mutta tämä muodostaa
eräänlaisen painotuksen, jossa parhaiten rinnastuvat alueet (tai ominaisuudet) saavat suurimman painoarvon. Lisäksi aineiston määrää lisäämällä analyysin tulokset
tulevat esimerkiksi bootstrapping-arvoilla mitattuna luotettavammiksi eikä tukiarvoilla siten ole välttämättä suoraa tulkintaa sitä ajatellen, että oikeasti käsissämme
on vain 1/9:n kokoinen alkuperäinen aineisto.
250
Bioinformatiikan perusteet
Tiivistäen, voidaan ehkä suositella, että rinnastuksia tehdessä tulisi kokeilla
erilaisia asetuksia, ja sitten analysoida kaikki tuloksena saadut rinnastukset. Rinnastuksia ei tulisi korjailla käsin, sillä se tuo analyysiin mukaan subjektiivisuutta. Useimmiten rinnastusvirheet eivät ole kovin suuria, korkeintaan muutamien
nukleotidien kokoisia siirtymiä, eivätkä siten vaikuta analyysiin. Rinnastukset tulisi sitten analysoida erikseen, ja näin saadut tulokset yhdistää konsensusmenetelmiä
käyttäen. Jos puun oksien pituudet halutaan selvittää, voitaisiin ne kenties arvioida
aineistojen antamien tulosten keskiarvoina.
Useimmat yhä edelleen poistavat sekvenssirinnastuksessa olevat aukkokohdat
analyysistä. Näin menetetään helposti paljon informaatiota, mikä saattaa vaikeuttaa
sellaisten ryhmien hahmottamista, joita aineistossa tukee vain muutama ominaisuus
(Mugridge, 2000). Jos uskotaan, että rinnastusohjelmisto on sijoitellut aukkokohdat
oikeille kohdin, voidaan aukkokohtien sisältämä informaatio koodata mukaan analyysiin, yleensä siten, että kutakin aukkokohtaa käsitellään binäärisenä muuttujana
(joko taksonilla on kyseinen aukko tai sitten ei). Tällainen koodaus voi tuoda analyysiin huomattavaa lisäarvoa, sillä aukkokohtien ollessa luotettavia, voidaan niiden katsoa vastaavan oikeita indel-tapahtumia, ja siten myös kuvastavan taksonien
evoluutiohistoriaa yksittäisiä nukleotidimuutoksia paremmin.
Monet rinnastusmenetelmät muodostavat hyvin eri mittaisia rinnastuksi samoille sekvensseille. Rinnastuksen pituus ei kuitenkaan kerro sen perusteella muodostettujen puiden topologiasta vielä mitään. Hyvinkin eri mittaiset rinnastukset
voivat päätyä tismalleen samaan puun muotoon. Esimerkiksi MALIGN-ohjelma
näytti tutkimuksissa tuottavan hyvin pitkän rinnastuksen, mutta verrattaessa sen ja
muiden ohjelmien tuottamien rinnastusten perusteella tuotettuja puita rakennerinnastuksen perusteella muodostettuun puuhun, tuotti MALIGN:n rinnastus eniten
rakennerinnastusta muistuttavan puun (Morrison, 1997).
Sekvenssirinnastuksessa tarkoituksena on sijoittaa samaan sarakkeeseen samanlaiset nukleotidit tai aminohapot. Tarkoituksena on siis maksimoida sekvenssien välinen samankaltaisuus. Sekvenssirinnastuksella luodaan hypoteeseja eri sekvenssikohtien homologiasta. Samassa sarakkeessa olevien sekvenssikohtien oletetaan olevan keskenään homologisia. Eri mittaisiin sekvesseihin sijoitettavien aukkojen vuoksi homologiahypoteesien muodostaminen ei aina ole yksiselitteistä tai
helppoa. Asian ratkaisemiseksi onkin ehdotettu käytettäväksi esimerkiksi suoraa
kohdistusoptimointia (direct optimization), joka on toteutettu esimerkiksi ohjelmassa POY.
POY:n käytön perusteena on, että sekvenssirinnastusohjelmat (MALIGN-ohjelmaa
lukuunottamatta, sillä POY on tavallaan MALIGN-ohjelman laajennus) pyrkivät
maksimoimaan sekvenssien välisen samankaltaisuuden, eivät sekvenssien välistä
homologiaa. Esimerkiksi Clustal-perheen ohjelmat käyttävät optimaalisuuskriteerinään sekvenssien välistä samankaltaisuutta. Siten ne eivät välttämättä kykenekään
optimoimaan sekvenssien välistä homologiaa. Lisäksi ohjelmat käyttävät haussa
heuristista menetelmää, joka ei myöskään takaa optimaalista tulosta.
POY ja MALIGN käyttävät optimaalisuuskriteerinään rinnastusta vastaavan
parismoniapuun pituutta, ja siten ne pyrkivät suoraan optimoimaan myös sekvenssien välisen homologian. Niiden hakumenetelmät ovat edelleen heuristisia, eivätkä siten takaa parasta mahdollista tulosta, mutta pääsevät varsin lähelle sitä. Aikaisempiin Needleman-Wunch-algoritmin usena sekvenssin rinnastuksia koskeviin
laajennuksiin verrattuna niiden ajoajat ovat huomattavan pieniä, ja ero tarkkuudessa verrattuna Needleman-Wunchin algoritmia käyttäviin ohjelmiin on pieni.
22.5.2 POY:n ratkaisumalli
POY on suhteellisen uusi tietokoneohjelma, jonka tarkoituksena on osaltaan ratkaista sekvenssirinnastuksen ja sitä vastaavan puun laatimiseen liittyviä ongelmia
(Wheeler, 1996). Ideana on, että koska rinnastus ja sitä vastaava puu (eliöhistoria)
eivät ole toisistaan riippumatomia, ne voidaan ratkaista yhtäaikaa. Lisäksi, koska
22
Molekyylisystematiikan avoimia kysymyksiä
251
ominaisuuksien homologiahypoteesi ei ole kiveen hakattu, vaan analyysin jälkeen
sitä tulisi tarkastella kriittisesti, toteuttaa POY eräänlaisen sekvenssirinnastuksen
homologiahypoteesien tarkastelun puun muodostamisen jälkeen, ja jos on syytä
muuttaa joidenkin sekvenssikohtien homologiahypoteesia, siis rinnastusta, se tehdään niin, että rinnastus sopii muodostettuun puuhun paremmin.
Optimointikohdistus (direct optimization)
POY käyttää sekä puuta että sitä vastaavaa rinnastusta (implied alignment) muodostaessaan molemmissa vaiheissa samaa mallia. Ohjelmalle voidaan antaa jokin
Sankoffin matriisi, jonka avulla määritetään eri muutoksien hinta, ja lisäksi aukkojen avaamiselle ja jatkamiselle voidaan määrittää omat muutoskulunsa. Näin puun
muodostaminen ja rinnastus muodostavat saumattoman jatkumon. Ideana on, että
kun löydetään paras puu, löydetään myös väistämättä paras rinnastus, sillä puun
muodostaminen ja sekvenssien rinnastaminen liittyvät toisiinsa vähän samalla tapaa kuin progressiivisess rinnastuksessakin. Erona progressiiviseen rinnastukseen
optimointikohdistuksessa on, että se kykenee tarkastelemaan rinnastukseen lisättyjä
aukkoja kriittisesti eivätkä rinnastukseen sijoitetut aukkokohdat ole stationäärisiä,
vaan niiden sijoittelua voidaan muttaa vielä rinnastuksen edetessä. Näin optimointikohdistus välttää progressiivien rinnastuksen aukkokohtien sijoitteluun liittyvän
ongelman.
Sekvenssit optimoidaan tiettyyn puun topologiaan Sankoffin optimointia käyttäen, jos optimaalisuuskriteerinä käytetään parsimoniaa (Wheeler, 1996). Optimoinnissa edetään, kuten tavallisessa Sankoff-optimoinnissakin, lehdistä kohden puun
juurta (down-pass). Jokaisessa puun haarassa muodostetaan sen jälkeläissekvenssien rinnastus käyttäen Needleman-Wunchin algoritmia, mikä takaa rinnastuksen
optimaalisuuden käytetyillä rinnastusparametreilla (muutoskulut ja aukkosakot).
Jos aukko sijoitetaan toisessa sekvenssissä samalle kohtaa kuin se jo toisessa sekvenssissä on, ei siitä sakoteta, vaan aukkosakot pätevät uusien aukkojen avaamiseen. Puun juuren saapumisen jälkeen voidaan vielä tehdä up-pass, jolla sisäisiisn
haaroihinsijoitetut ominaisuuksien arvot voidaan optimoida, mutta puun pituus tiedetään jo down-pass:in jälkeen. Kuvassa 22.2 on esitetty esimerkki menetelmän
toiminnasta.
Kuva 22.2: Esimerkki kohdistusoptimoinnin toiminnasta. Puun muodostaminen vaatii
neljä nukleotidimuutosta ja yhden aukon. Esimerkki mukaeltu Wheeler (1996) mukaan.
Uusimmissa POY-versioissa on mahdollista käyttää optimaalisuuskriteerinä
myös suurinta uskottavuutta. Analyysin tuloksena on puu tai useampia puita sekä tarvittaessa puuta vastaava sekvenssirinnastus. Koska POY:n laatima rinnastus
ei ole stationäärinen vaan on aina sidoksissa sitä vastaavaan puuhun, kutsutaan rinnastusta epäsuoraksi rinnastukseksi (implied alignment). POY:n puun ja rinnastuksen muodostamiseksi käyttämä algoritmi on nimeltään direct optimization (suora
kohdistusoptimointi tai optimointikohdistus).
252
Bioinformatiikan perusteet
Alunperin POY-ohjelmassa käytetty lähestymistapa on toteutettu Jotun Heinin
ohjelmassa TREEALIGN (Hein, 1989), mutta POY:n toteutus on uudempi ja tarkempi. TREEALIGN oli aikanaan varsin hidas, koska sen aikaiset tietokoneet eivät
olleet vielä kovin tehokkaita. Lisäksi TREEALIGN käytti approksimaalista menetelmää, ja uudemman POY:n toteutuksessa on siirrytty eksaktimpaan menetelmään.
POY, kuten sen edeltäjä TREEALIGN:kin analysoi DNA-sekvenssejä.
POY etsii siis sellaisen puun, joka on parsimonisin ottaen huomioon sekvenssit
(tai niiden epäsuoran rinnastuksen). Siten paras rinnastus on sellainen, joka tuottaa
lyhyimmän parsimoniapuun. Jos ohjelmassa käytetään suurimman uskottavuuden
menetelmää, katsotaan parhaaksi puuksi se, joka tuottaa uskottavimman puun. Käytännössä menetelmä näyttää tuottavan lyhyempiä parsimoniapuita kuin perinteinen
menetelmä, jossa valmiin rinnastuksen perusteella etsitään paras puu.
Fixed-states optimization
Toinen POY:ssa saatavilla oleva optimointimenetelmä on kiinnitetty rinnastus (fixedstates optimization), jossa kokonaisia sekvenssejä käsitellään ominaisuuksina (Wheeler, 1999). Eri sekvensseille voidaan laskea muutoskulut, ja Sankoff-optimoinnissa
puun sisäisiin haaroihin optimoidaan vain jokin sellainen sekvenssi, joka esiintyy
jollakin tutkittavista taksoneista (Kuva 22.3). Menetelmästä on muunnos, searchbased optimization, jossa puun sisäisiin haaroihin voidaan optimoida myös jokin
heuristisin menetelmin koostettu sekvenssi.
Kuva 22.3: Esimerkki kiinnitetystä optimoinnista Wheeler:ia (1999) mukaellen. Oletetaan, että muutokset maksavat seuraavasti: A<->G: 1, A<->T: 2, G<->T:1, (ACGT) <>aukko: 4. Tutkittujen neljän sekvenssin välille voidaan muodostaa muutoskulumatriisi
(A). Neljää sekvenssiä käyttäen voidaan muodostaa kolme erilaista juurtamatonta puuta, ja
jokaiseen näistä puista optimoidaan sekvenssit siten, sisäisissä haaroissa voi esiintyä vain
jokin jo havaituista sekvensseistä. Siten, parhaan puun pituudeksi muodostuu 14 (muutoskulut on merkitty kuvatus parhaan puun haaroihin). Optimointikohdistuksella samaisen
puun pituudesta olisi muodostunut lyhyempi, koska kyseinen menetelmä voi kiinnitettyä
optimointia vapaammin sijoittaa aukkokohtia puun sisäisten haarojen sekvensseihin.
Jos jokin tai jotkin analysoitavista sekvensseistä ovat hyvin pitkiä, ja muut varsin lyhyitä, muodostuu sijoitettavien aukkokohtien määrä ongelmaksi. Täytyy olettaa suuri määrä indel-tapahtumia, ja niiden optimoiminen hypoteettisille kantamuodoille vaikuttaa haitallisesti puun alempiin haaroihin. Ongelmalta voidaan välttyä,
22
Molekyylisystematiikan avoimia kysymyksiä
253
jos kokonaista sekvensipätkää käsitellään yhtenä ominaisuutena, jolloin pyritään
optimoimaan kokonaisten sekvenssipätkien eikä vain yksittäisten nukleotidien välistä homologiaa. Tämä onkin kiinnitetyn optimoinnin etu. Lisäksi mahdottomia sekundäärirakenteita tai stop-kodoneita ei esiinny rinnastuksessa (tai puun sisäisissä
haaroissa), sillä hypoteettisillä kantamuodoilla voi esiintyä vain jokin jo havaituista
ominaisuuksista (sekvensseistä).
Iterative-pass optimization
Iteroiva optimointikohdistus (iterative pass-optimization) muodostaa puun ja epäsuoran rinnastuksen siten, että sekvenssit sijoitetaan puuhun käyttäen optimointikohdistuksen ensimmäistä down-pass-vaihetta, mutta up-pass-vaihe toteutetaan
iteratiivisesti. Jokaisen hypoteettisen kantamuodon sekvenssi (tai ominaisuudet)
optimoidaan iteratiivisesti. Kunkin kantamuodon kantamuotoa ja sen kahta jälkeläistä tarkastellaan yhtäaikaa, ja tarkasteltavan kantamuodon sekvenssi saadaan
Needleman-Wunschin algoritmia käyttäen. Iteratiivisuus tulee siistä, että jokaisen
hypoteettisen kantamuodon ominaisuudet optimoidaan niin monta kertaa, etteivät
ne enää koko puun tasolla muutu.
22.6
Suosituksia
Riippuen sekvensseistä, kannattanee rinnastus suorittaa hieman eri tavoin. Tässä
jaettavat vinkit ovat omia mielipiteitäni, ja jokainen voi itse päättää miten niihin
suhtautuu. Pääsääntöisesti analyyseihin kuitenkin käytetään joko jotakin proteiinia
koodaavaa geeniä tai ribosomaalista-RNA:ta koodaavia geenejä.
22.6.1 Proteiinia koodaavat geenit
Proteiinia koodaavien sekvenssien rinnastus kannattanee tehdä ensin aminohappotasolla, ja kun aminohapposekvensseistä on muodostettu hyvä rinnastus, voidaan
DNA-sekvenssit rinnastaa sen perusteella. Tällöin DNA-sekvenssien rinnastukseen
sijoitetaan vain kolmella jaollisen mittaisia aukkokohtia, mikä vastannee hyvin biologista totuutta. Proteiineja koodaavissa sekvensseissä aukot usein ovat yhden kodoni mittaisia, sillä muutoin muodostuvat proteiinin aminohappojärjestys saattaisi
muuttua geenin lukuraamin muuttuessa.
Myös geeniä vastaavan proteeinin rakenneinformaatiota kannattanee käyttää
geenisekvenssejä rinnastettaessa. Tällöin voidaan varmistus siitä, että esimerkiksi
proteiinin aktiivisen ytimeen kuluvat aminohapot, ja geenissä niitä vastaavat "kodonit"sijoittuvat keskenään samoille kohdin.
22.6.2 Ribosomaalinen-RNA
Monien ribosomaalisten RNA-molekyylien rakenne tunnetaan edes välttävällä tarkkuudella. Tätä tietoa voidaan käyttää avuksi sekvenssejä rinnastettaessa. Osa nukleotideista nimittäin kuuluu RNA:n kolmiulotteisessa rakenteessa varsirakenteisiin,
joissa tapahtuu silmukkarakenteita vähemmän mutaatioita. Useimmat aukkokohdat näyttävätkin sijoittuvat silmukkarakenteisiin.
22.6.3 Aminohapposekvenssit
Aminohapposekvenssejä rinnastettaessa kannattaa aina käyttää apuna vastaavan
proteiinin rakennetietoa. On hyvä, jos proteiinin kristallirakenne tunnetaan, mutta
hyväksi avuksi riittää usein tieto (tai ennuste) proteiinin sekundäärirakenteistakin.
Usein hyvinkin kauaksi toistaan erityneillä proteiineilla säilyy samankaltainen kristallirakenne ja siten pitkälti myös sekundäärirakenteiden sijainnit ovat konservoituneet. Sekundäärirakenteet tulisikin rakennerinnastuksessa sijoittaa kohdakkain.
254
Bioinformatiikan perusteet
22.6.4 Pseudogeenit
Pseudogeenien ja muiden nopeasti mutaatioita keräävien sekvenssien, kuten mitokondrion kontrollialueiden, rinnastaminen voi olla edellämainittuja sekvenssityyppejä vaikeampaa juuri siksi, että suuri määrä mutaatioita vähentää sekvenssien välistä samankaltaisuutta. Tällöin perinteisiä rinnastusmenetelmiä ei voida välttämättä käyttää kovin menestyksekkäästi, ja voikin olla parempi turvautua POY:n kaltaisiin menetelmin, jotka pyrkivät maksimoimaan sekvenssien välisen homologian
(tai homologisten ominaisuuksien määrän) en sijaan, että ne pyrkisivät maksimoimaan pelkästään sekvenssien välisen samankaltaisuuden.
22.7
Puu vai verkosto?
Oletus, että sekvenssien evoluutiota voidaan kuvata puukaaviolla, voi olla väärä.
Esimerkiksi bakteerit vaihtavat keskenään perimän osia toisinaan hyvinkin huolettomasti, joten oletus puumaisesta evoluutiosta voi niiden kohdalla osua harhaan.
Horisontaalinen geeninsiirto bakteerien välillä johtaisi niiden evoluutiota kuvaavan
kaavion muistuttamaan ennenminkin verkostoa kuin puuta. Verkostojen muodostamiseen käytetään usein split decomposition (jakohajotus) -menetelmää.
Jakohajotusmenetelmässä muodostetaan aluksi ainestosta kaikki mahdolliset
jaot. Puun jakaminen yksittäisiksi jaoiksi on kuvattu puiden välisen etäisyyden laskemisen yhteydessä jo aiemmin. Jokaisen jaon saama tuki arvioidaan aineiston perusteella, käytännössä siten, että tutkitaan kuinka moni aineiston ominaisuus tukee
kutakin jakoa. Jos aineistossa on n kappaletta sekvenssejä, on erilaisia jakoja yhteensä 2(n − 1) kappaletta, joista korkeintaan (2n − 3) kappaletta sisältää jotakin informaatiota lajien suhteista. Informatiivisten ominaisuuksien maksimimäärä seuraa
siitä, että jokainen laji voidaan yksitellen erottaa muusta puusta, jolloin muodostuu
yksi jako, joka ei kuitenkaan kerro mitään lajien välisistä suhteista.
Jos aineiston perusteella muodostettaisiin puu, kuten tehdään spektrianalyysin (spectral analysis) yhteydessä, sijoitettaisiin puuhun vain yhteensopivien jakojen mukaiset ryhmät. Jakohajotusmenetelmällä voidaan kuitenkin muodostaa myös
verkostoja. Jos toisensa poissulkevia siis keskenään kilpailevia jakoja tukee yhtä
monta ominaisuutta, voidaan niiden perusteella muodostaa puun sijaan verkosto.
Siten verkosta tavallaan esittää kaikki mahdolliset, aineiston tukemat puut yhdessä
ja samassa kuvassa siis yhdessä verkostossa.
Spektrianalyysillä tuotettujen kuvien avulla on mahdollista hahmottaa sellaisia aineiston tukemia ryhmittelyjä, joita perinteisillä puusidonnaisilla menetelmillä
ei mahdollista tutkia. Eräänä etuna on, että menetelmällä voidaan suoraan muodostaa puu, joka on koostettu kutakin taksonien ryhmittelyä tukevien ominaisuuksien
perusteella, ja ryhmittelyä tukevien ominaisuuksien lukumäärät voidaan suoraan
merkitä muodostettuun puuhun (Kuva 22.4). Likimain sama analyysi voidaan tosin
tehdä laskemalla jokaiselle puun haaralle Bremerin tukiarvo, mutta niiden määrittäminen vaatii huomattavasti enemmän laskenta-aikaa.
Menetelmän huonona puolena on, että se käyttö pakostakin rajoittuu suhteelliseen pieniin aineistoihin. Jo 20 lajin aineistoille erilaisia jakoja voidaan muodostaa 219 = 524288 kappaletta. Lajien lukumäärän kasvaessa erilaisia jakoja voidaan muodostaa entistä suurempia määriä, jolloin menetelmän vaatima laskentaaika kasvaa liian suureksi, että menetelmän soveltaminen olisi enää mahdollista.
22.8
Menetelmän valinta - simulaatiotutkimusten tuloksia
22.8.1 Muutamia julkaistuja tuloksia
Molekyylisystematiikan menetelmien keskinäistä paremmuutta on vertailtu pitkälti erilaisin simulaatiotutkimuksin. Näissä molekyylisekvenssejä on tuotettu jotakin
22
Molekyylisystematiikan avoimia kysymyksiä
255
Kuva 22.4: SplitsTree-ohjelmalla muodostettu puu seitsemän lajin suhteista. Kuhunkin
puun haaraan on merkitty sitä tukevien ominaisuuksien (tai jakojen) lukumäärä.
evoluutiomallia ja tunnettua puun topologiaa käyttäen, ja on pyritty löytämään sellaisia olosuhteita, joissa tietyt menetelmät ovat parempia kuin toiset. Samaa asiaa
on selvitetty muutamissa tutkimuksissa myös tunnettuja fylogenioita käyttäen (Hillis, 1994).
Käytettävälle menetelmälle voidaan asettaa muutamia vaatimuksia (Hillis, 1995):
Menetelmän tulisi löytää oikea puu sitä todennäköisemmin, mitä enemmän aineistoa on käytettävissä. Tätä kutsutaan tarkentuvuudeksi (consistency). Sellainen menetelmä, joka löytää oikean puun muita menetelmiä pienemmällä aineistolla on
myös muita menetelmiä parempi, jos tarkastellaan menetelmän tehokkuutta (efficiency). Lisäksi menetelmän tulisi mieluusti kestää pieniä poikkeamia sen tekemistä oletuksista eli menetelmän tulisi olla robusti (robust). Eri menetelmien tarkentuvuutta, tehokkuutta ja robustisuutta voidaan usein helposti tutkia simulaatiotukimuksilla, mutta viimekädessä menetelmien toimivuus tulisi varmistaa myös aidoilla, luonnosta kerätyillä aineistoilla.
Simulaatiotutkimuksin on voitu esimerkiksi osoittaa sellainen puuavaruuden
alue, jolla parsimoniamenetelmä voi olla tarkentumaton. Tätä aluetta on alettu kutsua Felsensteinin alueeksi (Felsenstein zone), koska Felsenstein (1978) ensimmäisenä osoitti sellaisen olemassaolon. Felsensteinin alue sijaitsee esimerkiksi nelitaksonisten puiden avaruuden sellaisella nurkassa, jossa puun sisäinen oksa on hyvin
lyhyt, ja puussa on kaksi pitkää ja kaksi lyhyttä oksaa. Tässä puuavaruuden nurkassa parsimoniamenetelmän ongelmana on long branch attarction eli jos pitkät oksat eivät puussa kuulukaan yhteen, menetelmä löytää väärän puun, sillä se sijoittaa
pitkät oksat yhteen. Ongelma on sikäli kiusallinen, että aineiston lisääntyessä parsimoniamenetelmä löytää entistä todennäköisemmin väärän puun eli menetelmä ei
tällöin ole tarkentuva.
Vastaavasti sellaista puuavaruuden nurkkaa, jossa suurimman uskottavuuden
menetelmä ei löydä oikeaa puuta eli ei sijoita pitkiä oksia yhteen, vaikka ne oikeasti kuuluisi sijoittaa yhteen, on alettu kutsua Farrisin alueeksi (Farris zone). On
256
Bioinformatiikan perusteet
helppo osoittaa, että ML-menetelmä voi olla tarkentumaton, jos analyysissä käytetään väärää evoluutiomallia. Jos analyysissä kuitenkin käytetään oikeaa mallia, on
ML todennäköisesti aina tarkentuva (oikean mallin valinta on sitten toinen juttu).
Siddall (1998) ja Pol (2001) esittävät, että näin ei olisi, mutta heidän tuloksensa
eivät ole täysin vakuuttavia.
Parsimonia- ja ML-menetelmien erojen hahmottamista hämärtää edelleen se,
että niiden keskinäistä matemaattista suhdetta ei ole kyetty ennen viime vuosia karakterisoimaan kovinkaan tarkasti. Viimeaikaisista teoreettisista tuloksista huolimatta menetelmien erot ja samankaltaisuudet ovat edelleen hieman mystisiä. Edwardisin (1996) mukaan hän esitti parsimoniamenetelmän ML-menetelmän approksimaationa, eikä itsenäisenä menetelmänään. Tuffleyn (1997) ja Steelen (2000)
mukaan parsimoniamenetelmänä voidaan tulkita samanlaiseksi ML-menetelmäksi
kuin nykyiset käytössä olevat menetelmät, jos käytetään yksinkertaista evoluutiomallia (Jukes-Cantor), ja oletetaan, että evoluutionopeus voi vapaasti vaihdella eri
sekvenssikohtien välillä puun eri haaroissa. He kutsuivat tällaista mallia "no common mechanism"(NCM) -malliksi, ja se on saatavilla tietokoneohjelmassa MrBayes. Parsimoniamenetelmänkin voidaan katsoa olettavan, että sekvenssievoluutio
tapahtuu stokastisesti, sillä NCM-malli kuuluu Poisson-mallien perheeseen. Jos yllämainittu tulos parsimonia- ja ML-menetelmien yhteydestä pitää paikkansa, voi
kyllä hirtehisesti ajatella, että parsimoniamenetelmä on nimetty väärin, sillä NCMmalli ei todellisuudessa ole kovinkaan yksinkertainen, sillä siinä on paljon suurempi vaihtelevien parametrien määrä kuin perinteisissä malleissa. Steel (2000) esittää
jopa esimerkin siitä, kuinka nykytulosten perusteella parsimoniaperiaatteen avulla
voidaan toisinaan perustella myös ML-menetelmän soveltamista.
Simulaatioilla on tutkittu menetelmien tarkentuvuutta huomattavasti useammin kuin tehokkuutta, robustisuutta tai tarkkuutta (accuracy). Hillis (1994b) tutki
menetelmien tehokkuutta käyttäen simuloituja nelitaksonisia aineistoja, ja havaitsi,
että kaikki menetelmät olivat tarkentuvia, kun puun kaikki oksat olivat yhtä pitkiä,
mutta ainoastaan ML-menetelmä oli tarkentuva, kun puun sisäinen oksa oli hyvin
lyhyt. Painotettu parsimonia,erityisesti transversio-parsimonia, ja ML-menetelmä
K2P-mallilla olivat suunnilleen yhtä tehokkaita, kun puun kaikki haarat olivat yhtä pitkiä. Sen sijaan ainoastaan ML-menetelmä K2P-mallilla oli tehokas, kun puun
sisäinen haara oli kovin lyhyt.
Menetelmien tarkkuudesta on tehty useita tutkimuksia, joista kenties ensimmäisen tunnetuilla T7-faagien fylogenioilla tehdyn tutkimuksen kuvailee Hillis (1994).
Heidän tulostensa mukaan ainoastaan parsimonia-menetelmä löysi oikean puun
eli oli kaikkein tarkin menetelmä. Jos tuloksia tarkastellaan tarkemmin (Tuimala, 2003), huomataan, että myös ML- ja Bayesilaiset menetelmät löytävät parhaan
puun, jos analyysistä talletetaan vaikkapa kymmenen parasta puuta. Nämä parhaat
puut ovat kaikki tilastollisesti (Shimodairan testi) yhtä hyviä hypoteesejä eliöiden
historiasta, joten ehkäpä viimekädessä kaikki menetelmät toimivat yhtä hyvin. Toisaalta optimaalisuuskriteeriajattelua soveltaen ainoastaan paras puu tulisi huomioida, mutta parsimoniamenetelmä tuottaa helposti useita yhtä hyviä puita, kun taas
ML-menetelmät harvoin tekevät näin.
Eri menetelmien robustisuutta on tutkittu hyvin vähän, koska esimerkiksi MLja parsimoniamenetelmien osalta ei ole päästy yksimielisyyteen siitä, mitä menetelmät itseasiassa olettavat. Esimerkiksi ML-menetelmät selvästi olettavat, että kaikki
sekvenssikohdat evolvoituvat toistaan riippumatta, mutta ei olla yksimielisiä siitä, olettaako myös parsimoniamenetelmä samoin (mielestäni kyllä olettaa). Tällöin
aineisto, jossa eri ominaisuudet tai sekvenssikohdat eivät olekaan toisistaan riippumattomia, ja rikkovat siten menetelmän oletuksia. Riippumattomuusoletuksen suhteen ML esimerkiksi näyttää olevan robustimpi kuin parsimoniamenetelmä (Kuhner, 1994), ja tuottaa oletuksen rikkoutuessa tarkempia estimaatteja puun oikeasta
topologiasta kuin parsimoniamenetelmä.
22
Molekyylisystematiikan avoimia kysymyksiä
257
22.8.2 Yhteenveto
Siteeraamatta kaikki julkaistuja simulaatiotutkimusten tuloksia, voidaan niissä esitetyt tulokset vetää yhteen jokseenkin seuraavasti. Kun sekvenssien samankaltaisuus on suurta (>95%) ja sekvenssit ovat pitkiä (>1000 bp), niin kaikki menetelmät
löytävät oikean puun. Ongelmia tulee vastaan vasta, kun sekvenssien samankaltaisuus on vähäisempää tai sekvenssit ovat kovin lyhyitä. Mitä lyhyempiä sekvenssit
ovat, sitä suurempia ovat virheet niiden perusteella muodostetussa puussakin.
Jos sekvenssit ovat lyhyitä, ei menetelmän valinnalla voida poistaa siitä johtuvia ongelmia, vaan kaikki menetelmät menestyvät yhtä huonosti. Tilanne on toinen,
jos sekvenssien vaihtelu on suurta. Tällöin useimmissa simulaatioissa on parhaiten
menestynyt ML-menetelmä, ja seuraavaa paikkaa pitää hieman vaihdellen joko parsimoniamenetelmä tai minimievoluutiomenetelmä. Ongelmana simulaatiotulosten
tulkinnassa on, että sekvensit on aina simuloitu jotakin mallia käyttäen, ja jos samaa mallia käytetään tulosten analysointiin, on tuloksena varmasti, että ko. mallia
käyttävä ML-menetelmä antaa parhaat tulokset.
Yleistäen voidaan sanoa, että sekvenssiaineistojen analysointiin pääasiallinen
menetelmä on ML sen muita paremman tarkentuvuuden, tarkkuuden, tehokkuuden ja robustisuuden vuoksi. Toissijaisena vaihtoehtona erityisesti suurille aineistoille on parsimoniamenetelmä, ja viimeisenä vaihtoehtona ovat etäisyysmenetelmät, joita käyttäen tosin voidaan muodostaa hyvin suuria (>10000 taksonia) puita. Parsimonia on ensisijaisena vaihtoehtona sellaisissa analyyseissä, joissa MLmenetelmiä ei voida soveltaa. Tällaisia aineistoja ovat esimerkiksi morfologiset aineistot, ja sekvenssiaineistoista esimerkiksi SINE-jaksojen olemassaoloa ja puuttumista tutkivia aineistoja (0/1 aineistot).
Bayesilaisten menetelmien suhdetta muihin menetelmiin ei ole vielä tutkittu kovin tarkkaan, joten sitä koskevia suosituksia on hankala antaa. Bayesilaisten
menetelmien toimivuus näyttää kuitenkin keskimäärin vastaavan ML-menetelmien
tasoa.
Osa IV
Genomiikka ja proteomiikka
23
PCR-alukkeiden suunnittelu
259
23 PCR-alukkeiden
suunnittelu
23.1
Miten alukkeet liittyvät bioinformatiikkaan?
Eräs yleisimmistä tehtävistä nykyaikaisessa molekyylibiologian laboratoriossa on
alukkeiden suunnittelu. Tiettyjen tietokonetyökalujen käyttö helpottaa työtä runsaasti, mutta perusidean ymmärtäminen on helpompaa, jos joutuu aluksi suunnittelemaan muutamia alukkeita käsin. Varsin yleinen ongelma on etsiä sopivat alukkeet
jonkin SNP:n tutkimiseen PCR-reaktiota ja entsyymidigestiota käyttäen, mutta jatkossa esitettävät ohjeet pätevät myös muunlaisten PCR-alukkeiden suunnitteluun.
23.2
PCR-RFLP-menetelmien teoria
DNA:ssa esiintyvien polymorfioitten määrittäminen restriktioentsyymikäsittelyllä
on nykyisin mahdollista liki kaikissa tapauksissa. Polymorfioitten määrittäminen
perustuu siihen, että ensin monistetaan haluttu alue DNA:ta PCR-reaktiolla. Reaktioissa käytettävät alukkeet on suunniteltu siten, että eri alleelimuotojen olemassaolo voidaan restriktioentsyymikäsittelyn jälkeen lukea agaroosigeeliltä fragmenttien erilaisen ajautuvuuden mukaan. Oleellisinta menetelmässä on, että muunteleva emäs sijaitsee restriktioentsyymin tunnistussekvenssin alueella, jolloin entsyymi joko pilkkoo DNA:n tai sitten ei, ja muodostuu erimittaisia fragmentteja, jotka
voidaan havaita geelillä.
Jos DNA:ssa oleva muutos ei itsessään luo tai tuhoa restriktioentsyymin digestiokohtaa, voi sellaisen tehdä suunnittelemalla alukkeet sopivasti. Aluksi on kuitenkin tutkittava polymorfiaa ympäröivää sekvenssiä, joka muodostaa rajoitukset sille,
minkälaisia entsyymejä voidaan käyttää. Sekvenssin perusteella voidaan sitten valita muutamia kandidaattientsyymejä, joiden käyttäminen menetelmässä olisi mahdollista. Tietenkin, jos on on mahdollista käyttää useampia entsyymejä, valitaan
mieluusti halvin. Tässä on kuitenkin syytä muistaa, että entsyymien tehokkuudessa
on suuria eroja, joten kaksi erinimistä, mutta samaa sekvenssiä pilkkovaa entsyymiä
voivat olla pilkkomistehokkuudeltaan aivan erilaisia. Laajalti tietoa eri entsyymeistä ja niiden tehokkuudesta PCR-reaktioiden pilkkomisessa (tässä on siis vaihtelua)
löytyy New England Biolabs:n tuoteluettelosta.
23.3
Alukkeiden suunnitteleminen käsin
Alukkeita suunniteltaessa on otettava huomioon muutamia seikkoja. Ensinnäkin on
oltava saatavilla luotettava DNA-sekvenssi alueesta, jolle alukkeet halutaan suunnitella. Sekvenssien löytäminen tietokannasta ei ole aina helppoa. Haku onnistuu helpoimmin kirjoittamalla hakukenttään “human genomic XXXXX”, missä XXXXX
on halutun geenin nimi. Alukkeiden suunnitteluun on ehdottomasti käytettävä koko
DNA-sekvenssiä, mRNA sekvenssi ei kelpaa!
260
Bioinformatiikan perusteet
Monesti artikkeleista on mahdollista löytää jo valmiita menetelmiä tiettyjen
yhden emäksen muutosten (SNP) määrittämiseksi. Artikkeleista poimittujen alukesekvenssien sitoutumiskohdat ja oikeellisuus olisi hyvä tarkistaa yllämainitusta
tietopankista ennen menetelmän käyttöönottoa.
Suunniteltaessa alukkeita itse alusta alkaen on huomioitava seuraavaa seikkoja. Useimmiten tosin joutuu tekemään tiettyjä kompromisseja. Esimerkiksi geenialueen emäsrakenteesta johtuen ei välttämättä ole mahdollista päästä tilanteeseen,
jossa alukkeen GC% olisi väliltä 40-60%.
• Alukkeiden pituus tulisi olla väliltä 18-30bp.
• Alukkeet eivät saisi sisältää toistojaksoja.
• Alukkeissa ei saisi olla toisiinsa tai sisäisesti pariutuvia jaksoja.
• Alukkeiden sulamislämmön tulisi olla riittävän korkea (yli 50 C) muttei liian
korkea (yli 70-80 C). Sulamislämmön voi laskea helposti kaavalla: 2*A/T
+4*GC, siis jokainen AT-emäs lisää 2 astetta sulamislämpöön, GC-emäkset
puolestaan 4 astetta. Alukkeiden anneling lämpö PCR-reaktiossa on sulamislämpö5 astetta.
• Alukkeiden, jos ne sitoutuvat geenin transloituvalle alueelle, tulisi sitoutua
3’-päästään (polymerisoitumissuunta) mieluiten kodonien 1. tai 2. emäkseen,
jotka eivät yleensä vaihtele.
• Alukkeiden 3’- ja 5’-päissä tulisi olla 1-2 emäksen GC-alue, mikä lisää alukkeiden sitoutuvuutta oikealle kohdalle ja pitää ne paremmin sitoutuneena
reaktioiden aikana. GC-alue ei kuitenkaan saisi olla pidempi, sillä muutoin
alukkeesta tulee epästabiili.
• Alukkeiden GC-pitoisuuden tulisi mieluusti olla väliltä 40-60%.
• Alukkeisiin on usein tehtävä ei-pariutuvia emäksiä, jotta voidaan luoda restriktiokohta tietylle restriktioentsyymille. Tällainen mismatch voi olla vielä alukkeen 3’-pään (2.) 3. viimeisessä emäksessä, ja aluke toimii hienosti.
• Eräs kätevä jippo alukkeiden suunnitelussa on niiden sulamislämmön optimointi niin, että PCR-reaktioon riittää kaksi vaihetta (denaturaatio ja elongaatio). Tämä onnistuu siten, että suunnittelee alukkeet, pituudelta suunnille
24-26bp, joiden sulamislämpö on n. 76 astetta. Tällöin ohjelman ajoaika lyhenee n. 30-40%.
• Monistuvan DNA-alueen pituuden tulisi olla n. 300bp. Lisäksi entsyymin digestiokohta tulee suunnitella siten, ettei tuotteena tule alle 60bp:n pätkiä. Lyhyin DNA-pätkien pituusero, jonka voi 3% agaroosissa erotella minigeelillä
(ajopituus 4cm), on n. 15bp, mikä myöskin tulee ottaa huomioon alukkeita
suunniteltaessa.
23.4
Esimerkki alukkeiden suunnittelusta
Yleensä alukkeiden sunnittelussa käytetään seuraavia periaatteita. Alukkeiden suunnitteluun käytettävä sekvenssi kopioidaan sopivaan tekstikäsittelyohjelmaan tai tulostetaan paperille. Koska tietokannan genomiset sekvenssit ilmoitetaan aina 5’>3’-suuntaan, suunnitellaan forward-aluke siten, että sen sekvenssi luetaan suoraan käsillä olevasta sekvenssistä. Reverse-aluke puolestaan joudutaan lukemään
käänteiskomplementaarisena. Alukkeiden ja monimuotoisten emästen sijainti on
hyvä merkitä sekvenssiin. Useimmiten alukkeiden sijaintia kuvataan nuolilla (kuva 23.1).
Kuvan 23.1 perusteella suunnitellaan ja tilataan siis seuraavat alukkeet:
23
PCR-alukkeiden suunnittelu
261
1
61
121
181
241
actggccgta
cctgcgccga
gctccttgcc
tgatgaagat
aaaaacagaa
gagtctgcgc
gccttcgggg
cgacttgaag
tcacctgtgc
atgctttatc
agttggtgaa
cgatgtgtag
gtagaagttc
atggtgatat
acctaacagc
tggcgttggt
tgccttccat
cttgaaagaa
tcttgaattt
acgatgtata
ggcgggaaag
agggctgagt
atagaaccaa
catggcccag
cttcccaaat
ttgagtctct
ctgggaccga
atctgtttgc
aaggaacagg
cagaaggtgg
301
361
421
481
541
cctggaagta
tacaattctt
aagatttttt
agaaagtatg
tttttactgg
gaagtcttat
gagcacagac
ttggtgtact
ttttgtagtc
atagaccgcg
>>>>>
ttattgatac
tatcccaaag
gcagtagtag
acccatctct
tcaatggagg
>>>>>>>>>>
agattaccac
ctctgaagaa
cacccactta
ctgccttttg
agaaagtgtg
>>>>>>>>>>
tttgatatgc
ataatcaaat
cttcttacac
attttggata
aacttacagg
tccggctagt
actgcctggg
tttactcact
gcctgtcagc
agtctactct
a<<<<< <<<<<<<<<<
601 gaggaaatgt tctcagtgct tagagaagct tgtaaatgac tatcgcctgg ttctttttgc
<<<<<<<<
661 aacgacacaa actataatgc agaaagcctc gagctcatca gaagaacctt ctcatgcctc
721 tcgacgactg tgtgatgtgg acatagacta cagaccttat ctctgtaagg catggcagca
781 actggtgaag cacaggatgt ttttctccaa acaagatgat tctcaaagca gcaaccaatt
841 ttcattagtt tcacgttgtt taaaaagtaa cagtttaaaa aaacattttt ttattattgg
901 agaaagtggg gttgaatttt gttgacatac atcataaaat agtcttttgc agggtactac
961 gcaagcctta aaatttttct taagacagag tcttgctctg tctcccaggc tggagtgcag
1021 tggcacaatc atggctcact gcagccttga actcctggcc tcaagggatc ctcctatgtg
1081 tgcctcctag agtgcaggga ttacaggtgt gagccactgc tcgtggccaa aagttttctt
1141
1201
1261
1321
1381
1441
1501
1561
tttttttttt
ggcacaatct
gcctcccagg
ttaatagaga
gatccaccca
ttttaaactc
agtaaaagta
actttgtatt
tttctttttg
cggcccgctg
tagctgggat
cggggtttca
cctcggcctc
taggggaatt
aagactattc
aatttgccac
aaacagtctt
cagcctctgc
tacaggcacc
ccatgttggc
ccaaagtgct
aacagtattt
tgtttctagg
c
actctgtctc
ctcttgggtt
caccaccacg
caggctggtc
aggattacag
ctttacagaa
ctgttgaatc
ccaggctgct
caagtgattc
cctggctaat
tcgaactcct
gcccgtgccc
tggatttgtt
aaagtgattt
ggagtgcagt
ttccacctca
ttttgtattt
gacctcaagt
agccctaaag
aaactagcac
tagcaattaa
Kuva 23.1: Esimerkki PCR-alukkeista, joita voidaan käyttää XRCC2:n monimuotoisuuden määrittämiseen (Benhamou, 2004). Monimuotoinen emäs on merkitty kursiivilla muun sekvenssin joukkoon. Restriktioentsyymi BstUI pilkkoo DNA:ta sekvenssistä
CGCG, jolloin normaalialleeli reverse-alukkeen mismatchin kanssa luo digestiokohdan.
• Forward: gat aca gat tac cac ttt gat atg c (25-mer)
• Reverse: gtg tcg ttg caa aaa gaa cca cg (23-mer)
PCR-monistuksen jälkeen tuotteet pilkotaan restriktioentsyymillä (NEB BstUI). Geenin normaalimuoto on emäs G/G, joka vastaa arg/arg proteiinisekvenssiä. Polymorfia A/A muuttaa aminohapon histidiiniksi. Agaroosigeelielektroforeesin jälkeen saadaan tulokseksi seuraavat tuoteet (pituus bp:na), joiden perusteella
yksilön genotyyppi voidaan päätellä:
• Homo-G/G: 233, 97, 23
• Hetero-A/G: 233, 110, 97, 23
• Homo-A/A: 233, 110
Esimerkissä (kuva 23.1) on merkitty DNA-sekvenssiin forward-aluke oikealle suuntauvilla nuolilla ja reversealuke vasemmalle suuntautuvilla nuolilla. Kodoni, jossa polymorfia sijaitsee, on alleviivattu. Polymorfinen kodoni on esitetty paksunnetulla kirjasintyypillä. Esimerkin alukkeet on suunniteltu siten, että forwardaluke on luettu suoraan DNA-sekvenssistä 5’->3’-suuntaan (nuolien suuntaan vasemmalta oikealle). Reverse-aluke puolestaan on luettu DNA-sekvenssistä 3’->5’
suuntaan (jälleen nuolien suuntaan, mutta oikealta vasemmalle) samalla kääntäen
262
Bioinformatiikan perusteet
sen komplementaariseksi sekvenssiksi. Näin saadaan tulokseksi aluke-pari, jossa
molemmat sekvenssit ovat 5’->3’-suuntaan, mikä on tärkeää, jotta ne toimisivat
PCR-reaktiossa.
Reverse alukkeen luominen on hankalinta, koska siinä on helppo tehdä virheitä, joten annan esimerkin. Reverse aluke siis luetaan oikealta vasemmalle. Sekvenssi alkaa cac agc, joka komplementaariseksi käännettynä on gtg tcg. Näin jatketaan koko alukkeen pituudelta. Jos reversealukkeeseen joudutaan tekemään eipariutuvia emäksiä, pitää ne muistaa lukea siten kuin ne sekvenssissä ovat. Eli, sekvenssissä on polymorfisen kohdan päässä (oikealta vasemmalle) sekvenssi tgg tcc,
joka komplementaarisena on acc agg. Alukkeeseen tarvitaan kuitenkin mismatch,
jotta voidaan luoda BstUI-digestiokohta ko. entsyymille. Tämä tehdään alukkeen
toiseksi viimeiseen emäkseen, ja muutos on tarkalleen ottaen c->g, joka siis normaalialleelin kanssa luo BstUI-digestiokohdan. Joten alukkeen loppupäähän tulee
sekvenssi acc acg. Huomaa, että mismatch ei saa olla alukkeen 3’-pään (polymerisaatiosuunta) viimeisessä emäksessä!
Hyvin usein yhden emäksen mutaatioiden genotyyppejä määritetään myös alleelispesifisellä PCR:llä. Tällöin alukkeen viimeinen emäs joko pariutuu tai ei pariudu näytteessä olevan monimuotoisen emäksen kanssa. Esimerkiksi kuvan 3001
tapauksessa suunniteltaisiin kaksi alukeparia, joista toinen tuottaa PCR-tuotteen,
jos sen alukkeen viimeinen emäs sitoutuu G-emäkseen, ja toinen tuottaa tuoloksen,
jos se sitoutuu A-emäkseen. Tällöin tulos voidaan lukea suoraan agaroosigeelielektroforeesin jälkeen, eikä välissä tarvita digestiovaihetta. Alukkeiden spesifisyys
parantuu, jos niiden keskimmäiseen emäkseen suunnitellaan huti, eli suunnitellaan
sellainen aluke, jonka keskimmäinen emäs ei pariudu kohde-DNA:n kanssa.
23.5
Alukkeiden suunnitteleminen tietokoneella
Alukkeiden suunnitteleminen tietokoneella etenee pääpiirteissään samallatapaa kuin
käsin suunnittelukin. Soveltuvat ohjelmat, kuten Primer3, osaavat ottaa yhtäaikaa
huomioon hyvin monia erilaisia näkökulmia, ja parhaissa ohjelmissa onkin otettu
huomioon miltei kaikki edellä luetellut hyvän alukkeen vaatimukset. Tietokoneohjelmat osaavat esimerkiksi laskea alukkeiden sisäiselle ja välisella pariutumiselle
hyvyysarvot automaattisesti, vaikka ne voi periaatteessa silmäämäräisesti tarkistaa
itsekin käyttäen pistematriisilinjausta joko itseään tai parin toista aluketta vastaan.
Lisäksi ohjelmat antavat sulamis- ja annealing-lämmöille edellä esitetty tarkemmat arviot, kunhan ohjelmalle kerrotaan käytettävän PCR-reaktion tarkat reaktioolosuhteet.
Alukkeiden tietokoneistettu suunnittelu on jokseenkin yksiviivaista, jos haluaa
ainoastaan löytää alukeparin, jolla jonkin tietyn sekvenssialueen monistaminen onnistuu. Jos sen sijaan haluaa suunnitella PCR-RFLP-alukkeet, on helpointa ensi
suunnitella lukusia alukepareja tietokoneella. Tämän jälkeen sopivimman alukeparin toinen aluke hylätään, ja suunnitellaan käsin sitä vastaava aluke, joka luo haluttuun kohtaan restriktioentsyymin digestiokohdan.
24
Pistemutaatioiden etsintä ja niiden sovellukset
263
24 Pistemutaatioiden etsintä
ja niiden sovellukset
24.1
Mitä ovat pistemutaatiot
Pistemutaatioiden (single nucleotide polymorphism, SNP) etsiminen on nykyisin
keskeisellä sijalla erityisesti ihmistutkimuksessa. SNP:llä on monia sovelluksia niin
yksilöllisen tautiherkkyyden, geenien etsinnän (geenikartoitus) kuin evoluutiotutkimuksen sarallakin.
Nykyisin SNP:jä useimmiten määritetään sekvensoimalla, mutta myös muita
laboratoriomenetelmiä voidaan käyttää. SNP:jä etsitään juuri sellaisista geeneistä, joiden voidaan kuvitella liittyvän esimerkiksi johonkin tautitilaan. Nykyisin
SNP:ien etsintää on miltei turha ensisijaisesti aloittaa laboratoriomenetelmin, erityisesti jos tehdään ihmistutkimusta, sillä monia SNP:jä on talletettu SNP-tietokantoihin.
Lisäksi SNP:jä voidaan määrittää EST-sekvenssejä käyttäen.
24.2
Seulonta tietokannoista
Seuraavassa esitettävän EST-sekvensseihin perustuvan menetelmän käyttäminen
edellyttää, että geenin sekvenssi tai sitä vastaavan mRNA:n sekvenssi tunnetaan.
24.2.1 EST-sekvenssien hakeminen EMBL-tietokannasta
Menetelmä perustuu siihen, että dbEST-tietokannasta haetaan sekvenssejä BLASTohjelmalla käyttäen hakusekvenssinä tutkittavan geenin mRNA-sekvenssiä. SNP:jä
voi hakea myös ihmisdivisioonasta, mutta EST-sekvenssejä on yksinkertaisesti eniten, ja haku tuottaa eniten tulosta niitä käyttäen. Tuloksen muotoiluista on muistettava valita "flat quary-anchored with identities", jolloin tulokseksi saadaan kaikkien löydettyjen sekvenssien rinnastus siten, että parittaisia rinnastuksia ei näytetä
lainkaan. Tällaisesta tuloksesta on SNP:ien tulkitseminen huomattavasti helpompaa kuin parittaisista rinnastuksista.
24.2.2 Tulosten tulkinta
Tulosten tulkinta ei ole ihan suoraviivaista. Ensinnäkin on vältettävä SNP:ien etsintää sellaisilta sekvenssirinnastusalueilta, joissa on paljon epäluotettavia nukleotideja (N) tai jotka ovat muutoin epäluotettavia. Epäluotettavia ovat erityisesti sellaisesti alueet, joilla on paljon aukkoja (merkitty -).
Jos jossakin sekvenssirinnastuksen kohdassa on tapahtunut useita erilaisia muutoksia, ei sekvenssikohtaa tulisi tulkita SNP:ksi, sillä on todennäköistä, että tällaiset
muutokset ovat sekvensointivirheitä.
Esimerkiksi seuraavassa rinnastuksessa on paljon epäluotettavia kohtia (aukkomerkkien lukumäärä). Jos sekvenssialue olisi luotettava, voitaisiin tulkita, että
neljännessä paikassa oikealta on polymorfinen muutos T -> C.
264
Bioinformatiikan perusteet
tacaa-tg--a-tga9889419
.....-..--.-c..-
9141562
.....-..--.-c..-
9803456
.....-..ca.-...-
9129510
.....c..--.g...a
9179027
.....-..--.-c..-
Tuloksia tulkitessa on muistettava tarkistaa, että kaikki sekvenssit, joissa muutos havaitaan, eivät ole peräisin samasta näytteestä tai samasta kudoksesta (näpäytä
sekvenssin nimeä tai numeroa rinnastuksen edessä). Jos jokin muutos on nimittäin
aito SNP (tai polymorfia, kuten niitä myös kutsutaan), sen pitäisi esiintyä useissa
sekvensseissä kudostyypistä riippumatta.
Yleensä tulkitaan, että SNP on löydetty, jos se esiintyy ainakin kahdessa eri
kohteesta peräisin olevassa sekvenssissä.
EST-sekvenssien käyttö SNP:ien löytämiseen ei ole kovin tehokasta, ja se tuottaa paljon vääriä positiivisia tuloksia (Cox, 2001), mutta toisaalta niiden käyttö on
tällä hetkellä paras tietokoneistettu menetelmä, jolla SNP:jä voidaan löytää. Tarkoitukseen kehitettyjen tietokone-ohjelmien avulla on myös mahdollista päästä parempiin tuloksiin kuin yksinkertaisella BLAST-haulla. Eräs tällainen ohjelma on
SNP-Finder (Buetow, 1999).
24.2.3 Edistyneempi tulkintamenetelmä
Edellä esitetty yksinkertainen BLAST-tulosten tulkintamenetelmä aiheuttaa helposti virheitä, sillä se ei erottele sekvensointivirheitä polymorfioista. Varsin tyypillisesti sekvensointivirheet kasautuvat tiettyihin sekvenssikohtiin, ja niiden yleisyys EST-sekvensseissä on noin 1% luokkaa. Koska keskimäärin ihmisen polymorfioiden esiintymistiheys on kerran tuhatta nukleotidia kohden (0,1%), ei jo esitettyä yksinkertaista menetelmää voida pitää erityisen herkkänä menetelmänä, sillä
se jättää suurimman osan harvinaisista SNP:sta huomiotta. Marth (1999) onkin kehittänyt tehokkaamman menetelmän, joka perustuu siihen, että sekvensointivirheet
erotetaan oikeista SNP:stä. Lisäksi menetelmä erottelee paralogiset ja ortologiset
sekvenssit toisistaan sekä osaa ottaa huomioon, että sekvensointivirheet ovat todennäköisempiä sekvenssien alku- ja loppupäissä.
Marthin kehittämä menetelmä analysoi aluksi kaikki sekvensointitulokset (elektroferogrammit) uudelleen PHRED-ohjelmalla, joka raportoi sekvenssin jokaiselle
emäkselle todennäköisyyden, että se on sekvensointivirhe. Näin saadut sekvenssit
syötetään POLYBAYES-ohjelmaan, joka rinnastaa sekvenssit, poistaa todennäköiset paralogit, tutkii sekvenssit SNP:ien varalta, ja raportoi jokaiselle löytämälleen
muutokselle todennäköisyyden, että muutos on SNP eikä sekvensointivirhe.
Marthin menetelmä löytää yksinkertaisia menetelmiä enemmän SNP:jä ja tekee vähemmän virheitä kuin yksinkertaiset menetelmät. Jos kuitenkin EST-sekvenssejä
on käytettävissä esimerkiksi kymmeniä, ja tutkittavalle geenille ei löydy paralogeja, ovat yksinkertaisin menetelmin ja Marthin menetelmällä saadut tulokset pitkälti
samanlaiset.
24.2.4 Aminohappomuutokset ovat kiinnostavimpia
Muutokset, jotka aiheuttavat aminohappomuutoksia, ovat yleensä kaikkein mielenkiintoisimpia. Toki muutkin muutokset voivat olla mielenkiintoisia, mutta erityisesti jos puhutaan entsyymeistä voidaan aminohappomuutoksilla olettaa olevan suurin
merkitys entsyymin toiminnan kannalta.
Jotta voidaan määrittää, mitkä muutokset aiheuttavat aminohappomuutoksen,
on rinnastettava entsyymin mRNA ja sitä vastaava aminohapposekvenssi. Tämä on
helppo tehdä tiettyjä tietokoneohjelmia käyttäen, mutta voidaan käyttää myös matemaattisia menetelmiä (lasketaan, monesko nukleotidi SNP:n sisältävä sekvenssi-
24
Pistemutaatioiden etsintä ja niiden sovellukset
265
kohta on translaation aloituskohdasta, ja muutetaan tämä aminohapon numeroksi).
Jos tutkittavan entsyymin aminohapposekvenssi on saatavilla useammista lajeista, voidaan aminohappomuutosten merkitystä arvioida. Esimerkiksi, jos samassa sekvenssikohdassa on tapahtunut useampia muutoksia tai muutoksia useammilla lajeilla, ei aminohappomuutos luultavasti vaikuta merkittävästi entsyymin aktiivisuuteen. Jos sen sijaan aminohappomuutos on tapahtunut hyvin konservoituneessa sekvenssikohdassa, on paljon todennäköisempää, että se vaikuttaa myös entsyymin aktiivisuuteen. Lisäksi muutoksen kemiallista merkitystä voidaan arvioida
vaikkapa PAM250-matriisin avulla. Jos havaittu muutos saa matriisissa negatiivisen arvon, on muutos tapahtunut siten, että aminohapon kemiallinen koostumus on
muuttunut. Tällöin on erityisesti syytä epäillä, että aminohappomuutos voi vaikuttaa entsyymin toimintaan, varsinkin jos se sijoittu johonkin tunnettuun funktionaaliseen proteiininosaan (näitä voi etsiä esimerkiksi InterProScanin avulla, jos tietoa
ei muutoin ole saatavilla).
Haitallisten aminohappomuutosten erottamiseksi neutraaleista muutoksista on
kehitetty menetelmä nimeltä SIFT (Ng, 2001). Se perustuu saman proteiiniperheen
usean sekvenssin rinnastukseen, jonka perusteella on mahdollista erotella muutoksia sisältävät rinnastuksen kohdat vain harvoja tai ei lainkaan muutoksia sisältävistä kohdista. Kullekin sekvenssikohdalle lasketaan sen todennäköisyys muuttua, ja
jos tämä muutostodennäköisyys on tiettyä valittua raja-arvoa pienempi, tulkitaan
siinä kohdassa mahdollisesti tapahtunut mutaatio haitalliseksi. SIFT-menetelmää
pidetään tällä hetkellä yhtenä parhaista menetelmistä haitallisten aminohappomuutosten kartoittamiseksi. Bao (2005) kuitenkin paransi SIFT-menetelmän tarkkuutta yhdistämällä evolutionaariseen tietoon (sekvenssirinnastus) informaatiota proteiinirakenteesta. Baon menetelmä näyttää antavan SIFT:ä tarkempia ennustuksia
erityisesti silloin, kun tutkittavasti proteiinista on saatavilla alle 10 sekvenssiä, ja
evolutiivista informaatiota on siten niukasti.
Jos entsyymistä on olemassa 3D-rakenne, voidaan sitä käyttää aminohappomuutosten tarkempaan tutkimiseen. Tällöin on mahdollista selvittää, sijaitseeko
muutos esimerkiksi entsyymin aktiivisessa keskuksessa tai sen välittömässä läheisyydessä (Kuva 24.1. Jos muutos on tapahtunut entsyymin aktiivisuudelle oleellisissa kohdissa, voidaan sen myöskin olettaa muuttavan entsyymin aktiivisuutta
joko laskien tai nostaen sitä.
24.2.5 Jatkotutkimukset
Yleensä löydetyt SNP:t pyritään vielä varmistamaan laboratoriotutkimuksissa, sillä
erityisesti EST-tietokannat sisältävät paljon virheellistä tietoa ja sekvenssejä, joissa
on sekvensointivirheitä. Tästä syystä havaituille muutoksille yleensä suunnitellaan
joko genotyypitysalukkeet (PCR-RFLP-menetelmä, esimerkiksi) tai sekvensointialukkeet. Jatkotutkimuksiin valitaan sitten tutkittavasta populaatiosta mieluusti ainakin sellainen määrä yksilöitä, että ainakin yksi polymorfinen yksilö löydetään.
Jos oletetaan, että SNP:n yleisyys on 10%, voidaan ottaa tutkimukseen esimerkiksi 100 yksilöä populaatiosta. Tällöin voidaan olla jokseenkin varmoja, että
jos SNP todella on olemassa tutkitussa populaatiossa, löytyy tutkittujen yksilöiden joukosta ainakin yksi polymorfinen yksilö. Yllä esitetty on jokseenkin toimiva
nyrkkisääntö, mutta tarkempi arvio tarvittavien yksilöiden määrästä voidaan laskea
kaavalla
P = 1 − (1 − p)2n ,
Jossa p on harvinaisemman alleelin frekvenssi populaatiossa ja n on yksilöiden lukumäärä. Siten tarvittavien yksilöiden määrä, jotta 10% taajuudella esiintyvä
alleelin havaitaan varmasti (100% todennäköisyys) on 50. Käytännössä useinkin
riittää noin 90% varmuus, että SNP havaitaan, jolloin tutkimukseen tarvitaan 10-12
henkilöä.
266
Bioinformatiikan perusteet
Kuva 24.1: Ihmisen XRCC1-DNA-korjausproteiinin N-terminaali. Kukin pallo vastaa
yhtä atomia, ja pallon koko vastaa atomin Van der Wals-sädettä. DNA:hna sitoutuvat aminohapot on väritetty harmaiksi, polymeraasi-β n kanssa interaktoivat aminohapot vihreiksi. BLAST-haulla EST-tietokannoista tunnistettu muutos Val72Ala on väritetty punaiseksi.
Muutos ei sijaitse proteiini yhteistoimintaan liittyvien aminohappojen välittömässä läheisyydessä, eikä siten ainakaan suoranaisesti vaikuta proteiinin toimintaan.
24.3
Pistemutaatiot ja populaatiogenetiikka
Pistemutaatioilla on monia sovelluksia populaatiogenetiikassa. Niiden avulla voidaan esimerkiksi tutkia populaatiossa vallitsevaa heterotsygotian määrää. Keskimäärin näyttää esimerkiksi siltä, että jos populaation tai eliölajin heterotsygotiaaste on suuri, on sen elinkelpoisuuskin hyvä. Heterotsygotialla tarkoitetaan sitä,
että samalla yksilöllä esiintyy esimerkiksi samasta pistemutaatiosta sen molemmat alleelit. Heterotsygotia-asteella puolestaan tarkoitetaan sitä, kuinka monessa
geenissä kaikista mahdollisista heterotsygotiaa keskimäärin esiintyy. Esimerkiksi
monilla gepardeilla on keskenään hyvin samanlainen genomi eli niiden geeneissä
esiintyy hyvin vähän vaihtelua. Siten gepardien heterotsygotia-aste on alhainen ja
niiden lisääntymiskyky on luultavasti siksi alentunut. Heterotsygotia-asteesta voidaan erottaa toinen, populaation pistemutaatiofrekvenssiä kuvaava arvo, nukleotididiversiteetti. Sillä tarkoitetaan yksinkertaisesti erilaisten alleellien lukumäärää
populaatiossa tiettyä mittayksikköä kohden: Ihmisten nukleotididiversiteetti on alhainen, sillä pistemutaatioita esiintyy vain noin kerran yhden kiloemäksen matkalla genomissa. Esimerkiksi simpansseilla ja mahlakärpäsellä (Drosophila) vaihtelua
esiintyy noin 10-kertaa enemmän eli noin yksi pistemutaatio 100 nukleotidia kohden.
Satunnaisesti pariutuvassa populaatiossa, jossa tutkittavaan geenin tai sen tiettyihin alleeleihin (esimerkiksi yhteen pistemutaatioon) ei kohdistu voimakasta suuntaavaa valintaa, noudattavat alleelin frekvenssit Hardy-Weinbergin lakia. Tämä tar-
24
Pistemutaatioiden etsintä ja niiden sovellukset
267
koittaa sitä, että jos tunnetaan vaikkapa pistemutaatio A->G, vallitsee eri alleelikombinaatioiden (AA, AG ja GG) välillä tasapainotila, joka määräytyy ainoastaan alleelien frekvenssien perusteella. Jos merkitään alleellien frekvenssejä p:llä
(A-alleeli) ja q:lla (G-alleeli), voidaan tasapainotilassa populaatiossa havaittujen
kombinaatioiden frekvenssit laskea kaavalla p 2 + 2 pq + q 2 . Eli alleelikombinaatiota AA kantavien yksilöiden frekvenssi populaatiossa on alleelin frekvenssin neliö. Jos havaittujen kombinaatioiden frekvenssit poikkevat huomattavasti oletetuista (voidaan tutkia X 2 -testillä), kohdistuu geeniin tai sen tutkittavaan alleelliin todennäköisesti valintapainetta. Vaihtoehtoisesti otos voi olla liian pieni luotettavan
tuloksen saamiseksi tai kaikkia geenimuotoja ei ole vielä löydetty. Erityisesti molekyyliepidemiologisissa tapaus-verrokkitutkimuksissa, joissa arvioidaan tietyn geenimuodon vaikutusta esimerkiksi mahdollisuuteen sairastua johonkin tautiin, on
tavallista, että sairailla henkilöillä alleelifrekvenssit poikkeavat oletuksesta, joskin
terveillä verrokeilla oletuksen pitäisi silti toteutua.
Pistemutaatioiden esiintymistä populaatiossa voidaan mallittaa molekyylievoluution neutraaliteorian avulla, jonka mukaan pistemutaatioita ylläpitää populaatiossa mutaatiofrekvenssin ja geneettisen ajautumisen keskinäinen suhde. Suurin
osa pistemutaatioista häviää populaatiosta nopeasti, vaikuttivat ne yksilön ominaisuuksiin sitten positiivsesti, negatiivisesti tai neutraalisti. Jotkin mutaatiot sen sijaan yleistyvät populaatiossa sattumalta, geneettisestä ajautumisesta johtuen. Tällaisilla alleeleilla ei todennäköisesti ole yksilöiden lisääntymistulokseen juuri mitään vaikutusta ja ovat siten luonnonvalinnan kannalta neutraaleja. Lisääntymistulokseen positiiviset alleelit sen sijaan yleistyvät populaatiossa valinnan vaikutuksesta nopeammin (positiivinen valinta), ja negatiivisesti vaikuttuvat alleelit poistuvat populaatiosta nopeammin kuin neutraalit alleelit (tasapainottava valinta). Alleelifrekvensseihin vaikuttaa myös populaation absoluuttinen koko, siinä tapahtuneet
muutokset, kuten pullonkaulat, jolloin populaation koko on nopeasti pienentynyt,
ja populaation välinen yksiloiden vaihto (migraatio, eliöiden vaellus paikasta toiseen).
Yhteensulautumisteoria (coalescent theory) eli geenien evoluutiohistorian (genealogia) tutkiminen tarjoaa empiiriselle molekulaariselle populaatiogenetiikalle
yhtenäiset puitteet. Teoria mallintaa tietyn otoksen genealogiaa, ja näin saadun mallin (geenihistorian) perusteella voidaan tehdä erilaisia ennustuksia populaation yksilöiden välisestä vaihtelusta ja mutaatiotaajuuksista. Otoksen geenien genealogiaa
seurataan hieman samaan tapaan kuin fylogeneettisten menetelmien yhteydessä lajien fylogeniaa: Genealogia jäljitetään jälkeläisistä esivanhempiin, aivan kuten fylogeneettinen puu muodostetaan. Tälloin muodostuu binaarinen puu, joka jossakin
vaiheessa päättyy juureen. Siitä nimitys yhteensulautumisteoria: kaikki havainnot
tai geenimuodot pelkistyvät ennen pitkää yhdeksi ainoaksi esivanhemmaismuodoksi. Yhteensulautumisteorian kehittäminen 1970- ja 1980-luvuilla oli suuri läpimurto, sillä ennen teoriaa oli kerättävä populaatio, jonka muuttumista seurattiin ajan
kuluessa geenimuotojen evoluution tutkimiseksi. Teorian kehittäminen avasi uusia
mahdollisuuksia tutkia populaatioita, koska ei enää tarvinnutkaan seurata samaa
populaatiota mahdollisesti vuosikausia, ja yhden tai muutaman pienen otoksen perusteella voidaan jäljittää, millaisia muutoksia populaatiossa on ajan kuluessa tapahtunut.
Viimeisen kymmen vuoden aikana eräs näkyvimmistä populaatiogenetiikan
sovellusalueista on ollut ihmisen evoluution selvittäminen. Tässä pistemutaatioilla
on ollut sikäli näkyvä osa, että niiden avulla eri populaatioita on voitu kätevästi kuvata ja verrata toisiinsa. Verrattaessa eri mantereita toisiinsa havaitaan, että
afrikkalaisissa populaatioissa nukleotididiversiteetti on kaikkein suurinta eli vaihtelua esiintyy Afrikassa kaikkein eniten. Eurooppalaiset, aasialaiset ja amerikkalaiset populaatiot ovat afrikkalaisia huomattavasti vaihtelultaan köyhempiä. Populaatiogenetiikan neutraaliteorian mukaan nukleotididiversiteetti on suurimmillaan
siellä, missä suunnilleen vakiokokoinen populaatio on elänyt kaikkein pisimpään.
268
Bioinformatiikan perusteet
Havainnot tukevat Out-of-Africa -hypoteesia, joka ehdottaa, että nykyihminen on
alunperin kotoisin Afrikasta ja on sielä levinnyt (migroinut) kaikille muille mantereille. Havainnot eivät sen sijaan tue kilpailevaa monialuehypoteesia, jonka mukaan nykyihminen on hiljalleen kehittynyt useilla alueilla mahdollisesti risteytymällä aiempien ihmislajien kanssa.
Populaatiogenetiikka on hyvin laaja biologian ala, eikä sen tarkempaan kattamiseen tässä kirjassa valitettavasti ole liiemmälti tilaa. Asiasta kiinnostunutta lukijaa pyydetäänkin kääntymään lähdekirjallisuuden puoleen. Esimerkiksi Hedrick
(2000) ja Hanski (2004) tarjoavat hyvän yleiskuvan populaatiogenetiikan perusteoriasta ja sovellusalueista tällä hetkellä.
24.4
Geenikartoitus
Geenikartoituksen tavoitteena on löytää tilastollisia yhteyksiä yksilöiden perimässä
olevien muutosten, kuten pistemutaatioiden, ja yksilöiden ilmiasun eli fenotyypin
välillä. Tyypillisesti tutkittava fenotyyppi on jokin ihmisen sairaus, mutta yhtä hyvin se voi olla esimerkiksi jokin kasvin ominaisuus, kuten lehtien kurttuinen muoto.
Aiemmin käytettiin lähinnä mikrosatelliitteja, lyhyitä DNA:ssa sijaitsevia toistojaksoja, mutta nykyisin käytetään enenevissä määrin myös pistemutaatioaineistoja.
Geenikartoituksessa käytettyjä muutoksia kutsutaan markkereiksi siitä riippumatta
mitä nämä muutokset varsinaisesti ovat. Useimmat ihmiset monogeeniset sairaudet (sairastumiseen vaikuttaa vain yksi geeni) tunnetaan, ja tutkimus onkin pitkälti
siirtymässä monitekijäisten (sairastumiseen vaikuttavat usemmat geenit yhdessä)
sairauksien tutkimiseen.
Geenikartoituksessa voidaan käyttää joko perhepohjaista lähetysmistapaa (kytkentäanalyysi) tai populaatiopohjaisia aineistoja (assosiaatioanalyysi). Parametrisessa kytkentäanalyysissä määritellään aluksi sairausmalli, joka koostuu riskialleellin populaatiofrekvenssistä sekä eri genotyyppiyhdistelmää kantavien henkilöiden
mahdollisuudesta sairastua sairauteen eli penetranssivektorista. Parametrisessa analyysissä käytetään kokonaisia, mahdollisesti moniakin sukupolvia sisältäviä sukupuita. Ei-parametrisessä kytkentäanalyysissä sairausmallia ei määritellä, vaan tarkastellaan kuinka usein yhteisen fenotyypin omaavilla sukulaisilla on yhteistä alkuperää olevia genomin kohtia (affected sib pair (ASP) -testi). Assosiaatioanalyysissä
tutkitaan, esiintyykö sairaus tavanomaista useammin yhdessä jonkin tietyn alleellin
kanssa. Assosiaatioanalyysi voidaan suorittaa käyttäen tapaus-verrokki asetelmaa,
jossa kerätään populaatiosta sairaita ja terveitä henkilöitä, ja tutkitaan onko näiden
ryhmien välillä eroa tiettyjen genotyyppien frekvensseissä. Assosiaatioanalyysissä voidaan myös ottaa huomioon sukupuurakenne. Tällöin tarkastellaan jälkeläisiä
ja näiden vanhempia (ydinperheitä) kun, kussakin sukupuussa on vähintään yksi
sairas jälkeläinen (trasmission disequilibrium test (TDT) -testi).
Kaikki geenikartoitusmenetelmät perustuvat oletukseen kytkentäepätasapainosta. Tautistatukseen mahdollisesti kytkeytyvä geeni pyritään paikallistamaan juuri kytkentäepätasapainon perusteella. Käsitteellä tarkoitetaan tilannetta, jossa esimerkiksi kahden eri geenien tietyt alleelit esiintyvät yhdessä useammin kuin pelkästään niiden frekvenssien perusteella olisi syytä olettaa. Kytkentäepätasapaino
johtuu siitä, että ihmisen sukusolujen muodostuessa perimää hiukan uudelleenmuotoillaan siten, että äidiltä ja isältä perityt kromosomit vaihtavat osasia keskenään.
Tällaiset tekijäinvaihdot sattuvat kromosomeihin keskimäärin satunnaisesti ja mitä
useampia sukupolvia samaa genomialuetta seurataan, sitä pienemmäksi käy alue,
jolla tekijäinvaihtoja ei ole sattunut. Kytkentäepätasapaino voidaankin havaita juuri mainitusta syystä. Perusoletuksena on, että erilaiset alleelit ovat satunnaisesti
assosioituneet toisiinsa, ja jos havaitaan ettei näin olekaan, todetaan, että tietyllä
kromosomialueella on kytkentäepätasapainoa esimerkiksi kahden eri geenin alleelien välillä. Jos sairausstatuksen ja tietyn geenin alleelin välillä esiintyy voimakasta
kytkentäepätasapainoa (parametrisessä analyysissä kytkennän voimakkutta kuvaa-
24
Pistemutaatioiden etsintä ja niiden sovellukset
269
va LOD-score >3), voidaan olettaa, että tautigeeni sijaitsee hyvin lähellä tutkittua
markkeria.
Geenikartoituksessa hyödynnetään usein eristyneitä tai muutoin erityisiä populaatioita. Esimerkiksi Suomen väestö on ollut suhteellisen eristynyt muista Euroopan väestöistä viime aikoihin saakka. Eristyneissä populaatioissa kytkentäepätasapaino tiettyjen sairauksien ja markkereiden välillä voi olla tavallista voimakkaampaa, sillä geenivirta ei ole tuonut populaatioon uusia, mahdollisesti analyysiä
vaikeuttavia geenimuotoja. Lisäksi epätasapainoa lisää se, että usein eristyneet populaatiot ovat lähtöisin varsin pienestä joukosta henkilöitä, joka on lisäksi saattanut
läpikäydä äkkinäisiä pienemisiä (pullonkauloja), jolloin kytkentäepätasapaino populaatiossa saattaa entisestään voimistua.
Geenikartoituksen hyödyllisyyttä rajoittaa toisinaan tietyssä määrin esimerkiksi se, etteivät kaikki sairausalleelia kantavat henkilöt sairastu tautiin (alentunut
penetranssi). Tämä voi johtua muiden geenien vaikutuksesta tai siitä, että sairausgeenin ilmentyminen kantajalla on tavanomaista alhaisempaa. Kantaja voi myös
olla mosaiikki, mikä tarkoittaa sitä, että henkilö koostuu tavallaan kahden tyyppisistä soluista; toisissa sairausalleeli on, toisissa ei. Terveiden solujen olemassaolo
riittää sitten pitämään kantajan terveenä, vaikka laboratoriotutkimuksissa sairausalleeli havaittaisiinkin. Sairausgeenistä saattaa myös olla erilaisia transkriptiomuotoja, joista kaikkia ei suinkaan ilmennetä kaikissa soluissa. Tällöin saattaa olla, että
löydetty sairausalleeli ei oikeasti liitykään sairauteen, sillä alue, jolla alleeli sijaitsee, poistetaan geenimuodosta jota ilmennetään kudoksissa, joihin sairaus yleensä kohdistuu. Niinpä saadut tulokset yleensä varmennetaankin laboratoriossa joko
funktionaalisin tutkimuksin tai muulla tavoin.
24.5
Farmakogenetiikka
Farmakogenetiikalla tarkoitetaan tutkimusta, jossa pyritään selvittämään miten ihmisten tai miksei muidenkin eliöiden perimässä olevat mutaatiot, nykyisin tyypillisesti SNP:t, vaikuttavat lääkeainevasteeseen. Farmakogenetiikka sai alkunsa jo
1950-luvulla, ja käsite viittaa tutkimuksiin, joissa keskitytään lähinnä yhteen ainoaan geeniin. Nykyisin puhutaan mieluummin farmakogenomiikasta, jos halutaan
erityisesti korostaa laajempaa asiayhteyttä, useiden geenien mutaatioiden yhtäaikaisen toiminnan vaikutusten tutkimusta.
Lääkeainevasteen tutkimus on viime vuosina keskittynyt erityisesti lääkeainemetaboliaan liittyvien geenien muutosten tarkasteluun. Lääkeaine imeytyy jotakin
kautta elimistöön, ja elimistö pyrkii pääsemään siitä eroon, sillä vierasaineet eivät
ole kovin tervetulleita elimistöön. Niinpä elimistössä lääkeaineeseen usein lisätään
tiettyjä molekyylejä, jotka muuttavat lääkkeen helpommin eritettävään muotoon.
Erittyvässä muodossa oleva lääkeaine sitten poistuu elimistöstä esimerkiksi virtsan tai ulosteen mukana. Lääkeainemetaboliaan liittyviä geenejä ovat esimerkiksi sytokromi-P450-oksidaasit, kuten CYP2E1, jonka kautta myös alkoholi osittain
metaboloituu.
Farmakogenettinen tutkimus on eräs syy siihen, miksi ihmisen perimän muutoksia on olettu niin suurella innolla tutkimaan erityisesti viime vuosina. Ajatuksena on, että jos voidaan selvittää, mitkä geenit ja niissä olevat muutokset vaikuttavat
kunkin lääkeaineen metaboliaan, voidaan tietoa käyttää hyväksi käytännön hoitotyössä sekä tuotekehityksessä. Hoitotyössä tiedolla pyritään määrittämään erilaisille ihmisille parhaiten sopivia lääkeannoksia. Sama annos voi toiselle potilaalle
olla miltei tehoton ja aiheuttaa toiselle vakavia sivuvaikutuksia. Jos ennen hoidon
aloittamista tunnetaan potilaan farmakogeneettinen profiili (mitä SNP:jä potilaalla
tietyissä geeneissä on), voidaan lääkeannos kenties sovittaa heti sopivalle tasolle.
Tuotekehityksessä farmakogenomiikan tuomaa tietoa voidaan hyödyntää esimerkiksi kohdentamalla lääkkeitä tietyille erikoisryhmille. Farmakogenomiikan tuottamaa tietoa voidaan käyttää hyväksi myös sivuvaikutusten poistamisessa. Nykyisin
270
Bioinformatiikan perusteet
esimerkiksi tiedetään, että tietyt lääkeaineet ja greippimehu eivät sovi hyvin yhteen.
Syynä on se, että sekä tietyt greippimehussa olevat yhdisteet ja lääkeaineet metaboloituvat saman entsyymin kautta, jolloin greippimehu estää lääkeaineen poistumista elimistöstä ja lisää siten sivuvaikutusten mahdollisuutta. Sama ilmiö selittää
alkoholin ja monien lääkeaineiden haitalliset yhteisvaikutukset.
Farmakogenomiikassa käytetään pitkälti assosiaatioanalyysin kaltaisia väestöpohjaisia menetelmiä lääkeaineiden aineenvaihdunnan ja geenimuutosten välisten vaikutusten selvittämiseen. Assosiaatioanalyysillä saatujen hyvien arvausten
tarkempaan tutkimukseen voidaan käyttää esimerkiksi funktionaalisia tutkimuksia
soluviljelmissä, jolloin voidaan tarkemmin selvittää, mitkä tietyn entsyymin tai rakenneproteiinin piirteet saavat aikaan havaitun lääkeainevasteen.
25
Tuntemattoman sekvenssin toiminnan selvittäminen
271
25 Tuntemattoman
sekvenssin toiminnan
selvittäminen
25.1
Mihin toiminnan selvittäminen perustuu?
Biotietokannoissa on sekvenssejä suuresta määrästä eliöitä, arviolta ainakin 100
000 eri lajista. Näistä tällä hetkellä noin 160 bakteerin ja arkin, 1700 viruksen ja
faagin ja 13 eukaryootin koko genomi tunnetaan. Minkään tällä hetkellä tunnetun eliön genomi ei ole täysin ainutlaatuinen, vaan aina löytyy geenejä, jotka yhdistävät eliöitä toisiin eliöihin. Kaikilla eliöillä on kuitenkin joitakin geenejä, joita ei välttämättä tällä hetkellä tunneta muilta eliöiltä. Jokatapauksessa tunnettujen
sekvenssien ja eliöiden suuri määrä mahdollistaa useimmiten tuntemattomien sekvenssien toiminnan määrittämisen suhteellisen nopeasti. Se on nykyisin vallitsevan
post-genomisen aikakauden mukanaan tuomia suurimpia tutkimuksellisia etuja.
Sekvenssejä, joiden toimintaa ei ennalta tunneta löytyy tyypillisesti esimerkiksi erilaisissa sekvensointiprojekteissa, joissa jonkin eliön koko perimä pyritään
määrittämään. Lisäksi ennelta tuntemattomia sekvenssejä saattaa löytyä esimerkiksi tautitutkimusten yhteydessä, kun alueelta, joka näyttää olevan assosioitunut tautiin ei löydykään yhtään ennalta tunnettua geeniä. Lisäksi tietokannoissa lepäilee
tuhansia sellaisia sekvenssejä, joille ei ole aiemmin kyetty määrittämään tehtävää,
mutta joka saattaa tutkimusten edistyessä osoittautua jonkin tunnetun geenin paralogiksi tai muuksi vastaavaksi sukulaissekvenssiksi.
Seuraavassa käsitellään bioinformatiikan menetelmiä, joilla tuntemattomien
sekvenssien toiminta voidaan mahdollisesti selvittää. Tuntemattoman sekvenssin
toiminnan selvittämiseen on useita mahdollisia vaihtoehtoja, mutta yleisimmin käytettyihin menetelmiin kuuluvat BLAST-haut, tunnistetietokannat ja fylogeneettinen
analyysi. On kuitenkin syytä muistaa, että geenin toiminnan selvittämiseen tähtäävä
analyysi, joka nojaa vain sekvenssivertailuille on vajavainen ja altis virheille. Sekvenssivertailuilla voidaan yrittää nopeasti selvittää geenin toimintaa, mutta viimekädessä joudutaan käyttämään klassisis geneettisiä, biokemiallisia ja solubiologisia
laboratoriokokeita geenin tai sitä vastaavan proteiinin toiminnan selvittämiseksi.
25.2
BLAST-haku
Yleensä ensimmäinen analyysi, joka uunituoreelle sekvenssille tehdään, on BLASThaku. BLAST-haun tarkoituksena on tällöin nopeasti tarkistaa, löytyykö sekvenssitietokannoista jo tunnettuja sekvenssejä, jotka muistuttavat hakusekvenssiä. Jos tällaisia sekvenssejä löytyy, ja niiden samankaltaisuusaste hakusekvenssin kanssa on
korkea, voidaan olettaa, että tietokannasta löytyneet sekvenssit ja hakusekvenssit
toimivat solussa jokseenkin samalla tavalla. Sekvenssien samankaltaisuus ei sinällään kerro, toimivatko sekvenssiä vastaavat proteiinit solussa samalla tavalla, mut-
272
Bioinformatiikan perusteet
ta mitä korkeampi sekvenssien samankaltaisuusaste on, sitä todennäköisempää on
myös, että sekvenssit ovat homologisia, ja toimivat samalla solussa samalla tavalla. Kannattaa kuitenkin muistaa, että ortologisten ja paralogisten geenien erottelu
ei onnistu pelkän samankaltaisuuden perusteella, ja ortologien toiminta voi erota
samaan perheeseen kuuluvien paralogien toiminnasta.
Tietokannasta löytyvien sekvenssien yhteydessä on yleensä lyhyt kuvaus (annotaatio) siitä, mistä sekvenssi on peräisin, ja mitä sen arvellaan soluissa tekevän.
Tätä tietoa voidaan nyt suoraan käyttää hakusekvenssin toiminnan määrittämiseen:
samankaltaisuuden ollessa suurta, oletetaan että hakusekvenssin toiminta on samanlaista kuin tietokannan sekvenssinkin. Sekvenssin annotointi saattaa kuitenkin
olla sen tutkijan vastuulla, joka on lähettänyt sekvenssin tietokantaan. Tästä voi
olla seurauksena, ettei sekvenssin kuvausta ole päivitetty vuosiin, jolloin se ei välttämättä enää ole ajan tasalla. Siksi BLAST-tulosten tulkintaan kannattaa suhtautua
varovaisesti.
Käytännössä haku kannattaa tehdä aluksi DNA-sekvenssiä käyttäen (blastnohjelma) ja seuraavaksi siten, että DNA-sekvenssi käännetään aminohapposekvenssiksi jokaisessa lukuraamissa (blastx-ohjelma). Sekvenssiannotaatioiden ajantasaisuus on huonolla tolalla erityisesti EMBL- ja Genbank-tietokannoissa, koska tietueita saa niissä muuttaa vain sekvenssin lähettänyt tutkija. Sen vuoksi kannattaa
ainakin alkuvaiheessa suosia RefSeq-tietokantaa DNA-sekvenssihauissa ja SWISSPROT-tietokantaa aminohapposekvenssihauissa. Niissä sekvenssiannotaatioiden paikkansapitävyys on useimmiten tarkistettu käsin, ja niihin voi luottaa. Jos kummastakaan tietokannasta ei löydy luotettavaa osumaa, voidaan haku laajentaa muihin
tietokantoihin, joiden tiedot eivät välttämättä ole yhtä luotettavia, mutta joissa on
määrällisesti enemmän sekvenssejä.
Haku on viisainta tehdä sekä DNA- että aminohapposekvenssiä käyttäen, sillä
tällöin vältytään mahdollisesti suurelta määrältä virheellisiä osumia: DNA-sekvenssi
sopii hyvin sekvensseille, joille tunnetaan läheisiä sukulaisia, mutta kaukausimmat
sukulaiset eivät välttämättä löydy DNA-sekvenssihaulla. Aminohapposekvenssin
perusteella puolestaan on helppo löytää kaukaisempiakin sukulaisia, ja virhemahdollisuus on pienempi, sillä hyviä osumia syntyy aminohapposekvenssihauissa harvemmin sattumalta kuin DNA-sekvenssihauissa.
Genomiprojektin yhteydessä on tällä hetkellä varsin tavallista, että liki kolmasosa sekvensoidun eliön geeneistä on sellaisia, joille ei löydy suoraa vastinetta
tietokannoista. Jos BLAST-hauilla ei löydy kunnollisia osumia tietokannoista tai
osumat ovat lyhyitä, voidaan sekvenssin toiminnan selvittämisen käyttää tunnistetietokantoja ja fylogeneettistä analyysiä.
25.3
Tunnistetietokannat
Tunnistetietokantojen avulla voidaan tuntemattomasta aminohapposekvenssistä tunnistaa mahdollisesti sellaisia alueita, jotka vastaavat jotakin tunnettua proteiinimotiivia tai domeenia. Kaikkia erilaisia eliökunnasta löytyviä proteiinimotiiveja ei vielä tunneta, mutta jos kaikki domeenit tunnettaisiin, olisi uuden proteiinin sijoittaminen sen domeenirakenteen perusteella johonkin toiminnalliseen proteiiniperheeseen suhteelisen helppoa. Nykyisin täysin uusia proteiinidomeeneja löytyy kuitenkin suhteellisen harvoin, joten vaikka BLAST-haku ei tuottanutkaan tulosta, voi
tunnistetietokantahaku tärpätä.
Jos tuntemattomasta sekvenssistä löytyy jotakin tunnettua motiivia tai domeenia vastaava alue, on syytä tutkia tarkemmin millaisissa proteiineissa ko. rakenne yleensä esiintyy. Jos tuntemattomasta sekvenssistä esimerkiksi löytyy BRCArakenne, voidaan jokseenkin varmasti sanoa, että proteiinin toiminta liittyy joko
DNA-korjaukseen tai ainakin toimintoihin, jotka säätelevät solusyklin etenemistä.
Voi myös olla, ettei tietty domeeni liitä proteiinia mihinkään funktionaaliseen
proteiiniperheeseen. On nimittäin useita sellaisia domeeneja, kuten erilaiset ATP:tä
25
Tuntemattoman sekvenssin toiminnan selvittäminen
273
sitovat domeenit, joita esiintyy hyvin erilaisissa proteiineissa. Tällöin on vaikea lähteä arvailemaan, mihin näistä mahdollisista proteiiniperheistä tuntematon sekvenssi saattaisi sijoittua, erityisesti jos BLAST-hauilla ei saatu lisätietoja siitä, millaisia
sekvenssejä hakusekvenssi muistuttaa yhteisen domeenirakenteen ulkopuolisia sekvenssialueita tarkasteltaessa.
Useimmiten proteiinia ei voidakaan luotettavasti sijoittaa mihinkään funktionaaliseen luokkaan pelkästään yhden domeenin perusteella, vaan on tarkasteltava
proteiinin koko domeenirakennetta. Monille samaan laajaan funktionaaliseen proteiiniryhmään, kuten transkriptiofaktorit tai reseptorit, on tyypillistä samankaltainen domeenirakenne. Proteiinin koko domeenirakenteen selvittämiseen soveltuu
varsin hyvin InterProScan-palvelu, johon on yhdistetty liki kaikki tunnistetietokannat.
BLAST-haun osumat kuvastavat useammin proteiinien domeenirakennetta kuin
varsinaista geenien samankaltaisuutta. Onkin tärkeää erotella proteiinien luokittelu
funktionaalisiin ryhmiin geenien luokittelusta paralogeihin ja ortologeihin. Proteiinien luokittelu domeenien perusteella tapahtuu parhaiten tunnistetietokantoja tai
toisinaan BLAST-hakua käyttäen. Geenien luokittelu ortologeihin ja paralogeihin
puolestaan tapahtuu fylogeneettisen analyysin avulla. Tämä ei kuitenkaan tarkoita sitä, etteikö keskenään ortologisilla sekvensseillä voisi olla samaa funktiota soluissa. Useimmiten näin on, sillä ortologiset sekvenssithän ovat sellaisia, joilla on
yhteinen lajiutumisten kautta johdettavissa oleva evoluutiohistoria, jolloin on järkevää olettaa, että myös proteiinin funktio on periytynyt ja todennäköisesti säilynyt
lajiutumisen jälkeen muuttumattomana.
Domeenirakenteen sekvenssiä ja mahdollisesti sen ulkopuolisia alueita apuna
käyttäen on mahdollista selvittää tuntemattoman sekvenssin toimintaa tarkemmin
fylogeneettistä analyysiä käyttäen. Se perustuu ajatukseen, että jokaiselle eliön sekvenssille on löydettävissä evolutiivinen menneisyys, joka voidaan esittää puukaavion muodossa. Jos BLAST-haulla löytyi useampia edes kaukaisesti hakusekvenssiä muistuttavia sekvenssejä, voidaan fylogeneettinen analyysi tehdä suhteellisen
yksinkertaisesti.
25.4
Fylogeneettinen analyysi
Fylogeneettisellä analyysillä tarkoitetaan tässä yhteydessä analyysiä, jossa kaikki
hakusekvenssiä muistuttavat tietokannasta löytyneet sekvenssit järjestetään puukaavion muotoon. Kaavioon merkitään tunnettujen sekvenssien toiminta, ja tätä
taustatietoa sekä puukavvion muotoa käyttäen myös tuntemattomien sekvenssien
mahdollinen toiminta voidaan päätellä.
Fylogeneettinen analyysi toimii parhaiten tapauksissa, joissa hakusekvenssi
muistuttaa jo tunnetuja sekvenssejä muutenkin kuin domeenirakenteeltaan. Analyysi voidaan tehdä, vaikkei sekvenssejä yhdistä muu kuin yhden domeenin samankaltaisuus, mutta tällöin on vaarana vetää vääriä johtopäätöksiä sekvenssin ja
sitä vastaavan proteiinin toiminnasta soluissa.
Käytännössä työ etenee siten, että tietokannoista tunnistetaan, esimerkiksi BLASTtai PSI-BLAST -haulla hakusekvenssille mahdollisesti homologiset sekvenssit. Homologia on tässä vaiheessa pääteltävä sekvenssien samankaltaisuuden perusteella
- mitä samankaltaisemmat sekvenssit, sitä todennäköisemmin ne ovat homologisia. Homologiset sekvenssit, jotka voivat sisältää sekä ortologisia että paralogisia
sekvenssejä rinnastetaan, ja rinnastuksen perusteella muodostetaan geenien evoluutiohistoriaa kuvaava puukaavio, geenipuu. Tähän geenipuuhun merkitään tunnettujen sekvenssien toiminta esimerkiksi eri väreillä, mikä helpottaa seuraavissa
vaiheissa tapahtuvaa päättelyä (Kuva 25.1).
Geenien toiminnan päättely tapahtuu parsimonia-periaatetta soveltaen. Tarkkaan ottaen geenin toiminnan päätely vastaa ominaisuuksien optimointia parsimoniapuuhun. Ominaisuuksien optimointi tällaisissa tapauksissa tapahtuu Fitchin esitä-
274
Bioinformatiikan perusteet
Kuva 25.1: Tuntemattoman geenin toiminnan päätteleminen fylogeneettistä analyysiä
käyttäen. Oheinen puukaavio on piirretty homologisten sekvenssien rinnastuksen perusteella. Puuhun on merkitty eri väreillä tunnettujen geenien toiminta. Sinisellä merkityt
geenit (A, B) ovat myoglobiinia, jota esiintyy hyönteisillä, joilla veri on väriltään sinistä.
Punaisella merkityt geenit (C, E) ovat hemoglobiineja, joita esiintyy nisäkkäillä, joilla veri
on punaista. Parsimonia-periaatteeseen perustuvaan päättelyä (Fitch-optimointi) käyttäen
voidaan tuntemattoman geenin (D) toiminta soluissa päätellä. Koska geenin D sijoittuu
puussa geenien C ja E väliin, jotka molemmat ovat myoglobiineja, voidaan geenin D:kin
päätellä todennäköisesti olevan myoglobiini.
mää algoritmia käyttäen. Tämä algoritmi esitellään tarkemmin fylogenetiikkaa käsittelevissä luvuissa, mutta yksinkertainen esimerkki algoritmin toiminnasta on esitetty kuvassa 25.1. Hyvän esimerkkin fylogeneettisen menetelmän soveltamisesta käytäntöön löytyy Eisenin (1998) artikkelista, jossa hän kuvaa useiden DNAkorjaukseen liittyvien entsyymien toiminnan selvittämistä tätä menetelmää käyttäen.
Perinteisesti hakusekvenssille on annettu sama funktio kuin sitä vastaavalle
osumalle BLAST-haun jälkeen. Sekvenssien samankaltaisuuksien vertailu pelkän
BLAST-perusteella voi kuitenkin antaa harhaanjohtavia tuloksia. Tulosten harhaanjohtavuus johtuu useimmiten siitä, että hakusekvenssillä saadaan tuloksia useammasta samaan geeniperheeseen kuuluvasta geenistä, joista osa on hakusekvenssille
ortologisia ja osa paralogisia. Samaan geeniperheeseen kuuluvilla jäsenillä, erityisesti hakusekvenssille ortologisilla geeneillä, voi olla hyvinkin erilainen funktio
soluissa kuin hakusekvenssillä. Tästä syystä parempia tuloksia saadaankin fylogeneettisellä analyysillä, jossa paralogiset ja ortologiset sekvenssit voidaan useimmiten erotella toisistaan (kuva 25.2). Pelkän BLAST-tuloksen perusteella kun ei ole
mahdollista erotella paralogisia ja ortologisia sekvenssejä toisistaan.
25.5
Ortologisten geenien luokittelu
Proteiinien luokittelemiseksi on kehitetty myös ortologisten geenien luokittelu (clusters of orthologous genes, COG). COG:t muodostetaan siten, että kokonaisille ge-
25
Tuntemattoman sekvenssin toiminnan selvittäminen
275
Kuva 25.2: Paralogisten ja ortologisten sekvenssien erotteleminen toisistaan fylogeneettistä analyysiä käyttäen. Kolmesta eliölajista koottujen sekvenssien (A-F) perusteella piirretty geenipuu kuvaa vastaavien proteiinien evoluutiota. Proteiinien A-D ja F funktio tunnetaan ennalta, proteiinin E funktiota ei tunneta, ja se pyritään määrittämään. Sekvenssien
perusteella syntyy kaksi tismalleen samanlaista, lajien evoluutiota kuvaavaa puuta (A-C ja
D-F), mutta geenipuussa samasta lajista peräisin olevat sekvenssit eivät sijoitukaan samaan
puun haaraan. Tällöin on syytä epäillä, että puussa on tapahtunut geenien kahdentuminen,
duplikaatio. Tässä tapauksessa näin onkin, ja duplikaatio on tapahtunut heti puun juuressa
(nuoli). Punaisella (alfa-hemoglobiinit) merkityt ja sinisellä (beta-hemoglobiinit) merkityt geenit ovat keskenään ortologisia. Sen sijaan punaiset ja siniset geenit ovat keskenään
paralogisia. Koska geeni E sijaitsee sinisten sekvenssien kanssa samassa puun haarassa,
tekee sitä vastaava proteiinikin todennäköisesti solussa samanlaisia asioita kuin muut samassa puun haarassa olevat sekvenssit - se on siis beta-hemoglobiini.
nomeille tehdään parittaiset vertailut, ja jokaiselle geenille valitaan näiden vertailuiden perusteella kaikkein lähin sukulainen. Vertailut voidaan tehdä esimerkiksi BLAST-hakuja käyttäen, joten geenin lähimmäksi sukulaiseksi valitaan paras
BLAST-osuma.
COG:t sisältävät tyypillisesti sekä ortologisia sekvenssejä että paralogisia sekvenssejä. Siten COG:t antavat ainoastaan suuntaviivoja siitä, mikä tutkittavan sekvenssin toiminta solussa saattaisi olla. Koska COG:t on muodostettu siten, että samaan luokkaan on sijoitettu sekvenssit, jotka muistuttavat eniten toisiaan sekvenssin samankaltaisuuden perusteella, ei esimerkiksi keskeissä proteiinin kohdissa sattuneita mutaatioita huomioida mitenkään. Tämän vuoksi onkin parempi käyttää fylogeneettisiä menetelmiä tuntemattomien geenien funktion selvittämiseksi.
COG:ien avulla voidaan kuitenkin nopeasti selvittää, mihin funktionaaliseen
ryhmään tutkittava geeni saattaa kuulua, mikä saattaa helpottaa esimerkiksi fylogeneettistä analyysia varten suoritettavien BLAST-hakujen tarkentamista soveltuviin
ja tarpeellisiin tietokannan divisiooniin. COG:ien käyttöä hankaloittaa myös se, että tällä hetkellä parhaat COG-tiedot on saatavilla bakteereista (http://www.ncbi.
nlm.nih.gov/COG), ja eukaryoottien osalta tiedot ovat varsin hajanaisia.
276
25.6
Bioinformatiikan perusteet
Geeniontologia
Pelkän sekvenssisamankaltaisuuden perusteella ei voida aina luokitella geenejä tai
niitä vastaavia proteiineja luotettavasti. Vaikka proteiinin sekvenssi onkin eri eliöissä säilynyt hyvin samankaltaisena, on proteiinin toiminta elimistön tasolla voinut
muuttua. Tällöin sanotaan, että vaikka proteiinin molekulaarinen funktio on säilynyt ennallaan on sen fysiologinen funktio muuttunut. Eräs tunnetuimmista esimerkeistä on laktaattidehydrogenaasi, joka toisaalta toimii entsyyminä, ja pilkkoo
laktoosia, ja toisaalta toimii silmän lasiaisen läpinäkyvänä ja valoa taittavana rakenneproteiinina. Toinen vastaava esimerkki on banaanikärpäsen tuntosarven kehitystä säätelevän spineless-aristapedia -geenin evolvoituminen nisäkkäiden dioksiinireseptoriksi.
Vaikka geenien ja proteiinien funktio ei olekaan aina säilynyt ennallaan, on
kuitenkin löydettävissä yli 1500 geeniä, joiden biokemiallinen ja fysiologinen funktio on samanlainen banaanikärpäsellä, sukkulamadolla ja ihmisellä. Sama koskee
varmasti myös kasveja. Vaikka kasvien morfologia ja fysiologia on varsin toisenlainen kuin eläimillä, ovat keskeiset biokemialliset toiminnot kuitenkin suureksi
osin samanlaisia. Koska geenin ja sitä vastaavan proteiinin toiminta voi evolvoitua siten, että se eroaa merkittävästi alkuperäisestä, on sekvenssisamankaltaisuuden vertailemisen lisäksi tärkeää selvittää, miten esimerkiksi tutkittavan proteiinin
solunsisäinen sijoittuminen mahdollisesti eroaa sen alkuperäismuodosta.
Tämän helpottamiseksi on kehitetty useita geeniontologioita, joista tunnetuin
ja käytetyin lienee Gene Ontology Consortiumin kokoama GO-ontologia (http://
www.geneontology.org). GO-ontologiassa suurin osa genomiprojektien selvittämistä proteiineista on sijoitettu toiminnallisiin luokkiin. Toiminnalliset luokat muodostavat sisäkkäisen (hierarkkisen), puumaisen rakenteen. GO-ontologia on jatkuvassa muutoksessa, sillä sitä päivitetään sitä mukaa, kun uutta tietoa proteiinien toiminnasta solussa kertyy. Keskeisimpien solubiologisten prosessien, kuten Krebbsin
sykli, ontologia tuskin kuitenkaan tulee muuttumaan, koska niitä koskevaa mullistavaa tietoa tuskin tulevaisuudessa enää kertyy.
Jokaisesta malliorganismista on GO-ontologiaa käyttäen annotoitu ainakin useampia tuhansia erilaisia geenejä. Nykyinen GO-ontologia ei pyri sijoittelemaan proteiineja esimerkiksi eri solutyyppeihin, vaan tyytyy kuvailemaan proteiinin toimintaa käyttäen idealisoitua eukaryoottisolua. Tarkemmat tiedot geenin toiminnasta,
kuten sen ilmentymisen rajoitumisesta vain tiettyihin solutyyppeihin, on kuitenkin
useimmiten saatavilla ontologiaan liitetyistä kirjallisuuslähteistä.
GO-ontologiassa jokainen proteiini sijoitetaan aluksi johonkin kolmesta pääluokasta, jotka ovat biologinen prosessi, molekulaarinen funktio ja solukomponentti. Jokaiseen näistä pääluokista kuuluu useita satoja alaluokkia. Biologinen prosessi
-luokka sisältää tietoa siitä, mihin prosessiin, kuten kasvu ja solunjakautuminen tai
cAMP:n biosynteesi, proteiini vaikuttaa. Molekulaarinen funktio -luokka tarkoittaa
proteiinin biokemiallista funkiota, kuten entsyymi, DNA-helikaasi tai tyrosiinikinaasi. Solukomponentti -luokka kuvaa sitä solun sisäistä paikkaa, jossa proteiini
vaikuttaa. Tällaisia ovat esimerkiksi solun pinta ja Golgin laite.
GO-ontologian avulla ei voida sinällään suoraan selvittää tuntemattoman sekvenssin toimintaa, mutta kun sekvenssin toiminnasta jo saatu hyviä vinkkejä käyttäen esimerkiksi jo esiteltyjä menetelmiä, voidaan sen läheisimpien sukulaisten
toiminta selvittää GO-ontologiaa käyttäen. GO-ontologiassa on edellämainittuihin
annotaatiolähteisiin verrattuna se etu, että samalla saadaan tietoa myös proteiinin
sijoitumisesta solun sisäisiin rakenteisiin sekä niistä biokemiallisista prosesseista,
joihin sekvenssiä vastaava proteiini mahdollisesti osallistuu.
25
Tuntemattoman sekvenssin toiminnan selvittäminen
25.7
277
DNA-sirut
DNA-sirujen avulla voidaan tutkia tuhansien geenien yhtäaikaista ilmentymistä jostakin soluviljelmä- tai kudosnäytteestä. Aineiston analysoimisen jälkeen saadaan
usein tulokseksi geeniluokkia, joihin sijoitetut geenit ilmentyvät näytteessä samalla tavalla. Usein samaan tapaan ilmentyneillä geeneillä oletetaan myös olevan samanlainen funktio solussa.
Samanlainen ilmentyminen ei kuitenkaan välttämättä tarkoita samanlaista toimintaa solussa. Usein geenit, jotka ilmentyvät samaan tapaan, koodaavat proteiineja, jotka toimivat esimerkiksi samassa solusyklin vaiheessa tai liittyvät samaan biokemialliseen aineenvaihduntareittiin. Ne eivät siis välttämättä koodaa samaa funktiota hoitavia proteiineja, vaan useimmiten proteiineja, joiden tulee ilmentyä yhdessä, jotta jokin biokemiallinen reaktio saadaan suoritettua.
Siten DNA-sirujen avulla ei voidakaan suoranaisesti selvittää geenien funktioita soluissa, vaan enemminkin yhteisilmentymisen kautta voidaan selvittää minkälaisiin biokemiallisiin reitteihin geenitoiminta liittyy. Usein samaan tapaan ilmentyvillä geeneillä on samantapainen promoottorialue, ja asiaan tutustutaankin
tarkemmin promoottorianalyysia käsittelevässä luvussa.
278
Bioinformatiikan perusteet
26 Promoottorianalyysi
26.1
Mitä promoottorit ovat?
Promoottori on geenin ilmentymistä säätelevä osa. Pisin yhtäjaksoinen promoottorialue sijaitsee yleensä geenistä ylävirtaan, mutta geenin ekspressioon vaikuttavia
alueita voi sijaita myös geenistä alavirtaan tai introneissa. Lisäksi kromatiinirakenne, se miten ja minne DNA on laskostunut tumassa, vaikuttaa geenin ekspressioon
huomattavasti. Erityisesti DNA:n sitouminen nukleosomeihin antaa mahdollisuuksia vaikuttaa DNA:n transkriptioon esimerkiksi metylaation ja asetylaation välityksellä. Kromatiinirakenteen vaikutusta geenien ilmentymiseen ei voida kuitenkaan
toistaiseksi luotettavasti selvittää yksinomaan tietokoneella, joten yleensä tyydytäänkin etsimään promoottorialueelta tiettyjä sekvenssihahmoja.
Useimmiten promoottorianalyysissä keskitytään analysoimaan ainoastaan geenistä ylävirtaan sijaitsevaa promoottorialuetta, sillä sen tunnistaminen geenisäätelyyn vaikuttavaksi alueeksi on muihin mahdollisesti vaikuttaviin alueisiin verrattuna helppoa. Geenisäätely tapahtuu transkriptiotekijöiden (transcription factor, TF)
välityksellä siten, että ne joko auttavat tai estävät geenin transkriptiolle välttämättömien entsyymien, kuten RNA-polymeraasin sitoutumista DNA:han. Transkriptiotekijät situoutvat DNA:han yleensä varsin lyhyen (<10 bp) tunnistusekvenssin avulla. Niinpä analysoitaessa jotakin vaikkapa satunnaisesti tuotettua DNA-sekvenssiä,
on siitä mahdollista tunnistaa lukuisien transkriptiotekijöiden sitoutumiskohtia pelkästään sattumalta. Koska tiedetään, että promoottorialue sijaitsee ainakin geenistä
ylävirtaan, kohdistetaan analyysi useimmiten yksinomaan siihen väärien positiivisten tulosten välttämiseksi. Jatkossa ainoastaan tästä geenistä ylävirtaan sijaitsevasta säätelyalueesta puhutaan promoottorialueena. Promoottorialue on määritelmän
mukaisesti se alue geenistä ylävirtaan, joka kykenee yksinään aloittamaan geenin
transkription. Siten transkription aloituskohta (TSS) sisältyy promoottorialueeseen.
26.2
Miten promoottorisekvenssejä analysoidaan?
Promoottorianalyysillä pyritään yleensä selvittämään onko analysoitavissa sekvensseissä jonkin tunnetun transkriptiotekijän sitoutumiskohta tai onko analysoitavissa sekvensseissä lyhyitä, hyvin samankaltaisia sekvenssialueita, jotka saattaisivat
olla transkriptiotekijöiden sitoutumiskohtia. Tunnettujen sitoutumiskohtien tunnistamiseen käytetään lähinnä position specific scoring matrix (PSSM) -matriiseja.
Periaatteessa myös esimerkiksi hidden Markov model (HMM) -malleja voitaisiin
käyttää samaan tarkoitukseen, mutta niiden muodostaminen ja riittävän luotettaviksi hiomiseen tarvitaan huomattavasti enemmän aineistoa kuin PSSM-matriisien. Sitoutumiskohta saatetaan tuntea vain muutamasta sekvenssistä, jolloin aineistoa ei
ole tarpeeksi HMM-mallin muodostamiseen, vaan joudutaan turvautumaan PSSMmatriisiin. Tuntemattomien sitoutumiskohtien etsimiseen käytetään yleisimmin joko Gibbsin otantaa tai EM-algoritmia. Molemmat soveltuvat lyhyen paikallisen rinnastuksen löytämiseen useiden sekvenssien joukosta yhtäaikaisesti.
Pisimmät ihmisen tunnetut ja varmistetut transkriptiofaktoreiden sitoutumis-
26
Promoottorianalyysi
279
kohdat sijaitsevat noin 3,5 kb:ä geenistä ylävirtaan. Hiivalla promoottorialueet ovat
puolestaan noin 500 bp:ä pitkiä. Vaikka analyysi kohdennetaan näinkin lyhyisiin
sekvensseihin, on tuloksena luultavasti suuri määrä satunnaisia osumia oikeiden
sitoutumiskohtien lisäksi. Satunnaisia osumia pyritään poistamaan tuloksista käyttäen apuna DNA-sirutuloksia, fylogeneettisiä jalanjälkiä ja transkriptiotekijöiden
säätelykohtien niputtamista moduleiksi.
26.3
Promoottorisekvenssin hankkiminen
Promoottorisekvenssien hankkiminen nisäkkäille onnistuu yleenä, varsinkin mallieliöille, suoraan jotakin genomitietokantaa käyttäen. Sekvenssien hankkiminen
ei kuitenkaan useinkaan ole niin yksinkertaista, että suunnattaisiin tietokantaan, ja
valittaisiin sieltä haluttua geeniä vastaava promoottorisekvenssi. Nisäkkäiden geeneissä nimittäin esiintyy varsin mittavaa vaihtoehtoista silmukointia, erityisesti geenien ensimmäisissä eksoneissa, mikä hankaloittaa oikean promoottorialueen valitsemista: Jos tietokannasta löytyy useampia promoottorisekvenssejä, jotka vastaavat
eri transkriptiomuodoista, niin mikä niistä valitaan? Kasveilla vaihtoehtoinen silmukointi on huomattavasti harvinaisempaa, joten ongelma ei ole yhtä korostunut.
Valintaa hankaloittaa vaihtoehtoisen silmukoinnin lisäksi kuitenkin myös vaihtoehtoisten promoottorien tai transkription aloituskohtien käyttö. Vaihtoehtoista promoottorinkäyttöä on tietokoneistetusti miltei mahdotonta erottaa vaihtoehtoisesti
silmukoinnista.
Tietokannoissa oleviin sekvensseihinkään ei kannata luottaa sokeasti. Esimerkiksi Ensembl-tietokanta tuottaa usein samalle geenille useampia promoottorisekvenssejä, vaikka tiedetään, ettei geenissä esiinny vaihtoehtoista silmukointia tai
muitakaan vastaavia variantteja. Tämä johtuu tietokannan normalisoinnissa käytetystä menetelmästä, joka listaa saman geenin tietokantaan kahteen kertaan, jos
sen eri lähteistä saaduissa annotaatiotiedoissa on pienikin ero. Sama geeni voi siis
esiintyä tietokannassa kahdella hieman eri annotaatiolla, eikä tämä edes välttämättä näy käyttäjälle! Siksi Ensembl-tietokannasta haettuja promoottorisekvenssejä ei
voi suoraan käyttää esimerkiksi Gibbsin otannassa sitoutumiskohtien löytämiseksi, sillä useammat tismalleen samanlaiset sekvenssit vaikuttavat menetelmän antamiin tuloksiin. Yleisesti ottaen RefSeq:iä pidetään varsin luotettavana tietokantana, mutta arviolta jopa 20-25%:sta siihen sijoitetuista lähetti-RNA-sekvensseistä
puuttuu osa 5’-päästä. Tämä vaikuttaa promoottorialueen määrittämiseen sikäli, ettei transkription aloituspaikkaa saada tarkkaan määritettyä, jos mRNA-sekvenssin
alusta puuttuu pätkä. Ongelma johtuu käytetyistä laboratoriomenetelmistä, joissa
RNAaasi-entsyymi on mahdollisesti päässyt pilkkomaan mRNA:ta eristyksen aikana. Entsyymi pilkkoo mRNA-molekyylejä 5’-päästä alkaen, joten ongelma kohdistuu juuri siihen. Toinen vaihtoehto on, että tällaiset mRNA-sekvenssit ovat syntyneet, kun käänteistranskriptaasi-entsyymi ei ole kääntänyt mRNA:ta koknaisuudessa cDNA:ksi ennen sekvensointia.
Miksi sitten oikean transkriptionaloituskohdan tunnistaminen on niin tärkeää?
Jos analyysiin ottaa mukaan hieman ylimääräistä sekvenssiä geenin ensimmäisestä
eksonista, ei TSS:n paikallistaminen nukleotidin tarkkuudella välttämättä olekaan
kynnyskysymys. Toisaalta tällaisen lisäsekvenssimateriaalin ottaminen analyysiin
lisää väärien positiivisten määrää sitoutumiskohtia tunnistettaessa. On myös mahdollista syötää pelkkää roskaa analyysiinsä. Jos untranslated region (UTR), joka
sijaitsee transkription aloituskohdan ja translaation aloistukohtien välissä on pitkä,
ja TSS:n sijainti on määritetty väärin, voi olla, että analyysiin tulee syötettyä pelkkää UTR-sekvenssiä, joka antaa sekä vääriä tuloksia että vääristää tuloksia muiden
sekvenssien osalta.
280
26.4
Bioinformatiikan perusteet
Tunnettujen transkriptiofaktoreiden sitoutumiskohtien
esittäminen ja etsiminen
Transkriptiofaktoreiden sitoumiskohdat esitetään usein esimerkiksi painoarvomatriiseina tai sekvenssilogoina (Kuva 26.1). Painoarvomatriisi ilmoittaa kuinka monta
kertaa kukin nukleotidi esiintyy kussakin sitoumiskohdan paikassa. Painoarvomatriisi voidaan muodostaa usean sekvenssin rinnastuksen perusteella. Painoarvomatriisi voidaan edelleen muuttaa PSSM-matriisiksi lisäämällä matriisiin pseudohavaintoja. Niiden tarkoituksena on laajentaa matriisin tunnistamien sitoumiskohtien
kirjoa. Lisäksi PSSM-matriisia otetaan huomioon nukleotidien runsaussuhteet taustasekvensseissä. Taustasekvensseinä voivat toimia esimerkiksi toisten geenien promoottorialueet tai muut sekvenssit, joissa sitoutumiskohdan ei oleteta esiintyvän.
Lopuksi näin saaduista lukuarvoista otetaan kaksikantainen logaritmi, ja PSSMmatriisi on pääpiirteissään valmis (Kuva 26.2). PSSM-matriisi voidaan esittää sekvenssilogona, jossa kunkin sarakkeen korkeus ilmoittaa sen informatiivisuuden
bitteinä (siis käytetään kaksikantaista logaritmia). Nukleotidisekvensseille suurin
mahdollinen informatiivisuuden arvo on 2. PSSM-matriisien ja sekvenssilogojen
muodostaminen on esitetty tarkemmin luvussa "Paikalliset rinnastukset usean sekvenssin rinnastuksissa".
Kuva 26.1:
Transkriptiofaktorin sitoutumiskohdan esittäminen. Tässä on kuvattu
TATA-box painoarvomatriisin ja sekvenssilogon avulla. Painoarvomatriisi voidaan muuttaa PSSM-matriisiksi, jota voidaan sitten käyttää sitoumiskohdan etsimiseen sekvensseistä. Kuva: Eija Korpelainen.
Sitoutumiskohtien etsiminen matriiseja käyttäen tapahtuu kuten PSSM-matriisien
tapauksessa on tarkemmin esitetty luvussa "Paikalliset rinnastukset usean sekvenssin rinnastuksissa". Lyhyesti, matriisia liutetaan sekvenssiä pitkin, ja kullekin "ikkunalle"lasketaan matriisia käyttäen pistemäärä. Jos pistemäärä ylittää tietyn rajaarvon, katsotaan, että sitoutumiskohta sijaitsee sillä kohdalla sekvenssiä.
Matriisit toimivat tunnettujen sitoumiskohtien hauissa varsin hyvin. Sattumalta transkriptiofaktoreiden sitoutumiskohtia esiintyy sekvensseissä noin 400 bp:n
26
Promoottorianalyysi
281
Kuva 26.2: Transkriptiofaktorin sitoumiskohtaa kuvaavan PSSM-matriisin muodostaminen ja sen käyttäminen sitoumiskohtien tunnistamiseen. Kun muodostettua matriisia liutetaan uutta sekvenssiä kohden, havaitaan kohta, joka saa hyvin korkean pistemäärän (5.2),
ja todetaan, että sitoutumiskohta sijaitsee todennäköisesti siinä. Kuva: Eija Korpelainen,
muokattu Wyeth Wassermanin alkuperäisestä matriisiesityksestä.
välein. Matriisit ovatkin hyvin sensitiivisiä eli ne löytävät kyllä kaikki oikeat sitoutumiskohdat, mutta myös suuren osan kohdista, joihin transkriptiofaktori ei oikeasti
sitoudu (spesifisyys on huono). Liki 100% ennustetuista sitoutumiskohdista ei ole
biologisesti aktiivisia, sillä esimerkiksi kromatiinirakenne estää niiden toiminnan.
26.5
Miten parantaa haun spesifisyyttä?
Tunnettujen transkriptiofaktoreiden sitoutumiskohtien löytämiseen tähtäävän analyysin spesifisyyttä voidaan parantaa monin tavoin. Pääasialliset menetelmät ovat
DNA-sirutulosten hyväksikäyttö, fylogeneettiet jalanjäljet ja modulien muodostaminen.
26.5.1 DNA-sirutulokset
DNA-sirutulosten perusteella voidaan valikoida sellainen geenijoukko, joka esimerkiksi aikasarjassa käyttäytyy hyvin samalla tavoin, ja sijoittuu ryhmittelyanalyysissä samaan ryhmään (Kuva 26.3). Tällaisten geenien voidaan olettaa toimivan samassa biologisessa verkossa, esimerkiksi glukoosin aineenvaihdunnassa tai
solusyklin säätelyssä. Jos geenit toimivat yhdessä, ovat ne usein myös yhteissäädeltyjä, eli niiden promoottorialueilla on useinkin samojen transkriptiofaktoreiden
sitoutumiskohtia.
Koska analysoitava on pienempi geenijoukko, jolla voidaan lisäksi olettaa olevan samaan tehtävään liittyvä biologinen funktio, löytyy niistä tavanomaista todennäköisemmin myös samojen transkriptiotekijöiden sitoutumiskohtia. Niinpä väärien positiivisten tulosten määrä on tavanomaista hakua huomattavasti vähäisempi.
26.5.2 Fylogeneettiset jalanjäljet
Fylogeneettisten jalajälkien käyttö väärien positiivisten löydösten poistamiseen perustuu havaintoon, että säätelyalueet tapaavat olla evolutiivisesti konservoituneita.
Säätelyalueille osuu siis tavanomaista vähemmän evolutiivisia muutoksia, olivat ne
sitten insertioita, deleetioita tai pistemutaatioita. Fylogeneettinen jalanjälki tarkoittaa yksinkertaisesti sitä, että rinnastettaessa eri lajeista ortologiset sekvenssit, ne
alueet, jotka ovat kaikkein konservoituneimpia, sisältävät usein geenin säätelytekijöiden sitoutumiskohdat. Rinnatusta muodostettaessa on käytettävä lajeja, joiden
välillä on riittävän suuri evolutiivinen etäisyys. Esimerkiksi ihmisen ja simpanssi välinen rinnastus ei toimi, sillä liki koko promoottorialue on mainituilla lajeil-
282
Bioinformatiikan perusteet
Kuva 26.3: Hiiva jakaantuu optimioloissa noin 80:s minuutti. Pienet kuvat on otettu
hiivaviljelmästä mainittuina ajanhetkinä, ja hivan geenien ekspressiota on seurattu samanaikaisesti. Suureen kuvaan on piirretty analyysissä samaan ryhmään sijoittuvien geenien
ekspressio ajan funktiona. Ekspressiossa näkyy selkeä piikki 80 minuutin välein, joten geenit saattavat liittyä solusyklin säätelyyn tai DNA:n aineenvaihduntaa. Analysoitaessa geenien promoottorialueita, löydettiin erään transkriptiofaktorin sitoutumiskohta (ACGCG)
liki kaikista analysoiduista geeneistä. Transkriptiofaktori säätelee hiivassa erityisesti solusykliin liittyvien geenien ekspressiota.
la hyvin samanlainen. Useimmiten käytetäänkin esimerkiksi toista nisäkästä, kuten
ihmisen parina hiirtä. Tämä 70-80 miljoonan vuoden ero paljastaa jo useimmat säätelyalueet (Kuva 26.4). Koodaavien sekvenssien konservoitumista tutkittaessa, voidaan hiiren sijasta käyttää esimerkiksi pallokalaa, sillä koodaavat alueet ovat usein
vielä säätelyalueitakin konservoituneempia.
Muodostettaessa sekvenssirinnastusta jalanjälkianalyysiä varten, on pohdittavat, käyttääkö paikallista vai kokonaisrinnastusta. Kokonaisrinnastus olettaa, että
samankaltaiset alueet sekvensseissä sijaitsevat suunnilleen samoilla kohdin ja ainakin samassa järjestyksessä. Hiiren ja ihmisen välillä syntenia (konservoituneet samanlaiset alueet) kattaa kerrallaan vain noin 8Mbp:ä. Paikallinen rinnastus ei löydä heikosti konservoituneita alueita samalla tehokkuudella kuin kokonaisrinnastus,
mutta transkriptiofaktoreiden sitoutumiskohdat muuttavat usein järjestystään evoluutiossa. Tällaisia uudelleenjärjestelyitä ei pysty selvittämään kokonaisrinnastuksin. Menetelmät siis tukevat toisiaan, joskin kokonaisrinnastus lienee nykyisin paikallista suositumpi jalanjälkien hahmottamisessa.
26.5.3 Modulit
Modulien muodostaminen perustuu siihen biologiseen tosiseikkaan, etteivät yksittäiset transkriptiofaktorit suinkaan toimi yksinään vain moduleina, transkriptiofaktoreiden ryppäinä (Kuva 26.5). Siten myös sitoutumiskohtien voidaan olettaa rypästyvän, tai sijaitsevan esimerkiksi samassa järjestyksessä ja samalla etäisyydellä
toisistaan samalla tavalla säädellyissä geeneissä.
Modulien muodostaminen vaatii huomattavaa biologista tietämystä, sillä ana-
26
Promoottorianalyysi
283
Kuva 26.4: Fylogeneettisen jalanjäljen käyttö konservoituneiden säätelyalueiden löytämiseksi. Kuvassa on verrattu hiiren ja ihmisen sekvenssejä toisiinsa. Kuvan ylälaidassa oleva
sahalaita, jonka piikit juoksevat vasemmalle, osoittaa geenin lukusuunnan. Kuvan keskellä
olevat värilliset palkit kuvaavat geenin eri alueita: sininen, eksoni; vaaleanpunainen, introni; keltainen, UTR; punainen, säätelyalue; harmaa/vihreä, toistojaksot. Hiiren ja ihmisen
vertailussa paljastuu mahdollisesti säätelyalueita vastaavaa konservoitunutta aluetta geenin
ylä- ja alavirtaan.
lyysiä tehtäessä on tiedettävä tai osattava arvata, mitkä sitoutumiskohdat voisivat
analysoitavalle sekvenssille tai sekvenssijoukolle tulla kyseeseen. Tällä hetkellä
tunnetaan parhaiten maksan ja luurankolihasten moduleita, ja muita huomattavasti heikommin. Moduleiden muodostamisessa ei ainakaan vielä voida käyttää apuna
tietoa eri transkriptiofaktoreiden välisistä etäisyyksistä, koska tietoa on liian vähän.
Tiedämme kuitenkin, että monet transkriptiofaktorit vuorovaikuttavat fyysisesti, joten niiden sitoutumiskohtien välimatkojen täytyy pysyä jokseenkin vakioina, sillä
muutoin tämä vuorovaikutus estyisi.
26.6
Tuntemattomien sitoutumiskohtien etsiminen
Transkriptiofaktoreiden tuntemattomien sitoutumiskohtien paikallistamiseen käytetään useimmiten Gibbsin otantaan tai EM-algoritmiin perustuvia menetelmiä, jotka on kuvattu tarkemmin luvussa "Paikalliset rinnastukset usean sekvenssin rinnastuksissa". Menetelmiä käytettäessä tulee muistaa, että ne tuottavat käytännössä aina
jonkinlaisen tuloksen, oli sekvensseillä yhteisiä piirteitä tai ei. Lisäksi esimerkiksi toistojaksot vaikuttavat analyysiin haitallisesti, sillä ne saavat usein analyysissä
korkean merkitsevyystason, ja peittävät alleen vähemmät merkitsevät mutta biologisesti mielenkiintoisemmat tulokset. Onkin hyvä ajatus poistaa toistojaksot sekvensseistä ennen analyysiä.
Menetelmiä on sovellettu erityisesti DNA-sirutulosten yhteydessä, ja jotkin
menetelmät yhtäaikaisesti sekä luokittelevat geenit ekspressionsa mukaan että etsivät samaan ryhmäänsijoitetuista geeneistä mahdollisia transkriptiofaktoreiden sitoutumiskohtia. Tällaiset menetelmät näyttävät saavuttavan parempia tuloksia kuin
lähestymistavat, joissa geenien ryhmittely ja sitoutumiskohtien etsiminen on ero-
284
Bioinformatiikan perusteet
Kuva 26.5: Ihmisen geenin säätelyalueelta löytynyt transkriptiofaktoreiden sitoutumiskohtien muodostama moduli. Koska geeni on RNA-polymeraasi II:n transkriboima geeni,
on oikea säätelykohdat sisältävä juoste tässä tapauksessa -, sillä siitä löytyi myös TATAsekvenssi, jonka avulla polymeraasi tietää mistä aloittaa transkriptio. TATA:n lisäksi moduuliin kuuluu tässä tapauksessa viisi muutakin sitoutumiskohtaa.
tettu toisistaan. Erityisesti hiivalla menetelmät ovat tuottaneet mielenkiintoisia tuloksia, mutta ihmisen promoottorialueiden suurempi koko on haitannut niiden tehokasta analysointia ilmentymisdataa apuna käyttäen (Wasserman, 2003).
Usein on tarkoituksenmukaista varmistaa, vastaavatko löydetyt sekvensseille
yhteiset piirteet joitakin jo tunnettuna transkriptiotekijöiden sitoutumiskohtia (Hughes, 2000). Useimmiten ainakin osa vastaa jo tunnettuja transkriptiotekijöitä, ja tarvittaessa jatkotutkimukset voidaan kohdistaa uusiin, ennalta tuntemattomiin sitoutumiskohtiin. Yhteisiä piirteitä etsivien menetelmien sensitiivisyys on usein varsin alhainen, johtuen siitä, että lyhyet yhteiset sekvenssipätkät hukkuvat pitkiin sekvensseihin. Haut ovatkin parhaimmillaan, jos niissä voidaan käyttää lyhyitä sekvenssejä (reilusti alle 500 bp), mutta tällöin on vaarana, että menetelmät löytävät
paljon vääriä positiivisia osumia.
Tuntemattomia sitoutumiskohtia etsittäessä on usein pohdittava, mitä sekvessijoukkoa vastaan haluamme sitoutumiskohtia etsiä. Menetelmissä nimittäin usein
käytetään kontrollisekvenssijoukkoa, jonka perusteella arvioidaan esimerkiksi löydettyjen sitoutumiskohtien tilastollinen merkitsevyys. Yleisimmin kontrolleina käytetään samasta lajista peräisin olevia geenisekvenssejä, joissa ei ole mukana promoottorialueita, kaikkien muiden paitsi analysoitavien geenien promoottorialueita tai satunnaismallilla tuotettuja sekvenssejä, joilla on sama GC% kuin analysoi-
26
Promoottorianalyysi
285
tavilla sekvensseillä. Saadut tulokset ja sitoutumiskohdille määritetyt tilastolliset
merkitsevyysarvot ovat aina suhteessa käytettyyn kontrollisekvenssijoukkoon. Jos
kontrollijoukko on jotenkin hassusti valittu, voivat tuloksetkin olla pahasti pielessä
ja töysin epäluotettavia.
Eri menetelmin saaduista tutkimuksista on tehty vertailevia tutkimuksia, ja viimeisimmässä vertailussa (Tompa, 2005) EM-algoritmiin perustuva MEME-ohjelma
saavutti keskimääräisen tuloksen, jos tulosta mitataan sillä, kuinka hyvin ohjelma
kykeni erottelemaan oikeat transkriptiofaktoreiden sitoutumiskohdat vääristä. Vertailussa parhaaseen tulokseen ylsi Weeder-ohjelma (Pavesi, 2004), joka on eräänlainen konsensusmenetelmä, jossa määritetään kaikkien korkeintaan määrämittaisten
oligoiden esiintyminen sekvensseissä. Vertaamalla tuloksia kaikkiin saman eliön
geenien promoottorialueisiin, voidaan päätellä, mitkä löydetyt oligot mahdollisesti vastaavat sitoutumiskohtia. Erityisesti ihmisen ja hiivan geenien tapauksessa ero
MEME:een muodostui suureksi. Tulosten perusteella kannattanee jatkossa käyttää
MEMEn sijasta ennemmin Weederiä, jos mahdollista, sillä menetelmän käyttö rajoittuu lähinnä genomiprojekteissa sekvensoitaviin tai sekvensoituihin aitotumallisiin.
26.7
Yhteisten piirteiden etsinnän sensitiivisyyden parantaminen
Tuntemattomien sitoutumiskohtien tunnistamisessa voidaan käyttää sensitiivisyyden parantamiseen osittain samoja menetelmiä kuin jo tunnettujen sitoutmiskohtien kanssa. Esimerkiksi laji-laji-vertailuilla on mahdollista poistaa suuri osa epäspesifisistä tuloksista, joten niiden käyttöä kannattaa ainakin harkita, jos se vain on
mahdollista. Joissakin ohjelmistoissa on mahdollista soveltaa bayesilaisia menetelmiä sikäli, että sitoutumiskohdalle voidaan esimerkiksi määritellä ikäänkuin muoto sitä vastaavassa sekvenssilogossa. Monet transkriptiofaktorien sitoutumiskohdat
ovat sellaisia, että niiden keskimmäiset nukleotidit ovat parhaiten konservoituneita, ja reunoilla sijaitsevat nukleotidit hieman vähemmän konservoituneita. Tämä
aiheuttaa monesti logoissa nähtävän kellokäyrän muotoisen informaatiojakauman.
Bayesilaisia menetelmiä soveltavissa ohjelmistoissa tätä tietoa voidaan käyttää hyväksi priori-jakauman muodossa. Priori-jakauma muodostetaan lisäämällä sitoutumiskohtaa vastaavaan PSSM-matriisiin haun kuluessa pseudohavaintoja siten, että
matriisi muodostuu sopivalla tavalla vinoutuneeksi.
286
Bioinformatiikan perusteet
27 DNA-siruanalyysi
27.1
Mitä DNA-sirut ovat?
Perinteisesti geenien ekspressiota on tutkittu Northern blot -menetelmällä, jossa
usemmasta näytteestä on samanaikaisesti määritetty yhden geenien ilmentymistaso. Northern blot -menetelmässä agarooligeelillä erotellaan soluista eristetyt eri
mittaiset lähetti-RNA pätkät toisistaan, ja tunnistetaan haluttu lähetti-RNA DNAkoettimella. DNA-sirutekniikka kääntää tämän perinteisen menetelmän päälaelleen.
DNA-siruille kyetään nimittäin tutkimaan useiden tuhansien, jopa useiden kymmenien tuhansien geenien ilmentymistä yhtäaikaisesti mutta vain yhdestä näytteestä.
Kun Northern blot -menetelmässä geenit tunnistavat lyhyet DNA-pätkät (koettimet) olivat vapaana hybridisaatioliuoksessa, on ne DNA-sirutekniikassa kiinnitetty jollekin alustalle, kuten mikroskooppilasille. Tällä saavutetaan se hyöty, että
hyvin pienelle pinta-alalle voidaan helposti kiinnittää tuhansia erilaisia koettimia,
eivätkä ne mene keskenään sekaisin.
Geenien ilmentymisen lisäksi sopivalla tavalla suunnitelluilla DNA-siruilla
voidaan analysoida SNP:itä (single nucleotide polymorphisms) tai jopa sekvensoida tunnettuja geenialueita uudelleen. Tässä kuvataan kuitenkin vain sirujen käyttöä
ekspressioanalyysin yhteydessä.
27.2
DNA-sirujen valmistus
DNA-sirujen valmistukseen käytetään pääasiassa kolmea erilaista menetelmää. Useimmiten laboratorioiden itse valmistaessa siruja käytetään menetelmää, jossa robotti
painelee neuloilla mikroskooppilaseille pieniä määriä koettimia. Koettimet jäävät
lasilevyn pinnalle niin sanotuiksi spoteiksi tai täpliksi, joista kukin on suunniteltu sitoutumaan yhteen lähetti-RNA-mnolekyyliin. Koettimet ovat yleensä tavallisia
DNA-pätkiä, pituudeltaan muutamia satoja nukleotideja. Neulojen käytön sijaan
siruja voidaan myös tuottaa piezo-sähköön perustuvalla menetelmällä, jossa robotti toimii kuin mustesuihkutulostin: koettimet ruiskutetaan lasille halutuille kohdin
pienen pieninä pisaroina.
Affymetrix, joka on kehittänyt toisenlaisen DNA-sirumenetelmän, kiinnittää
koettimet lasilevyjen sijaan piilevyille. Sirut valmistetaan hieman samaan tapaan
kuin tietokoneiden mikropiirit, fotolitografisesti. Fotolitografiassa tietyt sirun osan
altistetaan valolle, jonka vaikutuksesta erikoisvalmisteiset nukleotidit saadaan sitoutumaan vain tietyille, tarkkaan rajatuille kohdin sirua. Kun sirua altistetaan sopivilta kohdin vuorotellen erilaisille nukleotideille ja valolle, saadaan lopulta syntetisoitua lyhyitä, 21bp:n mittaisia koettimia. Pidempiäkin koettimia voitaisiin syntetisoida, mutta niihin kertyy syntisoinnin aikana enemmän virheitä kuin lyhyisiin,
eivätkä ne siten enää välttämättä ole yhtä spesifisiä.
27
DNA-siruanalyysi
27.3
287
DNA-sirujen käyttäminen
DNA-siruilla tutkitaan pääasiassa geenien ilmentymistä kudoksissa (Kuva 27.1). Ilmentyessään geeni aluksi käännetään lähetti-RNA:ksi, joka DNA-siruja käytettäessä eristetään näytteistä. Näytteet voivat olla erimerkiksi kokonaisia eliöitä, niiden
kudosten tai solukoiden osia tai solulinjoja. Eristetty RNA käännetään cDNA:ksi.
RNA:sta kopioimalla saatua DNA:ta kutsutaan cDNA (complementary DNA), eivätkä esimerkiksi nisäkässolut osaa sitä itse valmistaa. Sen sijaan koeputkessa cDNA:ta osataan tehdä. Samanaikaisesti cDNA:ksi kääntämisen kanssa tai sen jälkeen
näyte leimataan fluoresoivalla väriaineella. Leimaamisen jälkeen näyte hybridisoidaan sirulle, ylimääräinen näyte pestään pois, siru kuivataan ja skannataan. Skannauksessa sirusta luodaan digitaalinen kuva, jonka käsittely jatkuu yksinomaan tietokoneympäristössä.
Edellä mainitut cDNA- ja Affymetrix-siru eroavat toisistaan siinä, miten leimaus ja hybridisaatio suoritetaan. cDNA-sirujen tapauksessa leimataan yleensä kaksi näytettä, yksi tutkimusnäyte ja sille valittu verrokki. Nämä näytteet käsitellään
muuten identtisesti, mutta leimataan eri värein, toinen yleensä Cy3-värillä (punainen), ja toinen Cy5-värillä (vihreä). Ne hybridisoidaan yhtäaikaa samalle sirulle,
jossa ne kilpailevat sitoutumisestaan kuhunkin koettimeen. Affymetrix-sirujen tapauksessa leimataan vain yksi ainoa näyte yhdellä värillä, ja kullekin sirulle hybridisoidaan vain yksi näyte. Niinpä cDNA-sirujen tuottamia tuloksia kutsutaan
kaksiväridataksi, Affymetrix-sirujen tuloksia yksiväridataksi.
Sirusta tuotettu kuva analysoidaan tietokoneella kuvankäsittelyohjelmaa käyttäen. cDNA-sirujen tapauksessa kuvia (mustvalkoisia) on yleensä kaksi, toinen vihreälle värille ja toinen punaiselle. Käyttäjälle kuitenkin yleensä näytetään vain väärävärikuva, joka on luotu näistä erillisistä väreistä tietokoneella. Tällaisessa väärävärikuvassa yksittäiset geenejä vastaavat täplät sirulla näyttäytyvät vihreän, punaisen ja keltaisen eri sävyissä. Punaiset geenit ovat ilmentyneet enemmän Cy3leimatussa näytteessä kuin Cy5-leimatussa näytteessä. Vihreät geenit ovat toimineet päinvastoin. Keltaiset täplät kielivät siitä, että geeni on ilmentynyt suunnilleen
yhtä voimakkasti kummassakin näytteessä. Kuva-analyysi ohjelmisto etsii sirulla
olevat täplät, ja lukee niiden fluoresoivan värin intensiteetin kummallakin värillä
(toisinaan puhutaan myös kanavista). Lisäksi kullekin täplälle yleensä ilmoitetaan
myös taustan intensiteetti, joka on laskettu täplää ympäröiviltä alueilta. Näin muodostuu jatkoanalyyseissä käytettävä data, jossa kutakin sirua yleensä vastaa yksi
tabulaattorein eroteltu tekstitiedosto. Tiedostossa kukin rivi vastaa yhtä geeniä, ja
sarakkeet sisältävät erilaista tietoa. Tiedostossa voi olla rivejä, jotka kertovat, onko
täplän antama tulos luotettava vai ei. Jos tällaisia arvoja määrätään täplille käsin,
kutsutaan niitä yleensä nimellä flag (Kuva 27.1). Huonoa täplää merkitsevän falgin
täplä voi saada esimerkiksi jos sen muoto ei ole pyöreä tai se on muuten epämuodostunut (violetilla värillä peitetyt täplät Kuvassa 27.1).
Affymetrix-sirujen tapauksessa kuva-analyysi etenee pääpiirteissään samallatavalla kuin cDNA-siruilla. Suurin ero cDNA-siruihin on geenikohtaisten ilmentymiarvojen laskeminen. Affymetrix-siruilla nimittäin kutakin geeniä vastaa 1120 koetinparia (Kuva27.2). Jokainen näistä koetimistä on 21 bp:ä pitkä. Perfect
match (PM) koettimet on suunniteltu sitoutumaan täydellisesti kohde-lähetti-RNAmolekyyliin. Mismatch (MM) -koettimissa on keskellä yhden nukleotidin huti, ja
niillä avulla pyritään selvittämään, kuinka suurta on PM-koettimien ristireagoivuus
muiden, ei-kohde-RNA-molekyylien kanssa. Geenin ilmenstymisarvo, joka vastaa cDNA-siruilla yhden kanavan intensiteettiarvoa lasketaan vähentämällä PMja MM-koettimien intensiteettiarvot toisistaan pareittain. Näin saaduista arvoista
suurin ja pienin tiputetaan pois, ja lopuista lasketaan summa, jota sitten käytetään
geenin ilmentymisen arviona.
288
Bioinformatiikan perusteet
Kuva 27.1: Esimerkki cDNA-sirun analyysistä. Esimerkissä vertaillaan kahden hiiren,
valkoisen ja harmaan geeniekspressiota. Lopputuloksena on tekstimuotoinen tiedosto, jota
käytetään tilastollisissa analyyseissä eri hiirien välillä ilmentymiseltään eroavien geenien
löytämiseksi.
27
DNA-siruanalyysi
289
Kuva 27.2: Affymetrix-sirujen periaate. Yhtä geeniä vastaa useampi PM-koetin ja MMkoetin. Näiden intensiteettien erotusten summana saadaan arvio geenin ilmentymisestä
tutkittavassa näytteessä.
27.4
Data-analyysi
Kun kutakin sirua vastaava tekstitiedosto on saatu tuotettua, ovat jatkoanalyysivaiheet varsin tilastotieteellisesti painottuneita. Seuraavassa esitellään muutamia yleisimpiä analyysivaiheita, muttei lähdetä käymään läpi analyysien taustalla olevaa
teoriaa sen syvällisemmin.
27.4.1 Koesuunnittelu
Koesuunnitteluun pitäisi uhrata aikaa jo ennen varsinaisen kokeen suorittamista.
Koesuunnittelulla tarkoitetaan koeasetelman pohtimista ja siihen liittyvien päätöksien tekemistä. Huono koesuunnittelu voi myöhemmissä vaiheissa pilata myös analyysin. Koesuunnittelu voidaan aloittaa pohtimalla kumpaa menetelmää, cDNAsiruja vai Affymetrix-siruja kannattaisi käyttää. Molemmissa on puolensa, mutta
cDNA-sirut soveltuvat erityisen hyvin sellaisiin tapauksiin, joissa kaikki näytteitä
verrataan yhten verrokkinäytteeseen. Esimerkiksi, jos pyritään selvittämään, miten
nisäkässoluviljelmä reagoi ajan kuluessa lipopolysakkaridi (LPS) -käsittelyyn, ja
eri ajanhetkiä verrataan aikapisteeseen nolla, jolloin LPS:ää oli juuri lisätty viljelmiin, cDNA-sirut soveltuisivat tutkimukseen hyvin. Tällöin kullekin sirulle hybridisoitaisiin näyte kustakin aikapisteestä sekä nollannesta aikapisteestä. Affymetrixsirut puolestaan soveltuvat tapauksiin, joissa ei ole olemassa yksikäsitteistä verrokkia. Jos esimerkiksi haluttaisiin vertailla eri leukemiatyyppejä, voitaisiin hyvin soveltaa Affymetrix-siruja. Kullekin sirulle hybridisoitaisiin sitten yksi näyte jostakin
syöpätyypistä.
Koesuunnittelussa on otettava myös huomioon tarvittavien toistojen lukumäärä. Jos vertaillaan vaikkapa kahden eri bakteerin LPS:n vaikutusta samoihin nisäkässoluihin, ei vielä päästä kovin luotettaviin tuloksiin, jos bakteeria kohden tehdään vain yksi siru. Sirujen antamissa tuloksissa on nimittäin paljon teknisistä syistä johtuvaa vaihtelua, ja jos toistoja ei ole, ei voida tietää, onko havaittu ero biologisesti mielenkiintoista vain johtuuko se vain koeteknisistä, satunnaisista syistä. Koska satunnaisia syitä voidaan hallita tilastotieteellisin menetelmin, on syytä
tehdä koesarjassaan toistoja. Esimerkiksi, jos vertaillaan eri bakteerien vaikutusta nisäkässoluihin, on pienin suositeltava toistojen määrä kolme: kahdesta ei voida kovin mielekkäästi laskea tilastollisten menetelmien tarvitsemia arvoja, kuten
290
Bioinformatiikan perusteet
keskihajontaa. Jos sen sijaan vertailtaisiin vaikkapa eri leukemiatyyppejä, riittäisi
varmasti yksi näyte kustakin henkilöstä, olettaen että henkilöitä on riittävän monta.
Tällaisessa tutkimuksessahan ei yleensä olla kiinnostuttu yksilöiden välisistä eroista, vaan nimenomaan syöpätyyppien eroista. Niinpä eri henkilöiden voidaan katsoa
edustavan toistoja kustakin syöpätyypistä, jolloin yksi näyte kustakin henkilöstä
antaa riittävästi tietoa jatkoanalyysejä ajatellen.
Toistojen käytöstä on myös se hyöty, että jos yksi hybridisaatio tai siru jostakin syystä menee pieleen, on jäljellä kuitenkin edes jonkin verran informaatiota,
josta voidaan saada mielekkäistä tuloksia. Jos esimerkiksi kummastakin bakteerikäsittelystä olisi tehty vain yksi ainoa siru, ja kuva-analyysivaiheessa havaittaisiin,
että toinen on tuhoutunut, vaikkapa siksi, että punainen kynä, jolla sirut merkittiin,
on tuhrinut koko sirun, menetettäisiin koko koe, ja se jouduttaisiin toistamaan laboratoriossa alusta alkaen uudelleen. Jos sen sijaan kummastakin käsittelyistä olisi
toistoja, ei yhden sirun menettäminen olisi yhtä kohtalokasta.
27.4.2 Esikäsittely
Ennen aineiston varsinaista analyysiä, aineisto läpikäy yleensä muutamia esikäsittelyvaiheita, joiden tarkoituksena on saattaa aineisto analysoitavaan muotoon ja
poistaa siitä mahdollisia koeteknisistä syistä johtuvia virheitä.
Ensimmäisenä esikäsittelyvaiheena cDNA-siruille on yleensä taustan poisto,
mikä tarkoittaa sitä, että kutakin geeniä kohden vihreän ja punaisen värin intensiteeteistä vähennetään niille määritellyn taustan intensiteetti. Näin saaduista taustakorjatuista intensiteettiarvoista lasketaan suhdeluku jakamalla yleensä punaisen
värin intensiteetti vihreän värin intensiteetillä. Tätä suhdelukua kutsutaan intensiteettisuhteeksi. Periaatteessa intensiteettisuhdetta voitaisiin käyttää jo jatkoanalyyseissä, mutta monet jatkoanalyysimenetelmät olettavat analysoitavan aineiston
olevan normaalisti jakautunut. Siksi intensiteettisuhdetta vielä muunnetaan matemaattisesti, jotta jakaumasta saataisiin normaalinen. Useimmiten käytetään log 2 muunnosta, mikä tarkoittaa sitä, että kustakin intensiteettisuhteen arvosta otetaan
kaksikantainen logaritmi. Muodostuvaa muunnettua suhdelukua kutsutaan logsuhteeksi (Kuva 27.3), ja sitä voidaan käyttää jatkoanalyyseissä.
Mainittuja esikäsittelyvaiheita seuraa yleensä normalisointi, mikä tarkoittaa
sitä, että aineistosta poistetaan laboratorioteknisistä syistä johtuvia systemaattisia
virheitä sekä saatetaan eri sirut keskenään vertailukelpoisiksi. cDNA-sirujen tapauksessa sattuu usein niin, että Cy3- ja Cy5-värit sitoutuvat näytteeseen eri voimakkuuksilla. Jos oletetaan, että suurin osa geeneistä ei lainkaan muutu ekspressioltaan eli ne ilmentyvät yhtä tehokkaasti sekä punaisella etä vihreällä värillä leimatuissa näytteissä, pitäisi hajontakuvioon merkittyjen pisteiden sattua suunnilleen
hajontakuvion halkaisijalle (Kuva 27.4). Jollei näin tapahdu, tulee aineistoa muuntaa siten, että tämä oletus toteutuu (Kuva 27.4). Käytännössä toisen värin intensiteettiarvoihin lisätään sopiva luku siten, että värien keskimääräiseksi intensiteetiksi
tulee sama luku. Tällöin myös värien suhdelukujen keskiarvoksi tulee yksi (logsuhteen keskiarvoksi 0). Kun kaikki sirut on normalisoitu esimerkiksi kuvatulla tavalla,
ovat ne keskenään vertailukelpoisia, ja varsinainen analyysi voidaan aloittaa.
Affymetrix-sirujen esikäsittely eroaa cDNA-sirujen esikäsittelystä sikäli, että niille ei voida laskea intensiteettisuhdetta, jollei koesarjassa ole mukana jotakin vertailupistettä. Niinpä saatua lukuarvoa käytetäänkin useimmiten suoraan geenin ekspression mittana. Affymetrix-sirujen normalisoinnissa on myös pieniä eroja cDNA-sirujen normalisointiin verrattuna. Affymetrix-sirut normalisoidaan usein
suoraviivaisesti lisäämällä tai vähentämällä tietty lukuarvo kunkin sirun intensiteettiarvoista siten, että kaikkien sirujen keskiarvo saadaan säädettyä samaksi. Tällöin
sirut tulevat keskenään vertailukelpoisiksi. Näin saaduista normalisoiduista arvoista lasketaan vielä usein log 2 -muunnos, kuten cDNA-sirujen yhteydessäkin.
291
0
500
1500
DNA-siruanalyysi
Frequency
27
0
10000
30000
200
100
0
Frequency
300
gmean
Not normally distributed
3.2
3.4
3.6
3.8
log2(na.gmean)
Approximately normally distributed
Kuva 27.3: Esimerkki ei-normaalisen intensiteettisuhteen (yläkuva) ja likimain normaalisen logsuhteen (alakuva) jakaumista histogrammein esitettynä.
Bioinformatiikan perusteet
20000
0
10000
Rmean
30000
292
0
10000
20000
30000
40000
50000
40000
50000
20000
0
10000
Rmean
30000
gmean
0
10000
20000
30000
Gmean
Kuva 27.4: Esimerkki ekspressiosirun normalisoinnista. Ylemmässä kuvassa havaitaan,
että vihreän värin (gmean) intensiteetit ovat keskimäärän alhaisempia kuin punaisen värin
(rmean). Tämä johtuu leimauksessa käytettyjen värien erilaisista sitoutumisominaisuuksista, ja virhe poistetaan siirtämällä vihreän värin intensiteettejä hieman ylöspäin siten,
että ne tulevat samalle tasolle punaisen värin intensiteettien kanssa (alakuva).
27
DNA-siruanalyysi
27.5
293
Suodatus
Suodatuksella tarkoitetaan menettelyä, jossa epäluotettavat tai epäkiinnostavat geenit tai sirut suljetaan pois jatkoanalyyseistä. Suuri osa geeneistä ei yleensä muutu ekspressioltaan lainkaan koesarjan aikana. Tällaiset geenit ovat epäkiinnostavia ja vaikeuttavat jatkoanalyysien tulosten tulkintaa, joten ne usein suodatetaan
pois aineistosta. Samaten geenit, joiden osalta tulokset ovat epäluotettavia, suljetaan yleensä pois jatkoanalyyseistä.
Epäluotettavat geenit on toisinaan helppo tunnistaa (Kuva 27.6). Esimerkiksi
geenit, joiden intensiteettiarvo on hyvin alhainen, ovat yleensä jokseenkin epäluotettavia, sillä skannerit eivät kykene yleensä arvioimaan kovin pieniä intensiteettejä
kovin tarkasti. Samaten geenit, joiden intensiteettiarvo on hyvin suuri (täplät ovat
kuvassa valkoisia) ovat myös epäluotettavia, sillä skanneri ei ole kyennyt antamaan
niille tarkkaa intensiteettiarvoa, koska arvo on niin korkea, ettei skannerin kapasiteetti yllä niin korkealle.
Laboratorioteknisistä syistä erityisesti cDNA-sirut tahtovat päästä kuivumaan
reunoiltaan hybridisaation aikana. Tämä voi luonnollisesti vaikuttaa tuloksiin, ja
tällainen vaikutus on usein helpointa havaita, jos normalisoitu logsuhde kuvataan
alkuperäisen sirun muodossa värikoodattuna (Kuva 27.5). Geenit, joiden paikka
näyttää vaikuttavan niiden ekspressioon suljetan pois jatkoanalyyseistä.
Kuva 27.5: Esimerkki sirusta, jossa on havaittavissa oikeassa alareunassa geenien sijainnista johtuvaa virhettä niiden intensiteettiarvoissa (spatial bias). Kuvion perusteella ainakin osa oikean alanurkan ja vasemman reunan geeneistä tulisi poistaa jatkoanalyyseistä,
sillä niiden ekspressio näyttää olevan paikkariippuvaista, ja ne ovat siten epäluotettavia.
294
Bioinformatiikan perusteet
Yksin koeteknisistä syistä geenin ilmentymistaso voi vaihdella suunnilleen
kaksinkertaisesti aliekspressoituneesta kaksinkertiasesti yliekspressoituneeseen. Intensiteettisuhteen avulla ilmaistuna geenint, joiden ekspressio on väliltä 0,5-2,0,
ovat todennäköisesti ilmentymättömiä geenejä, vaikka numeroarvon perusteella voitaisiinkin muuta olettaa. Tällaiset geenit jätetään yleensä pois jatkoanalyysesitä, sillä niistä ei olle erityisen kiinnostuneita. Useimmiten tavoitteena on löytää ennemmin ilmentyneitä kuin ilmentymättömiä geenejä.
Jos koesarjaan sisältyy toistoja, voidaan myös kunkin geenin keskihajontaa
käyttää suodatukseen. Tällöin tavoitteena on suodattaa pois sellaiset geenit, joiden
keskinäinen hajonta on liian suurta (>3 SD keskiarvosta) tai joiden hajonta esimerkiksi yksittäisessä aikapisteessä on liian alhaista (<1 SD keskiarvosta). Jos toistojen
välinen keskihajonta on suurta, ovat toistot epäluotettavia, jolloin ainakin epäluotettavimmat toistot voidaan jättää analyysistä. Jos sen sijaan geenin hajonta vaikkapa
tietyssä aikapisteessä on kaikkien geenien keskiarvoon verrattuna kovin pientä, tarkoittaa se, ettei geeni ole lainkaan ekspressoitunut. Tällainen suodatus antaa usein
varsin samanlaisen tuloksen kuin ilmentymistasoon perustuva suodatus, mutta tuo
toisaalta suodatukseen toistoihin perustuvaa luotettavuutta.
27.5.1 Ilmentyneiden geenien löytäminen
Suodatettua aineistoa voidaan käyttää ilmentyneiden geenien tunnistamiseen. Usein
jo suodatuksen yhteydessä tunnistetut geenit, joiden ekspressiotaso on intensiteettisuhteella ilmaistuna joko alle 0,5 tai yli 2,0 voidaan tulkita ilmentyneiksi. MAhajontakuviota käyttäen asiaa voidaan havainnollistaa paremmin (Kuva 27.6).
Jos aineistossa oli mukana toistoja, on niiden käyttäminen ilmentyneiden geenien etsinnässä varsin suositeltavaa. Geenit, jotka saavat hyvin samanlaisen ilmentymistason kaikissa toistoissa ovat luotettavampia kuin sellaiset, joiden ilmentymistaso vaihtelee eri toistojen välillä runsaasti. Helpoin tapa ottaa toistojen tuoma lisäinformaatio huomioon on käyttää jotakin tilastollista testiä. Esimerkiksi, jos
haluttaisiin löytää vaikkapa sellaiset geenit, jotka tietyssä aikasarjan aikapisteessä ovat ilmentyneitä, voitaisiin verrata kunkin geenin ilmentymisarvoa siihen, ettei geeni olisi ilmentynyt (intensiteettisuhde 1). Tässä tapauksessa sovellettaisiin
yhden populaation t-testiä. Jos toistot ovat riittäävn samanlaisia (keskihajonta on
pieni), ja geenin ekspressio on riittävän erilaista ykköseen verrattuna, voidaan geeni tulkita ilmentyneeksi. Ilmentyneet geenit saavat tilastollisen testin perusteella
pienen p-arvon. P-arvon voidaan ajatella edustavan epävarmuutta, joka johtopäätökseemme (on ilmentynyt) liittyy. Jos epävarmuus, ja siten p-arvokin, on pieni,
tulkitaan geeni ilmentyneeksi. Tilastollisen testin tulokset voidaan yhdistää myös
ilmentymistason perusteella saatuihin tuloksiin. Molemmat tulokset voidaan yhtä
aikaa esittää näppärästi Volcano-hajontakuviossa (Kuva 27.7).
Jos haluttaisiin löytää kahdessa eri aikapisteessä eri tavoin ilmentyneitä geenejä, voitaisiin yhden populaation t-testin sijaan käyttää kahden populaatio t-testiä,
joka on suunniteltu juuri tällaisiin tilanteisiin. Tulokset voitaisiin hyvin hahmottaa
Volcano-hajontakuvion muodossa, jolloin vaaka-akselille olisi sijoitettu eri aikapisteiden välinen ilmentymisero eikä varsinaista geenin ilmentymistä jommassakummassa aikapisteessä.
Edellämainitut t-testit olettavat, että geenin ilmentymisarvot ovat normaalisti jakautuneita. Vaikka esimerkeissä usein puhutaan intensiteettisuhteesta, käytetään varsinaisessa testaamisessa logsuhdetta, joka on yleensä likimain normaalisti jakautunut. Jos logsuhteen sijaan käytettäisiin intensiteettisuhdetta, joka ei ole
normaalisti jakautunut, tehtäisiin johtopäätösten vetämisessä mahdollisesti pahoja
virheitä, eikä testiä ole siksi syytä soveltaa intensiteettisuhteelle.
DNA-siruanalyysi
295
−1.5
−1.0
−0.5
0.0
M
0.5
1.0
1.5
27
8
10
12
14
A
Kuva 27.6: Esimerkki MA-hajontakuviosta, johon on vaakasuuntaisin viivoin merkitty
ali- ja yli-ilmentyneiden geenien rajat. Tässä tapauksessa yli-ilmentyneitä geenejä löydettiin yksinkertaisella raja-arvolla 22 kappaletta, ja ali-ilmentyneitä geenejä 9 kappaletta.
Tällaisen hajontakuvion avulla huonot havainnot on myös helppo poistaa (tämä on esimerkki hyvästä sirusta). Hajontakuviota kutsutaan MA-kuvioksi, sillä se on kuten tavanomainen hajontakuvio, jossa datapilveä on kallistettu 45% oikealle. Tällainen kuvio saadaan aikaan, jos pystyakselille merkitään normalisoitu logsuhde ja vaaka-akselille punaisen ja vihreän värin intensiteettien keskiarvo.
Bioinformatiikan perusteet
2
0
1
−log10(p)
3
4
296
−4
−2
0
2
4
log2(ratio)
Kuva 27.7: Volcano-hajontakuvio. Pystyakselilla on esitetty yhden populaation t-testin
antamasta p-arvosta laskettu käänteinen logaritmiarvo. Vaaka-akselilla on esitetty geenien
useista toistoista lasketttu keskimääräinen geenin ilmentyminen. Tilastollisesti merkitsevästi ilmentyneet geenit voidaan havaita laatikoista, joita rajoittaa p-arvon raja 2, ja logsuhteen raja -1 tai +1 (vastaavat intensiteettisuhteita 0,5 ja 2). Esimerkiksi yli-ilmentyneet
geenit rajoittuvat kuvion oikeaan yläneljännekseen, jossa geenien saama p-arvo on suurempi kuin 2, ja samalla niiden ilmentymisarvo on yli 2.
27
DNA-siruanalyysi
297
27.5.2 Tulosten visualisointi
Saavutetut tulokset voidaan esittää useallakin eri tavalla, mutta kenties suosituin on
hierarkkinen ryhmittelyanalyysi puu, jossa on kuvattu geenien ilmentymistaso. Tällaista kuvaa kutsutaan myös heatmap-nimellä. Usein puussa esitetään vain mielenkiintoisimmat tulokset, esimerkiksi edellämainitun aikasarjan tapauksessa sellaiset
geenit, jotka ovat muuttuneet jollakin mielenkiintoisella tavalla kokeen aikana, tai
jotka ovat tilastollisesti merkitseviä joissakin aikapisteissä. Puu kootaan useimmiten samaan tapaan kuin molekyylisystematiikan yhteydessä käsitelty UPGMA-puu,
sillä erolla, että geenien välisten etäisyyksien arviointiin käytetään tyypillisesti jotakin korrelaatiomittaa. Puussa siis samankaltaisimmat geenit sijoittuvat samaan
puun haaraan (Kuva 27.8).
Kuva 27.8: Hierarkkinen ryhmittelyanalyysitulos (heatmap), jossa on esitetty samaan
tapaan käyttäytyvät geenit. Vertaa Kuvaan 27.9.
Toinen vaihtoehto tulosten visualisoimiseen on viivakaavio, jossa kunkin geenin ekspressiota ajan funktiona kuvataan viivalla. Näin syntyviä geenien ekspressiota kuvaavia käyrästöjä kutsutaan geenien ekspressioprofiiliksi (Kuva 27.9).
Viivakaavio ja heatmap ovat esimerkiksi tieteellisen artikkelin lukijan kannalta hyviä keinoja havainnollistaa geenien yhteistä käyttäytymistä. Usein heatmap:iä
käytetään myös varsinaiseen analyysiin tai ainakin sen ensivaiheissa. Jos esimerkiksi haluamme verrata kahden eri kudoksen geenien ilmentymistä toisiinsa, on
298
Bioinformatiikan perusteet
Kuva 27.9: Kuvassa on esitetty ajan funktiona samalla tapaa ekspressoituvat geenit.
Geenijoukko on sama kuin Kuvassa 27.8.
puu usein näppärä apukeino. Paras tulos saadaan, kun aineisto on ennen puuhun
sijoittamista suodatettu, ja eri ryhmien välillä tilastollisesti merkitsevästi eri tavalla ilmentyvät geenit on etsitty vaikkapa kahden populaation t-testiä käyttäen. Kun
näin saadut tulokset sijoitetaan puuhun, saadaan usein mielenkiintoista informaatiota kudosten eroista (Kuva 27.10).
27.5.3 Jatkotutkimukset
Usein DNA-sirutulosten bioinformatiivinen analyysi päätetään tulosten visualisointiin, vaikka siitä varsinaisesti mielenkiintoisin vaihe vasta alkaa. Kun kokeesta on
tunnistettu joukko mielenkiintoisia geenejä, on usein myös mielenkiintoista tutkia tai pohtia, miten löydökset liittyvät biologiseen hypoteesiin, jota koesarjassa
mahdollisesti testattiin. Esimerkiksi Kuvan 27.9 tapauksessa tutkittiin hiivasoluja
viljelmässä, ja huomattiin, että aina 80 minuutin välein samoissa geeneissä esiintyy yliekspressiota. Optimioloissa hiivasolut jakautuvat noin 80 minuutin välein, ja
tutkittaessa geenien annotaatioita ja biologisia funktioita, havaittiin, että suuri osa
tällä tavoin yhtäaikaisesti ekspressoituvista geeneistä liittyi solusyklin säätelyyn ja
nukleiinihappometaboliaan, kuten DNA:n kahdentumiseen.
Biologisesti mielenkiintoista taustainformaatiota voidaan hakea erilaisista tietokannoista, ja usein sirujen tuottajatkin toimittavat sirujen mukana listan geenien
annotaatioista. Lisäksi voidaan tutkia, kuuluvatko kaikki genit esimerkiksi samaan
metaboliareittiin tai onko niillä muuten samanlaisia toimintoja solussa. Tässä apuna
ovat esimerkiksi GO-ontologiat sekä erilaisista metaboliareittitietokannoista saatavat tiedot. Yllä mainitussa esimerkissä 80 minuutin välein yli-ilmentyviin geeneihin esimerkiksi kuului sellaisia solusyklin etenemiseen liittyviä proteiineja, jotka valvoivat tietyn solusyklin vaiheiden välisten rajojen ylittymistä. Nämä puolestaan liittyvät nukleiinihappometaboliaan siten, että solun sallitaan edetä solusyklis-
27
DNA-siruanalyysi
299
Kuva 27.10: Puussa on esitetty puukaavio sirujen, ei geenien suhteen. Samankaltaisimmat
sirut sijoittuvat nyt puussa yhteen. Tutkimuksessa verrattiin kahta kudostyyppiä toisiinsa,
ja pyrittiin hahmottamaan, voidaanko ne erotella toisistaan luotettavasti. Luuytimestä otettuihin näytteisiin johtavat puun haarat on väritetty punaisella, verestä otetut näytteet keltaisella. Pääosin luuydin- ja verinäytteet sijoittuvat puussa erilleen, mutta osa luuytimen
ja veren näytteistä sattuu samaan puun haaraan. Näyttää siltä, että suurin osa näytteistä
voidaan varsin luotettavasti erotella näiden n. 700 tilastollisesti ryhmissä eri tavalla ilmentyneiden geenien perusteella, mutta ei kuitenkaan kaikkia.
300
Bioinformatiikan perusteet
sä eteenpäin esimerkiksi vasta sitten, kun koko DNA:n on kahdennettu. Tällöin sekä solusykliä valvovien proteiinien että DNA-korjausproteiinien tulee kyetä viestimään keskenään, ja siksi ne ovatkin yhtäaikaisesti ilmentyneitä.
DNA-sirut ovat kuitenkin seulontatyökaluja, eikä niiden avulla saada tarkkoja
kvantitatiivisia tuloksia geenien ilmentymisestä. Niinpä usein suositellaankin, että tulokset varmistettaisiin laboratoriossa vielä reaaliaikaista-PCR:ää tai Northern
blot-menetelmää käyttäen. Näissä on kuitenkin ongelmana se, että niiden antamat
tulokset eroavat sirujen anatamista tuloksista suhteellisen usein. Ristiriitatilanteessa voi olla vaikea päättää kumpiin tuloksiin luotetaan. Siksi sirutulosten varmistaminen esimerkiksi proteomiikan menetelmiä käyttäen voisi olla parempi idea.
Tällöinkin voi tosin sattua, että tulokset ovat ristiriidassa, sillä kaikkia geenejä ei
transloida proteiineiksi samalla teholla, eivätkä geenituotteen ja proteiinituotteen
määrät aina korreloi keskenään.
27.5.4 Tulosten julkaiseminen
Monet lehdet velvoittavat tutkijoita julkaisemaan aineistonsa julkisessa tietokannassa ennenkuin artikkeli hyväksytään. Näin menettelevät esimerkiksi Nature-sarjan
lehdet. Maailmalla onkin muutamia tietokantoja, joihin geeniekspressioaineistoja voi tallentaa. EBI:n ylläpitämä ArrayExpress ja NCBI:n palvelu GEO lienevät
näistä suosituimpia. DNA-siruaineistojen kuvaamiseksi siten, että niistä on hyötyä
muillekin tutkijoille, on kehitetty MIAME (minimum information about microarray
experiment) -standardi, jota julkaistavien aineistojen pitäisi noudattaa. MIAMEmuotoinen kuvaus luodaan yleensä jollakin sopivalle ohjelmalla, joka kääntää aineiston MAGE-ML-objektimallia käyttäen XML-tiedostoksi, jotka voidaan sitten
sijoittaa suoraan tietokantaan. Esimerkiksi ArrayExpress luo XML-tiedoston sille
syötetyn aineiston perusteella, joten sitä ei välttämättä tarvitse luoda itse. DNAsirutulosten julkaisemisen suhteen tulevaisuus näyttää siis pitkälti samalta kuin sekvenssiaineistojen suhteen: jotta artikkeli saadaan julkaistua, pitää aineistokin julkaista kaikkien tutkijoiden saataville.
28
RNA:n sekundäärirakenteen ennustaminen
301
28 RNA:n
sekundäärirakenteen
ennustaminen
28.1
Mihin RNA:n rakenteen ennustamista käytetään?
Soluissa on monia osia, joiden toiminnallisuuteen RNA liittyy. Ehkä keskeisin RNA:ta
käyttävä rakenne on kuitenkin ribosomi, joka transloi lähetti-RNA:n proteiiniksi.
Ribosomin aluyksiköt siältävät katalyyttisen RNA-ytimen, ja aminohappoja kuljettavat molekyylit, siirtäjä-RNA:tovat myös rakenteeltaan yksinomaan RNA:ta. Jotkin mutaatiot voivat vaikuttaa RNA:n sekundäärirakenteeseen, ja sen selvittäminen
voi olla ensimmäisiä askeleita mutaation merkityksen ymmärtämiseksi. RNA:n sekundäärirakenteen ennustamisella on myös sovelluksiin liittyvää käyttöä. Usein
16S ja 18S rRNA:ta käytetään erilaisten bakteeri- tai eliökohtaisten koettimien
suunnitteluun. Kaikki kohdat soluissa laskostuneesta RNA:sta eivät kuitenkaan ole
yhtä helposti saavutettavissa, jolloin mahdollisimman tehokkaan koettimen laatiminen vaatii RNA:n sekundäärirakenteen tuntemista (Behrens, 2003).
Nykyiset ennustusmenetelmät eivät ole kovin luotettavia, ja arviolta 50-70Jotkin
rakenteet on muita helpompi ennustaa oikein, ja jos esimerkiksi sama rakenne esiintyy kaikissa, vaikkapa 50 parhaassa ennustuksessa, on rakenne suhteellisen robusti,
ja sen voidaan olettaan olevan ainakin suhteellisen lähellä oikeaa.
28.2
RNA:ssa esiintyviä sekundäärirakenteita
RNA voi muodostaa sekundääri- ja tertiäärirakenteita, jopa kvaternäärirakenteita
samaan tapaan kuin proteiinit. Sekundäärirakenteita ovat esimerkiksi neulansilmä,
silmukka ja pullistuma, tertiäärirakenteita pseudosilmukka (Kuva 28.1). Sekundäärirakenteita voi muodostua sellaisille alueille, joilla RNA-molekyyli voi emäspariutua itsensä kanssa. Emäspariutuminen tapahtuu samaan tapaan kuin DNAmolekyylissä, mutta lisäksi voi syntyä epästabiilimpia G-U-pareja (wobble base
pairs). Tertiäärirakenteita muodostuu, kun sekundäärirakenteet muodostavat uusia
rakenteita toistensa kanssa. Tällä hetkellä voidaan ennustaa sekundäärirakenteita,
muttei tertiäärirakenteita.
28.3
Miten sekundäärirakenteita ennustetaan?
Sekundäärirakenteiden ennustus perustuu keskenään pariutuvien emästen selvittämiseen. Kaikkien sekundäärirakenteiden muodostuminen vaatii emäspariutumista,
joten voitaisiin myös ajatella, että rakenteiden ennustamiseksi pitää selvittää, mitkä RNA-molekyylin osat ylipäätään kykenevät pariutumaan tai muodostamaan tietynlaisia sekundäärirakenteita. Yksinkertaisin tapa tämän selvittämiseen lienee jo
302
Bioinformatiikan perusteet
Kuva 28.1: Esimerkkejä erilaisista sekundääri- ja tertiäärirakenteista, joita RNA voi muodostaa.
sekvenssirinnastusmenetelmien yhteydessä esitelty pistematriisi. Erona rinnastukseen on, että RNA:n rakenteen selvittämiseksi pistematriisiin merkitään piste vain
jos taulukon solussa kohdakkain osuvat emäkset voivat pariutua. Tätä periaatetta
sovelletaan minimienergiamenetelmässä.
Toinen ennustustapa nojaa evolutiiviseen informaatioon, ja käyttää apunaan
RNA-sekvensseistä tehtyjä usean sekvenssin rinnastuksia. Tietyt alueet saman ryhmän RNA-molekyyleissä ovat konservoituneita, ja muutokset ovat yleensä samanaikaisia RNA-molekyylin eri kohdissa: Jos esimerkiksi A-U-parin adeniini muuttuu
sytosiiniksi, muuttuu yleensä myös urasiili guaniiniksi molekyylin sisäisen rakenteen säilyttämiseksi ennallaan. Tällaista samanaikaista evoluutiota kutsutaan kovariaatioksi, ja menetelmän haasteena onkin erotella kovarioivat emäskohdat satunnaisten muutosten joukosta.
28.4
Minimienergiaperiaate
Minimienergiaperiaate nojaa olettamukseen, että toistensa kanssa pariutuvat alueet
muodostavat sekundäärirakenteita. Tällaiset alueet voidaan selvittää esimerkiksi
pistematriisia käyttäen (Kuva 28.2). Pistematriisissa sama sekvenssi on sijoitettu
sekä pysty- että vaaka-akselille. Pistematriisimenetelmä etsii sellaisenaan vain osumia, joissa sama nukleotidi osuu kohdakkain sekä vaaka- että pystyakselilla. Siksi
RNA:n sekundäärirakenteita selvitettäessä pitääkin ensin kääntää RNA:n komple-
28
RNA:n sekundäärirakenteen ennustaminen
303
mentaariseksi, ja sijoittaa sitten alkuperäinen vaaka-akselille 5’->3’ -suunnassa ja
komplementaarinen juoste pystyakselille niin ikään 5’->3’-suunnassa. Tällaisessa
kaaviossa komplementaariset osat tunnistetaan hieman piirtotavasta riippuen aivan
kuten normaalista pistematriisistakin: vasemmalta ylhäältä oikealle alas suuntautuvina lävistäjän suuntaisina viivoina. Mahdollinen tausta voidaan häivyttää esimerkiksi sanakokoa kasvattamalla.
Kuva 28.2: Esimerkki pistematriisista, jonka avulla voidaan hahmottaa keskenään pariutuvia alueita ja niiden sijaintia RNA-molekyylissä.
Minimienergiaperiaatteessa pyritään etsimään sellainen RNA:n laskostumismuoto, jonka vapaan energian määrä on mahdollisimman pieni. Tämä ei enää onnistu pelkkää pistematriisia käyttäen, vaan ratkaisu selviää dynaamista optimointia
käyttäen. Menetelmä on hyvin samanlainen kuin sekvenssirinnastusten yhteydessä
esitelty kokonaisrinnastuksen löytämiseen käytetty Needleman-Wunschin algoritmi. Ainoana erona on, että nyt nukleotidien samankaltaisuuteen perustuvan pisteytysmatriisin sijaan käytetään erilaisille nukleotidipareille määriteltyjä, yleensä
negatiivisia vapaan energian määriä. Aukkosakot puolestaan tavallaan korvautuvat
erilaisille silmukkarakenteille, neulansilmille ja pullistumille määritellyillä positiivisilla vapaan energian määrillä.
Sekundäärirakenteen vapaan energian määrä lasketaan pääpiirteissään seuraavasti. Aluksi pistematriisista tunnistetaan pariutuvat alueet (Kuva 28.2). Tässä tapauksessa sekvenssin alku (emäkset 1-4) ja loppu (emäkset 71-74) pariutuvat keskenään. Koska pariutuvat alueet ovat tässä vasemmalta alhaalta oikealle ylös suuntautuvia peräkkäisten solujen sarjoja, etsitään taulukosta sellainen. Taulukossa sarja
saakin alkunsa heti vasemmasta alasolusta ja se näyttäisi päättyvät oikeaan yläsoluun.
Kun lävistäjään kuuluvien solujen sisältö korvataan niiden saamilla vapaan
304
Bioinformatiikan perusteet
energian määrillä, muodostuu taulukko, jonka läpi voidaan määrittää optimaalinen
polku dynaamisella optimoinnilla. Tässä optimaalisin ratkaisu antaa rakenteen vapaan energian määräksi 7,1.
Jos sekundäärirakenteessa olisi lisäksi esimerkiksi viiden nukleotidin mittainen pullistuma (4 kcal/mol), tulisi sekundäärirakenteen lopulliseksi vapaan energian määräksi -3,1. Kaikkien sekundäärirakenteeseen kuuluvien rakenteiden vapaan energian määrät siis lasketaan yhteen aivan kuten kokonaisrinnastusta muodostettaessa (kaikki emäkset käydään läpi), ja näiden summana muodostuu koko
rakenteen vapaan energian määrä. Tarkoituksena on saada tulokseksi mahdollisimman pieni lukuarvo (siis mahdollisimman negatiivinen), ja parhaan tuloksen löytäminen onnistuu varmasti dynaamista optimointia käyttäen.
Yllä kuvatussa minienergiaperiaatteessa on se ongelma, että se löytää vain yhden ainoan mahdollisen laskostumisrakenteen (Kuva 28.3). Niinpä nykyisin kenties
käytetyimmässä minimienergiaperiaatetta soveltavassa ohjelmassa MFOLD:ssa menetelmää onkin modifioitu siten, että sen avulla voidaan löytää useampia, mahdollisesti suboptimaalisia laskostumisrakenteita. Miksi sitten suboptimaalisia rakenteita
kannattaa tarkastella? Syynä tähän on, että usein yhden ainoa emäsparin muuttaminen tai niiden sitoutumisen mututuminen voi radikaalisti muuttaa koko laskostumisrakennetta. Tällaisia vaikutuksia voidaan tarkastella oikeastaan vain suboptimaalisia laskostumisrakenteita tutkimalla.
Kuva 28.3: Kuvaa 28.2 ja Kuvaa 28.4 vastaava RNA:n laskostumisrakenne MFOLDohjelmalla laskettuna.
MFOLD-ohjelma tuottaa energiapistematriisin (Kuva 28.4). Sinä pistematriisi
on jaettu kahtia siten, että alapuolisko ilmoittaa parhaan mahdollisen laskostumisrakenteen, ja yläpuoliskoon on eri väreillä merkitty suboptimaaliset laskostumisrakenteet. Ohjelmassa on mahdollisuus valita, kuinka monta tällaista suboptimaalista
rakennetta halutaan tuottaa, tai vaihtoehtoisesti, kuinka kaukana parhaasta rakenteesta ne ovat.
MFOLD ei kuitenkaan laske kaikkia rakenteita, jotka ovat tietyn matkan päässä parhaasta rakenteesta. Jos esimerkiksi kahta neulansilmää yhdistää lyhyt pariutumattomien emästen muodostama rakenne, ei MFOLD palauta sellaisia rakenteita,
28
RNA:n sekundäärirakenteen ennustaminen
305
Kuva 28.4: Esimerkki energiapistematriisista, jonka avulla voidaan hahmottaa suboptimaalisia RNA:n laskostumisrakenteita.
jotka olisivat suboptimaalisia kummankin neulansilmän suhteen. Tällaisten löytämiseksi sovelletaan erästä dynaamisen optimoinnin variaatiota (muunneltu takaisinjäljitys), jonka avulla voidaan löytää kaikki rakenteet, jotka ovat tietyn matkan
päässä parhaasta rakenteesta. Menetelmä on erityisen toimiva, kun pyritään selvittämään siirtäjä-RNA:n laskostumisrakenteita, ja se löytyy Vienna-paketista. Vienna
käyttää sekundäärirakenteen ennustamiseen todennäköisyyspohjaista lähestymistapaa, ja se on laskennallisesti hyvin lähellä dynaamista optimointimenetelmää, jota
MFOLD käyttää.
28.5
Kovariaatiomenetelmä
Kovariaatiomenetelmän ideana on käyttää rakenteen selvittämisessä apuna usean
sekvenssin rinnastusta. Tällä tapaa voidaan useinkin selvittää, ainakin summittaisesti, mitkä alueet kuuluvat erilaisiin silmukkarakenteisiin ja mitkä emäspariutuviin rakenteisiin. Silmukkarakenteisiin kuuluvat sekvenssialueet nimittöin vaihtelevat emäspariutuvia rakenteita enemmän. Kun usean sekvenssin rinnastukseen valitaan sama RNA-molekyyli useilta eri eliöiltä, saadaan usein suhteellisen hyvin
hahmotettua tällaisia molekyylin muuttumista hillitseviä tekijöitä. Kovariaatiome-
306
Bioinformatiikan perusteet
netelmän ideana onkin selvittää, mitkä emäsparit muuttuvat yhtäaikaisesti ja tätä
tietoa käyttäen selvittää, mitkä emäkset valmiiksi laskostuneessa molekyylissä pariutuvat keskenään.
Kovariaatiomenetelmää on sovellettu käytännön tukimuksiin varsin eri tavoin.
Ainakin seuraavia tapoja voidaan käyttää.
• Rinnasta joukko sekvenssejä, ja selvitä konservoituneet alueet. Valitse yksi
sekvenssi, jota vasten kaikkia muita verrataan, ja merkitse rinnastukseen näin
havaitut muutokset. Tarkastele muutoksia visuaalisesti ja pyri hahmottamaan
toisilleen komplementaariset sekvenssialueet, jotka mahdolisesti pariutuvat
keskenään.
• Rinnasta sekvenssit, ja vertaa muita yhteen valitsemaasi sekvenssiin. Vertaa
sellaisiin sarakkeisiin, joissa muutoksia on tapahtunut, havaittujen muutosten
määrä. Etsi sitten rinnastuksesta samanlaisia numerosarjoja, sillä ne saattavat
vastata pariutuvia alueita.
• Laske kullekin rinnastuksen sarakkeelle sen informaatiosisältö, kuten sekvenssilogojen tapauksessa. Piirrä sitten tuloksista logo, ja pyri sitä käyttäen hahmottamaan mahdollisesti toisiinsa pariutuvia alueita.
• Piirrä rinnastuksen perusteella fylogeneettinen puu, ja merkitse havaitut muutokset siihen. Pyri sitten tätä ylimääräistä evolutiivista informaatiota käyttäen
hahmottamaan ne sekvenssikohdat, joissa muutoksia on tapahtunut yhtäaikaisesti.
Esitetyt kovariaatiomenetelmät perustuvat pitkälti sekvenssirinnastusten visuaaliseen tarkasteluun. Tämä voi olla hyvin aikaaviepää, mutta tulokset ovat usein
olleet varsin hyviä. Eddy (1994) esitti formaalin kovariaatiomenetelmää soveltavan algoritmin, mutta se on varsin hidas, vaikka kykeneekin hyvin luotettavasti
tunnistamaan esimerkiksi siirtäjä-RNA:tä vastaavat geenit eliön perimästä. Eddyn
esittämä menetelmä perustuu siihen, että tunnettujen tRNA-molekyylien perusteella muodostettiin hyvin paljon kätkettyä Markovin mallia (HMM) muistuttava sekvenssejä ja niissä tapahtuneita muutoksia kuvaava malli. Tämä malli toimiikin
esimerkiksi minimienergiaperiaatetta paremmin tRNA-molekyylien rakenteen selvittämiseksi (Kuva 28.5. Malli on käytettävissä ohjelmassa tRNAscan-SE. Mallin
huonona puolena on toki, ettei sitä voida yleistää muita RNA-molekyylejä koskevaksi, ellei sitä rakenneta alusta alkaen uudelleen, sillä malli on aina molekyylikohtainen, kuten HMM-mallitkin.
28
RNA:n sekundäärirakenteen ennustaminen
307
Kuva 28.5:
Ohjelmalla tRNAscan-SE tuotettu ennustus ihmisen arginiini-tRNAmolekyylin laskostumisrakenteesta. Koska tRNAscan-ohjelma on optimoitu tRNAmolekyylille, on sen tuottama tulos huomattavasti lähempänä oikeaa kuin minimienergiaperiaatteella tuotettu tulos. Vertaa Kuvaan 28.3.
308
Bioinformatiikan perusteet
29 Geenirakenteen
ennustaminen
29.1
Mitä menetelmiä geenirakenteen ennustamiseen voidaan
käyttää?
Geenirakenteen ennustamisella tarkoitetaan menetelmiä, joilla voidaan löytää geenejä DNA-sekvensseistä tai ennustaa jo tunnettujen geenien rakenne, esimerkiksi
intronien ja eksonien sijainnit. Yksinkertaisin tapa etsiä geenejä tai ylipäänsä avoimia lukukehyksiä DNA-sekvenssistä, on kääntää sekvenssi kaikissa lukuraameissa
aminohapposekvenssiksi. Esitumallisilla eliöillä tämä on yleensä varsin hyvin toimiva ratkaisu, sillä niillä ei ole geeneissään lukuraameja katkovia introneita. Niinpä sekvenssistä löytyvä pisin metioniinilla alkava ja stop-kodoniin päättyvä ORF
onkin jo suhteellisen hyvä arvaus geenin sijainnista. ORF:t, jotka eivät koodaa geeniä, ovat yleensä lyhyitä, sillä stop-kodoneita sattuu sellaisiin suhteellisen taajaan.
Translaatiossa tulee tietenkin käyttää eliöryhmälle soveltuvaa translaatiotaulukko,
sillä eri eliöiden kodoni-aminohappo vastaavuudessa on pieniä eroja. Väärän taulukon käyttäminen voi johtaa vääriin johtopäätöksiin. Aitotumallisilla sekvenssin
yksinkertainen kääntäminen aminohapposekvenssiksi ei tuota luotettavaa tulosta,
sillä aitotumallisten geeneissä eksoneita pilkkovat intronit, jotka vaikeuttavat oikeiden lukuraamien hahmottamista. Aitotumallisten geenien ennustamiseen onkin
kehitetty muunlaisia menetelmiä, jotka perustuvat pitkälti erilaisiin HMM- ja neuroverkkomalleihin geenien koostumuksesta ja rakenteesta. Seuraavassa esitellään
muutamia eri menetelmiä pääpiirteissään.
29.2
Translaatio ja validointi
Proteiineja koodaavat DNA-sekvenssit eivät ole satunnaisia nukleotidijaksoja, vaan
pikemminkin suhteellisen säännöllisiä peräkkäisistä kodoneista koostuvia sarjoja.
Kaikkia samaa aminohappo tarkoittavia kodoneita ei suinkaan käytetä geeneissä
yhtäläisellä taajuudella, mikä helpottaa koodaavan alueen hahmottamista. Sitä, millä taajuudelle kutakin kodonia geeneissä käytetään, kutsutaan kodoniharhaksi (codon bias), ja on usein hyvinkin lajispesifinen. Myös eri tavoin ekspressoidut geenit
voivat poiketa toisistaan. Tiedetään, että esimerkiki kolibakteerilla voimakkaasti ilmentyvissä geeneissä käytetyt kodonit eroavat taajuudeltaan alhaisesti ilmentyvistä
geeneistä. Kodoniharha johtunee pääosin geenien translaationopeuden optimointiin
liittyvästä evolutiivisesta valinnasta: organismeilla, joilla on korkea genomin GCpitoisuus on myös hyvin paljon CG-nukleotideja kodonien kolmansissa positioissa.
Kodoniharhan avulla voidaan yrittää löytää geenialue tuntemattomasta sekvenssistä, tai tehokkaammassa analyysissä, pyrkiä päättelemään, voisiko yksinkertaisella translaatiolla tunnistetty ORF olla oikeastikin transloituvaa aluetta. Avoin lukuraami voidaan pyrkiä validoimaan useilla menetelmillä, joista yksinkertaisin on
BLAST-haku tietokannoista. Jos haulla löydetään translaatiotuotetta muistuttavia
29
Geenirakenteen ennustaminen
309
aminohapposekvenssejä edes tutkittavan lajin kaukaisista sukulaisista, on ennustetulla avoimella lukuraamilla jo huomattavasti enemmän tukea. BLAST-haun lisäksi on kehitetty myös formaalimpia testejä lukuraamin validoimiseksi. Näistä esitellään seuraavassa kaksi.
29.2.1 Fickettin menetelmä
Ensimmäinen testi nojaa siihen havaintoon, että transloituvilla alueilla kodonien
kolmansissa positioissa olevat nukleotidit pyrkivät olemaan keskenään huomattavasti useammin samanlaiset kuin pelkän sattuman perusteella voitaisiin olettaa. Toisin sanoen, samanlaiset nukleotidit pyrkivät sijoittumaan kodoneissa samoihin positioihin. Tämä on seurausta kodoniharhasta, ja havainto pitää paikkansa lajista ja
geenistä riippumatta. Niinpä testin suorittamiseen ei tarvita tietoa tutkittavan organismin kodoniharhasta, vaan voidaan tarkastella yksinomaan nukleotidifrekvenssejä (Fickett, 1982).
Fickettin testi toimii seuraavasti. Sekvenssi jaetaan kodonin mittaisiin pätkiin
siten, että
A1 = A − nukleoti di en määr ä sekvenssi kohdi ssa 1, 4, 7, 10...
A2 = A − nukleoti di en määr ä sekvenssi kohdi ssa 2, 5, 8, 11...
A3 = A − nukleoti di en määr ä sekvenssi kohdi ssa 3, 6, 9, 12...
Näin laskettujen nukleotidimäärien perusteella muodostetaan rikastumisparametri, joka kuvaa adeniinien rikastumista tiettyihin sekvenssikohtiin muiden kustannuksella:
A P = max(A1,A2,A3)
min(A1,A2,A3)
Sama nukleotidien laskenta ja rikastumisparamterin määrittäminen tehdään jokaiselle nukleotidille. Lisäksi testissä käytetään tietoa kunkin nukleotidin runsaudesta koko sekvenssissä, siis nukleotidifrekvenssejä.
Fickett määritteli todennäköisyyden, että tutkittava sekvenssialue tulee koodaavasta tai ei-koodaavasta alueesta käyttäen koko silloin tunnettua sekvenssitietokantaa, joka kattoi vajaa 400 kb. Todennäköisyysarviot löytyvät artikkelista (Fickett, 1982).
Todennäköisyysarvioita tarkastelemalla selviää, että T:n rikastumisparametri
kertoo huomattavasti enemmän siitä, onko alue koodaava vai ei kuin A:n rikastumisparametri. Niinpä jokaiselle parametrille annettiin painoarvot sen mukaan kuinka hyvin ne yksinään ennustivat koodaavuutta.
Fickettin kuvaama TESTCODE-testi tehdään siis seuraavasti. Tutkittavan sekvenssin päällä liutetaan 200 bp:n mittaista ikkunaa yleensä kolme nukleotidia kerrallaan, ja ikkunan sisällä lasketaan kullekin nukleotidille rikastumisparametri ja
nukleotidifrekvenssi. Kullekin näin saaduista parametreista ja frekvensseistä luetaan taulukoista todennäköisyys, että ikkunan muodostama alue on koodaavaa aluetta. Todennäköisyyksiä on yhteensä kahdeksan ( p1... p8). Kullekin todennäköisyydelle luetaan taulukosta myös sitä vastaava painoarvo (w1...w8). Testisuure muodostetaan kaavalla:
T E ST C O D E = p1 ∗ w1 + p2 ∗ w2... p8 ∗ w8
Korkea testisuureen arvo viittaa siihen, että tutkittu alue on koodaava. Alhainen testisuureen arvo (<0.30) puolestaan viittaa ei-koodaavaan alueeseen.
TESTCODE näyttää olevan suhteellisen robusti, ja tuottaa väärän ennustuksen noin 5% tapauksista, kun analyysissä käyteyn ikkunan pituus on 200 emäsparia. Testi löytyy esimerkiksi EMBOSS-ohjelmistopaketin ohjelmasta tcode. Kuvassa 29.1 on esitetty tcode-ohjelman tuottama tulos.
310
Bioinformatiikan perusteet
Kuva 29.1: TESTCODE-testin toiminta tunnetulla lähetti-RNA molekyylillä. Testisuureen ylittäessä 0,95 on sekvenssialue varmasti koodaavaa, ja välillä 0,74-0,95 tätä ei voida varmasti sanoa. Niinpä suurin osa tässä esitetystä sekvenssistä sijoittuu epävarmalle
alueelle. Tiedetään kuitenkin, että koodaava alue sijoittuu välille 444-2524. Esimerkki hahmottaa hyvin ennustaviin menetelmiin sisältyvää epävarmuutta, jonka kanssa on elettävä.
TESTCODE kuitenkin vahvistaa epäilystä, että sekvenssi on koodaava, vaikkei annakaan
yksiselitteistä tulosta.
29.2.2 Kodoniharhaan perustuva testi
Kodoniharhaan perustuva testi (Gribskov, 1984) perustuu havaintoon, että tiettyjä
kodoneja käytetään geeneissä toisia useammin. Eliöille voidaan muodostaa kodonikäytöstä kertova kodonikäyttötaulukko, jossa kunkin kodonin yleisyys transloituvilla alueilla on määritetty. Jos tutkittavalla alueella näyttäisi olevan samansuuntainen kodoniharha kuin geeneissä, voidaan sanoa, että alue on todennäköisesti transloituva. Kodoniharhatesti toimii pääpiirteissään seuraavasti.
Kodonikäyttötaulukosta voidaan suoraan lukea yhden kodonin frekvenssi ( f abc )
transloituvilla alueilla. Taulukon avulla voidaan myös määritella kaikkien synonyymisten eli samaan aminohappo koodaavien kodonien frekvenssi. Tämä on yksinkertaisesti yksittäisten kodonien frekvenssien summa (Fabc ).
Tutkittavan sekvenssin kunkin nukleotidin frekvenssit voidaan määrittää helposti, ja niiden avulla voidaan määrätä sekvenssin todennäköinen kodonikoostumuskin. Jos merkitään N i :llä tietyn nukleotidin frekvenssiä sekvenssissä, voidaan
kunkin kodonin frekvenssi laskea kaavalla r abc = Na ∗ Nb ∗ Nc/N 3 . Samaa aminohappoa koodaavien kodonien frekvenssiä tutkittavassa sekvenssissä merkitään
Rabc :llä.
Kodoninkäyttöä kuvaava parametri voidaan nyt laskea kaavalla:
p=
f abc /Fabc
rabc /Rabc
Parametri p voidaan tulkita uskottavuusosamääräksi, joka kertoo kuinka to-
29
Geenirakenteen ennustaminen
311
dennäköistä on, että tutkittava alue on koodaavaa sekvenssiä. Käytännössä tutkimus suoritetaan liukuvan ikkunan menetelmällä, jossa tutkittavan sekvenssin yli
liutetaan 25 bp:n (sekvenssi < 5000 bp pitkä) tai 50 bp:n (sekvenssi >5000 bp pitkä) mittaista ikkunaa kolmen nukleotidin hypääyksin. Kullekin ikkunalle lasketaan
ikkunan pituudella korjattu uskottavuusosamäärä:
P=(
w
1
pi ) w ,
i=0
jossa pi on kunkin kodonin käyttöä kuvaava parametri, ja w on ikkunan pituus.
Näin saadut arvot sijoitetaan kuvaajaan sekvenssikohdan funktiona (Kuva 29.2).
Menetelmä on saatavilla esimerkiksi EMBOSS-ohjelmassa syco. Menetelmässä on
erityisen tärkeää käyttää oikeaa, tutkittavalle lajille soveltuvaa kodoninkäyttötaulukkoa. Muutoin tulokset ovat merkityksettömiä tai geenialueen ennustus useimmiten ainakin pahasti pielessä.
Kuva 29.2: Kodoninkäyttöä kuvaava viivakaavio, jossa sekvenssi on esitetty kolmessa
eri lukuraamissa. Kodoninkäytön perusteella näyttää siltä, että geeni alkaa noin sekvenssikohdasta 140 (toinen lukuraami) ja jatkuu aina sekvenssin loppuun. Näillä alueilla uskottavuusosamäärän arvo on suurempi kuin 1 eli ne todennäköisesti ovat koodaavia alueita.
Alueet, joilla uskottavuusosamäärä on alle 1, ovat todennäköisesti ei koodaavia.
29.3
DNA:ta jäsentävien alueiden paikantaminen
Eukaryooteilla DNA sitoutuu histoni-proteiineihin ja muodostaa nukleosomeiksi
kutsuttuja rakenteita. Nukleosomirakenne on luultavasti tärkeä geenisäätelyn kannalta, sillä DNA:n sitoutuminen histoneihin voi estää joitakin säätelytekijöistä sitoutumasta ja siten vaikuttaa geenin ilmentymiseen. Yhden histonin ympärille kääriytyy noin 200 emäsparia DNA:ta, ja sitoutumiseen osallistuvien alueiden täytyy sijaita DNA:ssa "samaan suuntaan"siis aina DNA-kaksoiskierteen vaon samalla
312
Bioinformatiikan perusteet
puolella. Genomisesta DNA:sta on löydetty toistuvia alueita, joiden epäillään liittyvän nukleosomirakenteiden muodostukseen. Nämä alueet näyttävät korreloivan
tunnetun nukleosomirakenteen kanssa eikä niitä löydy esitumallisilta, joilla DNA ei
muodosta nukleosomirakenteita. Baldi (1996) on muodostanut HMM-mallin, jolla nukleosomiin sitouvia alueita voidaan ennustaa. Malli perustuu tällaisten alueiden periodisuuteen: Sitoutuvat alueet esiintyvät 10 nukleotidin välein, sillä yhdessä
kaksoinkierteen pyörähdyksessä on kymmenen nukleotidia. Periodisuus tulee siitä,
että sitoutumisalueiden tulee olla aina samalla puolella DNA-molekyyliä, siis kymmenen nukleotidin välein.
Myös matrix attachment regions (MARs) -alueita on mahdollista ennustaa.
MARs-alueet sijaitsevat usein geenien tai geeniryppäiden ylä- ja alapuolella, ja niiden ajatellaan järjestävän DNA:n suuremmiksi laskoksiksi. MARs-alueiden ajatellaan säätelevän geenien ilmentymistä siten, että niiden avulla tietyt DNA:n osat
voidaan sijoittaa tumassa alueille, joilla geenejä transkriboidaan tai niitä käyttäen
geenit voidaan myös sijoittaa tuman inaktiivisille alueille. Ne saattavat myös estää esimerkiksi geenejä aktivoivien transkriptiotekijöiden vaikutuksen välittymisen
kohdegeeniä kauemmas. MARs-alueilta on tunnistettu MAR recognition signature
(MRS), joka ei ole yhtenäinen sekvenssihahmo, vaan se koostuu kahdesta toisistaan alle 200 bp:n etäisyydellä olevista sekvenssihahmoista, ja ne voivat mennä
myös keskenään päällekkäin. Tähän mennessä tunnistetut hahmot ovat AATAAYAA ja AWWRTAANNWWGNNNC. Kaikilla MARs-alueilla ei kuitenkaan näytä
olevan mainittuja sekvenssihahmoja, ja niiden avulla voidaankin ennustaa oikein
korkeitaan noin 80% MARs-alueista. Onkin luultavaa, että osassa MARs-alueista
on vielä tunnistamattomia sekvenssihahmoja. MARs-alueiden tunnistamisesta on
se hyöty, että jos sekvenssistä sellaisia löytyy, ne välttämättä leimaavat sekvenssialueen ekspressoiduksi. Alueita voidaan ennustaa esimerkiksi EMBOSS-paketin
ohjelmalla marscan.
29.4
Esitumallisten geenien ennustaminen
Esitumallisilla geenien ennustaminen on aitotumallisia helpompaa, sillä esitumallisten geeneissä on tiettyjä hyvin konservoituneita alueita, jotka helpottavat tunnistamista. Tällaisia alueita ovat esimerkiksi RNA-polymeraasin sitovat alueet (TTGACA ja TATAAT), kuten TATA-box, joka sijaitsee noin 35 nukleotidia ylävirtaan
transkription aloituskohdasta, ja ribosomin sitoutumiskohta (GGAGG), joka merkkaa translaation aloituskohtaa. Lisäksi geenit yleensä alkavat metioniinia vastaavalla kodonilla (ATG), päättyvät stop-kodoniin (esimerkiksi TAA) ja niistä puuttuvat
intronit.
Esitumallisten geenien ennustamiseen käytetään useinmiten erilaisia HMMmalleja, jotka on kalibroitu tiettyä bakteeria tai bakteerijoukkoa ajatellen. HMMmalliin sisältyy ajatus, että geeni alkaa aina ATG-kodonilla, jatkuu n:llä kappaleella muita kodoneita (61 mahdollisuutta), ja päättyy aina lopetuskodoniin. Siten mallissa voidaan edetä aloituskodonista muihin kodoneihin, muttei muista kodoneista
takaisin aloituskodoniin. Samaten muista kodoneista on mahdollisuus edetä vain
muihin kodoneihin tai lopetuskodoniin. Näin määritellyn mallin parametrit arvioidaan tunnetusta geenijoukosta, ja luodulla ladatulla mallilla voidaan sitten ennustaa tuntemattomissa sekvensseissä sijaitsevia mahdollisia geenialueita. Seuraavassa
on lyhyesti kuvattu, kuinka muiden kuin aloitus- ja lopetuskodonien ennustaminen
HMM-mallilla tapahtuu.
Kuvassa 29.3 on esimerkki erään HMM-mallin käyttämästä kodonintunnistusvaiheesta. Kutakin kodonia voidaan kuvata yhdellä tällaisella kodonimallilla, ja
kuvassa on esitetty metioniinia (ATG) kuvaava kodonimalli. Malli koostuu kolmenlaisista palikoista: osuma (neliö), insertio (vinoneliö) ja deleetio (ympyrä). Kutakin
kodonia kohden muodostetaan vastaavanlainen malli. Insertioita ja deleetioita tarvitaan mallissa siksi, että useinmiten mallin lataamiseen käytetyssä datassa joissa-
29
Geenirakenteen ennustaminen
313
kin kohdin on insertioita tai deleetioita, ja näiden tapahtuminen pitäminen mallissa
mahdollistaa myös niiden ottamisen huomioon geeniä ennustettaessa. Jos mallin
lataamiseen käytetyssä datassa ei koskaan esiintyisi insertioita tai deleetioita, voitaisiin ne jättää myös pois. Kullakin osumaa merkitsevällä kohdalla on tietty todennäköisyys edustaa A:ta, C:tä, G:tä tai T:tä. Tässä mallissa kussakin positiossa voi
esiintyä vain yhtä tiettyä nukleotidia. Nuolet merkitsevät mihin suuntaan kodonimallissa voidaan edetä.
Kuva 29.3:
kodoni.
Esimerkki siitä, miten kolmannen asteen HMM-mallissa esitetään kukin
Yllä esitelty malli on kolmannen asteen HMM-malli, sillä siinä otetaan huomioon vain yksi kodoni, jonka pituus on kolme nukleotidia (siitä siis nimi kolmannen asteen malli). On kuitenkin havaittu, että peräkkäisten kodonien välillä
on korrelaatiota sen suhteen, mitä kodonia kulloinkin käytetään. Siksi useimmiten otetaankin huomioon myös ennustettavaa kodonia edeltävä kodoni, ja tällaista mallia kutsutaan viidennen asteen HMM-malliksi. Viidennen asteen malleissa
käytetään siis tavallaan sananpituutta viisi koodaavien ja ei-koodaavien aluieiden
erottamiseen. Esimerkiksi GeneMark-ennustusohjelma käyttää tällaista viidennen
asteen mallia laatiessaan ennusteita (Lukashin, 1998). Ongelmana viidennen asteen
malleissa on, että sekä mallin lataamiseen käytetyissä sekvensseissä että tuttemattomissa sekvensseissä tulee olla riittävästi edustusta kustakin erilaisesta heksameeristä. Ongelmaa on pyritty ratkomaan esimerkiksi ohjelmassa Glimmer käyttämällä
sellaista pituutta, joka vielä takaa riittävän edustuksen. Jos esimerkiksi tetrameerejä löytyy sekvensseistä riittävästi, muttai ainoastaan muutamia heksameerejä, käytetään pääsääntöisesti mallissa tetrameerejä, mutta silloin kun se on mahdollista,
preferoiden heksameerejä. Menetelmää kutsutaan interpolated Markov model:ksi
(IMM). Yleisesti ottaen mallien tarkkuus paranee, mitä pidempiä malleja käytetään, mutta käytännössä tästä joudutaan yleensä tinkimään lyhyempien mallien hyväksi aineiston rajoitusten vuoksi (Salzberg, 1998).
HMM- ja IMM-mallein on mahdollista ennustaa bakteerigeenien sijainti bakteerigenomeisa suhteellisen luotettavasti, olettaen että mallien lataamiseen käytetty
aineisto on itsessään luotettavaa. Mainittuja menetelmiä käyttäen on mahdollista
ennustaa noin 65-80% geeneistä oikein.
314
29.5
Bioinformatiikan perusteet
Aitotumallisten geenien ennustaminen
Aitotumallisten geenirakenteen selvittäminen on vaikeampi ongelma kuin esitumallisten geenien ennustaminen: Aitotumallisten geeneissä on introneita, jotka pätkivät koodaavaan alueen toisinaan hyvinkin lyhyiksi epäyhtenäisiksi paloiksi, eivätkä introni-eksoni-rajapinnat määräävät sekvenssihahmot ole kovin konservoituneita. Yleensä geenin paikallistaminen tuntemattomassa sekvenssissä nojaakin eksonien tunnistamiseen esimerkiksi niiden introneista poikkevan kodonikäytön perusteella, eksoni-introni-rajapintojen eli RNA:n silmukointikohtien tunnistamiseen
ja geenin promoottorialueen selvittämiseen. Neuroverkot soveltuvat hyvin käytettäväksi aitotumallisten geenien tunnistamiseen, sillä ne ovat herkkiä menetelmiä, ja
pystyvät siten havaitsemaan sekvensseistä hyvin heikkojakin signaaleja (sekvenssihahmoja, jotka ovat heikosti konservoituneita). Menetelmät käyttävät hyväkseen
tietoa heksameerien (6 bp:n mittaisten pätkien) jakaumasta tunnettujen geenien eksoneihin ja introneihin, ja pyrkivät sen perusteella ennustamaan mitkä alueet kuuluvat introneihin, mitkä eksoneihin. Lisäksi käytetään hyväksi tietoa muun muassa alueen ja sitä ympäröivän genomin GC%:sta. Jos ennustetusta geenistä löytyy
useampia aloituskodoneita, valitaan "oikeaksi"aloituskodoniksi se, joka on lähinnä
ensimmäisen eksonin 5´-päätä. Tämä ei biologisesti aina pidä paikkaansa, sillä erityisesti geenien ensimmäissä eksoneissa esiintyy runsaasti vaihtelee silmukointia,
mutta asiaa ei voida bioinformatiikan menetelmin ennustaa sen tarkemmin, ellei
käytössä ole esimerkiksi geeniä vastaavai mRNA- tai EST-sekvenssejä joko samasta lajista tai ainakin hyvin lähisukuisista lajeista.
Yksinkertainen neuroverkko (Kuva 29.4) koostuu kolmesta kerroksesta, syötekerroksesta, piilokerroksesta ja tuloskerroksesta. Neuroverkoissa on ideana tuottaa
verkko, joka sopivalle syötteellä opetettuna osaa tuottaa tuntemattomille syötteille ennusteen. Ideaa sovelletaan seuraavassa geenien ennustamiseen, mutta samaa
periaatetta käytetään monissa muissakin yhteyksissä. Neuroverkkosovelluksille on
kuitenkin yhteistä, että ohjelma annetaan syöte (syötekerros), minkä jälkeen piilokerroksessa muodostetaan näiden syötteiden välille tietynlaisia päätössääntöjä.
Päätössääntöjen keskinäistä merkittävyyttä painotetaan opetukseen käytettävän aineiston perusteella, ja tuloksena on ennustaja, joka ossa tuottaa uudelle aineistolle
ennusteen. Periaatetta sovelletaan geenien ennustamiseen esimerkiksi ohjelmissa
Grail (nykyisin GrailEXP) ja GeneParser. Ohjelmille syötetään jokin tuntematon
sekvenssi, ja ne ennustavat muun muassa eksonien sijainnit. Kullekin tietyn ikkunan mittaiselle sekvenssille lasketaan ennalta opetettua neuroverkkoa käyttäen todennäköisyys, että se kuuluu koodaavaan alueeseen. Lisäksi neuroverkkomenetelmissä voidaan soveltaa myös dynaamista optimointi siten, että pyritään löytämään
paras sellainen geenirakenne (edellä laskettuja todennäköisyyksiä käyttäen), jossa
eksonit ja intronit vuorottelevat.
Neuroverkkomenetelmät eivät ole ainoita aitotumallisten geenien ennustamiseen käytettyjä menetelmiä, mutta suhteellisesti parhaiten toimivia. Esimerkiksi ohjelmat HEXON ja FGENES käyttävät menetelmää, jossa tunnetuille eksoneille ja
introneille lasketaan niiden kodoniharha heksanukleotideja käyttäen. Ennustettaessa tuntemattoman sekvenssien eksoneja, kullekin tietyn ikkunan mittaiselle DNApätkälle lasketaan kodoniharha-arvot, ja ne sijoitetaan samaan kuvaajaan tunnetuista introneista ja eksoneista laskettujen kanssa. Jos tuntematon sekvenssi sijoittu
selvästi joko intronien tai eksonien joukkoon, voidaan sen suurella todennäköisyydellä sanoa olevan jompaa kumpaa, riippuen siitä, kumpien joukkoon se sijoittui.
Introni- ja eksonijoukkojen erotteluun voidaan käyttää esimerkiksi tilastotieteestä
tuttua lineaarista erotteluanalyysiä (Solovyev, 1994).
29
Geenirakenteen ennustaminen
315
Kuva 29.4: Neuroverkkosovelluksen periaate. Neuroverkko koostuu syöte-, (mustat pallot) piilo-, (harmaat pallot) ja tuloskerroksista (laatikko). Neuroverkolle annetaan syöte,
kuten geenisekvessin GC% ym., joka piilokerroksessa analysoidaan päätössääntöjen muodostamiseksi. Kun opetettua neuroverkkoa käytetään ennustusten tekemiseen tuntamttomille sekvensseille, ne antavat tulokseksi ennusteen geenin rakenteesta (nuoli).
29.6
Ennustusmenetelmien tarkkuus
Eri geeniennustusmenetelmien keskinäisen paremmuuden selvittäminen ei ole järin helppoa, sillä monilla ohjelmilla on esimerkiksi lajikohtaisia vahvuusalueita, ja
kokonaiskuvan hahmottaminen voi olla vaikeaa. Esimerkiksi Rogic (2001) selvitti eri ohjelmien toimivuutta nisäkkäiden sekvensseillä, ja havaitsi, että perinteisesti
erittäin hyväksi ennustajaksi koettu Genscan (yhdistelee eri lähestymistapoja) häviää toisinaan HMMgene:lle (käyttää erityisesti geenien ennustamiseen optimoituja HMM-malleja). Erityisesti sekvenssien ollessa erittäin GC-pitoisia, pitkiä tai
useista eksoneista koostuvia, on ero huomattava HMMgenen eduksi. Muista vertailuista yhteenvetona voidaan sanoa, että suurin osa menetelmistä on optimoitu joko
bakteeri- tai nisäkäsgeeneille, ja esimerkiksi kasvien kohdalla ohjelmatarjonta on
huomattavasti vähäisempää.
316
Bioinformatiikan perusteet
30 Vertaileva genomiikka
30.1
Mitä on vertaileva genomiikka?
Vertailevalla genomiikalla tarkoitetaan menetelmiä, joilla eliöiden genomeja vertaillaan toisiinsa sekä geenisisällön että geenien lukumäärän ja sijainnin suhteen.
Vertaileva genomiikka perustuu pitkälti kokonaisten genomien vertailuun keskenään, mutta samoja menetelmiä voidaan soveltaa myös vaillinaisillakin genomeilla,
esimerkiksi kokonaisia kromosomeja käyttäen. Tehokkaimmillaan vertaileva genomiikka kuitenkin on, jos vertaillaan eliöiden kokonaisia genomeja. Tällöin eri eliöiden kokonaisten geenistöjen tai proteomien (eliön koko proteiinisisältö) vertailun
avulla voidaan etsiä esimerkiksi keskenään ortologisia geenejä. Koska genomin olleessa tunnettu, tiedetään kaikkien geenien sijainti kromosomistossa, ja eri eliöistä
voidaan etsiä alueita, jotka ovat kaikissa eliöissä konservoituneita tai joilla geenit
sijaitsevat samassa järjestyksessä. Tällaisilla alueilla on usein yhteinen evoluutiohistoria.
Vertailevan genomiikan keinoin on mahdollista tutkia ja ymmärtää kokonaisten genomien, mutta toisaalta myös yksittäisten geenien tai proteiinien evoluutiota
huomattavasti tarkemmin kuin käyttäen perinteisiä kahden välisiä vertailuja. Geenit
koostuvat introneista ja eksoneista, ja evoluution kuluessa geenirakenne voi muuttua, sillä geenistä saattaa hävitä introneita ja eksoneita tai niitä voi tulla lisää. Tämä
voi puolestaa heijastua myös proteiinirakenteeseen. Proteiinithan koostuvat dommeeneista, toiminnallisista alayksiköistä, ja niitä voi tulla lisää tai hävita saman
perheen proteiineista evoluution aikana. Myös geeniduplikaatiot (geenien kopioituminen) tuottavat uusia geenejä ja uusia toiminnallisia ratkaisuja. Tällaisten duplikaatioiden jäljittäminen myös laajemmalti on erittäin mielenkiintoista, sillä siten
saadaan usein varsin yksityiskohtaista tietoa genomien evoluutiosta.
Eri evolutiivisten etäisyyksien päässä toisistaan olevien genomien vertaaminen vastaa erilaisiin kysymyksiin. Jos tutkitaan hyvin läheisten lajien genomeja,
voidaan etsiä esimerkiksi geenejä, jotka erottelevat lajeja, tai jotka tuottavat eliölle
joitakin lajikohtaisia ominaisuuksia, jotka erottelevat sen muista tutkittavista lajeista. Jos tutkitaan keskimääräisellä etäisyydellä toisistaan olevia genomeja, voidaan
etsiä esimerkiksi sellaisia genomin alueita, joihin näyttää evoluutiossa kohdistuvan suuntaavaa valintaa, siis sellaisia alueita, jotka ovat todennäköisesti eliön toiminnalle keskeisiä. Konservoituneilla alueilla sijaitsee kuitenkin usein funktionaalisen DNA:n lisäksi myös DNA:ta, jolla ei näytä olevan mitään erityistä funktiota. Tutkittaessa hyvin kaukana toisistaan olevia genomeja, voidaan lähinnä pyrkiä
hahmottamaan esimerkiksi mitkä geenit ovat yhteisiä kaikille monisoluisille eläimille tai ovat ylipäätään välttämättömiä itsenäiselle elämälle. Läheisiksi lajeiksi
katsotaan tässä sellaiset, joita erottaa korkeintaan muutaman kymmenen miljoonaa
vuotta, keskipitkällä etäisyydellä tarkoitetaan joitakin kymmeniä, kenties joitakin
satoja miljoonia vuosia, ja pitkällä etäisyydellä satoja miljoonia vuosia. Esimerkiksi ihmisen ja ihmisen vertailu sijoittuu lyhyelle etäisyydelle (5 miljoonaa vuotta),
ihmisen ja hiiren (75-80 miljoonaa vuotta) tai ihmisen ja kanan (300 miljoonaa
vuotta) keskipitkälle etäisyydelle ja ihmisen ja kalan vertailu pitkälle etäisyydelle
(400 miljoonaa vuotta).
30
Vertaileva genomiikka
317
Vertaileva genomiikka perustuu siis pitkälti eri eliöiden sekvenssien vertailuun. Sekvenssien vertailu tapahtuu käyttäen jo aiemmin kuvattuja menetelmiä, kuten BLAST-haut ja usean sekvenssin rinnastukset. Vertailevaan genomiikkaan tarkoitetut ohjelmistot ovat kuitenkin usein alkuperäisversioitaan viritellympiä, sillä
miljoonien nukleotidien rinnastaminen keskenään vaatii hieman erilaisia menetelmiä kuin esimerkiksi sekvenssihaut. Esimerkiksi BLAST-ohjelmiston vertailevaan
genomiikka tarkoitetu versio MegaBLAST tarjoaa mahdollisuuden hyvin pitkien
sekvenssien rinnastamiseen muun muassa siksi, että sen vertailussa käyttämä sanapituus on hyvin pitkä (>30 bp). Tällaiset ratkaisut tekevät vertailun mahdolliseksi,
mutta toisaalta ne toimivat vain varsin samankaltaisille sekvensseille. Seuraavassa
esitellään muutamia vertailevan genomiikan sovelluksia, jotka perustuvat pitkälti
sekvenssivertailuihin.
30.2
DNA-sekvenssin konservoituminen
30.2.1 Geenirakenteen säilyminen
Vertailevan genomiikan työkaluin voidaan selvittää, mikä toiminnallisessa geenissä on erityisen oleellista tai mitkä alueet lähisukuisilla lajeilla ovat konservoituneet.
Konservoituneilla alueilla on usein jokin toiminnallinen merkitys, ja niinpä niiden selvittäminen on geenin tarkemman tuntemisen kannalta oleellista. Promoottorianalyysin yhteydessä käsiteltiin transkriptiofaktoreiden mahdollisten sitoutumispaikkojen kartoittamista fylogeneettistä jalanjälkianalyysiä käyttäen. Geenirakenteen säilymisen selvittämisessä on tismalleen sama idea: pyritään selvittämään geenin toiminnalle oleelliset rakenteet lajien välistä vertailua käyttäen.
Geenirakenteen selvittämisessä genomitietokannat, kuten Ensembl ja UCSC
ovat ensiluokkaisia työkaluja. Myös tarkoitukseen eriyisesti suunnilteltu palvelu
Vista (http://genome.lbl.gov/vista/) tarjoaa hyödyllisiä mahdollisuuksia. Vistapalveluun on sijoitettu suuri määrä valmiiksi laskettuja vertailuja eri lajien välillä,
mutta Vistaa käyttäen voi analysoida myös omia sekvenssejään. Kuvassa 30.1 on
esitetty Vista-palvelun käyttöliittymä.
Vista-palvelua on käytetty myös ENCODE-projektissa, jossa tarkoituksena on
luoda tietämystä eläinten geenien ja genomien evoluutiosta. Projekti toimii varsinaisesti USCS:n kanssa yhteistyössä, ja tulosten selaaminen on mahdollista myös
USCS:n genomitietokannasta käsin. ENCODE-projekti on muun muassa selvittänyt CFTR-geenin evoluutiota (Blanchette, 2004). CFTR-geeni koodittaa kloridikanavaa, ja geenissa tapahtunut virhe aiheuttaa vakavan perinnöllisen sairauden,
kystisen fibroosin. Lääketieteellisen mielenkiinnon vuoksi geenin kohdistuu myös
suurta akatemista mielenkiintoa, sillä geeni on valtavan suuri, jopa tavanomaisten
geenien mittapuun mukaan, ja koostuu kymmenistä yksittäisistä eksoneista (Kuva 30.2), joten geenin evoluution mallittaminen oli varmasti haastava ja mielenkiintoinen ongelma. Tutkimuksen tarkoituksena oli myös laajentaa paleogenomiikan (varhaisten eliöiden genomien tutkimusta nykyeliöiden genomeiden pohjalta)
näkökulmaa, sillä suurin osa paleogenomiikan tutkimuksesta oli keskittynyt selvittämään geenien järjestyksen perusteella eliöiden genomien muutoksia ja niiden
evoluutiota.
Vista käyttää omia algoritmejaan (AVID: Bray, 2003; LAGAN ja MLAGAN:
Brudno, 2003) sekvenssien rinnastukseen. Molemmat rinnastusmenetelmät on optimoitu erityisesti pitkien sekvenssien rinnastukseen. Sekä AVID- että LAGANmenetelmät on tarkoitettu kahden sekvenssin kokonaisrinnastuksen muodostamiseen. MLAGAN on LAGAN-menetelmän laajennus useammille sekvensseille. Kaikissa kolmessa menetelmässä ennen varsinaisen kokonaisrinnastuksen muodostamista sekvensseistä etsitään lyhyitä toisilleen hyvin samankaltaisia ankkurikohtia, jotka rinnastetaan. Esimerkiksi, jos rinnastettaisiin kokonaisia kromosomeja,
voisivat kromosomin päissä sijaitsevat telomeerit ja keskellä sijaitseva sentromeeri
318
Bioinformatiikan perusteet
Kuva 30.1: Esimerkki Vista-palvelun käyttöliittymästä. Kuvassa on esitetty metyleenitetrahydroksifolaattireduktaasi -entsyymin geenin rakenteen konservoituminen evoluutiossa
sammakosta ja kanasta ihmiseen. Punaisella väritetyt alueet vastaavat konservoituneita eikoodaavia alueita, sinisellä merkityt eksoneita. Geenin lukusuunta on merkitty nuolella,
joka kulkee tässä oikealta vasemmalle. Ihmisen ja koiran vertailussa suuri osa geeninalueesta on konservoitunut, ja geenin yläpuolella sijaitsevasta säätelyalueestakin on konservoitunut suhteellisen pitkä alue. Lisäksi likimain intronien keskellä sijaitsevat alueet ovat
jokseenkin konservoituneita, mikä voi kieliä niiden toiminnallisesta merkityksestä. Mitä
kauemmas ihmisestä siirrytään, sitä vähemman konservoituneita alueita on, ja sammakon
ja ihmisen välillä ainoastaan eksonirakenne näyttää konservoituneelta.
toimia ankkurikohtina. Ankkureiden löytymisen jälkeen niiden rinnastusta ei enää
muuteta, ainoastaan ankkurikohtien väliset ja ulkopuoliset alueet rinnastetaan. Kromosomiesimerkissä siis rinnastettaisiin seuraavaksi kromosomin käsivarret. Ankkurikohtien väliset alueet rinnastetaan Needleman-Wunchin dynaamista optimointialgorimia käytäen. MLAGAN-menetelmässä usean sekvenssin rinnastus muodostetaan progressiivista usean sekvenssin rinnastusta käyttäen, mutta siinäkin sovelletaan dynaamista optimointi varsinaisen rinnastuksen tuottamiseen. Rinnastuksen
muodostamisen jälkeen se visualisoidaan Vista-ohjelmistoa käyttäen.
AVID- ja MLAGAN-menetelmät näyttävät toimivan varsin hyvin. Esimerkiksi
pitkiä sekvenssejä rinnastettaessa Clustal selviytyi rinnastuksesta heikommin kuin
MLAGAN (Brudno, 2001). Lisäksi menetelmät ovat tavanomaisia rinnastusmenetelmiä huomattavasti (noin 20-kertaa) nopeampia.
30.2.2 Rakenne-DNA:n säilyminen
Rakenne-DNA:n kuten geenien välisten alueiden, introneiden ja promoottorialueiden konservoitumisen tutkimus on viime vuosina harpannut aimo askeleita eteenpäin useiden monisoluisten eliöiden genomisekvenssien valmistuttua. Rakenne-DNA:n
säilymistä tutkitaan tismalleen samalla tavoin kuin geenirakenteen säilymistäkin,
suurten sekvenssialueiden rinnastusten perusteella. Perusoletuksena on, että sellai-
30
Vertaileva genomiikka
319
Kuva 30.2: CFTR-geenin vertailu 11 lajilla. Ihminen toimi vertailussa verrokkina, ja
kaikki kuvatut konservoitumisasteet on siis esitetty suhteessa ihmisen genomiin. CFTRgeenin eksonirakenne on kaikilla nisäkkäillä varsin konservoitunut, mikä tarkoittanee sitä, että mutaatiot ovat karsiutuneet voimakkaan valintapaineen seurauksena populaatiosta;
geenillä lienee siis tärkeä merkitys nisäkässolujen toiminnalle.
set alueet, jotka ovat evoluutiossa konservoituneet eli säilyneet muuttumattomina,
ovat jollakin tapaa eliölle hyödyllisiä tai sen toiminnalle välttämättömiä.
Usein konservoitunut rakenne-DNA sijoittuu geenien promoottorialueille, mutta konservoituneita alueita tavataan myös geenien välisiltä alueilta. Tällaisilla alueilla voi hyvinkin olla jokin funktio, jota voidaan tarkemmin tutkia sopivilla laboratoriomenetelmillä, mutta saattaa myös olla, että konservoituneen alueen olemassaolo
on silkkaa sattumaa. Esimerkiksi ihmisen genomin eri alueiden evoluutionopeus
vaihtelee alueesta toiseen huomattavasti, ja konservoitunut alue voi vain sattumalta kuulua hyvin hitaasti muuttuvaan genomialueeseen. Ihmisen genomista noin 23%:n arvioidaan vastaavan geenejä, ja noin 5%:n on arvioitu muuttuvan hitaammin
kuin neutraalin valinnan perusteella voitaisiin olettaa. Siis, noin 2-3%:a ihmisen
genomin konservoituneista alueista sijaitsee geenien ulkopuolisilla alueilla. Näiden
toimintaa ei vielä täysin ymmärretä, ja vaikka genomialueella ei laboratoriotutkimuksissa havaittaisikaan mitään funktiota, ei se silti tarkoita sitä, ettei sillä sellaista
olisi. Laboratoriokokeemme vain saattaa mitata jotakin asiaa, johon genomialue ei
vaikuta.
30.2.3 Neutraalievoluution alueiden tunnistaminen
DNA:n konservoitumista tai siinä tapahtuneen evoluution määrää voidaan mitata eri tavoin. Eräs yksinkertaisimmista tavoista hahmottaa DNA:ssa tapahtuneiden
muutosten määriä, on selvittää genomialueella olevien SNP:ien lukumäärä. Kuvassa 30.3 on kuvattu SNP:ien lukumäärä koko kromosomin pituudelta. Kromosomin
sentrosomissa SNP:jä on hyvin vähän, sillä tällaisia alueita on vaikea sekvensoida,
ja niiltä on siten hyvin vähän aineistoa. SNP:ien lukumäärä korreloi kromosomita-
320
Bioinformatiikan perusteet
solla geenien lukumäärän kanssa, joskin korrelaation on heikohko. Ihmisen kromosomi X on tässä tapauksessa poikkeus, sillä siinä tunnettujen geenien lukumäärän
ja SNP:ien lukumäärän välinen korrelaation on suhteellisen voimakas. Esimerkiksi
kromosomiraidoissa q21.31-q21.33 on hyvin vähän geenejä, mutta suhteessa muuhun kromosomiin varsin paljon SNP:jä.
Pelkkien SNP:den lukumäärän selvittäminen ei riitä, sillä yksilöt voivat olla
SNP:ien suhteen joko hetero- tai homotsygoottisia. Yksilöillä voi siis olla molemmissa geenikopioissaan sama SNP-muoto (homotsygotia) tai eri SNP-muoto (heterotsygotia). Suuntaava valinta pyrkii vähentämään yksilöiden heterotsygotia-astetta
(kuinka moni populaation yksilöistä on keskimäärin heterotsygoottinen tutkittavan
SNP:n suhteen), ja negatiivinen valinta puolestaan lisää heterotsygotia-astetta. Ilmiöön vaikuttaa kuitenkin myös rekombinaation määrä tutkittavalla kromosomialueella. Kromosomialueet, joilla tapahtuu hyvin vähän rekombinaatiota, ovat myös
hyvin alhaisia heterotsygotia-asteeltaan. Heterotsygotia-asteen määrittämiseen riittää tutkittavan populaation tuntemus, siis tieto saman lajin eri yksilöistä riittää.
Alueita, joihin kohdistuu selektiota, voidaan etsiä esimerkiksi jotakin sopivaa tilastollista testiä käyttäen. Erään soveltuvan testin on esittänyt Tajima (1989).
Neutraalisti evolvoituvien alueiden tunnistamiseen ja tarkempaan kuvailuun
voidaan käyttää lajien välisiä vertailuja. Tällaisia vertailuja on tehty valmiiksi, ja
niiden perusteella on tiettyä fylogeneettistä-HMM-mallia käyttäen laskettu eri ihmisen genomialueiden konservoitumisaste. Mitä korkeampi on tällä tavoin laskettu
konservoitumisaste, sitä suuremmalla syyllä ko. alueen voidaan olettaa jollakin tapaa toiminnallinen ja siksi hyvin konservoitunut. UCSC:n genomiselaimessa (Kuva 30.4 konservoitumisasteet esitetään genomialuerinnastuksen ohessa. Konservoitumisastetta tarkastelemalla on usein helppo huomata, että se on keskimäärin korkeimmillaan eksoneissa sekä mahdollisesti geenisäätelyyn osallistuvilla promoottorialueilla.
Perinteisesti käytetty menetelmä neutraalisti evolvoituvien sekvenssien tunnistamiseen on synonyymisten (K s )ja ei-synonyymisten (K a ) nukleotidikorvautumisten suhde (K a /K s -suhde). Synonyyminen korvautuminen on sellainen, joka ei aiheuta aminohappomuutosta geeniä vastaavassa aminohapposekvenssissä.
Ei-synonyyminen korvautuminen puolestaan aiheuttaa aminohappokorvautumisen.
Jos geenin kohdistuva evoluutio on neutraalia, on synonyymisten ja ei-synonyymisten
muutosten suhde 1 tai ainakin hyvin lähellä sitä. Jos K a /K s -suhde on suurempi
kuin 1 on kyse positiivisesta (suuntaavasta) valinnasta, joka pyrkii vakauttamaan
tiettyjen muutosten frekvenssin populaatiossa. Jos K a /K s -suhde on pienempi kuin
1 on kyse negatiivisesta valinnasta, joka pyrkii poistamaan muutoksia populaatiosta tai estämään niiden yleistymisen. Tällaiset muutokset ovat eliölle jollakin tapaa haitallisia, ja ne pyrkivät siten harvinaistumaan populaatiossa. K a /K s -suhteen
laskeminen edellyttää tietoa useista eri lajeista, sillä muutoin muutosten laatua ei
tietenkään pystytä selvittämään. Suhteen laskemisen jälkeen päätellään vaikkapa
jotakin soveltuvaa tilastillista testiä (Yang, 2002) käyttäen, onko tutkittava alue valinnan kannalta neutraali.
30.2.4 Ihmisen ja hiiren vertailuista opittua
Hiiren ja ihmisen kantamuodot erkaantuivat noin 75-80 miljoonaa vuotta sitten. Genomimme ovat kuitenkin säilyneet yllättävän samankaltaisina. Noin 90% ihmisen
genomista sijaitsee jaksoina, joille on mahdollista löytää vastine hiiren genomista (syntenia). Liki kaikki (99%) ihmisen proteiineja koodaavat geenit rinnastuvat
hiiren geenien kanssa, ja noin 80%:lle on mahdollista löytää 1:1 ortologinen geeni
hiiren genomista. Nukleotiditasolla noin 40% ihmisen genomista rinnastuu suoraan
hiiren genomin kanssa, ja loppu 60% jakaantuu ainakin kahteen osaan. Ensimmäinen osa, noin 24% genomista koostuu kopiojaksoista, jotka syntyivät transpositiolla (DNA-jakso kahdentui ja kopio liittyi genomissa uuteen paikkaan) ihmisen
evoluutiolinjassa, eikä niille siten löydy vastinetta hiirestä. Loppua 36% ihmisen
30
Vertaileva genomiikka
Kuva 30.3: Geenien ja SNP:ien lukumäärä sekä GC% ihmisen kromosomissa X.
321
322
Bioinformatiikan perusteet
Kuva 30.4: Esimerkki UCSC:n genomiselaimen näkymästä.
genomista ei voida suora rinnastaa hiiren genomiin. Tämä voi johtua esimerkiksi
siitä, että vaikka sekvenssialueet olisivatkin ortologisia, on niille voinut sattua niin
paljon mutaatioita, ettei sekvenssjeä enää voida tunnistaa samankaltaisiksi nykyisiä
rinnastusmenetelmiä käyttäen.
30.3
Geeni- ja genomiduplikaatiot
30.3.1 Geeniduplikaatiot
Geeniduplikaatiot ovat suhteellisen yleisiä eliöiden genomeissa. Alkuperäisgeenin
kahdentuessa voi muodostua toimivia, mutta periaatteessa tarpeettomia kopioita samasta geenistä tai toimittamia pseudogeenejä. Toimivat geenikopiot voivat evoluution aikana erkaantua alkuperäisgeenistä ja kehittää uusia toimintoja tai erikoistua
ilmentymään jossakin tietyssä kudoksessa tai eliön kehitysvaiheen aikana.
Geeniduplikaatioita voidaan etsiä vertaamalla koko eliön genomin koodittamia proteiineja niitä itseään vastaan esimerkiksi BLAST-hakuja käyttäen. Tällöin
on mahdollista erotella kopioituneet geenit yksittäisinä kappaleina olevista geeneistä, ja jos sama analyysi toistetaan käyttäen myös sopivia DNA-sekvenssejä, voidaan pseudogeenit erotella toiminnallisista geenikopioista. Eliön sisäisiä vertailuja
käyttäen voidaan etsiä vain kopioituneita geenejä, mutta paralogisten ja ortologisten geenikopioiden erotteleminen toisistaan vaatii myös lajien välisiä vertailuja. Jos
sama geenikopio löytyy useammilta eliöiltä, on geeni eri lajeilla ortologinen, mutta jos geeni näyttää kopiotuneen vain yhdessä lajissa ovat sen kopiot keskenään
paralogisia.
Kun eliön proteiineja on vertailtuja niitä itseään vastaan BLAST-hauilla, on
mahdollista ryhmitellä samankaltaiset proteiinit proteiiniperheisiin esimerkiksi niiden samankaltaisuusastetta käyttäen. Myös BLAST-haun tilastollista merkitsevyyttä (E-arvo) voidaan käyttää proteiinien luokittelemiseen: jos e-arvo on kovin suuri (>0.01), eivät proteiinit todennäköisesti kuulu samaan perheeseen. Proteiinien
luokittelu voi tietenkin perustua myös niiden rinnastuksen perusteella muodostettuun fylogeneettiseen puuhun, ja usein näyttääkin siltä, että parittaisen rinnastuksen (BLAST) antamaa samankaltaisuusarviot paremman tulokseen saa käyttämällä
30
Vertaileva genomiikka
323
usean sekvenssin rinnastusta. Tällöin myös usean sekvenssin rinnastuksen perusteella muodostettu luokittelu on lähempänä oikeaa kuin BLAST-tulosten perusteella muodostettu.
Proteiinien luokittelun perusteella voidaan arvioida eliössä olevien geeniperheiden lukumäärä, ja sitä kautta myös ennustaa millaisia biokemiallisia reittejä
eliössä mahdollisesti on. Koska geenit, jotka kuuluvat samaan geeniperheeseen,
ovat todennäköisesti syntyneet kahdentumalla jostakin alkuperäisestä geenistä, voidaan geeniperheiden avulla myös ennustaa eliön toiminnalle ehdottoman tarpeellisten entsyymien ja rakenneproteiinien sekä biokemiallisten reaktioiden kirjo. Se
on yksinkertaisesti geeniperheiden lukumäärä.
30.3.2 Genomiduplikaatiot
Kokonaisten genomien kopioituminen evoluutiossa on kasvien osalta tunnettu tosiseikka. On voitu kiistattomasti osoittaa, että lituruohon (Arabidopsis thaliana) genomi on tetraploidinen, mikä tarkoittaa sitä, että sen koko genomi on jossakin vaiheessa kertaalleen täydellisesti kopioitunut (itse asiassa neljässä vaiheessa). Sama
ilmiö on havaittu leiviinhiivassa (Saccharomyces cerevisiae). Eläinten evoluutiossa
tapahtuneet mahdolliset duplikaatiot eivät ole yhtä hyvin tunnettuja, osittain siksi,
että vaillinaisen geenien ja niiden paikkojen tuntemuksen vuoksi eri eliöiden väliset vertailut eivät ole olleet yhtä informatiivisia kuin kasveilla. On kuitenkin ehdotettu, että eläinten evoluutiossa niiden genomi olisi kahdentunut ainakin kahdesti,
ensimmäisen kerran mahdollisesti jo ennen kambrikautta (yli 650 miljoonaa vuotta
sitten). Seuraavan duplikaation arvellaan tapahtuneen devonikaudella, ennen kuin
leualliset ja leuattomat selkärankaiset erosivat toisistaan. Mahdollisen kolmannen
duplikaation oletetaan tapahtuneen leuallisten ja leuattomien selkärankaisten evoluutiolinjojen jo erottua toisistaan noin 390 miljoonaa vuotta sitten. Kaksi viimeistä
duplikaatiotapahtumaa muodostavat niin sanotun 2R-hypoteesin.
Viuhkaeväisten kalojen ("tavallisten kalojen") genomin oletetaan läpikäyneen
kolmannen duplikaation, mutta varsieväisten kalojen ja niistä polveutuvien maanisäkkäiden genomissa kolmatta duplikaatiota ei olisi tapahtunut (Vandepoele, 2004).
Vaikka viuhkaeväisten kalojen tapauksessa suuri osa kopioituneista geeneistä näyttääkin muuttuneen pseudogeeneiksi, on osa varmasti kehittynyt uusiksi geenimuodoiksi, mikä saattaa osaltaan selittää, miksi kalat ovat niin hyvin menestynyt eliöryhmä: niillä on yksinkertaisesti ollut genomissa runsaasti potentiaalia erikoistumiseen. Sama hypoteesi saattaa selittää sen, miksi lajien määrä moninkertaistui kambrikaudella: eliöiden genomin koon kasvaessa erilaisille kokeiluille aukeni uusia
mahdollisuuksia.
Miten duplikoituneita genomialueita sitten etsitään? Käytössä on useitakin
menetelmiä, mutta suosituimpia lienevät edelleen pistematriisikuviot ja BLASThaut tai sitä vastaavat menetemälliset muunnokset, kuten PiPMaker, MUMmer ja
BLAT. Hauissa käytetään useimmiten aminohapposekvenssejä, ja jos useampia eri
geenien osumia (hyviä sellaisia!) sattuu vähintää kahdelle eri kromosomialueelle,
voidaan alueen mahdollisesti olettaa olevan duplikoitunut. Jotta duplikoituminen
voitaisiin osoittaa, pitää alueilla lisäksi molemmilla alueilla olevien geenien olla
samassa järjestyksessä, mutta molemmilla alueilla ei tarvitse olla tismalleen samoja geenejä, sillä osa on voinut hävitä duplikoitumisen jälkeen tai niitä on voinut
tulla lisää. Lisäksi geenien lukusuunnan tulisi olla konservoitunut, jotta voitaisiin
olla varmoja, että on kyse duplikaatiosta. Pistematriisimenetelmässä tuotetaan tavanomainen pistematriisi pitkää sanakokoa käyttäen, ja pistekuvioista etsitään sitten pidempiä samankaltaisia alueita. Tällaisia alueita voidaan niiden alkuperäisen
tunnistuksen jälkeen tietenkin tutkia tarkemmin parittaisin vertailun, esimerkiksi
BLAST-menetelmällä.
Analyysin automatisoimiseksi on kehitetty muitakin menetelmiä. Esimerkiksi
ADHoRe-menetelmä toimii pääpiirteissään seuraavasti (Vandepoele, 2002). ADHoRe vertaa kahta genomista fragmenttia, tyypillisesti kahta kromosomia keske-
324
Bioinformatiikan perusteet
nään. Vertailu tapahtuu BLAST-haulla, jossa eri kromosomeissa olevien geenien
translaatiotuotteita (aminohapposekvenssit) verrataan toisiinsa. Tämän jälkeen tulokset sijoitetaan m ∗ n-matriisiin, jossa m ja n ovat eri kromosomeista saatujen
aminohapposekvenssien lukumäärät. Matriisiin merkitään nolla, jos aminohapposekvenssit eivät ole samankaltaisia, negatiivinen arvo, jos samankaltaisia aminohapposekvenssejä vastaavien geenien lukusuunta on toisiinsa nähden vastakkainen
ja positiivinen luku, samankaltaisia aminohapposekvenssejä vastaavien geenien lukusuunta on sama. Tämän jälkeen duplikaatiot on helppo erottaa matriisista. Kokonaisten kromosomialueiden kopioituminen näkyy matriisissa ei-nollien lukuarvojen muodostamina lävistäjän suuntaisina ketjuina (kuten samankaltaiset alueet erottuvat pistematriisimenetelmässä). Jos sama geeni on kopioitunut, erotetaan tällaiset
tandem-toistot joko pysty- tai vaakasuorina ei-nollien lukuarvojen muodostamina
ketjuina. Löydettyjen kopioituneiden alueiden tilastollinen merkitsevyys voidaan
arvioida esimerkiksi permutaatiomenetelmää käyttäen, jossa käytetyt aineistot sekoitetaan satunnaisesti ja analyysi toistetaan jokaiselle näin saadulle pseudoaineistolle.
30.4
Eliöiden geenisisältö
Eliöiden proteiinisekvenssivertailujen perusteella on mahdollista tehdä johtopäätöksiä eliön keskeisistä tai omintakeisista proteiineista. Usein käy niin, että suurimmalle osalle vastikään sekvensoidun eliön proteiineista löytyy suora vastine jostakin muusta lajista. Kuitenkin suuri määrä proteiineja ei useinkaan vastaa yhtäkään
toista vastaavankaltaista tunnettua proteiinia. Usein koko eliön genomin selvittämisen jälkeen onkin vielä suuri työ selvittää, mitä nämä aiemmin tuntemattomat
proteiinit eliössä tekevät.
Viime vuosina on kiinnostuttu määrittämään pienin mahdollisen geeni- tai proteiinijoukko, jolla eliö vielä on toimiva kokonaisuus. Tällaisen genijoukon määrittämiseen voidaan käyttää esimerkiksi vertailevan genomiikan suomia mahdollisuuksia. Pienin mahdollinen geenijoukko, joka mahdollistaa elämän, lienee se geenijoukko, joka on esimerkiksi kaikille tällä hetkellä tunnetuille bakteereille yhteinen. Apuna voidaan käyttää myös erikoistapauksia, kuten solunsisäisten parasiittien geenisisältöä. Esimerkiksi mykobakteereilla on hyvin vähän geenejä (alle 500),
sillä ne loisivat aitotumallisten soluissa, ja siten niiden tarvitsee vain sisältää vain
keskeisimmät aineenvaihduntaan liittyvät geenit, joita isäntöeliöltä ei löydy. Mykobakteerit eivät kuitenkaan yksinään tarjoa ratkaisua pienimmän geenijoukon ongelmaan, sillä ne menehtyvät välittömästi jouduttuaan isäntänsä ulkopuolelle, mutta
niiden antamaa tietoa solun vaatimasta perusaineenvaihdunnasta voidaan käyttää
apuna ongelmaa selvitettäessä. Nykyisen arvion mukaan, itsenäinen solu tarvitsee
elämiseen ainakin noin 250-300 erillistä geeniä tai proteiinia, joten on mahdollista, että kaikkin tunnettujen nykyeliöiden genomit ovat syntyneet kopioitumalla ja
erikoistumalla tällaisesta hyvin pienestä geenimäärästä.
30.5
Horisontaalinen geeninsiirto
Horisontaalinen geeninsiirto eli geenien siirtyminen toiselta lajilta toiselle on bakteereilla huomattavan tavallista. Sellaisille lajeille, joilla mahdollisuutta ei muuten
olisi, horisontaalinen geeninsiirto antaa mahdollisuuden saavuttaa aivan uudenlaisia ominaisuuksia. Useimmiten eliön ominaisuudet perityvät sen samaa lajia olevilta vanhemmaisyksilöiltä. Kun eliön genomi kopioituu ja siirtyy vanhemmalta jälkeleiselle puhutaan lateraalisesta geeninsiirrosta. Lateraalinen geeninsiirto on kuitenkin rajoittavaa, sillä eliön sopeutumismahdollisuudet riippuvat siitä, millaiset eväät
se on vanhemmiltaan saanut. Horisontaalinen geeninsiirto poistaa tämän rajoituksen, sillä tällöin jo valmis eliö voi saada muilta saman lajin tai jopa toisen lajin
30
Vertaileva genomiikka
325
yksilöiltä uusia piirteitä. Bakteereilla horisontaalista geeninsiirtoa tapahtuu esimerkiksi antibioottiresistenssissä. Aluksi vain jollakin lajilla on vastustuskyky tietylle
antibiootille, mutta se leviää nopeasti myös muihin, horisontaaliseen geenisiirtoon
kykeneviin lajeihin, sillä antibiootin sietokyky parantaa niiden sopeutumista, jos
antibioottia on ympäristössä.
Horisontaalisen geeninsiirron havaitseminen perustuu useimmiten eliön genomin eri alueiden GC%:n analysoimiseen. Eri bakteerilajien genomeissa on nimittäin varsin erilainen GC%, ja jos jonkin bakteerin genomista löytyy jokin huomattavan erilaista GC%:ia edustava DNA-jakso, voidaan epäillä, että bakteeri on sanut sen toiselta lajilta horisontaalista geeninsiirtoa käyttäen. Myös kodoniharhaa
voidaan käyttää lateraalisen geeninsiirron havaitsemiseen. Jos GC%:ssa ei havaita
genomissa suuria eroja, voidaan mahdollisesti muilta lajeilta saadut genomialueet
tunnistaa kodoniharhaa käyttäen. Kodoniharhan käyttö perustuu siihen, että eri lajit
käyttävät geeneissään samoja aminohappoja koodaavia kodoneita eri taajuuksilla.
Horisontaalisen geeninsiirron ajankohtaa voidaan arvioida sen perusteella, kuinka
hyvin siirtynyt alue on ehtinyt sulautua sitä ympäröivään genomiin. Jos havaittu
GC%-ero on suuri, on kyseessä luultavasti viimeaikainen siirtymä. Jos ero on tuskin havaittava, on siirtymästä todennäköisesti kulunut jo pitkä aika.
30.6
Geenijärjestyksen säilyminen
Lajisukuisten lajien genomit muistuttavat toisiaan paitsi geenisisällöllisesti myös
geenien sijoittumisen suhteen. Evoluution aikana lajien genomi muuttuu hitaasti,
ja toisinaan DNA:n katketessa vaurio korjaantuu siten, että tietty DNA-alue siirtyy
kromosomista toiseen. Siten suhteellisen lajisukuistenkaan lajien kromosomistot
eivät välttämättä vastaa suoraan toisiaan, vaikka niiden varsinaisessa geenisisällössä ei olisikaan tapahtunut muutoksia. Kromosomimuutoksissa DNA siirtyy kromosomista toiseen suhteellisen suurina palasina, joten geenien järjestys siirtyneessä
palasessa yleensä säilyy alkuperäisen mukaisena. Geenijärjestyksen säilyminen eli
syntenia onkin tavallista sekä esi- että aitotumallisissa eliöissä (Kuva 30.5 ja Kuva 30.6, joskin geenejä on voinut hävitä tai niitä on voinut syntyä lisää duplikoitumalla.
Syntenialla on useita mielenkiintoisia sovelluksia. Kun uusia bakteerigenomeita sekvensoidaan, löydetään usein geenejä, joiden funktiota ei pystytä pelkästään sekvenssivertailun ennustamaan, koska niille ei löydy tietokannoista riittävän
samankaltaisia vastineita. Synteniaa voidaan kuitenkin käyttää apuna tällaisten geenien funktioiden selvittämisessä. Geenit, joiden proteiinituotteet katalysoivat esimerkiksi samankaltaisia biokemiallisia reaktioita sijaitsevat usein lähekkäin eliöiden genomeissa. Esimerkiksi, kaikki alfahemoglobiiniperheeseen kuuluvat geenit
sijaitsevat ihmisellä yhtenä ryppäänä kromosomissa 16 (Kuva 30.7. Jos kahden genomin vertailussa paljastuu syntenisia alueita, joilla sijaitsee tuntemattomia geenejä, mutta niiden funktio tunnetaan muilta lajeilta, voidaan geenien sijainnin perusteella mahdollisesti päätellä niiden funktio. Jos siis ihmisen ja toisen eliön välillä havaittaisiin voimakasta synteniaa kromosomin 16 kromosomigeenien alueella,
ja eliöllä sijaitsisi geeni HGM:n kohdalla, mutta sen funktiota ei voitaisi päätellä esimerkiksi BLAST-haun avulla, voitaisiin syntenian antaman lisätiedon valossa
päätellä, että tuntematon geeni on todennäköisesti hemoglobiini M.
Synteniaa tai oikeammin kromosomikatkos ja -vaihdoskohtien sijaintia voidaan käyttää myös evolutiivisena informaationa eliöiden sukupuiden selvittämiseen. On nimittäin erittäin epätodennäköistä, että tismalleen samoja kromosomikohtia koskeva vaihdos tapahtuu kahdessa eri evoluutiolinjassa, ja niinpä havaitut
vaihdokset tulkitaankin yhdeksi evoluutiotapahtumaksi. Kun eri kromosomien vastaavuudet eri eliöiden välillä on selvitetty, voidaan eliöiden sukupuu selvittää vaihdosten perusteella. Todennäköinen vaihdosten tapahtumisjärjestys voidaan päätellä
esimerkiksi parsimonia- tai suurimman uskottavuuden menetelmiä käyttäen, mutta
326
Bioinformatiikan perusteet
Kuva 30.5: Escherichia colin ja Shigella flexnerin välinen koko genomin laajuinen syntenia. Vaaka- ja pystyakseleille on merkitty kaikki eliön geenit pienin värillisin palkein.
Geenien leikkauspisteeseen on sijoitettu punainen täplä, jos geenien lukusuunta on molemmissa eliöissä sama, ja vihreä täplä, jos lukusuunta on eliöissä vastakkainen. Koska
kuvion halkaisee punaisten täplien sarja, on eliöiden välillä laajaa synteniaa.
ongelma ei ole kovinkaan helppo, varsinkin jos tutkitaan eliöiden kokonaisia genomeja, joissa vaihdoksia on tapahtunut helposti kymmeniä.
30.7
Vertaileva genomiikka ja lääketiede
Genomiikalla on lääketieteessä nykyisin varsin vankka jalansija, sillä sellaiset alat
kuin farmakogenomiikka, onkogenomiikka ja geenikartoitus hyödyntävät genomiprojektien tuotoksia varsin laajamittaisesti. Vertailevan genomiikan hyödyntäminen
lääketieteessä on kuitenkin perinteisesti ollut vähäisempää, ellei esimerkiksi erilaisten tautimallien vertailua eri eliöiden, kuten ihmisapinoiden välillä huomioida.
Vertailevan genomiikan työkaluin on kuitenkin mahdollista saada paljon mielenkiintoista ja hyödyllistä informaatiota esimerkiksi rokote- ja lääkekehityksen tarpeisiin.
30.7.1 Rokotteiden kehittäminen
Rokotteiden kehittämisessä kokonaisten genomien tuntemuksesta on hyötyä, sillä
mahdollisten rokotekandidaattien seulonta on siten tavanomaista nopeampaa. Perinteisesti ihmisten rokottamiseen on käytetty tapettuja taudinaiheuttaja tai sellaisia
heikennettyjä taudinaihettajia, joilta jokin taudin aiheuttamiseen oleellisesti tarvit-
30
Vertaileva genomiikka
327
Kuva 30.6: Ihmisen kromosomin 1 ja hiiren kromosomialueiden välinen vastaavuus. Evoluution aikana hiiren ja ihmisen kromosomistot ovat erilaistuneet huomattavasti, vaikka
sinällään laajemmat kromosomitalueet ovat säilyneet suhteellisen konservoituneina. Kromosomiston erot selittyvätkin lähinnä erilaisin uudelleenjärjetelyin.
328
Bioinformatiikan perusteet
Kuva 30.7: Alfahemoglobiini-klusterin geenien järjestys kromosomissa 16 (HBZ, HBM,
HBA2, HBA1, HBQ1). Kuviossa on esitetty ihmisen ja hiiren kromosomien vertailu, ja
molemmilla geenien järjestys kromosomistossa on tismalleen sama. Geenien lukusuunta
on esitetty pienellä nuolella, ja kulkee kaikissa geeneissä vasemmalta oikealle. Vaaleanpunaisella väritetyt käyrät ilmaiset konservoituneen, mutta ei koodaava sekvenssin sijainnin.
Vaaleansiniset alueet puolestaan vastaavat koodaavia alueita. Värilliset palkit ilmaiset toistojaksojen sijainnin. Punaiset palkit vastaavat LINE-alueita, ja vihreät palkit SINE-alueita.
tava geeni puuttuu. Bioteknologia mahdollisti yksittäisten geenien kloonaamisen ja
siirtämiseen uusiin isäntiin, jolloin esimerkiksi soveltuva virus saatiin tuottamaan
pinnalleen bakteeriproteiinia, ja näin tuotettuja viruksia voitiin sitten käyttää rokottamiseen. Käänteinen teknologia, jonka genomiikka on mahdollistanut toimii
siten, että mahdolliset käyttökelpoiset antigeenit kloonataan sopivaan eliöön, niitä ekspressoidaan ja tuotettujen proteiinien toimivuus rokotteina testataan aluksi
koe-eläimissä, myöhemmin mahdollisesti ihmisissäkin. Näin on mahdollista seuloa
nopeasti läpi suuri määrä erilaisia taudinaiheuttajan proteiineja, ja tunnistaa niistä mahdollisesti rokotteena toimivat (Scarselli, 2005). Tuotekehittely vie kaikkine
testeineen luonnollisesti vuosia, mutta helpottaa ja hyvin todennäköisesti myös nopeuttaa kehitystyötä joka tapauksessa.
Vertaileva genomiikka laajentaa yllä kuvattua käänteistä teknologiaa siten, että tuotekehityksessä voidaan ottaa huomioon useiden eri kantojen tai bakteerilajien
antama informaatio. Monet taudinaiheuttajat kantavat virulenssisaareketta, joka on
genomialue, jolla taudinaiheutuskykyyn liittyvät geenit sijaitsevat. Monista taudinaiheuttajista on kuitenkin olemassa useita erilaisia kantoja, joiden virulenssigeenit
voivat erota toisistaan. Optimaalinen rokote tietenkin suojaa kaikilta saman tyypin
bakteereilta, jolloin rokotteen kehittelyssä tulee ottaa huomioon mahdolliset puuttuvat geenit: rokotetta ei kannata alkaa kehittämään sellaisesta proteiinista, joka
joistakin kannoista puuttuu.
Virulenssisaarekkeiden tunnistaminen on toisinaan vaivalloista, mutta vertailevan genomiikan keinoin on mahdollista tehdä ainakin hyviä arvauksia virulenssigeeneistä. Vertailut lähisukuisiin taudinaiheuttajiin tai saman suvun edustajiin, joilla ei ole taudinaiheutuskykyä, voi paljastaa joukon geenejä, jotka todennäköisesti
liittyvät taudinaiheutuskykyyn. Samalla voidaan ottaa myös huomioon taudinaiheuttajaryhmän geneettinen vaihtelu. Rokotteen kehittäminen sellaista proteiinia
tai proteiinialuetta käyttäen, jossa on paljon vaihtelua, ei välttämättä ole kannattavaa, sillä taudinaiheuttaja voi mahdollisesti hyvinkin helposti kehittää vastuskyvyn
rokotteelle, jos vaihtelu rokotteeksi käytetyllä alueella aiheuttaa sen, etteivät vastaaineet enää tunnistakaan aluetta yhtä tehokkaasti.
30
Vertaileva genomiikka
329
Hyvä rokote siis kohdistuu sellaiseen proteiiniin, joka on stabiilisti kaikissa
taudinaiheuttajakannoissa, ja sellaiselle proteiinialueelle, joka vaihtelee luontaisesti
vähän.
30.7.2 Lääkeaineiden kehittäminen
Lääkeaineiden kehittäminen on hyvin pitkällinen prosessi, ja vaatii helposti kymmenen vuoden työn. On arvioitu, että uuden lääkkeen kehittäminen maksaa tällä
hetkellä noin miljardi euroa. Siksi lääkekehitys onkin ottanut ilolla vastaan bioinformatiikan tarjoamat menetelmät mahdollisten lääkeainekohteiden tai lääkeaineiden seulomiseksi jo enne varsinaisia laboratorio- ja eläinkokeita. Lääkeaineiden
kehityksen alkuvaiheessa hyödynnetään nykyisin usein tietoa esimerkiksi kohdeproteiinin rakenteesta, sen ilmentymisestä eri kudoksissa ja jos puhutaan erityisesti
mikrobilääkkeista, kuten antibiooteista, myös tietoa kohdemolekyylin esiintymisestä eri bakteeriryhmissä. Erityisesti mikrobilääkkeiden, kuten antibioottien ja antiviraalisten lääkkeiden, kuten HIV:n hoidossa käytettyjen aineiden kehittämisessä
vertailevasta genomiikasta on ollut hyötyä.
Laajamittainen antibioottien kehittäminen 1950-luvulla perustui erilaisten lääkeainemolekyylien seulontaan. Tällainen lähestymistapa perustuu siihen, että kokeellisesti määritetään bakteerien herkkyys kullekin tutkittavalle molekyylille, ja
parhaat molekyylit valitaan jatkoon. Ne voivat vielä vaatia muokkausta lääkkeeksi sopiviksi, mutta näin ainakin pystytään suhteellisen tehokkaasti hahmottamaan,
millaiset yhdisteet ovat tehokkaita. Myös nykyaikainen lääkeainekehitys nojaa erilaisten molekyylien kirjastoihin (näitä on kaupallisesti saatavilla), mutta lääkeaineita ei enää etsitä käymällä läpi kokonaisia molekyylikirjastoja, joissa on tyypillisesti satoja tuhansia tai miljoonia erilaisia molekyylejä. Nykyisin lääkeainekehityksessä tunnistetaan ensin kohdeproteiini, johon lääkeen halutaan vaikuttavan. Sitten
esimerkiksi molekyylimallitusta ja telakointi käyttäen seulotaan virtuaalisesti (tietokoneella) molekyylikirjastosta sellaisia molekyylejä, jotka näyttäisivät sitoutuvan kohdeproteiiniin. Tämän seulonnan jälkeen voidaan edetä molekyylikirjastosta
tunnistettuja molekyylejä käyttäen normaalisti solukokeisiin, eläinkokeisiin, ja jos
lääke näyttää lupaavalta, lopulta ihmiskokeisiin.
Antibioottien kehitykseen käytetty molekyylikirjastojen seulontaan perustuva
lähetysmistapa oli hyvin tehokas, sillä bakteerit ovat itsenäisiä soluja, jotka tyypillisesti elävät ihmisen solujen ulkopuolella, ja niiden tappaminen sopivalla aineella
on suhteellisen helppoa. Esimerkiksi, bakteereja ympäröi soluseinä, jota nisäkässoluissa ei ole. Siten sopiva lääkeaine, kuten penisilliini, voidaan kohdistaa estämään
soluseinän muodostumista. Jos bakteerisolulla ei ole soluseinää se kuolee nisäkään
elimistössä hyvin nopeasti. Monet bakteerit ovat kuitenkin tulleet vastustuskykyisiksi antibiooteille, ja uusia ratkaisuja tarvitaan. Uusien antibioottien kehittäminen
nojaakin pitkälti vertailevaan genomiikkaan.
Vertailevan genomiikan keinoin lääkeaineen kehitys alkaa siten, että valitaan
bakteerilajit, joihin antibiootti halutaan kohdistaa. Tämän jälkeen etsitään kaikkia
näitä bakteerilajeja yhdistävät geenit vertailevan genomiikan avulla. Näin saatujen
geenien joukosta poistetaan ne, joita sekä bakteerit että niiden isäntä, esimerkiksi ihminen ilmentää (muutoin saattaa samalla lääkkellä lähteä henki sekä isännästä
että loisesta), ja jäljelle jääneet geenit ja niiden koodaamat proteiinit ovat mahdollisia lääkeaineen kohteita. Kohteiden tarkempi validointi (tutkimukset, joissa selvitetään muun muassa onko löydetty sopiva kohde, ja ilmeneeko se niissä soluissa,
joissa sen pitäisikin) on yleensä tarpeen ennen jatkotutkimuksia, ja tässä käytetään
nykyisin esimerkiksi DNA-siruja ja proteomiikan tarjoamia työkaluja. Validoinnin jälkeen voidaankin yleensä alkaa suunnittelemaan sopivaa lääkeainemolekyyliä. Hyvän esimerkin vertailevasta genomiikasta antibioottien kehityksessä antavat
Cole (2002) ja Rappuoli (2004).
Viruslääkkeiden kehittäminen ei ole yhtä "helppoa"kuin bakteerilääkkeiden,
sillä virukset ovat solunsisäisiä loisia, joilla ei ole lainkaan omaa aineenvaihduntaa
330
Bioinformatiikan perusteet
solujen ulkopuolella. Virukset ottavat isäntäsolun valtaansa ja käyttävät sen tarjoamia aineenvaihduntareittejä uusien virusten rakentamiseen. Virustautien hoito on
lähinnä ennaltaehkäisyä, ja kehitystyö tähtää useimmiten tehokkaiden rokotteiden
tuottamiseen. Poikkeuksen muodostaa joidenkin jo vakavan epidemian aiheuttaneiden virustautien, kuten HIV:n hoito. Tällöin vertaileva genomiikka kohdistuu viruksen ja sen isännän genomien tai proteomien (solun koko proteiinisisältö) vertailuun.
Myös eri viruskantojen vertailulla pyritään hankkimaan tietoa siitä, mitkä molekyylit luontaisesti vaihtelevat runsaasti. Tällaisin menetelmiä on tunnistettu muutamia
suhteellisen vähän vaihtelevia HI-viruksen proteiinineja, kuten RNA-riippuvainen
polymeraasi, joka on viruksen lisääntymiselle oleellisen tärkeä proteiini. Polymeraasia vastaan on sitten kehitetty erilaisia sen toimintaa estäviä lääkeaineita, jotka
käytännössä estävät viruksen lisääntymisen soluissa.
Viruslääkeaineiden kehittäminen on usein haastavaa, sillä esimerkiksi erilaisia polymeraaseja esiintyy ihmiselläkin ainakin toistakymmentä, ja lääkeaine joka
estää viruksen polymeraasin toiminnan, voi estää myös ihmisen solujen polymeraasien toiminnan. Koska soluissa polymeraaseja tarvitaan sekä geenien ilmentämiseen että solujen kasvuun ja lisääntymiseen, voi solun polymeraasin estyminen
aiheuttaa ihmisille vakavia sivuvaikutuksia. Sopivien lääkeaineiden löytämistä voidaan mahdollisesti helpottaa tai nopeuttaa molekyylimallituksen avulla. Molekyylimallituksessa pyritään löytämään sellainen molekyyli, joka sitoutuu optimaalisesti viruksen polymeraasiin, muttei juurikaan ihmisen solujen polymeraaseihin.
Päämäärän on pienentää seulottavien lääkeaineiden joukkoa, jolloin itse seulontavaihe nopeutuu, ja uusi tehokkaampi lääkeaine saadaan mahdollisesti tavanomaista
nopeammin markkinoille.
31
Proteomiikka
331
31 Proteomiikka
31.1
Mitä on proteomiikka?
Proteomiikka on proteiinien rakenteen ja toiminnan tutkimista laajassa mittakaavassa. Proteomiikka-käsite vastaa tavallaan genomiikkaa, mutta tutkimusalue kohdistuu geenien je genomien sijaan proteiineihin. Proteomiikalla tarkoitetaan usein
askelta ettenpäin genomiikasta, mutta proteomiikka on tutkimusalueena monimutkaisempi kuin genomiikka. Eliön geenit säilyvät jokseenkin samoina kudoksesta ja
eliöstä toiseen, mutta näin ei suinkaan ole proteiinien osalta. Eri kudosksissa ja saman lajin yksilöissä on suurta vaihtelua proteiinien ilmentymisessä ja suhteellisissa osuuksissa koko proteiinimäärästä. Lisäksi yksi ainut geeni voi koodittaa useita
erilaisia proteiinija, jotka voidaan luoda samasta lähetti-RNA-molekyylistä esimerkiksi käyttämällä vaihtoehtoista silmukointia. Onkin arvioitu, että ihmisen geenisisällön ollessa noin 23000 erilaista geeniä, on erilaisia proteiineja noin kymmenkertainen määrä. Koska solujen toiminta tapahtuu proteiinien kautta, on niiden tutkiminen mielenkiintoista ja tarpeellista, pelkkä geenien ilmentymisen tunteminen
ei vielä kerro riittävästi solun toiminnasta. Seuraavassa rajoitutaan tarkastelemaan
lähinnä kahta erilaista proteomiikan sovellusaluetta, solun ilmentämien proteiinien
tunnistamista ja proteiinien kolmiulotteisen rakenteen selvittämistä.
31.2
Proteiinien ilmentymisen tutkiminen
Proteiinien ilmentymistä tutkitaan nykyisin pääasiallisesta kahdella eri menetelmällä, 2D-geelielektroforeesilla tai massaspektrometrialla. Näiden lisäksi monia
muita menetelmiä tutkitaan, ja eräänä lupaavimmista uusista tekniikoista ovat proteiinisirut.
31.2.1 2D-geelielektroforeesi
Kaksisuuntaisessa eli 2D-geelilektroforeesissa proteiininäyte, joka on eristetty tutkittavasta solulinjasta tai kudoksesta, ajetaan akryyliaminigeelissä. Menetelmän
ideana on erotella näytteessä olevat proteiinit toisistaan sekä niiden varauksen (pI,
isoelektrinen piste) ja massan mukaan. Menetelmä on varsin perinteinen, ja sitä on
käytetty proteiininäytteiden analysointiin jo kauan. Nykyisillä menetelmillä kyetään erottelemaan suunnilleen 10000 proteiinia, mikä on suhteellisen vähän suhteutettuna arvioon ihmisen proteiinien lukumäärästä (100000-400000). Menetelmä
ei takaakaan, että kaikki mahdolliset proteiinit voidaan erotella toisistaan, mutta
tyypillisesti muutamia tuhansia kaikkein yleisimpiä proteiineja voidaan tunnistaa
kaksisuuntaista elektroforeesia käyttäen.
Kaksisuuntaisessa elektroforeesissa näyte erotellaan ensin varauksensa mukaan akryyliamidigeelissä, jossa vallitsee sopiva pH-gradientti. Tällaisessa geelissä proteiinit sijoittuvat niiden varauksen suhteen oikealle kohdalle pH-gradientissa.
Tämän jälkeen varauksen mukaan erotellut proteiinit siirretään toiselle akryyliamidigeelille, jossa ei vallitse pH-gradienttia. Tällaisessa geelissä proteiinit erottu-
332
Bioinformatiikan perusteet
vat kokonsa mukaan, sillä geeli vastusta proteiinien etenemistä sitä enemmän mitä
suurempia ne ovat. Molemmissa erotteluvaiheissa geelin läpi kulkee virta, ja proteiinit liikkuvat tavallaan virran kuljettamina. Lopuksi geeli poistetaan ajolaitteesta
ja värjätään, esimerkiksi hopeamenetelmällä, jolloin proteiinit saadaan näkymään
geelillä ja. Värjätty geeli voidaan skannata, ja siirtää kuvana tietokoneelle jatkoanalyysejä varten. Proteiinit voidaan myös eristää geelistä, jolloin niille voidaan tehdä
jatkoanalyysejä (sekvensointi, massaspektrometria) proteiinien tarkemmaksi tunnistamiseksi.
Kaksisuuntainen elektroforeesi ei ole täysin kvantitatiivinen menetelmä, vaikka skannatusta kuvasta kunkin proteiinin määrä voidaankin arvioida niitä vastaavien täplien tummuuksien ja pinta-alojen avulla. Kvantitatiivisuudesta joudutaan
tinkimään, sillä erilaisten proteiinien eristäminen ei onnistu samalla tehokkuudella.
Esimerkiksi kalvoihin sitoutuneiden proteiinien eristäminen on hankalampaa kuin
vapaana solulimassa uiskentelvien proteiinien eristäminen. Lisäksi kaikki proteiinit eivät suostu etenemään geelissä normaalisti (suuret eivät etene geeliin lainkaan,
ja pienet voivat ajautua siltä ulos) ja geelien värjäämiseen käytetyt värit värjäävät
erilaisia proteiineja hieman eri tehokkuudella.
2D-elektroforeesikuvien vertailu onnistuu nykyisin tietokoneistetustu suhteellisen luotettavasti. Koska eri geelit ajautuvat hieman eri tavoin, vaikka koeolosuhteet olisikin vakioitu hyvin, on tietokoneohjelmien hieman venytettävä tai pienennettävä kuvia sopivalla tavalla siten, että samaa proteiinia vastaavat täplät osuvat
kohdakkain. Swiss Institute of Bioinformatics (SIB) on kehittänyt akateemisille
ilmaisen Melanie-ohjelmistopaketin, jolla tällainen geelien vertaaminen onnistuu.
Vertailu on useinmiten mahdollista vain hyvin samanlaisten kudosten välillä, sillä
koeolosuhteet ja kudosten erilainen proteiinikoostumus tekee vertailut kovin erilaisten kudosten välillä vaikeiksi tai mahdottomiksi.
Nykyisin on yleistynyt ajaa 2D-elektroforeesi käyttäen fluoresoivilla väreillä leimattuja näytteitä. Toinen näyte leimataan vaikkapa Cy3-värillä (punainen) ja
toinen Cy5-värillä (vihreä). Kun näin leimatut näytteet ajetaan samalla geelillä erilleen, saadaan skannauksen jälkeen tulokseksia erivärisiä täpliä samaan tapaan kuin
DNA-sirujen tapauksessa. Väri ilmoittaa suoraan eri näytteiden välisen eron proteiinien määrissä. Kahdella värillä tehdystä näytteiden leimauksesta on se hyöty,
että eri geelien väliseltä mahdolliselta hiukan hankalalta vertailulta kuvankäsittelykeinoin vältytään tai ainakin tällaisia vertailuja tarvitsee tehdä puolet vähemmän kuin perinteistä värjäysmenetelmää sovellettaessa. Kaksivärileimausta käyttäen saadun aineiston analysointi muistuttaa pitkälti DNA-siruaineistojen analysointi sikäli, että eri näytteiden välisille eroille voidaan laskea esimerkiksi tilastollinen merkitsevyys vaikkapa t-testiä käyttäen, jos koesarjaan kuuluu useampia
näytteitä samasta kudoksesta.
Geelillä eroteltujen proteiinien tunnistaminen voidaan hoitaa yksinkertaisimillaan vertaamalla tuotettua kuvaa tietokannoissa, kuten SWISS-2DPAGE, oleviin
samasta kudoksesta saatuihin kuvaa. Tuntemattomat proteiinit voidaan tunnistaa
sekvensoimalla tai massaspektrometriaa (MS) käyttäen. MS-menetelmät ovat nykyisin käytetympiä niiden helppouden ja nopeuden vuoksi.
31.2.2 Massaspektrometria
Massaspektrometriassa 2D-elektroforeesista tai muusta sopivasta lähteestä eristetyt proteiinit pilkotaan jollakin entsyymillä tai kemikaalilla, ja syntyneet fragmentit
erotellaan massaspektrometriaa käyttäen varauksensa ja massansa perusteella toisistaan. Massaspektrometria perustuu ajatukseen, että peptidit (proteiinifragmentit) erotuvat toisistaan sopivassa väliaineessa lentoajan perusteella. Lentoaika puolestaan riippuu fragmenttien massa-varaus-suhteensta (m/z), minkä luonnollisesti määrää fragmentin aminohappokoostumus. Tuloksena on kaavio, jossa kutakin
havaittua fragmenttia vastaa piikki, jonka korkeus merkitsee fragmentin kokonaismassaa näytteessä. Kaaviosta määritetään piikkien sijainti, ja näin saatua massa-
31
Proteomiikka
333
sormenjälkeä verrataan aminohapposekvenssitietokannasta laskettuihin teoreettisiin sormenjälkiin. Kun kokeellisessa analyysissä käytetyt pilkotaentsyymit tai kemikaalit tunnetaan, voidaan tietoa käyttäen laskea kokonaisen tietokannan sekvenssien teoreettiset sormenjäljet analysoitavalle lajille. Jos havaittu sormenjälki
muistuttaa tietokannan perusteella laskettua teoreettista sormenjälkeä tilastollisesti merkitsevästi (Mowse score), voidaan olla suhteellisen varmoja proteiinin tunnistuksesta. Verkosta löytyy useita ohjelmia, joilla erilaisten entsyymien tuottamia
sormenjälkiä on mahdollista muodostaa. Eräs yksinkertaisimmista on PeptideCutter, joka ei teekään mitään muuta. . On olemassa myös palvelimia, joiden avulla
tiettiä peptidisormenjälkeä voidaan verrata tietokantoihin. Eräs esimerkki tällaisesta suositusta palvelusta on ProFound. Kuten 2D-elektroforeesi ei massaspektrometriakaan ole kvantitatiivinen menetelmä, sillä havaittujen piikkien runsaus ei suoraan
mittaa proteiinin runsautta alkuperäisessä näytteessä.
31.2.3 Proteiinisirut
Proteiinisiruilla voidaan tunnistaa tuhansia proteiineja yhtäaikaisesti samaan tapaan kuin DNA-siruilla voidaan tunnistaa useita tuhansia erilaisia lähetti-RNAmolekyylejä yhtäaikaisesti. Proteiinisiruilla näytteessä olevien proteiinien tunnistus tapahtuu vasta-aineiden avulla. Vasta-aineet on perinteisesti totuttu mieltämään
hyvin spesifisiksi, mutta proteiinisirujen suurin ongelma on tähän mennessä ollut
vasta-aineiden ristireagoivuus, jolloin proteiinien tarkka tunnistaminen ei ole ollut
mahdollista. Proteiinisirut ovat kuitenkin laajan mielenkiinnon kohteena, ja ainakin pienemmät proteiinisirut on saatu toimimaan jo suhteellisen luotettavasti, joten lienee lähinnä ajan kysymys, että suuremmatkin proteiinisirut saadaan optimoitua riittävän spesifisiksi. On kuitenkin arvioitu, että ihmisen vasta-aineet kykenevät
tunnistamaan noin 4 miljoonaa erilaista molekyyliä. Jos ihmisen proteomin kooksi
arvioidaan 400000, on mahdollista, ettei kaikkia erilaisia proteiineja edes pystytä proteiinisiruja käyttäen erottelemaan, varsinkin kun monet proteiinit ovat saman
geenin tuotteita. Voikin olla, että yhden proteiinin tunnistaminen luotettavasti vaatii useiden vasta-ainamolekyylien käyttöä vähän samaan tapaan kuin Affymetrixsiruilla käytetään useita koettimia yhden ainoan lähetti-RNA-molekyylin tunnistamiseen.
31.3
Proteiinimallitus
Proteiinimallituksella pyritään selvittämään jonkin ennalta tuntemattoman proteiinin rakenne. Vähimmäinvaatimuksena proteiinimallitukselle on mallitettavan proteiinin aminohapposekvenssin tunteminen. Mallitusmenetelmät voidaan jakaa kahteen ryhmään sen mukaan, tunnetaanko jonkin mallitettavaa proteiinia muistuttavan proteiinin 3D-rakenne. Jos tällainen rakenne tunnetaan, voidaan proteiinin rakenne usein menestyksekkäästi selvittää homologiamallituksella. Jos rakennetta ei
tunneta, pitää turvautua muihin menetelmiin, kuten ab initio-menetelmiin. Kaikki
menetelmät perustuvat olettamukseen, että proteiinin paras konformaatio, yleensä
soluissa esiintyvä natiivimuoto, minimoi proteiinin energiatilan.
31.3.1 Homologiamallitus
Homologiamallituksessa mallitettavan proteiinin rakenne pyritään selvittämään jonkin toisen sitä muistuttavan proteiinin kolmiulotteisen rakenteen avulla. Proteiinien
3D-rakenteita on kerätty PDB-tietokantaan, ja kokeellisesti rakenteita voidaan määrittää esimerkiksi röntgendiffraktiografialla ja nuclear magnetic resonance (NMR)
-menetelmin. Jos mallitettava proteiini ja mallina käytettävä proteiini ovat vähintään 20-30välille muodostaa sekvenssirinnastus, ja siten myös homologiamallitusta
voidaan soveltaa. Jos sekvenssien välinen samankaltaisuus on vähäisempää, ei ho-
334
Bioinformatiikan perusteet
mologiamallitus luultavasti kykene tuottamaan luotettavaa mallia, ja on parempi
turvautua esimerkiksi ab initio-mallitukseen. Homologiamallitus koostuu seuraavista työvaiheista.
1. Etsi mallitettavan proteiinin lähisukulaiset. Lähisukulaisten etsintä tapahtuu
sekvenssisamankaltaisuuden perusteella, käytännössä esimerkiksi BLASThauilla. Koska näin tunnistetut aminohapposekvenssit toimivat mallituksessa
ohjeina siitä, kuinka mallitettava proteiini pitää laskostaa, kutsutaan sekvenssejä templaateiksi.
2. Rinnasta mallitettava sekvenssi ja templaattisekvenssit. Rinnastuksen muodostamiseen käytetään jotakin usean sekvenssin rinnastukseen soveltuvaa
ohjelmaa. Rinnastuksen perusteella voidaan selvittää alueet, jotka ovat konservoituneita mallitettavassa ja templaattisekvensseissä.
3. Muodosta malli. Mallin muodostamiseen on useita erilaisia menetelmiä. Eräässä käytetyimmistä menetelmistä templaattisekvenssejä vastaavat proteiinien
3D-mallit asetetaan päällekkäin rinnastuksen ohjaamana ja rakenteellisesti
konservoituneet alueet etsitään. Rakenteiden perusteella muodostetaan proteiinin selkäranka, jota käytteäen mallitettavan proteiinin malli sitten muodostetaan. Koska satunnaisrakenteet ovat yleensä selkärankaa vaihtelevampia, selkäranka ja satunnaisalueet mallitetaan yleensä erikseen.
4. Satunnaisrakenteiden mallintaminen. Satunnaisrakenteiden mallintamiseen
käytetään yleensä joko menetelmää, jossa tietokannasta valitaan paras sekvenssiä vastaava satunnaisrakenne, joka tunnetaan tai menetelmää, jossa etsitään molekyylidynamiikkaa käyttäen parasta konfromaatiota. Käytännössä
millä tahansa menetelmällä on hankala muodostaa hyviä malleja yli kuuden
aminohapon mittaisista satunnaisrakenteista.
5. Aminohappojen sivuketjujen mallintaminen. Kun proteiinin selkäranka on
saatu mallitettua kahdessa edellisessä vaiheessa, määritetään aminohappojen
sivuketjujen paikat. Sivuketjujen optimointiin voidaan käyttää esimerkiksi
molekyylidynamiikan menetelmiä.
6. Mallin validointi. Lopuksi suoritetaan mallin validointi. Mallin validoinnissa
tutkitaan, ovatko kaikki selkärangan hiiliketjun kulmat sallittujen joukossa,
ovatko atomien väliset sidosetäisyydet sallittuja ja ovatko sidosten väliset
kulmat järkeviä. Jos poikkeavia arvoja löydetään, mallia yleensä korjataan
käsin, kunnes validointi ei enää löydä poikkeavia arvoja.
Vaikka homologiamallituksessa käytetään monenlaisia laskennallisia menetelmiä, liittyy mallin muodostamiseen silti monia käsityövaiheita aina sekvenssirinnastuksen muodostamisesta alkaen. Käsityöstä riippumatta tai juuri siksi homologiamallitus on paras menetelmä, jos halutaan tuottaa korkealuokkaisia malleja ennalta tuntemattomista sekvensseistä. Esimerkiksi InsightII-ohjelmalla on mahdollista suorittaa kaikki yllä kuvatut työvaiheet CSC:n palvelimilla. Jos sekvenssien
rinnastus on hyvä, ja käytettävä rakennetemplaattikin on hyvä, voidaan homologiamallituksella päästä jopa 2 Å:n tarkkuuksiin. NMR- ja röntgenkristallografian menetelmin on tosin mahdollista päästä noin 0,25-0,75 Å:n tarkkuuksiin kokeellisesti, joten homologiamallistus jää vielä kauas varsinaisen laboratoriotieteen tarkuudesta. Menetelmän heikkoutena on, ettei se avulla voida koskaan mallittaa kaikkia
proteiineja, koska niille löydy vastaavuutta rakennetietokannoista.
31
Proteomiikka
335
31.3.2 Ab initio-mallitus
Ab initio-mallituksessa pyritään muodostamaan kolmiulotteinen proteiinimalli ennustamalla aluksi sekundäärirakenteiden, alfa-heliksien, beta-levyjen ja satunnaisrakenteiden, sijainnit. Sekundäärirakenteet laskostetaan sitten tertiäärirakenteiksi
käyttäen fysikaalisia perusperiaatteita. ab initio tarkoittaakin perusperiaatteista, tässä tapauksessa esimerkiksi Shrödingerin aaltoyhtälöstä, lähtemistä. Menetelmä olettaa, että proteiinin paras konformaatio, yleensä soluissa esiintyvä natiivimuoto, minimoi proteiinin energiatilan. Mallitettavan proteiinin energiatilan minimoimiseksi
tarvitaan sen potentiaalienergiaa kuvaavan funktio, tapa laskea tietyn mallin potentiaalienergia, ja tapa muuttaa mallia potentiaalienergian minimoimiseksi. Nämä
toteutuvat eri menetelmissä hyvin eri tavoin. Periaatteessa voitaisiin esimerkiksi
Schrödingerin aaltoyhtälöon perustuvia kvanttimekaniikasta johdettuja potentiaaleja, mutta käytännössä niitä ei käytetä suuren laskenta-aika vaatimuksen vuoksi. Niinpä yleensä käytetäänkin empiirisiä voimakenttiä, joissa proteiinirakenteen
potentiaalienergiaa arvioidaan muun muassa atomien sidoskulmien- ja energioiden avulla. Parhaan proteiinin laskostumistilan etsimiseen (potentiaalienergian minimoimiseen) käytettävät menetelmät vaihtelevat käytetyn voimakentän mukaan.
Käytettyjä menetelmiä ovat muun muassa Monte Carlo, simuloitu jäähdytys ja geneettisiin algoritmeihin perustuvat menetelmät. Menetelmiä on tarkemmin kuvattu
molekyylisystematiikan yhteydessä.
Muodostettu pienimmän potentiaalienergian omaava malli validoidaan vertaamalla sitä tunnettuihin rakenteisiin, ja laskemalla proteiiniselkärankojen keskimääräinen neliöity etäisyys. Paremmalla mallilla on huonompaa mallia suurempi neliöity etäisyys. Ab initio-mallituksella ei voida vielä ennustaa aminohappojen sivuketjujen konformaatioita, vaan mallituksessa keskitytään lähinnä selvittämään tutkittavan proteiinin selkäranka. Koska ab initio-mallituksessa sovelletaan fysikaalisia perusperiaatteita, joudutaan suorittamaan suuri määrä laskutoimituksia pelkästään yhden proteiinin rakenteen ennustamiseksi. IBM:n muutamia vuosia sitten
aloittama Blue Gene-projekti tähtää sellaisen laskentakapasiteetin kehittämiseen,
että tuntemattomien proteiinien rakenne voitaisiin ennustaa kuvattua menetelmää
käyttäen. Tällä hetkellä ab initio-menetrelmillä päästään noin 4 Å:n tarkkuuteen
pienillä proteiineilla.
31.3.3 Rakenneprofiilimenetelmä
Laskosten tunnistamiseen perustuva rakenneprofiilimenetelmä (fold recognition,
structure profiling) pyrkii löytämään mallitettavassa proteiinissa oleville lyhyille
sekvenssipätkille hyviä osumia rakennetietokannasta. Mallitettavan proteiinin osalle ennustetaan rakenne laskennallisesti, ja pyritään löytämään tietokannasta sellainen rakenne, joka on hyvin lähellä ennustettua. Toisin sanoen, rakenneprofiilimenetelmässä pyritään etsimään sellainen rakenne, jonka laskostuva rakenne todennäköisesti omaksuisi. Kunhan tällainen rakenne on tunnistettu, voidaan sitten edetä kuin homologiamallinnuksessa, ja ennustaa satunnaisrakenteet sekä optimoida
aminohappojen sivuketjujen konformaatiot.
Tällä hetkellä menetelmän sovellettavuutta rajoittaa se, että suurin osa PDBtietokannassa olevista laskoksista on toistensa kopioita, sillä sama laskos voi esiintyä useissa proteiineissa. Kunhan PDB:ssä olevien rakenteiden valikoima monipuolistuu, laskosten tunnistamiseen perustuva mallitusmenetelmää tulee varmasti entistä käyttökelpoisemmaksi. Onkin arvioitu, että erilaisia laskoksia olisi vain muutamia tuhansia, kun erilaisia proteiineja on eliökunnassa luultavasti useita miljoonia. Niinpä rakenneprofiilimenetelmä on varmasti eräs tulevaisuudessa suosituimmuuttaan selkeästi kasvattavista mallitusmenetelmistä.
336
Bioinformatiikan perusteet
31.3.4 Laskostaminen
Laskostaminen eli threading on menetelmä, jossa käytetään apuna tunnettuja rakenteita seuraavasti. Päämääränä on muodostaa rakenne, joka vastaa tunnettua rakennetta parhaalla mahdollisella tavalla. Energiafunktio kertoo todennäköisyyden, että
tietty aminohapposekvenssi muodostaa tietyn rakenteen. Tarkoituksena on tätä tietoa käyttäen etsiä paras mahdollinen vastaavuus mallitettavan ja templaattirakenteiden välille. Threading-menetelmän luotettavuus kasvaa sitä mukaa, kun PDBtietokantaan lisätään uusia rakenteita, aivan kuten rakenneprofiilimenetelmänkin.
Osa V
Liitteet
338
Bioinformatiikan perusteet
32 Lukujen tiivistelmät
32.1
Johdanto ja bioinformatiikan historia
Bioinformatiikka on tieteenala, jolle on olemassa useita määritelmiä. Perinteisen
määritelmän mukaan bioinformatiikalla tarkoitetaan lähinnä sekvenssianalyysiä ja
fylogenetiikkaa, mutta sittemmin määritelmää on laajennettu kattamaan myös esimerkiksi DNA-mikrosirumenetelmät, proteomiikka ja geenikartoitus. Bioinformatiikka sai alkunsa biologisten tietokantojen paisuttua niin suuriksi, että niiden sisältämän tiedon hallintaan ja analysointiin tarvittiin tietokonemenetelmiä. Biologisen
tiedon järjestely ja analysointi on edelleenkin bioinformatiikan keskeisimpiä toimialoja.
32.2
Laskennallisen biologian perusteet
Algoritmi on yksittäisistä komennoista koostuva komentokoelma, joka kertoo, kuinka jokin tehtävä suoritetaan. Tietokoneohjelman sisuksissa toimii useimmiten yksi tai useampia ohjelmalle annettavan tehtävän ratkaisuun keskittyviä algoritmeja.
Lisäksi ohjelmassa on käyttöliittymä, joka ei osallistu ongelmanratkaisuun. Tietokoneohjelman nopeus ja muistintarve riippuu usein siitä, miten hyvä algoritmi
ongelmanratkaisua varten on onnistuttu kehittämään. Muistintarpeeseen voidaan
vaikuttaa algoritmikehityksellä, mutta laskentaa voidaan nopeuttaa algoritmikehityksen lisäksi rinnakkaistamalla ongelmanratkaisu. Tällöin ongelma pilkotaan pienemmiksi paloiksi, joista jokaisen ratkaisee yksi erillinen tietokoneprosessori. Tavallisessa kotikoneessa on yksi prosessori, supertietokoneissa jopa tuhansia.
32.3
Esiteltävien menetelmien sovellusalueet
Kirjassa esiteltäville menetelmille on monia sovelluksia, joista tässä mainitaan vain
muutamia esimerkkejä. Sekvenssien hankkimiseen käytetään erilaisia tietokantoja,
joita on niin DNA- kuin aminohapposekvensseillekin. Sekvenssien perusteella voidaan selvittää esimerkiksi kyetäänkö tarvittava geeni katkaisemaan laboratoriossa
halutusta kohtaa mahdollista muokkausta silmälläpitäen. Sekvenssien avulla voidaan myös selvittää, onko esimerkiksi kahdella eri eliöstä peräisin olevalla geenillä tai proteiinilla samanlaisia piirteitä tai tiettyä toimintaa suorittavai osia. Tällöin
sovelletaan sekvenssien parittaista rinnastusta. Usean sekvenssin rinnastusten perusteella voidaan selvittää useamman sekvenssin yhteisiä piirteitä tai niiden evoluutiohistoriaa. Bioinformatiikan yleisimmin sovellettu menetelmä BLAST, vertaa
käyttäjän sekvenssiä tietokannssa oleviin sekvensseihin. Usein tätä käytetään esimerkiksi tuntemattoman sekvenssin toiminnan selvittämiseen.
32
Lukujen tiivistelmät
32.4
339
Sekvensointi ja DNA-sekvenssit
Sekvensointi on menetelmä, jolla jostakin eliöstä eristettyjen nukleiinihappopätkien (DNA tai RNA) sekvenssi voidaan selvittää. Esimerkiksi HUGO-projektissa
selvitettiin ihmisen koko perimän (DNA:n) nukleotidijärjestys. Tällainen sekvenssi esitetään useimmiten tietokoneelle neljän kirjaimen (A, C, G ja T) peräkkäisenä
luetelmana, sekvenssinä. Usein tutkivat tallettavat sekvensoimansa sekvenssit julkisiin tietokantoihin, jolloin kuka tahansa pääsee niihin käsiksi, ja hyödyntämään
tätä informaatiota. Sekvensseissä on kuitenkin usein virheitä, erityisesti sekvenssin alku- ja loppupäissä, joten käytettäessä julkisia sekvenssejä, on niiden laatuun
aluksi suhtauduttava varauksella. Erityisen paljon virheitä on sekvensseissä, jotka
on saatu lukemalla nukleiinihapon sekvenssin kertaalle. Tällaisia ovat esimerkiksi
expressed sequence tag (EST) -sekvenssit.
32.5
Biotietokannat
Biotietokantoihin on vuosien saatossa talletettu suuri määrä DNA- ja aminohapposekvenssejä, proteiinien kristallirakenteita ja aminohapposekvenssien tunnisteita.
Pääasiallisia DNA-sekvenssien tallennuspaikkoja ovat Genbank- ja EMBL-tietokannat,
joissa molemmissa on saatavilla tismalleen samat sekvenssit. Aminohapposekvenssien pääasiallinen sijoittamispaikka on Uniprot-tietokanta, ja kristallirakenteita löytyy PDB-tietokannasta. Aminohapposekvensseistä löytyviä proteiiniperheitä määritteleviä tunnisteita on koottu InterPro-tietokantaan.
32.6
Pisteytysmatriisit
Pisteytysmatriisilla tarkoitetaan taulukkoa, jossa on ilmoitettu, kuinka paljon maksaa muutos esimerkiksi aminohappo alaniinista valiiniksi tai nukleotidi adeniinista tymiiniksi. Pisteytysmatriisia käytetään sekvenssirinnastusten yhteydessä rinnastusten pisteyttämiseen yhdessä aukkosakkojen kanssa. Lisäksi pisteytysmatriisia käytetään erityisesti aminohapposekvensseille evoluutiomallia molekyylisystematiikan analyysien yhteydessä. Pisteytysmatriiseja on useita erilaisia, ja kenties
käytetyimpiä ovat evolutiiviseen mallin perustuvat PAM- ja JTT-sarjat sekä sekvenssien konservoitumisasteeseen perustuvat Blosum- ja Gonnet-sarjat. Kukin sarja sisältää useita erilaisia matriiseja, joiden käyttö määräytyy sen mukaan, kuinka samankaltaisille sekvensseille analyysiä ollaan tekemässä. Esimerkiksi Blosumsarjan matriisia Blosum62 käytetään n. 62sekvensseille.
32.7
Aukkosakot
Aukkosakkojen avulla ilmoitetaan kuinka paljon maksaa uuden aukon avaaminen
tai jo avatun aukon jatkaminen sekvenssirinnastuksessa. Tätä kutsutaan affine gaps
-malliksi. Sekvenssirinnastuksen pistemäärä määräytyy aukkosakkojen ja pistetystmatriisin yhteisvaikutuksena: Pitsetysmatriisista saadut pistemäärät lisätään rinnastuksen pistemäärään tai vähennetään, mikäli ne ovat negatiivisia, mutta aukot ja
aukkosakot voivat ainoastaan vähentää rinnastuksen saamaa pistemäärää.
32.8
Kahden sekvenssin rinnastus
Kaksi sekvenssiä voidaan rinnastaa koko matkaltaan, jolloin puhutaan kokonaisrinnastuksesta, tai siten, että etistään vain parhaiten toisiaan vastaavat alueet, jolloin puhutaan paikallisesta rinnastuksesta. Kahden sekvenssin rinnastukseen on
olemassa kolmenlaisia menetelmiä, pistematriisimenetelmä, sanakokomenetelmä
340
Bioinformatiikan perusteet
ja dynaaminen optimointi. Pistematriisimenetelmässä rinnastettavat sekvenssit sijoitetaan taulukon ensimmäiselle riville ja ensimmäiseen sarakkeeseen, ja taulukon
soluihin merkitään vastaavuutta merkitsevä piste jos sillä kohdin molemmissa sekvensseissä on sama aminohappo tai nukleotidi. Sanakokomenetelmää käytetään
tietokantahakujen yhteydessä, ja se kuvataan tarkemmin seuraavassa luvussa. Dynaamisessa optimoinnissa sekvenssit sijoitetaan taulukkoon kuten pistematriisimenetelmässä, mutta nyt apuna käytetään pisteytysmatriisia ja aukkosakkoparametreja. Tällaista pistetytystä käyttäen pyritään löytämään mahdollisimman pienen yhteispistemäärän saava reitti taulukon läpi vasemmasta ylänurkasta oikeaan alanurkkaan. Dynaaminen optimointi antaa käytetyillä parametreilla aina laskennallisesti
parhaan mahdollisen rinnastuksen, joka ei tietenkään ole välttämättä biologisestu paras rinnastus. Dynaamista optimointia käyttäviä algoritmeja on kaksi, joista Needleman-Wusch tuottaa kokonaisrinnastuksen ja Smith-Waterman paikallisen
rinnastuksen.
32.9
Sekvenssihaut
Sekvenssihauissa käytetään sanakokoon perustuvia nopeita rinnastusmenetelmiä,
sillä muutoin hakusekvenssiä vastaavat sekvenssin löytäminen tietokannoista kestäisi suhteettoman pitkään. Alunperin tietokantahakuihin käytettiin FastA-ohjelmia,
mutta sittemmin BLAST-ohjelmat ovat pitkälti korvanneet FastA:n lähinnä suuremman nopeutensa vuoksi. BLAST-haku perustuu siihen, että hakusekvenssi pilkotaan lyhyiksi, sanakoon määräämän mittaisiksi pätkiksi, joille sitten etsitään tietokannasta samanlaisia tai aiankin hyvin samankaltaisia osumia. Lähekkäin sattuvat osumat yhdistetään, ja niiden määräämä alue hakusekvenssin ja tietokannan
sekvenssin välillä rinnastetaan Smith-Watermanin dynaamista optimointialgoritmia käyttäen. Näin saaty paikallinen rinnastus ilmoitetaan käyttäjälle osumana tietokantaan.
32.10
Usean sekvenssin rinnastus
Usean sekvenssin rinnastuksen tarkoituksena on tuottaa rinnastettavista sekvensseistä kokonaisrinnastus. Tällainen rinnastus voidaan tuottaa dynaamista optimointi käyttäen, mutta en vaatima ajoaika ja muistitarve ovat varsin suuria. Siksi usean
sekvenssin rinnastukseen onkin kehitetty nopeampia, joskin vähemmän tarkkoja
menetelmiä. Useimmat usean sekvenssin rinnastusta tekevät ohjelmta käyttävät
progressiivista menetelmää, joka koostuu kolmesta vaiheesta. Ensin muodostetaan
rinnastettavien sekvenssien väliset parittaiset rinnastukset, ja näiden perusteella laskettujen sekvenssien välisten etäisyyksien perusteella muodostetaan puu. Usean
sekvenssin rinnastus muodostetaan käyttäen puuta apuna siten, että ensimmäisenä rinnastetaan kaikkein samankaltaisimmat sekvenssit, ja viimeiseksi rinnastukseen lisätään kaikkein erilaisin sekvenssi. Progressiivisen menetelmän lisäksi käytössä on myös geneettisiin algoritmeihin perustuvia menetelmiä. Niissä paras rinnastus pyritään löytämään matkimalla evoluution kulkua eli luomalla rinnastuksiin
mutaatioita ja rekombinaatioita, ja sitten valitsemalla muodostuneiden rinnastusten
joukosta paras. Parhaaksi rinnastukseksi katsotaan se, joka saa parhaan pistemäärä
pisteytysmatriisi ja aukkosakot huomioon ottaen.
32.11
PCR-alukkeiden suunnittelu
PCR-alukkeiden suunnittelu on laboratoritöitä ajatellen varsin keskeinen menetelmä, jonka soveltaminen vaatii tietoa sekä laboratorimenetelmistä että bioinformatiikan menetelmistä. Keskesitä on löytää sellaiset alukkeet, jotka sitoutuvat soesifisesti vain halutulle alueelle, ja jotka eivät esimerkiksi sitoudu toisiinsa tai muodosta
32
Lukujen tiivistelmät
341
itsekseen hankalasti purkautuvia rakenteita. Bioinformatiikan menetelmin voidaan
tarkentaa PCR-alukkeiden sitoumisaluetta (BLAST-haku) ja alukkeen muodostamisen rakenteiden (dotplot) mahdollista vaikutusta sen toimvuuteen varsinaisessa
PCR-reaktiossa laboratoriossa.
32.12
Pistemutaatioiden seulonta tietokannoista
Nykyiset tietokannat sisältävät jo suuren määrän ihmisen ja muidenkin eliöiden
pistemutaatioita, SNP:ja. Uusien pistemutaatioiden seulominen tietokannoista on
kuitenkin edelleen mahdollista ja järkevää silloin, jos halutaan selvittää erityisesti
miten paljon tukea SNP saa ts. kuinka monessa sekvenssissä sama muutos esiintyy. Helpoin tapa etsiä pistemutaatioita on käyttää BLAST-hakua. Tunnistettujen
pistemutaatioiden joukosta on sitten seulottava luotettavat eli sellaiset, jotka esiintyvät useammissa sekvensseissä ja mielenkiintoiset eli pääosin ne, jotka aiheuttavat aminohappomuutoksia tai sijaistevat esimerkiksi geenien promoottorialueella.
Tunnettuja pistemutaatioita voidaan käyttää jatkotutkimuksissa muun muassa populaatiogenetiikassa, geenikartoituksessa ja farmakogenomiikassa.
32.13
DNA-sekvenssien ominaisuuksien sevlittäminen
DNA-sekvenssistä voidaan selvittää monia laboratoriotyötä helpottavia asioita, kuten sen GC-pitoisuus ja siten myös sen sulamislämpö tai restriktioentsyymien katkaisukohdat geenin monistamista ja kloonaamista varten. Ihmisen genomi tunnetaan jo sekvenssitasolla suhteellisen hyvin, joten geenien eksonien ja intronien
määritys onnistuu enimmäkseen varsin luotettavasti pelkkiä bioinformatiikan menetelmiä (parittainen rinnastus geenin ja lähetti-RNA:n välillä) soveltaen. Vaihtoehtoisen silmikoinnin ja antisense-RNA-molekyylien tunnistaminen sen sijaan ei ole
yhtä suoraviivaista, mutta esimerkiksi antisense-RNA:n selvittäminen onnistuu yksinkertaisimmillaan, kun tehdään BLAST-haku käyttäen hakua, joka kohdistuu vain
toiseen juosteeseen. Jos haussa löytyy sellaisia lyhyitä EST- tai lähetti-RNA- sekvenssejä, jotka ovat varsinaiselle lähetti-RNA:lle komplementaarisia, on kyseessä
mahdollinen antisense-RNA.
32.14
Aminohapposekvenssin ominaisuuksien selvittäminen
Aminohapposekvenssin perusteella on DNA-sekvenssiä helpompaa ennustaa syntyvät proteiinin sekundäärirakenteita, kuten hydrofobisia alueita tai alfaheliksejä ja
betalevyjä. Sekundäärirakenteiden ennustaminen perustuu pitkälti valmiiksi taulukoiduille arvoille, joiden perusteella voidaan laskea todennäköisyys, että tietty aminohappopätkä muodostaa esimerkiksi alfaheliksin. Hydrofobiset alueet voidaan ennustaa samaan tapaan käyttäen eri aminohapoille määritettyjä hydrofobisuusarvoja.
Sekundäärirakenteiden ennustaminen onnistuu oikein keskimäärin 60-70eli parannettavaakin vielä on. Eri proteiinien rakenteiden rinnastaminen kristallirakennetta
käyttäen onnistuu esimerkiksi SSAP- ja DALI-algoritmeja käyttäen, joita käyttäen
lasketaan eri rakenneatomien välinen etäisyys, joka sitten rinnastuksen tuottamiseksi pyritään minimoimaan. Tällaisen rakennerinnastuksen tekeminen on sekvenssirinnastusta vaativampaa, sillä rinnastuksessa tulee ottaa huomioon myös proteiinin selkärangan (hiiliatomit) rakenne itse sekvenssin lisäksi.
32.15
Tuntemattoman sekvenssin toiminnan selvittäminen
Tuntemattoman sekvenssin toiminnan selvittäminen on haastavaa, mutta pelkkiä
bioinformatiikan menetelmiä soveltaen päästään usein varsin pitkälle. Bioinforma-
342
Bioinformatiikan perusteet
tiikan menetelmät eivät tietenkään onnistu ennustuksessaan, jos vastaavankaltaisia sekvenssejä ei ole tietokannoissa tai niidenkään toimintaa ei tunneta. Toiminnan selvittäminen nojaa usein vahvasti BLAST:lla toteutettuihin homologiahakuihin. Jos tietokannoista löytyy hakusekvenssille hyvin samankaltainen sekvenssi,
on tuntemattoman sekvenssin toiminta usein samanlainen kuin tietokannasta löytyvän sekvenssin. Aminohapposekvenssien toiminnan selvittämiseen voidaan käyttää
tunnistetietokantoja. Lisäksi hankalissa tapauksissa molekyylisystematiikan menetelmin tapahtuva puun muodostaminen ja tuntemattomien sekvenssien toiminna
päättely sitä käyttäen johtaa usein hyviin tuloksiin. Myös DNA-sirujen käyttäminen apuna on mahdollista, sillä usein samalla tavalla ekspressoituvat geenit toimivat
samalla tavoin tai liittyvät samaan biologiseen funktioon.
32.16
Johdatus molekyylisystematiikkaan
Molekyylisystematiikan avulla pyritään selvittämään esimerkiksi lajien tai geenien evoluutiohistoriaa, mutta myös esimerkiksi virusinfektioiden etenemistä (molekyyliepidemiologia) tai samankaltaisten geenien funktioita. Menetelmät perustuvat oletukseen, että evoluutio on edennyt mahdollisimman yksinkertaisesti, ja että
sitä voidaan kuvata kahtiajakoisella (dikotomisella) puulla. Saatujen tulosten perusteella esimerkiksi eliölajit luokitellaan hierarkkisesti monofyleettisiin ryhmiin,
jotka ovat toisensa poissulkevia. Systematiikan pääsuuntaukset ovat kladistiikka ja
fenetiikka, jotka eroavat menetelmiltään ja tutkimusfilosofialtaan. Nykyisin valtaosa julkaistuista artikkeleista soveltaa kladistisia menetelmiä.
32.17
Tavanomaisen analyysin eteneminen
Analyysi alkaa sopivien sekvenssien valinnalla, mikä on toisinaan hyvinkin yksiviivaista. Esimerkiksi bakteerien systematiikan selvittämiseen käytetään miltei yksinomaan 16S rRNA sekvenssejä. Sekvenssejä valitessa pitää pohtia, käytetäänkö
analyysissä ulkopuolista informaatiota ulkoryhmän muodossa vai juurretaanko puu
jollakin muulla tavalla. Mielenkiintoiset lajit muodostavat sisäryhmän. Sekvenssien valinnan jälkeen on tutkittava sekvenssijoukkoa sen verran, että voidaan valita
sille sopiva evoluutiomalli ja analyysimenetelmä. Sekvenssit rinnastetaan valittua
evoluutiomallia käyttäen, ja samaa mallia tulisi käyttää myös varsinaisessa analyysissä. Varsinaisessa analyysissä voidaan käyttää etäisyys-, parsimonia-, suurimman
uskottavuuden tai bayesilaisia menetelmiä. Analyysin lopuksi tutkitaan saadun tuloksen luotettavuutta esimerkiksi bootstrapping-menetelmää käyttäen.
32.18
Evoluutiomallit
Evoluutiomallilla tarkoitetaan kuvausta siitä, miten sekvenssievoluutio on olettu tapahtuvan tutkittavassa sekvenssijoukossa. Aminohapposekvensseille käytetään useimmiten jotakin soveltuvaa pisteytysmatriisia, kuten aminohappojoukkoon parhaiten
sopivaa PAM- tai JTT-matriisia, jotka on muodostettu alunperinkin evolutiivista työskentelyä ajatellen. DNA-sekvensseille käytetään useimmiten jotakin matemaattista mallia. Yksinkertaisin malli on Jukes-Cantor, joka olettaa, että kaikki
nukleotidit ovat yhtä yleisiä, ja että muutokset mistä tahansa nukleotidista miksi tahansa toiseksi nukleotidiksi ovat yhtä yleisiä. Näitä malleja käytetään yleensä etäisyys- , suurimman uskottavuuden ja bayesilaisten menetelmien yhteydessä,
mutta vastaavanlaisia malleja voidaan toteuttaa myös parsimoniamenetelmällä.
32
Lukujen tiivistelmät
32.19
343
Etäisyysmenetelmät
Etäisyysmenetelmissä lasketaan aluksi sekvenssien väliset etäisyydet usean sekvenssin rinnastuksen perusteella. Etäisyyksien laskemisessa käytetään hyväksi valittua evoluutiomallia. Tällöin koko parittaisen rinnastuksen sisältämä informaatio
tiivistyy yhteen sekvenssien samankaltaisuutta kuvaavaan lukuarvoon, joiden perusteella voidaan muodostaa puu jotakin soveltuvaa menetelmää käyttäen. Aiemmin käytettiin paljon UPGMA-menetelmää, mutta sen tekemät oletukset eivät ole
realistisia, ja nykyisin suosituin menetelmä lieneekin neighbor-joining (NJ), jonka
tekemät oletukset vastaavat todellisuutta UPGMA:ta paremmin.
32.20
Parsimoniamenetelmä
Parsimoniamenetelmässä kutakin sekvenssirinnastuksen paikkaa tarkastellaan erikseen. Tavoitteena on muodostaa sellainen puu, jossa on tapahtunut pienin määrä
muutoksia jostakin nukleotidista tai aminohaposta toiseksi. Analyysissä käytetään
vain informatiivia ominaisuuksia, siis sellaisia rinnastuskohtia, joissa vähintään
kahdessa sekvenssiä on sama, muista eriävä nukleotidi tai aminohappo. Pienimmän määrän muutoksia sisältävää puuta kutsutaan lyhyimmäksi puuksi (muutosten
määrä on sen pituus) tai parhaaksi parsimoniapuuksi. Puuta muodostettaessa voidaan käyttää erilaisia optimaalisuuskriteereitä: esimerkiksi Fitchin kriteeri olettaa,
että kaikki muutokset ovat mahdollisia ja ne ovat yhtä kalliita. Tätä mallia käytetään yleensä sekvenssiaineistoille, ja sen voidaan katsoa edustavan evoluutiomallia
parsimoniamenetelmän yhteydessä.
32.21
Suurimman uskottavuuden menetelmät ja bayesilaiset
menetelmät
Suurimman uskottavuuden ja bayesilaiset menetelmät tarkastelevat parsimoniamenetelmän tapaan kutakin sekvenssirinnastuksen kohtaa muista irrallaan. Menetelmien päämääränä on löytää sellainen puu, jonka uskottavuus havaitulla sekvenssirinnastuksella on mahdollisimman suuri. Uskottavuus ilmoitetaan usein logaritmisesti, esimerkiksi LnL=-134.56, ja mitä lähempänä nollaa se on, sitä uskottavampi puu. Puun uskottavuuden laskemiseen käytetään valittua evoluutiomallia. Bayesilaisissa menetelmissä määriteään lisäksi niin sanottu priorijakauma, jonka mukaan puiden uskottavuuksien uskotaan jakautuneen. Priorijakauman määrittäminen
vaikuttaa posteriorijakauman (parhaan puun uskottavuuden) laskemiseen, ja siten
myös tuloksiin.
32.22
Superpuumenetelmät
Superpuumenetelmien tarkoituksena on yhdistellä toisistaan riippumattomien aineistojen tuottamia puita. Periaate eroaa konsensus-menetelmistä siinä, ettei kaikissa yhdistettävissä puissa tarvitse olla mukana samoja lajeja, joskin vähintään parin
lajin täytyy olla mukana kaikissa puissa. Vanhin ja edelleen käytössä oleva superpuumenetelmä on matrix representation with parsimony (MRP), joka koodaa yhdistettävien puiden sisältämän informaation additiivisiksi binäärisiksi muuttujiksi
ja yhdistetyn puun löytämiseksi analysoi koodatut ominaisuudet parsimoniamenetelmää käyttäen. Superpuumenetelmät ovat saaneet osakseen paljon kritiikkiä, joka
pääasiassa pyörii sen kysymyksen ympärillä, pitäisikö analyysissä pyrkiä enemmin
taksonomiseen yhteensopivuuteen (superpuumenetelmät) vain yksittäisten ominaisuuksien yhteensopivuuteen (ei aineistojen yhdistetty analyysi).
344
32.23
Bioinformatiikan perusteet
Parhaan puun löytäminen ja
uudelleenjärjestelymenetelmät
Kun puuta muodostetaan jollakin muulla kuin etäisyysmenetelmällä, sekvenssi sijoitetaan puussa sille kohtaa, jossa se antaa tulokseksi kaikkein lyhyimmän tai uskottavimman puun. Useimmiten näin ei kuitenkaan saada suoraan luotua kaikkein
parasta puuta, sillä sekvenssien lisäysjärjestys vaikuttaa puun muotoon ja sitä kautta
myös pituuteen tai uskottavuuteen. Siksi parhaan puun etsintä toteutetaankin usein
siten, että sekvenssien lisäysjärjestys arvotaan satoja ja tuhansia kertoja, ja näiden
tuloksena saatujen puiden joukosta valitaan paras. Käytännössä tämäkään ei vielä
riitä, vaan puuta on uudelleenjärjesteltävä. Tällöin puusta katkotaan tietty osa, joka
liitetään uudelleen joko samaan tai johonkin muuhun puuhun hieman eri kohtaan,
ja jos puun pituus lyhenee tai uskottavuus paranee, valitaan tämä uusi puu parhaaksi puuksi. Perinteisiä uudelleenjärjestelymenetelmiä ovat NNI, SPR ja TBR, joista
NNI on yksinkertaisin ja TBR monipuolisin. Lisäksi on kehitetty joukko uudempia ja tehokkaampia uudelleenjärjestelymenetelmä, kuten ratchet, tree fusing ja tree
drifting, joiden avulla paras puu voidaan useimmiten löytää pelkkiä perinteisiä menetelmiä nopeammin.
32.24
Puun luotettavuuden arviointi ja konsensuspuut
Parhaan puun löydyttyä pyritään yleensä arvioimaan sen saamaan tukea tai luotettavuutta. Tähän soveltuvia menetelmiä ovat esimerkiksi bootstrapping, jolla pyritään
määrittämään puun oksien vaihteluväli, jackknifing sekä erityisesti parsimoniaanalyysin yhteydessä käytetty Bremein tukiarvo. Jos analyysin tuloksena on useita
puita, voidaan niiden sisältämä informaatio tiivistää yhdeksi puuksi konsensusmenetelmiä käyttäen. Esimerkiksi majority rule-konsensuspuussa esitetään vain sellaiset ryhmät, jotka esiintyvät vähintään 50vertailla keskenään erilaisin tilastollisin testein (Kishino-Hasegawa) ja niitä käyttäen voidaan esimerkiksi testata, tukeeko aineisto tiettyjen lajien luokittelua monofyleettiseksi ryhmäksi (parametrinen
bootstrapping).
32.25
Molekyylisystematiikan avoimia kysymyksiä
Molekyylisystematiikassa on edelleen useita avoimia kysymyksiä. Tällä hetkellä keskustellaan paljon siitä, pitäisikö analyysissä pyrkiä useiden eri aineistojen
väliseen yhteensopivuuteen (taksonominen yhteensopivuus) vai pikemminkin eri
ominaisuuksien yhteensopivuuteen. Myös long brach attraction (LBA) -ongelma
on ratkaisematta. LBA:ssa pitkät oksat sijoittuvat puussa yhteen yksinomaan siitä
syystä, että ne kaikki ovat pitkiä. Ongelman havaitsemiseen ja ratkaisemiseen ei
ole vielä kehitetty yksinkertaista ratkaisua. Lisäksi keskustelua herättää taksoniotanta. Taksoniotannalla tarkoitetaan analysoitavien sekvenssien valintaa. Keskustelussa on kiinnitetty huomiota erityisesti siihen, voidaanko sopivalla taksoniotannalla poistaa analyysiin vaikuttavia satunnaisia ja systemaattisia virheitä tai ainakin vähentään niiden vaikutusta tuloksiin. Ratkaisematta on myös eri menetelmien
keskinäinen paremmuus tulosten tarkkuudella mitattuna, vaikka useimmat simulaatiotutkimukset puhuvatkin ennemmin suurimman uskottavuuden menetelmien kuin
parsimonia puolesta.
32.26
Promoottorianalyysi
Promoottorianalyysin tarkoituksena on selvittää, millaisia geenitoimintaa ohjaavien transkriptiofaktoreiden sitoutumiskohtien geenistä ylävirtaan sijaitsevalla pro-
32
Lukujen tiivistelmät
345
moottorialueella sijaitsee. Tähän on pääasiassa kahdenlaisia menetelmiä. Jos on
tarkoituksena etsiä jo tunnettujen transkriptiofaktoreiden sitoutumiskohtia, käytetään yleensä PSSM-matriiseihin perustuvia menetelmiä. Sitoutumiskohtaa kuvaava PSSM-matriisi on muodostettu tunnettujen sitoutumiskohtien perusteella, ja sen
avulla voidaan helposti löytää uudesta sekvenssistä sama sitoutumiskohta. Ongelmana on, että vaikka kaikki oikeat sitoutumiskohdat löydetään, tunnistetaan myös
suuri määrä sellaisia kohtia, joihin sitoutumista ei oikeasta tapahdu. Tuntemattomien sitoutumiskohtien löytämiseen käytetään esimerkiksi Gibbsin otantaan tai
EM-algoritmiin perustuvia menetelmiä, joissa tarkoituksena on löytää useissa sekvensseissä olevia, lyhyitä, suhteellisen samanlaisia sekvenssialueita. Väärien positiivisten löydösten harventamiseksi promoottorianalyysin tukena käytetään usein
fylogeneettisiä sormenjälkiä, millä tarkoitetaan sekvenssialueiden konservoitumista evoluutiossa, sekä DNA-sirutuloksia, jolloin menetelmiä sovelletaan ainoastaan
samalla tavalla ilmentyvien geenien joukkoon.
32.27
DNA-sirut
DNA-sirujen avulla voidaan tutkia geenien ekspressiota, määrittää yhden nukleotidin muutoksia tai uudelleen sekvensoida kokonaisia geenejä. Geenien ilmentymisen tutkimiseen suunniteltuja siruja on lähinnä lahta päätyyppiä, cDNA-siruja,
joilla geenit tunnistavat koettimet ovat pituudeltaan muutamia satoja nukleotideja,
ja Affymetrix-siruja, joilla koettimet ovat noin 20 nukleotidia pitkiä. cDNA-siruille
hybridisoidaan kerralla kahta näytettä, tutkimusnäytettä ja sille valittua kontrollia. Siksi niiden tuottamia aineistoja kutsutaan kaksiväridataksi. Affymetrix-siruille
puolestaan hybridisoidaan kerrallaan vain yhtä näytettä, ja niiden tuottamaa aineistoa kutsutaan yksiväridataksi. Varsinainen data-analyysi koostuu yleensä esikäsittelyvaiheista, kuten normalisoinnista, jossa eri sirut saatetaan keskenään vertailukelpoisiksi, suodatuksesta, jossa aineistosta poistetaan epäluotettavat ja epäkiinnostavat havainnot, ja varsinaisesta analyysistä, jossa pyritään etsimään aineistosta mielenkiintoiset geenit erilaisia tilastollisia menetelmiä käyttäen. Lisäksi saatujen tulosten biologista merkitystä pyritään vielä analysoimaan varsinaisten tulosten
saavuttamisen jälkeen. Tähän voidaan käyttää esimerkiksi GO-ontologioiden antamaa tietoa geenien toiminnasta tai metaboliakarttojen sisältämää informaatiota eri
geenien funktioista erilaisissa metaboliaverkoissa.
32.28
RNA:n sekundäärirakenteen selvittäminen
RNA:n sekundäärirakenteen selvittämiseen käytetään lähinnä kahdenlaisia menetelmiä. Minimienergiamenetelmä pyrkii löytämään sellaisen laskostumisrakenteen,
jonka vapaa energia on mahdollisimman pieni. Tällainen rakenne voidaan löytää helposti dynaamista optimointia käyttäen, sillä erilaisten emäsparien sitoutumisenergiat tunnetaan. Toinen vaihtoehto on käyttää kovariaatiomenetelmää, jossa
usean eri eliöistä otetun saman RNA-molekyylin rinnastuksen perusteella pyritään
selvittämään, mitkä sekvenssikohdat muuntelevat yhdessä. Yhdessä muuntelevat
sekvenssikohdat saattavat nimittäin vastata emäspariutumisia.
32.29
Geenirakenteen ennustaminen
Geenirakenteen ennustamisella tarkoitetaan menetelmiä, joilla voidaan etsiä genomisesta DNA:sta ennalta tuntemattomia geenejä. Ennustusmenetelmillä pyritään
usein myös selvitämään eksonien, intronien ja promoottorialueen sijaintipaikat.
Geenirakenteen ennustamiseen voidaan käyttää useitakin erilaisia menetelmiä kuten, DNA:n translaatiota ja translaatiotuotteiden validointia, kodoniharhaan perustuvaa menetelmää tai geenien HMM- ja neuroverkkomalleihin perustuvia sovelluk-
346
Bioinformatiikan perusteet
sia. Neuroverkko- ja HMM-mallit ovat nykyisin havaittu kaikkein luotettavimmiksi.
32.30
Vertaileva genomiikka
Vertailevalla genomiikalla tarkoitetaan menetelmiä, joilla eliöiden genomeja vertaillaan toisiinsa sekä geenisisällön että geenien lukumäärän ja sijainnin suhteen.
Usein vertailuun käytetään tavanomaisia BLAST-hakuja, mutta alalle on myös kehittynyt useita erityisesti pitkien sekvenssien rinnastamiseen kehitettyjä menetelmiä. Vertailevan genomiikan menetelmin on mahdollista tutkia esimerkiksi geenien, rakenne- ja säätely-DNA:n konservoitumista. Konservoituminen on yleensä
sitä voimakkaampaa mitä läheisemmistä lajeista on kyse. Jos varsinaisen sekvenssin lisäksi myös geenien järjestys on säilynyt, puhutaan synteniasta. Viime aikoina
vertaileva genomiikka on löytänyt tiensä myös lääkeainekehitykseen, jossa esimerkiksi eri bakteerilajien ja niide isäntälajin vertailuilla on mahdollista tunnistaa sellaisia geenejä, joiden proteiinituotteita voitaisiin mahdollisesti käyttää lääkeaineiden vaikutuskohteena. Tällaista lähestymistapaa on sovellettu muun muassa uusien
antibiottien kehityksessä.
32.31
Proteomiikka
Proteomiikka vastaa käsitteenä genomiikka. Siinä missä genomiikassa tutkitaan
eliöiden geenisisältöä, tutkitaan proteomiikassa niiden proteiinisisältöä. Proteomiikan menetelmillä voidaan selvittää esimerkiksi proteiinien ilmentymistä eri soluissa ja kudoksissa. Pääasiallisia menetelmien proteiinien ilmentymisen tutkimisessa
ovat 2D-geelielektroforeesi, jossa proteiinit erotellaan toisistaan niiden varauksen
ja massan suhteen, ja massaspektrometria. Proteiinisirut ovat vasta kehitysasteella.
Proteomiikkaan voidaan lukea kuuluvaksi myös molekyylimallituksen, jonka avulla pyritään selvittämään tuntemattomien proteiinien kolmiulotteisia rakenteita. Paras menetelmä rakenteiden mallittamiseen on homologiamallitus, mutta sen tueksi
vaaditaan jokin mallitettavalle proteiinille samankaltainen tunnettu malliproteiini
ja sen kolmiulotteinen rakenne. Jos kokonaista proteiinimallia ei ole saatavilla, voidaan malli muodostaa osissa käyttäen ab initio-, rakenneprofiili- tai laskostamismenetelmiä. Nämä menetelmät ennustavat proteiinin sekundäärirakennen kerrallaan,
ja kokoavat niistä sitten kokonaisen proteiinia esittävän mallin.
33
Harjoitustehtävät
347
33 Harjoitustehtävät
33.1
Sekvenssirinnastukset
1. Muodosta seuraavista sekvensseistä dot-plot rinnastus ruutupaperia käyttäen.
Käytä sanakokoa 1. Piirrä dot-plot-kuvaan mielestäsi paras polku, ja kirjoita
lisäksi rinnastus auki allekkain tekstimuodossa. Merkitse tekstimuotoiseen
rinnastukseen aukot miinusmerkillä.
sekvenssi 1
ACG ACT GGC A
sekvenssi 2
ACT ATG GCA
2. Rinnasta kohdan 1. sekvenssit käyttäen sanakokoa 2 dot-plot kuviossa. Päädyitkö nyt piirtämään dot plot kuvaan saman polun kuin edellisessä kohdassa? Jollet, niin miksi?
3. Laske edellä muodostamillesi rinnastuksille pistearvo, ja valitse sen perusteella parempi rinnastus. Käytä laskuissasi seuraavia lukuarvoja (tämä on
Clustalin käyttämä pisteytysmatriisi), ja merkitse laskutoimitukset näkyviin:
osuma +1, huti +0, aukon avaaminen -10, aukon jatkaminen -0,1.
4. Ohessa on kahdesta aminohapposekvenssistä muodostettuja rinnastuksia ja
niiden alapuolella BLOSUM62-matriisi (Kuva 6.4, jota on käytetty sekvenssien rinnastamiseen. Jos aukon avaamiseen käytetään sakkoa -10 ja aukon
jatkamiseen sakkoa -1, niin mikä rinnastuksista saa parhaan pistemäärän?
Onko sama rinnastus mielestäsi myös biologisesti mielekkäin?
sekvenssi 1
VDS-CY
VD-SCY
VDSCY-
sekvenssi 2
VESLCY
VESLCY
VESLCY
5. Oheisessa kuvassa on dottup-ohjelmalla (käyttää pistematriisimenetelmää)
tehty sekvenssirinnastus. Vaaka-akselilla on ihmisen lähetti-RNA:n sekvenssi ja pystyakselilla hiiren lähetti-RNA:n sekvessi. Kuvaa muodostettaessa on
käytetty sanakokoa 4. Pohdi, millä tavoin voisit vähentää kuvasta satunnaispisteitä (taustaa), joka hankaloittaa lähetti-RNA-sekvenssien samankaltaisten alueiden hahmottamista.
348
Bioinformatiikan perusteet
6. Rinnasta seuraavat sekvenssit Clustalin progressiivista menetelmää käyttäen
(ei siis Clustal-ohjelmaa käyttäen).
sekvenssi 1
TGA GTT GAA CT
sekvenssi 2
TGA GTG AGC T
sekvenssi 3
TGA CTG AGC T
sekvenssi 4
TGA CGA ACT
Tee siis ensin kaikki mahdolliset parittaiset rinnastukset (6 kpl). Voit tehdä
parittaiset rinnastukset joko dot-plot- tai Needleman-Wunsch-menetelmällä.
Muodosta niiden pohjalta UPGMA-puu. Rinnasta viime vaiheessa sekvenssit
puun ilmoittamassa järjestyksessä. Lisää rinnastukseen aukkoja tarvittaessa.
Tee tehtävä jälleen käyttäen ruutupaperia, ja merkitse tekemäsi laskutoimitukset tai muut välivaiheet (esimerkiksi UPGMA-puuta muodostettaessa) selkeästi näkyviin.
7. Voisiko seuraavaa Clustalin tuottamaa aminohapposekvenssirinnastusta jotenkin parannella käsin (sellaiseksi, että se vastaa paremmin biologista todellisuutta)? Perustele.
Laji
Sekvenssi
HU_G
MGHFTEEDKA TITSLWGKV- -NVEDAGGET LGRLLVVYPW TQRFFDSFGN
GO_G
MGHFTEEDKA TITSLWGKV- -NVEDAGGET LGRLLVVYPW TQRFFDSFGN
CZ_G
MGHFTEEDKA TITSLWGKV- -NVEDAGGET LGRLLVVYPW TQRFFDSFGN
OR_G
MGHFTEEDKA TITSLWGKV- -NVEDAGGET LGRLLVVYPW TQRFFDSFGN
GO_E
MVHFTAEEKA AVTSLWSKM- -NVEEAGGEA LGRLLVVYPW TQRFFDSFGN
CZ_E
MVHFTAEEKA AVTSLWSKM- -NVEEAGGEA LGRLLVVYPW TQRFFDSFGN
HU_E
MVHFTAEEKA AVTSLWSKM- -NVEEAGGEA LGRLLVVYPW TQRFFDSFGN
OR_E
MVHFTAEEKA AVTSLWSKM- -NVEEAGGEA LGRLLVVYPW TQRFFDSFGN
CZ_D
-VHLTPEEKT AVNALWGKV- -NVDAVGGEA LGRLLVVYPW TQRFFESFGD
33
Harjoitustehtävät
33.2
349
HU_D
-VHLTPEEKT AVNALWGKV- -NVDAVGGEA LGRLLVVYPW TQRFFESFGD
GO_D
-VHLTPEEKT AVNALWGKV- -NVDAVGGEA LGRLLVVYPW TQRFFESFGD
OR_D
MVHLTPEEKT AVNALWGKV- -NVDAVGGEA LGRLLVVYPW TQRFFESFGD
CZ_B
MVHLTPEEKS AVTALWGKV- -NVDEVGGEA LGRLLVVYPW TQRFFESFGD
HU_B
MVHLTPEEKS AVTALWGKV- -NVDEVGGEA LGRLLVVYPW TQRFFESFGD
GO_B
MVHLTPEEKS AVTALWGKV- -NVDEVGGEA LGRLLVVYPW TQRFFESFGD
OR_B
-VHLTPEEKS AVTALWGKV- -NVDEVGGEA LGRLLVVYPW TQRFFESFGD
CZ_A
-MVLSPADKT NVKAAWGKVG AHAGEYGAEA LERMFLSFPT TKTYFPHF-D
HU_A
-MVLSPADKT NVKAAWGKVG AHAGEYGAEA LERMFLSFPT TKTYFPHF-D
GO_A
--VLSPADKT NVKAAWGKVG AHAGDYGAEA LERMFLSFPT TKTYFPHF-D
OR_A
-MVLSPADKT NVKTAWGKVG AHAGDYGAEA LERMFLSFPT TKTYFPHF-D
MA_A
--VLSPADKS NVKAAWGKVG SHAGDYGAEA LERMFLSFPT TKTYFPHF-D
Fylogenetiikka
1. Viidestä eri lajista on tutkittu SINE-jaksojen esiintyvyyttä tietyissä kromosomikohdissa. Tuloksena saaduista elektroforeesikuvista on muodostettu ominaisuusmatriisi.
Muodosta lyhyin mahdollinen parsimoniapuu seuraavan matriisin perusteella. Vinkki: piirrä kaikki mahdolliset puut, ja merkitse niihin tapahtuneet muutokset. Valitse näin muodostetuista puista lyhyin mahdollinen. Muista käyttää vain informatiivisia ominaisuuksia! Käytä lisäksi ulkoryhmänä outgrouplajia. Raportoi puun muoto ja sen pituus. Tarkastele lopuksi puun muotoa:
onko saamasi lopputulos mielekäs?
Ominaisuusmatriisi:
Ulkoryhmä 0,0,0,0,0,0,0,0,0,0
Ihminen
1,0,1,1,0,0,1,1,0,0
Kissa
0,1,0,1,0,1,0,0,1,1
Hiiri
1,0,1,0,0,0,1,0,0,0
Karhu
0,1,0,0,1,1,0,1,0,1
2. Piirrä allaolevan ihmisen hemoglobiinisekvensseistä muodostetun taulukon
perusteella UPGMA- ja neighbor-joining-puut, jotka kuvastavat lajien välisiä
suhteita. Raportoi puissa oksien pituudet. Merkitse myös näkyviin laskujesi
välivaiheet.
HU_G
HU_E
HU_B
HU_D
HU_A
HU_G 0.00000 0.23479 0.36656 0.37651 1.08093
HU_E 0.23479 0.00000 0.31407 0.35291 1.10525
HU_B 0.36656 0.31407 0.00000 0.07733 0.99969
HU_D 0.37651 0.35291 0.07733 0.00000 1.01624
HU_A 1.08093 1.10525 0.99969 1.01624 0.00000
33.3
Alukkeiden suunnittelu
1. Suunnittele seuraavalle sekvenssille yksi pari sellaisia PCR-alukkeita, jotka
monistavat reaktiossa geenin koodaavan alueen (korostettu teksti). Raportoi
alukkeiden pituus, sekvenssi 5’->3’ suunnassa ja sulamislämpö. Merkitse lisäksi alukkeiden paikka sekvenssiin nuolilla (–> ja <–).
350
Bioinformatiikan perusteet
>gi|29436|emb|V00497.1|HSBGL1 Human beta-globin
ACATTTGCTTCTGACACAACTGTGTTCACTAGCAACCTCAAACAGACACC ATGGTGCACCT GACTCCTGA
GGAGAAGTCTGCGGTTACTGCCCTGTGGGGCAAGGTGAACGTGGATGAAGTTGG
TGGTGAGGCCCTGGGCAGGCTGCTGGTGGTCTACCCTTGGACCCAGAGGTTCTT
TGAGTCCTTTGGGGATCTGTCCACTCCTGATGCAGTTATGGGCAACCCTAAGGT
GAAGGCTCATGGCAAGAAAGTGCTCGGTGCCTTTAGTGATGGCCTGGCTCACCT
GGACAACCTCAAGGGCACCTTTGCCACACTGAGTGAGCTGCACTGTGACAAGCT
GCACGTGGATCCTGAGAACTTCAGGCTCCTGGGCAACGTGCTGGTCTGTGTGCT
GGCCCATCACTTTGGCAAAGAATTCACCCCACCAGTGCAGGCTGCCTATCAGAA
AGTGGTGGCTGGTGTGGCTAATGCCCTGGCCCACAAGTATCACTAAGCTCGCTT
TCTTGCTGTCCAATTTCTATTAAAGGTTCCTTTGTTCCCTAAGTCCAACTACT
AAACTGGGGGATATTATGAAGGGCCTTGAGCATCTGGATTCTGCCTAATAAAAA
ACATTTATTTTCATTGC
2. Ylläolevassa sekvenssissä kursiivilla korostetussa kohdassa sijaitsee SNPpolymorfia, joka muuttaa nukleotidin adeniinista (A) sytosiiniksi (C). Suunnittele PCR-alukkeet, joiden avulla voit katkokirjoanalyysissä (RFLP) määrittää kumpaa tyyppiä analysoitava näyte on. Vinkki: BfuAI-restriktioentsyymin
katkaisukohta on ACCTGC. Raportoi alukkeet, kuten kohdassa 1. Minkä
aminohappomuutoksen A->C substituutio aiheuttaa?
34
Sanasto
351
34 Sanasto
Accession number
Esimerkiksi sekvenssitietokannan tietueen (sekvenssin) tunnistenumero, jolla tietue (sekvenssi) voidaan hakea tietokannasta.
Algoritmi
Luettelo niistä työvaiheista, jotka on suoritettava jonkin ongelman ratkaisemiseksi. Tarkoittaa yhtälailla matemaattisia operaatioita jonkin laskennallisen ongelman
ratkaisemiseksi kuin niitä vaiheita, jotka tarvitaan, jotta suuresta jatulintarhasta tai
labyrintistä pääsee varmasti ulos (käänny joka ikisessä risteyksessä aina vaikkapa
oikealla).
Annotaatio
Annotaatiot voidaan yhdistää esimerkiksi sekvensseihin. Tällöin annotaatiolla tarkoitetaan kaikkia sekvenssiin liitettyjä lisätietoja tai kuvauksia sen toiminnasta, alkuperästä ja sekvensoijasta.
Apomorfia
Evolutiivinen uutuus tai siis evoluutiossa ennen esiintymätön ominaisuus tai vanhan ominaisuuden uusi taso. Esimerkiksi linnun sulan kehittyminen matelian suomusta, jolloi sulka on apomorfinen sulkaan nähden. Katso myös synapomorfia.
Aukkosakot
Sekvenssirinnastuksiin on usein tarpeen sijoittaa aukkoja, siis sellaisia kohtia, joissa yhden sekvenssin nukleotidit tai aminohapot eivät osu kohdakkain muiden sekvenssien nukleotidien tai aminohappojen kanssa. Tällaiset kohdat ovat evolutiivisesti insertioita tai deleetiota. Rinnastuksen muodostamiseksi on usein tarpeen
määrittää kuinka paljon sakotetaan uuden aukon avaamisesta ja kuinka paljon jo
olemassaolevan aukon jatkamisesta. Tällaista aukkosakkomallia kutsutaan affine
gaps-malliksi.
Dynaaminen optimointi
Algoritmi, jonka avulla voidaan määrittää esimerkiksi taulukon läpi kulkeva kaikkein lyhyin polku. Dynaamista optimointialgoritmia käytetään esimerkiksi SmithWaterman- ja Needleman-Wunsch -algoritmeissa kaikkein parhaan sekvenssirinnastuksen löytämiseen.
Eksoni
Se osa geeniä, joka transloidaan proteiiniksi tai on muutoin toiminnallinen. Vrt.
introni.
EM-algoritmi
Eräs algoritmityyppi, jonka avulla voidaan ratkaista moninaisia ongelmia. Algoritmi koostuu kahdesta vaiheesta, expectation-vaiheesta ja maximation-vaiheesta.
Ensimmäisessä vaiheessa algoritmin parametrit arvioidaan aineistosta, ja toises-
352
Bioinformatiikan perusteet
sa vaiheessa parametreille etsitään aineiston perusteella parhaat arvot. Näitä kahta
vaihetta toistetaan haluttu määrä kertoja tai kunnes tulos ei enää muutu (tulos konvergoituu).
EST-sekvenssi
Expressed sequence tag, sekvenssi, joka on saatu kääntämällä eristetty lähetti-RNA
cDNA:ksi, ja sekvensoimalla näin saatu cDNA. Menetelmästä johtuen EST-sekvenssi
on useimmiten suhteellisen lyhyt sekvenssi alkuperäisen lähetti-RNA:n alku- tai
loppupäästä. Lisäksi EST-sekvensseissä esiintyy varsin paljon sekvensointivirheitä
(noin 1/1000 bp).
Etäisyysmatriisi
Taulukko, jossa on esitetty kaikkien sekvenssien parittaiset etäisyydet. Etäisyydet
voidaan laskea esimerkiksi jotakin evoluutiomallia käyttäen.
Evoluutiomalli
Evoluutiomalli kuvaa sitä, kuinka usein tietty aminohappo tai nukleotidi muuttuu toiseksi (ks. mutaatiomalli ja pisteytysmatriisi). Aminohapposekvensseille evoluutiomalli on käytännössä jokin pisteytysmatriisi, DNA-sekvensseille jokin matemaattinen muutosten määrää ja laatua kuvaava mallia. Esimerkkejä DNA:lle tarkoitetuista evoluutiomalleista ovat Jukes-Cantorin, Kimuran kahden parametrin ja
Felsenstein 84 mallit.
FastA
FastA on sekä tietokoneohjelma, jolla voidaan tehdä sekvenssin perusteella hakuja
sekvenssitietokantoja vastaan, että sekvenssien yksinkertaisen esitysmuoto. FastAmuodossa sekvenssit esitetään siten, että ennen varsinaista sekvenssiä tulee yksi
otsikkorivi, joka alkaa merkillä >. Otsikkorivin sisältö on vapaa, mutta sekvenssi
alkaa heti sitä seuraavalta riviltä. Samassa tiedostossa voi olla useita sekvenssejä,
jolloin ne luetellaan tiedostossa peräkkäin. Tällöin niiden välillä on kuitenkin oltava
otsikkorivi, esimerkiksi:
>sekvenssi1
acgtacgt
>sekvenssi2
tgcatgca
FastA on yleisimmin käytetty sekvenssien esitysmuoto, ja miltei kaikki ohjelmat osaavat lukea niitä.
Flat file
Usein kuulee puhuttavan flat fileistä. Näillä tarkoitetaan yleensä pelkkää puhdasta
tekstiä sisältäviä tiedostoja. Tiedostot voivat sisältää esimerkiksi tietokannan tietueita tai yksittäisiä sekvenssejä.
Fenogrammi
Kladogrammi on puumuotoinen esitys lajien sukulaisuussuhteista. Fenogrammi eroaa
kladogrammista siten, että fenogrammissa on esitetty myös puun oksien pituudet.Oksan pituus kuvaa siinä tapahtuneen evoluution määrää, esimerkiksi tapahtuneiden nukleotidimuutosten määrää. Graafiteorian kannalta kladogrammi on siten painotettu suunnattu puu.
Fylogenetiikka
Perinteisesti fylogenetiikka on tarkoittanut lajien välisten sukulaisuusuhteiden selvittämistä siltä osin kuin sukulaisuussuhteet ovat kuvastaneet lajien evoluutiota
(kladistiikka). Tällöin analyysimenetelmistä kyseeseen on tullut lähinnä parsimoniamenetelmä. Nykyisin fylogenetiikka-termiä kuitenkin käytetään siten, että se kattaa
34
Sanasto
353
kaikki systematiikan tai molekyylisystematiikan menetelmät.
Geeni
Genomin (DNA:n) alue, joka transkriptiossa käännetään RNA-molekyyliksi.
Geneettinen algoritmi
Mikä tahansa algoritmi, jonka avulla ratkaistaan jokin ongelma siten, että simuloidaan evoluutiota. Geneettisen algoritmin tarkoituksena on luoda ratkaisu käyttäen
apuna mutaatioita, valintaa ja rekombinaatiota. Esimerkiksi usean sekvenssin rinnastus voidaan tehdä käyttäen geneettistä algoritmia.
Genomi
Eliön perimä eli sen geenien (ja niiden ulkopuolisen nukleiinihapon) muodostama
kokonaisuus. Tarkkaan ottaen genomilla tarkoitetaan eliön haploidia nukleiinihappokokonaisuutta.
Genominen sekvenssi
Genominen sekvenssi on sellainen sekvenssi, joka voi sisältää kaikki geeniin kuuluvat osaset, kuten promoottorialueen ja intronit. Vrt. mRNA-sekvenssi.
Homologia
Homologialla tarkoitetaan tuntomerkkejä, esimerkiksi eliöiden morofologisia ominaisuuksia, jotka ovat peräisin yhteiseltä kantamuodolta. Jos siis verrataan vaikka
hiirtä ja rottaa, ovat niiden turkin karvat homologisia, sillä ne ovat ominaisuutena
peräisin molempien yhteisesltä kantamuodolta. Myös geenit tai yksittäiset sekvenssikohdat voivat olla keskenään homologisia. Homologia on on/ei-tyyppinen kuvaus
jostakin rakenteesta. Esimerkiksi geenit eivät voi olla 55% homologisia, vaan ne joko ovat homologisia tai eivät ole, mutta ne voivat kyllä olla 55% samankaltaisia.
Geenien homologia on joko paralogiaa tai ortologiaa.
Homoplasia
Samankaltaisuus, joka on seurausta esimerkiksi samansuuntaisesta (konvergenttisestä) evoluutiosta, eikä ole sellaisenaan periytynyt yhteiseltä kantamuodolta. Esimerkiksi kalan ja delfiinin virtaviivainen, veteen sopeutunut ruumiinmuoto on seurausta samansuuntaisesta evoluutiosta.
Introni
Se osa geeniä, joka lähetti-RNA:n muodostamisen yhteydessä leikataan pois silmikointitapahtumassa.
Juoste
DNA-kaksoiskierre koostuu kahdesta DNA-juosteesta. Lähetti-RNA-molekyylissä
sen sijaan on vain yksi juoste. Juosteella on aina suunta, joka määräytyy DNA:n
kemiallisten ominaisuuksien mukaan. Juosteen 3’-päässä on vapaa OH-ryhmä, josta DNA:n polymerisoituminen voi jatkua. Juosteen 5’-päässä ei OH-ryhmää ole.
Yleensä tietokannoissa sekvenssit on lueteltu 5’->3’-suunnassa, mutta tästä ei voi
aina olla täysin varma esimerkiksi EST-sekvenssien kohdalla.
Kladistiikka
Eräs systematiikan suuntaus, joka pyrkii kuvaamaan lajien sukulaisuusuhteet niiden oikean evolutiivisen kehittymisjärjestyksen perusteella. Kladistiikassa eliöiden
luokittelu perustuu evolutiivisiin uutuuksiin, synapomorfioihin, ja pääasiallisena aineistojen analyysimenetelmänä käytetään parsimonia-menetelmää.
Kladogrammi
Kladogrammi on puumuotoinen esitys lajien sukulaisuussuhteista. Kladogrammi
354
Bioinformatiikan perusteet
eroaa fenogrammista siten, että siinä puun oksille ei ole määrätty pituuksia. Graafiteorian kannalta kladogrammi on siten painottamaton suunnattu puu.
Kokonaisrinnastus
Kokonaisrinnastuksessa kaksi tai useampia sekvenssejä pyritään sijoittamaan koko matkaltaan kohdakkain. Kokonaisrinnastuksen muodostamiseen käytetään joko
Needleman-Wunschin dynaamista optimointialgoritmia tai heuristisia menetelmiä,
kuten Clustal-perheen progressiiviset menetelmät.
Komplementaarinen sekvenssi
Komplementaarisella sekvenssillä tarkoitetaan sekvenssiä, joka on alkuperäiselle
sekvenssille vastakkainen. Koska A pariutuu DNA:ssa T:n ja C G:n kanssa, voidaan alkuperäisestä sekvenssistä muodostaa helposti komplementaarinen korvaamalla alkuperäisen sekvenssin A:t T:llä ja C:t G:llä.
Konsensussekvenssi
Usean sekvenssin rinnastuksen perusteella muodostella sekvenssi, johon on merkitty ne nukleotidit, jotka kussakin rinnastuksen sarakkeessa esiintyvät yli 50%:lla
sekvensseistä.
Molekyylisystematiikka
Systematiikka on biologisen tutkimuksen ala, joka tutkii lajien ominaisuuksia ja
lajien välisiä suhteita. Molekyylisystematiikka on ala, joka käyttää systematiikan
tutkimukseen molekyylisekvenssejä. Jotkut pitävät systematiikka-nimitystä taksonomian sysnonyyminä, jolloin alaan lasketaan kuuluvaksi myös systematiikan menetelmien tutkimus.
Monofyleettinen ryhmä
Kladistiikassa monofyleettiset ryhmät muodostetaan synapomorfioiden perusteella.
mRNA
Lähetti-RNA, DNA:sta transkriptiolla luotu kopion, jonka perusteella vastaava proteiini syntetisoidaan. Lähetti-RNA:ssa ei enää esiinny introneita, vaan ne on poistettu silmikointi-tapahtumassa. Siten tietokannoista saadussa lähetti-RNA-sekvenssissäkään
ei ole introneita. Vrt. Genominen sekvenssi.
Mutaatiomalli
Mutaatiomallilla tarkoitetaan mallia siitä, millaisia ja kuinka usein esimerkiksi nukleotidit muuttuvat toisiksi mutaatioiksi (ks. pisteytysmatriisi). Esimerkki mutaatiomallista on PAM-matriisi. Jos kaikki muutokset ovat yhtä todennäköisiä, puhutaan yhtenäisestä mutaatiomallista, muutoin on kyse epäyhtenäisestä mutaatiomallista.
Ortologia
Ortologiset geenit ovat sellaisia, jotka ovat keskenään homologisia lajiutumisen
kautta Ortologisia ovat sellaiset geenit, jotka ovat pysyneet lajin sisällä samanlaisina, mutta periytyneet eri lajeille niiden yhetiseltä kantamuodolta.
Paikallinen rinnastus
Paikallisessa rinnastuksessa kahden tai useampien sekvenssien keskenään kaikkein samankaltaisimmat alueet pyritään sijoittamaan kohdakkain (ks. sekvenssirinnastus). Paikallisten rinnatusten luomiseen voidaan käyttää BLAST- tai SmithWaterman-algoritmeja (kaksi sekvenssiä) tai EM- tai Gibbsin otanta-algoritmeja
(useita sekvenssejä).
Painoarvomatriisi
Painoarvomatriisi on taulukko, jonka avulla voidaan esittää, kuinka usein tietty
34
Sanasto
355
nukleotidi tai aminohappo esiintyy kussakin sekvenssin tai usean sekvenssin rinnastuksen kohdassa. Painoarvomatriisin perusteella voidaan muodostaa PSSM-matriisi.
Parafyleettinen ryhmä
Kladistisessa luokittelussa esiintyvää parafyleettistä ryhmää luonnehtii homoplasia.
Paralogia
Paralogiset geenit ovat sellaisia keskenään homologisia geenejä, joiden homologisia on syntynyt saman lajin sisällä kantamuotogeenin kopioituessa. Keskenään
paralogiset geenit ovat siis geeniduplikaation kautta syntyneitä erilaisia kopioita
samasta alkuperäisestä geenimuodosta.
Parittainen rinnastus
Parittaisessa rinnastuksessa kaksi sekvenssiä pyritään rinnastamaan keskenään (ks.
sekvenssirinnastus). Sekvenssit voidaan rinnastaa pareittain käyttäen esimerkiksi
pistematriisi- tai ktup (BLAST) -menetelmää tai dynaamista optimointia.
PCR
Polymeraasiketjureaktio, jonka avulla on mahdollista monistaa tiettyä DNA:n jaksoa laboratorio-oloissa koeputkessa miljoonia kertoja muutamassa tunnissa.
Pistematriisi
Kuva tai taulukko, jossa kuvataan kahden sekvenssin rinnastus. Toinen sekvenssi
on sijoitettu taulukon pystyakselille, toinen vaaka-akselille. Sellaisiin taulukon soluihin, joissa molemmissa sekvensseissä on sama nukleotidi tai aminohappo, merkitään piste. Pistematriisikuvien avulla voidaan helposti määrittää missä kohdin
sekvensseissä on inversioita. Tämä ei muita rinnstusmenetelmiä käyttäen onnistu
helposti.
Pistemutaatio
Yhden nukleotidin muutos toiseksi nukleotidiksi jossakin eliön perimän kohdassa.
Pisteytysmatriisi
Pisteytysmatriisin avulla ilmoitetaan, kuinka usein tai kuinka suurella todennäköisyydellä esimerkiksi tietyssä aminohapossa tapahtuu mutaatio. Esimerkkejä pisteytysmatriiseista ovat PAM- ja BLOSUM-sarjan aminohappomatriisit. Pisteytysmatriisia käytetään sekä sekvenssirinnastuksissa osumien ja hutien saamien pistemäärien laskemiseen sekä molekyylisystematiikassa evoluutiomallina.
Plesiomorfia
Ominaisuuden alkuperäinen ilmenemismuoto, josta kehittyneemmät muodot ovat
kehittyneet.
Polyfyleettinen ryhmä
Kladistisessa luokittelussa esiintyvää polyfyleettistä ryhmää luonnehtii plesiomorfia.
Promoottorialue
Se osa geeniä, joka ohjaa geenin ilmentymistä. Yleensä promoottorialueeksi käsitetään vain geenistä ylävirtaan (siis 5’-suuntaan) sijaitseva DNA:n osa, vaikka
erilaisia geenin toimintaa ohjaavia elementtejä voi esiintyä DNA:ssa muuallakin,
esimerkiksi introneissa.
Proteiini
Aminohapoista koostuva biologinen makromolekyyli, joka voi toimia esimerkiksi
356
Bioinformatiikan perusteet
solun rakennuselementtinä tai katalysoida jotakin kemiallista reaktiota (entsyymi,
biologinen katalysaattori).
PSSM-matriisi
PSSM-matriisi muodostetaan painoarvomatriisin perusteella jakamalla aminohappojen tai nukleotidien havaitut frekvenssit niiden oletusarvoisilla frekvensseillä.
Lopullinen PSSM-matriisi muodostetaan ottamalla havaittu / oletettu -frekvensseistä
log2-muunnos. PSSM-matriiseja käytetään esimerkiksi tunnettujen toiminnallisten
motiivien ja domeenien tunnistamiseen aminohapposekvensseistä tai transkriptiotekijöiden situoutumiskohtien tunnistamiseen DNA-sekvensseistä.
Sekvenssihaku
Jos halutaan hakea tietoa sekvenssitietokannoista sekvenssiä käyttäen, tehdään sekvensihaku. Sekvenssihakuihin käytetään esimerkiksi BLAST- ja FastA-ohjelmia.
Sekvenssilogo
Painoarvomatriisin perusteella laadittu kuva, jossa kukin usean sekvenssin rinnastuksen kohta kuvataan yhdellä palkilla. Palkin korkeus kuvaa kohdan konservoitumisastetta, ja siinä olevien eri nukleotidien tai aminohappojen korkein kunkin
runsautta. Logon palkkien ylimmät nukleotidit tai aminohapot muodostavat konsensussekvenssin.
Sekvenssirinnastus
Sekvenssirinnastuksen tarkoituksena on sijoittaa kaksi tai useampia sekvenssejä
keskenään kohdakkain siten, mahdollisimman moni niiden samanlaisista nukleotideista tai aminohapoista osuu kohdakkain. Tämän varmistamiseksi rinnastukseen
voidaan sijoittaa aukkoja.
Sisarryhmä
Molekyylisystematiikasta puhuttaessa tarkasteltavan ryhmän läheisin sukulaisryhmä. Esimerkiksi ihmisen sisarryhmä on simpanssi.
Sisäryhmä
Molekyylisystematiikan menetelmien yhteydessä tutkittavien lajien muodostama
joukko. Katso myös ulkoryhmä.
SNP
Eliön perimässä oleva pistemutaatio, josta esiintyy vain kahta muotoa, ja jonka frekvenssi väestössä on vähintään 1%.
Synapomorfia
Sellainen apomorfinen ominaisuus tai ominaisuuden taso, joka yhdistää kahta tai
useampaa tutkittavaan ryhmään kuuluvaa taksonia. Vain yhteen lajiin rajautuvaa
apomorfista ominaisuutta kutsutaan autoapomorfiaksi tai autapomorfiaksi. Kladistiikassa lajit luokitellaan monofyleettisiksi ryhmiksi niiden synapomorfioiden perusteella.
Säännöllinen lauseke
Säännöllinen lauseke on sekvenssin tai sekvenssijoukon kuvaus. Se ei anna sekvenssijoukosta yhtä paljon tietoa kuin painoarvomatriisi, mutta enemmän tietoa
kuin konsensussekvenssi. Säännöllisen lausekkeen avulla voidaan ilmoittaa, että
joissakin sekvenssikohdissa on sallittua esiintyä jokin usemmasta nukleotidista tai
aminohaposta. Esimerkiksi sekvenssi AC[ACG]GT tulkittaisiin siten, että sekvenssissä esiintyy ensin AC, sitten mikä tahansa A:sta, C:stä tai G:stä, ja sitten GT.
Siten lausekkeen kuvaamia mahdollisia sekvenssejä olisi kolme ACAGT, ACCGT
ja ACGGT.
34
Sanasto
357
Taksoni
Mikä tahansa eliöryhmä, joka voi sijaita millä eliöiden luokittelun tasolla tahansa.
Taksoni voi siten olla esimerkiksi laji Homo sapiens tai yhtähyvin nykyihmisten
suku Homo. Eliöiden sukulaisuussuhteita kuvaavissa puissa voidaan erottaa OTU
(operational taxonomic unit) ja HTU (hypothetical taxonomic unit). OTU:ksella
tarkoitetaan taksonia, joka sijaitsee puu terminaalisessa oksassa, siis jonkin puun
päättävän oksan päässä. HTU:lla tarkoitetaan sellaista hypoteettista taksonia, joka
voidaan sijoittaa johonkin puun sisäiseen oksanhaaraan.
Tietue
Tietokannassa oleva, esimerkiksi sekvenssin ja sen kuvauksen sisältävä tiedosto.
Esimerkiksi EMBL-tietokannassa yksi tietue muodostuu sekvenssistä ja sen annotaatiosta.
Tietokanta
Kokoelma esimerkiksi yksittäisiä sekvenssitietueita. Nykyiset sekvenssitietokannat on pitkälti rakennettu siten, että yksittäinen tietue vastaa yhtä tekstitiedostoa,
tai tarkkaan ottaen joitakin kymmeniä rivejä yhdestä suuresta tekstitiedostosta (ks.
Flat file). Ala on siirtymässä relaatiotietokantojen suuntaan. Niissä tiedot on koottu
tauluihin (taulukoihin).
Tietokantahaku
Tietokantahaku on yleisnimitys sille, että haetaan tietoja tietokannoista. Tässä kirjassa termillä on kuitenkin rajoitettu tarkoittamaan hakua, jossa tehdään asiasanahaku johonkin tietokantaan.
Toistojakso
Mikä tahansa eliön genomissa toistuvasti esiintyvä DNA-jakso. Esimerkiksi ihmisen genomille tyypillisiä toistojaksoja ovat minisatelliitit, joissa toistuva jakso on
muutamia kymmeniä nukleotideja pitkä ja mikrosatelliitit, jotka ovat muutaman
emäksen mittaisista yksiköistä koostuvia jaksoja. Mikro- ja minisatelliitit ovat peräkkäisiä sarjoja. Esimerkiksi TGTGTGTG on mikrosatelliitti, jossa toistuva jakso
on TG.
Transitio
Pistemutaatio, josa puriiniemäs muuttuu puriiniksi tai pyrimidiiniemäs pyrimidiiniksi, A->G, A->T, C->G, C->T, G->A, G->C, T->A, T->C. Useimmiten transitiot
ovat DNA:ssa yleisempiä kuin transversiot, jo yksinomaan DNA:n kemiallisesta
rakenteesta johtuen. Vrt. transversio.
Transkriptio
Tapahtuma, jossa DNA-sekvenssi kopioidaan lähetti-RNA-sekvenssiksi.
Translaatio
Tapahtuma, jossa lähetti-RNA-sekvenssi käännetään aminohapposekvenssiksi, josta sitten laskostuu toiminnallinen proteiini.
Transversio
Pistemutaatio, jossa puriiniemäs muuttuu pyrimidiiniksi tai päinvastoin, A->C, C>A, T->G tai G->T. Vrt. transitio.
Tunnistenumero
Tietokannan yhtä tietuetta vastaava numero, jolla tietue voidaan hakea ja löytää tietokannasta. Vrt. accession number.
358
Bioinformatiikan perusteet
Ulkoryhmä
Sisäryhmälle läheistä sukua oleva lajijoukko tai yksittäinen laji, jota käytetään molekyylisystematiikassa juuren luomiseksi puuhun. Puun juuri kertoo mistä kohdasta
sisäryhmä yhdistyy koko elämän puuhun. Lisäksi ulkoryhmän avulla tuodaan analyysiin ulkopuolista tietoa lajien välisistä suhteista. Esimerkiksi tiedetään, että kalat
ja nisäkkäät erovat toisistaan, joten tutkittaessa nisäkkäitä olisi periaatteessa mahdollista käyttää ulkoryhmänä kaloja tai yhtä kalalajia. Useimmiten ulkoryhmäksi
kuitenkin valitaan sisäryhmän sisarryhmä (ks. sisarryhmä).
Usean sekvenssin rinnastus
Usean sekvenssin rinnastuksessa useita sekvenssejä pyritään rinnastamaan keskenään yhtäaikaisesti (ks. sekvenssirinnastus). Eräs käytetyimmistä usean sekvenssin
rinnastusmenetelmistä on progressiivinen menetelmä, joka löytyy muun muassa
Clustal-perheen ohjelmista.
Vaihtoehtoinen silmikointi
Monet aitotumallisten geeneistä, joissa on introneja, esiintyy erilaisia vaihtoehtoisia silmikointimuotoja. Tämä tarkoittaa sitä, että riippuu esimerkiksi kudoksesta,
jossa geeni ilmenee, mitkä geenin eksoneista lähetti-RNA:ssa ja sen perusteella
transloidussa proteiinissa ilmenevät.
35
Kirjallisuus
359
35 Kirjallisuus
35.1
Artikkeliviitteet
Adleman, L. M. (1994) Molecular computation of solutions to combinatorial problems,
Science, 266, 1021-1024.
Adleman, L. (1998) Computing with DNA, Scientific American,
Altshcul, S. F., Gish, W., Miller, W., Myers, E. W., and Lipman, D. J. (1990)
Basic local alignment search tool, J. Mol. Biol., 215, 403-410.
Altschul, S. F., Madden, T. L., Schaffer, A. A., Zhang, J., Zhang, Z., Miller,
W., and Lipman, D. (1997) Gapped BLAST and PSI-BLAST: a new generation of
protein database search programs, Nucl. Acid. Res., 25, 3389-3402.
Baldi, P., Brunak, S., Chauvin, Y., and Krogh, A. (1996) Naturally occuring
nucleosome positioning signals in human exons and intron, J. Mol. Biol., 263, 503510.
Bao, L., and Cui, Y. (2005) Prediction of phenotypic effects of non-synonymous
single nucleotide polymorphisms using structural and evolutionary information,
Bioinformatics, 21, 2185-2190.
Baum, B. R: (1992) Combining trees as a way of combining data set for phylogenetic inference, and the desirability of combining gene trees, Taxon, 41, 3-10.
Behrens, S., Ruhland, C., Inacio, J., Huber, H., Fonseca, A., Spencer-Martins,
I., Fuchs, B., Amann, R. (2003) In Situ Accessibility of Small-Subunit rRNA of
Members of the Domains Bacteria, Archaea, and Eucarya to Cy3-Labeled Oligonucleotide Probes, Appl. Env., Microbiology, 69, 1748-1758.
Benhamou, S., Tuimala, J., Bouchardy, C., Dayer, P., Sarasin, A., Hirvonen, A.
(2004) DNA repair gene XRCC2 and XRCC3 polymorphisms and susceptibility to
cancers of the upper aerodigestive tract, Int. J. Cancer, 112, 901-904.
Blanchette, M., Green, E. D., Miller, W., and Haussler, D. (2004) Reconstructing large regions of an ancestral mammalian genome in silico, Genome Res., 14,
2412-2423.
Bray, N., Dubchak, I., and Pachter, L. (2003) AVID: A global alignment program, Genome Res., 13, 97-102.
Bremer, K. (1988) The limits of amino-acid sequence data in angiosperm phylogenetic reconstruction, Evolution, 42, 795-803.
Brudno, M., Do., C. B., Cooper, G. M., Kim, M. F., Davydov, E., NISC comparative sequencing program, Green, E. D. Sidow, A., and Batzoglou, S. (2003)
LAGAN and Multi-LAGAN: Efficient tools for large-scale multiple aligment of
genomic DNA, Genome Res., 13, 721-731.
Buetow, K. H., Edmunson, M. N., and Cassidy, A. B. (1999) Reliable identification of large numbers of candidate SNPs from public EST data, Nat. Genet., 21,
323-325.
Chou, P. and Fasman, G. (1974a) Conformational parameters for amino acids
in helical, beta-sheet, and random coil regions calculated from proteins, Biochemistry, 13, 211-222.
Chou, P. and Fasman, G. (1974b) Prediction of protein conformation, Biochemistry, 13, 222-245.
360
Bioinformatiikan perusteet
Cole, S. T. (2002) Comparative mycobacterial genomics as a tool for drug
target and antigen discovery, Eur. Respir. J., 20 (suppl 36), 78-86.
Cox, D. G., Boillot, C., and Canzian, F. (2001) Data mining: Efficiency of
using sequence databases for polymorphism discovery, Human. Mutat., 17, 141150.
Dayhoff, M. O., Ed. (1972) Atlas of protein sequence and structure, vol. 5,
National Biomedical Research Foundation, Georgetown University, Washington,
D.C.
Dayhoff, M. O. (1978) Survey of new data and computer methods of analysis,
Atlas of protein sequence and structure, vol 5., suppl. 3, Georgetown University,
Washington, D. C.
Dayhoff, M. O., Schwartz, R. M., and Orcutt, B. C. (1978) A model of evolutionary change in proteins, Atlas of protein sequence and structure, National Biomedical Research Foundation, Silver Spring, MD.
Doyle, J. J. (1992) Gene trees and species trees: moleculat systematics as onecharacter taxonomy, Systematic Botany, 17, 144-163.
Eddy, S., and Durbin, R. (1994) RNA sequence analysis using covariance models, Nucleic acidc res., 22, 2079-2088.
Edgar, R. (2004) MUSCLE: multiple sequence alignment with high accuracy
and high throughput, NAR, 32, 1792-1797.
Edwards, A. (1996) The origin and early development of the method of minimum evolution for the reconstruction of phylogenetic trees, Syst. Biol., 45, 79-91.
Eisen, J. (1999) A phylogenomic study of DNA repair genes, proteins, and
processes, Mutation Res., 435, 171-213.
Faith, D., and Cranston, P. (1991) Could a cladogram this short have arisen by
chance alone? - On permutation tests for cladistic structure, Cladistics, 7, 1-28.
Farris, J., Albert, V., Källersjö, M., Lipscomb, D., and Kluge, A. (1996) Parsimony jackknifing outperforms neighbor-joining, Cladistics, 12, 99-124.
Felsenstein, J. (1978) Cases in which parsimony and compatibility methods
will be positive misleading, Syst. Zool., 27, 401-410.
Felsenstein, J. (1985) Confidence limits on phylogenies: an approach using the
bootstrap, Evolution 39, 783-791.
Felsenstein, J. (1988) Phylogenies from molecular sequences: Inferences and
reliability, Annu. Rev. Genet., 22, 521-565.
Fickett, J. W. (1982) Recognition of protein coding regions in DNA sequences,
Nucleic Acids Res., 10, 5303-5318.
Fleischmann, R. D., Adams, M. D., White, O., Clayton, R. A., Kirkness, E.
F., Kerlavage, A. R., Bult, C. J., Tomb, J. F., Dougherty, B. A., and Merrick, J.
M. et al. (1995) Whole-genome random sequencing and assembly of Haemophilus
influenzae Rd., Science, 269, 496-512.
Fuellen, G. (1997) Multiple Alignment, Complexity International, 4.
Gabor T. Marth, Ian Korf, Mark D. Yandell, Raymond T. Yeh, Zhijie Gu, Hamideh Zakeri, Nathan O. Stitziel, LaDeana Hillier, Pui-Yan Kwok and Warren R.
Gish (1999) A general approach to single-nucleotide polymorphism discovery, Nat.
Genet., 23, 452-456.
Garnier, J., Osguthorpe, D., and Robson, B. (1978) Analysis of accuracy and
implications of simple methods for predicting the secondary structure of globular
proteins, J. Mol. Biol., 120, 97-120.
Garnier, J., Gibrat, J-F., and Robson, B. (1996) GOR method for predicting
protein secondary structure from amino acid sequence, Methods Enzymol., 266,
540-553.
Gibbs, A. J., and McIntyre, G. A. (1970) The diagram, a method for comparing
sequences. Its use with amino acid and nucleotide sequences, Eur. J. Biochem., 16,
1-11.
Goldman, N. (1993) Statistical tests of models od DNA substitution, J. Mol.
Evol., 36, 182-198.
35
Kirjallisuus
361
Goloboff, P.A., (1999) Analyzing large data sets in reasonable times: solutions
for composite optima, Cladistics 15, 415-428.
Goloboff, P. A., Farris, J. S., Källersjö, M., Oxelman, B., Ramirez, M. J., and
Szumik, C. A. (2003) Improvements to resampling measures of group support, Cladistics, 19, 324-332.
Gonnet, G. H., Cohen, M. A., and Benner, S. A. (1992) Exhaustive matching
of the entire protein sequence database, Science, 256, 1443-1554.
Gribskov, M., Devereux, J., and Burgess, R. R. (1984) The codon preference
plot: graphic analysis of protein coding sequences and prediction of gene expression, Nucleic Acids Res., 12, 539-549.
Gupta, S., Kececioglu, J. D., and Schäffer, A. A. (1995) Improving the practical space and time efficiency of the shortest-path approach to sum-of-pairs multiple sequence alignment, technical report.
Hack, C., and Kendall, G. (2005) Bioinformatics: Current practise and future
challenges for life science education, Biochemistry and Molecular Biology Education, 33, 82-85.
Hein, J. (1989) A method that simultaneously aligns, finds the phylogeny and
reconstructs ancestral sequences for any number of ancestral sequences, Mol. Biol.
Evol., 6, 649-668.
Henikoff, S. and Henikoff, J. G. (1992) Amino acid substitution matrices from
protein blocks, Proc. Natl. Acad. Sci., 89, 10915-10919.
Higgins, D. G. and Sharp, P. M. (1988) CLUSTAL: a package for performing
multiple sequence alignment on a microcomputer, Gene, 73, 23-244.
Higgins, D. G., Thompson, J. D., and Gibson, T. J. (1996) Using CLUSTAL
for multiple sequence alignments, Methods Enzymol., 266, 383-402.
Hillis, D. (1991) Discriminating between phylogenetic signal and random noise in DNA sequences, kirjassa Phylogenetic analysis of DNA sequences, s. 278294, Oxford University Press, UK.
Hillis, D., Huelsenbeck, J., and Cunningham, C. (1994) Application and accuracy of molecular phylogenies, Science, 264, 671-677.
Hillis, D., Huelsenbeck, J., and Swofford, D. (1994b) Hobgoblin of phylogenetics?, Nature, 369, 363-364.
Hillis, D. (1995) Approaches for assessing phylogenetic accuracy, Syst. Biol.,
44, 3-16.
Hillis, D. (1996) Inferring complex phylogenies, Nature, 383, 130-131.
Holm, L. and Sander, C. (1993) Protein structure comparison by alignment of
distance matrices, J. Mol. Biol., 233, 123-138.
Holm, L. and Sander, C. (1996) Mapping the protein universe, Science, 273,
595-603.
Huelsenbeck, J., Bull, J. and Cunningham, C. (1996) Combining data in phylogenetic analysis, TREE, 11, 152-158.
Huelsenbeck, J., Hillis, D., and Nielsen, R. (1996) A likelihood-ratio test of
monophyly, Syst. Biol., 45, 546-558.
Huelsenbeck, J. (1997) Is Felsenstein zone a fly trap?, Syst. Biol., 44, 17-48.
Hughes, J. D., Estep, P. W., Tavazoie, S., and Church, G. M., Computational identification of Cis-regulatory elements associated with groups of functionally
related genes in Saccharomyces cerevisiae, J. Mol. Biol., 296, 1205-1214.
Jones, D. T., Taylor, W. R., and Thornton, J. M. (1992) The rapid generation of
mutation data matrices from protein sequences, Comput. Appl. Biosci., 8, 275-282.
Karlin, S., and Altschul, S. F. (1990) Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes, PNAS,
87, 2264-2268.
Kawakita, A., Sota, T., Ascher, J., Ito, M., Tanaka, H., and Kato, M. (2003)
Evolution and phylogenetic utility of alignment gaps within intron sequences of
three nuclear genes in bumble bees (Bombus), Mol. Biol. Evol., 20, 87-92.
Kuhner, M., and Felsenstein, J. (1994) A simulation comparison of phylogeny
362
Bioinformatiikan perusteet
algorithms under equal and unequal evolutionary rates, Mol. Biol. Evol., 11, 459468.
Kyte, J. and Doolittle, R. (1982) A simple method for displaying the hydropathic character of a protein, J. Mol. Biol., 157, 105-132.
Lemmon, A. R., and Milinkovitch, M. C. (2002) The metapopulation genetic
algorithm: An efficient solution for the problem of large phylogeny estimation,
PNAS, 99, 10516-10521.
Lukashin, A. V., and Borodovsky, M. (1998) GeneMark.hmm: New solutions
for gene finding, Nucleic Acids Res., 26, 1107-1115.
Luscombe, N. M, Greenbaum, D., and Gerstein, M. (2001) What is bioinformatics? A proposed definition and over view of the field, Method. Inform. Med.,
40, 346-358.
Ma, B., Tromp, J., and Li, M. (2002) PatternHunter: faster and more sensitive
homology search, Bioinformatics, 18, 440-445.
Ng, P. C., and Henikoff, S: (2001) Predicting deleterious amino acid substitutions, Genome Res., 11, 863-874.
Nixon, K.C. (1999) The parsimony ratchet, a new method for rapid parsimony
analysis, Cladistics 15, 407-414.
Notredame, C., Higgins, D., and Heringa, J. (2000) T-Coffee: A novel method
for fast and accurate multiple sequence alignment, J. Mol. Biol., 302, 205-217.
Liu, R. and States, D. (2002) Consensus Promoter Identification in the Human
Genome Utilizing Expressed Gene Markers and Gene Modeling, Genome Res., 12,
462-469.
Lupas, A. (1996) Prediction and Analysis of Coiled-Coil Structures, Meth.
Enzymology, 266, 513-525.
Miller, W. and Myers, E. W. (1988) Sequence comparison with concave weighting functions, Bull. Math. Biol., 50, 97-120.
Modrek, B., Resch, A., Grasso, C. and Lee, C. (2001) Genome-wide detection
of alternative splicing in expressed sequences of human genes, Nucl. Acid. Res.,
29, 2850-2859.
Moilanen, A. (1999) Searching for most parsimonious trees with simulated
evolutionary optimization, Cladistics, 15, 39-50.
Morrison, D. and Ellis, J. (1997) Effects of nucleotide sequence alignment on
phylogeny estimation: A case study of 18S rDNAs of Apicomplexa, Mol. Biol.
Evol., 14, 428-441.
Mugridge, N., Morrison, D., Jäkel, T., Heckeroth, A., Tenter, A., and Johnson,
A. (2000) Effects of sequence alignment and structural domains of ribosomal DNA
on phylogeny reconstruction for the protozoan family Sarcocystidae, Mol. Biol.
Evol., 17, 1842-1853.
Needleman, S. B., and Wunsch, C. D. (1970) A general method applicable to
the search for similarities in the amino acid sequence of two proteins, J. Mol. Biol.,
48, 443-453.
Nixon, K. C. (1999) The parsimony ratchet, a new method for rapid parsimony
analysis, Cladistics, 15, 407-414.
Notredame, C. and D. G. Higgins (1996) SAGA: sequence alignment by genetic algorithm. Nucleic Acids Res, 24, 1515-24.
Notredame, C., D. G. Higgins and J. Heringa (2000) T-coffee: a novel method
for fast and accurate multiple sequence alignment. J Mol Biol, 302, 205-217.
Orengo, C. and Taylor, W. (1996) SSAP: sequential structure alignment program for protein structure comparison, Methods Enzymol., 266, 617-635.
Pavesi, G., Mareghetti, P., Mauri, G., and Pesole, G. (2004) Weeder Web:
discovery of transcription factor binding sites in a set of sequences from co-regulated
genes, Nucleic Acids Res., 32, W199-W203.
Pearson, W. R., and Lipman, D. J. (1988) Improved tools for biological sequence comparison, Proc. Natl. Acad. Sci., 85, 2444.2448.
Pol., D., and Siddall, M. (2001) Biases in maximum likelihood and parsimony:
35
Kirjallisuus
363
a simulation approach to a 10-taxon case, Cladistics, 17, 266-281.
Ragan, M. A. (1992) Phylogenetic inference based on matrix representation of
trees, Mol. Phyl. Evol., 1, 53-58.
Rannala, B., and Yang, Z. (1996) Probability distribution of moleculat evolutionary trees: A new method of phylogenetic inference, J. Mol. Evol., 43, 304-311.
Rannala, B., Huelsenbeck, J., Yang, Z., and Nielsen, R. (1998) Taxon sampling
and accuracy of large phylogenies, Syst. Biol., 47, 702-710.
Rappuoli, R. (2004) From Pasteur to genomics: progress and challenges in
infectious diseases, Nature Medicine, 10, 1177-1185.
Rogic, S., Mackworth, A. K., and Ouellette, B. F. F. (2001) Evaluation of gene
finding programs on mammalian sequences, Genome Res., 11, 817-832.
Rosenberg, M., and Kumar, S. (2001) Incomplete taxon sampling is not a
problem for phylogenetic inference, PNAS, 98, 10751-10756.
Roshan, U., Moret, B., Williams, T. and Warnow, T. (2004) Rec-I-DCM3: A
Fast Algorithmic Technique for Reconstructing Large Phylogenetic Trees, Proceedings of the IEEE Computational Systems Bioinformatics conference (CSB)
Ruedi, M., Auberson, M., and Savolainen, V., 1998. Biogeography of Sulawesian shrews: testing for their origin with a parametric bootstrap on molecular data,
Mol. Phylogenet. Evol., 9, 567-571.
Salzberg, S., Delcher, A., Kasif, S., and White, O. (1998) Microbial gene identification using interpolated Markov models, Nucleic Acids Res., 26, 544-548.
Sankoff, D., and Rousseau, P. (1975) Locating the vertices of a Steiner tree in
an arbitrary metric space, Math. Progr., 9, 240-276.
Scarselli, M, Giuliani, M. M, Adu-Bobie, J., Pizza, M., and Ruppuoli, R.
(2005) The impact of genomics in vaccine design, TREND in Biotechnology, 23,
84-91.
Siddall, M. (1998) Success of parsimony in the four-taxon case: long-branch
repulsion by likelihood in the Farris zone, Cladistics, 14, 209-220.
Siddall, M., and Whiting, M. (1999) Long-branch abstraction, Cladistics, 15,
9-24.
Smith, T. F., and Waterman, M. S. (1981) Identification of common molecular
subsequences, J. Mol. Biol., 147, 195-197.
Sokal, R. and Michener, C. (1958) A statistical method for evaluating systematic relationships, University of Kansas Scientific Bulletin, 28, 1409-1438.
Solovyev, V. V., Salamov, A. A., and Lawrence, C. B. (1994) Predicting internal exons by oligonucleotide composition and discriminant analysis of spliceable
open reading frames, Nucleic Acids Res., 22, 5156-5163.
Steel, M. and Penny, D. (2000) Parsimony, likelihood, and the role of models
in molecular phylogenetics, Mol. Biol. Evol., 17, 839-850.
Strimmer, K., and von Haeseler, A. (1996) Quartet puzzling: A quartet maximum likelihood method for reconstructing tree topologies, Mol. Biol. Evol., 13,
964-969.
Tajima, F. (1989) Statistical method for testing the neutral mutation hypothesis
by DNA polymorphism, Genetics, 123, 585-595.
Taylor, W. R. (1987) Multiple sequence alignment by a pairwise alignment,
Comput. Appl., Biosci., 3, 81-87.
Thorne, J. L., Kishino, H., and Felsenstein, J. (1991) An evolutionary model
for maximum likelihood alignment of DNA sequences, J. Mol. Evol., 33, 114-124.
Thorne, J. L., Kishino, H., and Felsenstein, J. (1991) Inching toward reality:
an improved likelihood model of sequence evolution., J. Mol. Evol., 34, 3-16.
Tikkanen, M., McInnes, C., Mercer, A., Buttner, M., Tuimala, J., HirveläKoski, V., Neuvonen, E., Huovilainen, A. (2004), Recent isolates of Parapoxvirus of Finnish reindeer (Rangifer tarandus tarandus) are closely related to bovine
pseudocowpox virus, J. Gen. Virol., 85, 1413-1418.
Tompa, M., Li, N., Bailey, T. L., Church, G. M., De Moor, B., Eskin, E., Favorov, A. V., Frith, M. C., Fu, Y., Kent, W. J., Makeev, V. J., Mironov, A. A., Noble,
364
Bioinformatiikan perusteet
W. S., Pavesi, G., Pesole, G., Regnier, M., Simonis, N., Sinha, S., Thijs, G., van
Helden, J., Vandenbogaert, M., Weng, Z., Workman, C., Ye, C., and Zhu, Z (2005)
Assessing computational tools for the discovery of transcription factor binding sites, Nat. Biotechnol., 23, 137-144.
Tuffley, C., and Steel, M. (1997) Links between maximum likelihood and
maximum parsiomony under a simple model of substitution, Bull. of Math. Biol.,
59, 581-607.
Tuimala, J. (2004) Phylogeny of dinoflagellates - methodological aspects, poster, ISMB 2004, UK.
Tuimala, J. (2003) Hillis’ phages revisited, poster, Bioinformatics 2003, Finland.
Vandepoele, K., Sayes, Y., Simillion, C., Raes, J., and Van de Peer, Y. (2002)
The Automatic Detection of Homologous Regions (ADHoRe) and Its Application
to Microcolinearity Between Arabidopsis and Rice, Genome Res., 12, 1792-1801.
Vandepoele, K., De Vos, W., Taylor, J. S., Mayer, A., and Van de Peer, Y.
(2004) Major events in the genome evolution of vertebrates: Paranome age and
size differ considerably between ray-finned fishes and land vertebrates, PNAS, 101,
1638-1643.
Wasserman, W. W., and Krivan W. (2003) In silico identification of metazoan
transcriptional regulatory regions, Naturwissenschaften, 90, 156-166.
Waterston, R. H, and mouse genome sequencing consortium, Initial sequencing
and comparative analysis of the mouse genome, Nature, 420, 520-562.
Wenzel, J., and Siddall, M. (1999) Noise, Cladistics, 15, 51-64.
Wheeler, W. C. (1996) Optimization Alignment: the end of multiple sequence
alignment in phylogenetics?, Cladistics, 12:1-9.
Wheeler, W. (1999) Fixed character states and the optimization of molecular
sequence data, Cladistics, 15, 379-385.
Yang, Z., and Rannala, B. (1997) Bayesian phylogenetic inference using DNA
sequences: A Markoc Chain Monte Carlo method, Mol. Biol. Evol., 14, 717-724.
Yang Z., Nielsen R., Goldman N., and Pedersen A. M. (2000) Codon-substitution
models for heterogeneous selection pressure at amino acid sites, Genetics, 431-449.
Yelin, R., Dahary, D., Sorek, R., Levanon, E., Goldstein, O., Shoshan, A., Diber, A., Biton, S., Tamir, Y., Khosravi, R., Nemrez, S., Pinner, E., Walach, S., Berstein, J., Savitsky, K. and Rotman, G. (2003) Widespread occurrence of antisense
transcription in the human genome, Nature Biotech., 379-386.
Yi, T. and Lander, E. (1993) Protein secondary structure prediction using nearestneighbor methods, J. Mol. Biol., 232, 1117-1129.
35.2
Kirjaviitteet
Baldi, P. and Brunak, S. (1999) Bioinformatics - A machine learning approach,
MIT Press, Cambridge, Massachusetts, USA.
Baldi, P. and Hatfield, W. (2002) DNA microarray and gene expression - From
experiments to data analysis and modeling, Cambridge University Press, Cambridge, UK.
Baxavanis, A. and Ouellette, B. (1998) Bioinformatics - A practical guide to
the analysis of genes and proteins, Wiley Publishing, Inc., New York, USA.
Bininda-Emonds, O. R. P. (2004) Phylogenetic supertrees, Kluwer Academic
Publishers, The Netherlands.
Campbell, A., and Heyer, L. (2003) Discovering genomics, proteomics, &
bioinformatics, CSHL press, USA.
Causton, H., Quackenbush, J. and Brazma, A. (2003) A beginner’s guide Microarray gene expression data analysis, Blackwell Science Ltd., Oxford, UK.
Claverie, J-M. and Notredame, C. (2003) Bioinformatics for dummies, Wiley
Publishing, Inc., New York, USA.
35
Kirjallisuus
365
Felsenstein, J. (2003) Inferring phylogenies, Sinauer Associates, Inc., Massachusetts, USA.
Durbin, R., Eddy, S., Krogh, A. and Mitchison, G. (1998) Biological Sequence
analysis - Probabilistic models of proteins and nucleic acids, Cambridge University
Press, Cambridge, UK.
Gibson, G. and Spencer, M. (2002) A primer of genome science, Sinauer Associates, Inc., Massachusetts, USA.
Hall, B. (2001) Phylogenetic trees made easy, Sinauer Associates, Inc., Massachusetts, USA.
Hanski, I. and Gaggiotti, O. E., eds. (2004) Ecology, Genetics, and Evolution
of Metapopulations, Elsevier Academic Press, Burlington, Massaschusetts, USA.
Hedrick, P. W. (2000) Genetics of populations, Jones and Barlett Publishers,
Inc., Sudbury, Massachusetts, USA.
Hillis, D., Moritz, C. and Mable, B. (1996) Molecular systematics, Sinauer
Associates, Inc., Massachusetts, USA.
Jones, N., and Pevsner, P. (2004) An introduction to bioinformatics algorithms,
MIT Press, Cambridge, Massachusetts, USA.
Kitching, I., Forey, P., Humphries, J., and Williams, D. (1998) Cladistics - The
theory and practise of parsimony analysis, Oxford university press, Inc., New York,
USA.
Knudsen, S. (2001) A biologist guide to analysis of DNA microarray data,
Wiley Publishing, Inc., New York, USA.
Kohane, I., Kho, A., and Butte, A. (2003) Microarrays for an integrative genomics, MIT Press, Cambridge, Massachusetts, USA.
Korf, I., Yandell, M., and Bedell, J. (2003) BLAST - An essential guide to the
basic local alignment search tool, O’Reilly & associates Inc., California, USA.
Krane, D. And Raymer, M. (2003) Fundamental consepts of bioinformatics,
Pearson Education, Inc., San Francisco, USA.
Laine, M. M., Pasanen, T., Saarela, J., Saarikko, I., Toivanen, T., Tolvanen, M.,
Tuimala, J., Vihinen, M., Wong, G. (2003) DNA microarray data analysis, Picaset
Oy, Helsinki, Suomi.
Libscomb, D. (1998) Basics of Cladistic Analysis, George Washington University, USA, published online as PDF.
Li, W-H. (1997) Molecular Evolution, Sinauer Associates, Inc., Massachusetts,
USA.
Mattila, K., Tuimala J. and Korpelainen E. (2003) CSC:n bio-opas, Picaset Oy,
Helsinki, Suomi.
Mount, D. (2001) Bioinformatics - Sequence and genome analysis, Cold Spring
Harbor Laboratory Press, New York, USA.
Nei, M. and Kumar, S. (2000) Molecular evolution and phylogenetics, Oxford
University Press, Inc., New York, USA.
Nielsen, R. (2005) Statistical methods in molecular evolution, Springer, New
York, USA.
Page, R. and Holmes, E. (1998) Molecular evolution - A phylogenetic approach, Blackwell Science Ltd., Oxford, UK.
Salemi, M. and Vandamme, A-M. (2003) The phylogenetic handbook - A practical approach to DNA and protein phylogeny, Cambridge University Press, Cambridge, UK.
Salzberg, S. L., Searls, D. B., and Kasif, S. (1999) Computational methods in
molecular biology, Elsevier, Amsterdam, Netherlands.
Semple, C., and Steel, S. (2003) Phylogenetics, Oxford University Press, New
York, USA.
Setubal, J. and Meidanis, J. (1997) Introduction to computational molecular
biology, PWS Publishing Company, California, USA.
Sneath, P., and Sokal, R. (1973) Numerical taxonomy, W. H. Freeman, San
Francisco.
366
Bioinformatiikan perusteet
Speed, T. (2003) Statistical analysis of gene expression microarray data, CRC
Press LLC, Florida, USA.
Swofford, D. (1996) PAUP: Phylogenetic analysis using parsimony, version
3.1 program manual, Illinois Natural History Survey.
Wiley, E. O., Siegel-Causey, D., Brooks, D. R., and Funk, V. A. (1991) The
compleat cladist, The University of Kansas, Museum of Natural History, USA,
Special publication 19.
Xia, X. (2000) Data analysis in molecular biology and evolution, Kluwer Academic Publishers, Massachusetts, USA.
Hakemisto
367
Hakemisto
Symbols
K _a/K _s-suhde, 320
A
Additiiviset puut, 159
Algoritmi, 22
BLAST, 82
dynaaminen optimointi, 25
Needleman-Wunsch, 73
NP-ongelma, 24
Smith-Waterman, 75
Aminohappolyhenteet, 34
Annotaatio, 45
Antisense-RNA, 118
Apomorfia, 136
Aukkosakot, 66
Affine gap, 66
B
bayesilaiset menetelmät, 200
Bioinformaatikon määritelmä, 20
Bioinformatiikan määritelmä
geneettinen bioinformatiikka, 18
nykymääritelmä, 20
perinteinen bioinformatiikka, 20
BLAST, 82
BLOSUM-matriisit, 64
Bootstrapping, 221
ei-parametrinen, 221
parametrinen, 231
Bremerin tukiarvo, 224
C
CI, 184
COG, 274
D
Divide and conquer, 220
DNA-sirut, 277, 286
esikäsittely, 290
koesuunnittelu, 289
MIAME, 300
normalisointi, 290
sirujen valmistus, 286
suodatus, 293
Tulosten julkaisu, 300
visualisointi, 297
Dynaaminen optimointi, 25, 73
E
Eksonien tunnistaminen, 111
EM-algoritmi, 283
Etäisyys
Hamiltonin etäisyys, 149
P-etäisyys, 149
Poisson-etäisyys, 150
Etäisyysmenetelmät, 158
minimievoluutio, 159
molekyylikellon testaaminen, 162
neighbor-joining, 160
pienin neliösumma, 160
UPGMA, 158
Evolutiivinen malli, 145
Evoluutiomalli, 145, 148
aminohapposekvenssit, 149
Aukkokohtien käsittely, 156
DNA-sekvenssit, 151
gamma, 151
Jukes-Cantor, 152
Kimura, 150, 152
LogDet, 153
Parsimonia, 155
Sankoff, 155
Symmetrinen yleismalli, 153
368
F
Fylogeneettinen jalanjälki, 281
Fylogeneettinen puu, 130
Fylogenetiikka, 130
Bioinformatiikan perusteet
LHT-testi, 239
Long branch attraction, 246
Luokittelu, 137
M
G
Geenikartoitus, 268
Geenin toiminnan selvittäminen, 40
Geeniontologia, 276
Geenirakenteen ennustaminen, 308
aitotumalliset, 314
esitumalliset, 312
Fickettin menetelmä, 309
kodoniharhatesti, 310
MARs-alueet, 312
translaatio, 308
Gibbsin otanta, 283
GO-ontologia, 276
H
Hennigin argumentaatio, 169
Homologia, 135
Homoplasia, 136
I
ILD-testi, 239
Intronien tunnistaminen, 111
J
Jackknifing, 224
Juurrettu puu, 132
Juurtamaton puu, 132
K
Käänteiskomplementaarisuus, 111
Käänteiskomplementarisointi, 111
Kahden sekvenssin rinnastus, 68
Kishino-Hasegawan testi, 235
Kladistiikka, 130
Kokonaisrinnatus, 68
Konsensuspuut, 232
Adams, 234
enemmistökompromissi, 234
Nelson, 234
puolitiukka, 232
tiukka, 232
Yksimielisyys, 234
L
Lajien luokittelu, 137
MARs-alueet, 312
MCMC-menetelmä, 201
MIAME, 300
Minimievoluutiomenetelmä, 159
Molekyylikellon testaaminen, 162
Molekyylisystemaattinen analyysi, 142
Molekyylisystematiikan pääsuuntaukset,
138
Molekyylisystematiikka, 130
Monirinnastus, 94
Monofyleetinen, 136
MRP-menetelmä, 203
N
Neighbor-joining, 160
Normalisointi, 290
NP-ongelma, 24
Nukleotidifrekvenssi, 110
Nukleotidikoodit, 34
O
Occamin partaveitsi, 168
Ohjelma
BankIt, 37
BBA, 82
BIONJ, 160
BLAST, 81, 86
Clustal, 96
DAMBE, 245
dnaml, 199
FastA, 81
FGENES, 314
Fitch, 162
GeneMark, 111, 313
GeneParser, 314
Genscan, 315
Glimmer, 313
Grail, 314
HEXON, 314
HMMgene, 315
Kitsch, 162
MALIGN, 250
marscan, 312
MEME, 285
Hakemisto
MetaPIGA, 146, 200
MFOLD, 304
Modeltest, 155
MrBayes, 201, 203, 256
MSA, 95
Muscle, 102
MySQL, 43
Nona, 214
Oracle, 43
PAUP, 155, 210
PHRED, 264
POLYBAYES, 264
POY, 145, 211, 249
Primer3, 262
protpars, 246
PSI-BLAST, 81
Rec-I-DCM3, 211
Sequin, 37
SIFT, 265
SNP-Finder, 264
SplitsTree, 255
SSEARCH, 81
syco, 311
T-Coffee, 99
tcode, 309
TNT, 146, 210
TREEALIGN, 252
TreePuzzle, 220
tRNAscan-SE, 306
WEBIN, 37
Weeder, 285
Weighbor, 160
Ohjelmat
AVID, 317
InsightII, 334
LAGAN, 317
Melanie, 332
MLAGAN, 317
PeptideCutter, 333
ProFound, 333
Vista, 317
Ominaisuuksien yhteensopivuus, 242
Optimointikohdistus, 251
Ortologia, 135
Ortologisten geenien luokittelu (COG),
274
369
P
Paikallinen rinnastus, 68
Painoarvomatriisi, 280
PAM-matriisit, 60
Parafyleettinen, 136
Paralogia, 135
Parittainen rinnastus, 68
Parsimoniamenetelmä, 168
Hennigin argumentaatio, 169
Muokattu yhdenmukaisuusindeksi,
187
Ominaisuuksien painottaminen, 188
Optimaalisuuskriteeri, 175
Camin-Sokal, 180
Dollo, 179
Fitch, 179
Sankoff, 180
Wagner, 175
Yleistetty, 180
Puun pituus, 183
Synapomorfiaindeksi, 186
Wagnerin kaava, 174
Wagnerin menetelmä, 171
Yhdenmukaisuusindeksi, 184
PCR-alukkeiden suunnittelu, 259
Permutaatiohännäntodennäköisyys (PTP),
228
PHI-BLAST, 89
Pistematriisimenetelmä, 71
Pistemutaatio, 263
Pisteytysmatriisit, 59
BLOSUM-matriisit, 64
Gonnet, 65
JTT, 65
Matriisien erot, 64
PAM, 60
PAM-matriisien muodostaminen, 61
Pituuseroetäisyys, 238
Plesiomorfia, 136
Polyfyleettinen, 136
Populaatiogenetiikka, 266
posteriori-jakauma, 201
POY, 249
priori-jakauma, 201
Promoottialue, 278
Promoottorialueen tunnistaminen, 114
Promoottorisekvenssin analysointi, 278
PSI-BLAST, 89
370
Puiden tilastollinen testaaminen, 235
ILD, 239
Kishino-Hasegawa, 235
LHT, 239
Templeton, 235
Uskottavuusosamäärä, 236
Puiden välinen etäisyys, 236
Pituuseroetäisyys, 238
Symmetrinen etäisyys, 237
Puun luotettavuuden arviointi, 221
bootstrapping, 221
Bremerin tukiarvo, 224
DCL, 226
Jackknifing, 224
Parametrinen Bootstrapping, 231
PTP, 228
Puun pituuksien jakauma (DCL), 226
Puun pituus, 183
Puun uudelleenjärjestelymenetelmät, 207
menetelmien käyttö, 208
NNI, 207, 212
Nykymenetelmät, 210
Perinteinen haku, 209
Rajattu haku, 212
ratchet, 207, 214
sectorial search, 207
sectorial searches, 218
SPR, 207, 213
Täydellinen haku, 211
TBR, 207, 213
tree drifting, 207, 216
tree fusing, 207, 216
R
RC, 187
Restriktioentsyymit, 108
RI, 186
Rinnakkaislaskenta, 25
Rinnastus
Asetukset, 79
Dynaaminen optimointi, 73
kokonais, 68
Needleman-Wunsch, 73
paikallinen, 68
pistemäärän laskeminen, 70
pistematriisimenetelmä, 71
Smith-Waterman, 75
tilastollinen merkitsevyys, 77
Bioinformatiikan perusteet
RNA:n rakenteen ennustaminen, 301
kovariaatiomenetelmä, 305
minimienergiaperiaate, 302
S
Säännöllinen lauseke, 51
Sekvensointi, 34
Genomiprojektit, 39
virheet, 34
Sekvenssien luotettavuus, 39
Sekvenssien tallentaminen omaan käyttöön, 37
Sekvenssien tallentaminen tietokantaan,
37
Sekvenssihaut, 81
BLAST, 82
Parametrien asettaminen, 90
Pattern Hunter, 93
PHI-BLAST, 89
Pitkät sekvenssit, 92
PSI-BLAST, 89
Smith-Waterman, 90
suorittaminen, 81
Sekvenssirinnastuksen määritelmä, 68
Sisäryhmä, 143
SNP, 263
Sormenjäljet, 52
Sovellukset
molekyylisystematiikka, 29
SARS-epidemia, 29
sekvenssien hankkiminen, 27
sekvenssin ominaisuudet, 27
sekvenssirinnastus, 28
Suora kohdistusoptimointi, 251
Superpuumenetelmät, 202, 219
MRP, 203
Suurimman uskottavuuden menetelmät,
190
aminohapposekvenssit, 199
Evoluutiomalli, 191
Evoluutionopeuden vaihtelu, 198
gamma-jakauma, 198
Uskottavuuden laskeminen, 191
Symmetrinen etäisyys, 237
Synapomorfiaindeksi, 186
T
Taksoniotanta, 248
Taksonominen yhteensopivuus, 242
Hakemisto
Templetonin testi, 235
Tietokannat, 42
Aminohapposekvenssitietokannat, 49
dbEST, 49
EMBL, 44
Ensembl, 53
GenBank, 44
Genomitietokannat, 53
Haku
Asiasanalla, 56
Sekvenssillä, 56
Tunnistenumerolla, 57
InterPro, 52
Julkaisutietokannat, 54
Locuslink, 48
nukleotiditietokannat, 44
PDB, 54
PIR, 50
primääritietokannat, 43
PRINTS, 52
PROSITE, 51
PubMed, 54
Rakennetietokannat, 54
RefSeq, 46
sekundääritietokannat, 43
SWISS-PROT, 50
TrEMBL, 50
Tunnistenumerot, 57
Tunnistetietokannat, 51
UCSC, 54
UniGene, 48
UniProt, 49
Yhdistelmätietokannat, 51
yhdistelmätietokannat, 43
Tietokoneohjelman muistintarve, 24
Tietokoneohjelman nopeus, 23
Todennäköisyys ja uskottavuus, 191
Transkriptiomodulit, 282
Translaatio, 110
Tukiarvot, 147
U
Ulkoryhmä, 132, 143
Ultrametriset puut, 158
UPGMA, 158
Usean sekvenssin rinnastus, 94
Clustal, 96
Dynaaminen optimointi, 95
371
Editointi, 104
Iteratiiviset menetelmät, 103
Laadun arviointi, 105
Muscle, 102
Progressiiviset menetelmät, 96
T-Coffee, 99
Transloituvien DNA-sekvenssien rinnastaminen, 104
virheet, 105
uskottavuusfunktio, 191
Uskottavuusosamäärätesti, 236
V
Vaihtoehtoinen silmukointi, 111
Vertaileva genomiikka, 316
W
Wagnerin menetelmä, 171
Y
Yhdenmukaisuusindeksi, 184