Molekulare Systematik

Transcription

Molekulare Systematik
Skript zum Praktikumsteil Molekulare Systematik
Christian Printzen, Daniele Silvestro,
Heike Kappes, Carmen Jung
„... any systematic attempt to construct ... natural relationships becomes the purest speculation,
completely unsupported by any sort of evidence. ... the ultimate goal of biological classification
can not be achieved in the case of bacteria.“
Stanier, Doudoroff & Adelberg, The microbial world, 2nd ed. (1964)
„A revolution is occurring in bacterial taxonomy. ... molecular sequencing techniques permit a
direct measurement of genealogical relationships.
Fox et al., Science 209: 457–463 (1980)
Einleitung:
Rom ist nicht an einem Tag erbaut worden
Seit dem Erscheinen von Darwins Hauptwerk „On the Origin of Species by Means of Natural
Selection“ (Darwin 1859) klassifizieren Systematiker Organismen nicht mehr nur nach ihrer
Ähnlichkeit, sondern versuchen, die natürlichen Verwandtschaftsbeziehungen zwischen ihnen
aufzudecken. Den ersten Stammbaum des Lebens stellte 1866 Ernst Haeckel vor (Haeckel
1866). Bis zur Mitte des 20. Jahrhunderts basierten solche phylogenetischen Stammbäume
praktisch nur auf morphologischen Merkmalen. Das funktionierte bei hoch entwickelten Organismen mit vielen Merkmalen gut, versagte aber regelmäßig bei systematischen Gruppen, die
wenige oder fast gar keine sichtbaren und messbaren Merkmale hatte. Ernüchtert und frustriert
waren besonders die Bakteriologen (Zitat 1 oben). In nur wenigen Jahren änderte sich diese
Situation aber vollkommen. Molekulare Methoden haben die organismische Biologie revolutio-
1
niert (Zitat 2 oben) und erlauben es heute, Fragen zu stellen und Hypothesen zu überprüfen,
die man bis in die 1970er Jahre für nicht zu beantworten hielt.
Mittlerweile wissen wir, dass die Geschichte eines Organismus, von seinen evolutionären Wurzeln bis zu seiner familiären Vergangenheit, Spuren im Genom hinterlässt. Darwin und seine
Zeitgenossen wussten aber nichts über die Mechanismen oder die stoffliche Grundlage der
Vererbung. Von der Entdeckung der Entstehung von Arten durch natürliche Selektion und der
Vererbungsgesetze bis zum Berechnen molekularer Stammbäume des Lebens war es ein weiter Weg. Gregor Mendels Arbeit zur Vererbung von Merkmalen wurde 1866 publiziert (Mendel
1866), aber erst über 30 Jahre später von der Fachwelt wahrgenommen. Der Schweizer Physiologe Friedrich Miescher hatte 1869 die Desoxyribonukleinsäure in Zellkernen von Eiterzellen
entdeckt und auch bald vermutet, dass es sich dabei um die Substanz handeln könnte, die für
die Vererbung von Merkmalen verantwortlich ist (Miescher 1874). Aber erst 75 Jahre später erbrachte Oswald Avery durch seine bahnbrechenden Versuche an Pneumokokken den Beweis
für die Rolle der DNA als Erbsubstanz (Avery et al. 1944). Ihre chemische und physikalische
Struktur wurde schließlich von Erwin Chargaff (1951), James Watson und Francis Crick (1953)
aufgedeckt. Das erste Stück einer DNA-Sequenz (ganze 10 bp) wurde erst 15 Jahre später von
Ray Wu und Dale Kaiser (1968) veröffentlicht.
Für Taxonomen und Systematiker waren DNA-Sequenzinformationen vorerst nicht nutzbar. Das
Entziffern einer DNA- oder Proteinsequenz war technisch ungeheuer aufwändig und deshalb
viel zu kostspielig. Das änderte sich erst durch zwei Arbeiten, die die gesamte Biologie und damit auch die Systematik und Evolutionsforschung verändert haben. In der ersten Arbeit beschrieb der englische Biochemiker Frederic Sanger mit zwei Kollegen, wie man die Basenabfolge eines DNA-Moleküls mit einem relativ einfachen Verfahren bestimmen kann (Sanger et al.
1977). Die andere Arbeit wurde von den Zeitschriften Science und Nature abgelehnt (auch die
irren sich manchmal!) und war deshalb zunächst nur in einem Symposiumsband erschienen. In
ihr beschrieb der amerikanische Biochemiker Kary Mullis eine Methode zur Vermehrung von
DNA im Reagenzglas, die Polymerase-Kettenreaktion (Mullis 1986, Mullis & Faloona 1987).
Beide Methoden zusammen ermöglichten es nun auch Systematikern, relativ einfach und
preiswert die Basenabfolge gezielt ausgewählter DNA-Abschnitte bei verschiedenen Arten zu
ermitteln.
Dass man mit Hilfe von Makromolekülen stammesgeschichtliche Verwandtschaftsverhältnisse
aufklären könne, wurde Anfang der 1960er Jahre von Emil Zuckerkandl und Linus Pauling
(1962) postuliert. Beide veröffentlichten etwas später auch den vermutlich ersten molekularen
Stammbaum auf der Grundlage von Proteinsequenzen (Zuckerkandl & Pauling 1965). Die Entwicklung von statistischen Auswertungsmethoden, mit denen man Phylogenien rekonstruieren
konnte, setzte ungefähr zeitgleich ein, zunächst noch ohne direkten Bezug zu molekularen Daten. Den Anfang machten Robert Michener und Sokal (1957) mit der ersten statistischen Methode zur Berechnung von Verwandtschaftsverhältnissen, damals noch auf der Basis von
2
„klassischen“ morphologischen Merkmalen. In den 1960er Jahren überschlugen sich die Ereignisse dann, hauptsächlich durch die Arbeiten von Anthony Edwards und Luca Cavalli-Sforza.
1963 stellten die beiden das Prinzip der „Minimum Evolution“ vor, das Joseph Camin und Robert Sokal (1965) unter dem Namen „Parsimonie-Verfahren“ bekannt machten und das sich
durch die Arbeiten von Thomas Jukes und Charles Cantor (1969) und Walter Fitch (1971)
schließlich auch auf molekulare Daten anwenden ließ. 1967 beschrieben sie eine Methode zur
Stammbaumberechnung auf der Basis von genetischen Distanzen. Mit einer solchen Methode
berechneten Walter Fitch und Emanuel Margoliash (1967) im selben Jahr eine Phylogenie der
Wirbeltiere. Und schon 1964 hatten Edwards und Cavalli-Sforza über ein Verfahren zur Phylogenieberechnung mittels Maximum Likelihood nachgedacht, ein in der Statistik übliches Verfahren, um Modelle und Hypothesen zu vergleichen. Die Anwendung scheiterte aber daran, dass
es keine Computer gab, die den erforderlichen Rechenaufwand bewältigen konnten. Während
die grundlegenden Methoden der Stammbaumberechnung in nur acht Jahren entwickelt und
publiziert wurden (viele mehrfach unabhängig voneinander), dauerte es dann 17 Jahre, bis Joseph Felsenstein (1981) schließlich ein praktikables Maximum-Likelihood-Verfahren für
Stammbaumberechnungen einführte. Naruya Saitou und Masatoshi Nei entwickelten 1987 das
auf genetischen Distanzen beruhende Neighbour Joining Verfahren. Als vorläufig letzte Methode, die sich weitgehend durchgesetzt hat, erschien die Bayes’sche Baumberechnung auf der
Bildfläche (Yang & Rannala 1997).
Dieses Praktikum versucht etwas ziemlich Anspruchsvolles: Ihnen in nur zwei Wochen die Datengewinnung im Labor und die Analyse der Sequenzdaten, wie sie heute in der Systematik
allgemein üblich ist, zu vermitteln. Die im Kurs durchgenommenen Arbeitsschritte sind die gleichen, die bei der wissenschaftlichen Arbeit anfallen. Allerdings konzentrieren wir uns im Kurs
auf die wesentlichen Analysemethoden: Parsimonie, Maximum Likelihood und Bayes’sche
Stammbaumberechnung. Das Praktikum ist damit eine Art „Kochkurs“ für molekulare Systematik, und dieses Skript ist das Kochbuch. Es erläutert kurz zusammen gefasst die Hintergründe
der Methoden (Fließtext und blaue Boxen), gibt in farbig hinterlegten Boxen genaue Anweisungen zu den Arbeitsschritten im Labor (gelb) und am Computer (rosa) und stellt Zwischenfragen
(grün hinterlegt), die helfen sollen, das Gelesene durch Nachdenken zu vertiefen.
Die Labormethoden zur Gewinnung von DNA-Sequenzen sind nicht besonders anspruchsvoll
(selbst wenn viele Protokolle nicht gleich von Beginn an funktionieren). Die Verfahren zur Berechnung phylogenetischer Stammbäume sind dagegen etwas schwerer zu durchschauen. Wir
versuchen zwar, die Hintergründe dieser Methoden anhand von Beispielen zu erklären und
möglichst ohne mathematische Symbole auszukommen. Ganz ohne Statistik und (einfache)
Mathematik geht das nicht. Weil wir wissen, dass diese Methoden nicht einfach zu verstehen
sind, schreiben wir zur Zeit ein E-learning-Programm, das begleitend zum Kurs verwendet werden soll. Einige Lerneinheiten von „E-volution“ sind schon fertig gestellt und werden Ihnen zur
Verfügung gestellt.
3
Kursziele
1) Nach dem ersten Kursteil sollen Sie in der Lage sein, ohne weitere Anleitung:
a. Aus Pflanzen- oder Pilzmaterial DNA zu extrahieren,
b. PCR-Reaktionen mit vorher ausgewählten Primern anzusetzen,
c. PCR-Produkte auf Agarose-Gelen zu reinigen,
2) Nach dem zweiten Kursteil sollten Sie in Grundzügen mit folgenden Begriffen und Arbeitsverfahren vertraut sein.
a. Editieren und Alignieren von Sequenzen
b. Beschreibung phylogenetischer Bäume
c. Berechnung phylogenetischer Bäume mittels Parsimonie, Maximum Likelihood
und Bayes’scher Verfahren
d. Berechungsmethoden für die statistische Unterstützung von Ästen eines Stammbaumes
e. Datierung von Knoten auf einem phylogenetischen Stammbaum
3) Nach den Vorbesprechungen, eigener Lektüre und dem abschließenden Seminartag
sollten Sie in der Lage sein, einfachere molekularsystematische Publikationen zu verstehen, Ihre eigenen Daten mit kritischen Augen zu betrachten und ein vollständiges und
gut formuliertes Protokoll abzugeben.
Aufgabe vor Beginn des Kurses: Lesen Sie dieses Skript (mit Ausnahme der gelb und rosa
hinterlegten Passagen) gründlich durch.
4
DNA-Sequenzierung, eine kurze Übersicht
DNA zu „sequenzieren“ bedeutet, die Reihenfolge der Nukleotid-Basen – die Basensequenz –
eines DNA-Abschnitts zu ermitteln. Die für den Organismus wichtigen Informationen zur Synthese von Proteinen sind in Form von Basentripletts (Dreiergruppen von Nukleotidbasen) auf
der DNA gespeichert. Daneben gibt es bei Eukaryoten eine große Menge nicht-codierender
DNA, die scheinbar keinerlei Informationen trägt. DNA-Sequenzen werden in der Regel unverändert von einer Generation an die nächste weiter gegeben. Durch gelegentliche Fehler bei der
DNA-Replikation (Mutationen) summieren sich aber doch im Laufe der Zeit SequenzUnterschiede zwischen den Organismen. Die für Systematiker wichtigen Informationen sind genau diese erblich fixierten Veränderungen (Substitutionen), die Sequenzen im Laufe der Evolutions- oder Populationsgeschichte durchmachen. Vereinfacht kann man sagen: Je näher zwei
Organismen miteinander verwandt sind, desto ähnlicher sind sich ihre DNA-Sequenzen. Es
geht in der molekularen Systematik also darum, anhand von DNA- (oder Protein-) Sequenzunterschieden die Evolutionsgeschichte der Organismen nachzuvollziehen. Dies ist ein Prozess,
der viele Arbeitsschritte umfasst. Die folgende Zusammenfassung soll Ihnen die Übersicht erleichtern.
1) Der erste Schritt der DNA-Sequenzierung ist die Extraktion der DNA aus Gewebeproben. Die DNA muss aus den Zellen freigesetzt und alle anderen Zellbestandteile beseitigt werden.
2) Ein oder mehrere vorher bestimmte DNA-Abschnitte müssen in so großer Konzentration
vorliegen, dass man ihre Basensequenz bestimmen kann. Die PolymeraseKettenreaktion (PCR) dient dazu, die ausgewählten DNA-Abschnitte zu vermehren.
3) Das Endprodukt der PCR-Reaktion dient als Ausgangsprodukt für die eigentliche Sequenzierreaktion. Bevor diese Reaktion gestartet werden kann, müssen durch Reinigung der PCR-Produkte alle im nächsten Schritt störenden Substanzen entfernt werden.
4) Das gereinigt PCR-Produkt wird in der Sequenzierreaktion einer weiteren PCR unterzogen. Diesmal verwendet man nur einen Primer, so dass es zu keiner Verdoppelung
der DNA mehr kommt. Meist möchte man zur Sicherheit und zum Datenabgleich beide
DNA-Stränge sequenzieren und setzt deshalb zwei oder mehr Reaktionen mit jeweils unterschiedlichen Primern an.
5) Im letzten Schritt wird das Produkt der Sequenzierreaktion in einem automatischen DNASequenzierer elektrophoretisch aufgetrennt, wobei mit Hilfe von Fluoreszenzmarkern die
DNA-Sequenz bestimmt wird.
5
Datengewinnung: DNA-Sequenzierung
Aufarbeitung des Pflanzenmaterials und DNA-Extraktion
Frisch gesammeltes Pflanzenmaterial liefert die beste Ausbeute an DNA. Auch die Qualität
(ausgedrückt im Molekulargewicht der DNA) ist bei Einsatz von Frischmaterial am höchsten. Im
Alltag greift man aber oft auf konserviertes Material zurück (wer hat schon ein DNAExtraktionslabor auf Sammelreisen dabei). Am besten konserviert man die DNA von Pflanzen
durch rasches Trocknen mit Silicagel-Perlen, Lagerung in einem speziellen Puffergemisch oder
Tieffrieren (allerdings hat man im Gelände meist auch keinen Gefrierschrank bei sich). Auch
aus Herbarbelegen, durch Pressen getrocknetes Material, kann man DNA isolieren, die allerdings häufig stark degradiert ist. Für verschiedene Organismengruppen sind die unterschiedlichsten DNA-Extraktionsmethoden entwickelt worden. Im Kurs wenden wir exemplarisch zwei
Methoden an: Eine Extraktion mit CTAB und Chloroform sowie eine mit einem kommerziell erhältlichen Kit („DNeasy Plant Mini Kit“ der Firma Qiagen).
Bei beiden Methoden ist der erste Arbeitsgang der einfachste: Zerstören Sie das Pflanzenmaterial bis zur Unkenntlichkeit! Dieser Schritt ist notwendig, weil im nächsten Schritt die DNA aus
den Zellen freigesetzt werden soll. Je größer die Oberfläche, desto schneller wirken die dazu
notwendigen Enzyme. Trotzdem heißt es vorsichtig vorgehen: Handschuhe tragen! Wir benutzen im Kurs das „DNeasy Plant Mini Kit“ der Firma Qiagen.
DNA-Extraktion mit der CTAB-Methode
Von diesem Protokoll gibt es unzählige Varianten für tierisches und pflanzliches Material. Fast
jeder Forscher schwört dabei auf sein eigenes Rezept. Im Kurs wird ein für die Familie der
Bromeliaceae optimiertes Protokoll, basierend auf dem Grundrezept von Doyle & Doyle (1987),
verwendet:
1. Für jeden Teilnehmer wird eine Pflanzenprobe (ca. 400 mg gefrorenes Blattmaterial) bereitgestellt. Beschriften Sie Deckel und Seitenwand eines 2 ml Eppendorf-Gefäßes mit
der Probennummer. Schützen Sie die seitliche Beschriftung mit einem kleinen Stück Tesafilm.
2. Pipettieren Sie 650 µl CTAB-Extraktionspuffer (CTAB = Cetyltrimethylammoniumbromid)
in jedes Gefäß. Geben Sie 1,3 µl Mercaptoethanol (= MET) hinzu. Vorsicht, MET ist giftig – unter dem Abzug arbeiten!
3. Stellen Sie die Gefäße bei 60°C in den Heizblock.
4. Stellen Sie für jede Pflanzenprobe einen Mörser samt Pistill bereit, geben Sie eine Messerspitze Sand und das Pistill hinein.
5. Ziehen Sie Schutzbrille und Baumwollhandschuhe, darüber Latexhandschuhe an!
6. Füllen Sie den Mörser zur Hälfte mit flüssigem Stickstoff. Vorsicht! Auch mit Baumwollhandschuhen den gekühlten Mörser nur kurzzeitig berühren. Geben Sie die tiefgefrorene
Pflanzenprobe hinzu und warten Sie, bis der Stickstoff beinahe vollständig verdunstet ist.
7. Beginnen Sie unverzüglich mit dem Mörsern.
6
8. Überführen Sie das Pflanzenpulver mit einem Spatel und Trichter in das entsprechende
Eppendorf-Gefäß bevor es aufgetaut ist! Unter dem Abzug arbeiten!
9. Durchmischen Sie Puffer und Pflanzenmaterial durch kurzes Umschütteln des geschlossenen Gefäßes.
10. Wenn alle Proben versorgt sind und im Heizblock stehen, warten Sie 30-60 Minuten. In
dieser Zeit die Gefäße alle 5 Minuten kräftig aufschütteln.
11. Anschließend Proben auf Raumtemperatur abkühlen lassen.
12. Zugabe von 650 µl „Chloroform-Isoamylalkohol 24 + 1“ (gründlich gemischt). Vorsicht:
Chloroform ist gesundheitsschädlich – unter dem Abzug arbeiten! Proben 10 Minuten mit
der Hand schwenken.
13. Zentrifugieren Sie 15 Minuten bei 9000 rpm und Raumtemperatur (= RT). Achten Sie
darauf, dass der Rotor austariert ist!
14. Beschriften Sie neue 1,5 ml Eppendorf-Gefäße mit der Probennummer.
15. Obere, DNA-haltige Phase vorsichtig mit der 1000er Pipette abziehen und in das vorbereitete 1,5 ml Eppendorf-Gefäß geben. Unter dem Abzug arbeiten!
16. Volumen der DNA-Lösung abschätzen und 0,6 Volumen Isopropanol (RT) zugeben, Deckel schließen und vorsichtig mischen. Es dürfen keine Schlieren mehr zu sehen sein.
17. Für 1 Stunde bei RT stehen lassen. Gönnen Sie sich eine Mittagspause!
18. Zentrifugieren Sie 15 Minuten bei 13.000 rpm und 10°C. Nun liegt die DNA als Pellet am
Gefäßboden vor.
19. Vorsichtiges Abgießen des Überstandes in ein Abfallgefäß. Rand des 1,5 ml EppendorfGefäßes gründlich auf Zellstoff abtupfen.
20. Zugabe von 500 µl 70% unvergälltem Ethanol. Gefäß kurz ausschwenken.
21. Zentrifugieren Sie 15 Minuten bei 13.000 rpm und 10°C. DNA liegt als Pellet am Gefäßboden vor.
22. Vorsichtiges Abgießen des Überstandes in ein Abfallgefäß. Rand des 1,5 ml EppendorfGefäßes gründlich auf Zellstoff abtupfen.
23. Pellet im offenen 1,5 ml Eppendorf-Gefäß bei Raumtemperatur für 30-60 Minuten trocknen. Darauf achten, dass die DNA nicht komplett trocken fällt.
24. Die Schritte 25-27 überspringen wir im Kurs. Sie sind der Vollständigkeit halber hier aufgeführt.
25. Zugabe von 200 µl TE-Puffer (pH 8). Pellet ein bis mehrere Tage bei 4°C rücklösen lassen.
26. Überprüfen Sie, ob sich die isolierte DNA im TE-Puffer rückgelöst hat. Zugabe von 0,5 µl
RNAse-Lösung (10 mg/ml). Vorsichtig mischen und 2 Stunden bei 37°C inkubieren.
27. Anschließend Proben auf Raumtemperatur abkühlen lassen.
28. Zugabe von 10 µl 5M NaCl-Lösung (RT) zu jeder Probe, gut mischen.
29. Zugabe von 73 µl 100% unvergälltem Ethanol (RT) zu jeder Probe, diese sofort (!) vortexen und 10 Minuten auf Eis inkubieren.
30. Zentrifugieren Sie 15 Minuten bei 9000 rpm und 10°C. Zentrifuge vorkühlen!
31. Beschriften Sie neue 1,5 ml Eppendorf-Gefäße mit Probennummer, Artname und Datum.
7
32. Pipettieren Sie den DNA-haltigen Überstand in das vorbereitete 1,5 ml Eppendorf-Gefäß.
33. Zugabe von 220 µl Isopropanol (RT). Vorsichtig schwenken bis keine Schlieren mehr zu
sehen sind.
34. Zentrifugieren Sie 15 Minuten bei 13.000 rpm und 10°C. DNA liegt als Pellet am Gefäßboden vor.
35. Vorsichtiges Abgießen des Überstandes in ein Abfallgefäß. Rand des 1,5 ml EppendorfGefäßes gründlich auf Zellstoff abtupfen.
36. Zugabe von 500 µl 70% unvergällten Ethanols. Gefäß kurz ausschwenken.
37. Zentrifugieren Sie 15 Minuten bei 13.000 rpm und 10°C. DNA liegt als Pellet am Gefäßboden vor.
38. Vorsichtiges Abgießen des Überstandes in ein Abfallgefäß. Rand des 1,5 ml EppendorfGefäßes gründlich auf Zellstoff abtupfen.
39. Pellet im offenen 1,5 ml Eppendorf-Gefäß bei Raumtemperatur für 30-60 Minuten trocknen. Darauf achten, dass die DNA nicht komplett trockenfällt.
40. Zugabe von 40-60 µl TE-Puffer (pH 8). Ende des ersten Arbeitstages.
41. Pellet mind. einen Tag bei 4°C rücklösen lassen.
Zunächst werden bei diesem Verfahren die Zellwände aufgebrochen. Im anschließend zugegebenen Extraktionspuffer wirken verschiedene Stoffe: CTAB zerstört Zellmembranen (Detergens!), entfernt Polysaccharide (gerade bei Pflanzen meist reichlich vorhanden) und denaturiert
Proteine (z.B. Nukleasen). EDTA blockiert DNA-modifizierende Enzyme und MET schützt vor
oxidativen Schädigungen. Auch die Inkubation bei 60°C sorgt für die Denaturierung von Proteinen. Zur Abtrennung der Nukleinsäuren von unerwünschten Stoffen wird Chloroform verwendet
(der zugesetzte Isoamylalkohol verhindert Schaumbildung). In der oberen, wässrigen Phase
sammeln sich die Nukleinsäuren, die denaturierten Proteine bilden eine weißliche Grenzschicht
zur unteren organischen Phase, welche u.a. Lipide enthält. Ganz unten haben sich Sand und
Fasern abgesetzt. Mit Isopropanol werden Nukleinsäuren gefällt und durch Waschen mit
70%igem Ethanol von Salzen und anderen wasserlöslichen Stoffen gereinigt. Die Zugabe von
RNAse sorgt für den Abbau der RNA (es soll ja mit DNA gearbeitet werden), anschließend erfolgt eine weitere Reinigung von Polysacchariden (wichtig bei vielen Vertretern der Bromelien)
und erneut eine Fällung und Reinigung der DNA. Die DNA-Lösung ist im Kühlschrank mehrere
Jahre lang haltbar. Frieren Sie DNA-Lösungen nur ein, wenn Sie sicher sind, dass sie nur noch
selten gebraucht werden. Häufiges Auftauen und Einfrieren zerstört die DNA.
Aufgabe 1: Zur Herstellung des CTAB-Extraktionspuffers stehen Stammlösungen mit gebräuchlichen Konzentrationen zur Verfügung. Bitte berechnen Sie, wie Sie 1 Liter CTABExtraktionspuffer herstellen können:
Extraktionspuffer:
Konzentration Stammlösung:
Volumen Stammlösung:
1,4 M NaCl
5 M NaCl
?
0,1 M Tris-HCl (pH 8)
1 M Tris-HCl (pH 8)
?
20 mM EDTA
0,5 M EDTA
?
2 % CTAB
10 % CTAB
?
8
DNA-Extraktion mit dem „DNeasy Plant Mini Kit“ (Qiagen)
1. Für jeden Teilnehmer wird eine Pflanzenprobe (ca. 60 mg getrocknetes Blattmaterial) bereitgestellt. Geben Sie vorsichtig zu jeder Probe eine oder zwei Metallkugeln hinzu.
2. Heizen Sie einen Heizblock auf 60 °C vor.
3. Erwärmen Sie die AP1-Pufferflasche im Wasserbad (65 °C).
4. Mörsern Sie das Material in der Kugelmühle zu feinem Pulver. Überprüfen Sie dabei regelmäßig den Mahlgrad Ihrer Probe.
5. Pipettieren Sie 400 µl Puffer AP1 (Lysispuffer) und 4 µl RNAse zu jeder Probe. Durchmischen Sie Puffer und Pflanzenmaterial durch kurzes Umschütteln des geschlossenen
Gefäßes.
6. Stellen Sie die Proben sofort in den vorgewärmten Heizblock.
7. Wenn alle Proben versorgt sind und im Heizblock stehen, warten Sie 30-60 Minuten. In
dieser Zeit die Gefäße alle 5 Minuten kräftig aufschütteln und die folgenden Arbeitsschritte vorbereiten:
8. Beschriften Sie für jede Probe 1 violette Säule und 1 weiße Säule im Collecting tube sowie zwei 1,5 ml Gefäße mit der jeweiligen Probennummer. Auch die Collecting tubes beschriften.
9. Erwärmen Sie Puffer AE auf einem Heizblock (65 °C).
10. Nach Abschluss der Inkubation pipettieren Sie zu jeder Probe 130 µL Puffer AP2 (Fällungspuffer). Pipettenspitze wechseln!
11. Mischen Sie durch Umschütteln und stellen Sie die Proben 5 Minuten auf Eis.
12. Zentrifugieren Sie das Gemisch 5 Minuten bei 14.000 rpm. Achten Sie darauf, dass der
Rotor austariert ist!
13. Pipettieren Sie den Überstand auf die violette Säule.
14. Zentrifugieren Sie 2 Minuten bei 14.000 rpm. Verwerfen Sie die Säule.
15. Pipettieren Sie den Durchlauf (ohne Pellet!) in eines der 1,5 ml Eppendorf-Gefäße.
16. Fügen Sie das 1,5-fache Volumen Puffer AP3 (Bindepuffer) zum Durchlauf hinzu und mischen Sie sofort durch gründliches Auf- und Abpipettieren. Pipettenspitze wechseln! Wie
stellen Sie das Volumen des Durchlaufs fest?
17. Überführen Sie 650 µL dieses Gemischs auf die weiße Säule. Pipettenspitze wechseln!
18. Zentrifugieren Sie 1 Minute bei 8000 rpm.
19. Verwerfen Sie den Durchfluss. Wiederholen Sie die Schritte 17 und 18, bis die gesamte
Probe durch die Säule gelaufen ist. Verwerfen Sie danach die 1,5 ml Gefäße.
20. Setzen Sie die weiße Säule in ein neues 2 ml Collecting tube und pipettieren Sie 500 µL
Puffer AW (Waschpuffer) auf die Säule.
21. Zentrifugieren Sie 1 Minute bei 8000 rpm.
22. Verwerfen Sie den Durchfluss.
23. Pipettieren Sie 500 µL Puffer AW auf die Säule.
24. Zentrifugieren Sie 2 Minuten bei 14000 rpm.
9
25. Übertragen Sie die weiße Säule in das zweite 1,5 ml Eppendorf-Gefäß und pipettieren
Sie 100 µL warmen Puffer AE (Elutionspuffer) auf die Säule. Lassen Sie die Säulen 5
Minuten bei Raumtemperatur stehen.
26. Zentrifugieren Sie 1 Minute bei 8000 rpm.
27. Wiederholen Sie die die Elution mit weiteren 50 µl Puffer AE. Verwerfen Sie die weiße
Säule und schließen Sie die Eppendorf-Gefäße. Beschriften Sie diese seitlich mit Artname und Datum.
28. Mittagspause (endlich!)
Nach dem letzten Schritt halten Sie nun die extrahierte DNA in einer Pufferlösung in Ihren Händen. Im Einzelnen haben Sie in Schritt 1-4 das Material mechanisch aufgeschlossen und in
Schritt 5-7 die Zellmembranen lysiert und die DNA freigesetzt. In Schritt 9-15 haben Sie feste
Bestandteile und die meisten Polysaccharide entfernt. In Schritt 16-19 wurde die DNA an eine
Trägermembran gebunden. Das so gebundene Material haben Sie in Schritt 20-24 von Proteinresten, weiteren Polysacchariden, Nukleotiden und anorganischen Zellbestandteilen gereinigt.
In Schritt 25-27 wurde die DNA von der Trägermembran wieder gelöst.
Aufgabe 2: Vergleichen Sie die beiden vorgestellten Methoden zur DNA-Extraktion und diskutieren Sie ihre Vor- und Nachteile.
Sollte es Probleme bei der PCR geben (s.u.), kann man versuchen, statt mit Elutionspuffer mit
Wasser zu eluieren, dem danach 10% TE-Puffer beigefügt wird. Das in vielen Elutionspuffern in
höherer Konzentration vorhandene EDTA bindet Mg-Ionen, was in der PCR oft zu schlechter
Produktausbeute führt.
Photometrische Quantifizierung der DNA
Viele PCR-Reaktionen verlaufen besser, wenn man die Menge an eingesetzter DNA genau einstellen kann. Deshalb muss im nächsten Schritt die DNA-Menge in jedem Eluat photometrisch
bestimmt werden. Mit Aqua bidest kann dann die benötigte Verdünnung eingestellt werden.
1. Beschriften Sie für jede Probe (CTAB-Extraktion und Säulchen-Extraktion) ein 1,5 ml Gefäß.
2. Pipettieren Sie 55 µl destilliertes Wasser in jedes Gefäß und geben Sie anschließend jeweils 2 µl DNA hinzu. Achten Sie darauf, dass Sie die DNA zuvor durch Rühren mit der
Pipette gut durchmischt haben.
3. Vortexen und zentrifugieren Sie die Ansätze kurz.
4. Schalten Sie das Photometer ein.
5. Füllen Sie eine Einmalküvette mit 55 µL destilliertem Wasser. Darauf achten, dass sich
keine Luftblasen in der Küvette befinden!
6. Öffnen Sie den schwarzen Deckel des Photometers und setzen Sie die Küvette ein.
7. Drücken Sie die Taste „Blank“.
10
8. Entnehmen Sie die Küvette, beschriften Sie sie und stellen sie zur Seite. Sie werden sie
später zum erneuten Einstellen des Leerwerts (= „Blank“) benötigen.
9. Drücken Sie nacheinander „Dilution“, „2“, „55“ und „Enter“. Was bedeuten die Zahlen?
10. Nehmen Sie eine neue Einmalküvette und geben Sie den kompletten Probenansatz (57
µl) hinein. Auf Luftblasen achten!
11. Setzen Sie die Küvette ein und drücken Sie „Sample“. Notieren Sie die Konzentration
sowie die Ratio (A260/A280).
12. Entnehmen Sie die Probenküvette, waschen Sie sie mit destilliertem Wasser.
13. Setzen Sie die Leerwertküvette erneut ein und drücken Sie die Taste „Blank“. Der angezeigte Wert muss „0,00“ ergeben.
14. Wiederholen Sie die Schritte 10 bis 13 für jede Probe. Benutzen Sie dabei die gewaschene Probenküvette.
15. Berechnen Sie, wie Sie die Proben verdünnen müssen, um jeweils 10 µl mit einer Konzentration von 5 ng/µl zu erhalten. Entscheiden Sie sich dabei für eines der beiden DNAExtrakte. Halten Sie Ihre Ergebnisse in einer Tabelle fest.
16. Beschriften Sie ein neues 1,5 ml Gefäß für jede Verdünnung und stellen sie diese anhand Ihrer Berechnungen her.
PCR-Reaktion
Die Polymerase-Kettenreaktion (polymerase chain reaction = PCR) ist eine Abfolge biochemischer Reaktionen, die bei verschiedenen Temperaturen in einem einzigen Reaktionsgefäß ablaufen. Im Grunde simuliert die PCR-Reaktion die in der Natur vor der Zellteilung erfolgende
Replikation der DNA im Reagenzglas. Die isolierte genomische DNA wird in einer Pufferlösung
mit einer DNA-Polymerase, Mg2+-Ionen und Desoxyribonukleotiden (dNTPs) zusammengebracht. Damit die Polymerase die DNA als Vorlage verwenden kann und mit den in der Lösung
vorhandenen Nukleotiden einen Komplementärstrang synthetisieren kann, müssen die beiden
Stränge der DNA zuerst getrennt (denaturiert) werden. Dies geschieht bei 90-95 0C. Zusätzlich
benötigt das Enzym einen Anfangsstrang, an den es weitere Nukleotide anfügen kann. Diesen
kurzen Strang fügt man in Form von zwei „Primern“ hinzu (s. Abb. 1). Diese kurzen Oligonukleotide binden bei 40-60 0C an passende, komplementäre DNA-Abschnitte (annealing). Damit hat man die Möglichkeit zu bestimmen, welche Teile der DNA man amplifizieren will. Die am
häufigsten verwendete Polymerase stammt aus dem in heißen Quellen lebenden Bakterium
Thermophilus aquaticus und ist deshalb sehr hitzestabil (taq-Polymerase). Die optimale Reaktionstemperatur liegt bei 72° C. Der Zyklus von DNA-Denaturierung, Primer-annealing und DNASynthese wird in einem automatischen Thermocycler 30 bis 40 mal durchlaufen, wobei sich die
Menge des ausgewählten DNA-Abschnitts im (nie erreichten) Idealfall jedesmal verdoppelt.
Im Kurs soll ein Abschnitt der Chloroplasten-DNA, der Abschnitt atpB-rbcL amplifiziert und sequenziert werden.
11
Abb. 1: Primerpositionen für die Sequenzierung der Spacerregion zwischen atpB und rbcL. Aus Manen
et al. (1994).
Aufgabe 3: Warum werden für die PCR zwei Primer verwendet, die am 5’- und 3’-Ende des zu
vermehrenden Abschnittes jeweils auf den Komplementärsträngen sitzen?
PCR-Reaktionen können sehr launisch sein; geringe Veränderungen im Protokoll führen oft zu
kompletten Fehlschlägen. Trotzdem werden in verschiedenen Laboren oft ganz unterschiedliche Protokolle verwendet. Das am häufigsten verwendete Verfahren zur Optimierung von PCR
Reaktionen ist „Versuch und Irrtum“: Verläuft die PCR schließlich wie erwünscht, verändert man
das Protokoll nicht mehr (oder nur noch, wenn man testen will, ob sich das Resultat noch
verbessern lässt).
Multiple Banden, unsaubere Banden oder fehlendes PCR-Produkt sind die häufigsten Probleme. Fehlendes PCR-Produkt z. B. kann die unterschiedlichsten Ursachen haben:
- Das Extraktionsprotokoll hat versagt; das Eluat enthält keine oder zu wenig DNA (Sollte
nach Quantifizierung der DNA ausgeschlossen sein).
- Man hat zuviel DNA hinzugefügt (auch das verursacht Probleme, lässt sich aber durch
Quantifizierung vermeiden).
- Die Ausgangs-DNA ist degeneriert (z. B. durch häufiges Auftauen und wieder Einfrieren).
- Der DNA-Extrakt enthält Stoffe (z. B. Polysaccharide, EDTA), die die PCR stören.
- Die Polymerase ist überaltert/ nicht tiefgefroren gelagert.
- Einer oder beide Primer sind überaltert/ nicht tiefgefroren gelagert.
- Irgendein Idiot hat die Primer falsch beschriftet.
- Die Primer passen nicht auf die Bindungsstellen (kann sogar bei angeblich universellen Primern hin und wieder geschehen).
- Man hat eine Zutat im Ansatz vergessen.
- Die Annealing-Temperatur ist zu hoch.
- Der Thermocycler ist defekt.
Der Lösung kann man nur auf die Spur kommen, wenn man der Reihe nach die verschiedenen
Möglichkeiten ausschließt. Im Zweifelsfall empfiehlt es sich, erfahrene Kollegen oder das Internet um Rat zu fragen.
Die Polymerase-Kettenreaktion erfolgt in PCR-Gefäßen (0,2 ml). Obwohl die optimale Reaktionstemperatur bei 72° C liegt, ist die Polymerase auch bei Zimmertemperatur schon aktiv und
beginnt, hier und da Nukleotide an Primer anzubauen. Das stört im allgemeinen die spätere
PCR-Reaktion empfindlich, weshalb das Ansetzen der PCR auf Eis erfolgt. Teurere sog. „hot
start“ Enzyme enthalten Antikörper, die die Polymerase deaktivieren. Durch mehrminütiges
Vorerhitzen auf 96 °C im Thermocycler (s.u.) werden die Antikörper denaturiert und das Enzym
aktiviert. Mit solchen Enzymen kann man auch bei Zimmertemperatur arbeiten.
12
1. Ziehen Sie Handschuhe an und tauen Sie die folgenden Zutaten auf:
- destilliertes und autoklaviertes Wasser
- Peqlab 10x Reaktionspuffer S (blauer Deckel) = PCR-Puffer
- MgCl2
- dNTP-Mix
- Primer Oligo 2 und Oligo 5
2. Beschriften Sie für jeden PCR-Ansatz 1 PCR-Gefäß (0,2 ml) und stellen Sie es auf Eis.
(Das Gefäß für die Negativkontrolle beschriften die Betreuer).
3. Die Taq-Polymerase ist trotz Aufbewahrung im Gefrierschrank flüssig und wird direkt auf
Eis überführt.
4. Ihr DNA-Extrakt überführen sie direkt vom Kühlschrank auf Eis.
Abgesehen von der Ausgangs-DNA enthalten Ihre PCR-Ansätze die gleichen Chemikalien in
gleicher Konzentration. Um sich unnötiges Pipettieren zu ersparen, stellt man daher zuerst einen sog. „Mastermix“ her, der alles enthält außer der zu amplifizierenden DNA. Jeder PCRAnsatz enthält 50 μL, davon entfallen 5 μL auf das DNA-Extrakt. Reaktionen mit 25 μL sind
auch üblich, 100 μL Ansätze wegen der hohen Kosten nur, wenn große Mengen DNA benötigt
werden.
Aufgabe 4: Der Mastermix enthält die folgenden Bestandteile.
DNA-Template
PCR-Puffer (blau)
dNTP-Mix
MgCl2
Primer Oligo 2
Primer Oligo 5
Taq-Polymerase
Wasser
Ausgangskonzentration
5 ng/µL
10 x
2,5 mM
25 mM
10 µM
10 µM
5 U/ μL
-
Konzentration/
Reaktion
0,5 ng/µL
1x
0,2 mM
0,5 mM
0,2 μM
0,2 μM
2,5 U
ad 50 µL
Volumen/
Reaktion
5 µl
Volumen/
x Reaktionen
-
Berechnen Sie die Volumina der einzelnen Bestandteile für eine 50 μL-Reaktion und einen Mastermix für die x 50 μL-Reaktionen. Bedenken Sie dabei, dass Sie 5 μL DNA-Extrakt hinzufügen
müssen.
1. Berechnen Sie die Mengen für den Mastermix. Berechnen Sie hierfür 1 Ansatz für jede
PCR-Reaktion, sowie 1 Reaktion zusätzlich (= Negativkontrolle).
2. Stellen Sie ein Eppendorf-Gefäß (1,5 ml) auf Eis und pipettieren Sie erst Wasser, dann
die anderen Zutaten in der angegebenen Reihenfolge zusammen. Benutzen Sie für jedes
Reagens eine frische Pipettenspitze. Mischen Sie jedes Reagens (außer der Polymerase, s. u.!) vor dem Pipettieren durch Ein- und Auspipettieren bei gleichzeitigem Rühren!
13
3. Pipettieren Sie als letztes die Polymerase. Rühren Sie die Polymerase-Lösung nur sehr
vorsichtig, aber sorgfältig mit der Pipettenspitze um. Die Lösung ist sehr zähflüssig; sorgen Sie dafür, dass nichts an der Außenseite der Pipettenspitze hängenbleibt. Dieses
Enzym ist extrem teuer (0,5 ml kosten ungefähr 1000 Euro).
4. Mischen Sie den Mastermix bis Sie keine Schlieren mehr sehen. Pipettieren Sie 45 μL in
jeden Ansatz.
5. Pipettieren Sie zuletzt 5 µl DNA-Extrakt (entsprechende Menge H2O für die Negativkontrolle) in das jeweilige Gefäß und verschließen Sie es.
6. Zentrifugieren Sie die PCR-Ansätze kurz ab (wenige Umdrehungen) und stellen Sie sie
sofort wieder auf Eis.
7. Schalten Sie den Thermocycler ein und starten Sie das Programm KAI1.
8. Sobald die Blocktemperatur von 94 °C erreicht ist, stellen Sie auf „Pause“, öffnen Sie den
Deckel, setzen zügig die Proben ein und verschließen den Deckel. Mit „Resume“ das
Programm fortsetzen.
9. Ende des zweiten Arbeitstages.
PCR-Programm KAI1:
initiale Denaturierung:
Denaturierung:
Annealing:
Elongation:
finale Elongation:
95°C
95°C
50°C
72°C
72°C
8°C
2 min
30 sec
1 min
35 x
90 sec
5 min
unendlich
ACHTUNG!
Protokollieren Sie die PCR-Reaktion, indem Sie für jedes Gefäß das DNA-Extrakt, die PCRNummer und die Mengen aller Bestandteile des Ansatzes notieren (am besten in Tabellenform
wie folgt).
Extr.-Nr.
127
128
…
PCR-Nr. DNA H2O
1345
5 μL x μL
1346
…
Puffer
x μL
dNTPs
x μL
Primer1 Primer2 Enzym
x μL
x μL
x μL
Dieses Protokoll ist sehr wichtig. Zu Beginn einer neuen Versuchsreihe (neue Organismen,
neue Genabschnitte usw.) müssen PCR-Reaktionen fast immer optimiert werden. Das ist nur
möglich, wenn man die Versuchsbedingungen bei jedem Ansatz protokolliert.
NOCH EIN HINWEIS
Sobald die zu untersuchenden Organismen nur noch in Form von DNA-Extrakten im Labor herumstehen, lassen sie sich äußerlich nicht mehr unterscheiden. Ab jetzt muss man sich peinlich
genau vor Verwechslungen der Reaktionsgefäße oder -nummern hüten. Man sollte deshalb alle
Eppendorf-Gefäße sauber und permanent beschriften, und unbedingt auch das Datum jedes
Ansatzes notieren. Nur so hat man eine Chance, Verwechslungen auch im Nachhinein noch auf
die Spur zu kommen.
14
UND EIN DRITTER HINWEIS
PCR-Produkte enthalten DNA in millionenfach höherer Konzentration als DNA-Extrakte. Im Labor konkurriert die amplifizierte DNA mit der genomischen DNA um Polymerase, Primer und
dNTPs. Dabei zieht die genomische DNA fast immer den Kürzeren. Im günstigsten Fall stört
das die PCR lediglich. Im ungünstigsten Fall erhalten Sie wunderschöne PCR-Produkte, die
sich nach Sequenzieren immer wieder als ein und dieselbe Art erweisen. Reinigen des gesamten Labors (einschließlich Mobiliar, Geräten, Glasflaschen usw.) und Wegwerfen kontaminierten
Verbrauchsmaterials ist dann oft die einzige Lösung. Arbeiten Sie in der „Post-PCR-Phase“ mit
pingeliger Genauigkeit, sonst zerrütten Sie das Verhältnis zu Ihren Laborkollegen.
Nachweis von PCR-Produkten
Die spannende Frage lautet nun: Hat die PCR funktioniert oder nicht? Um diese Frage zu beantworten führen Sie eine Agarose-Gel-Elektrophorese durch. Das Gel wird mit SYBRgreen
gefärbt, das sich mit DNA zu einem fluoreszierenden Komplex verbindet. Bei Betrachten des
Gels auf einem UV-bzw. Blaulicht-Transilluminator finden Sie so heraus, ob (1) überhaupt PCRProdukt entstanden ist, (2) nur ein spezifisches oder mehrere Produkte unterschiedlicher Länge
entstanden sind, und (3) wie lang das amplifizierte DNA-Stück in etwa ist, d. h. ob das richtige
Stück amplifiziert wurde. Fast alle Arbeitsschritte finden ausschließlich im besonders gekennzeichneten Ethidiumbromid- bzw. SYBRgreen-Arbeitsbereich des Labors statt. Dabei sind
stets blaue Nitrilhandschuhe zu tragen!
1. Stellen Sie einprozentige Agarosegele entsprechend der Gesamtzahl an PCR-Produkten
her. Wählen Sie die passenden Kammergrößen und Kammeinsätze aus. In jeder Reihe
muss eine Tasche für einen Größenmarker frei bleiben. Für jedes Gel verwenden Sie bitte eine Glasflasche.
2. BEISPIEL für ein mittelgroßes Gel: Wiegen Sie 1 g Agarose in eine Glasflasche ein.
Vorsicht, Agarose und Kokain unterscheiden sich in Aussehen und Preis nicht sonderlich
(vermutlich aber in der Wirkung). Fügen Sie 100 ml 1 × TAE und einen Magnetfisch hinzu und setzen einen Deckel lose auf.
3. Erhitzen Sie die Mischung 1-2 min auf höchster Stufe in der Mikrowelle.
4. Rühren Sie einmal mit dem Magnetrührer durch.
5. Erhitzen Sie jetzt in kleinen Schritten (20-30 sec mit zwischenzeitlichem Rühren) weiter
in der Mikrowelle bis die Lösung völlig klar ist. Agarose kocht in Sekundenschnelle über
(eine Riesenschweinerei!). Beaufsichtigen Sie die Flasche gut und stoppen Sie die Mikrowelle, sobald die ersten Blasen erscheinen. Auch auf dem Magnetrührer beginnt heiße
Agarose-Lösung sehr leicht zu schäumen.
6. Wenn die Agarose-Lösung klar ist, lassen Sie sie auf dem Magnetrührer bis etwa 60° C
abkühlen (mit Handschuhen knapp unterhalb der Schmerzgrenze).
7. Setzen Sie für jedes Gel den Gelträger um 90° gedreht in die Elektrophoresekammer ein,
so dass die Gummidichtungen an den Wänden liegen. Hängen Sie einen oder zwei
Kämme ein.
15
8. Pipettieren Sie 8 μL SYBRgreen pro 100 ml Agaroselösung hinzu. Vermeiden Sie jeden
direkten Kontakt mit dem Farbstoff und entsorgen Sie die Pipettenspitze nur im dafür
vorgesehenen Behälter.
9. Gießen Sie das Gemisch vorsichtig in die jeweilige Gelwanne ohne Blasen zu erzeugen.
Etwaige Blasen mit einer Pipettenspitze an den Rand des Gels manövrieren. Warten Sie
ca. 20 Minuten, bevor Sie mit den folgenden Arbeitsschritten beginnen.
10. Wenn das Gel milchig aussieht, ziehen Sie zunächst ganz vorsichtig die Kämme aus
dem Gel. Anschließend heben Sie die Gelwanne aus dem Tank und drehen sie um 90°.
Füllen Sie Puffer 1 × TAE in den Elektrophoresetank, bis das Gel bedeckt ist. Achten Sie
auf die richtige Ausrichtung des Gels, die DNA wandert zur Anode (dem roten Anschluss).
11. Ziehen Sie die blauen Nitrilhandschuhe aus und gehen Sie in den Post-PCR-Bereich. Pipettieren Sie 3 µl Ladepuffer zu jedem PCR-Produkt bzw. Negativkontrolle. Zentrifugieren Sie die Proben kurz runter.
12. Wechseln Sie mit den Proben zurück in den Ethidiumbromid-/SYBRgreen-Arbeitsbereich
und ziehen Sie die blauen Nitrilhandschuhe wieder an.
13. Pipettieren Sie das erste PCR-Produkt in die erste Tasche des Gels (von links nach
rechts). Achten Sie darauf, dass Sie die DNA zuvor durch Auf- und Abpipettieren gut
durchmischt haben. Vermeiden Sie Wirbelstürme im Elektrophoresetank. Lassen Sie
stets die letzte Tasche der Reihe frei. Pipettenspitze wechseln!
14. Wiederholen Sie Schritt 13 für jedes PCR-Produkt und für die Negativkontrolle.
15. Pipettieren Sie 5 μL Größenmarker („Easy Ladder“) in die letzte Tasche einer jeden Reihe.
16. Setzen Sie den Deckel auf, kontrollieren Sie noch einmal die richtige Ausrichtung des
Gels und starten Sie die Elektrophorese bei 95 V. Nach etwa 90 min, wenn der blaue
Marker dreiviertel der verfügbaren Strecke zurückgelegt hat, kann das Gel auf dem
Transilluminator betrachtet werden.
17. Ziehen Sie wieder blaue Nitrilhandschuhe an. Heben Sie die Gelwanne vorsichtig aus
dem Elektrophoresetank und trocknen sie mit Papier ab.
18. Überführen Sie das Gel ohne zu tropfen auf den Transilluminator in der Geldokumentationskammer. Gießen Sie den gebrauchten Puffer vorsichtig in die entsprechende
Sammelflasche.
19. Schließen Sie die Tür der Kammer und schalten Sie das Gerät und die UV-Beleuchtung
(„Transillumination UV“) ein. Schalten Sie „Filter Wheel Position“ ggf. auf 3. Arbeiten Sie
nun zügig, da UV-Licht die DNA schädigt und die erfolgreiche Sequenzierung des PCRProduktes verhindern kann.
20. Starten Sie das Programm „AlphaImager 3400“ (liegt auf dem Desktop) und klicken in
der Menüzeile >Acquire an.
21. Zoomen und fokussieren Sie die Kamera, so dass das ganze Gel und alle Banden scharf
zu sehen sind.
22. Machen Sie ein Bild (>Acquire Image), speichern Sie es, drucken Sie ein Foto des Gels
aus (>File >Print) und kleben es zur Dokumentation unter ihr PCR-Protokoll.
23. Legen Sie das Gel auf den Blaulicht-Tisch. Reinigen Sie die Oberfläche des Transilluminators mit destilliertem Wasser und Papiertüchern.
16
Die amplifizierte DNA einer erfolgreichen Reaktion liegt als mehr oder weniger breite Bande auf
dem Gel vor. Diese Banden sollten deutlich sichtbar und sauber begrenzt sein, und die Fragmente sollten in der Länge dem erwarteten Produkt entsprechen. Die Gelspur der Nullprobe
sollte schwarz sein. Sollten Sie in der Nullprobe eine Bande finden, die einer der Banden in Ihren PCR-Ansätzen entspricht, sind ihre Reaktionen sehr wahrscheinlich kontaminiert. Meist sind
verunreinigte Reagenzien die Ursache solcher Kontaminationen. Diese Verunreinigungen entstehen z. B., wenn Pipettenspitzen nicht gewechselt wurden und genomische DNA übertragen
wurde. In diesem Fall muss die PCR wiederholt werden. Im schlimmsten Fall hat man es mit
Laborkontaminationen zu tun (s.o.).
Reinigung der PCR-Produkte
Rückstände der PCR-Reaktion, besonders Polymerase und nicht verbrauchte Primer müssen
beseitigt werden, bevor die eigentliche Sequenzierreaktion angesetzt werden kann. Wir haben
die PCR-Produkte von diesen „Kontaminationen“ bereits weitgehend gereinigt, indem wir sie auf
dem Agarosegel elektrophoretisch von anderen Bestandteilen der PCR-Reaktion abgetrennt
haben. Die Bande mit der gewünschten DNA muss nun aus dem Gel ausgeschnitten und aus
der Agarose gelöst werden. Die weiteren Reinigungsschritte werden ähnlich wie die DNAExtraktion mit fertigen Kits durchgeführt, die nach dem gleichen Prinzip wie DNA-Isolierungskits
funktionieren, also DNA (PCR-Produkt) an eine Membran binden, reinigen und mit Wasser oder
Puffer eluieren. Wir benutzen im Kurs das „QIAquick Gel Extraction Kit“ der Firma Qiagen.
1. Beschriften Sie für jedes PCR-Produkt ein 2 ml Eppendorf-Gefäß.
2. Setzen Sie eine orange Schutzbrille auf und ziehen Sie danach blaue Nitrilhandschuhe
an.
3. Legen Sie das Gel vorsichtig auf den Blaulicht-Tisch.
4. Schalten Sie das Blaulicht an, schneiden Sie die Bande mit einer sauberen Rasierklinge
aus und überführen Sie sie in das entsprechende Eppendorf-Gefäß.
5. Achten Sie darauf, dass sie gerade schneiden, sonst verlieren Sie unter Umständen einen großen Teil des PCR-Produkts. Auch sollten Sie nicht allzu viel ungefärbtes Gel mit
ausschneiden.
6. Reinigen Sie die Rasierklinge nach jedem Schnitt mit Ethanol.
7. Legen Sie das Gel zum Austrocknen auf das Tablett vor dem Fenster. Reinigen Sie die
Oberfläche des Blaulichttischs mit destilliertem Wasser und Papiertüchern.
8. Ziehen Sie die blauen Nitrilhandschuhe aus.
9. Wiegen Sie ein leeres 2 ml Eppendorf-Gefäß auf der Analysenwaage und benutzen Sie
den Wert als Tara für die folgenden Wägungen.
10. Wiegen Sie jedes Gelstück im Eppendorf-Gefäß aus und notieren Sie das Gewicht in
mg.
11. Pipettieren sie für jedes mg Gel drei µL Binde-Puffer QG in jedes Eppendorf-Gefäß.
17
12. Inkubieren Sie die Eppendorf-Gefäße bei 50 °C für 10 Minuten im Heizblock, bis sich die
Agarose vollständig aufgelöst hat (ggf. etwas länger inkubieren). Dabei Proben von Zeit
zu Zeit gründlich durchmischen.
13. Erwärmen Sie Puffer EB auf dem Heizblock (50 °C).
14. Bereiten Sie in der Zwischenzeit für jede Probe eine violette Säule in einem 2 ml Sammelgefäß vor und beschriften Sie diese.
15. Hat sich die Agarose vollständig gelöst, geben Sie für jedes mg Gel 1 µL Isopropanol zu
jeder Probe. Durch Schwenken mischen bis keine Schlieren mehr zu sehen sind.
16. Pipettieren Sie 750 µL des Gemischs auf die Säule und zentrifugieren Sie 1 Minute bei
13.000 rpm. Pipettenspitzen wechseln!
17. Verwerfen Sie den Durchlauf und wiederholen Sie die Schritte 16 und 17, bis die gesamte Agarose-Lösung auf die Säule aufgetragen ist.
18. Pipettieren Sie 500 µL Puffer QG auf jede Säule und zentrifugieren Sie 1 Minute bei
13.000 rpm.
19. Verwerfen Sie den Durchlauf.
20. Pipettieren Sie 750 µL Waschpuffer PE auf jede Säule und inkubieren Sie für 3 Minuten
bei Raumtemperatur.
21. Zentrifugieren Sie 1 Minute bei 13.000 rpm und verwerfen Sie den Durchlauf.
22. Stecken Sie die Säulen in die leeren Sammelgefäße zurück und zentrifugieren Sie
nochmals 1 Minute bei 13.000 rpm.
23. Setzen Sie die Säulen in ein neues, beschriftetes 1,5 ml Eppendorf-Gefäß.
24. Pipettieren Sie 20 µL vorgewärmten Elutionspuffer EB direkt auf die Säulenmembran
(ohne diese zu berühren!). Inkubieren Sie 1 Minute bei Raumtemperatur.
25. Zentrifugieren Sie 1 Minute bei 13.000 rpm.
Densitometrische Quantifizierung der DNA
Die Qualität der Sequenzen kann sehr empfindlich auf schwankende DNA-Mengen im Sequenzier-Ansatz reagieren. Unterhalb eines gewissen Schwellenwertes versagt die Sequenzierreaktion, oberhalb werden die Sequenzen oft unsauber. Solche schlechten Sequenzchromatogramme muss man in nervenaufreibender Arbeit editieren. Selbst dann bleiben oft viele Positionen der Sequenz unsicher, was die Datenanalyse erschwert. Um sich diesen Ärger zu ersparen, ist es besser, die DNA zu quantifizieren. Wir haben die genomische DNA gestern photometrisch quantifiziert. Die folgende Methode liefert wesentlich genauere Werte, ist allerdings
auch umständlicher.
1. Gießen Sie einprozentige Agarosegele entsprechend der Anzahl an PCR-Produkten.
Folgen Sie dabei der Arbeitsanleitung oben („Nachweis von PCR-Produkten“).
2. Schneiden Sie einen Streifen Parafilm ab und legen Sie ihn direkt auf den Arbeitstisch.
3. Pipettieren Sie nebeneinander für jedes PCR-Produkt einen Tropfen mit 4 µL Wasser.
18
4. Pipettieren Sie in jeden Tropfen 0,7 µl Ladepuffer.
5. Fügen Sie zuletzt zu jedem Tropfen 2 µL PCR-Produkt hinzu. Mischen Sie die PCRProdukte vorher gründlich und wechseln Sie die Pipettenspitzen! Notieren Sie auf einem
Papier Namen und Reihenfolge der PCR-Produkte.
6. Pipettieren Sie jeden Tropfen in eine Tasche des Gels.
7. Pipettieren Sie in die letzte Tasche jeder Reihe 5 µL Größenmarker („Easy Ladder“).
8. Setzen Sie den Deckel auf, kontrollieren Sie noch einmal die richtige Ausrichtung des
Gels und starten Sie die Elektrophorese bei 85 V.
9. Wenn das Gel nach ca. 45 min fertig gelaufen ist, wiederholen Sie die Schritte 17-22
(„Nachweis von PCR-Produkten“) an der Geldokumentationsanlage.
10. Wenn Sie das Bild des Gels auf dem Bildschirm gespeichert haben, klicken Sie in der
Dialogbox rechts unten >Analysis Tools >Spot Denso an.
11. Klicken Sie nun in der Dialogbox das rosa Rechteck an. Es erscheint ein Kreuz anstelle
des Mauspfeils. Setzen Sie das Kreuz auf die linke obere Ecke der ersten Bande, drücken Sie die linke Maustaste und ziehen Sie den erscheinenden Rahmen nach rechts
unten auf. Der Rahmen sollte etwas größer als die Bande sein.
12. Durch Anklicken von >Copy unter >Spot Denso können Sie den Rahmen beliebig oft
kopieren und danach jeweils mit der Maus über die anderen Banden schieben. Dazu den
Mauspfeil auf den oberen Rand des Rahmens setzen und die linke Maustaste drücken.
Schieben Sie zuletzt einen Rahmen über die 500 bp Bande des Größenmarkers.
13. Klicken Sie das Feld >Auto BKGD an.
14. Zum Quantifizieren der einzelnen DNA-Banden verwenden wir die 500 bp Bande des
Größenmarkers mit bekannter Konzentration (50 ng DNA in 5 μL Marker). Klicken Sie
>STDCurve an. Es erscheint ein Textfenster, in dem die Weißwerte für alle Rahmen
aufgelistet sind
15. Durch Anklicken des 500 bp Rahmens erscheint dieser blau. In die sich öffnende Dialogbox tragen Sie „50“ ein und drücken >Exit.
16. Die dritten Spalte des Textfeldes enthält nun die DNA-Konzentration je 2 μL PCRProdukt.
17. Berechnen Sie die Konzentration für 1 µl und wieviel PCR-Produkt Sie in der Sequenzreaktion einsetzen müssten, um auf 20 ng DNA zu kommen.
24. Legen Sie das Gel zum Austrocknen auf das Tablett vor dem Fenster. Reinigen Sie die
Oberfläche des Transilluminators mit destilliertem Wasser und Papiertüchern.
25. Entsorgen Sie Ihre blauen Nitrilhandschuhe im Sondermüll.
Die folgenden Labor-Arbeitsschritte führen Sie nicht selber durch. Sie werden vom Laborzentrum standardmäßig durchgeführt. Versuchen Sie trotzdem, Aufgabe 5 zu lösen.
Datengewinnung: DNA-Sequenzierung
Sequenzierreaktion
19
In der ersten PCR-Reaktion ging es darum, einen spezifischen Abschnitt der genomischen DNA
exponentiell zu vermehren, um ihn später sequenzieren zu können. In der Sequenzierreaktion
wird diese hoch konzentrierte Template-DNA nicht mehr exponentiell vermehrt. Man fügt deshalb nur einen Primer hinzu, so dass die Polymerase nur einen der beiden DNA-Stränge synthetisieren kann. Die Sequenzierreaktion enthält neben gewöhnlichen dNTPs einen kleinen Anteil Didesoxribonukleotide (ddNTPs). Gewöhnlich verwendet man fertige Mischungen (sog.
Terminator-Kits mit z. T. blumigen Namen), die von den Herstellern automatischer Sequenzierer
angeboten werden. An jedes der vier unterschiedlichen ddNTPs ist ein anderer Fluoreszenzfarbstoff gebunden. Wird ein solches dd-Nukleotid zufällig eingebaut, kann der DNA-Strang
nicht weiter verlängert werden und die Reaktion bricht ab. Am Ende vieler Reaktionszyklen erhält man so ein Gemisch von fluoreszenzmarkierten DNA-Strängen aller unterschiedlichen
Längen, bei denen das letzte Nukleotid sich durch seine spezifische Fluoreszenz verrät.
Diese vielen hundert verschiedenen DNA-Moleküle werden im letzten Schritt auf einem Polyacrylamid-Gel elektrophoretisch nach ihrer Größe aufgetrennt. In automatischen Sequenzierern,
die hierfür verwendet werden, befinden sich am Ende des Gels zwei Dioden-Laser, die die vorbeiwandernden DNA-Moleküle zur Fluoreszenz anregen. Diese Fluoreszenz wird von einem
Detektor aufgezeichnet, dessen Signale in Form eines Sequenz-chromatogramms als Computerdatei gespeichert werden.
Aufgabe 5: Terminator-Kits sind sehr teuer. Eine alternative billigere Methode besteht darin,
Fluoreszenzfarbstoffe nicht an die einzelnen ddNTPs sondern an die eingesetzten Primer zu
binden. Wieviele Reaktionen muss man bei dieser Methode je DNA-Strang ansetzen? Läßt sich
die Anzahl der Reaktionen verringern, wenn man beide Stränge sequenziert?
Sequenz-Chromatogramme sind nur über eine begrenzte Länge hinweg lesbar. Die Qualität
oder Leselänge variiert sehr stark, überschreitet aber selbst im Idealfall selten 800 bp. In vielen
Fällen sind die sequenzierten Genabschnitte länger, so dass man schon aus diesem Grund
beide Stränge sequenzieren muss. Um sicher zu gehen, kann man zusätzlich interne Primer
einsetzen. Im Fall des im Kurs verwendeten Markers atpB-rbcL wird hierfür der interne, reverse
Primer RS3 verwendet (5‘-TAC TGA GAA AAA TTC CCT CT- 3‘, Barfuss et al. 2005).
20
Datenanalyse
An den ersten Praktikumstagen haben Sie versucht, im Labor Daten zu gewinnen, mit denen
wir die Frage beantworten wollen, wie die von uns untersuchten Arten stammesgeschichtlich
miteinander verwandt sind. Das Erzeugen von Daten ist ein wichtiger, vorläufiger Schritt jeder
naturwissenschaftlichen Arbeit. Noch wichtiger ist es aber herauszufinden, ob die Daten eine
Hypothese unterstützen, widerlegen oder welche von vielen Hypothesen am besten zu den Daten passt. Molekulare Systematik und Evolutionsforschung benutzen hierfür Verfahren, die überall in den Naturwissenschaften gebräuchlich sind. Die Anwendung dieser Methoden in der
molekularen Evolutionsforschung und Systematik ist allerdings oft nicht ganz leicht zu verstehen. Warum ist das so?
Obwohl sich die wenigsten Biologen für Mathematik und Statistik begeistern, liegt die Schwierigkeit nicht bei den Biologen und ihrer Abneigung gegen Mathematik. Die in der Systematik
gestellten Fragen sind mit den zur Verfügung stehenden Daten einfach schwieriger zu beantworten als viele Fragen in der Physik oder Chemie. Hierzu ein Beispiel: Der Astrophysiker Arthur Stanley Eddington reiste 1919 auf die Insel Príncipe im Golf von Guinea. Er sammelte dort
während einer totalen Sonnenfinsternis Daten, die bestimmte Aussagen der Relativitätstheorie
prüfen sollten. Letztlich wollte er wissen, ob die Daten die Newton’sche oder die Einstein’sche
Physik unterstützen. Es gab also zwei Theorien und drei mögliche Ergebnisse. Die Daten konnten die Relativitätstheorie oder die Newton’sche Theorie unterstützen oder beiden Theorien widersprechen. Wir wollen uns als Phylogenetiker aber nicht zwischen zwei vorab formulierten
Theorien entscheiden, sondern mit Hilfe unserer Daten den Stammbaum ermitteln, der die von
uns untersuchten Arten genealogisch miteinander verbindet. Jeder mögliche Stammbaum ist
dabei eine Hypothese, die von unseren Daten mehr oder weniger stark unterstützt wird. Wie wir
weiter unten sehen werden, gibt es schon bei wenigen Arten eine unüberschaubar große Anzahl möglicher Stammbäume. Wir müssen also nicht wie Eddington eine simple ja-nein Entscheidung treffen, sondern auf irgendeine Weise berechnen, wie stark unsere Daten die einzelnen Stammbäume unterstützen, damit wir den am besten unterstützten Baum als beste Hypothese auswählen können.
Eine weitere Schwierigkeit liegt in der Art und Weise begründet, wie man in den Naturwissenschaften Hypothesen und Theorien testet. Üblicherweise leitet man aus Theorien Beobachtungen ab und prüft, ob sich diese „theoretischen“ Beobachtungen mit den Beobachtungen in der
Wirklichkeit decken. Nach der Relativitätstheorie folgt das Licht zum Beispiel nicht einer geraden Bahn, sondern wird durch Gravitationsfelder gekrümmt. Eddington konnte während der
Sonnenfinsternis belegen, dass das Licht optisch benachbarter Sterne durch das Schwerefeld
der Sonne abgelenkt wurde. Aber welche durch Beobachtungen überprüfbaren Aussagen lassen sich aus einem Stammbaum ableiten? An den folgenden drei Kurstagen sollen Sie lernen,
wie man aus DNA-Sequenzdaten Stammbäume berechnen kann, wie man aus einer Vielzahl
von Stammbäumen denjenigen herausfiltert, der die stärkste Unterstützung durch die Daten
erfährt, wie man die genaue statistische Unterstützung für einzelne Äste eines Baumes ermittelt
und vieles mehr. Das geht nicht ganz ohne Mathematik und Statistik aber:
keine Panik
Wie im ersten Teil werden wir eine phylogenetische Analyse in Einzelschritten durchlaufen. In
diesem Kurs begnügen wir uns mit einem intuitiven Verständnis der zugrundeliegenden Statistik
und Mathematik. Sie brauchen dafür keine sonderlich großen mathematischen Kenntnisse,
sondern nur den Willen, über die eine oder andere Formel so lange zu meditieren, bis sich ein
21
gewisses Verständnis einstellt. Im folgenden versuchen wir, alle zum Verständnis notwendigen
Begriffe und Konzepte zu erläutern.
Zuerst sollen Sie lernen, wie man DNA-Sequenzdaten auf ihre Qualität prüft, Sequenzierfehler
berichtigt, und die einzelnen Sequenzen so aneinander ausrichtet (aligniert), dass homologe
Positionen miteinander verglichen werden können. Danach lernen Sie drei verschiedene Methoden zur Berechnung phylogenetischer Stammbäume kennen sowie zwei Methoden, mit denen man ermitteln kann, wie gut die zur Verfügung stehenden Daten verschiedene Hypothesen
unterstützen. Zuletzt werden wir uns mit der Frage beschäftigen, wie man Evolutionsereignisse
mit Hilfe phylogenetischer Stammbäume datieren kann. Die Datenanalyse erfolgt fast ausschließlich am Computer und erfordert den Einsatz einiger Programme. Manche lassen sich mit
Hilfe der Maus oder von drop-down Menüs bedienen, andere erfordern die manuelle Eingabe
von Befehlen in Befehlszeilen. Die Anleitung hält sich an folgende Konventionen: Fettschrift
bezeichnet Befehle aus drop-down-Menüs oder Dialogboxen. Schrift in Courier bedeutet Eingabe in Befehlszeilen.
„>Datei>Öffnen“ bedeutet „Klicken Sie im Menü Datei auf den Befehl Öffnen“.
„hsearch addseq=random nreps=10000“ bedeutet „Tippen Sie diese Befehle über die
Tastatur in eine Befehlszeile oder eine Befehlsdatei ein.“
Vorbereitungen vor Beginn der Analysen
Die folgenden Arbeitsschritte bis zur eigentlichen phylogenetischen Analyse führen wir im Programm „Geneious“ durch. Mit Hilfe des Programms können Sie die vom DNA-Sequenzierer erzeugten Dateien bearbeiten und zu Datensätzen zusammenfassen, die Sie später statistisch
analysieren sollen. Zur Auflockerung machen wir uns zunächst ein wenig mit der Benutzeroberfläche von Geneious vertraut.
1. Öffnen Sie das Programm „Geneious“ durch Doppelklick auf das entsprechende Symbol.
Die Benutzeroberfläche des Programms ist einem E-mail-Klienten nachempfunden. In
der Kopfzeile sehen Sie eine Reihe von Drop-Down-Menüs. Darunter befinden sich vier
Fenster. Links sehen Sie eine Ordnerstruktur, rechts ein „Help“- Fenster und in der Mitte
oben ein Fenster, in dem verschiedene Sequenz-Dateien aufgelistet sind. Wenn Sie auf
eine der Dateien klicken, erscheint im unteren Fenster eine graphische Darstellung der
DNA- oder Proteinsequenzen. Außerdem erscheinen rechts und oben im selben Fenster
Menüs, mit denen Sie die graphische Darstellung ändern können.
2. Wählen Sie eine der Dateien aus. Sie haben nun 15 Minuten Zeit, sich spielerisch ein
Bild von den verschiedenen Darstellungsoptionen zu machen. Danach werden sie aufgefordert, Ihren Kommilitonen eine dieser Optionen kurz vorzustellen.
Bei phylogenetischen Analysen entstehen im Laufe mehrerer Tage ziemlich viele Computerdateien. Verschiedene Programme benötigen unterschiedliche Eingabedateien und speichern die
Ergebnisse in unterschiedliche Ausgabedateien. Um für das Protokoll nicht den Überblick zu
verlieren, ist es SEHR WICHTIG, dass Sie ein SYSTEM FESTLEGEN, nach dem Sie Dateien
benennen und ordnen. Sonst wissen Sie schon bald nicht mehr, welche Daten und Ergebnisse
sich in welcher Datei befinden. (Natürlich sind wir hier nicht beim Finanzamt, aber glauben Sie uns. Wir haben diesen
Kurs schon acht Mal gegeben. Sie werden genau wie wir den Überblick verlieren.)
22
3. Wir richten zunächst eine Reihe von Ordnern ein, in denen Sie Ihre Daten speichern
können. Durch einen rechten Mausklick auf >Local>New Folder erzeugen Sie einen
neuen Ordner. Nennen Sie diesen Ordner „Phylokurs 2011 “.
4. Richten Sie hierin zwei Unterordner mit den Namen „Sequenzen“ und „Alignments“ ein.
5. Markieren Sie den Unterordner „Sequenzen“ mit einem Mausklick und wählen Sie dann
>File>Import>From File
6. Nach Anklicken von >go to directory öffnet sich ein Fenster. Sie können sich nun zum
zentralen Ordner Z/.../XXXX vorarbeiten, die Sequenzdateien (Endung *.ab1) markieren
und durch >Import rechts unten in Ihren Ordner kopieren.
Editieren von Sequenzen
Bisher haben wir lediglich überprüfen können, ob überhaupt PCR-Produkt der erwarteten Länge
gebildet wurde. Wir haben angenommen, dass es sich um die gewünschte DNA handelt, und
haben gehofft, dass wir lesbare Sequenzen erhalten. Die im automatischen Sequenzierer vom
Fluoreszenzdetektor aufgezeichnete Abfolge der Genfragmente erscheint in der Computerdatei
(„Trace File“) als eine Abfolge von „Peaks“. Abb. 2 zeigt einen Ausschnitt aus einem sehr gut
lesbaren Trace File.
Abb. 2: Perfektes Sequenzchromatogramm: deutliche Peaks, fast kein Rauschen.
Bei nahezu jedem bisher durchgeführten Arbeitsschritt kann es aber zu Fehlern kommen, die zu
schwer lesbaren Chromatogrammen führen (Abb. 3). Die Qualität der Chromatogramme liegt oft
zwischen diesen Extremen. Einzelne Positionen sind nicht deutlich zu lesen, die meisten sind
gut erkennbar. Sequenziert man beide Stränge eines Genfragments, kann man unsichere Positionen des einen mit Hilfe des anderen Strangs ergänzen. Diesen Vorgang bezeichnet man als
„Editieren“ der Sequenzen. Bei langen PCR-Produkten verwendet man wegen der begrenzten
Leselänge zusätzlich interne Primer zum Sequenzieren. Fehler in den Trace files treten auch
dadurch auf, dass die Wellenlängen der Infrarotlaser im Sequenzierer relativ nahe beieinander
liegen. Dadurch kommt es, besonders bei schwachem Signal am Anfang oder Ende einer Sequenz zu Fehlablesungen des Detektors.
23
Abb. 3: Nahezu unleserliches Sequenzchromatogramm: nur wenige deutliche Peaks, viel Rauschen.
Aufgabe 6: Die DNA-Polymerase arbeitet nicht fehlerfrei. Mit einer geringen Wahrscheinlichkeit
werden auch falsche Nukleotide in die synthetisierten DNA-Stränge eingebaut. Warum führt das
normalerweise nicht zu Sequenzierfehlern?
Sie werden sich daran erinnern, dass wir die Gene nicht nur mit einem sondern mit drei Primern
sequenziert haben. Für jede Sequenzierreaktion haben wir ein Sequenzchromatogramm. Die
vollständige Sequenz für jede Art müssen wir durch Zusammenführen dieser Dateien zusammenstellen. Außerdem müssen wir die Qualität der Chromatogramme prüfen und ggf. falsch
zugeordnete Basen korrigieren. Beide Arbeitsschritte erfolgen in Geneious.
1. Zunächst führen wir die verschiedenen Trace files eines PCR-Produktes zu einem sog.
„Contig“ zusammen. Die zusammen gehörenden Elektropherogramme werden mit der
Maus markiert (drücken Sie die Umschalttaste, um mehrere Dateien zu markieren) und
erscheinen dann im Fenster unten als hellblaue Streifen. Bereiche schlechter Qualität am
Anfang und Ende sind mit roten Balken unterlegt, gut lesbare Abschnitte mit schwarzen
Strichen.
2. In der Kopfzeile klicken wir auf den Knopf >Assembly. Es öffnet sich ein Fenster, in dem
wir verschiedene Optionen wählen können.
3. Wir behalten zunächst die Grundeinstellungen bei, wählen unter >Assembly name einen Namen für das Contig aus und klicken >OK. Die Chromatogramme werden nun „assembliert“ und erscheinen danach im unteren Fenster sortiert und teilweise überlappend.
Oberhalb der Chromatogramme erscheint ein dicker schwarzer Balken („Consensus“).
Hinter ihm verbirgt sich die aus den Chromatogrammen errechnete Gesamtsequenz (der
„Konsensus“). Im oberen Fenster sieht man eine neue Datei mit dem Namen „Contig“
oder „Contig [Nr.]“.
4. Vergrößern Sie die Ansicht entweder durch Klicken auf das Lupensymbol rechts oder
durch anklicken des Knopfes
. Sie sehen nun oben die Buchstabenabfolge der Konsensussequenz, darunter verschieden dicke grüne Balken („Coverage“), die anzeigen,
aus wie vielen Chromatogrammen der Konsensus errechnet wurde, und darunter die
Chromatogramme und die Einzelsequenzen in Buchstabenform. In der Beschriftung der
Chromatogramme links können sie sehen ob die Sequenz in Vorwärts- („FWD“) oder
Rückwärtsrichtung („REV“) angeordnet ist.
Aufgabe 7: Erklären Sie, warum einige der Sequenzen beim Assemblieren umgedreht werden.
Reicht es, die Sequenzen einfach von hinten nach vorne zu betrachten oder müssen weitere
Veränderungen vorgenommen werden?
24
7. Alternativ kann man beim Assemblieren verschiedene andere Optionen wählen, z. B. unter „Sensitivity“ >Highest Sensitivity, >Do not trim. Mit >Create subfolder kann man
neue Unterordner erzeugen, in denen die Contig-Datei abgespeichert wird. Sie erscheint
dann nicht im selben Fenster.
8. Wenn einem die Anzeige im unteren Fenster zu klein ist („Man wird ja auch älter“) kann
man mittels Doppelklick auf das Contig ein neues größeres Fenster öffnen. Im Menü auf
der rechten Seite kann man wieder die unterschiedlichsten Darstellungsoptionen wählen.
Lassen Sie Ihrem Spieltrieb freien Lauf.
9. In der obersten Zeile des neuen Fensters können Sie verschiedene Ansichten der Chromatogramme und des Contigs wählen. Am wichtigsten ist die aktuell offene “Contig
View“. Sie können zum Spaß aber auch die sequenzierten Fragmente als virtuelles Gel,
oder das gesamte Contig in einer Textansicht anschauen.
10. Unter „Colours“ können Sie verschiedene Farbdarsstellungen der Buchstaben wählen.
„Quality“ zeigt Ihnen gut lesbare Basen hellblau, schlechter lesbare sukzessive dunkler
an. Die Einstellung „Clustal“ zeigt die Basen in unterschiedlichen Farben, die man unter
„Edit“ anpassen kann.
11. Unter >Graphs>Options können Sie „Show Graphs“ wegklicken, so dass die Chromatogramme verschwinden. >Sequence Logo lässt eine psychedelische Buchstabenfolge
erscheinen, in der die Qualität der Konsensussequenz durch die Größe der Buchstaben
angezeigt wird. Spielen Sie wieder herum und erklären Sie danach Ihren Kommilitonen
eine der Optionen, die Ihnen besonders gut gefällt.
Nachdem wir uns nun wieder etwas entspannt haben, kommen wir zur eigentlich Arbeit, der
Kontrolle und Korrektur der Chromatogramme und Konsensussequenzen.
12. Unter >Options (rechts vom Knopf „Highlighting“) klicken Sie >Highlighting und wählen
Sie „Disagreement“ to „Consensus“ an. Danach >Go to next disagreement oder Strg+d.
Der Cursor springt zur nächsten Stelle, an der die Chromatogramme widersprüchliche
Signale zeigen, falls es solche gibt.
13. Inspizieren Sie diese Position des Contigs. Können Sie entscheiden, welche Base an
dieser Stelle korrekt ist?
14. In der zweiten Zeile des Fensters finden Sie einen Menüpunkt „Allow editing“. Klicken Sie
ihn an. Nun können Sie in der Basenabfolge wie in einem Textdokument schreiben
(Buchstaben einfügen, löschen usw.). Bei jeder Änderung erscheinen Symbole über oder
unter der entsprechenden Buchstaben-Sequenz: gelbe Balken für Änderungen, dunkelrote für Deletionen, grüne für Insertionen.
15. Korrigieren Sie auf diese Weise das gesamte Contig. Wenn Sie sich nicht entscheiden
können, welches Nukleotid das richtige ist, schreiben Sie ein „N“ in die Datei.
16. Schon der Sequenzierer hat die meist schlecht lesbaren Enden der Chromatogramme
„getrimmt“. Die so „abgeschnittenen“ Passagen sind zwar noch vorhanden, in der Darstellung aber mit einem roten Balken unterlegt. Sie wurden zur Berechnung der Konsensu-Sequenz nicht herangezogen. Wenn Sie mit dem Trimming unzufrieden sind, weil z.
B. zu viel der Sequenz verworfen wurde, können Sie die Einstellungen ändern. Klicken
Sie auf >Annotate & Predict>Trim Ends. Ein Fenster öffnet sich.
25
17. Änderungen können Sie z. B. beim „Error Probability Limit“ vornehmen. Wenn Sie die
Zahl 0.05 verkleinern, legt Geneious strengere Maßstäbe an und trimmt größere Teile
der Sequenzen, wenn Sie sie vergrößern werden größere Teile behalten. Diesen Arbeitsschritt können Sie auch nach dem Alignment (s.u.) vornehmen.
18. Um den fertig bearbeiteten Konsensus zu speichern, markieren Sie das Wort „Consensus“ links neben der Sequenz.
19. Klicken Sie auf >Extract im Top-Menü. Es öffnet sich ein neues Fenster „Extract“. Geben
Sie einen Namen in der Feld „Extraction name“ ein und klicken Sie >OK. Das Fenster mit
dem Contig schließt sich und im oberen Zentralfenster erscheint eine neue Datei mit dem
Namen des Consensus Files.
Wenn Sie auf diese Weise alle Sequenzen editiert haben, schließen Sie Seqman. Als nächstes
muss aus den Einzelsequenzen ein Alignment erstellt werden. Wir müssen uns aber vorher
noch vergewissern, ob die Sequenzen wirklich zu den von uns zu untersuchenden Arten gehören. Hierfür wird ein „BLAST-search“ in Genbank durchgeführt.
BLAST-Suche in Genbank
Durch unzählige Sequenzierungsprojekte, am spektakulärsten vielleicht das Projekt „Assembling the Tree of Life“ (http://www.nsf.gov/bio/pubs/awards/atol_02.htm), sind seit den 70er Jahren ungeheure Mengen an DNA- und Proteinsequenzen erzeugt worden. Um diese Datenflut zu
speichern und der Forschung zugänglich zu machen, unterhalten das National Institute of
Health, das European Molecular Biology Laboratory und die DNA Databank of Japan untereinander vernetzte Sequenz-Datenbanken. Alle renommierten wissenschaftlichen Zeitschriften verlangen heute von ihren Autoren, dass sie Sequenz-Daten in einer dieser Datenbanken hinterlegen. Diese Daten können dann von jedem anderen für wissenschaftliche Arbeiten verwendet
werden. Systematiker nutzen diese Datenbank auf zweierlei Weise. Sie verwenden bereits publizierte Sequenzdaten in eigenen Datensätzen. Das spart Zeit und Kosten. Mit Hilfe eines Suchalgorithmus namens BLAST (Basic Local Alignment Search Tool) kann man in Genbank aber
auch nach Sequenzen suchen, die einer selbst erstellten Sequenz ähneln. Auf diese Weise findet man heraus, ob die eigenen Sequenzdaten wirklich vom untersuchten Organismus stammen (und nicht von kontaminierenden Bakterien, Pilzen oder den Objekten der Kollegen). Wir
testen zunächst eine der im Praktikum erstellten Sequenzen. Die vielleicht am häufigsten genutzte Sequenzdatenbank ist GenBank. Auch die folgende BLAST-Suche könnte man direkt auf
der Internetseite von GenBank durchführen (http://www.ncbi.nlm.nih.gov/blast/Blast.cgi), indem
man die Sequenz in ein Suchfeld kopiert. Bequemer geht es aber direkt aus Geneious heraus.
1. Erzeugen Sie im linke Fenster unter „Local“ einen neuen Ordner mit dem Namen
„BLAST“.Kopieren Sie die Sequenzen, die Sie untersuchen wollen durch drag and drop
in diesen Ordner.
2. Markieren Sie eine Ihrer Sequenzen mittels >Sequence Search im Top-Menü. Es öffnet
sich ein neues Fenster.
3. Klicken Sie auf den Punkt neben dem Namen der Sequenz.
4. Wählen Sie unter “Database” nr. (Dies ist die Grundeinstellung.)
5. Als Suchalgorithmus wählen Sie “Megablast“.
26
6. Unter >Maximum Hits können Sie auswählen, wie viele ähnliche Sequenzen Ihnen Geneious anzeigen soll. Wählen Sie hier eine kleine Zahl (z.B. 10), sonst dauert die Suche
sehr lange.
7. Unter >Searches im linken Fenster erscheint ein neuer Ordner. Der Fortschritt der Suchanfrage wird im Zentralfenster angezeigt.
8. Nach Ende der Suche erscheinen die ähnlichsten Sequenzen in Genbank im Zentralfenster mit Zusatzinformationen. Wir wollen zunächst wissen, von welchem Organismus
unsere Sequenzen stammen und sind deshalb an der Spalte „Organism“ interessiert.
9. Eine gute Übereinstimmung ihrer Sequenz mit den ähnlichsten Sequenzen in Genbank
bedeutet in der Regel eine enge Verwandtschaft. Wenn also die ähnlichsten Sequenzen
in Genbank von Menschen und Mäusen stammen, haben Sie keine Bromelie sequenziert.
10. Wenn Sie Näheres zu den in GenBank gespeicherten Sequenzen wissen wollen, müssen Sie sich die vollständgen GenBank-Einträge ansehen. Markieren Sie eine oder mehrere Sequenzen aus der Liste der BLAST-Hits. Im Fenster unten können Sie >Download
Full Sequence(s) anklicken. Es erscheinen keine neuen Dateien, aber die bereits vorhandenen werden vervollständigt. Der bisher grauer Name der Sequenzen färbt sich
schwarz.
11. Wenn Sie eine der schwarzen Sequenzen markieren und unten >Text View anklicken,
erscheint der ganze Genbank-Eintrag. Sie sehen zunächst parallel Ihre eigene Sequenz
und die in GenBank gefundene Sequenz mit der GenBank accession number. Zwischen
den beiden Buchstabenreihen zeigt eine dritte Reihe Übereinstimmungen zwischen beiden Sequenzen an.
12. Weiter unten sehen Sie Details zur GenBank-Sequenz: Name, systematische Zuordnung, Einsender und ggf. die Publikation, in der die Sequenz erstmals erscheint, dann
eine Beschreibung der Quelle, aus der die Sequenz stammt und eine genauere Beschreibung des Gens (Name, Positionen von Exons und Introns usw.). Zuletzt folgt die
Sequenz noch einmal im GenBank-Format. Weiter oben finden Sie einen Link, mit dem
Sie direkt zum Datenbankeintrag bei GenBank kommen.
13. Auch bei der BLAST-Funktion bietet Geneious allerlei Gimmicks. >Alignment View im
unteren Fenster zeigt Ihnen nun eine Konsensus-Sequenz aus allen Nukleotiden (nummeriert), die in beiden Sequenzen vorkommen. Darunter einen grünen Balken der anzeigt, in wie vielen Sequenzen das Konsensus-Nukleotid vorkommt. Im Falle von zwei
Sequenzen sind das entweder beide oder keine (warum nicht eine?). Darunter sehen Sie
die nummerierten beiden Sequenzen und einen farbigen Balken, der unterschiedliche
Teile der Sequenz anzeigt. Das kann sehr nützlich sein, wenn man Sequenzen bei GenBank auflädt, und seine eigenen Sequenzen annotieren muss.
14. Zur Entspannung markieren Sie nun noch eine Sequenz mit rechtem Mausklick und wählen Sie >Linnaeus Blast. Schauen Sie zunächst Herrn Linné bei seinen Kaspereien zu.
15. Schließlich erscheint im unteren Fenster eine neue Datei. >Query Sequence View zeigt
Ihnen die Sequenz mit GenBank-Sequenzen als Alignment (s. nächstes Kapitel). Was
sehen Sie, wenn Sie >Linnaeus View auswählen?
16. Ein Klick auf den mit einem grünen Pfeil markierten „Top-Hit“ öffnet ein Fenster mit dem
Sequenzalignment von „Query“ (Ihrer Sequenz) und der ähnlichsten Sequenz aus GenBank.
27
Im nächsten Schritt werden die Einzelsequenzen zu einem Gesamtdatensatz zusammengefügt,
aus dem dann ein sogenanntes „Alignment“ erstellt wird.
Alignieren der Sequenzen
Bei der phylogenetischen Auswertung von Sequenzdaten spielt im Grunde die Ähnlichkeit der
Sequenzen die Hauptrolle. Diese Ähnlichkeit lässt sich auf ganz verschiedene Weise messen.
Man kann zum Beispiel zählen, an wievielen Stellen in jeweils zwei Sequenzen unterschiedliche
Nukleotide eingebaut sind. Natürlich kann man die Sequenzen dafür nicht willkürlich nebeneinander legen und die Unterschiede notieren, sondern muss „gleiche“, sogenannte homologe Positionen der beiden Sequenzen miteinander vergleichen.
Beim Scrollen durch den Datensatz werden Sie feststellen, dass Sie im Gewimmel der Sequenzen anfangs noch eine Struktur erkennen. Weiter hinten verschwindet diese Struktur zunehmend. In fast allen Genen kommt es nämlich gelegentlich zu Insertionen oder Deletionen („Indels“) von einzelnen Nukleotiden oder längeren Genabschnitten. Durch die zunehmende Zahl
von Indels werden die homologen Positionen der Sequenzen immer weiter voneinander weggerückt, je weiter man durch den Datensatz scrollt. Durch Einsetzen von „Leerstellen“, sog. „Gaps“
müssen die Sequenzen wieder auf gleiche Länge gebracht und homologe Nukleotide verschiedener Sequenzen an die gleiche Position gerückt werden. Diesen Vorgang nennt man „alignieren“, das Resultat ist das „Alignment“, das als Datengrundlage der phylogenetischen Rekonstruktion dient. Die Schwierigkeit beim Alignieren besteht darin, die genauen Positionen der Indels ausfindig zu machen, und Gaps an der richtigen Stelle einzufügen. Die beiden folgenden
Sequenzen lassen sich z. B. auf zwei verschiedene Arten alignieren.
1
2
ATGCGTCGTT
|| || |||
ATCCG-CGTC
1
2
AT--GCGTCGTT
|| |||||
ATCCGCGTC
Besonders bei großen Datensätzen mit vielen Arten und variablen Sequenzen lässt sich ein
Alignment deshalb nicht einfach nach Augenmaß durchführen. Das schädigt erstens die Augen
und ist zweitens nicht objektiv.
Durch Einfügen beliebig vieler Gaps lässt sich ein perfektes Alignment ohne Substitutionen erzielen, bei dem an jeder homologen Position nur gleiche Nukleotide oder Gaps vorkommen. Ein
solches Alignment würde nicht den natürlichen Verhältnissen entsprechen, unter denen Substitutionen erwiesenermaßen vorkommen. Wenn ein Computer ein optimales Alignment erstellen
soll, muss man ihm ein Optimierungskriterium vorgeben, an dem er sich bei seinen Berechnungen orientieren kann. Die am häufigsten verwendeten Programme werten Indels genau wie
Substitutionen als Evolutionsereignisse und belegen diese sozusagen mit Strafpunkten. Das
Programm findet dann die Lösung, die mit den wenigsten Strafpunkten zu erreichen ist.
Aufgabe 8: Es ist relativ einfach, zwei Sequenzen miteinander zu alignieren. Bei Datensätzen
mit vielen Taxa wurde dagegen bis heute keine befriedigende und vom Rechenaufwand vertretbare Lösung gefunden. Können Sie sich vorstellen warum wir uns bis heute mit nicht perfekten Alignments begnügen müssen?
Die Frage bleibt, wie man Indels im Vergleich zu Substitutionen wichten soll. Bei verschiedenen
Wichtungen erhält man oft verschiedene Alignments, eine vertrackte Situation, da die Analyse
auf der Annahme aufbaut, dass die Positionen eines Alignments homolog sind und nicht mehre28
re Positionen derselben Sequenz homolog sein können. Mehrere Auswege sind dafür vorgeschlagen worden: (1) Man verwirft Positionen mit unsicherem Alignment (Positionen mit vielen
Gaps); (2) Man wichtet bei der späteren Analyse solche Positionen geringer als andere Stellen;
(3) Man erstellt mehrere Alignments und kombiniert die Daten zu einem Superdatensatz („elision method“). Hierbei wichten sich die unsicherern Positionen sozusagen von selbst herunter, da
sie in den unterschiedlichen Alignments zu verschiedenen phylogenetischen Resultate führen.
(4) Man verwendet Methoden, die phylogenetische Bäume ohne Alignment errechnen können
(z. B. POY:http://www.csc.fi/molbio/progs/poy/).
Im Kurs gehen wir wieder den Weg des geringsten Widerstands und alignieren unsere Sequenzen mit Geneious. Dazu müssen Sie nun zunächst die übrigen Sequenzen des Datensatzes in
Geneious laden.
1. Markieren Sie den Ordner „Alignment“ im linken Fenster.
2. >File >Import >From Multiple Files
3. Die Sequenzdateien befinden sich in einem Ordner, den Ihnen die Kursleiter während
des Kurses verraten werden. Arbeiten Sie sich in diesen Ordner vor, markieren Sie die
Dateien, die Sie importieren wollen und drücken Sie auf >OK.
4. Nach dem Import erscheinen die Sequenzen im Zentralfenster.
5. Markieren Sie die Sequenzen und wählen Sie >Alignment im Top-Menü. Es öffnet sich
ein Fenster.
6. Sie können nun unter verschiedenen Optionen, z.B. Alignment-Methoden wählen. Entscheiden Sie sich für >Muscle-Alignment.
Muscle ist ein besonders schnelles Programm zum Aligniern von Sequenzdaten. Das Alignment
läuft in mehreren Schritten ab: (1) Das Programm vergleicht alle Sequenzen paarweise miteinander, wobei es aber kein paarweises Alignment erstellt (ein zeitraubender Prozess). Stattdessen errechnet es die genetische Distanz zwischen den Sequenzen anhand der Anzahl kurzer
Untersequenzen, die diese Sequenzen gemeinsam haben. (2) Aufgrund dieser genetischen
Distanz wird ein vorläufiger Stammbaum der Sequenzen errechnet. (3) Anhand dieses Dendrogramms aligniert Muscle als erstes die zwei ähnlichsten Sequenzen und arbeitet sich dann
langsam zu den unähnlicheren vor, bis es den ganzen Datensatz aligniert hat. In weiteren
Schritten prüft das Programm, ob sich das Alignment noch verbessern lässt. (4) Zunächst werden aufgrund des multiplen Alignments genaue paarweise Distanzen zwischen allen Arten berechnet. (5) Aufgrund der neuen Distanzmatrix wird dann ein neuer Baum berechnet und (6)
ausprobiert, ob das zu einem anderen Alignment führt. Die Schritte 4 bis 6 werden wiederholt,
bis sich keine Veränderung des Alignments mehr ergibt. Muscle ist besonders gut geeignet, um
große Datensätze bis zu mehreren tausend Arten zu alignieren. In diesem Falle kann man mit
einigen Zusatzeinstellungen z. B. die Größe des blockierten Arbeitsspeichers und die Rechenzeit beeinflussen. Für kurze Datensätze eignen sich die Standardeinstellungen des Programms
am besten.
1. Sie können auch hier wieder unter verschiedenen Optionen wählen. Unter „Maximum
number of iterations“ ist z. B. “8” eingestellt. Dieser Wert gibt vor, wie oft Muscle die
Schritte 4-6 (oben) wiederholt, und kann verändert werden. Normalerweise braucht Muscle weniger als 8 Iterationen, um ein gutes Alignment zu finden.
29
2. Unter >More Options haben Sie eine Menge weiterer Optionen.
3. Klicken Sie >OK, um das Programm zu starten.
4. Im zentralen Fenster erscheint eine neue Datei namens „Nucleotide alignment [Nr.]. Geben Sie dem Alignment einen neuen Namen (analog zum Umbenennen von Dateien im
Windows-Explorer).
5. Durch einen Doppelklick können Sie das Alignment in einem neuen Fenster öffnen.
6. >Allow Editing erlaubt es Ihnen, das Alignment manuell zu “verbessern”. Sie sollten von
dieser Möglichkeit nur dann Gebrauch machen, wenn Sie oder das Alignment-Programm
offensichtliche Fehler gemacht haben. Bei Muscle kommt das sehr selten vor. Es kann
aber sein, dass Sie beim Editieren der Sequenzen einen Fehler gemacht haben.
7. Prüfen Sie also Ihr Alignment auf Unstimmigkeiten. Wenn Sie mit proteincodierenden
Sequenzen arbeiten, sollten indels z.B. immer 3 bp oder ein Vielfaches davon lang sein.
Können Sie erklären warum? Wenn Sie einzelne gaps finden, könnte das auf fehlerhaft
editierte Contigs hindeuten.
8. Merken Sie sich bei Zweifeln das Sequenzmotiv (ca. 6 bp genügen) vor oder hinter der
fraglichen Sequenz-Position und öffnen Sie das entsprechende Contig.
9. Wählen Sie >Annotate & Predict >Search for Motifs, geben Sie das Motiv ein
und suchen Sie nach der entsprechenden Position durch >OK.
10. Zurück im Alignment können Sie die entsprechenden Positionen manuel verändern.
11. Das Entfernen oder Einfügen von „gaps“ bewegt Teile der Sequenzen nach links oder
rechts.
12. Eine ganze Spalte können Sie durch Schreiben in den Konsensus löschen.
13. Mit “ctrl-z” können Sie versehentliche Änderungen rückgängig machen.
14. Zuletzt müssen Sie zwei Änderungen vornehmen. Am Anfang und Ende des Alignments
gibt es immer viele „gaps“, weil die Sequenzen unterschiedlich lang sind. Hier handelt es
sich aber nicht um Deletionen, sondern nur um fehlende Daten. Wenn bei einzelnen Sequenzen lange Stücke fehlen, ersetzen Sie die gaps durch „N“. Den „lückigen“ Anfang
des Alignments können Sie mit der Maus markieren und mit der „Entf“-Taste löschen.
15. Das endgültige Alignment sicher Sie durch >File >save.
16. Die Programme zur Berechnung phylogenetischer Bäume arbeiten mit bestimmten Dateiformaten, in die Sie das Alignment nun noch konvertieren müssen. Dies geschieht durch
>File >Export >Selected Documents.
17. Wählen Sie im Popup-Fenster als Format „Nexus (*.nex)“ und drücken Sie >OK.
18. Wählen Sie im nächsten Popup-Fenster („Select export location“) einen Namen für das
Alignment und einen Ordner, in dem Sie es speichern wollen. Drücken Sie >OK und
nach dem Warnhinweis >Proceed.
19. Exportieren Sie das Alignment auch ins Phylip-Format.
30
Verketten von Multigen-Datensätzen in Geneious
Bei nahe verwandten Arten reicht der Informationsgehalt eines einzigen genetischen Markers
oftmals nicht aus, um phylogenetische Stammbäume mit guter statistischer Unterstützung zu
erhalten. Mehr Daten, in diesem Fall Sequenzen weiterer Genloci, können die statistische Unterstützung in solchen Fällen erhöhen. Außerdem entspricht die Phylogenie einzelner Gene
nicht unbedingt der Phylogenie von Arten, die sich erst vor kurzer Zeit voneinander abgespalten
haben. In Abhängigkeit von der Mutationsrate und den Populationgrößen bleiben DNAPolymorphismen aus einer Ursprungsart nämlich oft sehr lange Zeit in den Tochterarten erhalten. Schlussfolgerungen zur Verwandtschaft sehr nahe verwandter Arten sollten deshalb nicht
nur auf der Untersuchung eines Gens basieren.
Im Laborkurs haben Sie ein Gen selber sequenziert. Die ersten Analysen haben Sie mit diesem
Datensatz durchgeführt. Die Daten für ein weiteres Gen werden Ihnen zur Verfügung gestellt
damit Sie gegen Ende des Kurses beide Datensätze miteinander kombinieren (im englischen
spricht man von „concatenate“ von „catena“, dem lateinischen Wort für Kette) und analysieren
können. Das Zusammenfügen der Datensätze in Geneious ist sehr einfach, wenn die Taxa in
beiden Alignments in gleicher Reihenfolge erscheinen.
1. Kopieren Sie das zweite Sequenzalignment des Gens matK (im Kurs zur Verfügung
gestellt) in denselben Ordner „Alignment“ im linken Fenster, in dem sich ihr selbst erstelltes Alignment befindet.
2. Prüfen Sie, ob die Sequenzen (Taxa) in beiden Alignments in gleicher Reihenfolge
vorliegen und die gleichen Namen tragen. Ansonsten ändern Sie die Namen entpsrechend und verschieben Sie die Sequenzen im unteren Fenster mit der Maus.
3. Speichern Sie ggf. Änderungen in den Dateien.
4. Markieren Sie nun beide Alignments im mittleren Fenster und wählen Sie
>Tools>Concatenate Sequences or Alignments...
5. Es öffnet sich ein neues Fenster, in dem Sie die Reihenfolge der Gene im erweiterten
Alignment festlegen können. >OK erzeugt eine neue Datei mit dem Namen „Concatenated Alignments 2“.
6. Benennen Sie die Datei so um, dass Sie sie in drei Tagen noch wiedererkennen.
7. Speichern Sie sie danach im Nexus- und Phylip-Format.
Datenanalyse: Errechnen phylogenetischer Stammbäume
Aus molekularen Daten kann man eine Vielzahl von Informationen extrahieren. Wir beschränken uns in diesem Kurs aber auf einige Fragen, die üblicherweise in der Systematik auftauchen.
Die am häufigsten gestellte Frage ist die nach der Verwandtschaft der Organismen. Nach der
Evolutionstheorie gehen alle Organismen auf einen Urorganismus zurück und sind demnach
miteinander verwandt. Da die DNA von Generation zu Generation repliziert und weitergegeben
wird, sind auch alle homologen DNA-Sequenzen und die daraus synthetisierten Proteine miteinander verwandt. Deshalb kann man Protein- oder DNA-Sequenzen dazu verwenden, die
Evolutionsgeschichte zu rekonstruieren und die Verwandtschaftsverhältnisse der Organismen
aufzudecken. Der Replikationsmechanismus der DNA funktioniert nicht fehlerfrei. Hin und wie-
31
der kommt es zu Ablesefehlern, bei denen ein Nukleotid durch ein anderes ersetzt wird. Wenn
sie nicht letal sind, können solche Substitutionen an die Nachkommen weitervererbt werden. Je
länger zwei Sequenzen unabhängig voneinander existieren, desto mehr Substitutionen haben
sie in der Regel akkumuliert. Man kann also genetische Unterschiede (die genetische Divergenz) zwischen Arten als Maß für ihre Verwandtschaft heranziehen und aus dieser Divergenz
einen phylogenetischen Stammbaum errechnen. Ein solcher Stammbaum ist ein Modell oder
eine Hypothese der verwandtschaftlichen Beziehungen zwischen den untersuchten Arten.
Wie rekonstruiert man Stammbäume?
Nach welchen Kriterien soll man vorgehen, wenn man aus allen möglichen phylogenetischen
Stammbäumen den herausfinden will, der die Evolution der Gruppe am besten wiedergibt? Um
den „besten“ Baum unter allen möglichen herauszufinden, braucht man ein Optimierungskriterium, nach dem entschieden werden kann, wie „gut“ ein Baum im Vergleich zu anderen ist, wie
gut also die erhobenen Daten eine bestimmte Phylogeniehypothese unterstützen. Drei solcher
Kriterien wollen wir im Kurs besprechen: (1) das Prinzip der maximalen Parsimonie (MP), (2)
das Konzept der maximalen Likelihood (ML) und (3) das Konzept der A-posterioriWahrscheinlichkeit oder Bayes’sche Verfahren. Bevor wir uns diese Methoden ansehen, aber
ein kleiner Exkurs zu phylogenetischen Stammbäumen.
Box 1: Phylogenetische Stammbäume
Ein phylogenetischer Stammbaum verdeutlicht modellhaft die evolutionären Beziehungen zwischen Organismen. Er ist die grafische Darstellung einer Hypothese, die besagt: „So könnten die im Datensatz
vertretenen Arten miteinander verwandt sein.“
Jeder Stammbaum besteht aus Ästen, die an Knoten miteinander verbunden sind. Im folgenden Beispiel
(s. u.) sind zwei interne Knoten mit X und Y bezeichnet. Die Organismen stellen die Endpunkte der Äste
dar, und werden auch als terminale Knoten bezeichnet. In unserem Fall sind dies die Endpunkte A-L.
Die Arten K und L sind in diesem Beispiel näher miteinander verwandt als H und L. Die Länge der Äste
ist proportional zur Anzahl der Substitutionen von einem Knoten zum nächsten. Der Maßstab unten links
zeigt die Astlänge für 0.1 Substitution je Position des Alignments an.
A
B
X
C
Y
D
E
F
G
H
I
J
0.1
K
L
Die meisten phylogenetischen Stammbäume sind wie dieser dichotom verzweigt. Das heißt, es haben
sich an jedem Knoten aus einer Ursprungsart zwei Tochterarten gebildet. Es können aber auch mehr als
zwei Tochteräste von einem Knoten ausgehen (polytome Verzweigung). Ohne dass sich der Informati-
32
onsgehalt eines phylogenetischen Stammbaums ändert, kann man die Äste wie bei einem Mobile um
ihre Knoten drehen. E und F sind z. B. in diesem Baum nicht näher mit der Gruppe G-L verwandt als C
und D. Phylogenetische Bäume können eine Wurzel haben oder nicht. Eine Wurzel verleiht dem Baum
die zusätzliche Information, von wo die Evolution ihren Ausgang genommen hat. Im anderen Falle könnte jeder interne Knoten den ersten Artbildungsschritt darstellen.
Die mögliche Anzahl verschiedener phylogenetischer Bäume für eine bestimmte Anzahl von Arten ist
immens. Für n Arten beträgt sie:
Un = (2n-5)(2n-7) … (3)(1) für ungewurzelte Bäume und
Rn = (2n-3)(2n-5) … (3)(1) für gewurzelte.
Für 20 Arten ist R20 = 8 200 794 532 637 891 559 000, für 100 Arten gibt es mehr Bäume als Atome im
Universum. Aus dieser Menge gilt es, den optimalen Baum herauszufinden. Schon bei relativ kleinen
Datensätzen lassen sich nicht mehr alle möglichen Bäume testen. Man muss auf sogenannte heuristische Suchverfahren zurückgreifen, um zu einem Ergebnis zu kommen (s. Box 3).
Für phylogenetische Bäume hat sich eine Kurzschreibweise eingebürgert, die auch von vielen Computerprogrammen gelesen wird: das Newick Format, das die Verwandtschaftsverhältnisse in Form von
Klammern ausdrückt. Die Gruppe I-L sieht im Newick-Format so aus: (I(J(K,L)))
Aufgabe 9: Schreiben Sie den vollständigen Baum aus Box 1 als ungewurzelten Baum im Newick-Format auf.
(1) Das Prinzip der maximalen Parsimonie (MP) ist das einfachste der drei hier vorgestellten
Kriterien, nach dem man aus der Vielzahl der möglichen Bäume einen optimalen auswählen
kann. Das Parsimonie-Prinzip wird auf den mittelalterlichen Franziskanermönch und Philosophen William von Ockham zurückgeführt. Dieser argumentierte, dass man von mehreren Erklärungen oder Theorien zur Erklärung eines Phänomens immer diejenige auswählen soll, die mit
den wenigsten Grundannahmen auskommt. Analog postuliert MP, dass die Topologie die Verhältnisse am besten wiedergibt, die mit den wenigsten Substitutionsereignissen die heute zu
beobachtenden Sequenzunterschiede erklärt. MP hat damit auf den ersten Blick keine statistische Grundlage, sondern ist mehr oder weniger philosophisch motiviert.
Praktisch ermittelt man für jeden möglichen Baum und jede Nukleotid-Position die möglichen
Nukleotide der Vorläufersequenzen an den internen Knoten des Baumes und zählt dann die
minimale Anzahl an Substitutionen, die die Evolution der Gruppe erklärt. Walter Fitch hat 1971
eine Methode veröffentlicht, mit der sich diese Substitutionen einfach abzählen lassen. Man
erzeugt an jedem internen Knoten die Schnittmenge der Nukleotide an den beiden untergeordneten Knoten. Wenn diese Schnittmenge leer ist (wie in der Abbildung unten an den beiden mit
„1“ markierten Knoten), bildet man stattdessen die Vereinigungsmenge und zählt ein Substitutionsereignis. Man addiert die Zahlen für alle Nukleotidpositionen separat für jede Baumtopologie
und wählt die Topologie mit den wenigsten Substitutionen als die optimale aus.
33
Vereinigungsmenge
Schnittmenge
MP verwendet nicht alle Positionen eines Alignments. Positionen, die in allen Sequenzen gleich
sind, sind unter MP generell uninformativ. Bei Positionen, an denen nur eine Sequenz eine bestimmte Substitution aufweist, muss diese Substitution auf dem terminalen Ast liegen. Diese
Positionen lassen unter dem Parsimonie-Kriterium ebenfalls keine Schlüsse auf die verwandtschaftliche Beziehung der Art zu. Als parsimonie-informativ bezeichnet man alle Positionen, an
denen mehr als eine Art eine bestimmte Substitution aufweist. Da MP nur Substitutionen zählt,
ohne den Substitutionsprozess zu modellieren, tut sich die Methode schwer mit Datensätzen,
die viele Homoplasien aufweisen (s. Box 2).
Box 2: Homologie und Homoplasie
Die Merkmale zweier Organismen können ähnlich oder identisch sein, weil sie von einem gemeinsamen
Vorfahren ererbt wurden. Dies trifft zum Beispiel auf die Flügel aller Vögel zu. In diesem Fall spricht man
von homologen Merkmalen. Sie können aber auch unabhängig voneinander entstanden sein, wie zum
Beispiel die Flügel der Vögel und Fledermäuse. Solche Merkmale bezeichnet man als Homoplasien.
Ganz analog werden Nukleotide an einer Position des Alignments die zwei oder mehr Sequenzen von
einem gemeinsamen Vorfahren ererbt haben, als Homologien bezeichnet. Wenn die Sequenzen das
Nukleotid unabhängig voneinander durch Mutation erworben haben, spricht man von einer Homoplasie.
In den meisten Fällen kann man davon ausgehen, dass identische Nukleotide an einer Position homolog
sind. Bei den vier Sequenzen im folgenden Beispiel führt das allerdings zu Konflikten.
Position
Sequenz A
Sequenz B
Sequenz C
Sequenz D
123456789
AAACCTTGG
AATCGTTGG
AATCGTTCG
AAACCTTCG
Angenommen der wahre Baum sieht so aus: ((A,D)(B,C)). Dann haben entweder Sequenz A und B das
G oder Sequenz C und D das C an Position 8 unabhängig voneinander erworben. Wenn die wahre Topologie ((A,B)(C,D)) ist, gilt analog dasselbe für das G und C in Position 5 und das A und T in Position 3.
Homoplastische Positionen einer DNA-Sequenz führen zu Konflikten bei der Auswahl eines optimalen
Baums, da sie verschiedene Topologien befürworten.
Zwischen dem Parsimonie-Prinzip und den Begriffen Homoplasie und Homologie wird von vielen eine
logische Verbindung hergestellt. Vor dem Hintergrund gemeinsamer Abstammung sollten gleiche Merkmalszustände in zwei Arten so lange als ererbt angesehen werden, wie nichts gegen diese Annahme
spricht. Die Annahme, dass identische Merkmale unabhängig voneinander erworben wurden, ist eine
Ad-hoc-Hypothese zur Erklärung der Daten. Dem Parsimonie-Prinzip folgend, sollte man die Zahl solcher Ad-hoc-Hypothesen minimieren, also den Baum auswählen, der die geringste Zahl an Homoplasien
aufweist. Das Ganze ist leider nicht so einfach wie es klingt (s. hierzu Felsenstein 2004: 136-146).
Homoplasien haben praktische Auswirkungen auf die Anwendung von MP. Da unter MP Substitutionen
nur „abgezählt“ werden, wird es mit jeder zusätzlichen Homoplasie schwieriger, einen optimalen Baum
zu berechnen. Als ein Maß für die Verlässlichkeit eines MP-Baumes werden daher meist Homoplasie-
34
-Indices angegeben: Zur Berechnung des Consistency Index CI wird für jede Position des Alignments
der Quotient
ci = mi / si (mit mi = minimale Anzahl von Substitutionen in allen möglichen Topologien und
si = beobachtete Anzahl von Substitutionen bei der betrachteten Topologie) ermittelt. CI ist dann das
Mittel aus den Werten für alle Positionen:
CI = Σimi / Σisi
Dieser Wert ist nicht für alle Topologien identisch. Der Retention Index RI = (Σigi - Σisi) / (Σigi - Σimi) (mit
gi = maximale Anzahl Subst. in allen möglichen Topologien) und der Rescaled Consistency Index RC =
CI × RI sind dagegen unabhängig von der Topologie.
Aufgabe 10: Erklären Sie, was man unter einer Schnittmenge, einer Vereinigungsmenge und
einer leeren Menge versteht.
Aufgabe 11: Erklären Sie anschaulich (nicht mathematisch), warum der Fitch-Algorithmus funktioniert.
Aufgabe 12: Berechnen Sie den CI für die Sequenzen in Box 2 jeweils für die Topologien
((A,D)(B,C)) und ((A,B)(C,D)).
Die beiden folgenden Kriterien, Likelihood und Bayes’sche A-posteriori-Wahrscheinlichkeit, sind
statistische Methoden und versuchen zwei verschiedene Fragen zu Daten und Hypothesen zu
beantworten. Der „Likelihoodist“ fragt: „Was sagen die vorliegenden Daten über bestimmte
Hypothesen aus?“ Der „Bayesianer“ fragt: „Erhöhen die vorliegenden Daten mein Vertrauen in
eine Hypothese oder verringern sie sie?“ Die Fragen klingen auf den ersten Blick identisch, sind
es aber nicht, wie wir gleich sehen werden.
(2) Das Gesetz der Likelihood lautet: Die Daten D favorisieren die Hypothese H1 über die Hypothese H2 genau dann, wenn die Wahrscheinlichkeit, die Daten zu beobachten, unter der Voraussetzung der Hypothese H1 höher ist als wenn man H2 voraussetzt. Mathematisch kann man
das folgendermaßen schreiben: W(D| H1) > W(D| H2).
Die Wahrscheinlichkeit der Daten unter Voraussetzung einer bestimmten Hypothese W(D| H)
nennt man Likelihood. Diese Likelihood sagt nichts über die Wahrscheinlichkeit der Hypothese
aus, wie Sober (2008) an einem netten Beispiel erläutert. Angenommen ich sitze zu Hause und
höre plötzlich Lärm vom Dachboden. Ich könnte nun die Hypothese aufstellen, dass ein paar
Zwerge auf dem Dachboden kegeln. Die Likelihood dieser Hypothese ist extrem hoch, denn die
Wahrscheinlichkeit ist hoch, dass ich in diesem Falle Geräusche höre. Nichtsdestotrotz ist das
natürlich völliger Unsinn. Der absolute Wert der Likelihood hilft einem deshalb nicht weiter, wohl
aber das Likelihood-Verhältnis zweier Hypothesen, das definiert ist als: W(D| H1) / W(D| H2).
Dieser Wert ist größer als 1, wenn Hypothese H1 eine höhere Likelihood als H2 hat und kleiner
als 1 im umgekehrten Fall. Durch die Berechnung dieses Wertes kann man also ermitteln, welche von zwei Hypothesen durch die Daten stärker unterstützt wird und wie stark die eine gegenüber der anderen Hypothese favorisiert wird.
Aufgabe 13: Eine scheinbar paradoxe Beobachtung zeigt deutlich, dass absolute LikelihoodWerte wenig über die Wahrscheinlichkeit einer Hypothese aussagen. Was geschieht mit dem
Likelihood-Wert, wenn ich 10 oder 100 unabhängige Beobachtungen mache, deren Unterstützung für Hypothese H1 jeweils extrem hoch ist (z. B. L=0,99)? Wie sieht es mit einer Alternativhypothese H2 mit L=0,75 und dem Likelihood-Verhältnis zwischen beiden aus?
Bei der Rekonstruktion phylogenetischer Stammbäume müssen wir uns natürlich nicht nur zwischen zwei sondern zwischen einer riesigen Anzahl von Hypothesen entscheiden. Das ist aber
35
nur praktisch, nicht theoretisch ein Problem. Die Topologie, bei der die Likelihood maximal ist,
wird von den Daten am besten unterstützt. Hierfür muss man nun aber die Likelihood der Daten, also des Alignments, für jeden möglichen Stammbaum berechnen. Wie macht man das?
Praktisch mit Hilfe eines Computerprogramms, theoretisch folgendermaßen:
Die folgende Abbildung zeigt einen Beispielbaum mit vier Taxa 1, 2, 3, 4 und zwei internen Knoten 5, 6. Die Taxa und Knoten sind durch Äste unterschiedlicher Länge miteinander verbunden.
Die Astlängen eines phylogenetischen Stammbaumes entsprechen dem Produkt aus der Substitutionsrate (z. B. Substitutionen pro Millionen Jahre) und der Zeit, die zwischen der Entstehung des Astes und seiner nächsten Aufspaltung vergangen sind. Je länger ein Ast ist, desto
größer ist also die Zahl der Substitutionen auf diesem Ast. v1, v2 … v6 sind in der Abbildung
Maßangaben für die Astlängen.
2
1
v1
3
v2
v3
5
6
4
v4
v6
v5
0
Um die Likelihood für eine bestimmte Position k des Alignments auszurechnen, setzen wir willkürlich je eines der vier Nukleotide an Knoten 0, 5 und 6. Die Nukleotide an den terminalen
Knoten 1-4 sind durch unseren Datensatz vorgegeben. Bezeichnen wir die Nukleotide an den
jeweiligen Knoten als x1, x2 … x6 und als gx0 die Wahrscheinlichkeit, dass der Knoten 0 das von
uns ausgewählte Nukleotid x hat. Wir müssen jetzt nur noch berechnen, wie groß die Wahrscheinlichkeit ist, dass Nukleotid 0 entlang dem Ast v5 durch Nukleotid x5 ersetzt wird usw. von
Knoten zu Knoten für alle Äste des Baumes. Wenn wir diese Wahrscheinlichkeit mit Px0x5 · v5,
Px0x6 · v6, … bezeichnen (die Wahrscheinlichkeit hängt von den Astlängen v ab), ergibt sich die
Likelihood durch die folgende lange aber nicht sehr komplizierte Formel:
lk = gx0 · (Px0x5 · v5) · (Px5x1 · v1) · … · (Px6x4 · v4)
Da wir die Nukleotide an den inneren Knoten in der Praxis nicht kennen, muss diese Wahrscheinlichkeit für alle möglichen Kombinationen von Nukleotiden an 0, 5 und 6 ausgerechnet
und aufsummiert werden. Dieser Wert Lk (beachten Sie das große L!) heißt Likelihood-Funktion
für die Position k des Alignments. Dann muss man diese Berechnung für alle Positionen des
Alignments durchführen. Wenn man annimmt, dass jede Position unabhängig mutieren kann,
entspricht die Likelihood für den gesamte Datensatz dem Produkt der Lk-Werte aller Positionen
L = Π Lk. Und weil man mit Produkten von Wahrscheinlichkeiten, wie Sie in Aufgabe 9 gesehen
haben, sehr schnell in Bereiche nahe 0 kommt, bevorzugen Mathematiker und Computerprogramme den Logarithmus der Likelihood, den man einfach addieren kann: lnL = Σ lnLk
Wenn wir die Astlängen und die Topologie eines Baumes sowie einen Datensatz haben, fehlt
uns eigentlich nur noch eines: ein Modell, mit dem man die Wahrscheinlichkeiten des Übergangs von Knoten zu Knoten errechnen kann, also ein Substitutionsmodell. Hierzu unten mehr.
Wie man sich denken kann, ist die Ermittlung eines ML-Baums mit einer Wahnsinnsrechnerei
verbunden. Schon bei relativ wenigen Taxa können auch leistungsfähige Computer nicht mehr
36
alle möglichen Baumtopologien durchtesten. Stattdessen wendet man sogenannte heuristische
Suchalgorithmen an (s. Box 4), die den besten Baum aus einer begrenzten Anzahl untersuchter
Bäume zu ermitteln versuchen. MP ist wesentlich weniger rechenintensiv, aber auch hier steigt
die Zahl der möglichen Bäume mit der Zahl der Taxa mehr als exponentiell an (s. Box 1).
(3) Bayes’sche Verfahren
Auch „Bayesianer“ versuchen, mit Hilfe von Daten etwas über eine Hypothese zu erfahren. Sie
gehen dabei aber anders vor als „Likelihoodisten“. Bayesianer wollen wissen, welchen Einfluss
die Daten auf den Wahrscheinlichkeitsgehalt einer Hypothese haben. Erhöhen oder verringern
sie diesen? Während man mit Likelihood keine Aussagen über einzelne Hypothese machen,
sondern nur mehrere Hypothesen vergleichen kann (s. o.), kann man diese Frage mittels Bayes’scher Verfahren unter bestimmten Voraussetzungen beantworten. Bayesianismus basiert auf
dem Bayes’schen Theorem, das sich aus Grundlagen der Wahrscheinlichkeitstheorie einfach
herleiten lässt. Hierzu nimmt man die Definition einer bedingten Wahrscheinlichkeit:
W(H | D) = W(H & D) / W(D)
(1)
Die Wahrscheinlichkeit eines Ereignisses H unter der Voraussetzung von Ereignis D ist gleich
der Wahrscheinlichkeit, dass H und D gemeinsam eintreffen, geteilt durch die Wahrscheinlichkeit, dass D eintrifft. Sober (2008) gibt wieder ein leicht verständliches Beispiel. Wie groß ist die
Wahrscheinlichkeit, dass eine Spielkarte Herz (♥) ist, unter der Voraussetzung, dass sie rot
(█)ist? W(█ & ♥) ist gleich ¼, W(█) ist ½. Damit ist W(♥ | █) gleich ½.
Formel (1) gilt auch umgekehrt: W(D | H) = W(H & D) / W(H).
Damit ist W(H & D) = W(H | D) W(D) = W(D | H) W(H).
Und W(H | D) = W(D | H) W(H) / W(D). Das ist Bayes Theorem, das dem Reverend Thomas
Bayes zugeschrieben wird und das 1763 veröffentlicht wurde (da war Rev. Bayes allerdings
schon tot). Das Theorem sagt uns, wie sich die Wahrscheinlichkeit einer Hypothese W(H) beim
Eintreffen bestimmter Daten (Experimentalergebnisse, Beobachtungen) verändert. W(H) ist die
Wahrscheinlichkeit der Hypothese, bevor man die Daten gesehen hat, die A-prioriWahrscheinlichkeit. W(H | D) ist die Wahrscheinlichkeit der Hypothese, nachdem man die Daten
gesehen hat, die A-posteriori-Wahrscheinlichkeit. Eine alte Bekannte, die uns in dieser Formel
wieder begegnet, ist die Likelihood W(D | H). Daneben gibt es noch eine unangenehme Zeitgenossin: W(D), die Gesamtwahrscheinlichkeit der Daten ohne Annahme einer bestimmten Hypothese. Die A-posteriori-Wahrscheinlichkeit ist im Gegensatz zur Likelihood eine echte Wahrscheinlichkeit und verhält sich auch mathematisch genau so. W(H) + W(nicht H) = 1.
Die A-priori-Wahrscheinlichkeit und die absolute Wahrscheinlichkeit der Daten können in der
Praxis große Schwierigkeiten machen. Ohne irgendwelche Daten gesehen zu haben, kann man
die Wahrscheinlichkeit der meisten Hypothesen überhaupt nicht einschätzen. Und die absolute
Wahrscheinlichkeit der Daten ist nur dann praktisch zu berechnen, wenn es eine relativ kleine
Menge von möglichen Hypothesen gibt, etwa die, dass ein Patient eine bestimmte Krankheit hat
oder nicht. Sie beträgt dann:
W(D | H) W(H) + W(D | nicht H) W(nicht H). Das ist die durchschnittliche Wahrscheinlichkeit unter Berücksichtung der zwei möglichen Hypothesen.
Aufgabe 14: Bayesianische Konzepte sind auch bei Alltagsproblemen nicht selten. Bestimmen
Sie, was in der folgenden Schulaufgabe (aus Zhu & Gigerenzer 2006) der A-prioriWahrscheinlichkeit, der A-posteriori-Wahrscheinlichkeit und den erhobenen Daten entspricht
und lösen Sie als Lockerungsübung die Aufgabe. Ein Mädchen geht in ein Dorf, um nach dem
Weg zu fragen. 10 % der Dorfbewohner lügen. Von denen, die lügen, haben 80 % eine rote Na-
37
se, von denen, die nicht lügen, nur 10 %. Das Mädchen trifft einen Mann mit einer roten Nase
und fragt ihn nach dem Weg. Wie groß ist die Wahrscheinlichkeit, dass der Mann lügt?
Aufgabe 15: Phylogenetische Stammbäume können mehr oder weniger wahrscheinlich sein,
aber kein einziger Stammbaum hat eine A-posteriori-Wahrscheinlichkeit von 0. Beschreiben
Sie, was das für den wahrscheinlichsten Stammbaum von 20 Arten bedeutet.
Bayes’ Theorem ist also unstrittig, nicht aber die Bayes’sche Statistik, also die Anwendung des
Theorems in der Praxis. Schon für wenige Taxa gibt es so viele unterschiedliche Hypothesen
(Bäume), dass die absolute Wahrscheinlichkeit der Daten nicht mehr zu berechnen ist. Man
könnte aber zu einer Näherungslösung kommen, indem man eine Zufallsstichprobe von
Stammbäumen in Abhängigkeit von ihrer Wahrscheinlichkeit sammelt. Genau so, wie man das
Durchschnittseinkommen von Statistikern dadurch ermittelt, dass man eine repräsentative
Stichprobe von ihnen befragt. In so einer Probe müssten sehr wahrscheinliche Bäume häufig
und unwahrscheinliche selten vertreten sind und das möglichst genau in Abhängigkeit von ihrer
Wahrscheinlichkeit. Wie kann man solche Daten sammeln? Eine Methode wurde 1997-1999
publiziert und macht sich zunutze, dass man die A-posteriori-Wahrscheinlichkeit eines Baumes
wegen der dämlichen absoluten Wahrscheinlichkeit der Daten zwar schwer berechnen, aber die
zweier Bäume gut vergleichen kann. Man kommt nämlich zu folgender Formel, in der sich der
lästige Term W(D) herauskürzt:
W(H1 | D) = W(D | H1) W(H1) / W(D) = W(D | H1) W(H1)
W(H2 | D)
W(D | H2) W(H2) / W(D)
W(D | H2) W(H2)
Unter der etwas idealisierten Annahme, dass alle Bäume gleich wahrscheinlich sind, wenn man
keine Daten gesehen hat (nachts sind alle Katzen grau), reduziert sich das auf einen Likelihood-Verhältnistest. Die Annahme, dass alle Bäume gleich wahrscheinlich sind, trifft zwar sicher nicht zu, ist aber in diesem Zusammenhang trotzdem vernünftig. Solange man keine Daten
gesehen hat, hat man auch keinen Grund, einen bestimmten Baum für wahrscheinlicher als andere zu halten. Man spricht in diesem Fall von einer nicht-informativen A-prioriWahrscheinlichkeit. Das Sammeln der Bäume funktioniert dann folgendermaßen.
Ein Computerprogramm berechnet die Likelihood eines zufällig gewählten Stammbaums. Dann
verändert das Programm einen Parameter der Phylogenie (eine Astlänge, die Position einer Art
auf dem Stammbaum usw.) und berechnet die Likelihood für diesen neuen Baum. Erhöht sich
die Likelihood, „akzeptiert“ das Programm den neuen Baum, verschlechtert sie sich, wird dieser
Baum nur mit einer geringen Wahrscheinlichkeit akzeptiert. Ansonsten verbleibt das Programm
auf dem ersten Baum. Diese Abfolge (Veränderung, Berechnung der Likelihood, LikelihoodVerhältnistest, Übergang auf einen neuen Baum) wird sehr oft wiederholt (bis zu mehrere Millionen mal). Das Programm „wandert“ auf diese Weise sozusagen von einem Baum zum nächsten und speichert dabei eine geringe Anzahl der „besuchten“ Bäumen (z. B. jeden 10. oder jeder 100.). Auf diese Weise sammelt das Programm Bäume proportional zu ihrer Likelihood.
Man nennt diesen Prozess Markov-Ketten-Monte-Carlo-Verfahren. Dass man nicht jeden Baum
speichert, hängt damit zusammen, dass man eigentlich eine Zufallsstichprobe sammeln möchte. Innerhalb der Markov-Kette ist aber jeder Baum von seinen unmittelbaren Vorgängern abhängig. Diese Abhängigkeit wird umso geringer, je mehr Schritte zwischen den gesammelten
Bäumen liegen. Die Markov-Kette sammelt also nicht wirklich sondern nur näherungsweise eine
Zufallsstichprobe. Das Verfahren hat den Vorteil, dass die Wahrscheinlichkeit jedes beliebigen
Parameters der Phylogenie (z. B. einer bestimmten Evolutionslinie oder Astlänge) der Häufigkeit seines Auftretens in dieser Stichprobe entspricht, also sehr leicht und ohne viel Rechnerei
(das macht ja der Computer) ablesbar ist.
38
Bildlich kann man sich vorstellen, dass ein Roboter darauf programmiert ist, in einer Hügellandschaft herumzulaufen. Immer wenn der nächste Schritt bergauf geht, tut der Roboter den
Schritt. Wenn dieser Schritt bergab führt, dann berechnet der Roboter das Höhenverhältnis zwischen der alten und der neuen Position, zieht aus einem Zufallsgenerator eine Zahl zwischen 0
und 1 und geht nur dann weiter, wenn diese Zahl kleiner ist als das Höhenverhältnis. Ein solcher Roboter würde die Punkte der Landschaft proportional zu ihrer Höhe abschreiten. Meist
läuft er auf den Hügeln herum, seltener an den Hängen, noch seltener in den Tälern. Ganz ähnlich lässt sich die „Landschaft“ der Bäume proportional zu ihrer Likelihood begehen.
Aufgabe 16: Die Bayes’sche Herangehensweise und Likelihood kommen auf den ersten Blick
oft zu erstaunlich unterschiedlichen Ergebnissen. Angenommen man soll vorhersagen, ob die
nächste Karte aus einem gut gemischten Kartenspiel mit 52 Karten Herz ist. Eine vertrauenswürdige Freundin schaut sich die Karte an und verrät einem, dass das Herz-As als nächstes
kommt. Wie hoch ist nun die Likelihood und wie hoch die A-posteriori-Wahrscheinlichkeit? Was
könnte der Likelihoodist zu seiner Entschuldigung vorbringen?
Nach dieser erschlagenden mathematisch-statistisch-philosophischen Abschweifung fragen Sie
sich sicher, ob Sie in diesem Kurs jemals noch einen Baum berechnen werden. Deshalb nun
zur Sache, der Berechnung von Stammbäumen.
Und wie geht das praktisch?
Die am häufigsten verwendeten Computerprogramme zur phylogenetischen Analyse sind
PAUP, Phylip und MEGA. Phylip (http://evolution.genetics.washington.edu/phylip.html) und
MEGA (http://www.megasoftware.net/) sind kostenlos im Internet erhältlich. PHYLIP implementiert eine Vielzahl verschiedener Methoden und ist das wahrscheinlich am weitesten verbreitete
phylogenetische Programmpaket. PAUP ist ähnlich weit verbreitet und in der Benutzung einfacher, allerdings nicht kostenlos. Es existieren Versionen für Mac und Windows. Die drei Programme benötigen unterschiedliche Datenformate als input files. Mit Hilfe von Bioedit können
Sie Alignments auch in Phylip-Format (*.phy) speichern. PAUP verwendet das sog. NEXUSFormat (*.nex) und kann selber Phylip-files konvertieren. Sie können Alignments aus Bioedit in
Nexus-Format exportieren. MEGA benutzt ein Format, das von Bioedit nicht erstellt werden
kann, konvertiert aber selber Phylip- und NEXUS-files.
Box 4: Heuristische Suche (heuristic search)
Eine heuristische Suche nach dem optimalen Baum erfolgt in zwei Schritten. Im ersten Schritt wird ein
Ausgangsbaum erzeugt. Eine häufig verwendete Methode ist der Stepwise Addition Algorithm. Einem
Ausgangsbaum von 3 Arten werden schrittweise weitere Arten angefügt, wobei man diese immer an der
Stelle einfügt, an der man einen optimalen (Teil-) Baum erhält.
Ausgehend vom vollständigen Ausgangsbaum, beginnt das Programm, Äste zu vertauschen und berechnet, ob sich so ein besserer Baum finden lässt. Es gibt wiederum verschiedene Methoden für dieses
sogenannte Branch Swapping. Beim Nearest Neighbour Interchange (NNI) werden alle Bäume untersucht, die sich vom Ausgangsbaum in der Position zweier Arten unterscheiden. Beim Subtree Pruning
and Regrafting (SPR) wird ein Ast abgeschnitten und an allen möglichen Stellen des Ausgangsbaumes
wieder angesetzt. Dies wird für alle Äste des Baumes wiederholt. Beim Tree Bisection and Reconnection
Algorithmus (TBR), wird der Ausgangsbaum in zwei Teile geschnitten und in allen möglichen Positionen
39
wieder zusammengefügt. Dies wird ebenfalls für alle möglichen „Schnittstellen“ wiederholt. Die Zahl der
untersuchten Bäume ist bei TBR größer als bei SPR und NNI. Trotzdem untersucht man immer nur eine
kleine Zahl aller möglichen Bäume.
Um die Chance zu verkleinern, dass man auf diese Weise den optimalen Baum verfehlt, führt man meist
mehrere heuristische Suchläufe durch, wobei man im ersten Schritt die Arten jeweils in willkürlicher Reihenfolge einfügt.
Die Windows-Version von PAUP wird im wesentlichen über eine Befehlszeile gesteuert. PAUP
ist ein enorm vielseitiges Programm (mit einer ungeheuren Menge von Befehlen). Wir können
nicht mehr als ein paar Grundfunktionen kennenlernen und beginnen mit einer einfachen Analyse. PAUP benutzt in der Grundeinstellung Maximum Parsimony (MP) als Optimierungskriterium.
1. Öffnen Sie das Programm „PAUP“ und laden Sie das endgültige Alignment aus der sich
automatisch öffnenden Dialogbox. Wenn alles gut gegangen ist, sollte der file ohne Fehlermeldung eingelesen werden. Häufige Fehlerquelle bei diesem Schritt sind Leerzeichen, Punkte oder Striche in den Artnamen.
2. Sie erhalten im Fenster oberhalb der Befehlszeile einige Informationen zu ihrem Datenfile. Wenn Sie auf >Window>[Name Ihres Files] klicken, öffnet sich ein zweites Fenster
mit dem Datenfile. Sie können nun zwischen diesen Ansichten wechseln.
3. Schon bei Datensätzen von 10 Arten ist die Zahl der möglichen Bäume so groß, dass die
vollständige Suche nach dem besten Baum sehr lange dauert. Sie haben in der Vorbesprechung von heuristischen Suchmethoden gehört. Im ersten Versuche lassen wir
PAUP mit einer heuristischen Suchmethode nach dem optimalen Baum suchen.
4. Eingabe: hsearch addseq=asis; <Enter>.
Das Programm berechnet den Baum, indem es die Sequenzen in der Reihenfolge zusammenfügt, wie sie im Datensatz erscheinen. Im output wird u. a. angezeigt, wieviele
Merkmale der Datensatz enthält, wie viele davon parsimonie-informativ sind, und welcher
„branch-swapping algorithm“ verwendet wurde. Die default-Einstellung
verwendet TBR (tree-bisection-reconnection). Außerdem erfahren Sie in einer Tabelle
unter „score“ wie viele Substitutionsschritte der beste gefundene Baum hat.
5. Um sich den Baum anzusehen, geben Sie ein:
describetrees 1/ brlens=yes; <Enter>
Jetzt zeigt das Programm den Baum Nr. 1 an und gibt eine Tabelle mit den Astlängen
(brlens) aus. Ausserdem werden verschiedene Werte angegeben, die alle das Ausmaß
an Homoplasie in ihrem Datensatz beschreiben. Der Consistency Index (CI) variiert mit
der Topologie des Baums; seine untere Grenze ist nicht gleich 0. Informativer sind deshalb der Retention Index (RI) und der Rescaled Index (RC), die zwischen 0 und 1 variieren. Diese Indices sollten nur aufgrund der informativen Positionen berechnet werden.
Der Homoplasy Index (HI = 1 – CI) bezeichnet den proportionalen Anteil an Positionen
mit parallelen oder Rückmutationen.
6. Bei der heuristischen Suche wird nur ein kleiner Teil der möglichen Bäume wirklich untersucht. Um die Chance, den optimalen Baum zu finden, zu vergrößern, kann man mehrere Zyklen heuristischer Suchen durchlaufen. Dabei wird die Reihenfolge der Sequenzen am besten mit jedem Zyklus variiert.
40
Eingabe: hsearch addseq=random swap=NNI nreps=100; <Enter>
Es werden 100 Zyklen (nreps) durchlaufen, wobei die Sequenzen jedesmal in einer anderen Reihenfolge (random) hinzugefügt werden. Als branch swapping Algorithmus wird
diesmal nearest neighbor interchange (NNI) verwendet.
7. Um den errechneten Baum anzuzeigen, klicken Sie diesmal auf den Pfeil rechts neben
der Befehlszeile. Sie sehen eine Liste der zuletzt verwendeten Befehlszeilen. Wählen Sie
die richtige aus und drücken Sie <Enter>.
8. Die Bäume, die von PAUP ausgegeben werden, sind ungewurzelt. Jetzt wollen wir den
Baum mit Hilfe einer Außengruppe (outgroup) verwurzeln. Oft bestimmt man solche outgroups schon vor der Analyse und nimmt sie genau deswegen in die Analyse auf. Wählen Sie nach Rücksprache mit dem Betreuer eine outgroup. Der Befehl lautet:
outgroup [Artname(n)]; <Enter>
9. Um den Baum mit einer outgroup zu wurzeln, geben Sie ein:
describetrees 1/ root=outgroup outroot=monophyl; <Enter>
Die outgroup erscheint als monophyletischer Clade neben den Arten der ingroup.
10. Um den Baum/ die Bäume mitsamt Astlängen zu speichern, geben Sie ein:
savetrees file=[Dateiname] brlens=yes; <Enter>
Sie haben den ersten errechneten Baum nun als vorläufiges Ergebnis gespeichert. Die Ansicht
von Bäumen in PAUP ist allerdings recht unbequem. Um den Baum manipulieren zu können,
die Ansicht zu verändern und den Baum ausdrucken zu können, starten Sie jetzt das Programm
FigTree.
1. Laden Sie den treefile durch >File>Open. und Auswahl der entsprechenden Datei.
2. Falls die Äste Bootstrap-Werte (s.u.) tragen, werden Sie nach einem Namen für diese
„labels“ gefragt. Benennen Sie sie z.B. mit „BP“.
3. Der Baum erscheint im großen Fenster. Auf der linken Seite sehen Sie ein Menü, in dem
Sie verschiedene Merkmale des Baums verändern können. Machen Sie sich spielerisch
mit den Optionen unter „Layout“ vertraut.
4. Oben sehen Sie eine graphische Menüzeile, mit der Sie Veränderungen am Baum vornehmen können. Sie können ihn z. B. mit einer Außengruppe wurzeln. Klichen Sie auf
den Ast, der zu Musa acuminata führt und wählen Sie dann >Reroot.
5. Wenn Sie die Taxa in einer bestimmten Reihenfolge anordnen möchten, klicken Sie wiederum Äste an und wählen >Rotate. Mit >Highlight können Sie ganze Clades hervorheben, mit >Colour einzelne Äste.
6. Werte für die statistische Unterstützung einzelner Äste (s. u.) können Sie entweder über
den Ästen oder an den Knoten anzeigen. Klicken Sie dafür entweder „Node Labels“ oder
„Branch Labels“ an und öffnen Sie das jeweilige Menü durch Klicken auf den Pfeil.
7. Hinter „Display“ können Sie auswählen. welches Label angezeigt werden soll. Zu diesem
Zeitpunkt tragen die Äste des von Ihnen berechneten Baums noch keine sinnvollen
Lables. Später können Sie hier Bootstrap-Unterstützung oder A-posterioriWahrscheinlichkeiten anzeigen lassen, indem Sie den von Ihnen oben vergebenen Namen für die Lables auswählen.
41
8. Wenn der Baum Ihnen gefällt, exportieren Sie ihn in einem Grapfikformat, dass Sie später in ihr Protokoll einfügen können, durch >File>Export Graphic... und Auwahl des
gwünschten Formats und des Ordners, in dem die Datei abgelegt werden soll.
Auswahl des besten Substitutionsmodells
Um die Likelihood eines bestimmten Stammbaumes zu berechnen, benötigt man wie schon erwähnt ein Substitutionsmodell. Man versteht darunter eine oder mehrere Formeln, mit denen
man errechnen kann, wie wahrscheinlich die Substitution eines Nukleotids durch ein anderes
auf einem soundso langen Ast des Baumes ist. Bevor wir uns damit beschäftigen, wie wir ein
bestimmtes Modell berechnen oder auswählen können, einige allgemeine Informationen zu
Substitutionsmodellen.
Box 5: Substitutionsmodelle
Zwei Sequenzen, die von einer Ursprungssequenz abstammen, akkumulieren im Laufe der Zeit Substitutionen. Ihre genetische Divergenz wächst an. Die Zahl der beobachteten Substitutionen sollte also
eigentlich linear von der Zeit abhängen, die verstrichen ist, seit zwei Sequenzen sich voneinander getrennt haben (schwarze Linie). Mit geringer Wahrscheinlichkeit kommt es aber auch zu Rückmutationen
oder mehrfachen Mutationen an derselben Position. Deshalb ist die Zahl der beobachteten Substitutionen (rote Linie) geringer als die Zahl der Mutationsereignisse, die sich tatsächlich ereignet haben. Eine
einfache lineare Gleichung gibt also die Zeitverhältnisse nicht korrekt wieder.
n
Das einfachste Substitutionsmodell (Jukes-Cantor Modell) nimmt an, dass die Substitutionsraten zwischen allen Nukleotiden gleich sind und dass die „Wartezeit“ auf eine Substitution exponentiell verteilt
ist. Dieses Modell lässt sich relativ einfach beschreiben, weshalb wir das hier etwas ausführlicher machen wollen.
Die Wahrscheinlichkeit, dass zu einem bestimmten Zeitpunkt noch keine Substitution stattgefunden hat,
dass also die „Wartezeit“ T größer ist als die verstrichene Zeit t, wird mit der Zeit immer kleiner:
W(T > t) = e-t.
Wenn dies die Wahrscheinlichkeit ist, dass nichts passiert ist, dann ist die Wahrscheinlichkeit, dass bereits „etwas“ passiert ist, also irgendeine Substitution stattgefunden hat: 1-e-t. Nun gibt es 4 verschiedene Nukleotide (A, C, G, T). Wenn Substitutionen zu all diesen Nukleotiden gleich wahrscheinlich sind,
dann ist die Wahrscheinlichkeit einer bestimmten Substitution ¼ (1-e-t). Wenn aus einem A ein C, G oder
T wird, beschreibt diese Gleichung die Substitutionswahrscheinlichkeit korrekt. Wie groß ist aber die
Wahrscheinlichkeit, dass das A nach Ablauf einer bestimmten Zeit immer noch ein A ist? Dieser Fall tritt
dann ein, wenn entweder nichts passiert ist (e-t) oder das A durch das gleiche Nukleotid ersetzt worden
ist (¼ (1-e-t)). Insgesamt beträgt diese Wahrscheinlichkeit also e-t + ¼ (1-e-t). Wenn wir das Ganze auch
42
für andere Nukleotide verallgemeinern, kann man die Wahrscheinlichkeit, dass das Nukleotid x zur Zeit t
in das Nukleotid y übergegangen ist, also kurz so zusammenfassen:
Wx→y(t) =
{
¼ (1-e-t)
falls x ≠ y
e-t + ¼ (1-e-t)
falls x = y
Die geschweifte Klammer bedeutet dabei so viel wie „entweder – oder“. Das ist die mathematische Kurzfassung des Jukes-Cantor-Modells. In Wirklichkeit verlaufen Substitutionen sicher nicht nach diesem
einfachen Modell. Man weiß z. B., dass sich Transitions- und Transversionsraten in der Regel unterscheiden. Auch kommen die verschiedenen Nukleotide in unterschiedlichen Anteilen vor, was die Substitutionsraten ebenfalls beeinflusst. Im kompliziertesten Modell nimmt man unterschiedliche Raten für alle
Arten von Substitutionen an. Die folgenden vier Kästchen zeigen vier häufig verwendete Substitutionsmodelle in Form von Matrizen. In der obersten Zeile stehen die vier möglichen Nukleotide vor einer Substitution, in der linke Spalte die Nukleotide nach der Substitution. Die Symbole in der Matrize bezeichnen
die unterschiedlichen Substitutionsraten.
A
T
C G
-
α
α
α
A
T α
-
α
C α
α
G α
α
A
A
A
C G
C G
A
T
C G
-
β
β
α
A
α
T β
-
α
β
T βgA - αgC βgG
T agA - dgC egG
-
α
C β
α
-
β
C βgA αgT - βgG
C bgA dgT - fgG
α
-
G α
β
β
-
G αgA βgT βgC -
G cgA egT fgC
Jukes-Cantor
Kimura
HKY
T
- βgT βgC αgG
A
T
- agT bgC cgG
-
GTR
Positionsspezifische Substitutionsraten
Alle diese Modelle nehmen an, dass die Substitutionsrate für alle Positionen einer Sequenz die gleiche
ist. Das stimmt in der Regel nicht. Proteine haben aktive Zentren, die sehr konservativ sind, während in
anderen Bereichen Substitutionen häufiger sind. Erste, zweite und dritte Codonpositionen haben ebenfalls unterschiedliche Substitutionsraten, weil viele Mutationen an der dritten Position „still“ sind, d. h.
nicht zu Veränderungen der Aminosäuresequenz führen und damit nicht letal sein können. Die Substitutionsrate variiert also von Position zu Position. Auch diese Variation kann man in Substitutionsmodellen
berücksichtigen, indem man verschiedenen Positionen des Alignments unterschiedlich hohe Substitutionsraten zuweist.
Im Prinzip könnte man allen Positionen eigene Substitutionsraten zuweisen. Die Zahl der Parameter des
Substitutionsmodells wäre dann aber wesentlich höher als die Zahl der Datenpunkte und das Substitutionsmodell wäre nicht mehr eindeutig definiert (s. Aufgabe 18). Ein elegantes aber rechnerisch aufwändiges Verfahren kommt mit wesentlich weniger Parametern aus. Zunächst legt man dabei fest, dass es
in einem Substitutionsmodell eine bestimmte Zahl von positionsspezifischen Substitutionsraten geben
soll (üblich sind 4, aber jeder beliebige Wert ist möglich). Diese vier Raten werden mit Hilfe einer Gamma Verteilung folgendermaßen bestimmt. Auf der x-Achse der folgenden Funktion liegen die Substitutionsraten.
43
Die Fläche unter der Kurve wird in vier flächengleiche Abschnitte unterteilt. Die vier Raten legt man als
Mediane der vier Teilflächen fest. In diesem Fall sind das 0.32, 0.68, 1.11 und 1.88. Die GammeVerteilung kann, abhängig von einem einzigen Parameter alpha sehr unterschiedliche Formen annehmen. In der Abbildung ist alpha=2. Bei Werte von alpha ≥ 1 liegen alle Substitutionsraten relativ nahe bei
1. Bei Werten < 1 streuen die Raten weiter. Bei alpha=0.5 liegen sie z. B. bei 0.03, 0.28, 0.92 und 2.77.
Hat man die Raten festgelegt, wird an jeder Position der Mittelwert der Likelihood für alle vier Raten bei
gegebener Baumtopologie und Astlängen berechnet. Ein solches Modell kann die tatsächlichen Substitutionsraten besser abbilden, weil an schnell mutierenden Positionen die hohen Raten überproportional
zur Likelihood beitragen und an langsam evolvierenden die niedrigen Raten.
Aufgabe 17: Man unterscheidet Substitutionsmodelle genauso wie z. B. Regressionskurven
danach, wie viele frei veränderbare Variablen sie haben. Diese Variablen nennt man Parameter. Schauen Sie sich die vier Modelle in Box 5 an. Wie viele Parameter haben diese Modelle?
Die Symbole gA, gC, gG und gT bezeichnen dabei die relative Häufigkeit der einzelnen Nukleotide im Datensatz.
Aufgabe 18: Eine Regressionsgerade ist ein Modell, dass die „Informationen“ aus einer „Punktwolke“ zusammenfasst. Erläutern Sie anhand dieses Beispiels, warum man mindestens so viele
Datenpunkte wie Parameter braucht, um ein Modell eindeutig zu definieren. Wie viele Parameter hat eine Gerade in einem zweidimensionalen Koordinatensystem?
Mathematische Modelle sind Annäherungen an die Verhältnisse in der Natur. Sie erlauben es,
aus komplexen Datensätzen die wesentlichen Informationen herauszufiltern. Aus einer Punktwolke in einem Koordinatensystem wird mit Hilfe eines Modells z. B. eine Regressionsgerade a
+ bx, die die Abhängigkeit von Temperatur und Druck in einem Dampfkessel beschreibt. Die
gesamte Punktwolke lässt sich so auf zwei grundlegende Parameter a und b reduzieren. Leider
taucht hier ein kleines Problem auf. Im Prinzip lassen sich beliebig komplizierte Modelle formulieren. Statt einer Regressionsgeraden könnte man auch eine Kurve beschreiben, die durch
jeden der Punkte in der Wolke geht. Diese Gerade passt perfekt auf den erhobenen Datensatz.
Aber beschreibt die so gefundene Formel auch perfekt die Abhängigkeit von Druck und Temperatur im Dampfkessel? Das wäre dann der Fall, wenn auch weitere Messpunkte genau auf der
Kurve zu liegen kommen, was aber sehr unwahrscheinlich ist. Je komplizierter ein Modell ist,
desto genauer spiegelt es den gerade vorhandenen Datensatz wieder, aber desto größer ist
auch die Wahrscheinlichkeit, dass das Modell bei zukünftigen Daten versagt und dass es die
Verhältnisse in der Realität gar nicht zutreffend beschreibt.
Auf Substitutionsmodelle übertragen bedeutet das: Wenn Substitutionen in der Natur einem
komplizierten Modell folgen, unterschätzen einfache Modelle die Zahl der Substitutionen erheblich. Das führt unter ML zu fehlerhaft rekonstruierten Astlängen und möglicherweise auch Verwandtschaftsverhältnissen. Wie wir gerade gehört haben, müssen aber auch unnötig komplizierte Modelle vermieden werden. Wie entscheidet man sich da? Eine Entscheidungsmöglichkeit liefert das Gesetz der Likelihood: Die Likelihood eines Baumes lässt sich auf der Grundlage
eines Datensatzes und eines Substitutionsmodells berechnen. Für einen bestimmten Baum
(z. B. den MP-Baum ) könnte man also ausrechnen, wie sich die Likelihood unter Annahme
verschiedener Substitutionsmodelle verändert, und dann aufgrund des Likelihood-Verhältnisses
W (D | M1) / W (D | M2) (siehe S. 26)
entscheiden, ob die Daten Modell 1 oder Modell 2 am besten unterstützen. Leider haben kompliziertere Modelle immer eine höhere Likelihood als einfache. Auf diese Weise käme man also
immer zum kompliziertesten Modell. Wie stark die Likelihood sich erhöht, hängt vom Datensatz
und von der Zahl der zusätzlichen Parameter im Modell ab. Oberhalb gewisser Grenzen steigt
die Likelihood nur noch in sehr kleinen Schritten an. Man kann deshalb, wie bei statistischen
44
Tests, eine Art Schwellenwert für die Erhöhung der Likelihood festsetzen, oberhalb derer die
Verbesserung statistisch nicht mehr „signifikant“ ist. Ein nicht signifikanter Unterschied bedeutet, dass das kompliziertere Modell den Datensatz nicht wesentlich besser erklären kann als
das einfachere (obwohl die Likelihood vielleicht noch ein wenig größer ist). In diesem Falle
wählt man das einfachere der beiden verglichenen Modelle als das optimale aus.
Dieses Verfahren hat einen Nachteil. Aus bestimmten Gründen funktioniert der LikelihoodVerhältnistest nur, wenn das einfachere der beiden verglichenen Modelle ein Spezialfall des
komplizierteren ist. Das ist bei vielen Modellen nicht der Fall. Die Vergleichsmöglichkeiten sind
daher eingeschränkt und es kann sein, dass man das optimale Modell so nicht findet. Das von
Hirotugu Akaike 1974 eingeführte Akaike Information Criterion (AIC) verfolgt deshalb eine einfache andere Strategie, um das optimale Modell auszuwählen. Ein optimales Modell soll möglichst gut zu den erhobenen Daten passen und gleichzeitig nicht zu viele Parameter haben. In
der folgenden Formel wird der erste Term größer, je mehr Parameter k das Modell hat. Parallel
dazu erhöht sich der zweite Term, der Logarithmus der Likelihood des Modells, je besser das
Modell auf die Daten passt.
AIC = 2k – 2log L(M)
Nach Akaike (1974) soll man das Modell mit dem niedrigsten AIC auswählen. Das ist, einfach
gesagt, das Modell, das mit relativ wenigen Parametern die relativ höchste Likelihood erzielt.
Einfache Modelle haben wenige Parameter, aber passen meist schlecht auf die Daten. So lange sich die log-Likelihood stärker erhöht als 2k, sinkt der Wert für AIC. Irgendwann reicht dann
der Zuwachs der Likelihood durch Einführung weiterer Parameter nicht aus, um den Zuwachs
von 2k zu kompensieren. Dann erhöht sich der Wert von AIC wieder. Mit dieser Methode kann
man Modelle auch dann vergleichen, wenn sie völlig unabhängig voneinander sind.
Aufgabe 19: Welche der in Box 5 dargestellten Substitutionsmodelle sind Spezialfälle welcher
anderen Modelle und aus welchem Grund?
Das Programm „MtGui“ kann in Zusammenarbeit mit PAUP verschiedene Modelle nach beiden
Verfahren testen.
1. Öffnen Sie PAUP und laden Sie Ihren Nexus-file durch >File>Open.
2. Unter http://www.rhizobia.co.nz/phylogenetics/modeltest.html die Datei modelblockPAUPb10.txt öffnen und in den NEXUS-file hinter den Datenblock kopieren.
3. Datei speichern und erneut laden. PAUP berechnet für jedes Modell die Likelihood-Werte
und speichert sie unter dem Namen „model.scores“.
4. Schließen Sie PAUP nach Beendigung des Rechenvorgangs.
5. Verschieben Sie die Datei model.scores in den Ordner, in dem sich das Programm Modeltest befindet und geben Sie ihr einen neuen Namen.
6. Öffnen Sie das Programm MTGUI durch Doppelklick auf das Programmsymbol.
7. Klicken Sie auf die Schaltfläche „Select“ und wählen Ihre Scores-Datei aus.
8. Klilcken Sie anschließend auf die Schaltfläche „Modeltest!!!“ um die Modeltest-Analyse
zu starten.
45
9. Modeltest führt nun die Likelihood-Verhältnistests durch, bis sich keine signifikante Verbesserung mehr ergibt.
10. Im Fenster erscheint nun das Ergebnis Ihrer Analyse. Markieren Sie den ganzen Text
und kopieren Sie ihn in ein Worddokument. Speichern Sie diesen für Ihre Unterlagen ab.
11. Im Ergebnis sehen Sie das optimale Substitutionsmodell nach LRT oder AIC und einige
Zeilen, die mit „BEGIN PAUP;“ anfangen. Dieser Teil lässt sich in PAUP übertragen, um
mit den richtigen Parametern eine Analyse durchführen zu können.
12. Markieren Sie den Text von „BEGIN PAUP;“ bis „END;“ mit der Maus und kopieren Sie
Ihn.
13. Wechseln Sie in PAUP, öffnen Sie die Ansicht des NEXUS-files und kopieren Sie den
Textblock an das Ende des Datei. Im nächsten Teil werden wir hieraus einen Befehlsblock erstellen, der es ermöglicht, PAUP auch ohne Eingabe in die Befehlszeile zu steuern.
Erstellen eines PAUP-Blocks
Im NEXUS-Format lässt sich nicht nur ein Alignment zur Bearbeitung speichern. In verschiede-
nen zusätzlichen Textblöcken kann man Annahmen zum Datensatz (ASSUMPTIONS Block),
vorher errechnete Bäume (TREES Block) oder Details zur Analyse (PAUP Block) eingeben.
Dies ist z. B. sehr praktisch, wenn man Analysen schrittweise durchführt, wobei ein Schritt auf
den Ergebnissen des vorherigen aufbaut. Ein solches iteratives Verfahren kann z. B. notwendig
sein, wenn man sehr große Datensätze unter ML mit komplizierten Subsitutionsmodellen untersucht. Statt selber stunden- oder tagelang auf die Ergebnisse zu warten und dann die nächsten
Befehle per Hand einzugeben, gibt man PAUP am Freitag nachmittag alle notwendigen Befehle
in einem PAUP Block mit, startet die Analyse und nimmt am Montag die Ergebnisse in Empfang. Wir beginnen mit einem einfachen Beispiel, indem wir als Ausgangspunkt die Substitutionsparameter aus Modeltest verwenden.
1. Entfernen Sie den Zeilenumbruch aus der „lset“-Zeile. Mit lset werden die Parameter für
eine ML Analyse festgelegt. Dabei bedeutet:
base=(x y z) Frequenz der Basen A, C und G (T ergibt sich dann von alleine),
nst=x Zahl der verschiedenen Substitutionsraten (je nach Modell1, 2 oder 6)
rmat=(x y z …) Rate der verschiedenen Substitutionsraten,
rates=[equal, gamma] Substitutionsraten sind entweder konstant oder variieren positionsspezifisch. Diese Variabilität wird mit Hilfe einer sogenannten Gamma-Verteilung
modelliert, da diese nicht für jede Position einen neuen Parameter in das Modell einführt,
sondern mit einem einzigen Formparameter auskommt (Näheres hierzu in der Vorbesprechung),
shape=x Form-Parameter der Gamma-Funktion,
pinvar=x Anteil invariabler sites
2. Um ML als Optimierungskriterium zu verwenden und dafür zu sorgen, dass das Programm die Analyse ohne Ihre Bestätigung abschließt, fügen Sie Nach „Begin PAUP“ die
folgende Zeile ein: set autoclose=yes criterion=likelihood;
46
3. Um die Suche nach dem besten Baum zu starten fügen Sie nach der „lset“ Zeile die folgende bekannte Zeile ein: hsearch addseq=random swap=SPR nreps=10;
4. In der nächsten Zeile geben Sie an, dass der beste Baum mit Astlängen angezeigt werden soll. Zur Übung stellen Sie die Zeile selbst zusammen.
5. Zuletzt lassen Sie PAUP den Baum mit Astlängen unter einem selbstgewählten neuen
Dateinamen speichern.
6. Speichern und schliessen Sie den NEXUS-file.
7. Laden Sie den file jetzt erneut. Die Analyse wird durchgeführt, ohne dass Sie weitere Befehle eingeben müssen.
Phylogenetische Unsicherheit, nicht-parametrischer Bootstrap
Die Ergebnisse verschiedener phylogenetischer Analysen (z. B. MP- und ML-Bäume) desselben Datensatzes liefern oft nicht vollkommen gleiche Ergebnisse. Speziell unter MP findet man
in einer Analyse häufig mehrere, gleich lange Bäume. Die Unterschiede sind in der Regel klein,
können aber wichtige Details betreffen, etwa die Frage, ob eine Gattung monophyletisch ist oder nicht. Wieviel Vertrauen kann man also in das Ergebnis einer phylogenetischen Untersuchung haben? Die Frage berührt grundsätzlich alle wissenschaftlichen Ergebnisse. Während
aber ein Physiker seine Messungen wiederholen kann und Mittelwert und Standardabweichung
der Messwerte errechnen kann, hat sich die Evolution nur einmal abgespielt und kann nicht experimentell wiederholt werden.
Eine Lösung dieses Problems ist die Pseudoreplikation des Datensatzes. Man sammelt nicht
neue Daten in der Natur, sondern „besammelt“ den bereits vorhandenen Datensatz mehrere
100 bis 1000 mal. Dabei erstellt man neue Datensätze von gleicher Größe wie der ursprüngliche Datensatz, indem man willkürlich einzelne Positionen des Alignments auswählt. Durch die
zufällige Auswahl werden einige Positionen mehrmals „gesammelt“, andere fallen weg. Jede
Pseudoreplikation des Datensatzes unterscheidet sich von den anderen. Auf diese Weise zieht
man sich sozusagen an den eigenen Haaren aus dem Sumpf. Weil die Engländer sich nicht an
den Haaren sondern an den Schnürsenkeln hochziehen, heißt dieses Verfahren „Bootstrapping“. Man errechnet für jeden Datensatz einen separaten Stammbaum, erstellt aus den Bäumen einen Konsensusbaum, und kann für jeden Ast dieses Baumes ermitteln, in wie vielen der
Bootstrap-Bäume er vorhanden war. Dieses Verfahren nimmt an, dass die Abweichungen der
Bootstrap-Bäume vom optimalen Baum ein Maß für die Abweichung des optimalen Baums vom
„wahren“ Baum sind. Diesen „bootstrap-support“ (in Prozent ausgedrückt) sieht man an fast allen publizierten phylogenetischen Bäumen. Wegen der langen Rechenzeit unter ML führen wir
die Bootstrap-Analyse zunächst unter MP durch.
1. Öffnen Sie PAUP und laden Sie den NEXUS-file.
2. Sollte das Programm ohne Aufforderung zu rechnen beginnen, stoppen sie den Vorgang
und wechseln Sie in die Ansicht des NEXUS-files. Sie können den PAUP-Block am Ende
deaktivieren, indem Sie jede Zeile in eckige Klammern setzen. Speichern und schliessen
Sie die Datei und laden Sie sie dann neu.
3. Eingabe: bootstrap nreps=500 search=heuristic conlevel=50 treefile=[Dateiname]; <Enter>
47
Durch diese Eingabe starten Sie eine bootstrap-Analyse mit 500 Pseudoreplikationen
(der kleinsten Menge, die verlässliche Resultate liefert) und einer heuristischen Suche
nach dem besten Baum jedes Replikats. Das Programm soll als Ergebnis einen Konsensus-Baum mit allen Äste anzeigen, die in mindestens 50% der Bäume vorkommen. Die
Bäume werden in einer Datei gespeichert, deren Namen Sie selber festlegen müssen.
4. Als Anzeige sehen Sie den gewünschten Konsensus-Baum und eine Tabelle mit allen
Art-Gruppierungen, die sich in mindestens einem Baum fanden. Die Arten sind als Zahlen oberhalb der Spalten abgekürzt. Sternchen in den Spalten markieren eine Gruppierung dieser Arten. Die rechten Spalten zeigen, in wievielen Bäumen und in wieviel Prozent der Bäume diese Gruppe angetroffen wurde. Gruppierungen, die in weniger als 5%
der Bäume auftraten, sind nicht gelistet. Vergleichen Sie den Baum mit der Tabelle.
5. Um den Konsensus-Baum zu speichern, müssen Sie erst den Treefile laden. Die Warnung “The limit of 100 trees (= “MaxTrees”) has been reached” beantworten Sie mit
>Reset Maxtrees>Automatically increase by 100. Hierdurch erhöhen Sie die von
PAUP vorgegebene maximale Anzahl von Bäumen im Arbeitsspeicher. In der Anzeige
lesen Sie, wieviele Bäume PAUP errechnet hat (oft mehr als 500, weil bei einigen Bootstrap-Datensätzen mehrere gleich gute Bäume errechnet wurden).
6. Eingabe: contree 1-[Anzahl Bäume] / strict=no majrule=yes percent=50 treefile=[Dateiname]; <Enter>
PAUP errechnet aus allen Bäumen nochmals einen „majority rule“ Konsensus-Baum mit
allen Äste, die in mindestens 50% der Bäume vorkommen. Ein strikter
Konsensus-Baum, der nur Äste anzeigt, die in allen Bäumen vorkommen, wird nicht errechnet. Der Konsensus-Baum wird in einer Datei mit selbst gewähltem Namen gespeichert.
7. In der Anzeige sehen Sie nun neben dem neuen Konsensus-Baum auch eine vollständige Tabelle mit allen beobachteten Gruppierungen. Der neue Treefile kann wieder in
Treeview geöffnet und bearbeitet werden.
Die Interpretation von Bootstrap-Werten ist ein wenig unsicher. Die Werte zeigen eher Präzision
als Genauigkeit an. In der Messtechnik bedeutet hohe Präzision, dass eine oft wiederholte
Messung immer wieder sehr ähnliche Ergebnisse liefert. Genauigkeit bedeutet dagegen, dass
ein gemessener Wert dem tatsächlichen Wert gut entspricht. Wenn ich mich morgens zehnmal
auf die Waage stelle und bekomme zehnmal das gleiche Ergebnis, dann ist meine Badezimmerwaage sehr präzise. Trotzdem kann sie schlecht geeicht sein und z. B. konsequent zwei
Kilo weniger anzeigen als ich wiege. Präzision ist also eine Voraussetzung von Messgenauigkeit, aber reicht alleine noch nicht aus, um einem Sicherheit bei der Interpretation seiner Messwerte zu geben. Ähnlich verhält es sich mit Bootstrap-Werten. Ein Ast mit hohem Bootstrapsupport kann aus den Daten mit größerer Präzision ermittelt werden. Niedrige Bootstrap-Werte
zeigen an, in welche Gruppierungen eines Baumes wir nicht allzu viel Vertrauen setzen sollten.
Ein Wert von 85 % bedeutet nicht, dass der entsprechende Ast mit einer „Wahrscheinlichkeit“
von 0,85 auch im (unbekannten) wahren Stammbaum der Organismen vorkommt, sondern
dass die verwendete Methode auf der Grundlage unserer Daten in 85% der Fälle diesen Ast
rekonstruiert. In wissenschaftlichen Publikationen werden meist nur Werte oberhalb von 50%
angegeben. Da Bootstrap-Werte die Zuverlässigkeit einer Rekonstruktion regelmäßig eher unterschätzen, diskutiert man nicht nur Äste mit einer Unterstützung von 95% (ein in der Statistik
gerne verwendeter Signifikanz-Schwellenwert) sondern auch Äste mit Werten oberhalb von
70%.
48
Bootstrap-Analyse unter Maximum Likelihood
Die Berechnung von Maximum-Likelihood-Bäumen dauert selbst bei einer heuristischen Suche
mit PAUP sehr lange. Die Datensätze, die zur Stammbaum-Berechnung eingesetzt werden,
umfassen aber immer mehr Arten. Gleichzeitig möchte man auch unter ML Bootstrap-Analysen
durchführen, also 1000 oder mehr Analysen von Pseudodatensätzen durchführen. Neue Methoden zur Berechnung von ML-Bäumen versuchen deshalb gar nicht mehr, alle oder auch nur
einen großen Teil der möglichen Bäume zu untersuchen, sondern konzentrieren sich ganz darauf, in möglichst kurzer Zeit möglichst genaue Stammbäume berechnen zu können. Das Programm PHYML optimiert nach einem ausgeklügelten Mechanismus, ausgehend von einem vorgegeben auf genetischen Distanzen beruhenden Baum, gleichzeitig Astlängen und die Baumtopologie, bis sich keine Verbesserung mehr erzielen lässt. Studien mit simulierten Datensätzen, deren Verwandtschaftsverhältnisse bekannt sind, haben gezeigt, dass das Programm sehr
zuverlässig arbeitet. Das Programm verwendet das Phylip-Format als Eingabeformat. Wir müssen deshalb zunächst die ursprüngliche Fasta-Datei in dieses Format überführen.
1. Kopieren Sie das Alignment des Einzelgen-Datensatzes im Phylip-Format in den Ordner
mit der Datei „phyml_win32“.
2. Starten Sie das Program PHYML durch Doppelklick auf die Datei „phyml_win32“.
3. Es öffnet sich ein schwarzes DOS-Fenster mit der Aufforderung „Enter the sequence file
name > „
4. Geben Sie den Namen Ihrer Phylip-Datei ein und drücken Sie die „Enter“. Es erscheinen
Angaben zu den Einstellungen der Analyse und die Frage „Are these settings correct?“.
Das sind sie natürlich nicht, und wir müssen sie nun ändern, um sie auf unsere Datensätze anzupassen. In der linken Spalte sehen Sie Buchstaben. Durch Eingabe des
Buchstabens können Sie jeweils eine Option ändern. Die ersten drei Optionen treffen zu
(DNA-Daten, Sequenzen „interleaved“, nur ein Datensatz).
5. Geben Sie b ein und drücken Sie „Enter“. Geben Sie nun hinter „Number of replicates“
1000 ein und bestätigen Sie erneut mit „Enter“. Sagen Sie dem Programm nun, dass
der Bootstrap-Baum ausgegeben werden soll.
6. PHYML arbeitet nur mit wenigen Substitutionsmodellen. Wir wählen dasjenige, das unseren Daten am ähnlichsten ist, also am besten das Nächstkomplizierte. Durch wiederholte
Eingabe von m kann man zwischen den verschiedenen Modellen wechseln.
7. Mit der nächsten Option entscheidet man, wie die Nukleotidfrequenzen im Datensatz ermittelt werden. Entweder werden die im Datensatz vorhandenen Frequenzen übernommen, oder diese werden ebenfalls mit einem ML-Verfahren berechnet. Wählen Sie, was
Sie möchten.
8. Wenn Ihr Substitutionsmodell invariable Positionen enthält, geben Sie nun erst v ein.
Der Anteil invariabler Sites kann entweder während der Analyse optimiert werden oder
man kann einen bestimmten Wert eingeben. Da wir mit Mtgui diesen Wert bereits ermittelt haben, geben Sie n und dann die entsprechende Zahl mit zwei Stellen hinter dem
Punkt ein (Wo war die denn bloß noch?).
9. Falls das Modell auch noch positionsspezifische Substitutionsraten enthält, geben Sie
nun r ein. Es erscheinen weitere Optionen, die sich auf die schon erwähnte GammaVerteilung beziehen. Die Anzahl der Raten-Kategorien lassen wir unberührt.
49
10. Den Formparameter der Gamma-Verteilung ändern wir aber durch Eingabe von a n
und die Angabe des entsprechenden von MTgui ermittelten Wertes.
11. Die beiden letzten Optionen lassen wir wieder unverändert und starten das Programm
nun mit y und „Enter“. Das Programm beginnt nun damit, den Ausgangsbaum zu optimieren, bis sich keine Verbesserung mehr einstellt. Dann geht es zur Berechnung der
Bootstrap-Werte über. Der Fortschritt wird durch Reihen von Punkten angezeigt. Jeder
Punkt entspricht einem berechneten Bootstrap-Baum.
12. Nachdem PHYML fertig gerechnet hat, können wir den optimalen Stammbaum mit Bootstrap-Werten (*.phy_phyml_tree) mit FigTree öffnen und anschauen. Die Likelihood des
optimalen Baums findet sich in der Datei *.phy_phyml_lk, für uns relativ uninteressante
Angaben zu den einzelnen Bootstrap-Bäumen unter *.phy_phyml_boot_stats und
*.phy_phyml_boot_trees, sowie die für das Protokoll wichtigen Angaben zur Analyse unter *.phy_phyml_stat.
Bootstrap-Analyse unter Maximum Likelihood mit raxmlGUI
Die Zuverlässigkeit von ML-Rekonstruktionen hängt unter anderem davon ab, wie gut das ausgewählte Substitutionsmodell auf den analysierten Datensatz passt. Neben dem Einzelgendatensatz sollen Sie im Kurs auch Datensätze von zwei unabhängigen Genloci gemeinsam untersuchen. Es ist recht unwahrscheinlich, dass diese beiden Loci demselben Substitutionsmodell
folgen. Unter PHYML kann man aber nur ein globales Substitutionsmodell für den ganzen Datensatz definieren. In den vergangenen Jahren sind eine Reihe weiterer, sehr schneller Algorithmen zur Berechnung von ML-Bäumen publiziert worden. RAxML (Randomized Axelerated
Maximum Likelihood) berücksichtigt für verschiedene Genloci (Teildatensätze) in einem Datensatz unabhängige Modelle. RAxML erlaubt für DNA-Sequenzen nur die Verwendung des GTRModells mit positionsspezifischen Raten. Einen Anteil invariabler Positionen kann das Modell
ebenfalls berücksichtigen. Die Parameter dieses Modells (z. B. Tranversions-, Transitionsraten,
Nukleotidfrequenzen) werden für jede Partition des Datensatzes gesondert berechnet. Im Unterschied zu PHYML berechnet RAxML Bootstrap-Werte separat vom ML-Baum und zeigt als
Ergebnis nicht einen Konsensusbaum sondern den optimalen Baum mit Bootstrapwerten an.
Genau wie PHYML verwendet RAxML Daten im Phylip-Format. Wir wollen im Kurs vergleichen,
ob beide Programme zu ähnlichen Ergebnissen kommen.
1. Kopieren Sie das Alignment (Phylip-Format) aus der PHYML-Analyse in einen neuen
Ordner, in dem Sie auch die Ergebnisse der RAxML-Analyse abspeichern werden.
2. Starten Sie das Programm raxmlGUI durch Doppelklick auf die Datei „raxmlGUI.py“.
3. Lesen Sie das Alignment ein, indem Sie auf „Alignment file“ klicken.
4. Es öffnet sich ein Fenster mit der Überschrift „Open alignment file“. Gehen Sie in den
entsprechenden Ordner, markieren Sie das Alignment des Multigen-Datensatzes und klicken Sie auf >Öffnen. Im großen Fenster erscheint Ihre Phylip-Datei. Der Name dieser
Datei erscheint im kleinen Fenster neben „Add alignment“.
5. Falls die Datei identische Sequenzen oder irrtümlich Positionen enthält, die nur aus gaps
bestehen, erscheint eine entsprechende Warnung. Sie könnten „doppelte“ Sequenzen
und diese Alignmentpositionen eliminieren, indem Sie nun >yes oder >ja drücken. In unserem Falle wollen wir jedoch alle Sequenzen verwenden und drücken stattdessen ggf.
50
>no oder >nein. raxmlGUI erkennt eigenständig, ob der Datensatz aus DNA- oder Proteinsequenzdaten besteht.
6. Unter >Options>Set/Edit Partitions... können Sie nun die verschiedenen Datenpartitionen in ihrem Datensatz beschreiben. Es öffnet sich ein Fenster „Set partitions“.
7. In diesem Fenster können Sie für jede Partition Angaben machen. Wenn Sie >DNA oben
links klicken, können Sie z. B. die Art der Daten ändern. „BIN“ steht dabei für binäre Daten (0,1), „MULTI“ für multistate characters (z. B. blau, rot, grün). und „AA“ für Aminosäuresequenzen. Multistate Merkmale müssen für RAxML in der Datei als maximal 32 mögliche Merkmalszustände codiert werden [0–9, A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P,
Q, R, S, T, U, V]. Wir ändern die Einstellung „DNA“ nicht und tragen für die erste Partition
einen Namen ein, z. B. „ITS“.
8. Den Beginn der Partition können Sie nicht verändern. Er ergibt sich jeweils aus dem Ende der vorhergehenden Partition. fügen Sie in das Feld ganz recht die letzte Position der
ersten Datenpartition ein.
9. Wenn Sie auf den Knopf „no codon“ klicken, können Sie festlegen, ob zur ersten Partition
alle Nukleotidpositionen („no codon“) gehören sollen. Bei protein codierenden Sequenzen variieren die Substitutionsraten und -modelle an der 1., 2. und 3. Codonposition
oft erheblich. Hier legt man gerne codonspezifi10. sche („codon specific“) Modelle fest, oder untersucht nur die 3. Codonpositionen („3rd
codon“). Entscheiden Sie, was in Ihrem Fall zutrifft.
11. Drücken Sie dann den Knopf „Add“ unten links. Im großen Fenster erscheint eine Zeile,
die die erste von Ihnen definierte Partition beschreibt. Wiederholen Sie die Schritte 8–10
so lange, bis sie alle Positionen des Datensatzes einer Genpartition zugeordnet haben.
Es erscheint ein Fenster mit der Meldung „All characters have been assigned to partitions. Set partitions for the analysis?“ Wenn alles ok ist, drücken Sie “OK“, ansonsten
„Abbrechen“.
12. Sie können dann unten rechts >Options>Edit partitions anwählen und Veränderungen
direkt in das Textfeld mit den Partitionen schreiben. Durch >Set speichern Sie die Partitionen.
13. Nachdem alle Partitionen definiert worden sind, erscheint in der Menüzeile unter „Run
RAxML“ ein Kästchen namens „per-partition brL“. Wenn man diese Option wählt, werden
Bäume mit Astlängen separat für jede Partition berechnet. Die Topologie dieser Bäume
ist identisch, die Astlängen werden aber für jede Partition optimiert.
14. In der untersten Menüzeile sehen Sie die Anzeige „ML + rapid bootstrap“. Sie können
hier wählen, ob sie nur eine ML-Analyse, oder eine ML und eine Bootstrap-Analyse
gründlich („thorough“) oder schnell („rapid“) durchführen wollen. Lassen Sie die Einstellung unverändert.
15. Auch die Zahl der Bootstrap-Replikate („100“) verändern wir nicht.
16. Zuletzt können Sie das Substitutionsmodell auswählen. Im Grunde gibt es nur die Auswahl zwischen dem GTRGAMMA-Modell mit oder ohne invariable Positionen
(GTRGAMMAI). Die Modelle GTRCAT und GTRCATI ermöglichen eine schnellere Berechnung, sind aber vergleichsweise ungenau. Die Bäume ließen sich dann nicht mit den
von PHYML berechneten vergleichen.
17. Drücken Sie nun oben rechts „Run RAxML“. Es öffnet sich ein DOS-Fenster, in dem der
Fortschritt der Analyse abzulesen ist.
51
18. RAxML erzeugt eine Reihe von Output-Dateien. Die für uns wichtige Dateien zeigen den
ML-Baum mit Astlängen und Bootstrap-Werten und heißen „RAxML_bipartitions..tre“ und
„RAxML_bestTree..tre“. Wenn man „per-partition brL“ gewählt hat, wird zusätzlich zu dieser Datei pro Partition je ein Baum mit den jeweiligen Astlängen ausgegeben. Die entsprechenden Dateien tragen den Anhang „PARTITION.0“, „PARTITION.1“, usw.
19. Bearbeiten Sie zuletzt den ML-Baum in FigTree und speichern ihn als Graphik ab.
Bayessche Analyse phylogenetischer Datensätze
Die Bayessche Methode ist in der molekularen Systematik aus mehreren Gründen sehr populär
geworden.
-
-
Obwohl hunderttausende oder Millionen von Bäumen berechnet werden, ist die Methode
extrem schnell.
Alle Methoden, die nur nach einem Baum suchen, versagen unter bestimmten Bedingungen.
Ob diese Bedingungen gegeben sind, kann man nicht immer wissen. Deshalb bleibt eine
gewisse Unsicherheit, ob der gefundene optimale Baum auch wirklich der wahre Baum ist.
Bootstrap-Analysen unter ML sind zeitaufwändig. Die Bayessche Analyse berechnet den
Baum und die Wahrscheinlichkeit einzelner Parameter in einem Arbeitsgang.
Damit lässt sich auch die Wahrscheinlichkeit bestimmter Baumtopologien leicht vergleichen.
Die ersten Bäume, die das Programm sammelt, liegen wahrscheinlich weit von den Regionen
hoher Likelihood entfernt. Deshalb verwirft man bei Bayesschen Analysen die ersten 10.000 bis
100.000 Schritte als sogenannte „Burnin“ Phase. Außerdem kann die Likelihood-Landschaft
mehrere Hügel aufweisen. Eine einzige Markov-Kette könnte sich auf einem suboptimalen „Nebenhügel“ festsetzen, von dem sie auch in vielen Schritten nicht mehr herunterkommt. Deshalb
lässt man meist mehrere Markov-Ketten gleichzeitig laufen, die von verschiedenen Zufallsbäumen ausgehen. Das erhöht die Chance, dass die Analyse im optimalen Bereich der LikelihoodOberfläche konvergiert.
1. Kopieren Sie den NEXUS-file in den Ordner, in dem sich MrBayes befindet.
2. Öffnen Sie den NEXUS-file mit einem Text-Editor oder in PAUP (stoppen Sie dann die
Berechnung und gehen Sie in die Ansicht des NEXUS-files).
3. Löschen Sie den Text zwischen „#NEXUS“ und „begin data;“. Die ersten 3 Zeilen der Datei lauten jetzt:
#NEXUS
begin data;
4. Ergänzen Sie in der 2. Zeile des Datenblocks „interleaved“ mit „=yes“.
5. Gehen Sie zum Ende der Datei und ersetzen Sie die Zeile „begin paup;“ durch „begin mrbayes;“
6. Im MrBayes-Block werden genau wie im PAUP-Block die Parameter der Analyse festgelegt. Das Substitutionsmodell muss ebenfalls festgelegt werden, allerdings bleiben die
52
einzelnen Parameter variabel. Wir übernehmen das mit Modeltest errechnete Modell,
lassen aber Angaben zu Nukleotidfrequenz, Gamma-shape Parameter α oder dem Anteil
invariabler Sites weg. Diese Parameter des Modells werden im Laufe der Markov-Kette
variiert.
set autoclose=yes;
lset nst=[Wert] rates=[equal/gamma/invgamma];
mcmc ngen=100000 printfreq=100 samplefreq=100 nchains=4
savebrlens=yes;
END;
Die erste Zeile bestimmt, dass das Programm die Analyse nach dem letzten Baum abschließt. Unter „lset“ wird wieder das Modell festgelegt (ohne, dass die Parameter fixiert
werden). „Nst“ ist die Zahl der verschiedenen Substitutionsraten [Werte 1, 2 oder 6] „rates“ legt fest, ob die Substitutionsratekonstant sein soll oder einer Gamma-Verteilung mit
oder ohne invariable Sites folgt. Unter „mcmc“ wird der Suchlauf näher bestimmt. „Ngen“
= Zahl der Generationen (Schritte) der Markov-Kette, „printfreq=100“ = die LikelihoodWerte jedes 100. Schritts der Markov-Ketten werden auf dem Bildschirm angezeigt;
„samplefreq=100“ = jeder 100. Baum wird gesammelt; „nchains=4“ = vier parallel laufenden Markov-Ketten.
7. Speichern Sie den NEXUS-file im Ordner „MrBayes“ auf dem Desktop.
8. Öffnen Sie den Ordner „MrBayes“ und starten Sie „MrBayes3_0b3.exe“ durch Doppelklick.
9. Eingabe: execute [Dateiname]
Das Programm beginnt mit der Analyse. Auf dem Bildschirm wird jeder 100. Schritt angezeigt. In der rechten Spalte sehen Sie, wie viele Sekunden das Programm voraussichtlich noch rechnen wird.
10. Nachdem das Programm die Berechnung beendet hat, kann man die Ergebnisse anzeigen lassen. Als Ergebnis würden wir uns jetzt gerne den Konsensus-Baum mit Astlängen
und den A-posteriori-Wahrscheinlichkeiten der einzelnen Clades ansehen. Wir müssen
bei der Anzeige der Ergebnisse aber die „Burnin“-Phase berücksichtigen und die ersten
gesammelten Bäume verwerfen. Dazu lassen wir uns zuerst die Wahrscheinlichkeiten aller Parameter des Modells (Mittelwerte, Varianzen und 95 %-Vertrauensintervalle) und
einen Graph der Likelihood-Werte anzeigen.
Eingabe: sump filename=[Dateiname.p]
Anhand des Graphen können wir abschätzen, nach wievielen Generationen der MarkovKette die Likelihood-Werte ein stabiles Plateau erreicht haben. Die entsprechende Anzahl gesammelter Bäume (nicht Generationen!) ziehen wir als Burnin-Phase nicht in Betracht. Je nach Substitutionsmodell gibt das Programm die wahrscheinlichsten Werte für
folgenden Parameter an: Baumlänge TL, verschiedene Substitutionsraten (r…), Nukleotidfrequenzen (pi…), Gamma Shape-Parameter (alpha), Anteil invariabler Positionen
(pinvar).
11. Zur Auswertung des Baumes geben wir jetzt ein:
sumt filename=[Dateiname.t] burnin=[Zahl zu verwerfender Bäume]
Als output erhalten wir zuletzt eine Liste der Arten und der Häufigkeit verschiedener
Gruppierungen, einen Baum mit A-posteriori-Wahrscheinlichkeiten, einen Baum mit Ast-
53
längen und eine Tabelle mit „Credible sets of trees“. Alle diese Daten werden in neuen
Dateien namens [Dateiname].parts (Gruppierungen), [Dateiname].con (Bäume) und [Dateiname].trprobs gespeichert.
1. Die Datei [Dateiname].con lässt sich in FigTree zur besseren Ansicht öffnen, bearbeiten
und als Graphik speichern.
2. Falls Sie nach der Wahrscheinlichkeit eines bestimmten, nicht im Konsensus-Baum enthaltenen Clades suchen, können Sie [Dateiname].parts mit einem Texteditor öffnen.
3. Zuletzt sehen wir uns an, was unter einem „Credible set of trees“ verstanden wird. Kein
einzelner Baum wird normalerweise eine statistisch signifikante Wahrscheinlichkeit besitzen. In der Datei [Dateiname].trprobs finden Sie die Einzelwahrscheinlichkeiten (p) und
kumulativen Wahrscheinlichkeiten (P) aller errechneten Bäume. Anhand der kumulativen
Wahrscheinlichkeit können Sie die Bäume heraussuchen, die gemeinsam eine signifikante Wahrscheinlichkeit besitzen. Den Schwellenwert der Signifikanz können Sie selber
festlegen; in der Statistik üblich sind 95 % 99 % oder 99,9 %. Statt aufgrund eines Konsensus-Baums können Sie Ihre Daten auch auf der Grundlage eines solchen Sets möglicher Bäume durchführen.
Auch die Bayes’sche Analyse sollen Sie mit dem Multigen-Datensatz durchführen und die Ergebnisse mit denen der Einzelanalyse vergleichen. Wie Sie schon gehört haben sollte man dabei nicht dasselbe Substitutionsmodell für den gesamten Datensatz verwenden, sondern für
jedes Gen das jeweils optimale Modell. MrBayes erlaubt es, einzelne Teildatensätze zu definieren und für jede ein optimales Modell zu benutzen.
Aufgabe 20: Berechnen Sie zunächst mit MTGui das optimale Substitutionsmodell für den
zweite Genlocus.
Vor der Analyse muss nun der Befehlsblock für MrBayes ein wenig verändert werden. Man
muss die Genpartitionen voneinander abgrenzen und MrBayes sagen, welche Substitutionsmodelle verwendet werden sollen.
1. Öffnen Sie den Nexus-file des Multigen-Datensatzes in einem Texteditor oder PAUP
(und gehen Sie dort in die Textansicht).
2. Kopieren Sie den MrBayes-Block aus der ersten Analyse, von „Begin MrBayes;“ bis zu
„end;“ ans Ende der Datei.
3. Ihr MrBayes-Block sieht ungefähr so aus:
begin mrbayes;
set autoclose=yes;
lset nst=[Wert] rates=[equal/gamma/invgamma];
mcmc ngen=100000 printfreq=100 samplefreq=100 nchains=4
savebrlens=yes;
END;
54
4. Definieren Sie als erstes die Teildatensätze atpB-rbcL und matK in ihrem GesamtDatensatz. Fügen Sie nach „set autoclose=yes;“ für jeden Teildatensatz jeweils eine Zeile mit dem Befehl „charset“, einem Namen und den von Ihnen notierten Alignmentpositionen der einzelnen Gene ein, z. B.:
charset atb-rbcL = 1-xxx;
charset matK = xxx-yyy;
5. Definieren Sie nun, welche Teildatensätze für die Analyse in einer sogenannten Partition
kombiniert werden sollen. Hier können Sie bei der Untersuchung von vielen Genen mehrere Kombinationen definieren. Wir analysieren im Kurs aber nur zwei Gene, so dass Sie
hier keine Auswahl haben. Der Befehl gibt der Partition zuerst einen Namen, sagt dann
aus wie vielen Einzeldatensätzen die Partition zusammengesetzt ist und listet dann die
entsprechenden Datensätze aus der Liste mit „Character Sets“ auf:
partition rbcLmatK= 2:atpB-rbcL, matK;
6. Sagen Sie dem Programm nun, welche Partition es analysieren soll:
set partition=rbcLmatK;
7. Das Substitutionsmodell wird in MrBayes durch den Befehl „lset“ und die darauf folgenden Angaben festgelegt. Da wir zwei Gene analysieren, müssen wir in separaten Zeilen
auch zwei Modelle angeben. Die optimalen Substitutionsmodelle sind bereits vorher berechnet worden. Fügen Sie für jedes Gen eine Zeile ein:
Lset applyto=(1) nst=[Wert] rates=[Wert];
Lset applyto=(2) nst=[Wert] rates=[Wert];
8. Eigentlich ist damit alles klar für die Analyse. Allerdings sind die Substitutionsmodelle in
MrBayes nicht vollständig festgelegt. Das grundlegende Modell steht zwar für jeden Teildatensatz fest, aber die Werte einzelner Parameter (z. B. der Transitionsrate oder des
Formparameters alpha für die Gamma-Funktion) werden erst im Laufe der Analyse optimiert. Wenn für mehrere Gene Modelle mit gleichen Parametern (z. B. zwei Modelle mit
Gamma-Verteilung) definiert wurden, versucht MrBayes einen einzigen Wert für den entsprechenden Parameter zu finden, der dann für beide Gene gilt. Wenn man das nicht will
(und wer will das schon), muss man die entsprechenden Parameter entkoppeln. Erst
dann berechnet MrBayes den entsprechenden Parameter für alle Teildatensätze getrennt. Der Befehl dazu lautet:
unlink [Parameter]=(all);
In unserem Falle wollen wir den Formparameter alpha, den Anteil invariabler Positionen,
die Nukleotidfrequenzen und die Substitutionsraten des Modells getrennt optimieren und
geben dafür die folgenden Zeilen ein:
unlink
unlink
unlink
unlink
shape=(all);
pinvar=(all);
statefreq=(all);
revmat=(all);
9. Speichern Sie nun den Datensatz im MrBayes-Ordner und starten die Analyse mit den
bekannten Befehlen.
10. Bearbeiten Sie zuletzt den Konsensus-Baum in FigTree und speichern ihn unter erkennbarem Namen ab.
55
Die molekulare Uhr
Oft ist man nicht nur an den Verwandtschaftsverhältnissen der untersuchten Arten interessiert,
sondern hat weitergehende Fragen, die man aufgrund des Stammbaumes beantworten möchte.
Eine typische Frage bei systematischen Arbeiten lautet z. B.: Wann haben sich verschiedene
Arten einer Gattung oder Gattungen einer Familie voneinander abgespalten? Mit solchen Daten
kann man oft biogeografische Fragen, etwa zur Besiedlung von Inselgruppen, beantworten oder
Aussagen zu Mechanismen der Evolution treffen.
Zuckerkandl und Pauling (1965) vermuteten, dass Substitutionen mit konstanter Rate in das
Genom eingebaut werden, weil sie beobachteten, dass die genetischen Unterschiede zwischen
Aminosäuresequenzen verschiedener Wirbeltierarten mehr oder weniger linear mit dem Grad
ihrer Verwandtschaft abnahmen. Diese Hypothese konstanter Substitutionsraten ist die Grundlage der sogenannten „Theorie der moleklaren Uhr“, die wiederum die Grundlage aller datierten
Phylogenien darstellt. Die Idee, dass Aminosäure- oder DNA-Sequenzen Mutationen mit konstanter Rate akkumulieren, wurde auch in die „neutrale Evoutionstheorie“ (Kimura 1968, 1983)
übernommen, in der die molekulare Evolution als Zufallsprozess nur von der Zeit und von keinem anderen Faktor abhängt.
Wenn die Hypothese der molekularen Uhr stimmt, erwarten wir, dass die genetische Distanz
zwischen Taxa streng proportional zur Zeit ist, die vergangen ist, seit die Taxa unabhängig voneinander evolvieren, d.h. seit sie sich von ihrem letzten gemeinsamen Vorfahren abgetrennt
haben. In dem Baum unten sind die Aufspaltungszeiten zwischen Taxa A und O und zwischen
Taxa B und O genau gleich. Also würden wir erwarten, dass auch die genetischen Distanzen
dAO und dBO gleich sind.
In Ihrer ersten Studie zur molekularen Uhr untersuchten Zuckerkandl und Pauling (1965) αHaemoglobin- Sequenzen von Hai, Karpfen, Molch, Huhn, Ameisenigel, Känguruh, Hund und
Mensch. Nach der molekularen Phylogenie und auch nach dem paläontologischen Befund stellt
der Hai die Außengruppe zu allen anderen Taxa dar.
56
Demnach sollten die genetischen Distanzen zwischen Hai und den übrigen Taxa gleich sein.
Auf der Grundlage dieses Baumes sollten wir auch erwarten, dass die genetischen Distanzen
zwischen Mensch und allen anderen Taxa ansteigen, je weitläufiger diese Taxa mit uns verwandt sind. In der Tabelle sehen wir tatsächlich vergleichbare Distanzwerte innerhalb der Reihen und sinkende Distanzen in jeder Spalte.
Aufgabe 21: Erklären Sie ihren Kommilitonen, wieso dieser Befund die Hypothese von der molekularen Uhr unterstützt.
Nach der Theorie der molekularen Uhr kann man Phylogenien berechnen, bei denen Astlängen
proportional zur Zeit sind und der Abstand eines Knotens von den Spitzen des Baumes die Zeit
zum letzten gemeinsamen Vorfahren an diesem Knoten repräsentiert. Wenn man einen solchen
Baum berechnet, reicht es aus, das Alter eines einzigen Knotens (Vorfahrens) zu kennen, um
alle Knoten im Stammbaum datieren zu können. Auf diese Weise werden also Astlängen nicht
wie bei ML oder Bayesschen Analysen als erwartete Anzahl von Substitutionsraten sondern als
Aufspaltungszeiten (meist in Millionen Jahren) gesehen. Bei einer normalen Stammbaumberechnung mit ML nimmt man nicht an, dass die Substitutionsrate im Laufe der Evolution oder
bei allen untersuchten Taxa konstant war. Das Programm passt die Astlängen des Baumes so
an, dass bei gegebenem Substitutionsmodell die Likelihood-Funktion optimiert wird. Das drückt
sich im Stammbaum dann dadurch aus, dass die verschiedenen Taxa unterschiedlich weit von
57
der Wurzel des Baumes entfernt liegen. Im einfachsten Fall kann man datierte Phylogenien dadurch berechnen, dass man das Programm zwingt, konstante Substitutionsraten anzunehmen.
Es berechnet dann die optimale Baumtopologie, bei der die Astlängen so verteilt sind, dass alle
Taxa gleich weit von der Wurzel entfernt landen.
Relaxierte molekulare Uhren
Obwohl die Theorie der molekularen Uhr interessante und in vielen Fällen realistische Ergebnisse erbrachte, zeigten andere Studien, dass die Annahme einer molekularen Uhr in vielen
Fällen eine zu starke Vereinfachung ist. Das sieht man z. B. dann, wenn der optimale Stammbaum unter Annahme der Uhr eine wesentlich schlechtere Likelihood hat als der beste Baum
ohne diese Einschränkung. Viele Mutationen sind eben nicht selektiv neutral (z. B. solche, die
zu Aminosäure-Austausch in wichtigen Bereichen der Proteinsequenz führen). Auch können
Substitutionsraten zwischen verschiedenen Taxa (etwa aufgrund unterschiedlicher Generationszeiten) ergeblich variieren. Seit den späten 90er Jahren sind deshalb verschiedenste Evolutionsmodelle vorgeschlagen worden, die die Annahme strikt konstanter Raten lockern. Diese
Modelle werden als „relaxierte molekulare Uhren“ bezeichnet, um von der „strikten“ Uhr zu unterscheiden. Diese Modelle erlauben es, Knoten zu datieren, während gleichzeitig die Substitutionsrate auf verschiedenen Ästen des Stammbaums variieren kann. Die kompliziertesten Modelle können jedem einzelnen Ast eine eigene Substitutionsrate zuweisen.
Eines der am weitesten verbreiteten Modelle ist die sogenannte „uncorrelated log-normal (ULN)
relaxed molecular clock“, die im Computerprogramm BEAST implementiert ist. Die Art und Weise, wie Substitutionsraten den Ästen zugewiesen werden, ähnelt ein wenig der Art, in der positionsspezifische Substitution ausgewählt werden. Bei einer Bayesschen Baumsuche werden
verschiedene Raten zufällig aus einer logarithmischen Normalverteilung (s. Abb. unten) gezogen und jedem Ast des Baumes zugewiesen. Das Sammeln von Bäumen erledigen bei BEAST
genau wie bei MrBayes Markovketten, die gleichzeitig auch die Baumtopologie und Astlängen
variieren.
Aufgabe 22: Erinnern Sie sich noch, aus welcher Verteilung positionsspezifische Substitutionsraten gezogen wurden? Woher kommt das „Γ“ in Bezeichnungen wie GTR+Γ+I?
Kalibrierung der molekularen Uhr
Eine solche Phylogenie alleine hilft einem natürlich wenig, wenn man den Knoten nicht tatsächliche Altersangaben (in Millionen Jahren) zuordnen kann. Mit Hilfe geologischer oder paläontologischer Daten kann man den Baum aber nachträglich kalibrieren. Ein datiertes Fossil kann
man z. B. dann benutzen, wenn es wenigstens eine Synapomorphie zeigt, die typisch für einen
Clade des Baumes ist. Man deutet das als Beleg dafür, dass der entsprechende Clade zur Le58
bens- (oder besser Todes-)zeit des Fossils bereits existierte, und kann das Alter des Fossils als
Minimalalter für den entsprechenden Ast verwenden. Geologische Ereignisse, z. B. die Entstehung vulkanischer Inseln, die Anhebung von Gebirgsketten oder plattentektonische Aufspaltung
von Arealen, werden ebenfalls zur Kalibrierung verwendet. Das Alter von Inseln für die Datierung endemischer Taxa zu verwenden, kann allerdings zu Fehlern führen. Das Taxon könnte
sich bereits differenziert haben, lange bevor es die Insel kolonisiert hat, oder es könnte die Insel
lange nach ihrer Entstehung besiedelt haben.
Die allermeisten molekularen Uhren werden mit Bayesschen Verfahren berechnet. Ein Grund
dafür ist die Möglichkeit, das Alter von Knoten als A-priori-Information in die Berechnung einfließen zu lassen. Hier kann man also die nicht-informative A-priori-Wahrscheinlichkeit von
Bäumen durch eine informative ersetzen, indem man das Alter bestimmter Knoten durch Apriori-Verteilungen bestimmter Form beschränkt. In der Abbildung sehen Sie einige mögliche
Verteilungen, um das Alter eines Knotens zu beschränken.
Eine uniforme Verteilung mit Ober- und Untergrenze kann man wählen, wenn man für ein Fossil
ein Minimal- und ein Höchstalter angeben kann. Die Normalverteilung bietet sich für biogeografische Daten an, die logarithmische Normalverteilung und die Exponentialverteilung für Fossildaten mit einem Minimalalter. Knoten, für die man keine fossilen (oder anderen) Daten besitzt,
erhalten auch eine nicht-informative A-priori-Wahrscheinlichkeit, d. h. ihr Alter wird nach oben
und unten nicht beschränkt.
Die folgende Analyse erfordert den Einsatz mehrerer Programme. Neben BEAST werden
BEAUti, der “TreeAnnotator” aus dem BEAST-Paket, Tracer und FigTree benötigt. Zunächst
erstellen wir mit BEAUti einen Input-file für BEAST.
1. Öffnen Sie BEAUti und laden Sie den NEXUS-file durch Drücken von >+ links unten im
Fenster.
2. Wählen Sie >Taxon Sets, um die Knoten zu definieren, die kalibriert werden sollen. >+
erzeugt ein neues Taxon Set. Durch Anklicken des entsprechenden Feldes links können
Sie dieses Set für die folgende Analyse als monophyletisch definieren.
3. Unter >Site Model können Sie das Substitutionsmodell festlegen (z. B. HKY, GTR). Was
bedeuten die zusätzlichen Optionen in diesem Menü?
4. Unter >Clock Models kann man das Modell zur Berechnung der molekularen Uhr, z. B.
>Strict Clock oder >Relaxed Clock: Uncorrelated Lognormal (die empfohlene Option).
5. BEAST eignet sich auch für populationsgenetische Datensätze. Innerhalb von Populationen gelten andere mathematische Gesetze als bei Evolutionsprozessen zwischen Arten,
die keine Gene mehr miteinander austauschen. Unter dem >Trees müssen wir deshalb
ein statistisches Modell für die Verzweigung des Baums auswählen. Von den zwei Optionen wählen wir >Speciation: Yule Process. Diese Option berücksichtigt nur Artbildung, aber keine Aussterbeereignisse wie >Speciation: Birth-Death-Process.
59
6. Nun müssen die A-priori-Verteilungen für die ausgewählten Knoten unter >Priors festgelegt werden. Mit >tmrca([name_of_taxonset]) legt man den Prior des letzten gemeinsamen Vorfahren (most recent common ancestor) des gewählten Taxon-Sets fest. Anwählen von >* Using Tree Prior öffnet ein neues Fenster, in dem verschiedene Verteilungen gewählt und durch >OK bestätigt werden können. Die Details hängen von unserem Datensatz ab und werden im Kurs besprochen.
7. Falls es auch für das Alter der Wurzel eine Kalibrierung gibt, kann man diese analog unter >treeModel.rootHeight bestimmen.
8. Die Länge der Bayesschen Analyse kann man unter >MCMC festlegen. > Length of the
chain definiert die Zahl der Generationen, die die Markov-Ketten laufen (mindestens 10
Millionen für eine saubere Analyse). Mit >Log parameters every legt man fest, wie häufig die Kette Bäume (und Parameter) speichert. Das hängt von der Länge der Kette ab.
Bei 10 Millionen Generationen sollte man jeden 1000. Baum speichern.
9. Mit >File name stem können Sie zuletzt einen Namen für den Input file und die von BEAST erzeugten Output files bestimmen.
10. >Generate BEAST File erzeugt den Input file. Ein Fenster (ggf. mit Warnmeldungen)
öffnet sich. Nachdem alle Fragen geklärt sind, drücken Sie >Continue und wählen einen
Ordner, in dem die Datei abgelegt werden soll.
11. Öffnen Sie nun BEAST durch Doppelklick auf das entsprechende Symbol. Es öffnen sich
zwei Fenster.
12. >Choose File... öffnet ein weiteres Fenster. Laden Sie die soeben erzeugte Datei (mit
der Endung *.xml).
13. Ignorieren Sie die weiteren Optionen und starten Sie die Analyse durch >Run. Das vordere Fenster schließt sich. Im hinteren sehen Sie ähnlich wie bei MrBayes den Fortschritt
der Analyse.
14. Sobald die Analyse beendet ist, erscheinen eine Anzahl von statistischen Angaben zum
Verlauf der Analyse im Fenster. Außerdem werden Vorschläge gemacht, welche Parameter zur Verbesserung der Analyse in BEAUti verändert werden sollten.
15. Das Programm erzeugt außerdem 2 Dateien mit den Endungen *.trees und *.log. In der
ersten finden Sie die gesammelten Phylogenien, in der zweiten alle übrigen während der
Analyse gesammelten Parameter.
16. Zuletzt müssen die Ergebnisse der Analyse zusammen gefasst und ein Konsensu-Baum
berechnet werden. Öffnen Sie dafür TreeAnnotator.
17. Die Anzahl der Generationen, die als “Burnin” verworfen werden können in >Burnin eingetragen werden.
18. Wählen Sie >Choose File..., um den von BEAST erzeugten Input Tree File (*.trees) und
einen Namen für den Output File zu wählen. Beide Male öffnet sich ein Fenster. Beim Input File müssen eine Datei wählen. Beim Output File geben Sie einfach einen Namen an.
Eine entsprechende Datei wird dann von TreeAnnotator erzeugt.
19. >Run startet die Berechnung. TreeAnnotator erzeugt einen Baum, der in FigTree geöffnet werden kann und der das Alter der Knoten mit Fehlerbalken (95% Konfidenzintervalle) und die A-posteriori Wahrscheinlichkeiten für jeden Knoten enthält.
60
Lehrbücher, weiterführende Literatur
Darwin, C. 1859. On the origin of species by means of natural selection, or the preservation of favoured races in
the struggle for life. London: John Murray.
Felsenstein, J. 2004. Inferring phylogenies. Sunderland, MA, Sinauer. [die Bibel der phylogenetischen Methoden,
verfasst vom Papst höchstpersönlich]
Haeckel, E. 1866. Generelle Morphologie der Organismen. Allgemeine Grundzüge der organischen FormenWissenschaft. Berlin: Georg Reimer.
Knoop, V., Müller, K. 2006. Gene und Stammbäume. Ein Handbuch zur molekularen Phylogenetik. Heidelberg,
Elsevier, Spektrum Akademischer Verlag. [auch nicht schlecht und auf Deutsch]
Mendel, J.G. 1866. Versuche über Pflanzen-Hybriden. Verhandlungen des naturforschenden Vereines in Brünn 4:
3–47.
Sober, E. 2008. Evidence and Evolution. The logic behind the science. Cambridge University Press. [eine kurze
Philosophie der Evolutionstheorie und gleichzeitig eine wunderbar intuitive Einführung in Likelihood, Bayesianismus und andere statistische Methoden; rechnet logisch stringent mit dem Kreationismus ab]
Sokal, R. R. & Rohlf F. J. 1995. Biometry. The principles and practice of statistics in biological research. 3rd ed.
New York, Freeman & Co. [sehr anschauliche Einführung in die für Biologen wichtigsten statistischen Methoden]
Zar, J. H. 1999. Biostatistical analysis. 4th ed. Upper Saddle River, NJ, Prentice Hall. [für Biologen, die es ganz
genau wissen wollen; eher als Nachschlagewerk zu verwenden]
Zhu, L. & Gigerenzer G. 2006. Children can solve Bayesian problems: the role of representation in mental computation. Cognition 98: 287-308.
Labormethoden, DNA
Avery, O.T., Macleod C.M. & Mccarty , M. 1944. Studies on the chemical nature of the substance inducing transformation of pneumococcal types. Induction of transformation by a desoxyribonucleic acid fraction isolated
from pneumococcus type iii. Journal of Experimental Medicine 79: 137–158.
Barfuss, M. H. J., Samuel, R., Till, W. & Stuessy, T. F. 2005. Phylogenetic relationships in subfamily Tillandsioideae (Bromeliaceae) based on DNA sequence data from seven plastid regions. American Journal of Botany 92(2): 337-351.
Chargaff, E. 1951 Some recent studies on the composition and structure of nucleic acids. Journal of Cellular and
Comparative Physiology 38: 41–59
Doyle, J.J. & Doyle, J.L. 1987. A rapid DNA isolation procedure for small quantities of fresh leaf tissue. Phytochem.
Bull. 19: 11-15.
Manen, J.-F., Natali, A. & Ehrendorfer, F. 1994. Phylogeny of the Rubiaceae-Rubieae inferred from the sequence
of a cpDNA intergene region. Plant Systematics and Evolution 190: 195-211.
Miescher, F. 1874. Die Spermatozoen einiger Wirbelthiere. Ein Beitrag zur Histochemie. Verhandlungen der Naturforschenden Gesellschaft Basel 6: 138–208.
Mülhardt, C. 2009. Der Experimentator: Molekularbiologie/Genomics. Spektrum Akademischer Verlag, Heidelberg.
Mullis, K. 1986. Specific enzymatic amplification of DNA in vitro: The polymerase chain reaction. Cold Spring Harbor Symposia on Quantitative Biology. Cold Spring Harbor Lab 51: 263–273.
Mullis, K. & Faloona, F. 1987. Specific synthesis of DNA in vitro via a polymerase-catalyzed chain reaction. Methods in Enzymology 155: 335–350.
Reinhard, T. 2010. Molekularbiologische Methoden. Eugen Ulmer Verlag, Stuttgart.
Sanger, F., Nicklen, S. & Coulson, A.R. 1977. DNA sequencing with chain-terminating inhibitors. Proceedings of
the National Academy of Sciences USA 74: 5463–5467.
61
Watson, J.D. & Crick, F. 1953. A structure for deoxyribose nucleic acid. Nature 171: 737–738.
Wu, R. & Kaiser, A.D. 1968. Structure and base sequence in the cohesive ends of bacteriophage lambda DNA.
Journal of Molecular Biology 35: 523-537.
Analysemethoden
Zuckerkandl, E. & Pauling, L. 1962. Molecular disease, evolution, and genetic heterogeneity. In: Kasha, M. & Pullman, B. (eds.). Horizons in Biochemistry. New York: Academic Press, pp. 189–225.
Zuckerkandl, E. & Pauling, L. 1965. Evolutionary divergence and convergence in proteins. In: Bryson, V. & Vogel,
H.J. (eds). Evolving genes and proteins. New York: Academic Press, pp 97–166.
Michener, C.D. & Sokal, R.R. 1957. A quantitative approach to a problem in classification. Evolution 11: 130-162.
Edwards, A.W.F. & Cavalli-Sforza, L.L. 1963. The reconstruction of evolution. Heredity 18: 553.
Camin, J.H. & Sokal, R.R. 1965. A method for deducing branching sequences in phylogeny. Evolution 19: 311-326.
Jukes, T.H. & Cantor, C.R. 1969. Evolution of protein molecules. In: Munro, M.N. (ed.) Mammalian Protein Metabolism. Vol. 3. New York: Academic Press, pp. 21-132.
Fitch, W.M. 1971. Toward defining the course of evolution: Minimum change for a specified tree topology. Systematic Zoology 20: 406-416.
Cavalli-Sforza, L.L. & Edwards, A.W.F. 1967. Phylogenetic analysis: Models and estimation procedures. Evolution
21: 550-570.
Fitch, W.M. & Margoliash, E. 1967. Construction of phylogenetic trees. Science 155: 279-284.
Edwards, A.W.F. & Cavalli-Sforza, L.L. 1964. Reconstruction of evolutionary trees. N: Heywood, V.H. & McNeill, J.
(eds.) Phenetic and Phylogenetic Classification. London: Systematics Association Publ. 6, pp. 67-76.
Felsenstein, J. 1981. Evolutionary trees from DNA sequences: A maximum likelihood approach. Journal of Molecular Evolution 17: 368-376.
Saitou, N. & Nei, M. 1987. The neighbour-joining method: A new method for reconstructing phylogenetic trees.
Molecular Biology and Evolution 4: 406-425.
Yang, Z. & Rannala, B. 1997. Bayesian phylogenetic inference using DNA sequences: A Markov Chain Monte Carlo method. Molecular Biology and Evolution 14: 717-724.
62