Molekulare Systematik
Transcription
Molekulare Systematik
Skript zum Praktikumsteil Molekulare Systematik Christian Printzen, Daniele Silvestro, Heike Kappes, Carmen Jung „... any systematic attempt to construct ... natural relationships becomes the purest speculation, completely unsupported by any sort of evidence. ... the ultimate goal of biological classification can not be achieved in the case of bacteria.“ Stanier, Doudoroff & Adelberg, The microbial world, 2nd ed. (1964) „A revolution is occurring in bacterial taxonomy. ... molecular sequencing techniques permit a direct measurement of genealogical relationships. Fox et al., Science 209: 457–463 (1980) Einleitung: Rom ist nicht an einem Tag erbaut worden Seit dem Erscheinen von Darwins Hauptwerk „On the Origin of Species by Means of Natural Selection“ (Darwin 1859) klassifizieren Systematiker Organismen nicht mehr nur nach ihrer Ähnlichkeit, sondern versuchen, die natürlichen Verwandtschaftsbeziehungen zwischen ihnen aufzudecken. Den ersten Stammbaum des Lebens stellte 1866 Ernst Haeckel vor (Haeckel 1866). Bis zur Mitte des 20. Jahrhunderts basierten solche phylogenetischen Stammbäume praktisch nur auf morphologischen Merkmalen. Das funktionierte bei hoch entwickelten Organismen mit vielen Merkmalen gut, versagte aber regelmäßig bei systematischen Gruppen, die wenige oder fast gar keine sichtbaren und messbaren Merkmale hatte. Ernüchtert und frustriert waren besonders die Bakteriologen (Zitat 1 oben). In nur wenigen Jahren änderte sich diese Situation aber vollkommen. Molekulare Methoden haben die organismische Biologie revolutio- 1 niert (Zitat 2 oben) und erlauben es heute, Fragen zu stellen und Hypothesen zu überprüfen, die man bis in die 1970er Jahre für nicht zu beantworten hielt. Mittlerweile wissen wir, dass die Geschichte eines Organismus, von seinen evolutionären Wurzeln bis zu seiner familiären Vergangenheit, Spuren im Genom hinterlässt. Darwin und seine Zeitgenossen wussten aber nichts über die Mechanismen oder die stoffliche Grundlage der Vererbung. Von der Entdeckung der Entstehung von Arten durch natürliche Selektion und der Vererbungsgesetze bis zum Berechnen molekularer Stammbäume des Lebens war es ein weiter Weg. Gregor Mendels Arbeit zur Vererbung von Merkmalen wurde 1866 publiziert (Mendel 1866), aber erst über 30 Jahre später von der Fachwelt wahrgenommen. Der Schweizer Physiologe Friedrich Miescher hatte 1869 die Desoxyribonukleinsäure in Zellkernen von Eiterzellen entdeckt und auch bald vermutet, dass es sich dabei um die Substanz handeln könnte, die für die Vererbung von Merkmalen verantwortlich ist (Miescher 1874). Aber erst 75 Jahre später erbrachte Oswald Avery durch seine bahnbrechenden Versuche an Pneumokokken den Beweis für die Rolle der DNA als Erbsubstanz (Avery et al. 1944). Ihre chemische und physikalische Struktur wurde schließlich von Erwin Chargaff (1951), James Watson und Francis Crick (1953) aufgedeckt. Das erste Stück einer DNA-Sequenz (ganze 10 bp) wurde erst 15 Jahre später von Ray Wu und Dale Kaiser (1968) veröffentlicht. Für Taxonomen und Systematiker waren DNA-Sequenzinformationen vorerst nicht nutzbar. Das Entziffern einer DNA- oder Proteinsequenz war technisch ungeheuer aufwändig und deshalb viel zu kostspielig. Das änderte sich erst durch zwei Arbeiten, die die gesamte Biologie und damit auch die Systematik und Evolutionsforschung verändert haben. In der ersten Arbeit beschrieb der englische Biochemiker Frederic Sanger mit zwei Kollegen, wie man die Basenabfolge eines DNA-Moleküls mit einem relativ einfachen Verfahren bestimmen kann (Sanger et al. 1977). Die andere Arbeit wurde von den Zeitschriften Science und Nature abgelehnt (auch die irren sich manchmal!) und war deshalb zunächst nur in einem Symposiumsband erschienen. In ihr beschrieb der amerikanische Biochemiker Kary Mullis eine Methode zur Vermehrung von DNA im Reagenzglas, die Polymerase-Kettenreaktion (Mullis 1986, Mullis & Faloona 1987). Beide Methoden zusammen ermöglichten es nun auch Systematikern, relativ einfach und preiswert die Basenabfolge gezielt ausgewählter DNA-Abschnitte bei verschiedenen Arten zu ermitteln. Dass man mit Hilfe von Makromolekülen stammesgeschichtliche Verwandtschaftsverhältnisse aufklären könne, wurde Anfang der 1960er Jahre von Emil Zuckerkandl und Linus Pauling (1962) postuliert. Beide veröffentlichten etwas später auch den vermutlich ersten molekularen Stammbaum auf der Grundlage von Proteinsequenzen (Zuckerkandl & Pauling 1965). Die Entwicklung von statistischen Auswertungsmethoden, mit denen man Phylogenien rekonstruieren konnte, setzte ungefähr zeitgleich ein, zunächst noch ohne direkten Bezug zu molekularen Daten. Den Anfang machten Robert Michener und Sokal (1957) mit der ersten statistischen Methode zur Berechnung von Verwandtschaftsverhältnissen, damals noch auf der Basis von 2 „klassischen“ morphologischen Merkmalen. In den 1960er Jahren überschlugen sich die Ereignisse dann, hauptsächlich durch die Arbeiten von Anthony Edwards und Luca Cavalli-Sforza. 1963 stellten die beiden das Prinzip der „Minimum Evolution“ vor, das Joseph Camin und Robert Sokal (1965) unter dem Namen „Parsimonie-Verfahren“ bekannt machten und das sich durch die Arbeiten von Thomas Jukes und Charles Cantor (1969) und Walter Fitch (1971) schließlich auch auf molekulare Daten anwenden ließ. 1967 beschrieben sie eine Methode zur Stammbaumberechnung auf der Basis von genetischen Distanzen. Mit einer solchen Methode berechneten Walter Fitch und Emanuel Margoliash (1967) im selben Jahr eine Phylogenie der Wirbeltiere. Und schon 1964 hatten Edwards und Cavalli-Sforza über ein Verfahren zur Phylogenieberechnung mittels Maximum Likelihood nachgedacht, ein in der Statistik übliches Verfahren, um Modelle und Hypothesen zu vergleichen. Die Anwendung scheiterte aber daran, dass es keine Computer gab, die den erforderlichen Rechenaufwand bewältigen konnten. Während die grundlegenden Methoden der Stammbaumberechnung in nur acht Jahren entwickelt und publiziert wurden (viele mehrfach unabhängig voneinander), dauerte es dann 17 Jahre, bis Joseph Felsenstein (1981) schließlich ein praktikables Maximum-Likelihood-Verfahren für Stammbaumberechnungen einführte. Naruya Saitou und Masatoshi Nei entwickelten 1987 das auf genetischen Distanzen beruhende Neighbour Joining Verfahren. Als vorläufig letzte Methode, die sich weitgehend durchgesetzt hat, erschien die Bayes’sche Baumberechnung auf der Bildfläche (Yang & Rannala 1997). Dieses Praktikum versucht etwas ziemlich Anspruchsvolles: Ihnen in nur zwei Wochen die Datengewinnung im Labor und die Analyse der Sequenzdaten, wie sie heute in der Systematik allgemein üblich ist, zu vermitteln. Die im Kurs durchgenommenen Arbeitsschritte sind die gleichen, die bei der wissenschaftlichen Arbeit anfallen. Allerdings konzentrieren wir uns im Kurs auf die wesentlichen Analysemethoden: Parsimonie, Maximum Likelihood und Bayes’sche Stammbaumberechnung. Das Praktikum ist damit eine Art „Kochkurs“ für molekulare Systematik, und dieses Skript ist das Kochbuch. Es erläutert kurz zusammen gefasst die Hintergründe der Methoden (Fließtext und blaue Boxen), gibt in farbig hinterlegten Boxen genaue Anweisungen zu den Arbeitsschritten im Labor (gelb) und am Computer (rosa) und stellt Zwischenfragen (grün hinterlegt), die helfen sollen, das Gelesene durch Nachdenken zu vertiefen. Die Labormethoden zur Gewinnung von DNA-Sequenzen sind nicht besonders anspruchsvoll (selbst wenn viele Protokolle nicht gleich von Beginn an funktionieren). Die Verfahren zur Berechnung phylogenetischer Stammbäume sind dagegen etwas schwerer zu durchschauen. Wir versuchen zwar, die Hintergründe dieser Methoden anhand von Beispielen zu erklären und möglichst ohne mathematische Symbole auszukommen. Ganz ohne Statistik und (einfache) Mathematik geht das nicht. Weil wir wissen, dass diese Methoden nicht einfach zu verstehen sind, schreiben wir zur Zeit ein E-learning-Programm, das begleitend zum Kurs verwendet werden soll. Einige Lerneinheiten von „E-volution“ sind schon fertig gestellt und werden Ihnen zur Verfügung gestellt. 3 Kursziele 1) Nach dem ersten Kursteil sollen Sie in der Lage sein, ohne weitere Anleitung: a. Aus Pflanzen- oder Pilzmaterial DNA zu extrahieren, b. PCR-Reaktionen mit vorher ausgewählten Primern anzusetzen, c. PCR-Produkte auf Agarose-Gelen zu reinigen, 2) Nach dem zweiten Kursteil sollten Sie in Grundzügen mit folgenden Begriffen und Arbeitsverfahren vertraut sein. a. Editieren und Alignieren von Sequenzen b. Beschreibung phylogenetischer Bäume c. Berechnung phylogenetischer Bäume mittels Parsimonie, Maximum Likelihood und Bayes’scher Verfahren d. Berechungsmethoden für die statistische Unterstützung von Ästen eines Stammbaumes e. Datierung von Knoten auf einem phylogenetischen Stammbaum 3) Nach den Vorbesprechungen, eigener Lektüre und dem abschließenden Seminartag sollten Sie in der Lage sein, einfachere molekularsystematische Publikationen zu verstehen, Ihre eigenen Daten mit kritischen Augen zu betrachten und ein vollständiges und gut formuliertes Protokoll abzugeben. Aufgabe vor Beginn des Kurses: Lesen Sie dieses Skript (mit Ausnahme der gelb und rosa hinterlegten Passagen) gründlich durch. 4 DNA-Sequenzierung, eine kurze Übersicht DNA zu „sequenzieren“ bedeutet, die Reihenfolge der Nukleotid-Basen – die Basensequenz – eines DNA-Abschnitts zu ermitteln. Die für den Organismus wichtigen Informationen zur Synthese von Proteinen sind in Form von Basentripletts (Dreiergruppen von Nukleotidbasen) auf der DNA gespeichert. Daneben gibt es bei Eukaryoten eine große Menge nicht-codierender DNA, die scheinbar keinerlei Informationen trägt. DNA-Sequenzen werden in der Regel unverändert von einer Generation an die nächste weiter gegeben. Durch gelegentliche Fehler bei der DNA-Replikation (Mutationen) summieren sich aber doch im Laufe der Zeit SequenzUnterschiede zwischen den Organismen. Die für Systematiker wichtigen Informationen sind genau diese erblich fixierten Veränderungen (Substitutionen), die Sequenzen im Laufe der Evolutions- oder Populationsgeschichte durchmachen. Vereinfacht kann man sagen: Je näher zwei Organismen miteinander verwandt sind, desto ähnlicher sind sich ihre DNA-Sequenzen. Es geht in der molekularen Systematik also darum, anhand von DNA- (oder Protein-) Sequenzunterschieden die Evolutionsgeschichte der Organismen nachzuvollziehen. Dies ist ein Prozess, der viele Arbeitsschritte umfasst. Die folgende Zusammenfassung soll Ihnen die Übersicht erleichtern. 1) Der erste Schritt der DNA-Sequenzierung ist die Extraktion der DNA aus Gewebeproben. Die DNA muss aus den Zellen freigesetzt und alle anderen Zellbestandteile beseitigt werden. 2) Ein oder mehrere vorher bestimmte DNA-Abschnitte müssen in so großer Konzentration vorliegen, dass man ihre Basensequenz bestimmen kann. Die PolymeraseKettenreaktion (PCR) dient dazu, die ausgewählten DNA-Abschnitte zu vermehren. 3) Das Endprodukt der PCR-Reaktion dient als Ausgangsprodukt für die eigentliche Sequenzierreaktion. Bevor diese Reaktion gestartet werden kann, müssen durch Reinigung der PCR-Produkte alle im nächsten Schritt störenden Substanzen entfernt werden. 4) Das gereinigt PCR-Produkt wird in der Sequenzierreaktion einer weiteren PCR unterzogen. Diesmal verwendet man nur einen Primer, so dass es zu keiner Verdoppelung der DNA mehr kommt. Meist möchte man zur Sicherheit und zum Datenabgleich beide DNA-Stränge sequenzieren und setzt deshalb zwei oder mehr Reaktionen mit jeweils unterschiedlichen Primern an. 5) Im letzten Schritt wird das Produkt der Sequenzierreaktion in einem automatischen DNASequenzierer elektrophoretisch aufgetrennt, wobei mit Hilfe von Fluoreszenzmarkern die DNA-Sequenz bestimmt wird. 5 Datengewinnung: DNA-Sequenzierung Aufarbeitung des Pflanzenmaterials und DNA-Extraktion Frisch gesammeltes Pflanzenmaterial liefert die beste Ausbeute an DNA. Auch die Qualität (ausgedrückt im Molekulargewicht der DNA) ist bei Einsatz von Frischmaterial am höchsten. Im Alltag greift man aber oft auf konserviertes Material zurück (wer hat schon ein DNAExtraktionslabor auf Sammelreisen dabei). Am besten konserviert man die DNA von Pflanzen durch rasches Trocknen mit Silicagel-Perlen, Lagerung in einem speziellen Puffergemisch oder Tieffrieren (allerdings hat man im Gelände meist auch keinen Gefrierschrank bei sich). Auch aus Herbarbelegen, durch Pressen getrocknetes Material, kann man DNA isolieren, die allerdings häufig stark degradiert ist. Für verschiedene Organismengruppen sind die unterschiedlichsten DNA-Extraktionsmethoden entwickelt worden. Im Kurs wenden wir exemplarisch zwei Methoden an: Eine Extraktion mit CTAB und Chloroform sowie eine mit einem kommerziell erhältlichen Kit („DNeasy Plant Mini Kit“ der Firma Qiagen). Bei beiden Methoden ist der erste Arbeitsgang der einfachste: Zerstören Sie das Pflanzenmaterial bis zur Unkenntlichkeit! Dieser Schritt ist notwendig, weil im nächsten Schritt die DNA aus den Zellen freigesetzt werden soll. Je größer die Oberfläche, desto schneller wirken die dazu notwendigen Enzyme. Trotzdem heißt es vorsichtig vorgehen: Handschuhe tragen! Wir benutzen im Kurs das „DNeasy Plant Mini Kit“ der Firma Qiagen. DNA-Extraktion mit der CTAB-Methode Von diesem Protokoll gibt es unzählige Varianten für tierisches und pflanzliches Material. Fast jeder Forscher schwört dabei auf sein eigenes Rezept. Im Kurs wird ein für die Familie der Bromeliaceae optimiertes Protokoll, basierend auf dem Grundrezept von Doyle & Doyle (1987), verwendet: 1. Für jeden Teilnehmer wird eine Pflanzenprobe (ca. 400 mg gefrorenes Blattmaterial) bereitgestellt. Beschriften Sie Deckel und Seitenwand eines 2 ml Eppendorf-Gefäßes mit der Probennummer. Schützen Sie die seitliche Beschriftung mit einem kleinen Stück Tesafilm. 2. Pipettieren Sie 650 µl CTAB-Extraktionspuffer (CTAB = Cetyltrimethylammoniumbromid) in jedes Gefäß. Geben Sie 1,3 µl Mercaptoethanol (= MET) hinzu. Vorsicht, MET ist giftig – unter dem Abzug arbeiten! 3. Stellen Sie die Gefäße bei 60°C in den Heizblock. 4. Stellen Sie für jede Pflanzenprobe einen Mörser samt Pistill bereit, geben Sie eine Messerspitze Sand und das Pistill hinein. 5. Ziehen Sie Schutzbrille und Baumwollhandschuhe, darüber Latexhandschuhe an! 6. Füllen Sie den Mörser zur Hälfte mit flüssigem Stickstoff. Vorsicht! Auch mit Baumwollhandschuhen den gekühlten Mörser nur kurzzeitig berühren. Geben Sie die tiefgefrorene Pflanzenprobe hinzu und warten Sie, bis der Stickstoff beinahe vollständig verdunstet ist. 7. Beginnen Sie unverzüglich mit dem Mörsern. 6 8. Überführen Sie das Pflanzenpulver mit einem Spatel und Trichter in das entsprechende Eppendorf-Gefäß bevor es aufgetaut ist! Unter dem Abzug arbeiten! 9. Durchmischen Sie Puffer und Pflanzenmaterial durch kurzes Umschütteln des geschlossenen Gefäßes. 10. Wenn alle Proben versorgt sind und im Heizblock stehen, warten Sie 30-60 Minuten. In dieser Zeit die Gefäße alle 5 Minuten kräftig aufschütteln. 11. Anschließend Proben auf Raumtemperatur abkühlen lassen. 12. Zugabe von 650 µl „Chloroform-Isoamylalkohol 24 + 1“ (gründlich gemischt). Vorsicht: Chloroform ist gesundheitsschädlich – unter dem Abzug arbeiten! Proben 10 Minuten mit der Hand schwenken. 13. Zentrifugieren Sie 15 Minuten bei 9000 rpm und Raumtemperatur (= RT). Achten Sie darauf, dass der Rotor austariert ist! 14. Beschriften Sie neue 1,5 ml Eppendorf-Gefäße mit der Probennummer. 15. Obere, DNA-haltige Phase vorsichtig mit der 1000er Pipette abziehen und in das vorbereitete 1,5 ml Eppendorf-Gefäß geben. Unter dem Abzug arbeiten! 16. Volumen der DNA-Lösung abschätzen und 0,6 Volumen Isopropanol (RT) zugeben, Deckel schließen und vorsichtig mischen. Es dürfen keine Schlieren mehr zu sehen sein. 17. Für 1 Stunde bei RT stehen lassen. Gönnen Sie sich eine Mittagspause! 18. Zentrifugieren Sie 15 Minuten bei 13.000 rpm und 10°C. Nun liegt die DNA als Pellet am Gefäßboden vor. 19. Vorsichtiges Abgießen des Überstandes in ein Abfallgefäß. Rand des 1,5 ml EppendorfGefäßes gründlich auf Zellstoff abtupfen. 20. Zugabe von 500 µl 70% unvergälltem Ethanol. Gefäß kurz ausschwenken. 21. Zentrifugieren Sie 15 Minuten bei 13.000 rpm und 10°C. DNA liegt als Pellet am Gefäßboden vor. 22. Vorsichtiges Abgießen des Überstandes in ein Abfallgefäß. Rand des 1,5 ml EppendorfGefäßes gründlich auf Zellstoff abtupfen. 23. Pellet im offenen 1,5 ml Eppendorf-Gefäß bei Raumtemperatur für 30-60 Minuten trocknen. Darauf achten, dass die DNA nicht komplett trocken fällt. 24. Die Schritte 25-27 überspringen wir im Kurs. Sie sind der Vollständigkeit halber hier aufgeführt. 25. Zugabe von 200 µl TE-Puffer (pH 8). Pellet ein bis mehrere Tage bei 4°C rücklösen lassen. 26. Überprüfen Sie, ob sich die isolierte DNA im TE-Puffer rückgelöst hat. Zugabe von 0,5 µl RNAse-Lösung (10 mg/ml). Vorsichtig mischen und 2 Stunden bei 37°C inkubieren. 27. Anschließend Proben auf Raumtemperatur abkühlen lassen. 28. Zugabe von 10 µl 5M NaCl-Lösung (RT) zu jeder Probe, gut mischen. 29. Zugabe von 73 µl 100% unvergälltem Ethanol (RT) zu jeder Probe, diese sofort (!) vortexen und 10 Minuten auf Eis inkubieren. 30. Zentrifugieren Sie 15 Minuten bei 9000 rpm und 10°C. Zentrifuge vorkühlen! 31. Beschriften Sie neue 1,5 ml Eppendorf-Gefäße mit Probennummer, Artname und Datum. 7 32. Pipettieren Sie den DNA-haltigen Überstand in das vorbereitete 1,5 ml Eppendorf-Gefäß. 33. Zugabe von 220 µl Isopropanol (RT). Vorsichtig schwenken bis keine Schlieren mehr zu sehen sind. 34. Zentrifugieren Sie 15 Minuten bei 13.000 rpm und 10°C. DNA liegt als Pellet am Gefäßboden vor. 35. Vorsichtiges Abgießen des Überstandes in ein Abfallgefäß. Rand des 1,5 ml EppendorfGefäßes gründlich auf Zellstoff abtupfen. 36. Zugabe von 500 µl 70% unvergällten Ethanols. Gefäß kurz ausschwenken. 37. Zentrifugieren Sie 15 Minuten bei 13.000 rpm und 10°C. DNA liegt als Pellet am Gefäßboden vor. 38. Vorsichtiges Abgießen des Überstandes in ein Abfallgefäß. Rand des 1,5 ml EppendorfGefäßes gründlich auf Zellstoff abtupfen. 39. Pellet im offenen 1,5 ml Eppendorf-Gefäß bei Raumtemperatur für 30-60 Minuten trocknen. Darauf achten, dass die DNA nicht komplett trockenfällt. 40. Zugabe von 40-60 µl TE-Puffer (pH 8). Ende des ersten Arbeitstages. 41. Pellet mind. einen Tag bei 4°C rücklösen lassen. Zunächst werden bei diesem Verfahren die Zellwände aufgebrochen. Im anschließend zugegebenen Extraktionspuffer wirken verschiedene Stoffe: CTAB zerstört Zellmembranen (Detergens!), entfernt Polysaccharide (gerade bei Pflanzen meist reichlich vorhanden) und denaturiert Proteine (z.B. Nukleasen). EDTA blockiert DNA-modifizierende Enzyme und MET schützt vor oxidativen Schädigungen. Auch die Inkubation bei 60°C sorgt für die Denaturierung von Proteinen. Zur Abtrennung der Nukleinsäuren von unerwünschten Stoffen wird Chloroform verwendet (der zugesetzte Isoamylalkohol verhindert Schaumbildung). In der oberen, wässrigen Phase sammeln sich die Nukleinsäuren, die denaturierten Proteine bilden eine weißliche Grenzschicht zur unteren organischen Phase, welche u.a. Lipide enthält. Ganz unten haben sich Sand und Fasern abgesetzt. Mit Isopropanol werden Nukleinsäuren gefällt und durch Waschen mit 70%igem Ethanol von Salzen und anderen wasserlöslichen Stoffen gereinigt. Die Zugabe von RNAse sorgt für den Abbau der RNA (es soll ja mit DNA gearbeitet werden), anschließend erfolgt eine weitere Reinigung von Polysacchariden (wichtig bei vielen Vertretern der Bromelien) und erneut eine Fällung und Reinigung der DNA. Die DNA-Lösung ist im Kühlschrank mehrere Jahre lang haltbar. Frieren Sie DNA-Lösungen nur ein, wenn Sie sicher sind, dass sie nur noch selten gebraucht werden. Häufiges Auftauen und Einfrieren zerstört die DNA. Aufgabe 1: Zur Herstellung des CTAB-Extraktionspuffers stehen Stammlösungen mit gebräuchlichen Konzentrationen zur Verfügung. Bitte berechnen Sie, wie Sie 1 Liter CTABExtraktionspuffer herstellen können: Extraktionspuffer: Konzentration Stammlösung: Volumen Stammlösung: 1,4 M NaCl 5 M NaCl ? 0,1 M Tris-HCl (pH 8) 1 M Tris-HCl (pH 8) ? 20 mM EDTA 0,5 M EDTA ? 2 % CTAB 10 % CTAB ? 8 DNA-Extraktion mit dem „DNeasy Plant Mini Kit“ (Qiagen) 1. Für jeden Teilnehmer wird eine Pflanzenprobe (ca. 60 mg getrocknetes Blattmaterial) bereitgestellt. Geben Sie vorsichtig zu jeder Probe eine oder zwei Metallkugeln hinzu. 2. Heizen Sie einen Heizblock auf 60 °C vor. 3. Erwärmen Sie die AP1-Pufferflasche im Wasserbad (65 °C). 4. Mörsern Sie das Material in der Kugelmühle zu feinem Pulver. Überprüfen Sie dabei regelmäßig den Mahlgrad Ihrer Probe. 5. Pipettieren Sie 400 µl Puffer AP1 (Lysispuffer) und 4 µl RNAse zu jeder Probe. Durchmischen Sie Puffer und Pflanzenmaterial durch kurzes Umschütteln des geschlossenen Gefäßes. 6. Stellen Sie die Proben sofort in den vorgewärmten Heizblock. 7. Wenn alle Proben versorgt sind und im Heizblock stehen, warten Sie 30-60 Minuten. In dieser Zeit die Gefäße alle 5 Minuten kräftig aufschütteln und die folgenden Arbeitsschritte vorbereiten: 8. Beschriften Sie für jede Probe 1 violette Säule und 1 weiße Säule im Collecting tube sowie zwei 1,5 ml Gefäße mit der jeweiligen Probennummer. Auch die Collecting tubes beschriften. 9. Erwärmen Sie Puffer AE auf einem Heizblock (65 °C). 10. Nach Abschluss der Inkubation pipettieren Sie zu jeder Probe 130 µL Puffer AP2 (Fällungspuffer). Pipettenspitze wechseln! 11. Mischen Sie durch Umschütteln und stellen Sie die Proben 5 Minuten auf Eis. 12. Zentrifugieren Sie das Gemisch 5 Minuten bei 14.000 rpm. Achten Sie darauf, dass der Rotor austariert ist! 13. Pipettieren Sie den Überstand auf die violette Säule. 14. Zentrifugieren Sie 2 Minuten bei 14.000 rpm. Verwerfen Sie die Säule. 15. Pipettieren Sie den Durchlauf (ohne Pellet!) in eines der 1,5 ml Eppendorf-Gefäße. 16. Fügen Sie das 1,5-fache Volumen Puffer AP3 (Bindepuffer) zum Durchlauf hinzu und mischen Sie sofort durch gründliches Auf- und Abpipettieren. Pipettenspitze wechseln! Wie stellen Sie das Volumen des Durchlaufs fest? 17. Überführen Sie 650 µL dieses Gemischs auf die weiße Säule. Pipettenspitze wechseln! 18. Zentrifugieren Sie 1 Minute bei 8000 rpm. 19. Verwerfen Sie den Durchfluss. Wiederholen Sie die Schritte 17 und 18, bis die gesamte Probe durch die Säule gelaufen ist. Verwerfen Sie danach die 1,5 ml Gefäße. 20. Setzen Sie die weiße Säule in ein neues 2 ml Collecting tube und pipettieren Sie 500 µL Puffer AW (Waschpuffer) auf die Säule. 21. Zentrifugieren Sie 1 Minute bei 8000 rpm. 22. Verwerfen Sie den Durchfluss. 23. Pipettieren Sie 500 µL Puffer AW auf die Säule. 24. Zentrifugieren Sie 2 Minuten bei 14000 rpm. 9 25. Übertragen Sie die weiße Säule in das zweite 1,5 ml Eppendorf-Gefäß und pipettieren Sie 100 µL warmen Puffer AE (Elutionspuffer) auf die Säule. Lassen Sie die Säulen 5 Minuten bei Raumtemperatur stehen. 26. Zentrifugieren Sie 1 Minute bei 8000 rpm. 27. Wiederholen Sie die die Elution mit weiteren 50 µl Puffer AE. Verwerfen Sie die weiße Säule und schließen Sie die Eppendorf-Gefäße. Beschriften Sie diese seitlich mit Artname und Datum. 28. Mittagspause (endlich!) Nach dem letzten Schritt halten Sie nun die extrahierte DNA in einer Pufferlösung in Ihren Händen. Im Einzelnen haben Sie in Schritt 1-4 das Material mechanisch aufgeschlossen und in Schritt 5-7 die Zellmembranen lysiert und die DNA freigesetzt. In Schritt 9-15 haben Sie feste Bestandteile und die meisten Polysaccharide entfernt. In Schritt 16-19 wurde die DNA an eine Trägermembran gebunden. Das so gebundene Material haben Sie in Schritt 20-24 von Proteinresten, weiteren Polysacchariden, Nukleotiden und anorganischen Zellbestandteilen gereinigt. In Schritt 25-27 wurde die DNA von der Trägermembran wieder gelöst. Aufgabe 2: Vergleichen Sie die beiden vorgestellten Methoden zur DNA-Extraktion und diskutieren Sie ihre Vor- und Nachteile. Sollte es Probleme bei der PCR geben (s.u.), kann man versuchen, statt mit Elutionspuffer mit Wasser zu eluieren, dem danach 10% TE-Puffer beigefügt wird. Das in vielen Elutionspuffern in höherer Konzentration vorhandene EDTA bindet Mg-Ionen, was in der PCR oft zu schlechter Produktausbeute führt. Photometrische Quantifizierung der DNA Viele PCR-Reaktionen verlaufen besser, wenn man die Menge an eingesetzter DNA genau einstellen kann. Deshalb muss im nächsten Schritt die DNA-Menge in jedem Eluat photometrisch bestimmt werden. Mit Aqua bidest kann dann die benötigte Verdünnung eingestellt werden. 1. Beschriften Sie für jede Probe (CTAB-Extraktion und Säulchen-Extraktion) ein 1,5 ml Gefäß. 2. Pipettieren Sie 55 µl destilliertes Wasser in jedes Gefäß und geben Sie anschließend jeweils 2 µl DNA hinzu. Achten Sie darauf, dass Sie die DNA zuvor durch Rühren mit der Pipette gut durchmischt haben. 3. Vortexen und zentrifugieren Sie die Ansätze kurz. 4. Schalten Sie das Photometer ein. 5. Füllen Sie eine Einmalküvette mit 55 µL destilliertem Wasser. Darauf achten, dass sich keine Luftblasen in der Küvette befinden! 6. Öffnen Sie den schwarzen Deckel des Photometers und setzen Sie die Küvette ein. 7. Drücken Sie die Taste „Blank“. 10 8. Entnehmen Sie die Küvette, beschriften Sie sie und stellen sie zur Seite. Sie werden sie später zum erneuten Einstellen des Leerwerts (= „Blank“) benötigen. 9. Drücken Sie nacheinander „Dilution“, „2“, „55“ und „Enter“. Was bedeuten die Zahlen? 10. Nehmen Sie eine neue Einmalküvette und geben Sie den kompletten Probenansatz (57 µl) hinein. Auf Luftblasen achten! 11. Setzen Sie die Küvette ein und drücken Sie „Sample“. Notieren Sie die Konzentration sowie die Ratio (A260/A280). 12. Entnehmen Sie die Probenküvette, waschen Sie sie mit destilliertem Wasser. 13. Setzen Sie die Leerwertküvette erneut ein und drücken Sie die Taste „Blank“. Der angezeigte Wert muss „0,00“ ergeben. 14. Wiederholen Sie die Schritte 10 bis 13 für jede Probe. Benutzen Sie dabei die gewaschene Probenküvette. 15. Berechnen Sie, wie Sie die Proben verdünnen müssen, um jeweils 10 µl mit einer Konzentration von 5 ng/µl zu erhalten. Entscheiden Sie sich dabei für eines der beiden DNAExtrakte. Halten Sie Ihre Ergebnisse in einer Tabelle fest. 16. Beschriften Sie ein neues 1,5 ml Gefäß für jede Verdünnung und stellen sie diese anhand Ihrer Berechnungen her. PCR-Reaktion Die Polymerase-Kettenreaktion (polymerase chain reaction = PCR) ist eine Abfolge biochemischer Reaktionen, die bei verschiedenen Temperaturen in einem einzigen Reaktionsgefäß ablaufen. Im Grunde simuliert die PCR-Reaktion die in der Natur vor der Zellteilung erfolgende Replikation der DNA im Reagenzglas. Die isolierte genomische DNA wird in einer Pufferlösung mit einer DNA-Polymerase, Mg2+-Ionen und Desoxyribonukleotiden (dNTPs) zusammengebracht. Damit die Polymerase die DNA als Vorlage verwenden kann und mit den in der Lösung vorhandenen Nukleotiden einen Komplementärstrang synthetisieren kann, müssen die beiden Stränge der DNA zuerst getrennt (denaturiert) werden. Dies geschieht bei 90-95 0C. Zusätzlich benötigt das Enzym einen Anfangsstrang, an den es weitere Nukleotide anfügen kann. Diesen kurzen Strang fügt man in Form von zwei „Primern“ hinzu (s. Abb. 1). Diese kurzen Oligonukleotide binden bei 40-60 0C an passende, komplementäre DNA-Abschnitte (annealing). Damit hat man die Möglichkeit zu bestimmen, welche Teile der DNA man amplifizieren will. Die am häufigsten verwendete Polymerase stammt aus dem in heißen Quellen lebenden Bakterium Thermophilus aquaticus und ist deshalb sehr hitzestabil (taq-Polymerase). Die optimale Reaktionstemperatur liegt bei 72° C. Der Zyklus von DNA-Denaturierung, Primer-annealing und DNASynthese wird in einem automatischen Thermocycler 30 bis 40 mal durchlaufen, wobei sich die Menge des ausgewählten DNA-Abschnitts im (nie erreichten) Idealfall jedesmal verdoppelt. Im Kurs soll ein Abschnitt der Chloroplasten-DNA, der Abschnitt atpB-rbcL amplifiziert und sequenziert werden. 11 Abb. 1: Primerpositionen für die Sequenzierung der Spacerregion zwischen atpB und rbcL. Aus Manen et al. (1994). Aufgabe 3: Warum werden für die PCR zwei Primer verwendet, die am 5’- und 3’-Ende des zu vermehrenden Abschnittes jeweils auf den Komplementärsträngen sitzen? PCR-Reaktionen können sehr launisch sein; geringe Veränderungen im Protokoll führen oft zu kompletten Fehlschlägen. Trotzdem werden in verschiedenen Laboren oft ganz unterschiedliche Protokolle verwendet. Das am häufigsten verwendete Verfahren zur Optimierung von PCR Reaktionen ist „Versuch und Irrtum“: Verläuft die PCR schließlich wie erwünscht, verändert man das Protokoll nicht mehr (oder nur noch, wenn man testen will, ob sich das Resultat noch verbessern lässt). Multiple Banden, unsaubere Banden oder fehlendes PCR-Produkt sind die häufigsten Probleme. Fehlendes PCR-Produkt z. B. kann die unterschiedlichsten Ursachen haben: - Das Extraktionsprotokoll hat versagt; das Eluat enthält keine oder zu wenig DNA (Sollte nach Quantifizierung der DNA ausgeschlossen sein). - Man hat zuviel DNA hinzugefügt (auch das verursacht Probleme, lässt sich aber durch Quantifizierung vermeiden). - Die Ausgangs-DNA ist degeneriert (z. B. durch häufiges Auftauen und wieder Einfrieren). - Der DNA-Extrakt enthält Stoffe (z. B. Polysaccharide, EDTA), die die PCR stören. - Die Polymerase ist überaltert/ nicht tiefgefroren gelagert. - Einer oder beide Primer sind überaltert/ nicht tiefgefroren gelagert. - Irgendein Idiot hat die Primer falsch beschriftet. - Die Primer passen nicht auf die Bindungsstellen (kann sogar bei angeblich universellen Primern hin und wieder geschehen). - Man hat eine Zutat im Ansatz vergessen. - Die Annealing-Temperatur ist zu hoch. - Der Thermocycler ist defekt. Der Lösung kann man nur auf die Spur kommen, wenn man der Reihe nach die verschiedenen Möglichkeiten ausschließt. Im Zweifelsfall empfiehlt es sich, erfahrene Kollegen oder das Internet um Rat zu fragen. Die Polymerase-Kettenreaktion erfolgt in PCR-Gefäßen (0,2 ml). Obwohl die optimale Reaktionstemperatur bei 72° C liegt, ist die Polymerase auch bei Zimmertemperatur schon aktiv und beginnt, hier und da Nukleotide an Primer anzubauen. Das stört im allgemeinen die spätere PCR-Reaktion empfindlich, weshalb das Ansetzen der PCR auf Eis erfolgt. Teurere sog. „hot start“ Enzyme enthalten Antikörper, die die Polymerase deaktivieren. Durch mehrminütiges Vorerhitzen auf 96 °C im Thermocycler (s.u.) werden die Antikörper denaturiert und das Enzym aktiviert. Mit solchen Enzymen kann man auch bei Zimmertemperatur arbeiten. 12 1. Ziehen Sie Handschuhe an und tauen Sie die folgenden Zutaten auf: - destilliertes und autoklaviertes Wasser - Peqlab 10x Reaktionspuffer S (blauer Deckel) = PCR-Puffer - MgCl2 - dNTP-Mix - Primer Oligo 2 und Oligo 5 2. Beschriften Sie für jeden PCR-Ansatz 1 PCR-Gefäß (0,2 ml) und stellen Sie es auf Eis. (Das Gefäß für die Negativkontrolle beschriften die Betreuer). 3. Die Taq-Polymerase ist trotz Aufbewahrung im Gefrierschrank flüssig und wird direkt auf Eis überführt. 4. Ihr DNA-Extrakt überführen sie direkt vom Kühlschrank auf Eis. Abgesehen von der Ausgangs-DNA enthalten Ihre PCR-Ansätze die gleichen Chemikalien in gleicher Konzentration. Um sich unnötiges Pipettieren zu ersparen, stellt man daher zuerst einen sog. „Mastermix“ her, der alles enthält außer der zu amplifizierenden DNA. Jeder PCRAnsatz enthält 50 μL, davon entfallen 5 μL auf das DNA-Extrakt. Reaktionen mit 25 μL sind auch üblich, 100 μL Ansätze wegen der hohen Kosten nur, wenn große Mengen DNA benötigt werden. Aufgabe 4: Der Mastermix enthält die folgenden Bestandteile. DNA-Template PCR-Puffer (blau) dNTP-Mix MgCl2 Primer Oligo 2 Primer Oligo 5 Taq-Polymerase Wasser Ausgangskonzentration 5 ng/µL 10 x 2,5 mM 25 mM 10 µM 10 µM 5 U/ μL - Konzentration/ Reaktion 0,5 ng/µL 1x 0,2 mM 0,5 mM 0,2 μM 0,2 μM 2,5 U ad 50 µL Volumen/ Reaktion 5 µl Volumen/ x Reaktionen - Berechnen Sie die Volumina der einzelnen Bestandteile für eine 50 μL-Reaktion und einen Mastermix für die x 50 μL-Reaktionen. Bedenken Sie dabei, dass Sie 5 μL DNA-Extrakt hinzufügen müssen. 1. Berechnen Sie die Mengen für den Mastermix. Berechnen Sie hierfür 1 Ansatz für jede PCR-Reaktion, sowie 1 Reaktion zusätzlich (= Negativkontrolle). 2. Stellen Sie ein Eppendorf-Gefäß (1,5 ml) auf Eis und pipettieren Sie erst Wasser, dann die anderen Zutaten in der angegebenen Reihenfolge zusammen. Benutzen Sie für jedes Reagens eine frische Pipettenspitze. Mischen Sie jedes Reagens (außer der Polymerase, s. u.!) vor dem Pipettieren durch Ein- und Auspipettieren bei gleichzeitigem Rühren! 13 3. Pipettieren Sie als letztes die Polymerase. Rühren Sie die Polymerase-Lösung nur sehr vorsichtig, aber sorgfältig mit der Pipettenspitze um. Die Lösung ist sehr zähflüssig; sorgen Sie dafür, dass nichts an der Außenseite der Pipettenspitze hängenbleibt. Dieses Enzym ist extrem teuer (0,5 ml kosten ungefähr 1000 Euro). 4. Mischen Sie den Mastermix bis Sie keine Schlieren mehr sehen. Pipettieren Sie 45 μL in jeden Ansatz. 5. Pipettieren Sie zuletzt 5 µl DNA-Extrakt (entsprechende Menge H2O für die Negativkontrolle) in das jeweilige Gefäß und verschließen Sie es. 6. Zentrifugieren Sie die PCR-Ansätze kurz ab (wenige Umdrehungen) und stellen Sie sie sofort wieder auf Eis. 7. Schalten Sie den Thermocycler ein und starten Sie das Programm KAI1. 8. Sobald die Blocktemperatur von 94 °C erreicht ist, stellen Sie auf „Pause“, öffnen Sie den Deckel, setzen zügig die Proben ein und verschließen den Deckel. Mit „Resume“ das Programm fortsetzen. 9. Ende des zweiten Arbeitstages. PCR-Programm KAI1: initiale Denaturierung: Denaturierung: Annealing: Elongation: finale Elongation: 95°C 95°C 50°C 72°C 72°C 8°C 2 min 30 sec 1 min 35 x 90 sec 5 min unendlich ACHTUNG! Protokollieren Sie die PCR-Reaktion, indem Sie für jedes Gefäß das DNA-Extrakt, die PCRNummer und die Mengen aller Bestandteile des Ansatzes notieren (am besten in Tabellenform wie folgt). Extr.-Nr. 127 128 … PCR-Nr. DNA H2O 1345 5 μL x μL 1346 … Puffer x μL dNTPs x μL Primer1 Primer2 Enzym x μL x μL x μL Dieses Protokoll ist sehr wichtig. Zu Beginn einer neuen Versuchsreihe (neue Organismen, neue Genabschnitte usw.) müssen PCR-Reaktionen fast immer optimiert werden. Das ist nur möglich, wenn man die Versuchsbedingungen bei jedem Ansatz protokolliert. NOCH EIN HINWEIS Sobald die zu untersuchenden Organismen nur noch in Form von DNA-Extrakten im Labor herumstehen, lassen sie sich äußerlich nicht mehr unterscheiden. Ab jetzt muss man sich peinlich genau vor Verwechslungen der Reaktionsgefäße oder -nummern hüten. Man sollte deshalb alle Eppendorf-Gefäße sauber und permanent beschriften, und unbedingt auch das Datum jedes Ansatzes notieren. Nur so hat man eine Chance, Verwechslungen auch im Nachhinein noch auf die Spur zu kommen. 14 UND EIN DRITTER HINWEIS PCR-Produkte enthalten DNA in millionenfach höherer Konzentration als DNA-Extrakte. Im Labor konkurriert die amplifizierte DNA mit der genomischen DNA um Polymerase, Primer und dNTPs. Dabei zieht die genomische DNA fast immer den Kürzeren. Im günstigsten Fall stört das die PCR lediglich. Im ungünstigsten Fall erhalten Sie wunderschöne PCR-Produkte, die sich nach Sequenzieren immer wieder als ein und dieselbe Art erweisen. Reinigen des gesamten Labors (einschließlich Mobiliar, Geräten, Glasflaschen usw.) und Wegwerfen kontaminierten Verbrauchsmaterials ist dann oft die einzige Lösung. Arbeiten Sie in der „Post-PCR-Phase“ mit pingeliger Genauigkeit, sonst zerrütten Sie das Verhältnis zu Ihren Laborkollegen. Nachweis von PCR-Produkten Die spannende Frage lautet nun: Hat die PCR funktioniert oder nicht? Um diese Frage zu beantworten führen Sie eine Agarose-Gel-Elektrophorese durch. Das Gel wird mit SYBRgreen gefärbt, das sich mit DNA zu einem fluoreszierenden Komplex verbindet. Bei Betrachten des Gels auf einem UV-bzw. Blaulicht-Transilluminator finden Sie so heraus, ob (1) überhaupt PCRProdukt entstanden ist, (2) nur ein spezifisches oder mehrere Produkte unterschiedlicher Länge entstanden sind, und (3) wie lang das amplifizierte DNA-Stück in etwa ist, d. h. ob das richtige Stück amplifiziert wurde. Fast alle Arbeitsschritte finden ausschließlich im besonders gekennzeichneten Ethidiumbromid- bzw. SYBRgreen-Arbeitsbereich des Labors statt. Dabei sind stets blaue Nitrilhandschuhe zu tragen! 1. Stellen Sie einprozentige Agarosegele entsprechend der Gesamtzahl an PCR-Produkten her. Wählen Sie die passenden Kammergrößen und Kammeinsätze aus. In jeder Reihe muss eine Tasche für einen Größenmarker frei bleiben. Für jedes Gel verwenden Sie bitte eine Glasflasche. 2. BEISPIEL für ein mittelgroßes Gel: Wiegen Sie 1 g Agarose in eine Glasflasche ein. Vorsicht, Agarose und Kokain unterscheiden sich in Aussehen und Preis nicht sonderlich (vermutlich aber in der Wirkung). Fügen Sie 100 ml 1 × TAE und einen Magnetfisch hinzu und setzen einen Deckel lose auf. 3. Erhitzen Sie die Mischung 1-2 min auf höchster Stufe in der Mikrowelle. 4. Rühren Sie einmal mit dem Magnetrührer durch. 5. Erhitzen Sie jetzt in kleinen Schritten (20-30 sec mit zwischenzeitlichem Rühren) weiter in der Mikrowelle bis die Lösung völlig klar ist. Agarose kocht in Sekundenschnelle über (eine Riesenschweinerei!). Beaufsichtigen Sie die Flasche gut und stoppen Sie die Mikrowelle, sobald die ersten Blasen erscheinen. Auch auf dem Magnetrührer beginnt heiße Agarose-Lösung sehr leicht zu schäumen. 6. Wenn die Agarose-Lösung klar ist, lassen Sie sie auf dem Magnetrührer bis etwa 60° C abkühlen (mit Handschuhen knapp unterhalb der Schmerzgrenze). 7. Setzen Sie für jedes Gel den Gelträger um 90° gedreht in die Elektrophoresekammer ein, so dass die Gummidichtungen an den Wänden liegen. Hängen Sie einen oder zwei Kämme ein. 15 8. Pipettieren Sie 8 μL SYBRgreen pro 100 ml Agaroselösung hinzu. Vermeiden Sie jeden direkten Kontakt mit dem Farbstoff und entsorgen Sie die Pipettenspitze nur im dafür vorgesehenen Behälter. 9. Gießen Sie das Gemisch vorsichtig in die jeweilige Gelwanne ohne Blasen zu erzeugen. Etwaige Blasen mit einer Pipettenspitze an den Rand des Gels manövrieren. Warten Sie ca. 20 Minuten, bevor Sie mit den folgenden Arbeitsschritten beginnen. 10. Wenn das Gel milchig aussieht, ziehen Sie zunächst ganz vorsichtig die Kämme aus dem Gel. Anschließend heben Sie die Gelwanne aus dem Tank und drehen sie um 90°. Füllen Sie Puffer 1 × TAE in den Elektrophoresetank, bis das Gel bedeckt ist. Achten Sie auf die richtige Ausrichtung des Gels, die DNA wandert zur Anode (dem roten Anschluss). 11. Ziehen Sie die blauen Nitrilhandschuhe aus und gehen Sie in den Post-PCR-Bereich. Pipettieren Sie 3 µl Ladepuffer zu jedem PCR-Produkt bzw. Negativkontrolle. Zentrifugieren Sie die Proben kurz runter. 12. Wechseln Sie mit den Proben zurück in den Ethidiumbromid-/SYBRgreen-Arbeitsbereich und ziehen Sie die blauen Nitrilhandschuhe wieder an. 13. Pipettieren Sie das erste PCR-Produkt in die erste Tasche des Gels (von links nach rechts). Achten Sie darauf, dass Sie die DNA zuvor durch Auf- und Abpipettieren gut durchmischt haben. Vermeiden Sie Wirbelstürme im Elektrophoresetank. Lassen Sie stets die letzte Tasche der Reihe frei. Pipettenspitze wechseln! 14. Wiederholen Sie Schritt 13 für jedes PCR-Produkt und für die Negativkontrolle. 15. Pipettieren Sie 5 μL Größenmarker („Easy Ladder“) in die letzte Tasche einer jeden Reihe. 16. Setzen Sie den Deckel auf, kontrollieren Sie noch einmal die richtige Ausrichtung des Gels und starten Sie die Elektrophorese bei 95 V. Nach etwa 90 min, wenn der blaue Marker dreiviertel der verfügbaren Strecke zurückgelegt hat, kann das Gel auf dem Transilluminator betrachtet werden. 17. Ziehen Sie wieder blaue Nitrilhandschuhe an. Heben Sie die Gelwanne vorsichtig aus dem Elektrophoresetank und trocknen sie mit Papier ab. 18. Überführen Sie das Gel ohne zu tropfen auf den Transilluminator in der Geldokumentationskammer. Gießen Sie den gebrauchten Puffer vorsichtig in die entsprechende Sammelflasche. 19. Schließen Sie die Tür der Kammer und schalten Sie das Gerät und die UV-Beleuchtung („Transillumination UV“) ein. Schalten Sie „Filter Wheel Position“ ggf. auf 3. Arbeiten Sie nun zügig, da UV-Licht die DNA schädigt und die erfolgreiche Sequenzierung des PCRProduktes verhindern kann. 20. Starten Sie das Programm „AlphaImager 3400“ (liegt auf dem Desktop) und klicken in der Menüzeile >Acquire an. 21. Zoomen und fokussieren Sie die Kamera, so dass das ganze Gel und alle Banden scharf zu sehen sind. 22. Machen Sie ein Bild (>Acquire Image), speichern Sie es, drucken Sie ein Foto des Gels aus (>File >Print) und kleben es zur Dokumentation unter ihr PCR-Protokoll. 23. Legen Sie das Gel auf den Blaulicht-Tisch. Reinigen Sie die Oberfläche des Transilluminators mit destilliertem Wasser und Papiertüchern. 16 Die amplifizierte DNA einer erfolgreichen Reaktion liegt als mehr oder weniger breite Bande auf dem Gel vor. Diese Banden sollten deutlich sichtbar und sauber begrenzt sein, und die Fragmente sollten in der Länge dem erwarteten Produkt entsprechen. Die Gelspur der Nullprobe sollte schwarz sein. Sollten Sie in der Nullprobe eine Bande finden, die einer der Banden in Ihren PCR-Ansätzen entspricht, sind ihre Reaktionen sehr wahrscheinlich kontaminiert. Meist sind verunreinigte Reagenzien die Ursache solcher Kontaminationen. Diese Verunreinigungen entstehen z. B., wenn Pipettenspitzen nicht gewechselt wurden und genomische DNA übertragen wurde. In diesem Fall muss die PCR wiederholt werden. Im schlimmsten Fall hat man es mit Laborkontaminationen zu tun (s.o.). Reinigung der PCR-Produkte Rückstände der PCR-Reaktion, besonders Polymerase und nicht verbrauchte Primer müssen beseitigt werden, bevor die eigentliche Sequenzierreaktion angesetzt werden kann. Wir haben die PCR-Produkte von diesen „Kontaminationen“ bereits weitgehend gereinigt, indem wir sie auf dem Agarosegel elektrophoretisch von anderen Bestandteilen der PCR-Reaktion abgetrennt haben. Die Bande mit der gewünschten DNA muss nun aus dem Gel ausgeschnitten und aus der Agarose gelöst werden. Die weiteren Reinigungsschritte werden ähnlich wie die DNAExtraktion mit fertigen Kits durchgeführt, die nach dem gleichen Prinzip wie DNA-Isolierungskits funktionieren, also DNA (PCR-Produkt) an eine Membran binden, reinigen und mit Wasser oder Puffer eluieren. Wir benutzen im Kurs das „QIAquick Gel Extraction Kit“ der Firma Qiagen. 1. Beschriften Sie für jedes PCR-Produkt ein 2 ml Eppendorf-Gefäß. 2. Setzen Sie eine orange Schutzbrille auf und ziehen Sie danach blaue Nitrilhandschuhe an. 3. Legen Sie das Gel vorsichtig auf den Blaulicht-Tisch. 4. Schalten Sie das Blaulicht an, schneiden Sie die Bande mit einer sauberen Rasierklinge aus und überführen Sie sie in das entsprechende Eppendorf-Gefäß. 5. Achten Sie darauf, dass sie gerade schneiden, sonst verlieren Sie unter Umständen einen großen Teil des PCR-Produkts. Auch sollten Sie nicht allzu viel ungefärbtes Gel mit ausschneiden. 6. Reinigen Sie die Rasierklinge nach jedem Schnitt mit Ethanol. 7. Legen Sie das Gel zum Austrocknen auf das Tablett vor dem Fenster. Reinigen Sie die Oberfläche des Blaulichttischs mit destilliertem Wasser und Papiertüchern. 8. Ziehen Sie die blauen Nitrilhandschuhe aus. 9. Wiegen Sie ein leeres 2 ml Eppendorf-Gefäß auf der Analysenwaage und benutzen Sie den Wert als Tara für die folgenden Wägungen. 10. Wiegen Sie jedes Gelstück im Eppendorf-Gefäß aus und notieren Sie das Gewicht in mg. 11. Pipettieren sie für jedes mg Gel drei µL Binde-Puffer QG in jedes Eppendorf-Gefäß. 17 12. Inkubieren Sie die Eppendorf-Gefäße bei 50 °C für 10 Minuten im Heizblock, bis sich die Agarose vollständig aufgelöst hat (ggf. etwas länger inkubieren). Dabei Proben von Zeit zu Zeit gründlich durchmischen. 13. Erwärmen Sie Puffer EB auf dem Heizblock (50 °C). 14. Bereiten Sie in der Zwischenzeit für jede Probe eine violette Säule in einem 2 ml Sammelgefäß vor und beschriften Sie diese. 15. Hat sich die Agarose vollständig gelöst, geben Sie für jedes mg Gel 1 µL Isopropanol zu jeder Probe. Durch Schwenken mischen bis keine Schlieren mehr zu sehen sind. 16. Pipettieren Sie 750 µL des Gemischs auf die Säule und zentrifugieren Sie 1 Minute bei 13.000 rpm. Pipettenspitzen wechseln! 17. Verwerfen Sie den Durchlauf und wiederholen Sie die Schritte 16 und 17, bis die gesamte Agarose-Lösung auf die Säule aufgetragen ist. 18. Pipettieren Sie 500 µL Puffer QG auf jede Säule und zentrifugieren Sie 1 Minute bei 13.000 rpm. 19. Verwerfen Sie den Durchlauf. 20. Pipettieren Sie 750 µL Waschpuffer PE auf jede Säule und inkubieren Sie für 3 Minuten bei Raumtemperatur. 21. Zentrifugieren Sie 1 Minute bei 13.000 rpm und verwerfen Sie den Durchlauf. 22. Stecken Sie die Säulen in die leeren Sammelgefäße zurück und zentrifugieren Sie nochmals 1 Minute bei 13.000 rpm. 23. Setzen Sie die Säulen in ein neues, beschriftetes 1,5 ml Eppendorf-Gefäß. 24. Pipettieren Sie 20 µL vorgewärmten Elutionspuffer EB direkt auf die Säulenmembran (ohne diese zu berühren!). Inkubieren Sie 1 Minute bei Raumtemperatur. 25. Zentrifugieren Sie 1 Minute bei 13.000 rpm. Densitometrische Quantifizierung der DNA Die Qualität der Sequenzen kann sehr empfindlich auf schwankende DNA-Mengen im Sequenzier-Ansatz reagieren. Unterhalb eines gewissen Schwellenwertes versagt die Sequenzierreaktion, oberhalb werden die Sequenzen oft unsauber. Solche schlechten Sequenzchromatogramme muss man in nervenaufreibender Arbeit editieren. Selbst dann bleiben oft viele Positionen der Sequenz unsicher, was die Datenanalyse erschwert. Um sich diesen Ärger zu ersparen, ist es besser, die DNA zu quantifizieren. Wir haben die genomische DNA gestern photometrisch quantifiziert. Die folgende Methode liefert wesentlich genauere Werte, ist allerdings auch umständlicher. 1. Gießen Sie einprozentige Agarosegele entsprechend der Anzahl an PCR-Produkten. Folgen Sie dabei der Arbeitsanleitung oben („Nachweis von PCR-Produkten“). 2. Schneiden Sie einen Streifen Parafilm ab und legen Sie ihn direkt auf den Arbeitstisch. 3. Pipettieren Sie nebeneinander für jedes PCR-Produkt einen Tropfen mit 4 µL Wasser. 18 4. Pipettieren Sie in jeden Tropfen 0,7 µl Ladepuffer. 5. Fügen Sie zuletzt zu jedem Tropfen 2 µL PCR-Produkt hinzu. Mischen Sie die PCRProdukte vorher gründlich und wechseln Sie die Pipettenspitzen! Notieren Sie auf einem Papier Namen und Reihenfolge der PCR-Produkte. 6. Pipettieren Sie jeden Tropfen in eine Tasche des Gels. 7. Pipettieren Sie in die letzte Tasche jeder Reihe 5 µL Größenmarker („Easy Ladder“). 8. Setzen Sie den Deckel auf, kontrollieren Sie noch einmal die richtige Ausrichtung des Gels und starten Sie die Elektrophorese bei 85 V. 9. Wenn das Gel nach ca. 45 min fertig gelaufen ist, wiederholen Sie die Schritte 17-22 („Nachweis von PCR-Produkten“) an der Geldokumentationsanlage. 10. Wenn Sie das Bild des Gels auf dem Bildschirm gespeichert haben, klicken Sie in der Dialogbox rechts unten >Analysis Tools >Spot Denso an. 11. Klicken Sie nun in der Dialogbox das rosa Rechteck an. Es erscheint ein Kreuz anstelle des Mauspfeils. Setzen Sie das Kreuz auf die linke obere Ecke der ersten Bande, drücken Sie die linke Maustaste und ziehen Sie den erscheinenden Rahmen nach rechts unten auf. Der Rahmen sollte etwas größer als die Bande sein. 12. Durch Anklicken von >Copy unter >Spot Denso können Sie den Rahmen beliebig oft kopieren und danach jeweils mit der Maus über die anderen Banden schieben. Dazu den Mauspfeil auf den oberen Rand des Rahmens setzen und die linke Maustaste drücken. Schieben Sie zuletzt einen Rahmen über die 500 bp Bande des Größenmarkers. 13. Klicken Sie das Feld >Auto BKGD an. 14. Zum Quantifizieren der einzelnen DNA-Banden verwenden wir die 500 bp Bande des Größenmarkers mit bekannter Konzentration (50 ng DNA in 5 μL Marker). Klicken Sie >STDCurve an. Es erscheint ein Textfenster, in dem die Weißwerte für alle Rahmen aufgelistet sind 15. Durch Anklicken des 500 bp Rahmens erscheint dieser blau. In die sich öffnende Dialogbox tragen Sie „50“ ein und drücken >Exit. 16. Die dritten Spalte des Textfeldes enthält nun die DNA-Konzentration je 2 μL PCRProdukt. 17. Berechnen Sie die Konzentration für 1 µl und wieviel PCR-Produkt Sie in der Sequenzreaktion einsetzen müssten, um auf 20 ng DNA zu kommen. 24. Legen Sie das Gel zum Austrocknen auf das Tablett vor dem Fenster. Reinigen Sie die Oberfläche des Transilluminators mit destilliertem Wasser und Papiertüchern. 25. Entsorgen Sie Ihre blauen Nitrilhandschuhe im Sondermüll. Die folgenden Labor-Arbeitsschritte führen Sie nicht selber durch. Sie werden vom Laborzentrum standardmäßig durchgeführt. Versuchen Sie trotzdem, Aufgabe 5 zu lösen. Datengewinnung: DNA-Sequenzierung Sequenzierreaktion 19 In der ersten PCR-Reaktion ging es darum, einen spezifischen Abschnitt der genomischen DNA exponentiell zu vermehren, um ihn später sequenzieren zu können. In der Sequenzierreaktion wird diese hoch konzentrierte Template-DNA nicht mehr exponentiell vermehrt. Man fügt deshalb nur einen Primer hinzu, so dass die Polymerase nur einen der beiden DNA-Stränge synthetisieren kann. Die Sequenzierreaktion enthält neben gewöhnlichen dNTPs einen kleinen Anteil Didesoxribonukleotide (ddNTPs). Gewöhnlich verwendet man fertige Mischungen (sog. Terminator-Kits mit z. T. blumigen Namen), die von den Herstellern automatischer Sequenzierer angeboten werden. An jedes der vier unterschiedlichen ddNTPs ist ein anderer Fluoreszenzfarbstoff gebunden. Wird ein solches dd-Nukleotid zufällig eingebaut, kann der DNA-Strang nicht weiter verlängert werden und die Reaktion bricht ab. Am Ende vieler Reaktionszyklen erhält man so ein Gemisch von fluoreszenzmarkierten DNA-Strängen aller unterschiedlichen Längen, bei denen das letzte Nukleotid sich durch seine spezifische Fluoreszenz verrät. Diese vielen hundert verschiedenen DNA-Moleküle werden im letzten Schritt auf einem Polyacrylamid-Gel elektrophoretisch nach ihrer Größe aufgetrennt. In automatischen Sequenzierern, die hierfür verwendet werden, befinden sich am Ende des Gels zwei Dioden-Laser, die die vorbeiwandernden DNA-Moleküle zur Fluoreszenz anregen. Diese Fluoreszenz wird von einem Detektor aufgezeichnet, dessen Signale in Form eines Sequenz-chromatogramms als Computerdatei gespeichert werden. Aufgabe 5: Terminator-Kits sind sehr teuer. Eine alternative billigere Methode besteht darin, Fluoreszenzfarbstoffe nicht an die einzelnen ddNTPs sondern an die eingesetzten Primer zu binden. Wieviele Reaktionen muss man bei dieser Methode je DNA-Strang ansetzen? Läßt sich die Anzahl der Reaktionen verringern, wenn man beide Stränge sequenziert? Sequenz-Chromatogramme sind nur über eine begrenzte Länge hinweg lesbar. Die Qualität oder Leselänge variiert sehr stark, überschreitet aber selbst im Idealfall selten 800 bp. In vielen Fällen sind die sequenzierten Genabschnitte länger, so dass man schon aus diesem Grund beide Stränge sequenzieren muss. Um sicher zu gehen, kann man zusätzlich interne Primer einsetzen. Im Fall des im Kurs verwendeten Markers atpB-rbcL wird hierfür der interne, reverse Primer RS3 verwendet (5‘-TAC TGA GAA AAA TTC CCT CT- 3‘, Barfuss et al. 2005). 20 Datenanalyse An den ersten Praktikumstagen haben Sie versucht, im Labor Daten zu gewinnen, mit denen wir die Frage beantworten wollen, wie die von uns untersuchten Arten stammesgeschichtlich miteinander verwandt sind. Das Erzeugen von Daten ist ein wichtiger, vorläufiger Schritt jeder naturwissenschaftlichen Arbeit. Noch wichtiger ist es aber herauszufinden, ob die Daten eine Hypothese unterstützen, widerlegen oder welche von vielen Hypothesen am besten zu den Daten passt. Molekulare Systematik und Evolutionsforschung benutzen hierfür Verfahren, die überall in den Naturwissenschaften gebräuchlich sind. Die Anwendung dieser Methoden in der molekularen Evolutionsforschung und Systematik ist allerdings oft nicht ganz leicht zu verstehen. Warum ist das so? Obwohl sich die wenigsten Biologen für Mathematik und Statistik begeistern, liegt die Schwierigkeit nicht bei den Biologen und ihrer Abneigung gegen Mathematik. Die in der Systematik gestellten Fragen sind mit den zur Verfügung stehenden Daten einfach schwieriger zu beantworten als viele Fragen in der Physik oder Chemie. Hierzu ein Beispiel: Der Astrophysiker Arthur Stanley Eddington reiste 1919 auf die Insel Príncipe im Golf von Guinea. Er sammelte dort während einer totalen Sonnenfinsternis Daten, die bestimmte Aussagen der Relativitätstheorie prüfen sollten. Letztlich wollte er wissen, ob die Daten die Newton’sche oder die Einstein’sche Physik unterstützen. Es gab also zwei Theorien und drei mögliche Ergebnisse. Die Daten konnten die Relativitätstheorie oder die Newton’sche Theorie unterstützen oder beiden Theorien widersprechen. Wir wollen uns als Phylogenetiker aber nicht zwischen zwei vorab formulierten Theorien entscheiden, sondern mit Hilfe unserer Daten den Stammbaum ermitteln, der die von uns untersuchten Arten genealogisch miteinander verbindet. Jeder mögliche Stammbaum ist dabei eine Hypothese, die von unseren Daten mehr oder weniger stark unterstützt wird. Wie wir weiter unten sehen werden, gibt es schon bei wenigen Arten eine unüberschaubar große Anzahl möglicher Stammbäume. Wir müssen also nicht wie Eddington eine simple ja-nein Entscheidung treffen, sondern auf irgendeine Weise berechnen, wie stark unsere Daten die einzelnen Stammbäume unterstützen, damit wir den am besten unterstützten Baum als beste Hypothese auswählen können. Eine weitere Schwierigkeit liegt in der Art und Weise begründet, wie man in den Naturwissenschaften Hypothesen und Theorien testet. Üblicherweise leitet man aus Theorien Beobachtungen ab und prüft, ob sich diese „theoretischen“ Beobachtungen mit den Beobachtungen in der Wirklichkeit decken. Nach der Relativitätstheorie folgt das Licht zum Beispiel nicht einer geraden Bahn, sondern wird durch Gravitationsfelder gekrümmt. Eddington konnte während der Sonnenfinsternis belegen, dass das Licht optisch benachbarter Sterne durch das Schwerefeld der Sonne abgelenkt wurde. Aber welche durch Beobachtungen überprüfbaren Aussagen lassen sich aus einem Stammbaum ableiten? An den folgenden drei Kurstagen sollen Sie lernen, wie man aus DNA-Sequenzdaten Stammbäume berechnen kann, wie man aus einer Vielzahl von Stammbäumen denjenigen herausfiltert, der die stärkste Unterstützung durch die Daten erfährt, wie man die genaue statistische Unterstützung für einzelne Äste eines Baumes ermittelt und vieles mehr. Das geht nicht ganz ohne Mathematik und Statistik aber: keine Panik Wie im ersten Teil werden wir eine phylogenetische Analyse in Einzelschritten durchlaufen. In diesem Kurs begnügen wir uns mit einem intuitiven Verständnis der zugrundeliegenden Statistik und Mathematik. Sie brauchen dafür keine sonderlich großen mathematischen Kenntnisse, sondern nur den Willen, über die eine oder andere Formel so lange zu meditieren, bis sich ein 21 gewisses Verständnis einstellt. Im folgenden versuchen wir, alle zum Verständnis notwendigen Begriffe und Konzepte zu erläutern. Zuerst sollen Sie lernen, wie man DNA-Sequenzdaten auf ihre Qualität prüft, Sequenzierfehler berichtigt, und die einzelnen Sequenzen so aneinander ausrichtet (aligniert), dass homologe Positionen miteinander verglichen werden können. Danach lernen Sie drei verschiedene Methoden zur Berechnung phylogenetischer Stammbäume kennen sowie zwei Methoden, mit denen man ermitteln kann, wie gut die zur Verfügung stehenden Daten verschiedene Hypothesen unterstützen. Zuletzt werden wir uns mit der Frage beschäftigen, wie man Evolutionsereignisse mit Hilfe phylogenetischer Stammbäume datieren kann. Die Datenanalyse erfolgt fast ausschließlich am Computer und erfordert den Einsatz einiger Programme. Manche lassen sich mit Hilfe der Maus oder von drop-down Menüs bedienen, andere erfordern die manuelle Eingabe von Befehlen in Befehlszeilen. Die Anleitung hält sich an folgende Konventionen: Fettschrift bezeichnet Befehle aus drop-down-Menüs oder Dialogboxen. Schrift in Courier bedeutet Eingabe in Befehlszeilen. „>Datei>Öffnen“ bedeutet „Klicken Sie im Menü Datei auf den Befehl Öffnen“. „hsearch addseq=random nreps=10000“ bedeutet „Tippen Sie diese Befehle über die Tastatur in eine Befehlszeile oder eine Befehlsdatei ein.“ Vorbereitungen vor Beginn der Analysen Die folgenden Arbeitsschritte bis zur eigentlichen phylogenetischen Analyse führen wir im Programm „Geneious“ durch. Mit Hilfe des Programms können Sie die vom DNA-Sequenzierer erzeugten Dateien bearbeiten und zu Datensätzen zusammenfassen, die Sie später statistisch analysieren sollen. Zur Auflockerung machen wir uns zunächst ein wenig mit der Benutzeroberfläche von Geneious vertraut. 1. Öffnen Sie das Programm „Geneious“ durch Doppelklick auf das entsprechende Symbol. Die Benutzeroberfläche des Programms ist einem E-mail-Klienten nachempfunden. In der Kopfzeile sehen Sie eine Reihe von Drop-Down-Menüs. Darunter befinden sich vier Fenster. Links sehen Sie eine Ordnerstruktur, rechts ein „Help“- Fenster und in der Mitte oben ein Fenster, in dem verschiedene Sequenz-Dateien aufgelistet sind. Wenn Sie auf eine der Dateien klicken, erscheint im unteren Fenster eine graphische Darstellung der DNA- oder Proteinsequenzen. Außerdem erscheinen rechts und oben im selben Fenster Menüs, mit denen Sie die graphische Darstellung ändern können. 2. Wählen Sie eine der Dateien aus. Sie haben nun 15 Minuten Zeit, sich spielerisch ein Bild von den verschiedenen Darstellungsoptionen zu machen. Danach werden sie aufgefordert, Ihren Kommilitonen eine dieser Optionen kurz vorzustellen. Bei phylogenetischen Analysen entstehen im Laufe mehrerer Tage ziemlich viele Computerdateien. Verschiedene Programme benötigen unterschiedliche Eingabedateien und speichern die Ergebnisse in unterschiedliche Ausgabedateien. Um für das Protokoll nicht den Überblick zu verlieren, ist es SEHR WICHTIG, dass Sie ein SYSTEM FESTLEGEN, nach dem Sie Dateien benennen und ordnen. Sonst wissen Sie schon bald nicht mehr, welche Daten und Ergebnisse sich in welcher Datei befinden. (Natürlich sind wir hier nicht beim Finanzamt, aber glauben Sie uns. Wir haben diesen Kurs schon acht Mal gegeben. Sie werden genau wie wir den Überblick verlieren.) 22 3. Wir richten zunächst eine Reihe von Ordnern ein, in denen Sie Ihre Daten speichern können. Durch einen rechten Mausklick auf >Local>New Folder erzeugen Sie einen neuen Ordner. Nennen Sie diesen Ordner „Phylokurs 2011 “. 4. Richten Sie hierin zwei Unterordner mit den Namen „Sequenzen“ und „Alignments“ ein. 5. Markieren Sie den Unterordner „Sequenzen“ mit einem Mausklick und wählen Sie dann >File>Import>From File 6. Nach Anklicken von >go to directory öffnet sich ein Fenster. Sie können sich nun zum zentralen Ordner Z/.../XXXX vorarbeiten, die Sequenzdateien (Endung *.ab1) markieren und durch >Import rechts unten in Ihren Ordner kopieren. Editieren von Sequenzen Bisher haben wir lediglich überprüfen können, ob überhaupt PCR-Produkt der erwarteten Länge gebildet wurde. Wir haben angenommen, dass es sich um die gewünschte DNA handelt, und haben gehofft, dass wir lesbare Sequenzen erhalten. Die im automatischen Sequenzierer vom Fluoreszenzdetektor aufgezeichnete Abfolge der Genfragmente erscheint in der Computerdatei („Trace File“) als eine Abfolge von „Peaks“. Abb. 2 zeigt einen Ausschnitt aus einem sehr gut lesbaren Trace File. Abb. 2: Perfektes Sequenzchromatogramm: deutliche Peaks, fast kein Rauschen. Bei nahezu jedem bisher durchgeführten Arbeitsschritt kann es aber zu Fehlern kommen, die zu schwer lesbaren Chromatogrammen führen (Abb. 3). Die Qualität der Chromatogramme liegt oft zwischen diesen Extremen. Einzelne Positionen sind nicht deutlich zu lesen, die meisten sind gut erkennbar. Sequenziert man beide Stränge eines Genfragments, kann man unsichere Positionen des einen mit Hilfe des anderen Strangs ergänzen. Diesen Vorgang bezeichnet man als „Editieren“ der Sequenzen. Bei langen PCR-Produkten verwendet man wegen der begrenzten Leselänge zusätzlich interne Primer zum Sequenzieren. Fehler in den Trace files treten auch dadurch auf, dass die Wellenlängen der Infrarotlaser im Sequenzierer relativ nahe beieinander liegen. Dadurch kommt es, besonders bei schwachem Signal am Anfang oder Ende einer Sequenz zu Fehlablesungen des Detektors. 23 Abb. 3: Nahezu unleserliches Sequenzchromatogramm: nur wenige deutliche Peaks, viel Rauschen. Aufgabe 6: Die DNA-Polymerase arbeitet nicht fehlerfrei. Mit einer geringen Wahrscheinlichkeit werden auch falsche Nukleotide in die synthetisierten DNA-Stränge eingebaut. Warum führt das normalerweise nicht zu Sequenzierfehlern? Sie werden sich daran erinnern, dass wir die Gene nicht nur mit einem sondern mit drei Primern sequenziert haben. Für jede Sequenzierreaktion haben wir ein Sequenzchromatogramm. Die vollständige Sequenz für jede Art müssen wir durch Zusammenführen dieser Dateien zusammenstellen. Außerdem müssen wir die Qualität der Chromatogramme prüfen und ggf. falsch zugeordnete Basen korrigieren. Beide Arbeitsschritte erfolgen in Geneious. 1. Zunächst führen wir die verschiedenen Trace files eines PCR-Produktes zu einem sog. „Contig“ zusammen. Die zusammen gehörenden Elektropherogramme werden mit der Maus markiert (drücken Sie die Umschalttaste, um mehrere Dateien zu markieren) und erscheinen dann im Fenster unten als hellblaue Streifen. Bereiche schlechter Qualität am Anfang und Ende sind mit roten Balken unterlegt, gut lesbare Abschnitte mit schwarzen Strichen. 2. In der Kopfzeile klicken wir auf den Knopf >Assembly. Es öffnet sich ein Fenster, in dem wir verschiedene Optionen wählen können. 3. Wir behalten zunächst die Grundeinstellungen bei, wählen unter >Assembly name einen Namen für das Contig aus und klicken >OK. Die Chromatogramme werden nun „assembliert“ und erscheinen danach im unteren Fenster sortiert und teilweise überlappend. Oberhalb der Chromatogramme erscheint ein dicker schwarzer Balken („Consensus“). Hinter ihm verbirgt sich die aus den Chromatogrammen errechnete Gesamtsequenz (der „Konsensus“). Im oberen Fenster sieht man eine neue Datei mit dem Namen „Contig“ oder „Contig [Nr.]“. 4. Vergrößern Sie die Ansicht entweder durch Klicken auf das Lupensymbol rechts oder durch anklicken des Knopfes . Sie sehen nun oben die Buchstabenabfolge der Konsensussequenz, darunter verschieden dicke grüne Balken („Coverage“), die anzeigen, aus wie vielen Chromatogrammen der Konsensus errechnet wurde, und darunter die Chromatogramme und die Einzelsequenzen in Buchstabenform. In der Beschriftung der Chromatogramme links können sie sehen ob die Sequenz in Vorwärts- („FWD“) oder Rückwärtsrichtung („REV“) angeordnet ist. Aufgabe 7: Erklären Sie, warum einige der Sequenzen beim Assemblieren umgedreht werden. Reicht es, die Sequenzen einfach von hinten nach vorne zu betrachten oder müssen weitere Veränderungen vorgenommen werden? 24 7. Alternativ kann man beim Assemblieren verschiedene andere Optionen wählen, z. B. unter „Sensitivity“ >Highest Sensitivity, >Do not trim. Mit >Create subfolder kann man neue Unterordner erzeugen, in denen die Contig-Datei abgespeichert wird. Sie erscheint dann nicht im selben Fenster. 8. Wenn einem die Anzeige im unteren Fenster zu klein ist („Man wird ja auch älter“) kann man mittels Doppelklick auf das Contig ein neues größeres Fenster öffnen. Im Menü auf der rechten Seite kann man wieder die unterschiedlichsten Darstellungsoptionen wählen. Lassen Sie Ihrem Spieltrieb freien Lauf. 9. In der obersten Zeile des neuen Fensters können Sie verschiedene Ansichten der Chromatogramme und des Contigs wählen. Am wichtigsten ist die aktuell offene “Contig View“. Sie können zum Spaß aber auch die sequenzierten Fragmente als virtuelles Gel, oder das gesamte Contig in einer Textansicht anschauen. 10. Unter „Colours“ können Sie verschiedene Farbdarsstellungen der Buchstaben wählen. „Quality“ zeigt Ihnen gut lesbare Basen hellblau, schlechter lesbare sukzessive dunkler an. Die Einstellung „Clustal“ zeigt die Basen in unterschiedlichen Farben, die man unter „Edit“ anpassen kann. 11. Unter >Graphs>Options können Sie „Show Graphs“ wegklicken, so dass die Chromatogramme verschwinden. >Sequence Logo lässt eine psychedelische Buchstabenfolge erscheinen, in der die Qualität der Konsensussequenz durch die Größe der Buchstaben angezeigt wird. Spielen Sie wieder herum und erklären Sie danach Ihren Kommilitonen eine der Optionen, die Ihnen besonders gut gefällt. Nachdem wir uns nun wieder etwas entspannt haben, kommen wir zur eigentlich Arbeit, der Kontrolle und Korrektur der Chromatogramme und Konsensussequenzen. 12. Unter >Options (rechts vom Knopf „Highlighting“) klicken Sie >Highlighting und wählen Sie „Disagreement“ to „Consensus“ an. Danach >Go to next disagreement oder Strg+d. Der Cursor springt zur nächsten Stelle, an der die Chromatogramme widersprüchliche Signale zeigen, falls es solche gibt. 13. Inspizieren Sie diese Position des Contigs. Können Sie entscheiden, welche Base an dieser Stelle korrekt ist? 14. In der zweiten Zeile des Fensters finden Sie einen Menüpunkt „Allow editing“. Klicken Sie ihn an. Nun können Sie in der Basenabfolge wie in einem Textdokument schreiben (Buchstaben einfügen, löschen usw.). Bei jeder Änderung erscheinen Symbole über oder unter der entsprechenden Buchstaben-Sequenz: gelbe Balken für Änderungen, dunkelrote für Deletionen, grüne für Insertionen. 15. Korrigieren Sie auf diese Weise das gesamte Contig. Wenn Sie sich nicht entscheiden können, welches Nukleotid das richtige ist, schreiben Sie ein „N“ in die Datei. 16. Schon der Sequenzierer hat die meist schlecht lesbaren Enden der Chromatogramme „getrimmt“. Die so „abgeschnittenen“ Passagen sind zwar noch vorhanden, in der Darstellung aber mit einem roten Balken unterlegt. Sie wurden zur Berechnung der Konsensu-Sequenz nicht herangezogen. Wenn Sie mit dem Trimming unzufrieden sind, weil z. B. zu viel der Sequenz verworfen wurde, können Sie die Einstellungen ändern. Klicken Sie auf >Annotate & Predict>Trim Ends. Ein Fenster öffnet sich. 25 17. Änderungen können Sie z. B. beim „Error Probability Limit“ vornehmen. Wenn Sie die Zahl 0.05 verkleinern, legt Geneious strengere Maßstäbe an und trimmt größere Teile der Sequenzen, wenn Sie sie vergrößern werden größere Teile behalten. Diesen Arbeitsschritt können Sie auch nach dem Alignment (s.u.) vornehmen. 18. Um den fertig bearbeiteten Konsensus zu speichern, markieren Sie das Wort „Consensus“ links neben der Sequenz. 19. Klicken Sie auf >Extract im Top-Menü. Es öffnet sich ein neues Fenster „Extract“. Geben Sie einen Namen in der Feld „Extraction name“ ein und klicken Sie >OK. Das Fenster mit dem Contig schließt sich und im oberen Zentralfenster erscheint eine neue Datei mit dem Namen des Consensus Files. Wenn Sie auf diese Weise alle Sequenzen editiert haben, schließen Sie Seqman. Als nächstes muss aus den Einzelsequenzen ein Alignment erstellt werden. Wir müssen uns aber vorher noch vergewissern, ob die Sequenzen wirklich zu den von uns zu untersuchenden Arten gehören. Hierfür wird ein „BLAST-search“ in Genbank durchgeführt. BLAST-Suche in Genbank Durch unzählige Sequenzierungsprojekte, am spektakulärsten vielleicht das Projekt „Assembling the Tree of Life“ (http://www.nsf.gov/bio/pubs/awards/atol_02.htm), sind seit den 70er Jahren ungeheure Mengen an DNA- und Proteinsequenzen erzeugt worden. Um diese Datenflut zu speichern und der Forschung zugänglich zu machen, unterhalten das National Institute of Health, das European Molecular Biology Laboratory und die DNA Databank of Japan untereinander vernetzte Sequenz-Datenbanken. Alle renommierten wissenschaftlichen Zeitschriften verlangen heute von ihren Autoren, dass sie Sequenz-Daten in einer dieser Datenbanken hinterlegen. Diese Daten können dann von jedem anderen für wissenschaftliche Arbeiten verwendet werden. Systematiker nutzen diese Datenbank auf zweierlei Weise. Sie verwenden bereits publizierte Sequenzdaten in eigenen Datensätzen. Das spart Zeit und Kosten. Mit Hilfe eines Suchalgorithmus namens BLAST (Basic Local Alignment Search Tool) kann man in Genbank aber auch nach Sequenzen suchen, die einer selbst erstellten Sequenz ähneln. Auf diese Weise findet man heraus, ob die eigenen Sequenzdaten wirklich vom untersuchten Organismus stammen (und nicht von kontaminierenden Bakterien, Pilzen oder den Objekten der Kollegen). Wir testen zunächst eine der im Praktikum erstellten Sequenzen. Die vielleicht am häufigsten genutzte Sequenzdatenbank ist GenBank. Auch die folgende BLAST-Suche könnte man direkt auf der Internetseite von GenBank durchführen (http://www.ncbi.nlm.nih.gov/blast/Blast.cgi), indem man die Sequenz in ein Suchfeld kopiert. Bequemer geht es aber direkt aus Geneious heraus. 1. Erzeugen Sie im linke Fenster unter „Local“ einen neuen Ordner mit dem Namen „BLAST“.Kopieren Sie die Sequenzen, die Sie untersuchen wollen durch drag and drop in diesen Ordner. 2. Markieren Sie eine Ihrer Sequenzen mittels >Sequence Search im Top-Menü. Es öffnet sich ein neues Fenster. 3. Klicken Sie auf den Punkt neben dem Namen der Sequenz. 4. Wählen Sie unter “Database” nr. (Dies ist die Grundeinstellung.) 5. Als Suchalgorithmus wählen Sie “Megablast“. 26 6. Unter >Maximum Hits können Sie auswählen, wie viele ähnliche Sequenzen Ihnen Geneious anzeigen soll. Wählen Sie hier eine kleine Zahl (z.B. 10), sonst dauert die Suche sehr lange. 7. Unter >Searches im linken Fenster erscheint ein neuer Ordner. Der Fortschritt der Suchanfrage wird im Zentralfenster angezeigt. 8. Nach Ende der Suche erscheinen die ähnlichsten Sequenzen in Genbank im Zentralfenster mit Zusatzinformationen. Wir wollen zunächst wissen, von welchem Organismus unsere Sequenzen stammen und sind deshalb an der Spalte „Organism“ interessiert. 9. Eine gute Übereinstimmung ihrer Sequenz mit den ähnlichsten Sequenzen in Genbank bedeutet in der Regel eine enge Verwandtschaft. Wenn also die ähnlichsten Sequenzen in Genbank von Menschen und Mäusen stammen, haben Sie keine Bromelie sequenziert. 10. Wenn Sie Näheres zu den in GenBank gespeicherten Sequenzen wissen wollen, müssen Sie sich die vollständgen GenBank-Einträge ansehen. Markieren Sie eine oder mehrere Sequenzen aus der Liste der BLAST-Hits. Im Fenster unten können Sie >Download Full Sequence(s) anklicken. Es erscheinen keine neuen Dateien, aber die bereits vorhandenen werden vervollständigt. Der bisher grauer Name der Sequenzen färbt sich schwarz. 11. Wenn Sie eine der schwarzen Sequenzen markieren und unten >Text View anklicken, erscheint der ganze Genbank-Eintrag. Sie sehen zunächst parallel Ihre eigene Sequenz und die in GenBank gefundene Sequenz mit der GenBank accession number. Zwischen den beiden Buchstabenreihen zeigt eine dritte Reihe Übereinstimmungen zwischen beiden Sequenzen an. 12. Weiter unten sehen Sie Details zur GenBank-Sequenz: Name, systematische Zuordnung, Einsender und ggf. die Publikation, in der die Sequenz erstmals erscheint, dann eine Beschreibung der Quelle, aus der die Sequenz stammt und eine genauere Beschreibung des Gens (Name, Positionen von Exons und Introns usw.). Zuletzt folgt die Sequenz noch einmal im GenBank-Format. Weiter oben finden Sie einen Link, mit dem Sie direkt zum Datenbankeintrag bei GenBank kommen. 13. Auch bei der BLAST-Funktion bietet Geneious allerlei Gimmicks. >Alignment View im unteren Fenster zeigt Ihnen nun eine Konsensus-Sequenz aus allen Nukleotiden (nummeriert), die in beiden Sequenzen vorkommen. Darunter einen grünen Balken der anzeigt, in wie vielen Sequenzen das Konsensus-Nukleotid vorkommt. Im Falle von zwei Sequenzen sind das entweder beide oder keine (warum nicht eine?). Darunter sehen Sie die nummerierten beiden Sequenzen und einen farbigen Balken, der unterschiedliche Teile der Sequenz anzeigt. Das kann sehr nützlich sein, wenn man Sequenzen bei GenBank auflädt, und seine eigenen Sequenzen annotieren muss. 14. Zur Entspannung markieren Sie nun noch eine Sequenz mit rechtem Mausklick und wählen Sie >Linnaeus Blast. Schauen Sie zunächst Herrn Linné bei seinen Kaspereien zu. 15. Schließlich erscheint im unteren Fenster eine neue Datei. >Query Sequence View zeigt Ihnen die Sequenz mit GenBank-Sequenzen als Alignment (s. nächstes Kapitel). Was sehen Sie, wenn Sie >Linnaeus View auswählen? 16. Ein Klick auf den mit einem grünen Pfeil markierten „Top-Hit“ öffnet ein Fenster mit dem Sequenzalignment von „Query“ (Ihrer Sequenz) und der ähnlichsten Sequenz aus GenBank. 27 Im nächsten Schritt werden die Einzelsequenzen zu einem Gesamtdatensatz zusammengefügt, aus dem dann ein sogenanntes „Alignment“ erstellt wird. Alignieren der Sequenzen Bei der phylogenetischen Auswertung von Sequenzdaten spielt im Grunde die Ähnlichkeit der Sequenzen die Hauptrolle. Diese Ähnlichkeit lässt sich auf ganz verschiedene Weise messen. Man kann zum Beispiel zählen, an wievielen Stellen in jeweils zwei Sequenzen unterschiedliche Nukleotide eingebaut sind. Natürlich kann man die Sequenzen dafür nicht willkürlich nebeneinander legen und die Unterschiede notieren, sondern muss „gleiche“, sogenannte homologe Positionen der beiden Sequenzen miteinander vergleichen. Beim Scrollen durch den Datensatz werden Sie feststellen, dass Sie im Gewimmel der Sequenzen anfangs noch eine Struktur erkennen. Weiter hinten verschwindet diese Struktur zunehmend. In fast allen Genen kommt es nämlich gelegentlich zu Insertionen oder Deletionen („Indels“) von einzelnen Nukleotiden oder längeren Genabschnitten. Durch die zunehmende Zahl von Indels werden die homologen Positionen der Sequenzen immer weiter voneinander weggerückt, je weiter man durch den Datensatz scrollt. Durch Einsetzen von „Leerstellen“, sog. „Gaps“ müssen die Sequenzen wieder auf gleiche Länge gebracht und homologe Nukleotide verschiedener Sequenzen an die gleiche Position gerückt werden. Diesen Vorgang nennt man „alignieren“, das Resultat ist das „Alignment“, das als Datengrundlage der phylogenetischen Rekonstruktion dient. Die Schwierigkeit beim Alignieren besteht darin, die genauen Positionen der Indels ausfindig zu machen, und Gaps an der richtigen Stelle einzufügen. Die beiden folgenden Sequenzen lassen sich z. B. auf zwei verschiedene Arten alignieren. 1 2 ATGCGTCGTT || || ||| ATCCG-CGTC 1 2 AT--GCGTCGTT || ||||| ATCCGCGTC Besonders bei großen Datensätzen mit vielen Arten und variablen Sequenzen lässt sich ein Alignment deshalb nicht einfach nach Augenmaß durchführen. Das schädigt erstens die Augen und ist zweitens nicht objektiv. Durch Einfügen beliebig vieler Gaps lässt sich ein perfektes Alignment ohne Substitutionen erzielen, bei dem an jeder homologen Position nur gleiche Nukleotide oder Gaps vorkommen. Ein solches Alignment würde nicht den natürlichen Verhältnissen entsprechen, unter denen Substitutionen erwiesenermaßen vorkommen. Wenn ein Computer ein optimales Alignment erstellen soll, muss man ihm ein Optimierungskriterium vorgeben, an dem er sich bei seinen Berechnungen orientieren kann. Die am häufigsten verwendeten Programme werten Indels genau wie Substitutionen als Evolutionsereignisse und belegen diese sozusagen mit Strafpunkten. Das Programm findet dann die Lösung, die mit den wenigsten Strafpunkten zu erreichen ist. Aufgabe 8: Es ist relativ einfach, zwei Sequenzen miteinander zu alignieren. Bei Datensätzen mit vielen Taxa wurde dagegen bis heute keine befriedigende und vom Rechenaufwand vertretbare Lösung gefunden. Können Sie sich vorstellen warum wir uns bis heute mit nicht perfekten Alignments begnügen müssen? Die Frage bleibt, wie man Indels im Vergleich zu Substitutionen wichten soll. Bei verschiedenen Wichtungen erhält man oft verschiedene Alignments, eine vertrackte Situation, da die Analyse auf der Annahme aufbaut, dass die Positionen eines Alignments homolog sind und nicht mehre28 re Positionen derselben Sequenz homolog sein können. Mehrere Auswege sind dafür vorgeschlagen worden: (1) Man verwirft Positionen mit unsicherem Alignment (Positionen mit vielen Gaps); (2) Man wichtet bei der späteren Analyse solche Positionen geringer als andere Stellen; (3) Man erstellt mehrere Alignments und kombiniert die Daten zu einem Superdatensatz („elision method“). Hierbei wichten sich die unsicherern Positionen sozusagen von selbst herunter, da sie in den unterschiedlichen Alignments zu verschiedenen phylogenetischen Resultate führen. (4) Man verwendet Methoden, die phylogenetische Bäume ohne Alignment errechnen können (z. B. POY:http://www.csc.fi/molbio/progs/poy/). Im Kurs gehen wir wieder den Weg des geringsten Widerstands und alignieren unsere Sequenzen mit Geneious. Dazu müssen Sie nun zunächst die übrigen Sequenzen des Datensatzes in Geneious laden. 1. Markieren Sie den Ordner „Alignment“ im linken Fenster. 2. >File >Import >From Multiple Files 3. Die Sequenzdateien befinden sich in einem Ordner, den Ihnen die Kursleiter während des Kurses verraten werden. Arbeiten Sie sich in diesen Ordner vor, markieren Sie die Dateien, die Sie importieren wollen und drücken Sie auf >OK. 4. Nach dem Import erscheinen die Sequenzen im Zentralfenster. 5. Markieren Sie die Sequenzen und wählen Sie >Alignment im Top-Menü. Es öffnet sich ein Fenster. 6. Sie können nun unter verschiedenen Optionen, z.B. Alignment-Methoden wählen. Entscheiden Sie sich für >Muscle-Alignment. Muscle ist ein besonders schnelles Programm zum Aligniern von Sequenzdaten. Das Alignment läuft in mehreren Schritten ab: (1) Das Programm vergleicht alle Sequenzen paarweise miteinander, wobei es aber kein paarweises Alignment erstellt (ein zeitraubender Prozess). Stattdessen errechnet es die genetische Distanz zwischen den Sequenzen anhand der Anzahl kurzer Untersequenzen, die diese Sequenzen gemeinsam haben. (2) Aufgrund dieser genetischen Distanz wird ein vorläufiger Stammbaum der Sequenzen errechnet. (3) Anhand dieses Dendrogramms aligniert Muscle als erstes die zwei ähnlichsten Sequenzen und arbeitet sich dann langsam zu den unähnlicheren vor, bis es den ganzen Datensatz aligniert hat. In weiteren Schritten prüft das Programm, ob sich das Alignment noch verbessern lässt. (4) Zunächst werden aufgrund des multiplen Alignments genaue paarweise Distanzen zwischen allen Arten berechnet. (5) Aufgrund der neuen Distanzmatrix wird dann ein neuer Baum berechnet und (6) ausprobiert, ob das zu einem anderen Alignment führt. Die Schritte 4 bis 6 werden wiederholt, bis sich keine Veränderung des Alignments mehr ergibt. Muscle ist besonders gut geeignet, um große Datensätze bis zu mehreren tausend Arten zu alignieren. In diesem Falle kann man mit einigen Zusatzeinstellungen z. B. die Größe des blockierten Arbeitsspeichers und die Rechenzeit beeinflussen. Für kurze Datensätze eignen sich die Standardeinstellungen des Programms am besten. 1. Sie können auch hier wieder unter verschiedenen Optionen wählen. Unter „Maximum number of iterations“ ist z. B. “8” eingestellt. Dieser Wert gibt vor, wie oft Muscle die Schritte 4-6 (oben) wiederholt, und kann verändert werden. Normalerweise braucht Muscle weniger als 8 Iterationen, um ein gutes Alignment zu finden. 29 2. Unter >More Options haben Sie eine Menge weiterer Optionen. 3. Klicken Sie >OK, um das Programm zu starten. 4. Im zentralen Fenster erscheint eine neue Datei namens „Nucleotide alignment [Nr.]. Geben Sie dem Alignment einen neuen Namen (analog zum Umbenennen von Dateien im Windows-Explorer). 5. Durch einen Doppelklick können Sie das Alignment in einem neuen Fenster öffnen. 6. >Allow Editing erlaubt es Ihnen, das Alignment manuell zu “verbessern”. Sie sollten von dieser Möglichkeit nur dann Gebrauch machen, wenn Sie oder das Alignment-Programm offensichtliche Fehler gemacht haben. Bei Muscle kommt das sehr selten vor. Es kann aber sein, dass Sie beim Editieren der Sequenzen einen Fehler gemacht haben. 7. Prüfen Sie also Ihr Alignment auf Unstimmigkeiten. Wenn Sie mit proteincodierenden Sequenzen arbeiten, sollten indels z.B. immer 3 bp oder ein Vielfaches davon lang sein. Können Sie erklären warum? Wenn Sie einzelne gaps finden, könnte das auf fehlerhaft editierte Contigs hindeuten. 8. Merken Sie sich bei Zweifeln das Sequenzmotiv (ca. 6 bp genügen) vor oder hinter der fraglichen Sequenz-Position und öffnen Sie das entsprechende Contig. 9. Wählen Sie >Annotate & Predict >Search for Motifs, geben Sie das Motiv ein und suchen Sie nach der entsprechenden Position durch >OK. 10. Zurück im Alignment können Sie die entsprechenden Positionen manuel verändern. 11. Das Entfernen oder Einfügen von „gaps“ bewegt Teile der Sequenzen nach links oder rechts. 12. Eine ganze Spalte können Sie durch Schreiben in den Konsensus löschen. 13. Mit “ctrl-z” können Sie versehentliche Änderungen rückgängig machen. 14. Zuletzt müssen Sie zwei Änderungen vornehmen. Am Anfang und Ende des Alignments gibt es immer viele „gaps“, weil die Sequenzen unterschiedlich lang sind. Hier handelt es sich aber nicht um Deletionen, sondern nur um fehlende Daten. Wenn bei einzelnen Sequenzen lange Stücke fehlen, ersetzen Sie die gaps durch „N“. Den „lückigen“ Anfang des Alignments können Sie mit der Maus markieren und mit der „Entf“-Taste löschen. 15. Das endgültige Alignment sicher Sie durch >File >save. 16. Die Programme zur Berechnung phylogenetischer Bäume arbeiten mit bestimmten Dateiformaten, in die Sie das Alignment nun noch konvertieren müssen. Dies geschieht durch >File >Export >Selected Documents. 17. Wählen Sie im Popup-Fenster als Format „Nexus (*.nex)“ und drücken Sie >OK. 18. Wählen Sie im nächsten Popup-Fenster („Select export location“) einen Namen für das Alignment und einen Ordner, in dem Sie es speichern wollen. Drücken Sie >OK und nach dem Warnhinweis >Proceed. 19. Exportieren Sie das Alignment auch ins Phylip-Format. 30 Verketten von Multigen-Datensätzen in Geneious Bei nahe verwandten Arten reicht der Informationsgehalt eines einzigen genetischen Markers oftmals nicht aus, um phylogenetische Stammbäume mit guter statistischer Unterstützung zu erhalten. Mehr Daten, in diesem Fall Sequenzen weiterer Genloci, können die statistische Unterstützung in solchen Fällen erhöhen. Außerdem entspricht die Phylogenie einzelner Gene nicht unbedingt der Phylogenie von Arten, die sich erst vor kurzer Zeit voneinander abgespalten haben. In Abhängigkeit von der Mutationsrate und den Populationgrößen bleiben DNAPolymorphismen aus einer Ursprungsart nämlich oft sehr lange Zeit in den Tochterarten erhalten. Schlussfolgerungen zur Verwandtschaft sehr nahe verwandter Arten sollten deshalb nicht nur auf der Untersuchung eines Gens basieren. Im Laborkurs haben Sie ein Gen selber sequenziert. Die ersten Analysen haben Sie mit diesem Datensatz durchgeführt. Die Daten für ein weiteres Gen werden Ihnen zur Verfügung gestellt damit Sie gegen Ende des Kurses beide Datensätze miteinander kombinieren (im englischen spricht man von „concatenate“ von „catena“, dem lateinischen Wort für Kette) und analysieren können. Das Zusammenfügen der Datensätze in Geneious ist sehr einfach, wenn die Taxa in beiden Alignments in gleicher Reihenfolge erscheinen. 1. Kopieren Sie das zweite Sequenzalignment des Gens matK (im Kurs zur Verfügung gestellt) in denselben Ordner „Alignment“ im linken Fenster, in dem sich ihr selbst erstelltes Alignment befindet. 2. Prüfen Sie, ob die Sequenzen (Taxa) in beiden Alignments in gleicher Reihenfolge vorliegen und die gleichen Namen tragen. Ansonsten ändern Sie die Namen entpsrechend und verschieben Sie die Sequenzen im unteren Fenster mit der Maus. 3. Speichern Sie ggf. Änderungen in den Dateien. 4. Markieren Sie nun beide Alignments im mittleren Fenster und wählen Sie >Tools>Concatenate Sequences or Alignments... 5. Es öffnet sich ein neues Fenster, in dem Sie die Reihenfolge der Gene im erweiterten Alignment festlegen können. >OK erzeugt eine neue Datei mit dem Namen „Concatenated Alignments 2“. 6. Benennen Sie die Datei so um, dass Sie sie in drei Tagen noch wiedererkennen. 7. Speichern Sie sie danach im Nexus- und Phylip-Format. Datenanalyse: Errechnen phylogenetischer Stammbäume Aus molekularen Daten kann man eine Vielzahl von Informationen extrahieren. Wir beschränken uns in diesem Kurs aber auf einige Fragen, die üblicherweise in der Systematik auftauchen. Die am häufigsten gestellte Frage ist die nach der Verwandtschaft der Organismen. Nach der Evolutionstheorie gehen alle Organismen auf einen Urorganismus zurück und sind demnach miteinander verwandt. Da die DNA von Generation zu Generation repliziert und weitergegeben wird, sind auch alle homologen DNA-Sequenzen und die daraus synthetisierten Proteine miteinander verwandt. Deshalb kann man Protein- oder DNA-Sequenzen dazu verwenden, die Evolutionsgeschichte zu rekonstruieren und die Verwandtschaftsverhältnisse der Organismen aufzudecken. Der Replikationsmechanismus der DNA funktioniert nicht fehlerfrei. Hin und wie- 31 der kommt es zu Ablesefehlern, bei denen ein Nukleotid durch ein anderes ersetzt wird. Wenn sie nicht letal sind, können solche Substitutionen an die Nachkommen weitervererbt werden. Je länger zwei Sequenzen unabhängig voneinander existieren, desto mehr Substitutionen haben sie in der Regel akkumuliert. Man kann also genetische Unterschiede (die genetische Divergenz) zwischen Arten als Maß für ihre Verwandtschaft heranziehen und aus dieser Divergenz einen phylogenetischen Stammbaum errechnen. Ein solcher Stammbaum ist ein Modell oder eine Hypothese der verwandtschaftlichen Beziehungen zwischen den untersuchten Arten. Wie rekonstruiert man Stammbäume? Nach welchen Kriterien soll man vorgehen, wenn man aus allen möglichen phylogenetischen Stammbäumen den herausfinden will, der die Evolution der Gruppe am besten wiedergibt? Um den „besten“ Baum unter allen möglichen herauszufinden, braucht man ein Optimierungskriterium, nach dem entschieden werden kann, wie „gut“ ein Baum im Vergleich zu anderen ist, wie gut also die erhobenen Daten eine bestimmte Phylogeniehypothese unterstützen. Drei solcher Kriterien wollen wir im Kurs besprechen: (1) das Prinzip der maximalen Parsimonie (MP), (2) das Konzept der maximalen Likelihood (ML) und (3) das Konzept der A-posterioriWahrscheinlichkeit oder Bayes’sche Verfahren. Bevor wir uns diese Methoden ansehen, aber ein kleiner Exkurs zu phylogenetischen Stammbäumen. Box 1: Phylogenetische Stammbäume Ein phylogenetischer Stammbaum verdeutlicht modellhaft die evolutionären Beziehungen zwischen Organismen. Er ist die grafische Darstellung einer Hypothese, die besagt: „So könnten die im Datensatz vertretenen Arten miteinander verwandt sein.“ Jeder Stammbaum besteht aus Ästen, die an Knoten miteinander verbunden sind. Im folgenden Beispiel (s. u.) sind zwei interne Knoten mit X und Y bezeichnet. Die Organismen stellen die Endpunkte der Äste dar, und werden auch als terminale Knoten bezeichnet. In unserem Fall sind dies die Endpunkte A-L. Die Arten K und L sind in diesem Beispiel näher miteinander verwandt als H und L. Die Länge der Äste ist proportional zur Anzahl der Substitutionen von einem Knoten zum nächsten. Der Maßstab unten links zeigt die Astlänge für 0.1 Substitution je Position des Alignments an. A B X C Y D E F G H I J 0.1 K L Die meisten phylogenetischen Stammbäume sind wie dieser dichotom verzweigt. Das heißt, es haben sich an jedem Knoten aus einer Ursprungsart zwei Tochterarten gebildet. Es können aber auch mehr als zwei Tochteräste von einem Knoten ausgehen (polytome Verzweigung). Ohne dass sich der Informati- 32 onsgehalt eines phylogenetischen Stammbaums ändert, kann man die Äste wie bei einem Mobile um ihre Knoten drehen. E und F sind z. B. in diesem Baum nicht näher mit der Gruppe G-L verwandt als C und D. Phylogenetische Bäume können eine Wurzel haben oder nicht. Eine Wurzel verleiht dem Baum die zusätzliche Information, von wo die Evolution ihren Ausgang genommen hat. Im anderen Falle könnte jeder interne Knoten den ersten Artbildungsschritt darstellen. Die mögliche Anzahl verschiedener phylogenetischer Bäume für eine bestimmte Anzahl von Arten ist immens. Für n Arten beträgt sie: Un = (2n-5)(2n-7) … (3)(1) für ungewurzelte Bäume und Rn = (2n-3)(2n-5) … (3)(1) für gewurzelte. Für 20 Arten ist R20 = 8 200 794 532 637 891 559 000, für 100 Arten gibt es mehr Bäume als Atome im Universum. Aus dieser Menge gilt es, den optimalen Baum herauszufinden. Schon bei relativ kleinen Datensätzen lassen sich nicht mehr alle möglichen Bäume testen. Man muss auf sogenannte heuristische Suchverfahren zurückgreifen, um zu einem Ergebnis zu kommen (s. Box 3). Für phylogenetische Bäume hat sich eine Kurzschreibweise eingebürgert, die auch von vielen Computerprogrammen gelesen wird: das Newick Format, das die Verwandtschaftsverhältnisse in Form von Klammern ausdrückt. Die Gruppe I-L sieht im Newick-Format so aus: (I(J(K,L))) Aufgabe 9: Schreiben Sie den vollständigen Baum aus Box 1 als ungewurzelten Baum im Newick-Format auf. (1) Das Prinzip der maximalen Parsimonie (MP) ist das einfachste der drei hier vorgestellten Kriterien, nach dem man aus der Vielzahl der möglichen Bäume einen optimalen auswählen kann. Das Parsimonie-Prinzip wird auf den mittelalterlichen Franziskanermönch und Philosophen William von Ockham zurückgeführt. Dieser argumentierte, dass man von mehreren Erklärungen oder Theorien zur Erklärung eines Phänomens immer diejenige auswählen soll, die mit den wenigsten Grundannahmen auskommt. Analog postuliert MP, dass die Topologie die Verhältnisse am besten wiedergibt, die mit den wenigsten Substitutionsereignissen die heute zu beobachtenden Sequenzunterschiede erklärt. MP hat damit auf den ersten Blick keine statistische Grundlage, sondern ist mehr oder weniger philosophisch motiviert. Praktisch ermittelt man für jeden möglichen Baum und jede Nukleotid-Position die möglichen Nukleotide der Vorläufersequenzen an den internen Knoten des Baumes und zählt dann die minimale Anzahl an Substitutionen, die die Evolution der Gruppe erklärt. Walter Fitch hat 1971 eine Methode veröffentlicht, mit der sich diese Substitutionen einfach abzählen lassen. Man erzeugt an jedem internen Knoten die Schnittmenge der Nukleotide an den beiden untergeordneten Knoten. Wenn diese Schnittmenge leer ist (wie in der Abbildung unten an den beiden mit „1“ markierten Knoten), bildet man stattdessen die Vereinigungsmenge und zählt ein Substitutionsereignis. Man addiert die Zahlen für alle Nukleotidpositionen separat für jede Baumtopologie und wählt die Topologie mit den wenigsten Substitutionen als die optimale aus. 33 Vereinigungsmenge Schnittmenge MP verwendet nicht alle Positionen eines Alignments. Positionen, die in allen Sequenzen gleich sind, sind unter MP generell uninformativ. Bei Positionen, an denen nur eine Sequenz eine bestimmte Substitution aufweist, muss diese Substitution auf dem terminalen Ast liegen. Diese Positionen lassen unter dem Parsimonie-Kriterium ebenfalls keine Schlüsse auf die verwandtschaftliche Beziehung der Art zu. Als parsimonie-informativ bezeichnet man alle Positionen, an denen mehr als eine Art eine bestimmte Substitution aufweist. Da MP nur Substitutionen zählt, ohne den Substitutionsprozess zu modellieren, tut sich die Methode schwer mit Datensätzen, die viele Homoplasien aufweisen (s. Box 2). Box 2: Homologie und Homoplasie Die Merkmale zweier Organismen können ähnlich oder identisch sein, weil sie von einem gemeinsamen Vorfahren ererbt wurden. Dies trifft zum Beispiel auf die Flügel aller Vögel zu. In diesem Fall spricht man von homologen Merkmalen. Sie können aber auch unabhängig voneinander entstanden sein, wie zum Beispiel die Flügel der Vögel und Fledermäuse. Solche Merkmale bezeichnet man als Homoplasien. Ganz analog werden Nukleotide an einer Position des Alignments die zwei oder mehr Sequenzen von einem gemeinsamen Vorfahren ererbt haben, als Homologien bezeichnet. Wenn die Sequenzen das Nukleotid unabhängig voneinander durch Mutation erworben haben, spricht man von einer Homoplasie. In den meisten Fällen kann man davon ausgehen, dass identische Nukleotide an einer Position homolog sind. Bei den vier Sequenzen im folgenden Beispiel führt das allerdings zu Konflikten. Position Sequenz A Sequenz B Sequenz C Sequenz D 123456789 AAACCTTGG AATCGTTGG AATCGTTCG AAACCTTCG Angenommen der wahre Baum sieht so aus: ((A,D)(B,C)). Dann haben entweder Sequenz A und B das G oder Sequenz C und D das C an Position 8 unabhängig voneinander erworben. Wenn die wahre Topologie ((A,B)(C,D)) ist, gilt analog dasselbe für das G und C in Position 5 und das A und T in Position 3. Homoplastische Positionen einer DNA-Sequenz führen zu Konflikten bei der Auswahl eines optimalen Baums, da sie verschiedene Topologien befürworten. Zwischen dem Parsimonie-Prinzip und den Begriffen Homoplasie und Homologie wird von vielen eine logische Verbindung hergestellt. Vor dem Hintergrund gemeinsamer Abstammung sollten gleiche Merkmalszustände in zwei Arten so lange als ererbt angesehen werden, wie nichts gegen diese Annahme spricht. Die Annahme, dass identische Merkmale unabhängig voneinander erworben wurden, ist eine Ad-hoc-Hypothese zur Erklärung der Daten. Dem Parsimonie-Prinzip folgend, sollte man die Zahl solcher Ad-hoc-Hypothesen minimieren, also den Baum auswählen, der die geringste Zahl an Homoplasien aufweist. Das Ganze ist leider nicht so einfach wie es klingt (s. hierzu Felsenstein 2004: 136-146). Homoplasien haben praktische Auswirkungen auf die Anwendung von MP. Da unter MP Substitutionen nur „abgezählt“ werden, wird es mit jeder zusätzlichen Homoplasie schwieriger, einen optimalen Baum zu berechnen. Als ein Maß für die Verlässlichkeit eines MP-Baumes werden daher meist Homoplasie- 34 -Indices angegeben: Zur Berechnung des Consistency Index CI wird für jede Position des Alignments der Quotient ci = mi / si (mit mi = minimale Anzahl von Substitutionen in allen möglichen Topologien und si = beobachtete Anzahl von Substitutionen bei der betrachteten Topologie) ermittelt. CI ist dann das Mittel aus den Werten für alle Positionen: CI = Σimi / Σisi Dieser Wert ist nicht für alle Topologien identisch. Der Retention Index RI = (Σigi - Σisi) / (Σigi - Σimi) (mit gi = maximale Anzahl Subst. in allen möglichen Topologien) und der Rescaled Consistency Index RC = CI × RI sind dagegen unabhängig von der Topologie. Aufgabe 10: Erklären Sie, was man unter einer Schnittmenge, einer Vereinigungsmenge und einer leeren Menge versteht. Aufgabe 11: Erklären Sie anschaulich (nicht mathematisch), warum der Fitch-Algorithmus funktioniert. Aufgabe 12: Berechnen Sie den CI für die Sequenzen in Box 2 jeweils für die Topologien ((A,D)(B,C)) und ((A,B)(C,D)). Die beiden folgenden Kriterien, Likelihood und Bayes’sche A-posteriori-Wahrscheinlichkeit, sind statistische Methoden und versuchen zwei verschiedene Fragen zu Daten und Hypothesen zu beantworten. Der „Likelihoodist“ fragt: „Was sagen die vorliegenden Daten über bestimmte Hypothesen aus?“ Der „Bayesianer“ fragt: „Erhöhen die vorliegenden Daten mein Vertrauen in eine Hypothese oder verringern sie sie?“ Die Fragen klingen auf den ersten Blick identisch, sind es aber nicht, wie wir gleich sehen werden. (2) Das Gesetz der Likelihood lautet: Die Daten D favorisieren die Hypothese H1 über die Hypothese H2 genau dann, wenn die Wahrscheinlichkeit, die Daten zu beobachten, unter der Voraussetzung der Hypothese H1 höher ist als wenn man H2 voraussetzt. Mathematisch kann man das folgendermaßen schreiben: W(D| H1) > W(D| H2). Die Wahrscheinlichkeit der Daten unter Voraussetzung einer bestimmten Hypothese W(D| H) nennt man Likelihood. Diese Likelihood sagt nichts über die Wahrscheinlichkeit der Hypothese aus, wie Sober (2008) an einem netten Beispiel erläutert. Angenommen ich sitze zu Hause und höre plötzlich Lärm vom Dachboden. Ich könnte nun die Hypothese aufstellen, dass ein paar Zwerge auf dem Dachboden kegeln. Die Likelihood dieser Hypothese ist extrem hoch, denn die Wahrscheinlichkeit ist hoch, dass ich in diesem Falle Geräusche höre. Nichtsdestotrotz ist das natürlich völliger Unsinn. Der absolute Wert der Likelihood hilft einem deshalb nicht weiter, wohl aber das Likelihood-Verhältnis zweier Hypothesen, das definiert ist als: W(D| H1) / W(D| H2). Dieser Wert ist größer als 1, wenn Hypothese H1 eine höhere Likelihood als H2 hat und kleiner als 1 im umgekehrten Fall. Durch die Berechnung dieses Wertes kann man also ermitteln, welche von zwei Hypothesen durch die Daten stärker unterstützt wird und wie stark die eine gegenüber der anderen Hypothese favorisiert wird. Aufgabe 13: Eine scheinbar paradoxe Beobachtung zeigt deutlich, dass absolute LikelihoodWerte wenig über die Wahrscheinlichkeit einer Hypothese aussagen. Was geschieht mit dem Likelihood-Wert, wenn ich 10 oder 100 unabhängige Beobachtungen mache, deren Unterstützung für Hypothese H1 jeweils extrem hoch ist (z. B. L=0,99)? Wie sieht es mit einer Alternativhypothese H2 mit L=0,75 und dem Likelihood-Verhältnis zwischen beiden aus? Bei der Rekonstruktion phylogenetischer Stammbäume müssen wir uns natürlich nicht nur zwischen zwei sondern zwischen einer riesigen Anzahl von Hypothesen entscheiden. Das ist aber 35 nur praktisch, nicht theoretisch ein Problem. Die Topologie, bei der die Likelihood maximal ist, wird von den Daten am besten unterstützt. Hierfür muss man nun aber die Likelihood der Daten, also des Alignments, für jeden möglichen Stammbaum berechnen. Wie macht man das? Praktisch mit Hilfe eines Computerprogramms, theoretisch folgendermaßen: Die folgende Abbildung zeigt einen Beispielbaum mit vier Taxa 1, 2, 3, 4 und zwei internen Knoten 5, 6. Die Taxa und Knoten sind durch Äste unterschiedlicher Länge miteinander verbunden. Die Astlängen eines phylogenetischen Stammbaumes entsprechen dem Produkt aus der Substitutionsrate (z. B. Substitutionen pro Millionen Jahre) und der Zeit, die zwischen der Entstehung des Astes und seiner nächsten Aufspaltung vergangen sind. Je länger ein Ast ist, desto größer ist also die Zahl der Substitutionen auf diesem Ast. v1, v2 … v6 sind in der Abbildung Maßangaben für die Astlängen. 2 1 v1 3 v2 v3 5 6 4 v4 v6 v5 0 Um die Likelihood für eine bestimmte Position k des Alignments auszurechnen, setzen wir willkürlich je eines der vier Nukleotide an Knoten 0, 5 und 6. Die Nukleotide an den terminalen Knoten 1-4 sind durch unseren Datensatz vorgegeben. Bezeichnen wir die Nukleotide an den jeweiligen Knoten als x1, x2 … x6 und als gx0 die Wahrscheinlichkeit, dass der Knoten 0 das von uns ausgewählte Nukleotid x hat. Wir müssen jetzt nur noch berechnen, wie groß die Wahrscheinlichkeit ist, dass Nukleotid 0 entlang dem Ast v5 durch Nukleotid x5 ersetzt wird usw. von Knoten zu Knoten für alle Äste des Baumes. Wenn wir diese Wahrscheinlichkeit mit Px0x5 · v5, Px0x6 · v6, … bezeichnen (die Wahrscheinlichkeit hängt von den Astlängen v ab), ergibt sich die Likelihood durch die folgende lange aber nicht sehr komplizierte Formel: lk = gx0 · (Px0x5 · v5) · (Px5x1 · v1) · … · (Px6x4 · v4) Da wir die Nukleotide an den inneren Knoten in der Praxis nicht kennen, muss diese Wahrscheinlichkeit für alle möglichen Kombinationen von Nukleotiden an 0, 5 und 6 ausgerechnet und aufsummiert werden. Dieser Wert Lk (beachten Sie das große L!) heißt Likelihood-Funktion für die Position k des Alignments. Dann muss man diese Berechnung für alle Positionen des Alignments durchführen. Wenn man annimmt, dass jede Position unabhängig mutieren kann, entspricht die Likelihood für den gesamte Datensatz dem Produkt der Lk-Werte aller Positionen L = Π Lk. Und weil man mit Produkten von Wahrscheinlichkeiten, wie Sie in Aufgabe 9 gesehen haben, sehr schnell in Bereiche nahe 0 kommt, bevorzugen Mathematiker und Computerprogramme den Logarithmus der Likelihood, den man einfach addieren kann: lnL = Σ lnLk Wenn wir die Astlängen und die Topologie eines Baumes sowie einen Datensatz haben, fehlt uns eigentlich nur noch eines: ein Modell, mit dem man die Wahrscheinlichkeiten des Übergangs von Knoten zu Knoten errechnen kann, also ein Substitutionsmodell. Hierzu unten mehr. Wie man sich denken kann, ist die Ermittlung eines ML-Baums mit einer Wahnsinnsrechnerei verbunden. Schon bei relativ wenigen Taxa können auch leistungsfähige Computer nicht mehr 36 alle möglichen Baumtopologien durchtesten. Stattdessen wendet man sogenannte heuristische Suchalgorithmen an (s. Box 4), die den besten Baum aus einer begrenzten Anzahl untersuchter Bäume zu ermitteln versuchen. MP ist wesentlich weniger rechenintensiv, aber auch hier steigt die Zahl der möglichen Bäume mit der Zahl der Taxa mehr als exponentiell an (s. Box 1). (3) Bayes’sche Verfahren Auch „Bayesianer“ versuchen, mit Hilfe von Daten etwas über eine Hypothese zu erfahren. Sie gehen dabei aber anders vor als „Likelihoodisten“. Bayesianer wollen wissen, welchen Einfluss die Daten auf den Wahrscheinlichkeitsgehalt einer Hypothese haben. Erhöhen oder verringern sie diesen? Während man mit Likelihood keine Aussagen über einzelne Hypothese machen, sondern nur mehrere Hypothesen vergleichen kann (s. o.), kann man diese Frage mittels Bayes’scher Verfahren unter bestimmten Voraussetzungen beantworten. Bayesianismus basiert auf dem Bayes’schen Theorem, das sich aus Grundlagen der Wahrscheinlichkeitstheorie einfach herleiten lässt. Hierzu nimmt man die Definition einer bedingten Wahrscheinlichkeit: W(H | D) = W(H & D) / W(D) (1) Die Wahrscheinlichkeit eines Ereignisses H unter der Voraussetzung von Ereignis D ist gleich der Wahrscheinlichkeit, dass H und D gemeinsam eintreffen, geteilt durch die Wahrscheinlichkeit, dass D eintrifft. Sober (2008) gibt wieder ein leicht verständliches Beispiel. Wie groß ist die Wahrscheinlichkeit, dass eine Spielkarte Herz (♥) ist, unter der Voraussetzung, dass sie rot (█)ist? W(█ & ♥) ist gleich ¼, W(█) ist ½. Damit ist W(♥ | █) gleich ½. Formel (1) gilt auch umgekehrt: W(D | H) = W(H & D) / W(H). Damit ist W(H & D) = W(H | D) W(D) = W(D | H) W(H). Und W(H | D) = W(D | H) W(H) / W(D). Das ist Bayes Theorem, das dem Reverend Thomas Bayes zugeschrieben wird und das 1763 veröffentlicht wurde (da war Rev. Bayes allerdings schon tot). Das Theorem sagt uns, wie sich die Wahrscheinlichkeit einer Hypothese W(H) beim Eintreffen bestimmter Daten (Experimentalergebnisse, Beobachtungen) verändert. W(H) ist die Wahrscheinlichkeit der Hypothese, bevor man die Daten gesehen hat, die A-prioriWahrscheinlichkeit. W(H | D) ist die Wahrscheinlichkeit der Hypothese, nachdem man die Daten gesehen hat, die A-posteriori-Wahrscheinlichkeit. Eine alte Bekannte, die uns in dieser Formel wieder begegnet, ist die Likelihood W(D | H). Daneben gibt es noch eine unangenehme Zeitgenossin: W(D), die Gesamtwahrscheinlichkeit der Daten ohne Annahme einer bestimmten Hypothese. Die A-posteriori-Wahrscheinlichkeit ist im Gegensatz zur Likelihood eine echte Wahrscheinlichkeit und verhält sich auch mathematisch genau so. W(H) + W(nicht H) = 1. Die A-priori-Wahrscheinlichkeit und die absolute Wahrscheinlichkeit der Daten können in der Praxis große Schwierigkeiten machen. Ohne irgendwelche Daten gesehen zu haben, kann man die Wahrscheinlichkeit der meisten Hypothesen überhaupt nicht einschätzen. Und die absolute Wahrscheinlichkeit der Daten ist nur dann praktisch zu berechnen, wenn es eine relativ kleine Menge von möglichen Hypothesen gibt, etwa die, dass ein Patient eine bestimmte Krankheit hat oder nicht. Sie beträgt dann: W(D | H) W(H) + W(D | nicht H) W(nicht H). Das ist die durchschnittliche Wahrscheinlichkeit unter Berücksichtung der zwei möglichen Hypothesen. Aufgabe 14: Bayesianische Konzepte sind auch bei Alltagsproblemen nicht selten. Bestimmen Sie, was in der folgenden Schulaufgabe (aus Zhu & Gigerenzer 2006) der A-prioriWahrscheinlichkeit, der A-posteriori-Wahrscheinlichkeit und den erhobenen Daten entspricht und lösen Sie als Lockerungsübung die Aufgabe. Ein Mädchen geht in ein Dorf, um nach dem Weg zu fragen. 10 % der Dorfbewohner lügen. Von denen, die lügen, haben 80 % eine rote Na- 37 se, von denen, die nicht lügen, nur 10 %. Das Mädchen trifft einen Mann mit einer roten Nase und fragt ihn nach dem Weg. Wie groß ist die Wahrscheinlichkeit, dass der Mann lügt? Aufgabe 15: Phylogenetische Stammbäume können mehr oder weniger wahrscheinlich sein, aber kein einziger Stammbaum hat eine A-posteriori-Wahrscheinlichkeit von 0. Beschreiben Sie, was das für den wahrscheinlichsten Stammbaum von 20 Arten bedeutet. Bayes’ Theorem ist also unstrittig, nicht aber die Bayes’sche Statistik, also die Anwendung des Theorems in der Praxis. Schon für wenige Taxa gibt es so viele unterschiedliche Hypothesen (Bäume), dass die absolute Wahrscheinlichkeit der Daten nicht mehr zu berechnen ist. Man könnte aber zu einer Näherungslösung kommen, indem man eine Zufallsstichprobe von Stammbäumen in Abhängigkeit von ihrer Wahrscheinlichkeit sammelt. Genau so, wie man das Durchschnittseinkommen von Statistikern dadurch ermittelt, dass man eine repräsentative Stichprobe von ihnen befragt. In so einer Probe müssten sehr wahrscheinliche Bäume häufig und unwahrscheinliche selten vertreten sind und das möglichst genau in Abhängigkeit von ihrer Wahrscheinlichkeit. Wie kann man solche Daten sammeln? Eine Methode wurde 1997-1999 publiziert und macht sich zunutze, dass man die A-posteriori-Wahrscheinlichkeit eines Baumes wegen der dämlichen absoluten Wahrscheinlichkeit der Daten zwar schwer berechnen, aber die zweier Bäume gut vergleichen kann. Man kommt nämlich zu folgender Formel, in der sich der lästige Term W(D) herauskürzt: W(H1 | D) = W(D | H1) W(H1) / W(D) = W(D | H1) W(H1) W(H2 | D) W(D | H2) W(H2) / W(D) W(D | H2) W(H2) Unter der etwas idealisierten Annahme, dass alle Bäume gleich wahrscheinlich sind, wenn man keine Daten gesehen hat (nachts sind alle Katzen grau), reduziert sich das auf einen Likelihood-Verhältnistest. Die Annahme, dass alle Bäume gleich wahrscheinlich sind, trifft zwar sicher nicht zu, ist aber in diesem Zusammenhang trotzdem vernünftig. Solange man keine Daten gesehen hat, hat man auch keinen Grund, einen bestimmten Baum für wahrscheinlicher als andere zu halten. Man spricht in diesem Fall von einer nicht-informativen A-prioriWahrscheinlichkeit. Das Sammeln der Bäume funktioniert dann folgendermaßen. Ein Computerprogramm berechnet die Likelihood eines zufällig gewählten Stammbaums. Dann verändert das Programm einen Parameter der Phylogenie (eine Astlänge, die Position einer Art auf dem Stammbaum usw.) und berechnet die Likelihood für diesen neuen Baum. Erhöht sich die Likelihood, „akzeptiert“ das Programm den neuen Baum, verschlechtert sie sich, wird dieser Baum nur mit einer geringen Wahrscheinlichkeit akzeptiert. Ansonsten verbleibt das Programm auf dem ersten Baum. Diese Abfolge (Veränderung, Berechnung der Likelihood, LikelihoodVerhältnistest, Übergang auf einen neuen Baum) wird sehr oft wiederholt (bis zu mehrere Millionen mal). Das Programm „wandert“ auf diese Weise sozusagen von einem Baum zum nächsten und speichert dabei eine geringe Anzahl der „besuchten“ Bäumen (z. B. jeden 10. oder jeder 100.). Auf diese Weise sammelt das Programm Bäume proportional zu ihrer Likelihood. Man nennt diesen Prozess Markov-Ketten-Monte-Carlo-Verfahren. Dass man nicht jeden Baum speichert, hängt damit zusammen, dass man eigentlich eine Zufallsstichprobe sammeln möchte. Innerhalb der Markov-Kette ist aber jeder Baum von seinen unmittelbaren Vorgängern abhängig. Diese Abhängigkeit wird umso geringer, je mehr Schritte zwischen den gesammelten Bäumen liegen. Die Markov-Kette sammelt also nicht wirklich sondern nur näherungsweise eine Zufallsstichprobe. Das Verfahren hat den Vorteil, dass die Wahrscheinlichkeit jedes beliebigen Parameters der Phylogenie (z. B. einer bestimmten Evolutionslinie oder Astlänge) der Häufigkeit seines Auftretens in dieser Stichprobe entspricht, also sehr leicht und ohne viel Rechnerei (das macht ja der Computer) ablesbar ist. 38 Bildlich kann man sich vorstellen, dass ein Roboter darauf programmiert ist, in einer Hügellandschaft herumzulaufen. Immer wenn der nächste Schritt bergauf geht, tut der Roboter den Schritt. Wenn dieser Schritt bergab führt, dann berechnet der Roboter das Höhenverhältnis zwischen der alten und der neuen Position, zieht aus einem Zufallsgenerator eine Zahl zwischen 0 und 1 und geht nur dann weiter, wenn diese Zahl kleiner ist als das Höhenverhältnis. Ein solcher Roboter würde die Punkte der Landschaft proportional zu ihrer Höhe abschreiten. Meist läuft er auf den Hügeln herum, seltener an den Hängen, noch seltener in den Tälern. Ganz ähnlich lässt sich die „Landschaft“ der Bäume proportional zu ihrer Likelihood begehen. Aufgabe 16: Die Bayes’sche Herangehensweise und Likelihood kommen auf den ersten Blick oft zu erstaunlich unterschiedlichen Ergebnissen. Angenommen man soll vorhersagen, ob die nächste Karte aus einem gut gemischten Kartenspiel mit 52 Karten Herz ist. Eine vertrauenswürdige Freundin schaut sich die Karte an und verrät einem, dass das Herz-As als nächstes kommt. Wie hoch ist nun die Likelihood und wie hoch die A-posteriori-Wahrscheinlichkeit? Was könnte der Likelihoodist zu seiner Entschuldigung vorbringen? Nach dieser erschlagenden mathematisch-statistisch-philosophischen Abschweifung fragen Sie sich sicher, ob Sie in diesem Kurs jemals noch einen Baum berechnen werden. Deshalb nun zur Sache, der Berechnung von Stammbäumen. Und wie geht das praktisch? Die am häufigsten verwendeten Computerprogramme zur phylogenetischen Analyse sind PAUP, Phylip und MEGA. Phylip (http://evolution.genetics.washington.edu/phylip.html) und MEGA (http://www.megasoftware.net/) sind kostenlos im Internet erhältlich. PHYLIP implementiert eine Vielzahl verschiedener Methoden und ist das wahrscheinlich am weitesten verbreitete phylogenetische Programmpaket. PAUP ist ähnlich weit verbreitet und in der Benutzung einfacher, allerdings nicht kostenlos. Es existieren Versionen für Mac und Windows. Die drei Programme benötigen unterschiedliche Datenformate als input files. Mit Hilfe von Bioedit können Sie Alignments auch in Phylip-Format (*.phy) speichern. PAUP verwendet das sog. NEXUSFormat (*.nex) und kann selber Phylip-files konvertieren. Sie können Alignments aus Bioedit in Nexus-Format exportieren. MEGA benutzt ein Format, das von Bioedit nicht erstellt werden kann, konvertiert aber selber Phylip- und NEXUS-files. Box 4: Heuristische Suche (heuristic search) Eine heuristische Suche nach dem optimalen Baum erfolgt in zwei Schritten. Im ersten Schritt wird ein Ausgangsbaum erzeugt. Eine häufig verwendete Methode ist der Stepwise Addition Algorithm. Einem Ausgangsbaum von 3 Arten werden schrittweise weitere Arten angefügt, wobei man diese immer an der Stelle einfügt, an der man einen optimalen (Teil-) Baum erhält. Ausgehend vom vollständigen Ausgangsbaum, beginnt das Programm, Äste zu vertauschen und berechnet, ob sich so ein besserer Baum finden lässt. Es gibt wiederum verschiedene Methoden für dieses sogenannte Branch Swapping. Beim Nearest Neighbour Interchange (NNI) werden alle Bäume untersucht, die sich vom Ausgangsbaum in der Position zweier Arten unterscheiden. Beim Subtree Pruning and Regrafting (SPR) wird ein Ast abgeschnitten und an allen möglichen Stellen des Ausgangsbaumes wieder angesetzt. Dies wird für alle Äste des Baumes wiederholt. Beim Tree Bisection and Reconnection Algorithmus (TBR), wird der Ausgangsbaum in zwei Teile geschnitten und in allen möglichen Positionen 39 wieder zusammengefügt. Dies wird ebenfalls für alle möglichen „Schnittstellen“ wiederholt. Die Zahl der untersuchten Bäume ist bei TBR größer als bei SPR und NNI. Trotzdem untersucht man immer nur eine kleine Zahl aller möglichen Bäume. Um die Chance zu verkleinern, dass man auf diese Weise den optimalen Baum verfehlt, führt man meist mehrere heuristische Suchläufe durch, wobei man im ersten Schritt die Arten jeweils in willkürlicher Reihenfolge einfügt. Die Windows-Version von PAUP wird im wesentlichen über eine Befehlszeile gesteuert. PAUP ist ein enorm vielseitiges Programm (mit einer ungeheuren Menge von Befehlen). Wir können nicht mehr als ein paar Grundfunktionen kennenlernen und beginnen mit einer einfachen Analyse. PAUP benutzt in der Grundeinstellung Maximum Parsimony (MP) als Optimierungskriterium. 1. Öffnen Sie das Programm „PAUP“ und laden Sie das endgültige Alignment aus der sich automatisch öffnenden Dialogbox. Wenn alles gut gegangen ist, sollte der file ohne Fehlermeldung eingelesen werden. Häufige Fehlerquelle bei diesem Schritt sind Leerzeichen, Punkte oder Striche in den Artnamen. 2. Sie erhalten im Fenster oberhalb der Befehlszeile einige Informationen zu ihrem Datenfile. Wenn Sie auf >Window>[Name Ihres Files] klicken, öffnet sich ein zweites Fenster mit dem Datenfile. Sie können nun zwischen diesen Ansichten wechseln. 3. Schon bei Datensätzen von 10 Arten ist die Zahl der möglichen Bäume so groß, dass die vollständige Suche nach dem besten Baum sehr lange dauert. Sie haben in der Vorbesprechung von heuristischen Suchmethoden gehört. Im ersten Versuche lassen wir PAUP mit einer heuristischen Suchmethode nach dem optimalen Baum suchen. 4. Eingabe: hsearch addseq=asis; <Enter>. Das Programm berechnet den Baum, indem es die Sequenzen in der Reihenfolge zusammenfügt, wie sie im Datensatz erscheinen. Im output wird u. a. angezeigt, wieviele Merkmale der Datensatz enthält, wie viele davon parsimonie-informativ sind, und welcher „branch-swapping algorithm“ verwendet wurde. Die default-Einstellung verwendet TBR (tree-bisection-reconnection). Außerdem erfahren Sie in einer Tabelle unter „score“ wie viele Substitutionsschritte der beste gefundene Baum hat. 5. Um sich den Baum anzusehen, geben Sie ein: describetrees 1/ brlens=yes; <Enter> Jetzt zeigt das Programm den Baum Nr. 1 an und gibt eine Tabelle mit den Astlängen (brlens) aus. Ausserdem werden verschiedene Werte angegeben, die alle das Ausmaß an Homoplasie in ihrem Datensatz beschreiben. Der Consistency Index (CI) variiert mit der Topologie des Baums; seine untere Grenze ist nicht gleich 0. Informativer sind deshalb der Retention Index (RI) und der Rescaled Index (RC), die zwischen 0 und 1 variieren. Diese Indices sollten nur aufgrund der informativen Positionen berechnet werden. Der Homoplasy Index (HI = 1 – CI) bezeichnet den proportionalen Anteil an Positionen mit parallelen oder Rückmutationen. 6. Bei der heuristischen Suche wird nur ein kleiner Teil der möglichen Bäume wirklich untersucht. Um die Chance, den optimalen Baum zu finden, zu vergrößern, kann man mehrere Zyklen heuristischer Suchen durchlaufen. Dabei wird die Reihenfolge der Sequenzen am besten mit jedem Zyklus variiert. 40 Eingabe: hsearch addseq=random swap=NNI nreps=100; <Enter> Es werden 100 Zyklen (nreps) durchlaufen, wobei die Sequenzen jedesmal in einer anderen Reihenfolge (random) hinzugefügt werden. Als branch swapping Algorithmus wird diesmal nearest neighbor interchange (NNI) verwendet. 7. Um den errechneten Baum anzuzeigen, klicken Sie diesmal auf den Pfeil rechts neben der Befehlszeile. Sie sehen eine Liste der zuletzt verwendeten Befehlszeilen. Wählen Sie die richtige aus und drücken Sie <Enter>. 8. Die Bäume, die von PAUP ausgegeben werden, sind ungewurzelt. Jetzt wollen wir den Baum mit Hilfe einer Außengruppe (outgroup) verwurzeln. Oft bestimmt man solche outgroups schon vor der Analyse und nimmt sie genau deswegen in die Analyse auf. Wählen Sie nach Rücksprache mit dem Betreuer eine outgroup. Der Befehl lautet: outgroup [Artname(n)]; <Enter> 9. Um den Baum mit einer outgroup zu wurzeln, geben Sie ein: describetrees 1/ root=outgroup outroot=monophyl; <Enter> Die outgroup erscheint als monophyletischer Clade neben den Arten der ingroup. 10. Um den Baum/ die Bäume mitsamt Astlängen zu speichern, geben Sie ein: savetrees file=[Dateiname] brlens=yes; <Enter> Sie haben den ersten errechneten Baum nun als vorläufiges Ergebnis gespeichert. Die Ansicht von Bäumen in PAUP ist allerdings recht unbequem. Um den Baum manipulieren zu können, die Ansicht zu verändern und den Baum ausdrucken zu können, starten Sie jetzt das Programm FigTree. 1. Laden Sie den treefile durch >File>Open. und Auswahl der entsprechenden Datei. 2. Falls die Äste Bootstrap-Werte (s.u.) tragen, werden Sie nach einem Namen für diese „labels“ gefragt. Benennen Sie sie z.B. mit „BP“. 3. Der Baum erscheint im großen Fenster. Auf der linken Seite sehen Sie ein Menü, in dem Sie verschiedene Merkmale des Baums verändern können. Machen Sie sich spielerisch mit den Optionen unter „Layout“ vertraut. 4. Oben sehen Sie eine graphische Menüzeile, mit der Sie Veränderungen am Baum vornehmen können. Sie können ihn z. B. mit einer Außengruppe wurzeln. Klichen Sie auf den Ast, der zu Musa acuminata führt und wählen Sie dann >Reroot. 5. Wenn Sie die Taxa in einer bestimmten Reihenfolge anordnen möchten, klicken Sie wiederum Äste an und wählen >Rotate. Mit >Highlight können Sie ganze Clades hervorheben, mit >Colour einzelne Äste. 6. Werte für die statistische Unterstützung einzelner Äste (s. u.) können Sie entweder über den Ästen oder an den Knoten anzeigen. Klicken Sie dafür entweder „Node Labels“ oder „Branch Labels“ an und öffnen Sie das jeweilige Menü durch Klicken auf den Pfeil. 7. Hinter „Display“ können Sie auswählen. welches Label angezeigt werden soll. Zu diesem Zeitpunkt tragen die Äste des von Ihnen berechneten Baums noch keine sinnvollen Lables. Später können Sie hier Bootstrap-Unterstützung oder A-posterioriWahrscheinlichkeiten anzeigen lassen, indem Sie den von Ihnen oben vergebenen Namen für die Lables auswählen. 41 8. Wenn der Baum Ihnen gefällt, exportieren Sie ihn in einem Grapfikformat, dass Sie später in ihr Protokoll einfügen können, durch >File>Export Graphic... und Auwahl des gwünschten Formats und des Ordners, in dem die Datei abgelegt werden soll. Auswahl des besten Substitutionsmodells Um die Likelihood eines bestimmten Stammbaumes zu berechnen, benötigt man wie schon erwähnt ein Substitutionsmodell. Man versteht darunter eine oder mehrere Formeln, mit denen man errechnen kann, wie wahrscheinlich die Substitution eines Nukleotids durch ein anderes auf einem soundso langen Ast des Baumes ist. Bevor wir uns damit beschäftigen, wie wir ein bestimmtes Modell berechnen oder auswählen können, einige allgemeine Informationen zu Substitutionsmodellen. Box 5: Substitutionsmodelle Zwei Sequenzen, die von einer Ursprungssequenz abstammen, akkumulieren im Laufe der Zeit Substitutionen. Ihre genetische Divergenz wächst an. Die Zahl der beobachteten Substitutionen sollte also eigentlich linear von der Zeit abhängen, die verstrichen ist, seit zwei Sequenzen sich voneinander getrennt haben (schwarze Linie). Mit geringer Wahrscheinlichkeit kommt es aber auch zu Rückmutationen oder mehrfachen Mutationen an derselben Position. Deshalb ist die Zahl der beobachteten Substitutionen (rote Linie) geringer als die Zahl der Mutationsereignisse, die sich tatsächlich ereignet haben. Eine einfache lineare Gleichung gibt also die Zeitverhältnisse nicht korrekt wieder. n Das einfachste Substitutionsmodell (Jukes-Cantor Modell) nimmt an, dass die Substitutionsraten zwischen allen Nukleotiden gleich sind und dass die „Wartezeit“ auf eine Substitution exponentiell verteilt ist. Dieses Modell lässt sich relativ einfach beschreiben, weshalb wir das hier etwas ausführlicher machen wollen. Die Wahrscheinlichkeit, dass zu einem bestimmten Zeitpunkt noch keine Substitution stattgefunden hat, dass also die „Wartezeit“ T größer ist als die verstrichene Zeit t, wird mit der Zeit immer kleiner: W(T > t) = e-t. Wenn dies die Wahrscheinlichkeit ist, dass nichts passiert ist, dann ist die Wahrscheinlichkeit, dass bereits „etwas“ passiert ist, also irgendeine Substitution stattgefunden hat: 1-e-t. Nun gibt es 4 verschiedene Nukleotide (A, C, G, T). Wenn Substitutionen zu all diesen Nukleotiden gleich wahrscheinlich sind, dann ist die Wahrscheinlichkeit einer bestimmten Substitution ¼ (1-e-t). Wenn aus einem A ein C, G oder T wird, beschreibt diese Gleichung die Substitutionswahrscheinlichkeit korrekt. Wie groß ist aber die Wahrscheinlichkeit, dass das A nach Ablauf einer bestimmten Zeit immer noch ein A ist? Dieser Fall tritt dann ein, wenn entweder nichts passiert ist (e-t) oder das A durch das gleiche Nukleotid ersetzt worden ist (¼ (1-e-t)). Insgesamt beträgt diese Wahrscheinlichkeit also e-t + ¼ (1-e-t). Wenn wir das Ganze auch 42 für andere Nukleotide verallgemeinern, kann man die Wahrscheinlichkeit, dass das Nukleotid x zur Zeit t in das Nukleotid y übergegangen ist, also kurz so zusammenfassen: Wx→y(t) = { ¼ (1-e-t) falls x ≠ y e-t + ¼ (1-e-t) falls x = y Die geschweifte Klammer bedeutet dabei so viel wie „entweder – oder“. Das ist die mathematische Kurzfassung des Jukes-Cantor-Modells. In Wirklichkeit verlaufen Substitutionen sicher nicht nach diesem einfachen Modell. Man weiß z. B., dass sich Transitions- und Transversionsraten in der Regel unterscheiden. Auch kommen die verschiedenen Nukleotide in unterschiedlichen Anteilen vor, was die Substitutionsraten ebenfalls beeinflusst. Im kompliziertesten Modell nimmt man unterschiedliche Raten für alle Arten von Substitutionen an. Die folgenden vier Kästchen zeigen vier häufig verwendete Substitutionsmodelle in Form von Matrizen. In der obersten Zeile stehen die vier möglichen Nukleotide vor einer Substitution, in der linke Spalte die Nukleotide nach der Substitution. Die Symbole in der Matrize bezeichnen die unterschiedlichen Substitutionsraten. A T C G - α α α A T α - α C α α G α α A A A C G C G A T C G - β β α A α T β - α β T βgA - αgC βgG T agA - dgC egG - α C β α - β C βgA αgT - βgG C bgA dgT - fgG α - G α β β - G αgA βgT βgC - G cgA egT fgC Jukes-Cantor Kimura HKY T - βgT βgC αgG A T - agT bgC cgG - GTR Positionsspezifische Substitutionsraten Alle diese Modelle nehmen an, dass die Substitutionsrate für alle Positionen einer Sequenz die gleiche ist. Das stimmt in der Regel nicht. Proteine haben aktive Zentren, die sehr konservativ sind, während in anderen Bereichen Substitutionen häufiger sind. Erste, zweite und dritte Codonpositionen haben ebenfalls unterschiedliche Substitutionsraten, weil viele Mutationen an der dritten Position „still“ sind, d. h. nicht zu Veränderungen der Aminosäuresequenz führen und damit nicht letal sein können. Die Substitutionsrate variiert also von Position zu Position. Auch diese Variation kann man in Substitutionsmodellen berücksichtigen, indem man verschiedenen Positionen des Alignments unterschiedlich hohe Substitutionsraten zuweist. Im Prinzip könnte man allen Positionen eigene Substitutionsraten zuweisen. Die Zahl der Parameter des Substitutionsmodells wäre dann aber wesentlich höher als die Zahl der Datenpunkte und das Substitutionsmodell wäre nicht mehr eindeutig definiert (s. Aufgabe 18). Ein elegantes aber rechnerisch aufwändiges Verfahren kommt mit wesentlich weniger Parametern aus. Zunächst legt man dabei fest, dass es in einem Substitutionsmodell eine bestimmte Zahl von positionsspezifischen Substitutionsraten geben soll (üblich sind 4, aber jeder beliebige Wert ist möglich). Diese vier Raten werden mit Hilfe einer Gamma Verteilung folgendermaßen bestimmt. Auf der x-Achse der folgenden Funktion liegen die Substitutionsraten. 43 Die Fläche unter der Kurve wird in vier flächengleiche Abschnitte unterteilt. Die vier Raten legt man als Mediane der vier Teilflächen fest. In diesem Fall sind das 0.32, 0.68, 1.11 und 1.88. Die GammeVerteilung kann, abhängig von einem einzigen Parameter alpha sehr unterschiedliche Formen annehmen. In der Abbildung ist alpha=2. Bei Werte von alpha ≥ 1 liegen alle Substitutionsraten relativ nahe bei 1. Bei Werten < 1 streuen die Raten weiter. Bei alpha=0.5 liegen sie z. B. bei 0.03, 0.28, 0.92 und 2.77. Hat man die Raten festgelegt, wird an jeder Position der Mittelwert der Likelihood für alle vier Raten bei gegebener Baumtopologie und Astlängen berechnet. Ein solches Modell kann die tatsächlichen Substitutionsraten besser abbilden, weil an schnell mutierenden Positionen die hohen Raten überproportional zur Likelihood beitragen und an langsam evolvierenden die niedrigen Raten. Aufgabe 17: Man unterscheidet Substitutionsmodelle genauso wie z. B. Regressionskurven danach, wie viele frei veränderbare Variablen sie haben. Diese Variablen nennt man Parameter. Schauen Sie sich die vier Modelle in Box 5 an. Wie viele Parameter haben diese Modelle? Die Symbole gA, gC, gG und gT bezeichnen dabei die relative Häufigkeit der einzelnen Nukleotide im Datensatz. Aufgabe 18: Eine Regressionsgerade ist ein Modell, dass die „Informationen“ aus einer „Punktwolke“ zusammenfasst. Erläutern Sie anhand dieses Beispiels, warum man mindestens so viele Datenpunkte wie Parameter braucht, um ein Modell eindeutig zu definieren. Wie viele Parameter hat eine Gerade in einem zweidimensionalen Koordinatensystem? Mathematische Modelle sind Annäherungen an die Verhältnisse in der Natur. Sie erlauben es, aus komplexen Datensätzen die wesentlichen Informationen herauszufiltern. Aus einer Punktwolke in einem Koordinatensystem wird mit Hilfe eines Modells z. B. eine Regressionsgerade a + bx, die die Abhängigkeit von Temperatur und Druck in einem Dampfkessel beschreibt. Die gesamte Punktwolke lässt sich so auf zwei grundlegende Parameter a und b reduzieren. Leider taucht hier ein kleines Problem auf. Im Prinzip lassen sich beliebig komplizierte Modelle formulieren. Statt einer Regressionsgeraden könnte man auch eine Kurve beschreiben, die durch jeden der Punkte in der Wolke geht. Diese Gerade passt perfekt auf den erhobenen Datensatz. Aber beschreibt die so gefundene Formel auch perfekt die Abhängigkeit von Druck und Temperatur im Dampfkessel? Das wäre dann der Fall, wenn auch weitere Messpunkte genau auf der Kurve zu liegen kommen, was aber sehr unwahrscheinlich ist. Je komplizierter ein Modell ist, desto genauer spiegelt es den gerade vorhandenen Datensatz wieder, aber desto größer ist auch die Wahrscheinlichkeit, dass das Modell bei zukünftigen Daten versagt und dass es die Verhältnisse in der Realität gar nicht zutreffend beschreibt. Auf Substitutionsmodelle übertragen bedeutet das: Wenn Substitutionen in der Natur einem komplizierten Modell folgen, unterschätzen einfache Modelle die Zahl der Substitutionen erheblich. Das führt unter ML zu fehlerhaft rekonstruierten Astlängen und möglicherweise auch Verwandtschaftsverhältnissen. Wie wir gerade gehört haben, müssen aber auch unnötig komplizierte Modelle vermieden werden. Wie entscheidet man sich da? Eine Entscheidungsmöglichkeit liefert das Gesetz der Likelihood: Die Likelihood eines Baumes lässt sich auf der Grundlage eines Datensatzes und eines Substitutionsmodells berechnen. Für einen bestimmten Baum (z. B. den MP-Baum ) könnte man also ausrechnen, wie sich die Likelihood unter Annahme verschiedener Substitutionsmodelle verändert, und dann aufgrund des Likelihood-Verhältnisses W (D | M1) / W (D | M2) (siehe S. 26) entscheiden, ob die Daten Modell 1 oder Modell 2 am besten unterstützen. Leider haben kompliziertere Modelle immer eine höhere Likelihood als einfache. Auf diese Weise käme man also immer zum kompliziertesten Modell. Wie stark die Likelihood sich erhöht, hängt vom Datensatz und von der Zahl der zusätzlichen Parameter im Modell ab. Oberhalb gewisser Grenzen steigt die Likelihood nur noch in sehr kleinen Schritten an. Man kann deshalb, wie bei statistischen 44 Tests, eine Art Schwellenwert für die Erhöhung der Likelihood festsetzen, oberhalb derer die Verbesserung statistisch nicht mehr „signifikant“ ist. Ein nicht signifikanter Unterschied bedeutet, dass das kompliziertere Modell den Datensatz nicht wesentlich besser erklären kann als das einfachere (obwohl die Likelihood vielleicht noch ein wenig größer ist). In diesem Falle wählt man das einfachere der beiden verglichenen Modelle als das optimale aus. Dieses Verfahren hat einen Nachteil. Aus bestimmten Gründen funktioniert der LikelihoodVerhältnistest nur, wenn das einfachere der beiden verglichenen Modelle ein Spezialfall des komplizierteren ist. Das ist bei vielen Modellen nicht der Fall. Die Vergleichsmöglichkeiten sind daher eingeschränkt und es kann sein, dass man das optimale Modell so nicht findet. Das von Hirotugu Akaike 1974 eingeführte Akaike Information Criterion (AIC) verfolgt deshalb eine einfache andere Strategie, um das optimale Modell auszuwählen. Ein optimales Modell soll möglichst gut zu den erhobenen Daten passen und gleichzeitig nicht zu viele Parameter haben. In der folgenden Formel wird der erste Term größer, je mehr Parameter k das Modell hat. Parallel dazu erhöht sich der zweite Term, der Logarithmus der Likelihood des Modells, je besser das Modell auf die Daten passt. AIC = 2k – 2log L(M) Nach Akaike (1974) soll man das Modell mit dem niedrigsten AIC auswählen. Das ist, einfach gesagt, das Modell, das mit relativ wenigen Parametern die relativ höchste Likelihood erzielt. Einfache Modelle haben wenige Parameter, aber passen meist schlecht auf die Daten. So lange sich die log-Likelihood stärker erhöht als 2k, sinkt der Wert für AIC. Irgendwann reicht dann der Zuwachs der Likelihood durch Einführung weiterer Parameter nicht aus, um den Zuwachs von 2k zu kompensieren. Dann erhöht sich der Wert von AIC wieder. Mit dieser Methode kann man Modelle auch dann vergleichen, wenn sie völlig unabhängig voneinander sind. Aufgabe 19: Welche der in Box 5 dargestellten Substitutionsmodelle sind Spezialfälle welcher anderen Modelle und aus welchem Grund? Das Programm „MtGui“ kann in Zusammenarbeit mit PAUP verschiedene Modelle nach beiden Verfahren testen. 1. Öffnen Sie PAUP und laden Sie Ihren Nexus-file durch >File>Open. 2. Unter http://www.rhizobia.co.nz/phylogenetics/modeltest.html die Datei modelblockPAUPb10.txt öffnen und in den NEXUS-file hinter den Datenblock kopieren. 3. Datei speichern und erneut laden. PAUP berechnet für jedes Modell die Likelihood-Werte und speichert sie unter dem Namen „model.scores“. 4. Schließen Sie PAUP nach Beendigung des Rechenvorgangs. 5. Verschieben Sie die Datei model.scores in den Ordner, in dem sich das Programm Modeltest befindet und geben Sie ihr einen neuen Namen. 6. Öffnen Sie das Programm MTGUI durch Doppelklick auf das Programmsymbol. 7. Klicken Sie auf die Schaltfläche „Select“ und wählen Ihre Scores-Datei aus. 8. Klilcken Sie anschließend auf die Schaltfläche „Modeltest!!!“ um die Modeltest-Analyse zu starten. 45 9. Modeltest führt nun die Likelihood-Verhältnistests durch, bis sich keine signifikante Verbesserung mehr ergibt. 10. Im Fenster erscheint nun das Ergebnis Ihrer Analyse. Markieren Sie den ganzen Text und kopieren Sie ihn in ein Worddokument. Speichern Sie diesen für Ihre Unterlagen ab. 11. Im Ergebnis sehen Sie das optimale Substitutionsmodell nach LRT oder AIC und einige Zeilen, die mit „BEGIN PAUP;“ anfangen. Dieser Teil lässt sich in PAUP übertragen, um mit den richtigen Parametern eine Analyse durchführen zu können. 12. Markieren Sie den Text von „BEGIN PAUP;“ bis „END;“ mit der Maus und kopieren Sie Ihn. 13. Wechseln Sie in PAUP, öffnen Sie die Ansicht des NEXUS-files und kopieren Sie den Textblock an das Ende des Datei. Im nächsten Teil werden wir hieraus einen Befehlsblock erstellen, der es ermöglicht, PAUP auch ohne Eingabe in die Befehlszeile zu steuern. Erstellen eines PAUP-Blocks Im NEXUS-Format lässt sich nicht nur ein Alignment zur Bearbeitung speichern. In verschiede- nen zusätzlichen Textblöcken kann man Annahmen zum Datensatz (ASSUMPTIONS Block), vorher errechnete Bäume (TREES Block) oder Details zur Analyse (PAUP Block) eingeben. Dies ist z. B. sehr praktisch, wenn man Analysen schrittweise durchführt, wobei ein Schritt auf den Ergebnissen des vorherigen aufbaut. Ein solches iteratives Verfahren kann z. B. notwendig sein, wenn man sehr große Datensätze unter ML mit komplizierten Subsitutionsmodellen untersucht. Statt selber stunden- oder tagelang auf die Ergebnisse zu warten und dann die nächsten Befehle per Hand einzugeben, gibt man PAUP am Freitag nachmittag alle notwendigen Befehle in einem PAUP Block mit, startet die Analyse und nimmt am Montag die Ergebnisse in Empfang. Wir beginnen mit einem einfachen Beispiel, indem wir als Ausgangspunkt die Substitutionsparameter aus Modeltest verwenden. 1. Entfernen Sie den Zeilenumbruch aus der „lset“-Zeile. Mit lset werden die Parameter für eine ML Analyse festgelegt. Dabei bedeutet: base=(x y z) Frequenz der Basen A, C und G (T ergibt sich dann von alleine), nst=x Zahl der verschiedenen Substitutionsraten (je nach Modell1, 2 oder 6) rmat=(x y z …) Rate der verschiedenen Substitutionsraten, rates=[equal, gamma] Substitutionsraten sind entweder konstant oder variieren positionsspezifisch. Diese Variabilität wird mit Hilfe einer sogenannten Gamma-Verteilung modelliert, da diese nicht für jede Position einen neuen Parameter in das Modell einführt, sondern mit einem einzigen Formparameter auskommt (Näheres hierzu in der Vorbesprechung), shape=x Form-Parameter der Gamma-Funktion, pinvar=x Anteil invariabler sites 2. Um ML als Optimierungskriterium zu verwenden und dafür zu sorgen, dass das Programm die Analyse ohne Ihre Bestätigung abschließt, fügen Sie Nach „Begin PAUP“ die folgende Zeile ein: set autoclose=yes criterion=likelihood; 46 3. Um die Suche nach dem besten Baum zu starten fügen Sie nach der „lset“ Zeile die folgende bekannte Zeile ein: hsearch addseq=random swap=SPR nreps=10; 4. In der nächsten Zeile geben Sie an, dass der beste Baum mit Astlängen angezeigt werden soll. Zur Übung stellen Sie die Zeile selbst zusammen. 5. Zuletzt lassen Sie PAUP den Baum mit Astlängen unter einem selbstgewählten neuen Dateinamen speichern. 6. Speichern und schliessen Sie den NEXUS-file. 7. Laden Sie den file jetzt erneut. Die Analyse wird durchgeführt, ohne dass Sie weitere Befehle eingeben müssen. Phylogenetische Unsicherheit, nicht-parametrischer Bootstrap Die Ergebnisse verschiedener phylogenetischer Analysen (z. B. MP- und ML-Bäume) desselben Datensatzes liefern oft nicht vollkommen gleiche Ergebnisse. Speziell unter MP findet man in einer Analyse häufig mehrere, gleich lange Bäume. Die Unterschiede sind in der Regel klein, können aber wichtige Details betreffen, etwa die Frage, ob eine Gattung monophyletisch ist oder nicht. Wieviel Vertrauen kann man also in das Ergebnis einer phylogenetischen Untersuchung haben? Die Frage berührt grundsätzlich alle wissenschaftlichen Ergebnisse. Während aber ein Physiker seine Messungen wiederholen kann und Mittelwert und Standardabweichung der Messwerte errechnen kann, hat sich die Evolution nur einmal abgespielt und kann nicht experimentell wiederholt werden. Eine Lösung dieses Problems ist die Pseudoreplikation des Datensatzes. Man sammelt nicht neue Daten in der Natur, sondern „besammelt“ den bereits vorhandenen Datensatz mehrere 100 bis 1000 mal. Dabei erstellt man neue Datensätze von gleicher Größe wie der ursprüngliche Datensatz, indem man willkürlich einzelne Positionen des Alignments auswählt. Durch die zufällige Auswahl werden einige Positionen mehrmals „gesammelt“, andere fallen weg. Jede Pseudoreplikation des Datensatzes unterscheidet sich von den anderen. Auf diese Weise zieht man sich sozusagen an den eigenen Haaren aus dem Sumpf. Weil die Engländer sich nicht an den Haaren sondern an den Schnürsenkeln hochziehen, heißt dieses Verfahren „Bootstrapping“. Man errechnet für jeden Datensatz einen separaten Stammbaum, erstellt aus den Bäumen einen Konsensusbaum, und kann für jeden Ast dieses Baumes ermitteln, in wie vielen der Bootstrap-Bäume er vorhanden war. Dieses Verfahren nimmt an, dass die Abweichungen der Bootstrap-Bäume vom optimalen Baum ein Maß für die Abweichung des optimalen Baums vom „wahren“ Baum sind. Diesen „bootstrap-support“ (in Prozent ausgedrückt) sieht man an fast allen publizierten phylogenetischen Bäumen. Wegen der langen Rechenzeit unter ML führen wir die Bootstrap-Analyse zunächst unter MP durch. 1. Öffnen Sie PAUP und laden Sie den NEXUS-file. 2. Sollte das Programm ohne Aufforderung zu rechnen beginnen, stoppen sie den Vorgang und wechseln Sie in die Ansicht des NEXUS-files. Sie können den PAUP-Block am Ende deaktivieren, indem Sie jede Zeile in eckige Klammern setzen. Speichern und schliessen Sie die Datei und laden Sie sie dann neu. 3. Eingabe: bootstrap nreps=500 search=heuristic conlevel=50 treefile=[Dateiname]; <Enter> 47 Durch diese Eingabe starten Sie eine bootstrap-Analyse mit 500 Pseudoreplikationen (der kleinsten Menge, die verlässliche Resultate liefert) und einer heuristischen Suche nach dem besten Baum jedes Replikats. Das Programm soll als Ergebnis einen Konsensus-Baum mit allen Äste anzeigen, die in mindestens 50% der Bäume vorkommen. Die Bäume werden in einer Datei gespeichert, deren Namen Sie selber festlegen müssen. 4. Als Anzeige sehen Sie den gewünschten Konsensus-Baum und eine Tabelle mit allen Art-Gruppierungen, die sich in mindestens einem Baum fanden. Die Arten sind als Zahlen oberhalb der Spalten abgekürzt. Sternchen in den Spalten markieren eine Gruppierung dieser Arten. Die rechten Spalten zeigen, in wievielen Bäumen und in wieviel Prozent der Bäume diese Gruppe angetroffen wurde. Gruppierungen, die in weniger als 5% der Bäume auftraten, sind nicht gelistet. Vergleichen Sie den Baum mit der Tabelle. 5. Um den Konsensus-Baum zu speichern, müssen Sie erst den Treefile laden. Die Warnung “The limit of 100 trees (= “MaxTrees”) has been reached” beantworten Sie mit >Reset Maxtrees>Automatically increase by 100. Hierdurch erhöhen Sie die von PAUP vorgegebene maximale Anzahl von Bäumen im Arbeitsspeicher. In der Anzeige lesen Sie, wieviele Bäume PAUP errechnet hat (oft mehr als 500, weil bei einigen Bootstrap-Datensätzen mehrere gleich gute Bäume errechnet wurden). 6. Eingabe: contree 1-[Anzahl Bäume] / strict=no majrule=yes percent=50 treefile=[Dateiname]; <Enter> PAUP errechnet aus allen Bäumen nochmals einen „majority rule“ Konsensus-Baum mit allen Äste, die in mindestens 50% der Bäume vorkommen. Ein strikter Konsensus-Baum, der nur Äste anzeigt, die in allen Bäumen vorkommen, wird nicht errechnet. Der Konsensus-Baum wird in einer Datei mit selbst gewähltem Namen gespeichert. 7. In der Anzeige sehen Sie nun neben dem neuen Konsensus-Baum auch eine vollständige Tabelle mit allen beobachteten Gruppierungen. Der neue Treefile kann wieder in Treeview geöffnet und bearbeitet werden. Die Interpretation von Bootstrap-Werten ist ein wenig unsicher. Die Werte zeigen eher Präzision als Genauigkeit an. In der Messtechnik bedeutet hohe Präzision, dass eine oft wiederholte Messung immer wieder sehr ähnliche Ergebnisse liefert. Genauigkeit bedeutet dagegen, dass ein gemessener Wert dem tatsächlichen Wert gut entspricht. Wenn ich mich morgens zehnmal auf die Waage stelle und bekomme zehnmal das gleiche Ergebnis, dann ist meine Badezimmerwaage sehr präzise. Trotzdem kann sie schlecht geeicht sein und z. B. konsequent zwei Kilo weniger anzeigen als ich wiege. Präzision ist also eine Voraussetzung von Messgenauigkeit, aber reicht alleine noch nicht aus, um einem Sicherheit bei der Interpretation seiner Messwerte zu geben. Ähnlich verhält es sich mit Bootstrap-Werten. Ein Ast mit hohem Bootstrapsupport kann aus den Daten mit größerer Präzision ermittelt werden. Niedrige Bootstrap-Werte zeigen an, in welche Gruppierungen eines Baumes wir nicht allzu viel Vertrauen setzen sollten. Ein Wert von 85 % bedeutet nicht, dass der entsprechende Ast mit einer „Wahrscheinlichkeit“ von 0,85 auch im (unbekannten) wahren Stammbaum der Organismen vorkommt, sondern dass die verwendete Methode auf der Grundlage unserer Daten in 85% der Fälle diesen Ast rekonstruiert. In wissenschaftlichen Publikationen werden meist nur Werte oberhalb von 50% angegeben. Da Bootstrap-Werte die Zuverlässigkeit einer Rekonstruktion regelmäßig eher unterschätzen, diskutiert man nicht nur Äste mit einer Unterstützung von 95% (ein in der Statistik gerne verwendeter Signifikanz-Schwellenwert) sondern auch Äste mit Werten oberhalb von 70%. 48 Bootstrap-Analyse unter Maximum Likelihood Die Berechnung von Maximum-Likelihood-Bäumen dauert selbst bei einer heuristischen Suche mit PAUP sehr lange. Die Datensätze, die zur Stammbaum-Berechnung eingesetzt werden, umfassen aber immer mehr Arten. Gleichzeitig möchte man auch unter ML Bootstrap-Analysen durchführen, also 1000 oder mehr Analysen von Pseudodatensätzen durchführen. Neue Methoden zur Berechnung von ML-Bäumen versuchen deshalb gar nicht mehr, alle oder auch nur einen großen Teil der möglichen Bäume zu untersuchen, sondern konzentrieren sich ganz darauf, in möglichst kurzer Zeit möglichst genaue Stammbäume berechnen zu können. Das Programm PHYML optimiert nach einem ausgeklügelten Mechanismus, ausgehend von einem vorgegeben auf genetischen Distanzen beruhenden Baum, gleichzeitig Astlängen und die Baumtopologie, bis sich keine Verbesserung mehr erzielen lässt. Studien mit simulierten Datensätzen, deren Verwandtschaftsverhältnisse bekannt sind, haben gezeigt, dass das Programm sehr zuverlässig arbeitet. Das Programm verwendet das Phylip-Format als Eingabeformat. Wir müssen deshalb zunächst die ursprüngliche Fasta-Datei in dieses Format überführen. 1. Kopieren Sie das Alignment des Einzelgen-Datensatzes im Phylip-Format in den Ordner mit der Datei „phyml_win32“. 2. Starten Sie das Program PHYML durch Doppelklick auf die Datei „phyml_win32“. 3. Es öffnet sich ein schwarzes DOS-Fenster mit der Aufforderung „Enter the sequence file name > „ 4. Geben Sie den Namen Ihrer Phylip-Datei ein und drücken Sie die „Enter“. Es erscheinen Angaben zu den Einstellungen der Analyse und die Frage „Are these settings correct?“. Das sind sie natürlich nicht, und wir müssen sie nun ändern, um sie auf unsere Datensätze anzupassen. In der linken Spalte sehen Sie Buchstaben. Durch Eingabe des Buchstabens können Sie jeweils eine Option ändern. Die ersten drei Optionen treffen zu (DNA-Daten, Sequenzen „interleaved“, nur ein Datensatz). 5. Geben Sie b ein und drücken Sie „Enter“. Geben Sie nun hinter „Number of replicates“ 1000 ein und bestätigen Sie erneut mit „Enter“. Sagen Sie dem Programm nun, dass der Bootstrap-Baum ausgegeben werden soll. 6. PHYML arbeitet nur mit wenigen Substitutionsmodellen. Wir wählen dasjenige, das unseren Daten am ähnlichsten ist, also am besten das Nächstkomplizierte. Durch wiederholte Eingabe von m kann man zwischen den verschiedenen Modellen wechseln. 7. Mit der nächsten Option entscheidet man, wie die Nukleotidfrequenzen im Datensatz ermittelt werden. Entweder werden die im Datensatz vorhandenen Frequenzen übernommen, oder diese werden ebenfalls mit einem ML-Verfahren berechnet. Wählen Sie, was Sie möchten. 8. Wenn Ihr Substitutionsmodell invariable Positionen enthält, geben Sie nun erst v ein. Der Anteil invariabler Sites kann entweder während der Analyse optimiert werden oder man kann einen bestimmten Wert eingeben. Da wir mit Mtgui diesen Wert bereits ermittelt haben, geben Sie n und dann die entsprechende Zahl mit zwei Stellen hinter dem Punkt ein (Wo war die denn bloß noch?). 9. Falls das Modell auch noch positionsspezifische Substitutionsraten enthält, geben Sie nun r ein. Es erscheinen weitere Optionen, die sich auf die schon erwähnte GammaVerteilung beziehen. Die Anzahl der Raten-Kategorien lassen wir unberührt. 49 10. Den Formparameter der Gamma-Verteilung ändern wir aber durch Eingabe von a n und die Angabe des entsprechenden von MTgui ermittelten Wertes. 11. Die beiden letzten Optionen lassen wir wieder unverändert und starten das Programm nun mit y und „Enter“. Das Programm beginnt nun damit, den Ausgangsbaum zu optimieren, bis sich keine Verbesserung mehr einstellt. Dann geht es zur Berechnung der Bootstrap-Werte über. Der Fortschritt wird durch Reihen von Punkten angezeigt. Jeder Punkt entspricht einem berechneten Bootstrap-Baum. 12. Nachdem PHYML fertig gerechnet hat, können wir den optimalen Stammbaum mit Bootstrap-Werten (*.phy_phyml_tree) mit FigTree öffnen und anschauen. Die Likelihood des optimalen Baums findet sich in der Datei *.phy_phyml_lk, für uns relativ uninteressante Angaben zu den einzelnen Bootstrap-Bäumen unter *.phy_phyml_boot_stats und *.phy_phyml_boot_trees, sowie die für das Protokoll wichtigen Angaben zur Analyse unter *.phy_phyml_stat. Bootstrap-Analyse unter Maximum Likelihood mit raxmlGUI Die Zuverlässigkeit von ML-Rekonstruktionen hängt unter anderem davon ab, wie gut das ausgewählte Substitutionsmodell auf den analysierten Datensatz passt. Neben dem Einzelgendatensatz sollen Sie im Kurs auch Datensätze von zwei unabhängigen Genloci gemeinsam untersuchen. Es ist recht unwahrscheinlich, dass diese beiden Loci demselben Substitutionsmodell folgen. Unter PHYML kann man aber nur ein globales Substitutionsmodell für den ganzen Datensatz definieren. In den vergangenen Jahren sind eine Reihe weiterer, sehr schneller Algorithmen zur Berechnung von ML-Bäumen publiziert worden. RAxML (Randomized Axelerated Maximum Likelihood) berücksichtigt für verschiedene Genloci (Teildatensätze) in einem Datensatz unabhängige Modelle. RAxML erlaubt für DNA-Sequenzen nur die Verwendung des GTRModells mit positionsspezifischen Raten. Einen Anteil invariabler Positionen kann das Modell ebenfalls berücksichtigen. Die Parameter dieses Modells (z. B. Tranversions-, Transitionsraten, Nukleotidfrequenzen) werden für jede Partition des Datensatzes gesondert berechnet. Im Unterschied zu PHYML berechnet RAxML Bootstrap-Werte separat vom ML-Baum und zeigt als Ergebnis nicht einen Konsensusbaum sondern den optimalen Baum mit Bootstrapwerten an. Genau wie PHYML verwendet RAxML Daten im Phylip-Format. Wir wollen im Kurs vergleichen, ob beide Programme zu ähnlichen Ergebnissen kommen. 1. Kopieren Sie das Alignment (Phylip-Format) aus der PHYML-Analyse in einen neuen Ordner, in dem Sie auch die Ergebnisse der RAxML-Analyse abspeichern werden. 2. Starten Sie das Programm raxmlGUI durch Doppelklick auf die Datei „raxmlGUI.py“. 3. Lesen Sie das Alignment ein, indem Sie auf „Alignment file“ klicken. 4. Es öffnet sich ein Fenster mit der Überschrift „Open alignment file“. Gehen Sie in den entsprechenden Ordner, markieren Sie das Alignment des Multigen-Datensatzes und klicken Sie auf >Öffnen. Im großen Fenster erscheint Ihre Phylip-Datei. Der Name dieser Datei erscheint im kleinen Fenster neben „Add alignment“. 5. Falls die Datei identische Sequenzen oder irrtümlich Positionen enthält, die nur aus gaps bestehen, erscheint eine entsprechende Warnung. Sie könnten „doppelte“ Sequenzen und diese Alignmentpositionen eliminieren, indem Sie nun >yes oder >ja drücken. In unserem Falle wollen wir jedoch alle Sequenzen verwenden und drücken stattdessen ggf. 50 >no oder >nein. raxmlGUI erkennt eigenständig, ob der Datensatz aus DNA- oder Proteinsequenzdaten besteht. 6. Unter >Options>Set/Edit Partitions... können Sie nun die verschiedenen Datenpartitionen in ihrem Datensatz beschreiben. Es öffnet sich ein Fenster „Set partitions“. 7. In diesem Fenster können Sie für jede Partition Angaben machen. Wenn Sie >DNA oben links klicken, können Sie z. B. die Art der Daten ändern. „BIN“ steht dabei für binäre Daten (0,1), „MULTI“ für multistate characters (z. B. blau, rot, grün). und „AA“ für Aminosäuresequenzen. Multistate Merkmale müssen für RAxML in der Datei als maximal 32 mögliche Merkmalszustände codiert werden [0–9, A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V]. Wir ändern die Einstellung „DNA“ nicht und tragen für die erste Partition einen Namen ein, z. B. „ITS“. 8. Den Beginn der Partition können Sie nicht verändern. Er ergibt sich jeweils aus dem Ende der vorhergehenden Partition. fügen Sie in das Feld ganz recht die letzte Position der ersten Datenpartition ein. 9. Wenn Sie auf den Knopf „no codon“ klicken, können Sie festlegen, ob zur ersten Partition alle Nukleotidpositionen („no codon“) gehören sollen. Bei protein codierenden Sequenzen variieren die Substitutionsraten und -modelle an der 1., 2. und 3. Codonposition oft erheblich. Hier legt man gerne codonspezifi10. sche („codon specific“) Modelle fest, oder untersucht nur die 3. Codonpositionen („3rd codon“). Entscheiden Sie, was in Ihrem Fall zutrifft. 11. Drücken Sie dann den Knopf „Add“ unten links. Im großen Fenster erscheint eine Zeile, die die erste von Ihnen definierte Partition beschreibt. Wiederholen Sie die Schritte 8–10 so lange, bis sie alle Positionen des Datensatzes einer Genpartition zugeordnet haben. Es erscheint ein Fenster mit der Meldung „All characters have been assigned to partitions. Set partitions for the analysis?“ Wenn alles ok ist, drücken Sie “OK“, ansonsten „Abbrechen“. 12. Sie können dann unten rechts >Options>Edit partitions anwählen und Veränderungen direkt in das Textfeld mit den Partitionen schreiben. Durch >Set speichern Sie die Partitionen. 13. Nachdem alle Partitionen definiert worden sind, erscheint in der Menüzeile unter „Run RAxML“ ein Kästchen namens „per-partition brL“. Wenn man diese Option wählt, werden Bäume mit Astlängen separat für jede Partition berechnet. Die Topologie dieser Bäume ist identisch, die Astlängen werden aber für jede Partition optimiert. 14. In der untersten Menüzeile sehen Sie die Anzeige „ML + rapid bootstrap“. Sie können hier wählen, ob sie nur eine ML-Analyse, oder eine ML und eine Bootstrap-Analyse gründlich („thorough“) oder schnell („rapid“) durchführen wollen. Lassen Sie die Einstellung unverändert. 15. Auch die Zahl der Bootstrap-Replikate („100“) verändern wir nicht. 16. Zuletzt können Sie das Substitutionsmodell auswählen. Im Grunde gibt es nur die Auswahl zwischen dem GTRGAMMA-Modell mit oder ohne invariable Positionen (GTRGAMMAI). Die Modelle GTRCAT und GTRCATI ermöglichen eine schnellere Berechnung, sind aber vergleichsweise ungenau. Die Bäume ließen sich dann nicht mit den von PHYML berechneten vergleichen. 17. Drücken Sie nun oben rechts „Run RAxML“. Es öffnet sich ein DOS-Fenster, in dem der Fortschritt der Analyse abzulesen ist. 51 18. RAxML erzeugt eine Reihe von Output-Dateien. Die für uns wichtige Dateien zeigen den ML-Baum mit Astlängen und Bootstrap-Werten und heißen „RAxML_bipartitions..tre“ und „RAxML_bestTree..tre“. Wenn man „per-partition brL“ gewählt hat, wird zusätzlich zu dieser Datei pro Partition je ein Baum mit den jeweiligen Astlängen ausgegeben. Die entsprechenden Dateien tragen den Anhang „PARTITION.0“, „PARTITION.1“, usw. 19. Bearbeiten Sie zuletzt den ML-Baum in FigTree und speichern ihn als Graphik ab. Bayessche Analyse phylogenetischer Datensätze Die Bayessche Methode ist in der molekularen Systematik aus mehreren Gründen sehr populär geworden. - - Obwohl hunderttausende oder Millionen von Bäumen berechnet werden, ist die Methode extrem schnell. Alle Methoden, die nur nach einem Baum suchen, versagen unter bestimmten Bedingungen. Ob diese Bedingungen gegeben sind, kann man nicht immer wissen. Deshalb bleibt eine gewisse Unsicherheit, ob der gefundene optimale Baum auch wirklich der wahre Baum ist. Bootstrap-Analysen unter ML sind zeitaufwändig. Die Bayessche Analyse berechnet den Baum und die Wahrscheinlichkeit einzelner Parameter in einem Arbeitsgang. Damit lässt sich auch die Wahrscheinlichkeit bestimmter Baumtopologien leicht vergleichen. Die ersten Bäume, die das Programm sammelt, liegen wahrscheinlich weit von den Regionen hoher Likelihood entfernt. Deshalb verwirft man bei Bayesschen Analysen die ersten 10.000 bis 100.000 Schritte als sogenannte „Burnin“ Phase. Außerdem kann die Likelihood-Landschaft mehrere Hügel aufweisen. Eine einzige Markov-Kette könnte sich auf einem suboptimalen „Nebenhügel“ festsetzen, von dem sie auch in vielen Schritten nicht mehr herunterkommt. Deshalb lässt man meist mehrere Markov-Ketten gleichzeitig laufen, die von verschiedenen Zufallsbäumen ausgehen. Das erhöht die Chance, dass die Analyse im optimalen Bereich der LikelihoodOberfläche konvergiert. 1. Kopieren Sie den NEXUS-file in den Ordner, in dem sich MrBayes befindet. 2. Öffnen Sie den NEXUS-file mit einem Text-Editor oder in PAUP (stoppen Sie dann die Berechnung und gehen Sie in die Ansicht des NEXUS-files). 3. Löschen Sie den Text zwischen „#NEXUS“ und „begin data;“. Die ersten 3 Zeilen der Datei lauten jetzt: #NEXUS begin data; 4. Ergänzen Sie in der 2. Zeile des Datenblocks „interleaved“ mit „=yes“. 5. Gehen Sie zum Ende der Datei und ersetzen Sie die Zeile „begin paup;“ durch „begin mrbayes;“ 6. Im MrBayes-Block werden genau wie im PAUP-Block die Parameter der Analyse festgelegt. Das Substitutionsmodell muss ebenfalls festgelegt werden, allerdings bleiben die 52 einzelnen Parameter variabel. Wir übernehmen das mit Modeltest errechnete Modell, lassen aber Angaben zu Nukleotidfrequenz, Gamma-shape Parameter α oder dem Anteil invariabler Sites weg. Diese Parameter des Modells werden im Laufe der Markov-Kette variiert. set autoclose=yes; lset nst=[Wert] rates=[equal/gamma/invgamma]; mcmc ngen=100000 printfreq=100 samplefreq=100 nchains=4 savebrlens=yes; END; Die erste Zeile bestimmt, dass das Programm die Analyse nach dem letzten Baum abschließt. Unter „lset“ wird wieder das Modell festgelegt (ohne, dass die Parameter fixiert werden). „Nst“ ist die Zahl der verschiedenen Substitutionsraten [Werte 1, 2 oder 6] „rates“ legt fest, ob die Substitutionsratekonstant sein soll oder einer Gamma-Verteilung mit oder ohne invariable Sites folgt. Unter „mcmc“ wird der Suchlauf näher bestimmt. „Ngen“ = Zahl der Generationen (Schritte) der Markov-Kette, „printfreq=100“ = die LikelihoodWerte jedes 100. Schritts der Markov-Ketten werden auf dem Bildschirm angezeigt; „samplefreq=100“ = jeder 100. Baum wird gesammelt; „nchains=4“ = vier parallel laufenden Markov-Ketten. 7. Speichern Sie den NEXUS-file im Ordner „MrBayes“ auf dem Desktop. 8. Öffnen Sie den Ordner „MrBayes“ und starten Sie „MrBayes3_0b3.exe“ durch Doppelklick. 9. Eingabe: execute [Dateiname] Das Programm beginnt mit der Analyse. Auf dem Bildschirm wird jeder 100. Schritt angezeigt. In der rechten Spalte sehen Sie, wie viele Sekunden das Programm voraussichtlich noch rechnen wird. 10. Nachdem das Programm die Berechnung beendet hat, kann man die Ergebnisse anzeigen lassen. Als Ergebnis würden wir uns jetzt gerne den Konsensus-Baum mit Astlängen und den A-posteriori-Wahrscheinlichkeiten der einzelnen Clades ansehen. Wir müssen bei der Anzeige der Ergebnisse aber die „Burnin“-Phase berücksichtigen und die ersten gesammelten Bäume verwerfen. Dazu lassen wir uns zuerst die Wahrscheinlichkeiten aller Parameter des Modells (Mittelwerte, Varianzen und 95 %-Vertrauensintervalle) und einen Graph der Likelihood-Werte anzeigen. Eingabe: sump filename=[Dateiname.p] Anhand des Graphen können wir abschätzen, nach wievielen Generationen der MarkovKette die Likelihood-Werte ein stabiles Plateau erreicht haben. Die entsprechende Anzahl gesammelter Bäume (nicht Generationen!) ziehen wir als Burnin-Phase nicht in Betracht. Je nach Substitutionsmodell gibt das Programm die wahrscheinlichsten Werte für folgenden Parameter an: Baumlänge TL, verschiedene Substitutionsraten (r…), Nukleotidfrequenzen (pi…), Gamma Shape-Parameter (alpha), Anteil invariabler Positionen (pinvar). 11. Zur Auswertung des Baumes geben wir jetzt ein: sumt filename=[Dateiname.t] burnin=[Zahl zu verwerfender Bäume] Als output erhalten wir zuletzt eine Liste der Arten und der Häufigkeit verschiedener Gruppierungen, einen Baum mit A-posteriori-Wahrscheinlichkeiten, einen Baum mit Ast- 53 längen und eine Tabelle mit „Credible sets of trees“. Alle diese Daten werden in neuen Dateien namens [Dateiname].parts (Gruppierungen), [Dateiname].con (Bäume) und [Dateiname].trprobs gespeichert. 1. Die Datei [Dateiname].con lässt sich in FigTree zur besseren Ansicht öffnen, bearbeiten und als Graphik speichern. 2. Falls Sie nach der Wahrscheinlichkeit eines bestimmten, nicht im Konsensus-Baum enthaltenen Clades suchen, können Sie [Dateiname].parts mit einem Texteditor öffnen. 3. Zuletzt sehen wir uns an, was unter einem „Credible set of trees“ verstanden wird. Kein einzelner Baum wird normalerweise eine statistisch signifikante Wahrscheinlichkeit besitzen. In der Datei [Dateiname].trprobs finden Sie die Einzelwahrscheinlichkeiten (p) und kumulativen Wahrscheinlichkeiten (P) aller errechneten Bäume. Anhand der kumulativen Wahrscheinlichkeit können Sie die Bäume heraussuchen, die gemeinsam eine signifikante Wahrscheinlichkeit besitzen. Den Schwellenwert der Signifikanz können Sie selber festlegen; in der Statistik üblich sind 95 % 99 % oder 99,9 %. Statt aufgrund eines Konsensus-Baums können Sie Ihre Daten auch auf der Grundlage eines solchen Sets möglicher Bäume durchführen. Auch die Bayes’sche Analyse sollen Sie mit dem Multigen-Datensatz durchführen und die Ergebnisse mit denen der Einzelanalyse vergleichen. Wie Sie schon gehört haben sollte man dabei nicht dasselbe Substitutionsmodell für den gesamten Datensatz verwenden, sondern für jedes Gen das jeweils optimale Modell. MrBayes erlaubt es, einzelne Teildatensätze zu definieren und für jede ein optimales Modell zu benutzen. Aufgabe 20: Berechnen Sie zunächst mit MTGui das optimale Substitutionsmodell für den zweite Genlocus. Vor der Analyse muss nun der Befehlsblock für MrBayes ein wenig verändert werden. Man muss die Genpartitionen voneinander abgrenzen und MrBayes sagen, welche Substitutionsmodelle verwendet werden sollen. 1. Öffnen Sie den Nexus-file des Multigen-Datensatzes in einem Texteditor oder PAUP (und gehen Sie dort in die Textansicht). 2. Kopieren Sie den MrBayes-Block aus der ersten Analyse, von „Begin MrBayes;“ bis zu „end;“ ans Ende der Datei. 3. Ihr MrBayes-Block sieht ungefähr so aus: begin mrbayes; set autoclose=yes; lset nst=[Wert] rates=[equal/gamma/invgamma]; mcmc ngen=100000 printfreq=100 samplefreq=100 nchains=4 savebrlens=yes; END; 54 4. Definieren Sie als erstes die Teildatensätze atpB-rbcL und matK in ihrem GesamtDatensatz. Fügen Sie nach „set autoclose=yes;“ für jeden Teildatensatz jeweils eine Zeile mit dem Befehl „charset“, einem Namen und den von Ihnen notierten Alignmentpositionen der einzelnen Gene ein, z. B.: charset atb-rbcL = 1-xxx; charset matK = xxx-yyy; 5. Definieren Sie nun, welche Teildatensätze für die Analyse in einer sogenannten Partition kombiniert werden sollen. Hier können Sie bei der Untersuchung von vielen Genen mehrere Kombinationen definieren. Wir analysieren im Kurs aber nur zwei Gene, so dass Sie hier keine Auswahl haben. Der Befehl gibt der Partition zuerst einen Namen, sagt dann aus wie vielen Einzeldatensätzen die Partition zusammengesetzt ist und listet dann die entsprechenden Datensätze aus der Liste mit „Character Sets“ auf: partition rbcLmatK= 2:atpB-rbcL, matK; 6. Sagen Sie dem Programm nun, welche Partition es analysieren soll: set partition=rbcLmatK; 7. Das Substitutionsmodell wird in MrBayes durch den Befehl „lset“ und die darauf folgenden Angaben festgelegt. Da wir zwei Gene analysieren, müssen wir in separaten Zeilen auch zwei Modelle angeben. Die optimalen Substitutionsmodelle sind bereits vorher berechnet worden. Fügen Sie für jedes Gen eine Zeile ein: Lset applyto=(1) nst=[Wert] rates=[Wert]; Lset applyto=(2) nst=[Wert] rates=[Wert]; 8. Eigentlich ist damit alles klar für die Analyse. Allerdings sind die Substitutionsmodelle in MrBayes nicht vollständig festgelegt. Das grundlegende Modell steht zwar für jeden Teildatensatz fest, aber die Werte einzelner Parameter (z. B. der Transitionsrate oder des Formparameters alpha für die Gamma-Funktion) werden erst im Laufe der Analyse optimiert. Wenn für mehrere Gene Modelle mit gleichen Parametern (z. B. zwei Modelle mit Gamma-Verteilung) definiert wurden, versucht MrBayes einen einzigen Wert für den entsprechenden Parameter zu finden, der dann für beide Gene gilt. Wenn man das nicht will (und wer will das schon), muss man die entsprechenden Parameter entkoppeln. Erst dann berechnet MrBayes den entsprechenden Parameter für alle Teildatensätze getrennt. Der Befehl dazu lautet: unlink [Parameter]=(all); In unserem Falle wollen wir den Formparameter alpha, den Anteil invariabler Positionen, die Nukleotidfrequenzen und die Substitutionsraten des Modells getrennt optimieren und geben dafür die folgenden Zeilen ein: unlink unlink unlink unlink shape=(all); pinvar=(all); statefreq=(all); revmat=(all); 9. Speichern Sie nun den Datensatz im MrBayes-Ordner und starten die Analyse mit den bekannten Befehlen. 10. Bearbeiten Sie zuletzt den Konsensus-Baum in FigTree und speichern ihn unter erkennbarem Namen ab. 55 Die molekulare Uhr Oft ist man nicht nur an den Verwandtschaftsverhältnissen der untersuchten Arten interessiert, sondern hat weitergehende Fragen, die man aufgrund des Stammbaumes beantworten möchte. Eine typische Frage bei systematischen Arbeiten lautet z. B.: Wann haben sich verschiedene Arten einer Gattung oder Gattungen einer Familie voneinander abgespalten? Mit solchen Daten kann man oft biogeografische Fragen, etwa zur Besiedlung von Inselgruppen, beantworten oder Aussagen zu Mechanismen der Evolution treffen. Zuckerkandl und Pauling (1965) vermuteten, dass Substitutionen mit konstanter Rate in das Genom eingebaut werden, weil sie beobachteten, dass die genetischen Unterschiede zwischen Aminosäuresequenzen verschiedener Wirbeltierarten mehr oder weniger linear mit dem Grad ihrer Verwandtschaft abnahmen. Diese Hypothese konstanter Substitutionsraten ist die Grundlage der sogenannten „Theorie der moleklaren Uhr“, die wiederum die Grundlage aller datierten Phylogenien darstellt. Die Idee, dass Aminosäure- oder DNA-Sequenzen Mutationen mit konstanter Rate akkumulieren, wurde auch in die „neutrale Evoutionstheorie“ (Kimura 1968, 1983) übernommen, in der die molekulare Evolution als Zufallsprozess nur von der Zeit und von keinem anderen Faktor abhängt. Wenn die Hypothese der molekularen Uhr stimmt, erwarten wir, dass die genetische Distanz zwischen Taxa streng proportional zur Zeit ist, die vergangen ist, seit die Taxa unabhängig voneinander evolvieren, d.h. seit sie sich von ihrem letzten gemeinsamen Vorfahren abgetrennt haben. In dem Baum unten sind die Aufspaltungszeiten zwischen Taxa A und O und zwischen Taxa B und O genau gleich. Also würden wir erwarten, dass auch die genetischen Distanzen dAO und dBO gleich sind. In Ihrer ersten Studie zur molekularen Uhr untersuchten Zuckerkandl und Pauling (1965) αHaemoglobin- Sequenzen von Hai, Karpfen, Molch, Huhn, Ameisenigel, Känguruh, Hund und Mensch. Nach der molekularen Phylogenie und auch nach dem paläontologischen Befund stellt der Hai die Außengruppe zu allen anderen Taxa dar. 56 Demnach sollten die genetischen Distanzen zwischen Hai und den übrigen Taxa gleich sein. Auf der Grundlage dieses Baumes sollten wir auch erwarten, dass die genetischen Distanzen zwischen Mensch und allen anderen Taxa ansteigen, je weitläufiger diese Taxa mit uns verwandt sind. In der Tabelle sehen wir tatsächlich vergleichbare Distanzwerte innerhalb der Reihen und sinkende Distanzen in jeder Spalte. Aufgabe 21: Erklären Sie ihren Kommilitonen, wieso dieser Befund die Hypothese von der molekularen Uhr unterstützt. Nach der Theorie der molekularen Uhr kann man Phylogenien berechnen, bei denen Astlängen proportional zur Zeit sind und der Abstand eines Knotens von den Spitzen des Baumes die Zeit zum letzten gemeinsamen Vorfahren an diesem Knoten repräsentiert. Wenn man einen solchen Baum berechnet, reicht es aus, das Alter eines einzigen Knotens (Vorfahrens) zu kennen, um alle Knoten im Stammbaum datieren zu können. Auf diese Weise werden also Astlängen nicht wie bei ML oder Bayesschen Analysen als erwartete Anzahl von Substitutionsraten sondern als Aufspaltungszeiten (meist in Millionen Jahren) gesehen. Bei einer normalen Stammbaumberechnung mit ML nimmt man nicht an, dass die Substitutionsrate im Laufe der Evolution oder bei allen untersuchten Taxa konstant war. Das Programm passt die Astlängen des Baumes so an, dass bei gegebenem Substitutionsmodell die Likelihood-Funktion optimiert wird. Das drückt sich im Stammbaum dann dadurch aus, dass die verschiedenen Taxa unterschiedlich weit von 57 der Wurzel des Baumes entfernt liegen. Im einfachsten Fall kann man datierte Phylogenien dadurch berechnen, dass man das Programm zwingt, konstante Substitutionsraten anzunehmen. Es berechnet dann die optimale Baumtopologie, bei der die Astlängen so verteilt sind, dass alle Taxa gleich weit von der Wurzel entfernt landen. Relaxierte molekulare Uhren Obwohl die Theorie der molekularen Uhr interessante und in vielen Fällen realistische Ergebnisse erbrachte, zeigten andere Studien, dass die Annahme einer molekularen Uhr in vielen Fällen eine zu starke Vereinfachung ist. Das sieht man z. B. dann, wenn der optimale Stammbaum unter Annahme der Uhr eine wesentlich schlechtere Likelihood hat als der beste Baum ohne diese Einschränkung. Viele Mutationen sind eben nicht selektiv neutral (z. B. solche, die zu Aminosäure-Austausch in wichtigen Bereichen der Proteinsequenz führen). Auch können Substitutionsraten zwischen verschiedenen Taxa (etwa aufgrund unterschiedlicher Generationszeiten) ergeblich variieren. Seit den späten 90er Jahren sind deshalb verschiedenste Evolutionsmodelle vorgeschlagen worden, die die Annahme strikt konstanter Raten lockern. Diese Modelle werden als „relaxierte molekulare Uhren“ bezeichnet, um von der „strikten“ Uhr zu unterscheiden. Diese Modelle erlauben es, Knoten zu datieren, während gleichzeitig die Substitutionsrate auf verschiedenen Ästen des Stammbaums variieren kann. Die kompliziertesten Modelle können jedem einzelnen Ast eine eigene Substitutionsrate zuweisen. Eines der am weitesten verbreiteten Modelle ist die sogenannte „uncorrelated log-normal (ULN) relaxed molecular clock“, die im Computerprogramm BEAST implementiert ist. Die Art und Weise, wie Substitutionsraten den Ästen zugewiesen werden, ähnelt ein wenig der Art, in der positionsspezifische Substitution ausgewählt werden. Bei einer Bayesschen Baumsuche werden verschiedene Raten zufällig aus einer logarithmischen Normalverteilung (s. Abb. unten) gezogen und jedem Ast des Baumes zugewiesen. Das Sammeln von Bäumen erledigen bei BEAST genau wie bei MrBayes Markovketten, die gleichzeitig auch die Baumtopologie und Astlängen variieren. Aufgabe 22: Erinnern Sie sich noch, aus welcher Verteilung positionsspezifische Substitutionsraten gezogen wurden? Woher kommt das „Γ“ in Bezeichnungen wie GTR+Γ+I? Kalibrierung der molekularen Uhr Eine solche Phylogenie alleine hilft einem natürlich wenig, wenn man den Knoten nicht tatsächliche Altersangaben (in Millionen Jahren) zuordnen kann. Mit Hilfe geologischer oder paläontologischer Daten kann man den Baum aber nachträglich kalibrieren. Ein datiertes Fossil kann man z. B. dann benutzen, wenn es wenigstens eine Synapomorphie zeigt, die typisch für einen Clade des Baumes ist. Man deutet das als Beleg dafür, dass der entsprechende Clade zur Le58 bens- (oder besser Todes-)zeit des Fossils bereits existierte, und kann das Alter des Fossils als Minimalalter für den entsprechenden Ast verwenden. Geologische Ereignisse, z. B. die Entstehung vulkanischer Inseln, die Anhebung von Gebirgsketten oder plattentektonische Aufspaltung von Arealen, werden ebenfalls zur Kalibrierung verwendet. Das Alter von Inseln für die Datierung endemischer Taxa zu verwenden, kann allerdings zu Fehlern führen. Das Taxon könnte sich bereits differenziert haben, lange bevor es die Insel kolonisiert hat, oder es könnte die Insel lange nach ihrer Entstehung besiedelt haben. Die allermeisten molekularen Uhren werden mit Bayesschen Verfahren berechnet. Ein Grund dafür ist die Möglichkeit, das Alter von Knoten als A-priori-Information in die Berechnung einfließen zu lassen. Hier kann man also die nicht-informative A-priori-Wahrscheinlichkeit von Bäumen durch eine informative ersetzen, indem man das Alter bestimmter Knoten durch Apriori-Verteilungen bestimmter Form beschränkt. In der Abbildung sehen Sie einige mögliche Verteilungen, um das Alter eines Knotens zu beschränken. Eine uniforme Verteilung mit Ober- und Untergrenze kann man wählen, wenn man für ein Fossil ein Minimal- und ein Höchstalter angeben kann. Die Normalverteilung bietet sich für biogeografische Daten an, die logarithmische Normalverteilung und die Exponentialverteilung für Fossildaten mit einem Minimalalter. Knoten, für die man keine fossilen (oder anderen) Daten besitzt, erhalten auch eine nicht-informative A-priori-Wahrscheinlichkeit, d. h. ihr Alter wird nach oben und unten nicht beschränkt. Die folgende Analyse erfordert den Einsatz mehrerer Programme. Neben BEAST werden BEAUti, der “TreeAnnotator” aus dem BEAST-Paket, Tracer und FigTree benötigt. Zunächst erstellen wir mit BEAUti einen Input-file für BEAST. 1. Öffnen Sie BEAUti und laden Sie den NEXUS-file durch Drücken von >+ links unten im Fenster. 2. Wählen Sie >Taxon Sets, um die Knoten zu definieren, die kalibriert werden sollen. >+ erzeugt ein neues Taxon Set. Durch Anklicken des entsprechenden Feldes links können Sie dieses Set für die folgende Analyse als monophyletisch definieren. 3. Unter >Site Model können Sie das Substitutionsmodell festlegen (z. B. HKY, GTR). Was bedeuten die zusätzlichen Optionen in diesem Menü? 4. Unter >Clock Models kann man das Modell zur Berechnung der molekularen Uhr, z. B. >Strict Clock oder >Relaxed Clock: Uncorrelated Lognormal (die empfohlene Option). 5. BEAST eignet sich auch für populationsgenetische Datensätze. Innerhalb von Populationen gelten andere mathematische Gesetze als bei Evolutionsprozessen zwischen Arten, die keine Gene mehr miteinander austauschen. Unter dem >Trees müssen wir deshalb ein statistisches Modell für die Verzweigung des Baums auswählen. Von den zwei Optionen wählen wir >Speciation: Yule Process. Diese Option berücksichtigt nur Artbildung, aber keine Aussterbeereignisse wie >Speciation: Birth-Death-Process. 59 6. Nun müssen die A-priori-Verteilungen für die ausgewählten Knoten unter >Priors festgelegt werden. Mit >tmrca([name_of_taxonset]) legt man den Prior des letzten gemeinsamen Vorfahren (most recent common ancestor) des gewählten Taxon-Sets fest. Anwählen von >* Using Tree Prior öffnet ein neues Fenster, in dem verschiedene Verteilungen gewählt und durch >OK bestätigt werden können. Die Details hängen von unserem Datensatz ab und werden im Kurs besprochen. 7. Falls es auch für das Alter der Wurzel eine Kalibrierung gibt, kann man diese analog unter >treeModel.rootHeight bestimmen. 8. Die Länge der Bayesschen Analyse kann man unter >MCMC festlegen. > Length of the chain definiert die Zahl der Generationen, die die Markov-Ketten laufen (mindestens 10 Millionen für eine saubere Analyse). Mit >Log parameters every legt man fest, wie häufig die Kette Bäume (und Parameter) speichert. Das hängt von der Länge der Kette ab. Bei 10 Millionen Generationen sollte man jeden 1000. Baum speichern. 9. Mit >File name stem können Sie zuletzt einen Namen für den Input file und die von BEAST erzeugten Output files bestimmen. 10. >Generate BEAST File erzeugt den Input file. Ein Fenster (ggf. mit Warnmeldungen) öffnet sich. Nachdem alle Fragen geklärt sind, drücken Sie >Continue und wählen einen Ordner, in dem die Datei abgelegt werden soll. 11. Öffnen Sie nun BEAST durch Doppelklick auf das entsprechende Symbol. Es öffnen sich zwei Fenster. 12. >Choose File... öffnet ein weiteres Fenster. Laden Sie die soeben erzeugte Datei (mit der Endung *.xml). 13. Ignorieren Sie die weiteren Optionen und starten Sie die Analyse durch >Run. Das vordere Fenster schließt sich. Im hinteren sehen Sie ähnlich wie bei MrBayes den Fortschritt der Analyse. 14. Sobald die Analyse beendet ist, erscheinen eine Anzahl von statistischen Angaben zum Verlauf der Analyse im Fenster. Außerdem werden Vorschläge gemacht, welche Parameter zur Verbesserung der Analyse in BEAUti verändert werden sollten. 15. Das Programm erzeugt außerdem 2 Dateien mit den Endungen *.trees und *.log. In der ersten finden Sie die gesammelten Phylogenien, in der zweiten alle übrigen während der Analyse gesammelten Parameter. 16. Zuletzt müssen die Ergebnisse der Analyse zusammen gefasst und ein Konsensu-Baum berechnet werden. Öffnen Sie dafür TreeAnnotator. 17. Die Anzahl der Generationen, die als “Burnin” verworfen werden können in >Burnin eingetragen werden. 18. Wählen Sie >Choose File..., um den von BEAST erzeugten Input Tree File (*.trees) und einen Namen für den Output File zu wählen. Beide Male öffnet sich ein Fenster. Beim Input File müssen eine Datei wählen. Beim Output File geben Sie einfach einen Namen an. Eine entsprechende Datei wird dann von TreeAnnotator erzeugt. 19. >Run startet die Berechnung. TreeAnnotator erzeugt einen Baum, der in FigTree geöffnet werden kann und der das Alter der Knoten mit Fehlerbalken (95% Konfidenzintervalle) und die A-posteriori Wahrscheinlichkeiten für jeden Knoten enthält. 60 Lehrbücher, weiterführende Literatur Darwin, C. 1859. On the origin of species by means of natural selection, or the preservation of favoured races in the struggle for life. London: John Murray. Felsenstein, J. 2004. Inferring phylogenies. Sunderland, MA, Sinauer. [die Bibel der phylogenetischen Methoden, verfasst vom Papst höchstpersönlich] Haeckel, E. 1866. Generelle Morphologie der Organismen. Allgemeine Grundzüge der organischen FormenWissenschaft. Berlin: Georg Reimer. Knoop, V., Müller, K. 2006. Gene und Stammbäume. Ein Handbuch zur molekularen Phylogenetik. Heidelberg, Elsevier, Spektrum Akademischer Verlag. [auch nicht schlecht und auf Deutsch] Mendel, J.G. 1866. Versuche über Pflanzen-Hybriden. Verhandlungen des naturforschenden Vereines in Brünn 4: 3–47. Sober, E. 2008. Evidence and Evolution. The logic behind the science. Cambridge University Press. [eine kurze Philosophie der Evolutionstheorie und gleichzeitig eine wunderbar intuitive Einführung in Likelihood, Bayesianismus und andere statistische Methoden; rechnet logisch stringent mit dem Kreationismus ab] Sokal, R. R. & Rohlf F. J. 1995. Biometry. The principles and practice of statistics in biological research. 3rd ed. New York, Freeman & Co. [sehr anschauliche Einführung in die für Biologen wichtigsten statistischen Methoden] Zar, J. H. 1999. Biostatistical analysis. 4th ed. Upper Saddle River, NJ, Prentice Hall. [für Biologen, die es ganz genau wissen wollen; eher als Nachschlagewerk zu verwenden] Zhu, L. & Gigerenzer G. 2006. Children can solve Bayesian problems: the role of representation in mental computation. Cognition 98: 287-308. Labormethoden, DNA Avery, O.T., Macleod C.M. & Mccarty , M. 1944. Studies on the chemical nature of the substance inducing transformation of pneumococcal types. Induction of transformation by a desoxyribonucleic acid fraction isolated from pneumococcus type iii. Journal of Experimental Medicine 79: 137–158. Barfuss, M. H. J., Samuel, R., Till, W. & Stuessy, T. F. 2005. Phylogenetic relationships in subfamily Tillandsioideae (Bromeliaceae) based on DNA sequence data from seven plastid regions. American Journal of Botany 92(2): 337-351. Chargaff, E. 1951 Some recent studies on the composition and structure of nucleic acids. Journal of Cellular and Comparative Physiology 38: 41–59 Doyle, J.J. & Doyle, J.L. 1987. A rapid DNA isolation procedure for small quantities of fresh leaf tissue. Phytochem. Bull. 19: 11-15. Manen, J.-F., Natali, A. & Ehrendorfer, F. 1994. Phylogeny of the Rubiaceae-Rubieae inferred from the sequence of a cpDNA intergene region. Plant Systematics and Evolution 190: 195-211. Miescher, F. 1874. Die Spermatozoen einiger Wirbelthiere. Ein Beitrag zur Histochemie. Verhandlungen der Naturforschenden Gesellschaft Basel 6: 138–208. Mülhardt, C. 2009. Der Experimentator: Molekularbiologie/Genomics. Spektrum Akademischer Verlag, Heidelberg. Mullis, K. 1986. Specific enzymatic amplification of DNA in vitro: The polymerase chain reaction. Cold Spring Harbor Symposia on Quantitative Biology. Cold Spring Harbor Lab 51: 263–273. Mullis, K. & Faloona, F. 1987. Specific synthesis of DNA in vitro via a polymerase-catalyzed chain reaction. Methods in Enzymology 155: 335–350. Reinhard, T. 2010. Molekularbiologische Methoden. Eugen Ulmer Verlag, Stuttgart. Sanger, F., Nicklen, S. & Coulson, A.R. 1977. DNA sequencing with chain-terminating inhibitors. Proceedings of the National Academy of Sciences USA 74: 5463–5467. 61 Watson, J.D. & Crick, F. 1953. A structure for deoxyribose nucleic acid. Nature 171: 737–738. Wu, R. & Kaiser, A.D. 1968. Structure and base sequence in the cohesive ends of bacteriophage lambda DNA. Journal of Molecular Biology 35: 523-537. Analysemethoden Zuckerkandl, E. & Pauling, L. 1962. Molecular disease, evolution, and genetic heterogeneity. In: Kasha, M. & Pullman, B. (eds.). Horizons in Biochemistry. New York: Academic Press, pp. 189–225. Zuckerkandl, E. & Pauling, L. 1965. Evolutionary divergence and convergence in proteins. In: Bryson, V. & Vogel, H.J. (eds). Evolving genes and proteins. New York: Academic Press, pp 97–166. Michener, C.D. & Sokal, R.R. 1957. A quantitative approach to a problem in classification. Evolution 11: 130-162. Edwards, A.W.F. & Cavalli-Sforza, L.L. 1963. The reconstruction of evolution. Heredity 18: 553. Camin, J.H. & Sokal, R.R. 1965. A method for deducing branching sequences in phylogeny. Evolution 19: 311-326. Jukes, T.H. & Cantor, C.R. 1969. Evolution of protein molecules. In: Munro, M.N. (ed.) Mammalian Protein Metabolism. Vol. 3. New York: Academic Press, pp. 21-132. Fitch, W.M. 1971. Toward defining the course of evolution: Minimum change for a specified tree topology. Systematic Zoology 20: 406-416. Cavalli-Sforza, L.L. & Edwards, A.W.F. 1967. Phylogenetic analysis: Models and estimation procedures. Evolution 21: 550-570. Fitch, W.M. & Margoliash, E. 1967. Construction of phylogenetic trees. Science 155: 279-284. Edwards, A.W.F. & Cavalli-Sforza, L.L. 1964. Reconstruction of evolutionary trees. N: Heywood, V.H. & McNeill, J. (eds.) Phenetic and Phylogenetic Classification. London: Systematics Association Publ. 6, pp. 67-76. Felsenstein, J. 1981. Evolutionary trees from DNA sequences: A maximum likelihood approach. Journal of Molecular Evolution 17: 368-376. Saitou, N. & Nei, M. 1987. The neighbour-joining method: A new method for reconstructing phylogenetic trees. Molecular Biology and Evolution 4: 406-425. Yang, Z. & Rannala, B. 1997. Bayesian phylogenetic inference using DNA sequences: A Markov Chain Monte Carlo method. Molecular Biology and Evolution 14: 717-724. 62