Einführung in die Gentechnologie

Transcription

Einführung
in die
Gentechnologie
Institut für Molekulargenetik, gentechnologische Sicherheitsforschung und Beratung
Johannes Gutenberg-Universität Mainz
Leiter:
Betreuer:
Prof. Dr. Erwin R. Schmidt
Dr. Christiane Kraemer, Dr. Steffen Rapp
Dipl.Biol.s Nicholas Bachtadse, Sarah Brunck, Sabine Fischer,
Tobias Lautwein, Romina Petersen
Dipl. Bioinformatiker (FH) Benjamin Rieger
Rudolf Baader, Nicole Naumann
F1-Laborpraktikum SoSe 2013
Inhalt
F1-Laborpraktikum Gentechnologie ....................................................................................................... 3
Zeitplan (nicht bindend) ...................................................................................................................... 8
Theorie Teil 1: Herstellen einer cDNA-Bibliothek für „Next-Generation Sequencing“ .................... 10
Praxis Teil 1: Herstellen einer cDNA-Bibliothek für die Sequenzierung ........................................... 12
Allgemeine Laborsicherheit und Verhaltensregeln ....................................................................... 12
Hinweise zum Arbeiten mit RNA ................................................................................................... 12
RNA-Isolierung: Guanidinthiocyanat (GTC) – Methode nach Chomczynski und Sacchi (1987) ... 12
Erstellen einer cDNA-Library mit dem IlluminaTruSeq RNA Kit .................................................... 15
Qualitätskontrolle und Quantifizieren der Bibliotheken ............................................................... 18
Vorbereitungen - cBot - Sequenzierung ........................................................................................ 21
Theorie Teil 2: Bioinformatische Analyse von „Next-Generation Sequencing“-Daten ..................... 22
Sequenzalignment ......................................................................................................................... 22
Assemblierungsmethoden............................................................................................................. 22
BLAST ............................................................................................................................................. 23
De-Bruijn-Graph (DBG) .................................................................................................................. 25
Arbeitsablauf Sequenzverarbeitung .............................................................................................. 28
Möglichkeiten der Parallelisierung ................................................................................................ 28
Praxis Teil 2: Bioinformatische Analyse von „Next-Generation Sequencing“-Daten ........................ 29
Sequenzierung und Basecalling ..................................................................................................... 30
Datenformat FASTQ....................................................................................................................... 31
Quality Scores ................................................................................................................................ 32
Bioinformatische Analyse der „Next-Generation Sequencing“ Daten mit Hilfe der „CLC Genomics
Workbench“ .................................................................................................................................. 34
Import der „Next-Generation Sequencing“-Daten........................................................................ 34
„Trimmen“ der Sequenzierungsreads ........................................................................................... 35
Assemblierung der Sequenzierungsreads ..................................................................................... 36
„De novo“ Assemblierung.............................................................................................................. 36
„Mapping“ der reads in einer Referenzsequenz ........................................................................... 37
„RNA-Seq“-Analyse........................................................................................................................ 38
Interpretation der RNA-Seq-Analyse ............................................................................................. 42
Expressionsanalyse ........................................................................................................................ 44
Transformation und Normalisierung ............................................................................................. 47
Statistische Analyse: Identifizierung differenzieller Expression .................................................... 48
Anhang........................................................................................................................................... 49
2
F1-Laborpraktikum Gentechnologie
Das FI-Praktikum „Methoden der Gentechnologie - NGS“ soll technische Fähigkeiten im Bereich der
Molekulargenetik sowie in der bioinformatischen Auswertung von Sequenzdaten vermitteln. Dabei
soll einerseits die Isolation von RNA aus Chironomus thummi Embryonen mit der anschließenden
Konstruktion einer cDNA-Bibliothek für die Sequenzierung auf dem HiSeq 2500 oder MiSeq erlernt
werden. Andererseits sollen bioinformatische Kenntnisse in der Analyse von NGS-Daten mit Hilfe von
gängiger Software vermittelt werden.
Die Familie der Chironomiden (Zuckmücken) gehört zur Ordnung der Diptera (Zweiflügler).
Chironomiden haben keine typischen Geschlechtschromosomen wie z.B. die X- und Y-Chromosomen
von Säugern. Trotzdem konnte durch genetische Analysen nachgewiesen werden, dass der
Geschlechtsbestimmungsmechanismus bei Chironomiden die männliche Heterogametie ist.
In C. thummi konnte darüber hinaus durch cytogenetische Analysen festgestellt werden, dass der
dominante männchenbestimmende Faktor M in einer Chromosomenregion nahe dem Telomer von
Chromosom III liegt.
In situ-Hybridisierungen an Polytänchromosomen von
Chironomiden mit hoch repetitiven Cla-Elementen als Sonde
zeigen ein hemizygotes Signal in genau dieser
Chromosomenregion bei männlichen Tieren der Art
C. thummi, welches in den Präparaten weiblicher Tiere fehlt.
Da dieses Cla-Element-Cluster in der geschlechtsbestimmenden Chromosomenregion liegt und nur bei Abbildung 1: Geschlechtsbestimmende
männlichen Tieren und dort immer nur hemizygot zu finden Region
ist, muss dieses Cluster eng gekoppelt mit dem dominanten
Faktor M sein. Um einen molekularen Zugang zu dieser hochinteressanten Chromosomenregion zu
bekommen, wurden von unserer Arbeitsgruppe genomische Lambda-Bibliotheken von C. thummi mit
den hochrepetitiven Cla-Elementen als Sonde gescreent.
Abbildung 2: Struktur der geschlechtsbestimmenden Region
Alle positiven Klone wurden anschließend durch in situ-Hybridisierung an Polytänchromosomen von
C. thummi auf ihre chromosomale Herkunft hin überprüft. Die dabei gefundenen Lambda-Klone
λCla1.1Y und λCla1.8Z flankieren das männchenspezifische hemizygote Cla-Element-Cluster links und
rechts (siehe Abbildung 1).
Ausgehend von den genomischen Klonen λCla1.1Y und λCla1.8Z wurden sowohl mit λ- als auch
später mit BAC-Bibliotheken von C. thummi sowie C. piger „chromosomal walks“ durchgeführt. Auf
diese Art wurden insgesamt mehr als 200 kb aus der geschlechtsbestimmenden Region kloniert und
3
größtenteils sequenziert (Abbildung 2). Innerhalb dieser Chromosomenregion konnten repetitive
Hind-Elemente und Kopien von transposablen Elementen wie TFB1 oder CCE entdeckt werden.
Zudem zeichnet sich diese Region durch das Auftreten von zahlreichen invertierten
Sequenzwiederholungen (inverted repeats, IR) aus.
Um Genstrukturen innerhalb des ca. 200 kb großen Contigs zu identifizieren, wurden verschiedene
Programme (Genescan, PROSCAN, Orf-Finder) eingesetzt. Des Weiteren wurde die NCBI-Datenbank
mit Hilfe der BLASTn-, BLASTp- und BLASTx-Algorithmen auf mögliche Gene hin untersucht. Auf diese
Art und Weise konnten ca. 20 Gene identifiziert werden. Die Namensgebung erfolgte dabei nach den
Treffern in der NCBI-Datenbank.
Gen
Orient. Lage im Contig
Funktion (in urspr. Organismus)
Besonderheiten
GJ16627-like
+
3116-3984
unbekannt (Drosophila virilis)
ACYPI006459
+
17794-20225
ähnl. Nuklearer Rezeptor Coaktivator GT198
(Acyrthosiphon pisum)
spitz-like 1
-
33015-20685
spitz-like 2
-
81050-70145
spitz-like 3
+
101929-107219
CENP-E-like
-
111082-108639
Kinesin-ähnliches Motorprotein (Homo sapiens)
mi-er1-like
-
114160-111216
Differenzierung
(Xenopuslaevis)
LUC7-like
+
114949-116987
Komponente des U1snRNPs
CG7845-like
-
120124-117100
unbekannt (Drosophila melanogaster)
fs(1)K10-like
+
120143-122339
Etablierung der dorso-ventralen Achse der Oocyte
(Drosophila melanogaster)
bcn92-like
+
122699-123309
evtl. Oxidoreduktase (Drosophila melanogaster)
d-Lactat-DH-like -
128444-122597
Oxidation von d-Lactat zu Pyruvat
polyhomeotic
+
132545-139599
Kontrolle der homöotischen
(Drosophila melanogaster)
CG31635-like
+
144342-145968
CG15207-like
+
146638-147473
CG11203-like
+
162169-171517
rpn5
+
173725-175435
HPS-like
-
180208-175467
Untereinheit und Regulator des 26S-Proteasoms
Komponente des "biogenesis of lysosome-related
organelles complex" (Dm)
rpS5-like
+
180785-182242
28S ribosomales Protein S5 (Dm)
CtY
-
196977-182308
DmX-Homolog (Drosophila melanogaster)
CG2841(ptr)-like -
199998-197093
TGF-Alpha-Homolog (Drosophila melanogaster)
zu
mesodermalen
Zellen
WD40-Domäne
Genexpression
WD-Repeat-Protein
Die Funktion der meisten dieser Gene bei C. thummi und C. piger ist bis jetzt unbekannt. Ob es sich
bei einem dieser Gene tatsächlich um den dominanten Männchenbestimmer M handelt kann also
nur vermutet werden. Teilweise ist die Funktion der homologen Gene z.B. in Drosophila
melanogaster bekannt. Da es aber nur abschnittsweise Übereinstimmungen zu der Sequenz in
C. thummi und C. piger gibt, können diese Informationen nur als Hinweise auf die Eigenschaften der
entsprechenden Gene in der geschlechtsbestimmenden Region dienen.
4
Besonders interessant im Hinblick auf die Identität des Männchenbestimmers M sind
Sequenzunterschiede zwischen Proto-X- und Proto-Y-Chromosom. Ein solcher Unterschied konnte in
Form eines duplizierten Abschnitts im Bereich der Gene CG7845-like und fs(1)K10-like gefunden
werden. Des Weiteren wurden kurz hinter dem Gen D-Laktat-DH-like ein Hinf(lur)-Element und der
vermutliche Beginn des Cla-Element-Clusters identifiziert. Im Moment wird daran gearbeitet, mit
verschiedenen Methoden weitere Sequenzinformationen des Proto-Y-Chromosoms zu erhalten.
Zur näheren Analyse der Gene in der geschlechtsbestimmenden Region und einer möglichen
geschlechtsspezifischen Expression dieser Gene wird eines der modernsten Sequenzierverfahren
eingesetzt. Die Illumina HiSeq 2500-Plattform reiht sich ein in eine Reihe von neuen Technologien im
Bereich der Hochdurchsatzsequenzierung, dem sogenannten „Next-Generation Sequencing“ (NGS).
Die meist verbreiteten Technologien dieser Gruppe sind die SOLiDTM-, 454- und Illumina-Verfahren.
Sie machen es möglich, immer günstiger und in immer kürzerer Zeit große Mengen an
Sequenzinformation zu generieren. Hat die Sequenzierung des menschlichen Genoms im Rahmen
des humanen Genom-Projekts (1990-2003) noch über 3 Mrd. US$ und 13 Jahre Forschung benötigt,
so sind Resequenzierungen menschlicher Genome heute innerhalb von 1-2 Wochen und mit Kosten
im Bereich von 5.000-10.000 € möglich. Neben dem auf Ligation von Oligonukleotiden basierenden
SOLiDTM-System und der Pyrosequenzierung der 454 Roche-Plattform dürften die „Genome Analyzer
IIx“ und „HiSeq“-Systeme der Firma Illumina weltweit den größten Anteil an Sequenzier-Projekten
haben. Zurzeit sind hier mit bis zu 150 nt im Vergleich zur SOLiD-Platform wesentlich größere und im
Vergleich zur 454-Technologie (~800 nt) deutlich kürzere Leseweiten möglich. Allerdings bietet
Illumina mit wesentlich geringeren Fehlerraten und mehr Sequenzinformation eindeutige Vorteile
gegenüber der Roche-Technologie. Während bei
der 454-Technologie von Roche auf Emulsions-PCR
und Picotiterplatten zurückgegriffen wird, findet die
spezifische Amplifikation bei den Illumina-Systemen
erst nach dem Immobilisieren der DNA-Fragmente
auf der Oberfläche des Reaktionsraums, der „Flow
Cell“, statt. Diese ist in 8 physisch voneinander
getrennte Reaktionsräume („Lanes“) unterteilt. Auf
den Oberflächen sind Oligonukleotide mit zwei
unterschiedlichen
Sequenzen
verankert.
Komplementäre Adapter, die an die DNAAbbildung 3: Flow Cell
Fragmente ligiert wurden, können an diese binden
und bilden beim Prozess der „Bridge Amplification“
Cluster mit tausenden Kopien eines Moleküls (Abbildung 4 A-C). Bei der „Bridge-Amplification“ folgt
in mehreren Runden auf eine Synthesephase, in der der Zweitstrang synthetisiert wird, eine
Denaturierung. Da jeweils an das andere auf der Oberfläche der „Flow Cell“ verankerte
Oligonukleotid angenüpft wird, ist der Zweitstrang nun auch kovalent an die Oberfläche gebunden
und kann, im nächsten Amplifikationschritt, mit dem anderen Fragmentende an ein freies
Oligonukleotid binden. Von dessen 3‘ Ende kann die neue Zweitstrangsynthese beginnen. Vor der
eigentlichen Sequenzierung werden die Moleküle über eine adapterspezifische Schnittstelle im
Bereich der verankerten Oligonukleotide einheitlich ausgerichtet (Abbildung 4 C). Letztlich erfolgt die
Sequenzierung ausgehend von einem im Adapterbereich bindenden Primer nach dem Prinzip der
Neusynthese der DNA. Verwendet werden fluoreszenzmarkierte Nukleotide in einem Vier-FarbenSystem. Die Markierungen befindet sich an einer reversiblen 3‘-Schutzgruppe am Nukleotid. Diese
5
verhindert den Einbau von mehreren Nukleotiden in einem Sequenzier-Zyklus. Nach der Detektion
wird die Schutzgruppe mit dem Fluoreszenzfarbstoff chemisch abgespalten und der nächste Zyklus
kann beginnen. So entstehen keine Probleme mit homopolymeren Sequenzabschnitten. Durch
chemische Einflüsse und Laserbestrahlung bei der Detektion werden die Cluster in geringem Umfang
ausgedünnt und/oder geschädigt, wodurch die Signalintensitäten und Qualität der Sequenzierung
sinkt. Zurzeit sind auf dieser Plattform einfache Leseweiten von 100 nt (HiSeq 2000) bis 150 nt (GAIIx)
mit bis zu 600 Gbp pro Lauf möglich. Dies entspricht einem Lauf mit zwei „Flow cells“ auf dem HiSeq
2000, der etwa 11 Tage dauert.
Mit der im Praktikum verwendeten Chemie werden pro „Lane“ ca. 50-60 Mio. Sequenzen mit einer
Länge von 150 bp generiert. Dies entspricht einer Sequenzinformation von ca. 2,5-3 Gbp. Diese
Masse an Daten aus recht kurzen Sequenzfragmenten stellt ganz neue Anforderungen an die
computertechnische Ausstattung und die Analysealgorithmen. Es werden neue oder angepasste
Abbildung 4: „Bridge Amplification“ und Sequenzierung
Strategien für die Auswertung der Sequenzdaten benötigt. Die im Kurs generierten Daten können in
vielerlei Hinsicht bioinformatisch ausgewertet werden: Die Daten können assembliert und mit
vorhandenen Datenbanken verglichen werden (Assembly-Ansatz), in Anlehnung an traditionelle „tag
count“-Ansätze wie der SAGE (Velculescu 1995) oder der EST-Sequenzierung („readcount“-Ansatz)
können die generierten Transkriptom-Daten mit einem bekannten Genom oder Teilbereichen davon
verglichen werden, das sogenannte „Mapping“ (Mortazavi 2008). Dabei werden die Sequenzen
Koordinaten in der Referenzsequenz und zugehörigen Genen und Exons zugeordnet (Abbildung 5).
Abbildung 5: Genexpressionsanalyse mittels Mapping
6
Ziel ist es, das Vorkommen von Sequenzen in dieser Region zu quantifizieren und Unterschiede im
Vergleich verschiedener Zustände aufzuzeigen. In unserem Fall bedeutet dies, mögliche Unterschiede
in der Transkription der Gene aus der geschlechtsbestimmenden Region zwischen Männchen und
Weibchen zu entdecken. Dies kann sich beispielsweise in unterschiedlichen Transkriptionsraten
darstellen, aber auch mögliche geschlechtsspezifisch unterschiedlich gespleißte Transkripte können
auf diese Art und Weise detektiert werden.
Da die Determination des Geschlechts sehr früh in der Entwicklung eines Individuums stattfindet, ist
es sinnvoll, für die RNASeq –Analyse Embryonalstadien zu verwenden. Da in einem Chironomus
Gelege männliche und weibliche Embryonen nebeneinander vorkommen, ist es naturgemäß sehr
schwierig, das Geschlecht der Embryonen a priori zu bestimmen. Die Isolierung von RNA aus einem
einzelnen Embryo gestaltet sich ebenfalls als schwierig, da durch die notwendigen Reinigungsschritte
ein großer Teil der RNA aus dem Embryo verloren geht.
In dem diesjährigen Praktikum soll daher versucht werden, RNA aus einzelnen Chironomus
Embryonen zu isolieren und bei den notwendigen Aufreinigungsschritten durch Zugabe einer
heterologen „Carrier-RNA“ (z.B. von Vitis oder Malus) die Verluste an Chironomus-RNA zu
minimieren.
Nach erfolgreicher RNA-Isolierung wird eine cDNA-Bibliothek für die NGS-Sequenzierung konstruiert
und ein HiSeq- oder MiSeq-Lauf gestartet. Bei der anschließenden bioinformatischen Analyse der
Daten soll zunächst die heterologe Carrier-cDNA durch „Mapping“ aussortiert werden. Anschließend
soll analysiert werden, ob und in welchem Umfang es gelungen ist, die RNA eines einzelnen
Chironomus-Embryos zu sequenzieren. Diese Sequenzen sollen schließlich insbesondere in Hinblick
auf die Transkriptionsprofile der Gene aus der SDR analysiert werden.
7
Zeitplan (nicht bindend)
Praxis Teil 1: Herstellen einer cDNA-Bibliothek für die Sequenzierung
Mo, 17.06.2013
- RNA-Isolierung
- Bioanalyzer
Di, 18.06.2013
- 2x polyA+ -Aufreinigung
- cDNA-Synthese (Erst-und Zweitstrang)
- AMPure-Aufreinigung
- Endrepair
Mi, 19.06.2013
- A-Tailing des 3´Endes und Adapter-Ligation
- AMPure-Aufreinigung (2x)
- Anreicherung
- Q-Bit
- Bioanalyzer
Do, 20.06.2013
- qPCR (evtl.)
- Vorbereitung c-Bot-Sequenzierung (ggfs)
Fr, 21.06.2013
- Vorbereitung c-Bot-Sequenzierung
8
Theorie Teil 2: Bioinformatische Analyse von „Next-Generation Sequencing“-Daten
Mo, 24.06.2013
Di, 25.06.2013
Mi, 26.06.2013
Do, 27.06.2013
Fr, 28.06.2013
9
Theorie Teil 1: Herstellen einer cDNA-Bibliothek für „Next-Generation Sequencing“
Zum Vergleich der Genexpression zwischen verschiedenen Zuständen wird zunächst die RNA dieser
Gewebe benötigt. Dazu muss zunächst ein Gewebeaufschluss erfolgen, der die Zellen aus dem
Verbund löst und somit besser erreichbar für die bei der Extraktion verwendeten Detergenzien
macht. Dies geschieht meist mechanisch durch Mörsern oder Pottern. Bei der RNA-Isolierung werden
Guanidinhydrochlorid, Guanidinthiocyanat oder sehr hohe Harnstoffkonzentrationen bevorzugt.
Diese zerstören gleichzeitig die Zellwand, lösen die Zellwandfragmente auf und denaturieren
endogene RNasen. Anschließend werden die Zelltrümmer und Proteine durch Phenol-ChloroformExtraktionen entfernt. Dabei verbleiben diese aufgrund ihrer hydrophoben Bestandteile in der
phenolischen bzw. Interphase. Nach mehrmaligen Extraktionen enthält die wässrige Phase die
hydrophilen Nukleinsäuren RNA und DNA. Zur Fällung von RNA werden im Wesentlichen
Natriumacetat oder Lithiumchlorid verwendet. Da RNA bei etwas höherem Ethanolgehalt (2,5faches
Volumen) gefällt wird, bietet die Verwendung von LiCl aufgrund des größeren Ionendurchmessers
etwas höhere Ausbeuten. Allerdings wird oftmals auch NaAc benutzt, um den Einfluss von LiCl auf
nachfolgende enzymatische Reaktionen auszuschließen. In diesem Fall sollte die Inkubationszeit bei 20°C und die Zentrifugationszeit erhöht werden. Um Kontaminationen der RNA mit DNA zu
vermeiden kann anschließend ein DNase-Verdau durchgeführt werden. Da die isolierte RNA zu 98 %99 % aus ribosomaler RNA besteht, ist eine Anreicherung von mRNA für die meisten Experimente zur
Genexpressionsanalyse notwendig. Dabei macht man sich zu Nutze, dass mRNA am 3’ Ende
polyadenyliert ist. Durch Hybridisierung an ein Oligo-dT-Nukleotid, das an einen selektiv
abtrennbaren Stoff (Cellulose, Latex- oder magnetische Beads) gebunden ist, kann die nicht
gebundene rRNA weggewaschen und zum Großteil entfernt werden. Für die anschließende cDNASynthese wird in der Regel ebenfalls ein Oligo-dT-Nukleotid als Primer verwendet. In diesem Fall
startet die Erststrangsynthese am 3’ Ende des Gens. Da die cDNA-Synthese häufig vorzeitig abbricht,
kommt es zu einer Anreicherung von 3‘-Sequenzen. Um dies zu vermeiden, werden in heutigen
Protokollen nach mehrmaliger polyA+-Aufreinigung „random“ Hexamere zum Priming der cDNASynthese verwendet. In der Erststrangsynthese wird mittels einer Reversen Transkriptase ein zur RNA
komplementärer Strang synthetisiert. Der Zweitstrang wird meist mithilfe der T4-DNA-Polymerase
nach Zugabe von RNase H durchgeführt. RNase H in geringer Konzentration führt zu einem nur
teilweisen Abbau des RNA-Strangs des RNA-DNA-Hybrids. Die verbleibenden RNA Fragmente dienen
als Primer für die DNA-Polymerase. Vor der Ligation von Adaptern werden etwaige einzelsträngige
Enden mit Hilfe des Klenow-Fragments aufgefüllt. Um im Anschluss bessere Resultate bei der
Adapterligation zu erhalten, werden die doppelsträngigen DNA-Fragmente zusätzlich mit einem
A-Überhang versehen. Dies geschieht meist durch eine Taq-DNA-Polymerase, der zum Einbau nur
dATPs angeboten werden.
10
Abbildung 6: Erstellen einer cDNA-Bibliothek zur Sequenzierung auf dem HiSeq 2000
Für die sogenannte „Bridge Amplification“ (Fedurco 2006) werden Fragmente benötigt, die an den
Enden unterschiedliche Adapter tragen. Dies wird durch spezielle Y-Adapter gewährleistet. Die
beiden Stränge bilden über einen Bereich homologer Sequenzen einen Doppelstrang, wohingegen sie
sich in einem anderen Teil unterscheiden und keinen Doppelstrang ausbilden (Abb. 6). Werden diese
nun mit den doppelsträngigen cDNA-Molekülen ligiert, sollte jeder Einzelstrang für sich die beiden
unterschiedlichen Adaptersequenzen tragen. Durch wenige Runden einer PCR mit
adapterspezifischen Primern werden diese Fragmente noch weiter angereichert. Nach der
Denaturierung hybridisieren die linearen Fragmente mit beiden Enden der Adapter an
komplementäre Oligonukleotide auf der „Flow Cell“-Oberfläche und bilden so eine Art „Brücke“.
Dabei wird auf einen statistischen Abstand zwischen einzelnen Molekülen geachtet, damit
Amplifikations-Cluster verschiedener Fragmente sich nicht überschneiden.
11
Praxis Teil 1: Herstellen einer cDNA-Bibliothek für die Sequenzierung
Allgemeine Laborsicherheit und Verhaltensregeln
1. Tragen Sie für alle Arbeiten im Labor einen Laborkittel
2. In den Laborräumen sollten nur Schreib- und Arbeitsmaterialien aufbewahrt werden.
Straßenkleidung und Taschen sind in die dafür vorgesehenen Spinde (SBI) einzuschließen. Bitte
hierfür ein geeignetes Vorhängeschloss mitbringen. In den Laborräumen ist das Essen, Trinken
und Rauchen verboten.
3. Arbeiten Sie umsichtig und bewusst. Gefährden Sie weder sich selbst noch Ihre Kommilitonen.
4. Studentinnen, die sich in anderen Umständen befinden, teilen dies dem Kursleiter mit. Er wird
diese Mitteilung vertraulich behandeln, eine erfolgreiche Kursteilnahme ermöglichen und Sie von
gesundheitsschädlichen Stoffen fernhalten.
5. Wir arbeiten mit organischen Lösungsmitteln, Laugen und Säuren. Vermeiden Sie unbedingt
Hautkontakt bzw. orale Aufnahme. Nutzen Sie die angebotenen Schutzmittel wie Handschuhe
und Schutzbrillen.
6. Falls Sie sich verletzen sollten, informieren Sie sofort den Kursleiter. Im Bedarfsfall sind in jedem
Laborraum Augenduschen vorhanden.
Hinweise zum Arbeiten mit RNA
Ribonukleasen (RNasen) sind sehr stabile und aktive Enzyme, die normalerweise auch ohne
Co-Faktoren ihre Funktion ausüben können. Da RNasen nur schwer zu inaktivieren sind und selbst
kleinste Mengen ausreichen um RNA zu zerstören, sind beim Arbeiten mit RNA besondere
Maßnahmen zu ergreifen. Aufgrund des ubiquitären Vorkommens von RNasen sollten bei Arbeiten
mit RNA-haltigen Lösungen Handschuhe getragen werden. RNA-Lösungen sollten zwischen den
Experimenten stets auf Eis gelagert werden. Sterile Polypropylen-Tubes sind für die Arbeit mit RNA
am besten geeignet, da diese Tubes normalerweise auch RNase-frei sind und daher keine besondere
Behandlung mehr benötigen. Alle Lösungen, auch Wasser, werden mit Diethylpyrocarbonat (DEPC)
behandelt, um evtl. enthaltene RNasen zu inaktivieren.
Achtung! DEPC gilt als carcinogen und ist leicht flüchtig! Alle Arbeiten mit DEPC werden daher
ausschließlich mit Handschuhen, sowie unter einem Abzug durchgeführt. Anschließend werden die
DEPC-behandelten Lösungen autoklaviert, um DEPC zu deaktivieren.
RNA-Isolierung: Guanidinthiocyanat (GTC) – Methode nach Chomczynski und Sacchi (1987)
1.
2.
3.
Gewebeaufschluss
Zunächst müssen aus einem Gelege einzelne Embryonen isoliert werden:
- befruchtetes Gelege sammeln und in ein Eppendorfgefäß mit VE-Wasser geben
- einen Tropfen DanChlorix-Lösung (0,5% Natriumhypochlorit) zugeben, um die Gallerte
aufzulösen
- Embryonen mehrmals mit HPLC-Wasser waschen
- Embryonen in eine Petrischale überführen
- einen einzelnen Embryo vorsichtig mit einer Pipette mit weißer Spitze ansaugen, in 100 µl
Guanidinthiocyanat-Lösung überführen und einige Male auf- und abpipettieren
1
/10 Volumen 2M NaAcetat (pH 4,1) und Carrier-RNA zur Lösung geben.
12
4.
5.
je eine Extraktion mit Phenol/Chloroform/Isoamylalkohol (PCI) und Chloroform/Isoamyalkohol
(CI) durchführen:
Hierzu 1 Volumen Tris-gesättigtes (pH 7,2) Phenol und 1/5 Volumen Chloroform/Isoamylalkohol
(24:1) zum Homogenisat geben. Danach mehrmals invertieren und anschließend 10 min auf Eis
inkubieren. Proben bei 4°C und 5000 g für 20 min zentrifugieren.
Überstand abheben und mit 1 Volumen Chloroform/Isoamylalkohol versetzen. Danach
mehrmals invertieren und anschließend 10 min auf Eis inkubieren. Proben bei 4°C und 5000 g
für 20 min zentrifugieren
Zur Fällung der RNA die wässrige Phase mit 1 Volumen Isopropanol (abs.) versetzen, mehrmals
invertieren und für 1 h bei -20°C lagern. Danach bei 4°C und 5000 g für 40 min zentrifugieren,
Überstand abnehmen und das Pellet mit 75 % Ethanol waschen, 5 min zentrifugieren (4°C, 5000
g), anschließend in einer Vakuum-Zentrifuge (Eppendorf „Concentrator 5301“) bei 30°C trocknen
und in 50 µl DEPC-Wasser/Nuklease freiem Wasser lösen.
Qualitätskontrolle mit Agilent Bioanalyzer Nano-Assay
Das RNA 6000 Nano Kit von Agilent ist hervorragend dafür geeignet, die Qualität von Total-RNA
anhand von RNA Integrity Numbers (RINs) zu bestimmen. Diesen Werten liegt ein komplizierter
Algorithmus zu Grunde, der hauptsächlich die Degradation der vorliegenden RNA einbezieht. Das
Elektropherogramm einer typischen Total-RNA zeigt Abbildung 7.
Abbildung 7: Elektropherogramm einer typischen Total-RNA
mit Erklärung von Peaks und Regionen (aus Schroeder et al. 2006)
Die Integrität der RNA wird auf einer Skala von 0 bis 10 angegeben, wobei niedrige Werte mit hoher
Degradation korrelieren und umgekehrt. Für Expressionsanalysen (z.B. RNA-Seq, quantitative RealTime PCR) sollten stets RNAs mit sehr hohen RINs (>8) benutzt werden.
Die Messmethode des Bioanalyzers entspricht dem einer Mikrokapillargelelektrophorese. Die Proben
werden durch Anlegen einer geeigneten Spannung elektrophoretisch aufgetrennt, wobei ein sehr
sensitiver, interkalierender Fluoreszenzfarbstoff von einer Kamera detektiert wird. Die gemessene
Fluoreszenz wird gegen die Laufstrecke (in Sekunden, s. Abb. 7) ausgegeben. Durch Verwendung
13
eines Molekulargewichtsstandards (Leiter) kann dann aus der Laufstrecke das Molekulargewicht der
einzelnen Fragmente bestimmt werden.
Durchführung: Qualitätskontrolle mit Hilfe des Bioanalyzers
Richtiges Pipettieren: niemals an den Rand der Wells, sondern immer auf den Boden pipettieren.
1.
2.
3.
Pipettieren Sie 2 µl Ihrer RNA (Konz. 25-500 ng/µl) in 0,2ml PCR Tubes und kennzeichnen Sie das
Gefäß sorgfältig.
Ein Gelaliquot (65 µl) wird Ihnen bereitgestellt. Pipettieren Sie 1 µl RNA 6000 Nano Dye (blau •)
hinzu. Der Gel-Dye-Mix muss vor der Benutzung sorgfältig gevortext und bei 13000 x g für
10 min zentrifugiert werden.
Den RNA 6000 Nano Chip in die Vorbereitungsstation legen und 9 µl Gel-Dye-Mix
in das mit
gekennzeichnete Well (weißer Punkt in der unten aufgeführten
Grafik) pipettieren. Bitte entnehmen Sie das Gel aus dem Aliquot knapp
unterhalb des Meniskus, da sich am Boden Schwebstoffe absetzen, die den Lauf
beeinträchtigen können. Vermeiden Sie ebenfalls heftige Bewegungen und Stöße.
ACHTUNG: Lesen Sie an dieser Stelle bitte die Punkte 5-7 und bereiten Sie Pipetten und Lösungen
vor, bevor Sie weiterarbeiten
4.
5.
6.
Die Spritze auf 1 ml einstellen, die Vorbereitungsstation schließen und die Spritze herunter
drücken, bis diese vom Clip gehalten wird, danach exakt 30 Sekunden (Timer) warten und den
Clip lösen.
Warten Sie 5 Sekunden und ziehen Sie dann die Spritze LANGSAM wieder in die
Ausgangsposition zurück.
Öffnen Sie die Vorbereitungsstation und pipettieren Sie 9 µl Gel-Dye-Mix in die
mit
gekennzeichneten Wells.
7.
Pipettieren Sie nun 5 µl RNA 6000 Nano Marker (grün •) in die verbleibenden 13
Wells.
8.
Denaturieren Sie in der Zwischenzeit alle Proben und die RNA 6000 Nano Ladder bei 72°C für
2 min in einem Thermocycler.
9.
Pipettieren Sie 1 µl der RNA 6000 Nano Ladder in das mit
Well.
14
gekennzeichnete
10. Pipettieren Sie nun jeweils 1 µl Ihrer Proben in die 12 vorhandenen Wells und notieren Sie die
Reihenfolge. In alle unbenutzten Wells pipettieren Sie 1 µl RNA 6000 Nano Marker (grün •).
11. Legen Sie den Chip in den IKA Vortexer (nur eine Orientierung ist möglich!) und starten Sie
diesen.
HINWEIS: Der IKA Vortexer stoppt automatisch nach einer Minute
12. Legen Sie den Chip in den Bioanalyzer (vermeiden Sie ruckartige Bewegungen) und beginnen Sie
den Lauf innerhalb von 5min nach Präparation des Chips durch Betätigung des Start-Knopfes
(wird grün, wenn der Chip erkannt wurde).
Erstellen einer cDNA-Library mit dem IlluminaTruSeq RNA Kit
Allgemeine Hinweise und Vorbereitungen:
1. Alle Puffer werden erst kurz vor Gebrauch aufgetaut und auf RT gebracht, danach sofort wieder
eingefroren, Enzyme stets auf Eis gelagert und nach Gebrauch sofort wieder bei -20°C gelagert.
2. Das 80 %ige EtOH wird am Ende des Arbeitstages bei -20°C gelagert
3. AMPure XP Beads werden 30 min vor Gebrauch auf RT gestellt
4. Thermocycler vorbereiten
polyA+-Aufreinigung
1.
2.
3.
4.
5.
6.
7.
8.
1,5 µg (0,1-4 µg) der Gesamt-RNA in einem 0,2 ml Eppendorf Tube mit nukleasefreiem Wasser
auf 50 µl auffüllen
OligodT-beads vortexen bis alles gut resuspendiert ist und 50 µl Beads zur Total-RNA geben, gut
mischen durch vorsichtiges auf- und abpipettieren
Zur Denaturierung 5 min bei 65°C im Thermocycler inkubieren, auf 4°C herunterkühlen und
weitere 5 min bei RT inkubieren. Dabei bindet die RNA an die Beads.
Zum Waschen der Beads Eppi in den Magnethalter stellen, 5 min warten bis die Lösung klar ist.
Dann den Überstand vorsichtig abnehmen und verwerfen (Vorsicht: nicht die Beads ablösen!),
Eppi aus dem Magnethalter nehmen
200 µl Beadwashing-buffer zugeben, mit der Pipette vorsichtig resuspendieren und Tube in den
Magnethalter stellen, 5 min warten bis die Lösung klar ist, Überstand abnehmen und verwerfen
ohne die Beads zu lösen, anschließend Eppendorf Gefäß wieder aus dem Magnethalter nehmen.
RNA mit 50 µl Elution-Buffer eluieren. Dazu die Suspension mit der Pipette mischen und im
Thermocycler für 2 min bei 80°C inkubieren, auf 25°C herunterkühlen und halten. Dabei löst sich
die mRNA von den Beads. Die Beads verbleiben im Elutionspuffer.
Zweite Runde der Aufreinigung.
Dazu 50 µl Bead Binding Buffer zu der mRNA und den Beads geben, mit der Pipette mischen,
5 min bei RT inkubieren.
Beads waschen: Schritte 2 bis 4 wdh.
Elution und Fragmentierung der mRNA: 19,5 µl „Elute, Prime, Fragment Mix“ zugeben und mit
der Pipette gut mischen
15
! Möglichkeit zum Lagern bei -20°C oder weiter mit der Erststrang-Synthese der cDNA !
Elution und cDNA-Synthese (Erst- und Zweitstrangsynthese):
1. Tube in den PCR-Cycler stellen, 94°C , 8 min, 4°C hold, danach kurz anzentrifugieren (die RNA
löst sich von den Beads)
2. Beads von der RNA separieren. Dazu Tube in den Magnethalter stellen, 5 min warten bis die
Lösung klar ist und 17 µl des Überstandes in ein neues 0,2 ml Eppi überführen
3. 1 µl SuperScript III zu 7 µl First Strand Master Mix und dieses zu den 17 µl Eluat geben, mit der
Pipette mischen, kurz anzentrifugieren. Danach Erststrangsynthese im Thermocycler:
Programm:
25°C für 10 min
42°C für 50 min
70°C für 15 min
4°C ∞
4.
Für die Zweitstrang-Synthese der cDNA das Tube aus dem Cycler nehmen, 25 µl Second Strand
Master Mix zugeben, mit der Pipette mischen und im PCR-Cycler 1 h bei 16°C inkubieren.
AMPure-Aufreinigung:
5. Aufreinigung mit AMPure XP Beads. Diese gut vortexen und 90 µl zu den 50 µl ds cDNA geben,
mir der Pipette mischen, 10 min bei RT inkubieren
6. Eppendorf Tube in den Magnethalter stellen, 5 min warten bis die Lösung klar ist, 135 µl
Überstand abnehmen und verwerfen und 200 µl 80 % EtOH zugeben, ohne die Beads zu lösen
7. 30 sek inkubieren, Überstand abnehmen und verwerfen und nochmals mit 200 µl 80 % EtOH
waschen
8. 10 min bei RT im Magnetständer trocknen lassen
9. Tube aus dem Magnetständer nehmen, Beads in 62,5 µl Resuspensions-Puffer resuspendieren
und 2 min bei RT inkubieren
10. Tube in den Magnethalter stellen, 5 min warten bis die Lösung klar ist und 60 µl Überstand
(ds cDNA) in ein neues 0,2 ml Eppi überführen
! Möglichkeit zum Lagern bei -20°C oder weiter mit End Repair !
Endrepair
1. 40 µl End Repair Mix zugeben, mit der Pipette mischen und im PCR-Cycler 30 min bei 30°C
inkubieren
2. AMPure XP Beads gut vortexen und 160 µl zu der cDNA geben, mischen, 10 min bei RT
inkubieren
3. Eppi in den Magnethalter stellen, 5 min warten bis die Lösung klar ist, 255 µl (2x 127,5 µl)
Überstand (in 2 Schritten) abnehmen und verwerfen, ohne die Beads zu lösen
16
4.
5.
6.
7.
8.
200 µl 80 % ETOH zugeben ohne die Beads zu lösen, 30 sek inkubieren, Überstand abnehmen
und verwerfen, Waschschritt 1x wiederholen
Eppi 10 min bei RT im Magnetständer trocknen lassen
Tube aus dem Magnetständer nehmen und das Pellet mit 20 µl Resupension Buffer lösen.
Danach 2 min bei RT inkubieren.
Eppi in den Magnethalter stellen, 5 min warten bis die Lösung klar ist
17,5 µl des Überstandes in ein neues 0,2 ml Eppi überführen
! Möglichkeit zum Lagern bei -20°C oder weiter mit der A-Tailing des 3`Endes !
A-Tailing des 3´-Endes und Adapter-Ligation
1. Zu den 17,5 µl Probe 12,5 µl A-Tailing Mix zugeben und im PCR-Cycler 30 min bei 37°C
inkubieren
2. danach: + 2,5 µl DNA Ligase Mix
+ 2,5 µl verdünnte Ligase Control oder 2,5 µl Resuspensions-Puffer
+ 2,5 µl von jedem RNA Adapter Index, gut mischen
3. für 10 min bei 30°C im Cycler inkubieren, anschließend 5 µl StopLigase Mix zugeben und gut
mischen
4. AMPure XP Beads gut vortexen, 42 µl zur Probe geben, mit der Pipette mischen und 10 min bei
RT inkubieren
5. Eppi in den Magnethalter stellen, 5 min warten bis die Lösung klar ist, 79,5 µl Überstand
abnehmen und verwerfen ohne die Beads zu lösen
200 µl 80 % ETOH zugeben ohne die Beads zu lösen; 30 sek inkubieren, Überstand abnehmen
6. Pellet 10 min bei RT im Magnetständer trocknen lassen, aus dem Magnetständer nehmen
und getrocknetes Pellet mit 52,5 µl Resuspensions-Puffer mischen, dann 2 min bei RT inkubieren
7. Tube in den Magnethalter stellen, 5 min warten bis die Lösung klar ist und 50 µl des
Überstandes in ein neues 0,2 ml Eppi überführen
zweite AMPure-Aufreingung:
8. 50 µl Probe mit 50 µl AMPure XP Beads versetzen, mischen und 10 min bei RT inkubieren
9. Tube in den Magnethalter stellen, 5 min warten bis die Lösung klar ist, 95 µl Überstand
10. 200 µl 80 % ETOH zugeben ohne die Beads zu lösen, 30 sek inkubieren, Überstand abnehmen
11. Pellet 10 min bei RT im Magnetständer trocknen lassen, aus dem Magnetständer nehmen
getrocknetes Pellet mit 22,5 µl Resuspensions-Puffer mischen, 2 min bei RT inkubieren
12. Eppi in den Magnethalter stellen, 5 min warten bis die Lösung klar ist und 20 µl des Überstandes
in ein neues 0,2 ml Eppi überführen
! Möglichkeit zum Lagern bei -20°C oder weiter mit Anreicherung !
17
Anreicherung
1.
Ansatz (gut mischen):
20 µl Probe
+ 5 µl PCR Primer-Cocktail
+ 25 µl PCR Master-Mix
50 µl
2.
Programm:
98°C 30 s
98°C 10 s
60°C 30 s 15x
72°C 30 s
72°C 5 min
4°C ∞
AMPure-Aufreingung:
3. 50 µl AMPure XP Beads zur Probe geben, mit der Pipette gut mischen und 10 min bei RT
inkubieren
4. Tube in den Magnethalter stellen, 5 min warten bis die Lösung klar ist, 95 µl Überstand
5. 200 µl 80 % EtOH zugeben ohne die Beads zu lösen, 30 s inkubieren, Überstand abnehmen und
verwerfen, Waschschritt 1x wiederholen
6. Pellet 10 min bei RT im Magnetständer trocknen lassen, aus dem Magnetständer nehmen und
getrocknetes Pellet mit 32,5 µl Resuspensions-Puffer mischen, 2 min bei RT inkubieren
7. Tube in den Magnethalter stellen, 5 min warten bis die Lösung klar ist und 30 µl des
Überstandes in ein neues 0,2 ml Eppi überführen
Qualitätskontrolle und Quantifizieren der Bibliotheken
QBit®HS Assay
Chemikalien ca. 30 min auf RT bringen und alle Proben des Kurses mit den gleichen Standards
messen.
1. Daher gemeinsamen Mastermix herstellen -> Probenzahl (4) + 2 Standards, dazu 1194 µl
(6x 199µl) „Qubit™buffer“ mit 6 µl „Qubit™reagent plus“ gut mischen und vortexen
2. Für die Standards 1 und 2 jeweils 10 µl der Standard-Lsg. mit 190 µl und je 1 µl der eigenen
Library mit 199 µl Mastermix mischen (! vortexen !)
3. 2 min bei RT inkubieren und erst Standards, dann Proben zügig durchmessen
18
Qualitätskontrolle, Molekulargewichtsverteilung und Konzentrationsmessung der Banken mit Agilent
Bioanalyzer Nano-Assay
Die Messung von DNA funktioniert prinzipiell genau wie die der RNA, wobei hier zur Analyse der
ds cDNA ein doppelstrangspezifischer Farbstoff zum Einsatz kommt. Wie auch bei normalen
Gelelektrophoresen entscheidet die Konzentration des Gels über die Auftrennungseigenschaften. Mit
dem DNA High Sensitivity Kit können Fragmente zwischen 50 und 7000 Basenpaaren mit Quantitäten
bis zu 5 pg/µl detektiert werden.
Ein Gelaliquot versetzt mit dem Farbstoff (Gel-Dye-Mix) wird Ihnen bereitgestellt. Lassen Sie alle
Lösungen 30 min auf RT equilibrieren.
1.
Nehmen Sie einen neuen DNA High Sensitivity Chip aus der Packung und legen Sie Ihn in die
Vorbereitungsstation.
2.
Pipettieren Sie 9 µl Gel-Dye-Mix in das mit
gekennzeichnete Well (weißer
Punkt in der unten aufgeführten Grafik). Bitte entnehmen Sie das Gel aus dem
Aliquot knapp unterhalb des Meniskus, da sich am Boden Schwebstoffe absetzen,
die den Lauf beeinträchtigen können.
ACHTUNG: Lesen Sie an dieser Stelle bitte die Punkte 5-7 und bereiten Sie Pipetten und Lösungen
vor, bevor Sie weiterarbeiten
3.
4.
5.
6.
Stellen Sie die Spritze auf 1 ml ein, schließen Sie die Vorbereitungsstation und drücken Sie die
Spritze herunter, bis diese vom Clip gehalten wird.
Warten Sie exakt 60 Sekunden (Timer) und lösen Sie den Clip.
Warten Sie 5 Sekunden und ziehen Sie dann die Spritze LANGSAM wieder in die
Ausgangsposition zurück.
Öffnen Sie die Vorbereitungsstation und pipettieren Sie 9 µl Gel-Dye-Mix in die
mit
gekennzeichneten Wells.
7.
Pipettieren Sie nun 5µl DNA High Sensitivity Marker (grün •) in die verbleibenden
12 Wells.
8.
Pipettieren Sie 1 µl der DNA High Sensitivity Ladder (gelb •) in das mit
gekennzeichnete Well.
9.
Pipettieren Sie nun jeweils 1 µl Ihrer Proben in die 11 vorhandenen Wells und
notieren Sie die Reihenfolge. In alle unbenutzten Wells pipettieren Sie 1 µl DNA
High Sensitivity Marker (grün •).
Legen Sie den Chip in den beigestellten IKA Vortexer (nur eine Orientierung ist
möglich!) und starten Sie diesen.
HINWEIS: Der IKA Vortexer stoppt automatisch nach einer Minute
19
10. Legen Sie den Chip in den Bioanalyzer (vermeiden Sie ruckartige Bewegungen) und beginnen Sie
den Lauf innerhalb von 5 min nach Präparation des Chips durch Betätigung des Start-Knopfes
(wird grün wenn der Chip erkannt wurde).
qPCR-SYBR-Assay
Verdünnungen:
1. Bibliothek und PhiX-Standard auf ca. 20 pM mit 0,1 % Tween verdünnen.
In der Regel eine 1:500 Verdünnung: 2 µl Bibliothek + 998 µl 0,1 % Tween und gut vortexen
2. Den Schritt mit einer weiteren unabhängigen Verdünnung
3. Beide Proben nochmal um 1:10 (auf 1:5000) und 1:100 auf (1:50000) mit 0,1 % Tween
verdünnen
Vorbereiten der qPCR-Platte:
4. SYBR-Mastermix für 40 Wells herstellen und vorlegen. Dazu:
KAPA SYBR FAST Master Mix Universal (2x)
qPCR Primer 1.1 (10 μM)
qPCR Primer 2.1 (10 μM)
HPLC-Wasser
Gesamt
5.
6.
Mastermix gut mischen und jeweils 9 µl in ein Well der qPCR Platte geben
Proben nach folgender Plattenbelegung zugeben
1
2
3
A PhiX_1-Verdünnungen
B Probe2_2
C Probe4_2
D
E
F
G
1:5000
1:50000
H 1:500
7.
5 µl 200 µl
0.1 µl
4 µl
0.1 µl
4 µl
3,8 µl 152 µl
9 µl 360 µl
4
5
Probe1_1
Probe3_1
6
7
8
9
Probe1_2
Probe3_2
PhiX_2-Verdünnungen
10
11
12
Probe2_1
Probe4_1
Negativkontrollen
Platte mit der dafür vorgesehenen Folie luftblasenfrei verschließen, in den qPCR-Cycler stellen
und folgendes Programm starten:
Hot start 95°C
95°C
60°C
3 min
3 sek
30 sek
40x
20
Vorbereitungen - cBot - Sequenzierung
1.
2.
3.
Bestimmen Sie die Konzentration und das durchschnittliche Molekulargewicht der DNAFragmente
Bringen Sie die Bibliothek auf eine Endkonzentration von 10 nM. Sollte dies nicht möglich sein,
verdünnen Sie die Bibliothek auf 2 nM. Verwenden sie Qiagen EB Pufer oder 10 mM Tris-HCl
pH 8,5
Um optimale Clusterdichten zu erhalten, müssen die Bibliotheken nochmals auf 7 pM verdünnt
werden. Dies geschieht allerdings erst kurz vor der Sequenzierung und wird von den Betreuern
übernommen.
21
Theorie Teil 2: Bioinformatische Analyse von „Next-Generation Sequencing“-Daten
Sequenzalignment
In der Bioinformatik wird unter einem Alignment der Vergleich von zwei (paarweises Alignment) oder
mehreren (multiples Alignment, MSA) Zeichenketten oder Sequenzen verstanden. Voraussetzung für
einen Vergleich ist, dass beide Sequenzen derselben Notation (Alphabet) folgen. Beide Sequenzen
werden für das Alignment untereinander gelegt und die einzelnen Stellen der Zeichenkette
miteinander verglichen. Sind beide Stellen identisch, so spricht man von einem match, sind sie
ungleich von einem mismatch. Da auch ganze Abschnitte der einen Sequenz innerhalb der anderen
fehlen können, müssen diese Stellen im Alignment berücksichtigt werden. Diese Lücken (gaps)
stellen eine große Herausforderung in der Bioinformatik dar, da sie nicht direkt erkennbar sind.
Für die Visualisierung von Sequenzalignments gibt es verschiedene
Methoden. Die einfachste ist der sogenannte Dot-Plot (Abbildung 8).
Hier werden in einer Matrix, aufgespannt durch die ortogonal
zueinander liegenden Sequenzen, mögliche matches entsprechend
eingetragen, wodurch sich spezielle Muster ergeben. Diese Muster
deuten auf verschiedene Eigenschaften hin, wie z.B. längere
Abschnitte
mit
Übereinstimmung
(lange
Diagonalen),
Wiederholungen der Sequenz (repeats, horizontale oder vertikale
wiederkehrende Diagonalen), oder Poly-Nukleotid-Abschnitte bzw. Abbildung 8: Dot Plot
(http://upload.wikimedia.org/wikipedia/commons/3/3
sehr kurze Wiederholungen (dunkle Blöcke).
3/Zinc-finger-dot-plot.png)
Da es für zwei Sequenzen alleine schon mehrere Möglichkeiten des Alignments gibt, müssen die
jeweiligen Anordnungen einzeln bewertet werden. Hierbei vergibt man für matches, mismatches
sowie gaps Punkte, welche zusammengezählt am Ende zu einem score führen. Dieser stellt ein Maß
für die Güte des Alignments dar. Für die Berechnung des scores werden scoring-Matrizen benutzt.
Diese geben für jedes mögliche Alignment einen Wert aus. Für Nukleotidsequenzen sind diese
Matrizen sehr einfach gehalten. Auf Ebene der Aminosäuren gibt es komplexer aufgebaute Matrizen,
da ein Basenaustausch nicht zwangsläufig auch eine Veränderung der Aminosäuresequenz zufolge
hat. Sogenannte Substitutionsmatrizen spiegeln hier die Wahrscheinlichkeit einer Mutation durch
entsprechend angepasste scoring-Werte wider. (Dayhoff et al. 1978; Henikoff & Henikoff 1992).
Assemblierungsmethoden
MSAs bilden die Grundlage der ersten Assemblierungsmethoden. Mit dem Aufkommen der ersten
Sequenziertechniken war es nötig, die Ursprungssequenz(en), welche durch Scherung des
genetischen Materials zerstört wurden, wieder zu rekonstruieren. Das Scheren - ob chemisch oder
mechanisch - bildet bis heute einen Bestandteil der Herstellung von Sequenzbibliotheken, da keine
Technik über eine Leseweite von mehr als einer Kilobase (kb) verfügt und neuere Ansätze,
sogenannte next-generation sequencing - Methoden noch kürzere Sequenzschnipsel (reads) liefern.
Durch Amplifizierungschritte vor der Scherung entstehen reads, welche sich in der Ursprungsequenz
22
überlagern und somit einen Überlapp (overlap) besitzen. Diesen macht man sich im
Assemblierungsprozess zunutze, indem man durch Sequenzalignments der Randregionen größere
Sequenzstücke produziert. Im optimalen Fall kann man so die Ursprungssequenz rekonstruieren.
Erschwert wird das Ganze durch eine, jeder Technik zugrunde liegende Fehlerrate, welche z.B. zu
falschen Basen innerhalb der reads führt.
Erste Assemblierungsalgorithmen aus den 70er und 80er Jahren beruhen auf der Tatsache, dass
relativ wenige, lange reads aus der damals am weitesten verbreiteten Technik, der Sangersequenzierung vorliegen. Sogenannte greedy-Algorithmen, die schnelle, suboptimale Lösungen
lieferten, waren die ersten Ansätze für die Implementierung solcher Assemblierungsstrategien.
Obwohl die Hard- und Softwareindustrie in den letzten Jahrzehnten große Fortschritte gemacht hat,
konnten die Algorithmen mit den immer riesiger werdenden Datenmengen nicht mithalten, da ihre
Rechenzeit mit dem Wachstum der Daten exponentiell anstieg. Neuere Strategien bedienen sich
Methoden der dynamischen Programmierung, heuristischen Ansätzen sowie mathematischen
Methoden aus den Graphentheorien.
BLAST
Einer der bekanntesten Algorithmen, welcher sich dieser Methoden bedient, ist der BLASTAlgorithmus („Basic Local Alignment Search Tool“, Altschul et. al. 1990). Er basiert auf der Annahme,
dass Sequenzen mit großer Ähnlichkeit kurze, identische Abschnitte besitzen.
Abbildung 9: BLAST Algorithmus
23
Durch das Erstellen einer Liste mit kurzen Teilsequenzen (words) aus der Anfrage- (query) und
Zielsequenz (subject) und durch beidseitiges Verlängern dieser Übereinstimmungen werden so
gezielt kurze, lokale Alignments zwischen nahe verwandten Sequenzen erzeugt. Diese geben
Aufschluss über ihre Funktion oder die Beziehung zueinander. Mithilfe dieser Technik wird die Anzahl
der Sequenzvergleiche deutlich reduziert und somit eine Lösung in endlicher Zeit möglich gemacht.
Obwohl der BLAST-Algorithmus keine Assemblierungsmethode ist, findet man diese Technik in vielen
neueren kommerziellen Assemblierungsprogrammen (DNAStar, SeqMan, NGEN etc.) wieder. So
werden im Vorfeld schon gezielt Sequenzen für einen näheren Vergleich (Alignment) aufgrund
identischer Subsequenzen in Betracht gezogen.
Trotz dieser heuristischen Ansätze sind auch neuere Implementierungen bisweilen mit der Menge
der Daten überfodert, da ein simples Alignment zweier Sequenzen sehr speicherintensiv sein kann.
So wurden in den letzten Jahren verstärkt Ansätze aus den Graphentheorien zu Rate gezogen. Vor
allem Sequenzierungen aus NGS-Projekten erfordern eine veränderte Denkweise für
Assemblierungsstrategien. Da hier mehr qualitativ hochwertigere, kürzere reads mit einer höheren
Abdeckung (coverage) der Nukleotidpositionen erzeugt werden, rückt der Fokus weg von
rechenintensiven Alignments einzelner Sequenzpaare hin zu speicherentlastenden Vergleichen von
identischen Subsequenzen auf Nukleotidebene. Unterschiede, wie Punktmutationen (SNPs) spiegeln
sich hier in Aufgabelung der Graphen wider, sich wiederholende Abschnitte in Blasen innerhalb des
Graphen. Einer der erfolgreichsten dieser Methode ist der Ansatz des De-Bruijn-Graphen.
24
De-Bruijn-Graph (DBG)
Die Grundlage des DBG sind Datensätze, welche:
- Eine hohe Abdeckung der Ursprungssequenz besitzen,
- eindeutig in ihrer Notation sind (kein IUPAC-Code),
- reads gleicher Länge besitzen (wenn möglich).
Da der DBG keine Alignments im klassischen Sinne durchführt (und somit keine gaps einbaut), wird
der Überlapp durch eine Präprozessierung der Rohdaten gewährleistet. Dieser 'Rückwärtsschritt'
besteht in der Zerlegung der Eingangsdaten in eine Menge von Subsequenzen (kmers). Diese
Zerlegung geschieht in nukleotidlangen Schritten, wodurch sich die kmers eines einzelnen reads
überlappen und zwar mit der Länge kmer–1. Obwohl dieser Schritt eine Amplifizierung der
Datenmenge bedeutet, kann durch geschickte Implementierung die Menge des Speichers reduziert
werden, da Subsequenzen, die öfters auftreten, nur einmal gespeichert werden müssen.
Der Ablauf des Algorithmus sieht nun wie folgt aus:
1. Beginne bei einem beliebigen kmer.
2. Schneide am 5' Ende ein Nukleotid ab.
3. Erzeuge 4 mögliche Nachbar-kmere, indem am 3' Ende einzeln alle 4 Nukleotide anhängt werden.
4. Wiederhole die Schritte 1-3 mit dem Ursprungs-kmer mit dem 5' und dem 3' Ende vertauscht.
Abbildung 10: Mögliche Nachbar-kmere
Dadurch erhält man für ein einzelnes kmer 8 mögliche Nachbar-kmere (Abbildung 10). Für jedes
Nachbar-kmer, das im Datenpool existiert, wird im Graphen eine Kante zwischen den beiden kmeren
gezogen. Der so entstandene Graph zeichnet sich durch eine Vielzahl komplexer Strukturen (Blasen,
Schleifen) aus, welche auf verschiedene Charakteristiken der Ursprungssequenz wie SNPs oder
repeats hindeuten. Zur Auflösung dieser Strukturen werden Meta-Informationen über die Abdeckung
oder Qualität der Sequenzdaten hinzugezogen. Durch den Ablauf des Graphen können nun im letzten
Schritt die mögliche(n) Ursprungssequenz(en) ermittelt werden.
25
Abbildung 11
Obwohl Ansätze aus der Graphentheorie sehr viele Probleme der klassischen Ansätze umgehen,
entstehen auch neue Schwierigkeiten, da z.B. Repeat-Regionen, die von den kmeren nicht
überspannt werden, nicht überwunden werden können. Um dieses Problem zu lösen, werden schon
während der Sequenzierung neue Techniken angewandt, welche Datensätze mit read-Paaren
erzeugen (paired-end-reads, mate-pairs). Der Abstand dieser Paare innerhalb der Ursprungssequenz
ist bekannt und kann somit im Assemblierungsprozess berücksichtigt werden.
26
Abbildung 12: De-Bruijn-Graph
27
Arbeitsablauf Sequenzverarbeitung
Aufgrund der immer stärker wachsenden Menge der Daten werden im Institut für Molekulargenetik
gezielt Methoden der parallelen Datenverarbeitung etabliert, sei es durch Nutzung neuer, bereits
parallel implementierter Algorithmen oder durch parallele Verarbeitung auf Ebene der voneinander
unabhängigen Eingangsdaten. Als Beispiel dient hierfür die Parallelisierung des Blastprozesses.
Die Blastoption des NCBI (National Center for Biotechnology Information) bietet nur beschränkte bis
keine Möglichkeiten der Hochdurchsatzdatenverarbeitung, da Sequenzen einzeln eingegeben
werden müssen oder nur kleinere Datensätze hochgeladen werden können. Durch die Verlagerung
der Berechnungen auf lokale Desktop-PCs, wird die Verarbeitung der Daten zwar unabhängig von
Aspekten wie Serverauslastung und Netzwerkverbindungen, jedoch bildet der PC selbst aufgrund der
(z. Zt.) geringen Ausstattung den Flaschenhals des Verarbeitungsprozesses. Des Weiteren müssen für
lokale Blastsuchen entsprechende Datenbanken zuerst heruntergeladen oder eigene
Sequenzdatenbanken erzeugt werden.
Möglichkeiten der Parallelisierung
Es gibt mehrere Ansätze der Parallelisierung der Blastsuche. Durch die Nutzung von MulticoreSystemen oder HPC (High-Performance-Cluster, vernetzte Computer mit zentraler Steuerung und
Verwaltung durch entsprechende Software) ist es möglich, voneinander unabhängige Aufgaben
parallel zu verarbeiten, deren Ergebnisse zu speichern und am Ende wieder zusammenzuführen.
Durch gezielte parallel implementierte Algorithmen ist es möglich auf Softwareebene die vorhandene
Hardware maximal auszunutzen und somit eine (im optimalen Falle) lineare Skalierung zu erzielen.
Ein Ansatz für paralleles Arbeiten mit dem Blastprozess ist die Aufteilung der Datenbank. Dies
erfordert aber eine intensive Kommunikation zwischen den Prozessen, da dieselbe Sequenz
gleichzeitig in mehreren Datenbankuntereinheiten gesucht wird. Durch Aufteilung der Datenbank
wird darüber hinaus die Berechnung des E-value komplizierter, da dieser von der Datenbankgröße
abhängig ist. Ein anderer Ansatz ist die Aufteilung auf Sequenzebene. Das bedeutet, dass die
Eingangsdaten im Vorfeld in mehrere Datensätze aufgeteilt werden, um diese unabhängig
voneinander auf getrennten Systemen zu verarbeiten. Der Vorteil dieses Prozesses ist, dass die
Statistik nicht verändert wird. Nachteil dieser Art der Prozessierung ist allerdings, dass die Datenbank
für jeden einzelnen Prozess geladen werden muss und somit eine erhöhte Auslastung des
Arbeitsspeichers erfolgt.
28
Praxis Teil 2: Bioinformatische Analyse von „Next-Generation Sequencing“-Daten
In diesem praktischen Teil des Praktikums analysieren Sie Ihre in Teil 1 gewonnenen TranskriptomDaten im Hinblick auf folgende Fragestellungen:
 Bestätigen Ihre Daten die bisher vorhergesagten Gene der geschlechtsbestimmenden
Genomregion? Eventuell können Sie die bestehende Annotation bestätigen oder erweitern.
 Können neue Gene identifiziert werden?
 Können unterschiedliche Transkriptvarianten durch alternatives Splicing charakterisiert
werden?
 Welche Unterschiede gibt es zwischen dem weiblichen und männlichen Transkriptom im
Hinblick auf unterschiedliche Transkriptvarianten und Stärke der Expression?
Dabei sollen Sie verschiedene Analyseverfahren wie Mapping, „Read Count“ oder Assembly mit
verschiedenen Programmen kennen lernen. Zentrale, aber nicht ausschließliche, Analysesoftware soll
dabei die schon letzte Woche benutzte „CLC Genomics Workbench“ sein.
29
Sequenzierung und Basecalling
Da auf der HiSeq Flow Cell lediglich 8 seperate Reaktionsräume, sogenannte Lanes vorhanden sind,
wurde zusätzlich zur eigentlichen Sequenzierung ein Index Read durchgeführt. Schon bei der
Konstruktion der Libraries wurden leicht variierte Adapter eingesetzt. Diese tragen noch vor der
Bindestelle für den Sequenzierprimer eine 6 Basenpaar lange Erkennungssequenz. Im Index Read
werden ausgehend vom revers-komplementären Sequenzierungsprimer diese 6 Nukleotide
ausgelesen. Dies wird notwendig, wenn verschiedene Libraries in einer Lane zusammen sequenziert
werden. Dies kann unterschiedliche Gründe haben. Beispielsweise benötigen viele Projekte nicht die
Masse an Daten einer kompletten Lane, oder - wie in diesem Fall - der Organismus besitzt einen
extremen A/T oder G/C –Gehalt. Nach dem Mischen der Libraries in den gewünschten Verhältnissen,
werden diese auf eine Endkonzentration von ca. 7 pM gebracht. Erfahrungsgemäß sollte diese
Konzentration eine Clusterdichte auf der Flow Cell-Oberfläche von ca. 450.000 bis 500.000 Cluster
pro mm2 ergeben. Mit dieser nahezu optimalen Clusterdichte sind ca. 80-100 Mio. Reads pro Lane
möglich.
Bei der Sequenzierung wird die Flow Cell zunächst in 16 Analysebereiche, sogenannte „Tiles“,
unterteilt. Dies sind zwei 8er Reihen mit Bildabschnitten, die zusammen die gesamte
Abbildung 13: Analysepipeline – vom Bild zur Sequenz
30
Oberfläche der Flow Cell abdecken. Ausgehend von dem Bild im TIFF-Format jedes einzelnen Tiles
werden die Clusterintensitäten im „Firecrest“-Modul der RTA („Real Time Analysis“ Software)
verarbeitet (Abbildung 13). Die daraus resultierenden CIF-Dateien („cluster intensity files“) werden
dem „Bustard“-Modul zum eigentlichen Basecalling übergeben. Dieses erstellt zunächst binäre
Sequenz-Dateien, die BCL-Dateien („basecall files“). Diese werden separat in das Standardformat für
NGS-Daten, das FASTQ-Format, gebracht.
Datenformat FASTQ
Wichtigstes Dateiformat für NGS-Daten ist das FASTQ-Format. Dieses besteht immer aus 4 Zeilen pro
Sequenz (Abbildung 14). Die durch ein „@“ eingeleitete erste und die mit einem „+“ beginnende
dritte Zeile stellen dabei den Namen der Sequenz dar. In der zweiten Zeile folgt die Basensequenz. Im
Fall von „+“ folgen in der vierten Zeile die Qualitätswerte („ Quality Scores“) für jede einzelne Base
im ASCII-Code.
Abbildung 14: Aufbau des FASTQ-Formats
Im Namen der Sequenz finden sich weitere Informationen kodiert. Diese reichen vom Namen des
Geräts, auf dem sequenziert wurde bis zur Koordinate des Clusters auf der Flow Cell (Abbildung 15).
Abbildung 15: Aufbau des Sequenznamens der ersten und dritten Zeile
31
Quality Scores
Vielen bekannt aus der herkömmlichen Sangersequenzierung, lassen sich auch die ASCII kodierten
Quality Scores der NGS-Daten in einen dezimalen Zahlenwert (Phred score) umrechnen und geben
dann eine Wahrscheinlichkeit für die fehlerhafte Sequenzierung der jeweiligen Base an (Abbildung
16).
Abbildung 16: Phred Score
Sie erhalten Ihre Daten als zusammengefasste FASTQ-Datei.
Jede Gruppe erhält zunächst den selbst generierten Datensatz, wobei der Austausch der
Rohdaten und von Teilergebnissen im weiteren Verlauf notwendig wird. Der Kursablauf
selbst wie auch die verschiedenen Analyseverfahren und Verwendung verschiedener
Programme werden sehr von den erarbeiteten Ergebnissen abhängen. Der schematische
Ablauf soll nur einige Möglichkeiten zusammenfassen und als Anhaltspunkt dienen.
32
FASTQ
„Trimming“ / „Quality Filtering“
CLC oder PERL-Skript
ASSEMBLY
Assemly Cell
Workbench
MAPPING
Workbench
BLAST
PASS
gegen Contig piger / thummi
Annotation
- Annotation bestätigen
- ergänzen
Quantitative Analyse der Transkripte
in der geschlechtsbestimmenden Region
- Vergleich zwischen C. piger und
C. thummi
- Vergleich zwischen ♂ und ♀
Analyse der Transkriptvarianten
in der geschlechtsbestimmenden Region
Blast-Pipeline auf
dem ZDV Cluster
bzw. TIER1 gegen
Proteindatenbanken
BORT
Quantifizieren der
Blast Ergebnisse und
Vergleich zwischen
den verschiedenen
Gruppen
- Vergleich zwischen C. piger und
C. thummi
- Vergleich zwischen ♂ und ♀
Assembly der
unbekannten Sequenzen
unbekannte
Sequenzen
Mapping und Analyse auf differentieller
Expression der 33
unbekannten Sequenzen
Bioinformatische Analyse der „Next-Generation Sequencing“ Daten mit Hilfe der „CLC Genomics
Workbench“
Laden Sie sich bitte das ausführliche Manual der „CLC Genomics Workbench“ unter dem folgenden
Link herunter, da das Skript auf verschiedene Abschnitte innerhalb dieser Beschreibung verweisen
wird:
http://www.clcbio.com/files/usermanuals/CLC_Genomics_Workbench_User_Manual.pdf
Die Analyse beinhaltet folgende Schritte:

Import der „Next-Generation Sequencing“-Daten

„Trimming“ der Sequenzierungsreads

„Mapping“ der Sequenzierungsreads an eine genomische Referenzsequenz bzw. an die darin
bereits annotierten Transkripte

Vergleichende Analyse der „gemappten“ Sequenzierungsreads zwischen weiblichen und
männlichen Transkriptomen
Import der „Next-Generation Sequencing“-Daten
Weitere Informationen hierzu finden Sie im „CLC Genomics Workbench-Manual“ unter folgenden Punkten:
2.1
Tutorial: Getting started
S.42
2.1.1
Creating a folder
S.42
2.1.2
Import data
S.43
19.1
Import high-throughput sequencing data
S.427
Öffnen Sie die „CLC Genomics Workbench 5“ durch die Verknüpfung auf Ihrem Desktop und machen
Sie sich mit der Softwareoberfläche vertraut, die im Wesentlichem aus 3 Bereichen besteht:

Oben links: die „Navigation Area“ zeigt alle importierten Daten an, die der Software zur
Verarbeitung zur Verfügung stehen

Unten links: in der „Toolbox“ befindet sich die Analysesoftware, durch Auswahl des Reiters
„Processes“ ist es später möglich, den Fortschritt einzelner Analysen nachzuverfolgen

Rechts: in der „View Area“ werden Daten durch eine grafische Oberfläche dargestellt
Erstellen Sie sich zunächst einen eigenen Ordner innerhalb der „Navigation Area“, indem Sie auf dem
Lokalen Datenträger (D:) einen Ordner „F1CLC“ erstellen und diesen in der Funktionsleiste der
„Navigation Area“ durch folgende Auswahl hinzufügen:
Add file location
Laden Sie Ihre Illumina-qseq-Dateien über den folgenden Pfad oder den Button „NGS Import“ der
oberen Funktionsleiste in Ihren neu erstellten Ordner ein:
34
File | Import High-Throughput Sequencing Data
Beachten Sie hierbei, dass es sich eventuell um Sequenzierungsreads ohne „paired-end“-Information
handelt. Verwerfen Sie beim Import die reads ohne erfolgreiche Sequenzierungsreaktion. Erhalten
Sie dabei jedoch die Informationen über die automatisch ausgelesenen Qualitäts-scores.
Die importierten Sequenzen werden jetzt in der „Navigation Area“ in einer Liste zusammengefasst,
die Sie durch einen Doppelklick in der „View area“ öffnen können. Die einzelnen
Sequenzierungsreads enthalten außer der eigentlichen Sequenz auch die Information über die
Sequenzierungsqualität der einzelnen Basen („Quality score“), die für die weitere Bearbeitung der
reads genutzt werden kann.
Die Sequenzierungsreads enthalten noch Sequenzabschnitte, die bei der Assemblierung zu einem
nicht optimalen oder sogar falschen Ergebnis führen könnten.
 Erkennen Sie in der Liste Ihrer Sequenzierungsreads solche Abschnitte, und wenn, welche
sind dies und wodurch werden diese verursacht?
 Welche Auswirkungen hätten diese Abschnitte auf die Assemblierung?
„Trimmen“ der Sequenzierungsreads
19.3
Trim sequences
S.455
19.3.1 Quality trimming S.455
19.3.2 Adapter trimming S.457
19.3.3 Length trimming S.463
19.3.4 Trim output
S.463
Die „CLC Genomics Workbench“ beinhaltet unterschiedliche Möglichkeiten, Sequenzierungsreads auf
den optimalen Bereich für eine Weiterverarbeitung in einer Assemblierung zu verkürzen:

Bewertung der Qualitätsangaben einzelner Basen

Erkennung uneindeutiger Basenfolgen

Entfernung der Adaptersequenz
o
UNIV_adapter:
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT
o
TAG_adapter:
CAAGCAGAAGACGGCATACGAGAT*6bpINDEX*GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC

Eliminierung einer spezifischen Anzahl von Basen am 5’- bzw. 3’-Ende

Ausschluss einzelner Reads aufgrund von Längenbeschränkungen
35
Lesen Sie Kapitel 19.3 im „CLC Genomics Workbench-Manual“ und bewerten Sie dabei, welche
Bereiche Ihrer Sequenzierungsreads im „Trimm“-Prozess berücksichtigt werden müssen und welche
Parametereinstellungen Sie hierfür verwenden.
Starten Sie dann den „Trim“-Prozess durch:
Toolbox | High-throughput Sequencing | Trim Sequences
Lassen Sie hierbei eine Übersicht des „Trim“-Prozesses erstellen und wählen Sie die Option zur
Generierung einer Liste der verworfenen Sequenzierungsreads. Nach der Fertigstellung öffnen Sie
beide Dokumente und bewerten, ob es sich hier um ein optimales „Trim“-Ergebnis handelt.
Wenn durch Ihre Bearbeitung kein optimales Ergebnis erzielt wurde, wiederholen Sie diesen Schritt.
Falls Sie nur eine zusätzliche Option hinzufügen möchten und dabei keine Parameter der bisherigen
Analyse verändern, können Sie die Bearbeitungszeit durch die Verwendung der bereits „getrimmten“
Sequenzen verkürzen.
Assemblierung der Sequenzierungsreads
19.4
De novo assembly
S.465
19.5
Map reads to reference
S.479
19.6
Mapping reports
S.488
19.7
Mapping table
S.494
Folgende für unsere Fragestellung nutzbare Möglichkeiten der Assemblierung sind im
Programmpaket „CLC Genomics Workbench“ implementiert:

„De novo“-Assemblierung: Erstellung von „Contigs“ durch Assemblierung aller
Sequenzierungsreads nach „de Bruijn Graphen“, die reads werden danach in den „Contig“Referenzsequenzen abgebildet („gemapped“)

Abbildung/Kartierung der Sequenzierungsreads in einer genomischen Referenzsequenz
(„Map reads to reference“). Hierfür stehen 2 verschiedene Algorithmen für kurze und lange
(>55 bp) Sequenzierungsreads zur Verfügung.

Abbildung/Kartierung der Sequenzierungsreads in einer genomischen Referenzsequenz,
sowie in bereits annotierten Transkripten („RNA-Seq“-Analyse): Kalkulation der
Expressionsstärke, Ermittlung neuer Exons, alternativer Transkriptvarianten
„De novo“ Assemblierung
2.5
Tutorial: De novo assembly and BLAST
S.49
19.4
De novo assembly
S.465
36
Das „de novo“-Assembly der Transkriptomdaten wird durch die „CLC Genomics Workbench“ mit Hilfe
des „de Bruijn Graphen“ berechnet. Das Ziel ist dabei, die exprimierten Transkripte durch die
Assemblierung zusammenzusetzen. Dies wird dadurch erschwert, dass es durch alternatives Spleißen
unterschiedliche Transkripte eines Gens geben kann.
 Welche Bereiche der cDNA enthält ein durch das „de novo“-Assembly zusammengesetzter
Contig optimalerweise?
Dieses „de novo“-Assembly kann als Referenz (Alternative zu genomischer Referenzsequenz) für die
Analyse der Expressionsstärke (RNA-Seq) verwendet werden. So ist es möglich, die Expression nicht
nur in einem beschränkten genomischen Bereich, sondern insgesamt zu analysieren.
Durch die BLAST-Analyse gegen Datenbanken ist es möglich, die zusammengesetzten Transkripte zu
charakterisieren.
Für eine Einführung in die „de novo“-Assemblierung führen Sie das Tutorial „De novo assembly und
BLAST“ durch und informieren sich über die verschiedenen Parameter im „CLC Genomics
Workbench-Manual“.
„Mapping“ der reads in einer Referenzsequenz
19.5
Map reads to reference
S.479
19.6
Mapping reports
S.488
19.7
Mapping table
S.494
Da es sich bei Ihren Sequenzreads um Transkriptomdaten handelt, die Sie gegen eine genomische
Referenzsequenz „mappen“, muss der Algorithmus das Einfügen langer Lücken (Introns)
ermöglichen. Das „Large Gap Plug-in“ der „CLC Genomics Workbench“ erreicht dies durch folgende
Schritte:

Für jeden Read wird der beste „match“ in der Referenzsequenz ermittelt („seed“ Segment)

Wenn der „match“ den definierten Parametern entspricht, wird die passende Region auf der
Referenzsequenz „gemappt“ und die nicht alignierten Enden werden bei ausreichender
Länge (>17 bp) erneut assembliert („non seed“ Segment)
Dabei sind zwei zusätzliche Parameter zu beachten:

Die maximale Anzahl der Treffer für ein Segment: wenn ein „non seed“ Segment diese
Anzahl überschreitet, wird der Read als „nicht gemappt“ klassifiziert

Maximale Distanz zwischen „seed“ Segment und „non seed“ Segment
Alternative Methoden zu dieser „Seed-extend“-Methode (b) nutzen den „Exon-first“-Ansatz (a), der
erst alle perfekten Übereinstimmungen zur Referenzsequenz mappt und dann die Reads untersucht,
37
die sich nur zum Teil mit der Referenz decken (Abbildung 17). Diese werden dann geteilt und den
einzelnen Exon-Bereichen zugeordnet. Daraus ergibt sich das Problem, dass Sequenzreads von Genen
mit einer Pseudogen-Kopie im Genom besser am Pseudogen mappen, wenn diese durch eine mRNA
als Intermediat entstanden ist.
Abbildung 17: Vergleich zwischen Exon-first- und Seed-extend-Ansatz
„RNA-Seq“-Analyse
Weitere Informationen hierzu finden Sie im „CLC Genomics Workbench-Manual“ unter folgendem Punkt:
19.14
RNA-Seq analysis
S.535
Im Vergleich zu bisher verwendeten Ansätzen zur Analyse von Expressionsstärken (wie z.B. „Serial
Analysis of Gene Expression“ – SAGE oder Microarrays), hat die Verwendung der NGS-Technologie
deutliche Vorteile. So ist es hierdurch zusätzlich möglich, bisher unbekannte Transkripte zu
detektieren und neue alternative Transkriptvarianten zu charakterisieren und zu quantifizieren.
Die folgende Abbildung 18 (Costa et al. 2010, Uncovering the Complexity of Transcriptomes with
RNA-Seq) verdeutlicht den Ablauf einer „RNA-Seq“-Analyse, unter Einbeziehung essenzieller
(durchgezogene Pfeile) und optionaler Schritte (gestrichelte Pfeile).
38
Abbildung 18: Aufbau einer „RNA-Seq“-Analyse (Costa et al. 2010, Uncovering the Complexity of Transcriptomes with RNASeq)
Wenn für die RNA-Seq-Analyse der „CLC Genomics Workbench” eine genomische Referenzsequenz
verwendet werden soll, müssen die Annotationstypen „gene“ und „mRNA“ in dieser verankert sein.
Es werden alle Sequenzen denen die Annotation „gene“ zugeordnet ist und alle annotierten
Transkriptvarianten als Einzelsequenz extrahiert. Die Sequenzreads werden gegen alle extrahierten
Transkripte und Gene gemappt und so den einzelnen Genen bzw. Transkripten zugeordnet. Dann
werden die Expressionsstärken für jedes Gen und jedes Transkript kalkuliert und mögliche Exons
identifiziert.
Die RNA-Seq-Analyse wird gestartet durch:
Toolbox | High-throughput Sequencing | RNA-Seq Analysis
Im nächsten Fenster werden die zu analysierenden Sequenzreads ausgewählt und im folgenden
Fenster können Sie Ihre genomische Referenzsequenz festlegen. In der von Ihnen nicht genutzten
Option „Use reference without annotations“ werden statt einer genomischen Sequenz bekannte
cDNA-Sequenzen als Referenz verwendet.
 Welcher Schritt der RNA-Seq-Analyse kann durch die Verwendung von cDNA-Sequenzen als
Referenz nicht durchgeführt werden?
39
Sie können flankierende Bereiche von Genen, die „5’-upstream“ und „3’-downstream“ der
Genannotationen liegen, durch die Option „Extend annotated gene regions“ in die Analyse
miteinbeziehen.
In welchen Fällen ist diese Erweiterung der Referenzsequenzen sinnvoll?
Im nächsten Fenster können folgende Parameter für Sequenzreads <56 bp definiert werden:

„Maximum number of mismatches“: maximale Anzahl der zugelassenen Fehlpaarungen
(maximal: 3)

„Maximum number of hits for a read“: wenn ein Sequenzread mit mehreren Bereichen der
Referenzsequenz übereinstimmt, wird er nicht gemappt, wenn er diese Anzahl der „hits“
überschreitet. Wenn der Read mit mehreren Bereichen übereinstimmt und die maximale
Anzahl unterschreitet, wird er in Proportion zur Anzahl der eindeutigen „hits“ und der Länge
des Exons zufällig zugeordnet

“Strand specific alignment”: wird diese Option gewählt, werden die Sequenzreads nur in der
„forward“-Orientierung gemappt und nicht revers-komplementär.
 Unter welchen Gegebenheiten wählen Sie ein „Strang-spezifisches Alignment“ aus? Welche
falsche Zuordnung von Sequenzread und Referenzsequenz schließt diese Option aus?
Für lange Sequenzreads (>56 bp) sind folgende zusätzliche Parameter verfügbar:

„Minimum length fraction“: definiert die Länge des Bereichs, der mit der Referenzsequenz
übereinstimmen muss (der Wert 0.9 bedeutet, dass der 90 % der Basen eines Sequenzreads
an der Referenzsequenz mappen muss)

„Minimum similarity fraction“: spezifiziert, wie exakt der Bereich eines langen SequenzreadBereichs (Länge des Bereichs wird durch die „length fraction“ definiert) mit der
Referenzsequenz übereinstimmen muss.
Eine „length fraction“ von 0.9 und eine „similarity fraction“ von 0.8 definiert, dass ein 90 % eines
Sequenzreads zu 80 % mit der Referenzsequenz übereinstimmen müssen.
Im nächsten Eingabefenster erfolgen die Einstellungen zur Identifikation von annotierten und neuen
Exons.
 Warum benötigt der Algorithmus die Angabe, ob die zu analysierenden Sequenz pro- oder
eukaryotischen Ursprungs ist? Welche Schritte sind bei einer Analyse prokaryotischer
Sequenzen abweichend?
Wenn das Feld „Exon discovery“ ausgewählt ist, erfolgt das Mapping über den gesamten Genbereich,
so dass auch bisher nicht definierte Exons als solche erkannt werden können. Dabei können folgende
Parameter festgelegt werden:
40

„required relative expression level“: die Expressionsstärke dieses Exons muss mindestens zu
diesem Prozentsatz dem der bekannten Exons dieses Gens entsprechen

„minimum number of reads“: Die Mindestanzahl von Sequenzreads, die an ein neues Exon
mappen. Bei niedrig exprimierten Genen könnten sonst schon wenige Reads ein neues Exon
definieren.

„minimum length“: die minimale Länge eines neuen Exons, das durch überlappende Reads
definiert wird.
Im nächsten Fenster kann der Output der Analyse definiert werden. Der Standard-Output besteht
aus einer Tabelle der Gene und deren Statistik, sowie der Expression der einzelnen Transkripte.
Wenn Sie die Option zur Erstellung einer Sequenzliste der nicht-gemappten Reads wählen, kann
dieser Output zur Identifizierung neuer Transkripte bzw. Gene genutzt werden, die nicht auf der
Referenzsequenz gemappt werden konnten. Wählen Sie „Create report“, um eine detaillierte
Statistik der Analyse zu erhalten. In diesem Fenster kann auch die Normalisierung der
Expressionsstärke definiert werden.
 Warum kann die Expressionsstärke nicht durch die absolute Anzahl der Sequenzreads
angegeben werden? Nehmen Sie hierzu die folgende Abbildung 19 zu Hilfe:
Abbildung 19: Problematik der absoluten Anzahl der gemappten Reads
Wählen Sie für die Normalisierung die Option „Genes RPKM“:
RPKM/FPKM: Sequenzreads/Fragmente pro Kilobase des Transkripts pro Millionen gemappter Reads
__________________alle gemappten Reads innerhalbe der Exons eines Gens____________________
gemappte Reads innerhalb des gesamten Genbereichs (Millionen) x Länge der Exons eines Gens (Kb)
Die folgende Abbildung 20 veranschaulicht den Einfluss der RPKM-Normalisierung auf die
Expressionsstärke:
41
Abbildung 20: Einfluss der RPKM-Normalisierung
Die Option „Gene fusion report“ steht nur bei der Verwendung von „paired“ Reads (Fragmente, die
von beiden Seiten ansequenziert sind und die Information beinhalten, dass sie von einem Fragment
stammen) zur Verfügung.
Interpretation der RNA-Seq-Analyse
In der Ergebnis-Tabelle der RNA-Seq-Analyse werden die Expressionswerte auf der Ebene des Gens
und des Transkripts dargestellt.
Die folgende Tabelle enthält die Übersicht der Expression bezogen auf die Gene:
Abbildung 21: Ergebnistabelle der RNA-Seq-Analyse

„Feature ID“: Name des Gens

„Expression values“: Expressionsstärke bezogen auf die gewählte Normalisierung

„Transcripts“: Anzahl der annotierten Transkripte der Referenzsequenz (mRNA)

„Detected transcripts“: Anzahl der Transkripte, denen Sequenzreads zugeordnet sind
42

„Exon length“: Gesamtlänge aller Exons

„Unique gene reads“: Anzahl der Reads, die eindeutig diesem Gen zugeordnet werden
können

„Total gene reads“: Anzahl der Reads, die diesem Gen zugeordnet sind (eindeutig
zugeordnete und zufällig zugeordnete Reads, die mehreren Genen zuzuordnen sind)

„Unique exon reads“: Anzahl der Reads, die eindeutig den Exons des Gens zugeordnet sind

„Total exon reads“: eindeutig zugeordnete und mehreren Exons zugeordnete Reads

„Unique exon-exon reads“: Anzahl der Reads, die einer Exon-Exon-Grenze zugeordnet sind.
Dieser Read wird nur einmal in der gesamten Anzahl berücksichtigt, obwohl er zu zwei Exons
zugeordnet ist.

„Total exon-exon reads“: „Unique exon-exon reads“ und nicht eindeutig zugeordnete Reads.

„Unique intron-exon reads“: Anzahl der Reads, die eindeutig einer Exon-Intron-Grenze
zuzuordnen sind
 Auf was könnte eine hohe Anzahl dieser Reads hindeuten?

„Total intron-exon reads“: „Unique intron-exon reads“ und nicht eindeutig zugeordnete
Reads.

„Exons“: Anzahl der Exons der mRNA-Annotation der Referenzsequenz

„Putative exons“: Anzahl der zusätzlichen Exons, die durch diese Analyse detektiert wurden

„RPKM“: wenn die RPKM-Normalisierung in der Analyse verwendet wurde, entspricht dieser
Wert dem „Expression value“. Bei einer Abänderung der Normalisierung können die Werte
mit dem RPKM-Wert dieser Spalte verglichen werden

„Median coverage“: durchschnittliche Abdeckung für alle Exons. Hierbei werden eindeutige
und zufällig zugeordente Reads berücksichtigt, Reads über Exon-Exon-Grenzen jedoch nicht.

„Chromosome region start“: Startposition des annotierten Gens

„Chromosome region end“: Endposition des annotierten Gens
Am Ende der Tabelle kann die Normalisierung der Expressionsstärke verändert werden. Bei einem
Vergleich von verschiedenen RNA-Seq-Analysen muss diese an diesem Punkt angeglichen werden.
Durch einen Doppelklick auf ein Gen öffnet sich die Übersicht der gemappten Reads an der
Referenzsequenz:
43
Transkriptvarianten
Referenzsequenz
Abdeckung
der
Referenzsequenz
mit Sequenzreads
Gemappte
SequenzreadsReads an Exon-ExonGrenzen
werden
durch gestrichelte
Linien dargestellt
Abbildung 21: Mapping der Transkriptomdaten gegen eine genomische Referenz
Um zur Ansicht der Expression auf Transkript-Ebene zu gelangen, wählen Sie den zweiten Button
links unten in der Tabelle („Transcript-level expression“). Hier sind die Expressionsstärken in Bezug
auf die einzelnen Transkripte dargestellt. Unterschiedliche Transkripte eines Gens sind unter der
„Feature ID“ nummeriert. Die Berechnung der Reads, die einem Transkript insgesamt zugeordnet
werden, erfolgt erst nach der Bestimmung der Anzahl der eindeutigen Reads. Die Gesamtanzahl wird
dann durch proportionale Zuordnung der nicht eindeutigen Reads in Bezug auf die Anzahl der
eindeutig zugeordneten Reads berechnet. Die Angabe der „Ratio of unique to total transcript reads
kann dazu genutzt werden, um wenig zuverlässige Resultate auszusortieren, bei denen die Anzahl
der nicht eindeutig zugeordneten Reads sehr hoch ist.
Expressionsanalyse
Für eine Expressionsanalyse benötigt die „CLC Genomics Workbench“ die Definition eines
Experiments, bei dem die Expressionswerte der RNA-Seq-Analyse als Daten dienen:
Toolbox | Expression Analysis | Set Up Experiment
Wählen Sie Ihre selbst analysierten Datensätze von Chironomus thummi- bzw. piger und die
entsprechende Analyse des anderen Geschlechts aus und verschieben Sie es in die rechte Spalte.
Im nächsten Fenster können Sie festlegen, wie viele Gruppen verglichen werden sollen. Als „paired“
bezeichnete Analysen vergleichen miteinander in Verbindung stehende Daten, wie z.B. ein
Individuum in verschiedenen Zuständen oder Zeitabständen. An dieser Stelle kann die
Normalisierung der Expressionsstärke erneut festgelegt werden oder die zuvor berechneten Werte
werden in die Analyse einbezogen. Nach der Benennung der Gruppen können Sie Ihre Datensätze
(linke Spalte) mit den Gruppen (Auswahl in rechter Spalte) verknüpfen.
44
Als Ergebnis erhalten Sie eine Tabelle der verfügbaren Informationen der eingefügten Datensätze
(z. B. Expressionswerte):
Abbildung 22: Ergebnistabelle der Expressionsanalyse

„Range (original values)“: Differenz zwischen dem höchsten und niedrigsten Expressionswert.

„IQR (original values)“: Interquartilsabstand definiert die „inneren 50 %“ der nach
zunehmender Größe geordneten Daten, so dass die niedrigsten und höchsten 25 %
ausgeschlossen werden.

„Difference (original values)“: Für ein Experiment mit 2 Gruppen ist dieser Wert die Differenz
zwischen dem Mittelwert der Expressionswerte der Gruppe 2 und Gruppe 1 (positiv, wenn
Mittelwert der Gruppe 2 höher, sonst negativ)

„Fold change“: beschreibt, wie viel Mal höher der Mittelwert der Expressionswerte der
Gruppe mit den höheren Daten in Bezug auf den Mittelwert der Gruppe mit den niedrigeren
Werten ist
Nach der Verwendung dieses Experiments in einer Analyse werden in dieser Tabelle neue Spalten der
Ergebnisse angelegt, die durch eine entsprechende Überschrift gekennzeichnet werden.
Annotationen des Experiments können über die rechte Einstellungsleiste eingeblendet werden.
45
Wenn Sie Gene identifiziert haben, die differentiell exprimiert werden, können diese in einem
„Unter-Experiment“ gespeichert werden. Markieren Sie hierfür die entsprechenden Reihen und
wählen Sie folgende Option:
Create Experiment from Selection
Im unteren Bereich der Tabelle können Sie zwischen verschiedenen Ansichten des Experiments
wählen:
Abbildung 23: Auswahl der Ansichten des Experiments

„Experiment table“: Standardansicht der Tabelle des Experiments

„Heat map“ (Abbildung 24): grafische Darstellung der Daten durch Farbcodierung der
Expressionsstärke. Dabei werden ähnlich stark exprimierte Gene oder Transkripte
zusammengefasst (geclustert). Jede Reihe entspricht einem Gen oder Transkript, jede Spalte
einem Datensatz.
Um einen „Volcano plot“ darzustellen müssen Sie zuerst das Clustern der Daten durchführen:
Toolbox |Expression Analysis|Feature Clustering|Hierarchical Clustering of
Features
Abbildung 24: „Heat Map“

„Scatter Plot“ (Abbildung 25): Vergleich von Expressionswerten von zwei 2 verschiedenen
Datensätzen. Jeder Punkt repräsentiert den Expressionswert eines Gens oder Transkripts
beider Datensätze, ein Expressionswert wird auf der X-Achse, der andere auf der Y-Achse
dargestellt. Die gleiche Expressionsstärke in beiden Datensätzen erzeugt einen Punkt auf der
diagonalen Achse. Abweichende Punkte zur Diagonalen entsprechen Genen oder
Transkripten, die in den Daten unterschiedliche Expressionsstärken aufweisen.
46
Abbildung 25: „Scatter Plot“

„Volcano Plot“ (Abbildung 26): Zeigt das Verhältnis zwischen den berechneten Signifikanzen
(p-Werte) eines statistischen Tests und den Abweichungen der Expressionswerte zwischen
den Datensätzen. Je größer die Differenz der Expressionsstärke eines Gens/Transkripts,
umso näher liegt der angezeigte Punkt an der x-Achse. Je signifikanter eine Differenz der
Expressionsstärke ist, umso kleiner ist der p-Wert und umso höher ist der angezeigte –
log10(p)-Wert (entspricht der Anzahl der Stellen hinter dem Komma: wenn p=0,1, -lg(0,1)=1
und wenn p=0,01, -lg(0,01)=2). Hoch signifikante Werte liegen demnach in der Darstellung im
oberen Bereich. Interessante Gene oder Transkripte, die eine hohe Abweichung der
Expression zeigen und statistisch signifikant sind, liegen in dieser Darstellung im oberen
linken und oberen rechten Bereich.
Hohe Differenz der Expressionsstärken
+ hohe Signifikanz
Ähnlich stark exprimierte Gene/Transkripte
+ niedrige Signifikanz
Durch das Halten der „Strg“-Taste können
auch mehrere Darstellungen parallel
angezeigt werden.
Zunehmende Differenz der Expressionsstärken
Abbildung 26: „Vulcano Plot“
Transformation und Normalisierung
Ursprünglichen Expressionsdaten müssen oft transformiert (z.B. Logarithmische Darstellung)
und/oder normalisiert (z.B. bei einer RNA-Seq-Analyse auf die Anzahl der Gesamtreads) werden, um
die Daten vergleichbar zu gestalten. Dabei werden die ursprünglichen Daten nicht verworfen und die
neu analysierten Werte werden dem Experiment hinzugefügt.
47
Die verschiedenen „Tools“ der Expressionsanalyse lassen eine Auswahl der zu verwendenden Daten
zu. So kann zwischen „Original“, „Transformed“ und „Normalized“ gewählt werden, wenn diese
Optionen durchgeführt wurden:
Abbildung 27: Analyse der originalen, transformierten oder normalisierten Daten
 Müssen Sie mit Ihren Daten eine solche Normalisierung durchführen?
Statistische Analyse: Identifizierung differenzieller Expression
Es gibt zwei Kategorien der Analyse:

Tests, die eine Gauß‘sche Verteilung der Daten voraussetzen (Vergleich der Mittelwerte)
o
t-Test (Experimente mit 2 oder mehr Gruppen)
o
ANOVA (Experimente mit mehr als 2 Gruppen)
Toolbox | Expression Analysis | Statistical Analysis | On Gaussian Data

Tests, die das Verhältnis von verschiedenen Anzahlen in Datensätzen vergleichen (z.B.
Vergleich von Expressionswerten der RNA-Seq-Analyse)
o
z-Test (Vergleich von 2 Datensätzen)
o
Beta-Binominal-Test (Vergleich der Verhältnisse verschiedener Datensätze innerhalb
einer Gruppe mit den Verhältnissen einer weiteren Gruppe)
Toolbox | Expression Analysis | Statistical Analysis | On Proportions
Für beide Statistiken muss vorher ein Experiment generiert werden (siehe oben).
Sie führen mit Ihren Datensätzen einen z-Test durch, der das Verhältnis der Expressionsstärken
vergleicht. Der Test kann p-Werte und korrigierte p-Werte berechnen, die in der Tabelle des
Experiments hinzugefügt werden. Die Ergebnisse können dann z.B. in einem „Volcano plot“ angezeigt
werden.
48
Anhang
49
50
51

Einführung in die Gentechnologie

Transcription

Similar documents

Multiples Sequenzalignment, Sum-of

Vom Ei zum Embryo

Inhalt - EasyLase

Erweiterte Grundlagen des Betriebssystems MS-DOS

Jahresbericht 2013 - Institut für Pathologie

DNS-Mikroarrays - Verbesserung der

blast

Gesamtausgabe als pdf - Technische Universität München

Perfektes Zubehör für den leichten Genuss. Das

Clojure