BLAST Tutorial:

Transcription

BLAST Tutorial:
Softwarewerkzeuge der Bioinformatik SS2009
Übungen Sequenzanalyse 2: paarweise Sequenzalignments, BLAST
1. Dynamisches Alignment
Führe ein globales Alignment nach Needleman & Wunsch durch. Der Wert für jedes Feld setzt sich aus dem größten Score der folgenden 3 Möglichkeiten zusammen:
Match Score: Wert der Diagonalzelle links oben + Wert des Alignments (gleich +1; ungleich ­1)
Horizontal Gap Score: Wert der linken Zelle + gap score (­1)
Vertical Gap Score: Wert der oberen Zelle + gap score (­1)
Der Pfeil für das Trace­Back zeigt in die Richtung, woher der beste Score kam. Falls dieser nicht eindeutig ist, ist die Diagonale zu bevorzugen bzw. es gibt mehrere Möglichkeiten.
0
Q
­1
F
­2
M
­3
K
­4
D
­5
C
­6
M
­7
D
P
F
M
C
D
C
M
V
I
­1
­2
­3
­4
­5
­6
­7
­8
­9
­10
0+(­1)= ­1 ­1+(­1)= ­2
­1+(­1)= ­2 ­1+(­1)= ­2
­1+(­1)= ­2 ­2+(­1)= ­3
­1+(­1)= ­2
­2+(­1)= ­3
­1+(­1)= ­2
Globales Alignment:
2. Protein­Protein­Blast: Suche nach ähnlichen Proteinsequenzen
a) Gehe zu http://www.ncbi.nlm.nih.gov/. Finde die Proteinsequenz mit der swissprot accession number P00042 und kopiere sie im Fasta­Format. Gehe nun zu Tools – BLAST ( http://blast.ncbi.nlm.nih.gov/Blast.cgi)– protein blast und setze die Sequenz in das Feld Enter Query Sequence ein. Wähle unter Database die Datenbank swissprot und versichere Dich, dass bei Algorithm blastp (protein­protein BLAST) angewählt ist. Belasse alle Voreinstellungen unter Algorithm parameters. Starte die Suche mit BLAST.
b) Während die Suche läuft, beantworte folgende klausurrelevante Fragen (siehe auch Erklärungen im Anhang):
Warum ist der Expect threshold (Schranke für E­value) von 10 nicht unbedingt sinnvoll?
-
Wie wirkt sich eine größere bzw. kleinere Word size auf Laufzeit und Genauigkeit aus?
1
c) Mache Dich mit der Ausgabe vertraut. Um Dir die verwendeten Parameter anzeigen zu lassen, klicke auf Search Summary.
- Welche Besonderheit hat der erste Treffer?
-
Finde die 10 homologsten Proteine und lasse Dir ihre Sequenzen anzeigen (Get selected sequences). Um was für Proteine handelt es sich?
d) Wiederhole die Suche unter Verwendung der nr­Datenbank und mit einer E­Value­Schranke von 0.001. Was für Unterschiede siehst Du? Schaue Dir bei Taxonomy Reports und Distance tree of results an, für welche Organismengruppen Treffer gefunden wurden.
3. MegaBLAST: Suche nach orthologen Genen
a) Wo liegt im Genom des Menschen das Gen HIST4H4, aus dem die mRNA NM_175054 hervorgeht? Wähle dazu auf der BLAST­Hauptseite unter BLAST Assembled Genomes Human. Verwende Database genome (reference only) und Program megaBLAST. (Tipp: Du kannst statt der Sequenz direkt die obige accession number eingeben.)
Auf welchem Chromosom liegt das Gen HIST4H4? Gibt es ein Paralog?
-
Klicken auf eine Sequenzbezeichnung und auch der link Human genome view führt Dich zu MapViewer, der graphischen Darstellung des menschlichen Genoms. Dort findest Du den Blast hit neben dem zugehörigen Gen HIST4H4 und der mRNA NM_175054. Ermittle mit Hilfe des zoom zwei bis drei Gene, die HIST4H4 direkt benachbart sind.
b) Welches Gen der Maus ist ortholog zu HIST4H4? Wähle dazu auf der BLAST­Hauptseite das Genom der Maus, setze Database genome (reference only) und diesmal cross­species megaBLAST.
Welches der zahlreichen lokalen Alignments, die Du mit der menschlichen mRNA aus Aufgabe 3a auf dem Maus­Genom erzielst, entspricht dem zu HIST4H4 orthologen Gen? (Tipp: konservierte Syntenie = Gen­Nachbarschaft) Hat das Ortholog die höchste Identität?
4. PSI­BLAST: Suche nach entfernt verwandten Proteinsequenzen
a) Suche möglichst viele entfernte Homologe des Proteins MJ0577 aus dem Organismus Methanococcus jannaschii in der nr­Datenbank. Verwende dazu eine geeignete Substitutionsmatrix (welche wäre das?) und einen E­Value von 0.02 als oberste Schranke.
b) Führe (in einem neuen Tab oder Fenster) mit denselben Einstellungen, aber nun mit dem Algorithmus PSI­BLAST (Position­Specific Iterated BLAST) eine Suche durch. Versichere Dich, dass PSI­BLAST aktiviert ist, und setze PSI­BLAST Threshold auf 0.001 für den maximalen E­value der Sequenzen, die zur Erstellung der PSSM verwendet werden.
c) Das Ergebnis aus der 1. Iteration sollte dem Ergebnis aus Aufgabe 4a entsprechen. Wo sind aber trotzdem Unterschiede?
d) Führe eine weitere Iteration durch. Jetzt wirst Du sehen, dass sich das Ergebnis verändert. Was ist zu beobachten? Was geschieht bei einer weiteren Iteration? (Beachte vor allem die E­values.)
2
Anhang: Erklärungen zu ausgewählten wichtigen Optionen bei Blast
Hauptseite
Enter Query Sequence, Query subrange
Hier kann man den Bereich eingrenzen, wenn nur ein Teil der Sequenz betrachtet werden soll.
Choose Search Set
• Database: nr ist eine nicht­redundante Ansammlung aus vielen Datenbanken (GenBank CDS translations + RefSeq Proteins + PDB + SwissProt + PIR + PRF) und stellt die größte Proteinsequenz­Datenbank im BLAST­Modul dar. swissprot enstpricht UniprotKB/Swiss­
Prot.
• Organism: grenzt die Suche auf einen bestimmten Organismus ein.
• Entrez Query: Es können Beschränkungen für die Art der Datenbankeinträge erstellt werden. Mit NOT lassen sich unerwünschte explizit ausschließen.
Program Selection, Algorithm
Je nachdem, ob es sich um Protein­ oder Nukleotid­Sequenzen handelt, hat man die Wahl unter verschiedenen BLAST­Programmen.
Algorithm Parameters
•
Max target sequences: Anzahl der Treffer, die maximal angezeigt werden sollen.
• Expect threshold: Gibt die Schranke für die E­values der paarweisen Sequenzalignments an, die im Alignment ausgegeben werden. Mit dem default­Wert von 10 würde man erwarten, dass maximal 10 weitere Sequenzen aus der Datenbank beim Alignment mit der Suchsequenz denselben Score rein zufällig erreichen. Je geringer der E­Value, desto signifikanter ist das Ergebnis. Als sinnvoll für das Ausschließen unsignifikanter Treffer erweisen sich Werte von 0.02 und kleiner. Damit reduziert sich auch die Ausgabeliste des Alignments. • Word size: Mit 2 statt 3 würde eine größere Liste für die w­mers entstehen und entsprechend mehr Treffer in der Datenbank (HSPs) gefunden. Die Rechenzeit erhöht sich, bringt aber genauere Ergebnisse. Erfahrungsmäßig ist der default von 3 ein guter Kompromiss aus Genauigkeit und Rechenintensität.
• Matrix: Die Wahl der Aminosäure­Austauschmatrix ist für den Raw­Score und schließlich das gesamte Alignment von entscheidender Bedeutung. Generell gilt bei enger Verwandtschaft: niedrige PAM (1) und hohe BLOSUM (80); entfernte Verwandtschaft: hohe PAM (250) und niedrige BLOSUM (45). Die BLOSUM62 ist ein gutes Mittelmaß.
• Gap Costs: Hier wird die Bestrafung zum Öffnen einer Lücke (Existence) und deren Erweiterung (Extension) festgelegt.
• Compositional adjustments – Composition­based statistics: Dabei wird die Zusammensetzung der Query (Suchsequenz) und der Datenbank betrachtet, um genauere E­
Values zu erhalten.
• Filter, Low complexity regions: Regionen mit eingeschränkter Sequenzzusammensetzung in der Query werden maskiert, d.h. vom Alignment ausgeschlossen. Solche z. B. Prolin­reiche Regionen sind zwar statistisch, aber nicht biologisch signifikant. In Proteinen wird jede betroffene Aminosäure durch ein X ersetzt, in DNA die Nukleotide durch Ns.
• Mask
Mask for lookup table only: Hier werden die low complexity­Regionen nur von der Generierung der w­mers ausgeschlossen, bei den Alignments aber mit betrachtet.
Mask lower case letters: Es gibt Programme (z.B. RepeatMasker), die bestimmte Bereiche von Sequenzen als „uninteressant“ maskieren, indem sie sie mit Kleinbuchstaben kennzeichnen. Diese können mit dieser Option explizit ausgeschlossen werden.
3
Wenn PSI­BLAST gewählt wurde, kann man unter Upload PSSM eine fertige PSSM eingeben. (Zusätzlich muss aber auch die Suchsequenz oben bereitgestellt werden.) PSI­BLAST Threshold ist der E­Value, den ein Aligment maximal haben darf, um bei der Erstellung der PSSM einbezogen zu werden. (s.u. bei Format for PSI­BLAST)
Formatseite
Request ID: Eine frühere Suche kann wieder aufgerufen werden, wenn man ihre ID hat.
Format
• Show: Bei PSI­BLAST kann man sich hier ab der 2. Iteration die PSSM anzeigen lassen.
•
Alignment View: Pairwise ist die übliche Alignmentdarstellung, dabei bezeichnet + ähnliche, der 1­letter­Code identische Aminosäuren. (Bei DNA­Sequenzen werden identische Nukleotide durch | bezeichnet.) Leerzeichen treten bei Gaps (­) und unpassenden Residuen auf. Bei query­anchored with identities werden identische Positionen mit . und abweichende mit 1­letter­Code bezeichnet. Wenn sehr viele Treffer gefunden wurden, empfiehlt sich für eine bessere Übersicht eine Liste der Treffer (Hit Table).
• Masking Character/Color: falls maskierte Residuen vorliegen, können sie im Alignment besonders hervorgehoben werden.
• Descriptions: Anzahl der angezeigten Sequenzen mit den zugehörigen Scores und E­values.
• Graphical Overview: Anzahl der in der farbigen Übersicht dargestellten Treffer.
• Alignments: Anzahl der angezeigten Alignments.
• Format for PSI­BLAST: Aktiviert das iterative Alignment für das PSI­Blast. with inclusion threshold gibt den Schwellwert für die E­values der alignierten Sequenzen wieder, die zur Erstellung der PSSM verwendet werden sollen. Je niedriger dieser Wert, desto weniger Sequenzen werden für die PSSM verwendet und desto spezifischer die Matrize. Dies ist aber nicht immer sinnvoll, weil gerade stark divergierte Sequenzen wichtige Informationen zur Evolution der Sequenz besitzen und schließlich in der Suche nach homologen Sequenzen hilfreich sein könnten. Auf der anderen Seite „korrumpieren“ unpassende Sequenzen die PSSM und führen zum Auffinden falsch positiver Treffer.
4