BLAST Tutorial:
Transcription
BLAST Tutorial:
Softwarewerkzeuge der Bioinformatik SS2009 Übungen Sequenzanalyse 2: paarweise Sequenzalignments, BLAST 1. Dynamisches Alignment Führe ein globales Alignment nach Needleman & Wunsch durch. Der Wert für jedes Feld setzt sich aus dem größten Score der folgenden 3 Möglichkeiten zusammen: Match Score: Wert der Diagonalzelle links oben + Wert des Alignments (gleich +1; ungleich 1) Horizontal Gap Score: Wert der linken Zelle + gap score (1) Vertical Gap Score: Wert der oberen Zelle + gap score (1) Der Pfeil für das TraceBack zeigt in die Richtung, woher der beste Score kam. Falls dieser nicht eindeutig ist, ist die Diagonale zu bevorzugen bzw. es gibt mehrere Möglichkeiten. 0 Q 1 F 2 M 3 K 4 D 5 C 6 M 7 D P F M C D C M V I 1 2 3 4 5 6 7 8 9 10 0+(1)= 1 1+(1)= 2 1+(1)= 2 1+(1)= 2 1+(1)= 2 2+(1)= 3 1+(1)= 2 2+(1)= 3 1+(1)= 2 Globales Alignment: 2. ProteinProteinBlast: Suche nach ähnlichen Proteinsequenzen a) Gehe zu http://www.ncbi.nlm.nih.gov/. Finde die Proteinsequenz mit der swissprot accession number P00042 und kopiere sie im FastaFormat. Gehe nun zu Tools – BLAST ( http://blast.ncbi.nlm.nih.gov/Blast.cgi)– protein blast und setze die Sequenz in das Feld Enter Query Sequence ein. Wähle unter Database die Datenbank swissprot und versichere Dich, dass bei Algorithm blastp (proteinprotein BLAST) angewählt ist. Belasse alle Voreinstellungen unter Algorithm parameters. Starte die Suche mit BLAST. b) Während die Suche läuft, beantworte folgende klausurrelevante Fragen (siehe auch Erklärungen im Anhang): Warum ist der Expect threshold (Schranke für Evalue) von 10 nicht unbedingt sinnvoll? - Wie wirkt sich eine größere bzw. kleinere Word size auf Laufzeit und Genauigkeit aus? 1 c) Mache Dich mit der Ausgabe vertraut. Um Dir die verwendeten Parameter anzeigen zu lassen, klicke auf Search Summary. - Welche Besonderheit hat der erste Treffer? - Finde die 10 homologsten Proteine und lasse Dir ihre Sequenzen anzeigen (Get selected sequences). Um was für Proteine handelt es sich? d) Wiederhole die Suche unter Verwendung der nrDatenbank und mit einer EValueSchranke von 0.001. Was für Unterschiede siehst Du? Schaue Dir bei Taxonomy Reports und Distance tree of results an, für welche Organismengruppen Treffer gefunden wurden. 3. MegaBLAST: Suche nach orthologen Genen a) Wo liegt im Genom des Menschen das Gen HIST4H4, aus dem die mRNA NM_175054 hervorgeht? Wähle dazu auf der BLASTHauptseite unter BLAST Assembled Genomes Human. Verwende Database genome (reference only) und Program megaBLAST. (Tipp: Du kannst statt der Sequenz direkt die obige accession number eingeben.) Auf welchem Chromosom liegt das Gen HIST4H4? Gibt es ein Paralog? - Klicken auf eine Sequenzbezeichnung und auch der link Human genome view führt Dich zu MapViewer, der graphischen Darstellung des menschlichen Genoms. Dort findest Du den Blast hit neben dem zugehörigen Gen HIST4H4 und der mRNA NM_175054. Ermittle mit Hilfe des zoom zwei bis drei Gene, die HIST4H4 direkt benachbart sind. b) Welches Gen der Maus ist ortholog zu HIST4H4? Wähle dazu auf der BLASTHauptseite das Genom der Maus, setze Database genome (reference only) und diesmal crossspecies megaBLAST. Welches der zahlreichen lokalen Alignments, die Du mit der menschlichen mRNA aus Aufgabe 3a auf dem MausGenom erzielst, entspricht dem zu HIST4H4 orthologen Gen? (Tipp: konservierte Syntenie = GenNachbarschaft) Hat das Ortholog die höchste Identität? 4. PSIBLAST: Suche nach entfernt verwandten Proteinsequenzen a) Suche möglichst viele entfernte Homologe des Proteins MJ0577 aus dem Organismus Methanococcus jannaschii in der nrDatenbank. Verwende dazu eine geeignete Substitutionsmatrix (welche wäre das?) und einen EValue von 0.02 als oberste Schranke. b) Führe (in einem neuen Tab oder Fenster) mit denselben Einstellungen, aber nun mit dem Algorithmus PSIBLAST (PositionSpecific Iterated BLAST) eine Suche durch. Versichere Dich, dass PSIBLAST aktiviert ist, und setze PSIBLAST Threshold auf 0.001 für den maximalen Evalue der Sequenzen, die zur Erstellung der PSSM verwendet werden. c) Das Ergebnis aus der 1. Iteration sollte dem Ergebnis aus Aufgabe 4a entsprechen. Wo sind aber trotzdem Unterschiede? d) Führe eine weitere Iteration durch. Jetzt wirst Du sehen, dass sich das Ergebnis verändert. Was ist zu beobachten? Was geschieht bei einer weiteren Iteration? (Beachte vor allem die Evalues.) 2 Anhang: Erklärungen zu ausgewählten wichtigen Optionen bei Blast Hauptseite Enter Query Sequence, Query subrange Hier kann man den Bereich eingrenzen, wenn nur ein Teil der Sequenz betrachtet werden soll. Choose Search Set • Database: nr ist eine nichtredundante Ansammlung aus vielen Datenbanken (GenBank CDS translations + RefSeq Proteins + PDB + SwissProt + PIR + PRF) und stellt die größte ProteinsequenzDatenbank im BLASTModul dar. swissprot enstpricht UniprotKB/Swiss Prot. • Organism: grenzt die Suche auf einen bestimmten Organismus ein. • Entrez Query: Es können Beschränkungen für die Art der Datenbankeinträge erstellt werden. Mit NOT lassen sich unerwünschte explizit ausschließen. Program Selection, Algorithm Je nachdem, ob es sich um Protein oder NukleotidSequenzen handelt, hat man die Wahl unter verschiedenen BLASTProgrammen. Algorithm Parameters • Max target sequences: Anzahl der Treffer, die maximal angezeigt werden sollen. • Expect threshold: Gibt die Schranke für die Evalues der paarweisen Sequenzalignments an, die im Alignment ausgegeben werden. Mit dem defaultWert von 10 würde man erwarten, dass maximal 10 weitere Sequenzen aus der Datenbank beim Alignment mit der Suchsequenz denselben Score rein zufällig erreichen. Je geringer der EValue, desto signifikanter ist das Ergebnis. Als sinnvoll für das Ausschließen unsignifikanter Treffer erweisen sich Werte von 0.02 und kleiner. Damit reduziert sich auch die Ausgabeliste des Alignments. • Word size: Mit 2 statt 3 würde eine größere Liste für die wmers entstehen und entsprechend mehr Treffer in der Datenbank (HSPs) gefunden. Die Rechenzeit erhöht sich, bringt aber genauere Ergebnisse. Erfahrungsmäßig ist der default von 3 ein guter Kompromiss aus Genauigkeit und Rechenintensität. • Matrix: Die Wahl der AminosäureAustauschmatrix ist für den RawScore und schließlich das gesamte Alignment von entscheidender Bedeutung. Generell gilt bei enger Verwandtschaft: niedrige PAM (1) und hohe BLOSUM (80); entfernte Verwandtschaft: hohe PAM (250) und niedrige BLOSUM (45). Die BLOSUM62 ist ein gutes Mittelmaß. • Gap Costs: Hier wird die Bestrafung zum Öffnen einer Lücke (Existence) und deren Erweiterung (Extension) festgelegt. • Compositional adjustments – Compositionbased statistics: Dabei wird die Zusammensetzung der Query (Suchsequenz) und der Datenbank betrachtet, um genauere E Values zu erhalten. • Filter, Low complexity regions: Regionen mit eingeschränkter Sequenzzusammensetzung in der Query werden maskiert, d.h. vom Alignment ausgeschlossen. Solche z. B. Prolinreiche Regionen sind zwar statistisch, aber nicht biologisch signifikant. In Proteinen wird jede betroffene Aminosäure durch ein X ersetzt, in DNA die Nukleotide durch Ns. • Mask Mask for lookup table only: Hier werden die low complexityRegionen nur von der Generierung der wmers ausgeschlossen, bei den Alignments aber mit betrachtet. Mask lower case letters: Es gibt Programme (z.B. RepeatMasker), die bestimmte Bereiche von Sequenzen als „uninteressant“ maskieren, indem sie sie mit Kleinbuchstaben kennzeichnen. Diese können mit dieser Option explizit ausgeschlossen werden. 3 Wenn PSIBLAST gewählt wurde, kann man unter Upload PSSM eine fertige PSSM eingeben. (Zusätzlich muss aber auch die Suchsequenz oben bereitgestellt werden.) PSIBLAST Threshold ist der EValue, den ein Aligment maximal haben darf, um bei der Erstellung der PSSM einbezogen zu werden. (s.u. bei Format for PSIBLAST) Formatseite Request ID: Eine frühere Suche kann wieder aufgerufen werden, wenn man ihre ID hat. Format • Show: Bei PSIBLAST kann man sich hier ab der 2. Iteration die PSSM anzeigen lassen. • Alignment View: Pairwise ist die übliche Alignmentdarstellung, dabei bezeichnet + ähnliche, der 1letterCode identische Aminosäuren. (Bei DNASequenzen werden identische Nukleotide durch | bezeichnet.) Leerzeichen treten bei Gaps () und unpassenden Residuen auf. Bei queryanchored with identities werden identische Positionen mit . und abweichende mit 1letterCode bezeichnet. Wenn sehr viele Treffer gefunden wurden, empfiehlt sich für eine bessere Übersicht eine Liste der Treffer (Hit Table). • Masking Character/Color: falls maskierte Residuen vorliegen, können sie im Alignment besonders hervorgehoben werden. • Descriptions: Anzahl der angezeigten Sequenzen mit den zugehörigen Scores und Evalues. • Graphical Overview: Anzahl der in der farbigen Übersicht dargestellten Treffer. • Alignments: Anzahl der angezeigten Alignments. • Format for PSIBLAST: Aktiviert das iterative Alignment für das PSIBlast. with inclusion threshold gibt den Schwellwert für die Evalues der alignierten Sequenzen wieder, die zur Erstellung der PSSM verwendet werden sollen. Je niedriger dieser Wert, desto weniger Sequenzen werden für die PSSM verwendet und desto spezifischer die Matrize. Dies ist aber nicht immer sinnvoll, weil gerade stark divergierte Sequenzen wichtige Informationen zur Evolution der Sequenz besitzen und schließlich in der Suche nach homologen Sequenzen hilfreich sein könnten. Auf der anderen Seite „korrumpieren“ unpassende Sequenzen die PSSM und führen zum Auffinden falsch positiver Treffer. 4