BLAST-Sequenzsuche und –vergleiche MOL.504 – BLAST
Transcription
BLAST-Sequenzsuche und –vergleiche MOL.504 – BLAST
MOL.504 Analyse von DNA- und Proteinsequenzen Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche Summary Modul 1 - Datenbanken • Wo finde ich die DNA Sequenz meines Zielgens? • Wie erhalte ich Info aus der DNA-Datenbank Information über die tatäschlich kodierende Sequenz? • Welches Format hat eine FASTA Sequenz? • Wo finde ich Proteinsequenzen meines Zielproteins? • Wie kann ich das Molekulargewicht, aufgeschlüsselte ASZusammensetzung, isoelektrischen Punkt, Extinktionskoeffizent meiner Proteinsequenz bestimmen? • Wie erhalte ich Information über PTMs, z. B. potentielle Phosphorylierungssstellen, Glykosilierungsstellen? • Was bedeutet das ProSite consensus Pattern einer N-Glykosilierungsstelle N-{P}-[ST]-{P} • Welche Proteine können mit BRENDA gefunden werden, welche nicht? MOL.504 – BLAST-Sequenzsuche und –vergleiche Inhaltsübersicht Theorie des Sequenz-Alignment • Homologie & Evolution • Dotplot • Scoring-Matrizen (PAM, BLOSUM) • Alignment-Algorithmen (FASTA, BLAST) Anwendung in Programmen & Datenbanken • BLAST (via NCBI) • Clustal-W2, Clustal-O • Other alignment programs… MOL.504 – BLAST-Sequenzsuche und –vergleiche Die Begriffe Sequenz-Alignment und -vergleich Das Alignment ist das Ausrichten (zweier) Sequenzen • mit dem Ziel, eine höchstmögliche Ähnlichkeit zu finden • anschaulich durch Verschieben der Sequenzen „gegeneinander“ Referenz AGCGATTCCATCGCATATG ATTCCATCGCATATGCAGT Referenz AGCGATTCCATCGCATATG ATTCCATCGCATATGCAGT Der finale Sequenzvergleich bewertet die Ähnlichkeit • zwischen (zwei) bestmöglich ausgerichteten Sequenzen • basierend auf den Ähnlichkeits-Scores aller korrespondierenden Positionen, also einzelner Nukleotid- bzw. AS-Rest-Paare • entweder global für die kompletten Sequenzen oder lokal für bestimmte Bereiche MOL.504 – BLAST-Sequenzsuche und –vergleiche Bedeutung des Sequenzvergleichs Rückschlüsse auf Struktur und Funktion von Sequenzen • Annahme: die Funktion liegt in der Struktur und die Struktur in der Sequenz begründet Sequenz-Konservierung Struktur-Konservierung Funktions-Konservierung Rückschlüsse auf evolutionäre Beziehungen • evolutionärer Abstand, „Grad der Verwandtschaft“, gemeinsame Vorfahren, … MOL.504 – BLAST-Sequenzsuche und –vergleiche Homologie Ähnlichkeit (similarity) gegen Homologie (homology) • Sequenzähnlichkeit ist ein mathematisches Konzept, welches im Alignment und Ähnlichkeits-Scoring seinen Ausdruck findet • Homologie ist ein evolutionäres Konzept: 2 Sequenzen A und B sind homolog, wenn A eine Mutation von B ist, oder wenn A und B von einem gemeinsamen Sequenz-Vorfahren abstammen • Hohe Ähnlichkeit weist auf Homologie hin, jedoch bleibt dies stets eine Annahme (die man mit einer Wahrscheinlichkeit belegen kann) • Es muss immer überprüft werden, ob die Annahme der Homologie biologisch sinnvoll ist! MOL.504 – BLAST-Sequenzsuche und –vergleiche Orthologie und Paralogie Sequenz-Homologe können in zwei Typen unterteilt werden • Orthologie beschreibt homologe Gene in verschiedenen Spezies, von einem gemeinsamen Vorfahren abstammend. Orthologe haben meist die selbe Funktion (jedoch nicht zwingenderweise) • Paralogie bezeichnet homologe Gene innerhalb einer Spezies, welche sich durch Gen-Duplikation getrennt entwickelt haben, und meist die selbe Funktion besitzen (auch hier nicht zwangsläufig) MOL.504 – BLAST-Sequenzsuche und –vergleiche Sequenzalignment Voraussetzungen für das Alignment • ein Modell bzw. Verfahren zum Bewerten von Übereinstimmungen und Abweichungen für jedes mögliche Paar zweier Sequenzelemente („Buchstaben“) • ein Score für die (negative) Bewertung von Insertions/Deletions – Gap Penalty • eine Methode, um den Gesamt-Score zu optimieren • eine Methode, um die Signifikanz des Alignment zu bewerten MOL.504 – BLAST-Sequenzsuche und –vergleiche Die Dotplot-Methode Eine 2D-Matrix ermöglicht den paarweisen Sequenzvergleich • Alle Bausteine der einen Sequenz in Spalten (Ai) • Alle Bausteine der zweiten Sequenz in Zeilen (Bj) • Die Matrix-Zellen Mij bezeichnen den Vergleich jedes Ai mit jedem Bj A1 A2 A3 A4 A5 … AN B1 M11 M21 … … … … MN1 B2 M12 M22 … … … … … … … … … … … … … BN M1N … … … … … MNN MOL.504 – BLAST-Sequenzsuche und –vergleiche Die Dotplot-Methode Suche nach identischen Sequenzelementen • Alle Kombinationen von Positionen in A und B, an denen die Bausteine von identischem Typ sind, werden markiert MOL.504 – BLAST-Sequenzsuche und –vergleiche Die Dotplot-Methode Identifizierung zusammenhängender Abschnitte • Die Matrix wird von oben links in Richtung unten rechts analysiert • zunächst sind multiple Lösungen erlaubt (verschiedene Startpunkte) MOL.504 – BLAST-Sequenzsuche und –vergleiche Die Dotplot-Methode Optimierung durch Reduktion auf den längstmöglichen Pfad • Verknüpfung bestehender zusammenhängender Abschnitte • Lücken sind erlaubt, Rückschritte (nach links oder oben) verboten Insertion / Deletion konservierte Bereiche MOL.504 – BLAST-Sequenzsuche und –vergleiche Die Dotplot-Methode Dotplot einer repetitiven Sequenz (ABRACADABRACADABRA) Dotplot einer palindromischen Sequenz (MAX I STAY AWAY AT SIX AM) MOL.504 – BLAST-Sequenzsuche und –vergleiche Die Dotplot-Methode Beispiel für einen realen Dotplot konservierte Bereiche Insertion / Deletion MOL.504 – BLAST-Sequenzsuche und –vergleiche Scoring-Matrizen dienen zur Bewertung der Übereinstimmung zweier beliebiger Sequenzelemente z. B.: Vergleich zweier Aminosäurereste an einer gegebenen Position des Alignments • vor dem Alignment ist dies jede Zelle einer Dotplot-Matrix • während des Alignments sind dies die Zellen entlang der zu optimierenden Pfade • als Ergebnis des Alignments sind dies die korrespondierenden (im Idealfall identischen) Aminosäurereste des längsten Pfades Paare sowohl identischer als auch nicht-identischer Aminosäurereste sollen bewertet werden • ein „scoring scheme“ muss Substitutionen, Insertionen und Deletionen berücksichtigen MOL.504 – BLAST-Sequenzsuche und –vergleiche Scoring-Matrizen PAM-250 (20% Sequenzübereinstimmung) und BLOSUM-62 sind zwei der gebräuchlichsten Matrizen für Aminosäuren • gegeben sind Scores für die zufällige Substitution einer AS gegen eine andere • je ähnlicher die AS in ihren Eigenschaften sind, desto positiver der Score • identische AS haben i. a. die höchsten Scores • Die Werte variieren auch für identische Paare: seltene AS wie TRP und CYS haben die höchsten Scores MOL.504 – BLAST-Sequenzsuche und –vergleiche Wahl von Scoring-Matrizen PAM (Point Accepted Mutation) gegen BLOSUM (BLOcks SUbstitution Matrix) • heutezutage haben BLOSUM-Matrizen die PAM-Matrizen als „Default“ in Alignment-Programmen bzw. -Servern verdrängt • jedoch gibt es noch kein BLOSUM-Äquivalent zu PAM für bestimmte Vergleiche kurzer Sequenzen Abhängigkeit vom Zweck des Alignments • keine einzelne Matrix ist die alleingültige Lösung für alle Arten von Sequenzvergleichen • je größer der BLOSUM-Wert und kleiner der PAM-Wert, desto geeigneter sind diese Matrizen für das Alignment sehr ähnlicher Sequenzen bzw. hochkonservierter Bereiche • PAM-120 und BLOSUM-62 sind geeignet für mäßig abweichende Sequenzen, können jedoch außerhalb ihres „Leistungsfensters“ versagen • am zweckmäßigsten für universell einsetzbare Alignment-Programme (und in der Tat gegenwärtige Praxis) ist die die Kombination verschiedener Scoring-Systeme MOL.504 – BLAST-Sequenzsuche und –vergleiche Alignment-Algorithmen Zusammengesetzte Algorithmen bedienen sich verschiedener Methoden für die Schritte eines Alignments • z. B. Dotplot zur Optimierung der Alignment-Länge • z. B. PAM/BLOSUM für das Scoring von AS-Übereinstimmungen • Bewertung von Insertionen/Deletionen („Lückengewichtung“; gap-penalty) „Dynamic programming“-Algorithmen im Fall paarweiser Alignments bzw. für eine geringe Zahl von Sequenzen • sind jedoch sehr zeitaufwändig, da zumindest mit n * m skaliert FASTA und BLAST verwenden schnellere Algorithmen für die Suche in Datenbanken • es werden zunächst in einer „schnellen Suche“ nur Teilstücke von Sequenzen verglichen • erst für eine kleine Auswahl der am besten passenden Sequenzen wird ein aufwändiges Komplett-Alignment berechnet MOL.504 – BLAST-Sequenzsuche und –vergleiche Der FASTA-Algorithmus Ein 4-Schritt-Prozess MOL.504 – BLAST-Sequenzsuche und –vergleiche BLAST „Basic Local Alignment Search Tool“ • BLAST ist ein Paket von Programmen zur Ähnlichkeitssuche in verschiedenen Sequenz-Datenbanken (sowohl für Polynukleotide als auch Proteine) • der zugrundeliegende Algorithmus ist geschwindigkeitsoptimiert (daher muss eine gewisse Sensitivitäts-Einbuße beim Erkennen entfernt verwandter Sequenzen in Kauf genommen werden) • im Kern basiert BLAST auf lokalem Alignment, daher können Sequenzen, welche (nur) isoliert-konservierte Bereiche gemeinsam haben, (dennoch) als verwandt erkannt werden • BLAST-Scores haben eine genau definierte statistische Interpretation (EWert), so dass signifikante, also echte, Treffer gut von Zufallstreffern unterschieden werden können http://blast.ncbi.nlm.nih.gov/Blast.cgi MOL.504 – BLAST-Sequenzsuche und –vergleiche BLAST http://blast.ncbi.nlm.nih.gov/Blast.cgi MOL.504 – BLAST-Sequenzsuche und –vergleiche BLAST-Varianten blastp • vergleicht eine AS-Eingabesequenz (AS-Query) gegen eine Protein-DB blastn • vergleicht eine Nukleotid-Query gegen eine Polynukleotid-DB blastx • vergleicht die Translationsprodukte einer Nukleotid-Query (6-Frame; beide Stränge im Fall von DNA) gegen eine Protein-DB tblastn • vergleicht eine AS-Query gegen die dynamisch erzeugten Translationsprodukte einer Polynukleotid-DB tblastx • vergleicht die Translationsprodukte einer Nukleotid-Query gegen die dynamisch erzeugten Translationsprodukte einer Polynukleotid-DB MOL.504 – BLAST-Sequenzsuche und –vergleiche BLAST-Eingabe Vgl. Übung Datenbanken: Blastn für Bacillus subtilis, Gen „yqjM“ Zugang über den Nucleotide-Eintrag MOL.504 – BLAST-Sequenzsuche und –vergleiche BLAST-Eingabe BLAST-Eingabeformular MOL.504 – BLAST-Sequenzsuche und –vergleiche BLAST-Ergebnisseite Graphischer Überblick • zeigt Länge der Übereinstimmungen an (ggf. mit Gaps) Balken sind Links auf das jeweilige Alignment selber • zeigt Ähnlichkeits-Score (S) farblich an MOL.504 – BLAST-Sequenzsuche und –vergleiche MOL.504 – BLAST-Sequenzsuche und –vergleiche BLAST-Ergebnisseite Auflistung der Treffer • Accession-Nummern, Scores, E-Werte, Länge der Übereinstimmung, Identität • Sortiert nach „Max score“ (S-Wert) • Query coverage beachten im Vergleich zu Max. Ident. • E-value Links • Klick auf Accession-Nummer führt zum Nukleotide-Eintrag • Klick auf Max Score führt zum Alignment MOL.504 – BLAST-Sequenzsuche und –vergleiche BLAST-Ergebnisseite MOL.504 – BLAST-Sequenzsuche und –vergleiche Kriterien für BLAST-Treffer: E-values, Score S-Werte (Scores) • BLAST-Scores (S-Werte) sind die Summe der einzelnen ÄhnlichkeitsScores an jeder Position des Alignements, einschließlich der Gap Penalties • im Falle von Aminosäure-Alignments wird die jeweils gewählte ASScoring-Matrix herangezogen (z. B. BLOSUM-62) • Je höher der S-Wert, desto ähnlicher ist eine in der DB gefundene Sequenz zur Eingabesequenz (Query) E-Werte • BLAST Expect values (E-Werte) geben die Wahrscheinlichkeit an, das gefundene Alignment bei Annahme zufälliger Treffer in einer DB der vorliegenden Größe zu erhalten • je kleiner der E-Wert, desto geringer die Zufälligkeit, desto größer die Signifikanz des Treffers • E-Werte sind aber tendenziell umso größer, je kleiner die Sequenzlänge und je größer die DB ist (im Fall einer sehr großen DB und gleichzeitig sehr kurzer Sequenzen können selbst hohe S-Werte zufällig sein) MOL.504 – BLAST-Sequenzsuche und –vergleiche BLAST-Ergebnisseite detaillierte Auflistung der Alignments • komplette ausgerichtete Sequenzen (Query & Subject), übereinander • normalerweise mehrere Zeilen-Blöcke à 60 Buchstaben • senkrechte Verbindung zeigt Identität an • Download button – FASTA format für ausgerichteten Sequenzteil! MOL.504 – BLAST-Sequenzsuche und –vergleiche BLAST-Ergebnisseite • Download button – FASTA format für ausgerichteten Sequenzteil (als *.txt Datei)! MOL.504 – BLAST-Sequenzsuche und –vergleiche Clustal-Omega http://www.ebi.ac.uk/Tools/msa/clustalo/ HMM profile-profile techniques to generate alignments Sequenzalignment 3 oder mehrerer gegebenen Sequenzen (DNA, Protein) Vergleich zweier Sequenzen´z.B.: http://www.ebi.ac.uk/Tools/psa/lalign/