BLAST-Sequenzsuche und –vergleiche MOL.504 – BLAST

Transcription

BLAST-Sequenzsuche und –vergleiche MOL.504 – BLAST
MOL.504
Analyse von DNA- und
Proteinsequenzen
Modul 2
BLAST-Sequenzsuche und Sequenzvergleiche
Summary Modul 1 - Datenbanken
• Wo finde ich die DNA Sequenz meines Zielgens?
• Wie erhalte ich Info aus der DNA-Datenbank Information über die tatäschlich
kodierende Sequenz?
• Welches Format hat eine FASTA Sequenz?
• Wo finde ich Proteinsequenzen meines Zielproteins?
• Wie kann ich das Molekulargewicht, aufgeschlüsselte ASZusammensetzung, isoelektrischen Punkt, Extinktionskoeffizent meiner
Proteinsequenz bestimmen?
• Wie erhalte ich Information über PTMs, z. B. potentielle
Phosphorylierungssstellen, Glykosilierungsstellen?
• Was bedeutet das ProSite consensus Pattern einer N-Glykosilierungsstelle
N-{P}-[ST]-{P}
• Welche Proteine können mit BRENDA gefunden werden, welche nicht?
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Inhaltsübersicht
 Theorie des Sequenz-Alignment
• Homologie & Evolution
• Dotplot
• Scoring-Matrizen (PAM, BLOSUM)
• Alignment-Algorithmen (FASTA, BLAST)
 Anwendung in Programmen & Datenbanken
• BLAST (via NCBI)
• Clustal-W2, Clustal-O
• Other alignment programs…
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Die Begriffe Sequenz-Alignment und -vergleich
 Das Alignment ist das Ausrichten (zweier) Sequenzen
• mit dem Ziel, eine höchstmögliche Ähnlichkeit zu finden
• anschaulich durch Verschieben der Sequenzen „gegeneinander“
Referenz
AGCGATTCCATCGCATATG
ATTCCATCGCATATGCAGT
Referenz
AGCGATTCCATCGCATATG
ATTCCATCGCATATGCAGT
 Der finale Sequenzvergleich bewertet die Ähnlichkeit
• zwischen (zwei) bestmöglich ausgerichteten Sequenzen
• basierend auf den Ähnlichkeits-Scores aller korrespondierenden
Positionen, also einzelner Nukleotid- bzw. AS-Rest-Paare
• entweder global für die kompletten Sequenzen oder lokal für
bestimmte Bereiche
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Bedeutung des Sequenzvergleichs
 Rückschlüsse auf Struktur und Funktion von Sequenzen
• Annahme: die Funktion liegt in der Struktur und die Struktur in der
Sequenz begründet
Sequenz-Konservierung
Struktur-Konservierung
Funktions-Konservierung
 Rückschlüsse auf evolutionäre Beziehungen
• evolutionärer Abstand, „Grad der Verwandtschaft“, gemeinsame
Vorfahren, …
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Homologie
 Ähnlichkeit (similarity) gegen Homologie (homology)
• Sequenzähnlichkeit ist ein mathematisches Konzept, welches im
Alignment und Ähnlichkeits-Scoring seinen Ausdruck findet
• Homologie ist ein evolutionäres Konzept:
2 Sequenzen A und B sind homolog, wenn A eine Mutation von B ist,
oder wenn A und B von einem gemeinsamen Sequenz-Vorfahren
abstammen
• Hohe Ähnlichkeit weist auf Homologie hin, jedoch bleibt dies stets
eine Annahme (die man mit einer Wahrscheinlichkeit belegen kann)
• Es muss immer überprüft werden, ob die Annahme der Homologie
biologisch sinnvoll ist!
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Orthologie und Paralogie
 Sequenz-Homologe können in zwei Typen unterteilt werden
• Orthologie beschreibt homologe Gene in verschiedenen Spezies, von
einem gemeinsamen Vorfahren abstammend. Orthologe haben meist
die selbe Funktion (jedoch nicht zwingenderweise)
• Paralogie bezeichnet homologe Gene innerhalb einer Spezies, welche
sich durch Gen-Duplikation getrennt entwickelt haben, und meist die
selbe Funktion besitzen (auch hier nicht zwangsläufig)
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Sequenzalignment
 Voraussetzungen für das Alignment
• ein Modell bzw. Verfahren zum Bewerten von Übereinstimmungen und
Abweichungen für jedes mögliche Paar zweier Sequenzelemente
(„Buchstaben“)
• ein Score für die (negative) Bewertung von Insertions/Deletions – Gap
Penalty
• eine Methode, um den Gesamt-Score zu optimieren
• eine Methode, um die Signifikanz des Alignment zu bewerten
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Die Dotplot-Methode
 Eine 2D-Matrix ermöglicht den paarweisen Sequenzvergleich
• Alle Bausteine der einen Sequenz in Spalten (Ai)
• Alle Bausteine der zweiten Sequenz in Zeilen (Bj)
• Die Matrix-Zellen Mij bezeichnen den Vergleich jedes Ai mit jedem Bj
A1
A2
A3
A4
A5
…
AN
B1
M11
M21
…
…
…
…
MN1
B2
M12
M22
…
…
…
…
…
…
…
…
…
…
…
…
…
BN
M1N
…
…
…
…
…
MNN
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Die Dotplot-Methode
 Suche nach identischen Sequenzelementen
• Alle Kombinationen von Positionen in A und B, an denen die Bausteine
von identischem Typ sind, werden markiert
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Die Dotplot-Methode
 Identifizierung zusammenhängender Abschnitte
• Die Matrix wird von oben links in Richtung unten rechts analysiert
• zunächst sind multiple Lösungen erlaubt (verschiedene Startpunkte)
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Die Dotplot-Methode
 Optimierung durch Reduktion auf den längstmöglichen Pfad
• Verknüpfung bestehender zusammenhängender Abschnitte
• Lücken sind erlaubt, Rückschritte (nach links oder oben) verboten
Insertion / Deletion
konservierte Bereiche
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Die Dotplot-Methode
Dotplot einer repetitiven Sequenz
(ABRACADABRACADABRA)
Dotplot einer palindromischen
Sequenz
(MAX I STAY AWAY AT SIX AM)
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Die Dotplot-Methode
 Beispiel für einen realen Dotplot
konservierte Bereiche
Insertion / Deletion
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Scoring-Matrizen
 dienen zur Bewertung der Übereinstimmung zweier beliebiger
Sequenzelemente
 z. B.: Vergleich zweier Aminosäurereste an einer gegebenen
Position des Alignments
• vor dem Alignment ist dies jede Zelle einer Dotplot-Matrix
• während des Alignments sind dies die Zellen entlang der zu optimierenden
Pfade
• als Ergebnis des Alignments sind dies die korrespondierenden (im Idealfall
identischen) Aminosäurereste des längsten Pfades
 Paare sowohl identischer als auch nicht-identischer
Aminosäurereste sollen bewertet werden
• ein „scoring scheme“ muss Substitutionen, Insertionen und Deletionen
berücksichtigen
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Scoring-Matrizen
 PAM-250 (20% Sequenzübereinstimmung) und BLOSUM-62
sind zwei der gebräuchlichsten Matrizen für Aminosäuren
• gegeben sind Scores für die zufällige Substitution einer AS gegen eine
andere
• je ähnlicher die AS in ihren Eigenschaften sind, desto positiver der Score
• identische AS haben i. a. die höchsten Scores
• Die Werte variieren auch für identische Paare: seltene AS wie TRP und
CYS haben die höchsten Scores
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Wahl von Scoring-Matrizen
 PAM (Point Accepted Mutation) gegen BLOSUM (BLOcks
SUbstitution Matrix)
• heutezutage haben BLOSUM-Matrizen die PAM-Matrizen als „Default“ in
Alignment-Programmen bzw. -Servern verdrängt
• jedoch gibt es noch kein BLOSUM-Äquivalent zu PAM für bestimmte
Vergleiche kurzer Sequenzen
 Abhängigkeit vom Zweck des Alignments
• keine einzelne Matrix ist die alleingültige Lösung für alle Arten von
Sequenzvergleichen
• je größer der BLOSUM-Wert und kleiner der PAM-Wert, desto geeigneter
sind diese Matrizen für das Alignment sehr ähnlicher Sequenzen bzw.
hochkonservierter Bereiche
• PAM-120 und BLOSUM-62 sind geeignet für mäßig abweichende
Sequenzen, können jedoch außerhalb ihres „Leistungsfensters“ versagen
• am zweckmäßigsten für universell einsetzbare Alignment-Programme (und
in der Tat gegenwärtige Praxis) ist die die Kombination verschiedener
Scoring-Systeme
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Alignment-Algorithmen
 Zusammengesetzte Algorithmen bedienen sich verschiedener
Methoden für die Schritte eines Alignments
• z. B. Dotplot zur Optimierung der Alignment-Länge
• z. B. PAM/BLOSUM für das Scoring von AS-Übereinstimmungen
• Bewertung von Insertionen/Deletionen („Lückengewichtung“; gap-penalty)
 „Dynamic programming“-Algorithmen im Fall paarweiser
Alignments bzw. für eine geringe Zahl von Sequenzen
• sind jedoch sehr zeitaufwändig, da zumindest mit n * m skaliert
 FASTA und BLAST verwenden schnellere Algorithmen für die
Suche in Datenbanken
• es werden zunächst in einer „schnellen Suche“ nur Teilstücke von
Sequenzen verglichen
• erst für eine kleine Auswahl der am besten passenden Sequenzen wird
ein aufwändiges Komplett-Alignment berechnet
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Der FASTA-Algorithmus
 Ein 4-Schritt-Prozess
MOL.504 – BLAST-Sequenzsuche und –vergleiche
BLAST
 „Basic Local Alignment Search Tool“
• BLAST ist ein Paket von Programmen zur Ähnlichkeitssuche in
verschiedenen Sequenz-Datenbanken (sowohl für Polynukleotide als auch
Proteine)
• der zugrundeliegende Algorithmus ist geschwindigkeitsoptimiert (daher
muss eine gewisse Sensitivitäts-Einbuße beim Erkennen entfernt
verwandter Sequenzen in Kauf genommen werden)
• im Kern basiert BLAST auf lokalem Alignment, daher können Sequenzen,
welche (nur) isoliert-konservierte Bereiche gemeinsam haben, (dennoch)
als verwandt erkannt werden
• BLAST-Scores haben eine genau definierte statistische Interpretation (EWert), so dass signifikante, also echte, Treffer gut von Zufallstreffern
unterschieden werden können
 http://blast.ncbi.nlm.nih.gov/Blast.cgi
MOL.504 – BLAST-Sequenzsuche und –vergleiche
BLAST
http://blast.ncbi.nlm.nih.gov/Blast.cgi
MOL.504 – BLAST-Sequenzsuche und –vergleiche
BLAST-Varianten
 blastp
• vergleicht eine AS-Eingabesequenz (AS-Query) gegen eine Protein-DB
 blastn
• vergleicht eine Nukleotid-Query gegen eine Polynukleotid-DB
 blastx
• vergleicht die Translationsprodukte einer Nukleotid-Query (6-Frame; beide
Stränge im Fall von DNA) gegen eine Protein-DB
 tblastn
• vergleicht eine AS-Query gegen die dynamisch erzeugten
Translationsprodukte einer Polynukleotid-DB
 tblastx
• vergleicht die Translationsprodukte einer Nukleotid-Query gegen die
dynamisch erzeugten Translationsprodukte einer Polynukleotid-DB
MOL.504 – BLAST-Sequenzsuche und –vergleiche
BLAST-Eingabe
 Vgl. Übung Datenbanken: Blastn für Bacillus subtilis, Gen
„yqjM“
 Zugang über den Nucleotide-Eintrag
MOL.504 – BLAST-Sequenzsuche und –vergleiche
BLAST-Eingabe
 BLAST-Eingabeformular
MOL.504 – BLAST-Sequenzsuche und –vergleiche
BLAST-Ergebnisseite
 Graphischer Überblick
• zeigt Länge der Übereinstimmungen an (ggf. mit Gaps)  Balken sind
Links auf das jeweilige Alignment selber
• zeigt Ähnlichkeits-Score (S) farblich an
MOL.504 – BLAST-Sequenzsuche und –vergleiche
MOL.504 – BLAST-Sequenzsuche und –vergleiche
BLAST-Ergebnisseite
 Auflistung der Treffer
• Accession-Nummern, Scores, E-Werte, Länge der Übereinstimmung,
Identität
• Sortiert nach „Max score“ (S-Wert)
• Query coverage beachten im Vergleich zu Max. Ident.
• E-value
 Links
• Klick auf Accession-Nummer führt zum Nukleotide-Eintrag
• Klick auf Max Score führt zum Alignment
MOL.504 – BLAST-Sequenzsuche und –vergleiche
BLAST-Ergebnisseite
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Kriterien für BLAST-Treffer: E-values, Score
 S-Werte (Scores)
• BLAST-Scores (S-Werte) sind die Summe der einzelnen ÄhnlichkeitsScores an jeder Position des Alignements, einschließlich der Gap
Penalties
• im Falle von Aminosäure-Alignments wird die jeweils gewählte ASScoring-Matrix herangezogen (z. B. BLOSUM-62)
• Je höher der S-Wert, desto ähnlicher ist eine in der DB gefundene
Sequenz zur Eingabesequenz (Query)
 E-Werte
• BLAST Expect values (E-Werte) geben die Wahrscheinlichkeit an, das
gefundene Alignment bei Annahme zufälliger Treffer in einer DB der
vorliegenden Größe zu erhalten
• je kleiner der E-Wert, desto geringer die Zufälligkeit, desto größer die
Signifikanz des Treffers
• E-Werte sind aber tendenziell umso größer, je kleiner die Sequenzlänge
und je größer die DB ist (im Fall einer sehr großen DB und gleichzeitig
sehr kurzer Sequenzen können selbst hohe S-Werte zufällig sein)
MOL.504 – BLAST-Sequenzsuche und –vergleiche
BLAST-Ergebnisseite
 detaillierte Auflistung der Alignments
• komplette ausgerichtete Sequenzen (Query & Subject), übereinander
• normalerweise mehrere Zeilen-Blöcke à 60 Buchstaben
• senkrechte Verbindung zeigt Identität an
• Download button – FASTA format für ausgerichteten Sequenzteil!
MOL.504 – BLAST-Sequenzsuche und –vergleiche
BLAST-Ergebnisseite
• Download button – FASTA format für ausgerichteten Sequenzteil (als *.txt
Datei)!
MOL.504 – BLAST-Sequenzsuche und –vergleiche
Clustal-Omega
http://www.ebi.ac.uk/Tools/msa/clustalo/
HMM profile-profile techniques to generate alignments
Sequenzalignment 3 oder mehrerer gegebenen Sequenzen (DNA, Protein)
Vergleich zweier Sequenzen´z.B.: http://www.ebi.ac.uk/Tools/psa/lalign/