Proteine - BioKemika

Transcription

Proteine - BioKemika
Folien und Supplementals auf
www.BioKemika.de
Folien und Supplementals auf
www.BioKemika.de
Gliederung
Nützliche Tools
• Three-/one-letter Amino Acids' Сodes
• RandSeq – Random Protein Sequence Generator
• Protein Colourer
Protein-Vorhersagen
Kurze Themen
• ProtParam – Vorhersage chemischer und physikalischer
Eigenschaften anhand der primär Sequenz
• PeptideCutter – Vorhersage von Hydrolyse Stellen
• ProtScale und TMHMM Server 2.0 – Vorhersage von
Transmembran Helix
Gliederung
Protein-Vorhersagen
Ausführlich behandelt
• BLAST – Um Ähnliche Proteine durch eine Sequenz zu suchen.
• Dot plot und Alignments – Um zwei Sequenzen zu
vergleichen.
• CLUSTALW – Um multiple Sequenz zu vergleichen.
• Jalview – Um Sequence Alignments aus Clustal zu bearbeiten.
• VAST – Proteinsuche anhand der Struktur. Sucht nach ähnliche
PDBs
• Cn3D – Anzeige von VAST Ergebnisse und Bearbeitung der
Daten.
Three- one-letter Amino Acids' Сodes
Three-/one-letter Amino Acids' Сodes
http://molbiol.ru/eng/scripts/01_17.html
On-Line Tool um
Aminosäurensequenzen
zwischen den 1 Buchstabencode
und 3 Buchstabencode zu
umwandeln.
Bennenung der Sequenz
Sequenz
Wie viele AS in eine Reihe
Großbuchstaben für 1 Letter Code
RandSeq – Random Protein Sequence
Generator
RandSeq – Random Protein Sequence Generator
http://www.expasy.ch/tools/randseq.html
20 bis 9999 AS lang
Vier Möglichkeiten um die Sequenz zu
produzieren:
• Gleiche Wahrscheinlichkeit für alle AS
• Komposition ähnlich zu bekannten
Protein (Gut als Vergleich)
• Wahrscheinlichkeit für Vorkommen einer
AS wie in der Natur
• Definierte Wahrscheinlichkeitsverteilung
zwischen einzelnen AS.
Protein Colourer
Protein Colourer
http://www.ebi.ac.uk/cgi-bin/proteincol/ProteinColourer.pl
Tool um den Text einer Proteinsequenz farblich zu markieren.
Vier Farben sind
vorhanden:
• Blau
• Rot
• Grün
• Gelb
Sequenz wird in
FASTA Format
hier eingetragen
Colour portein:
Neue Seite mit
Ergebnis wird
aufgerufen.
Überblick behalten
Nützliche Tools
•
•
•
Three-/one-letter Amino Acids' Сodes
RandSeq – Random Protein Sequence Generator
Protein Colourer
Kurze Themen
•
•
•
ProtParam – Vorhersage chemischer und physikalischer Eigenschaften anhand
der primär Sequenz
PeptideCutter – Vorhersage von Hydrolyse Stellen
ProtScale und TMHMM Server 2.0 – Vorhersage von Transmembran Helix
Ausführlich behandelt
•
•
•
•
•
BLAST – Um Ähnliche Proteine durch eine Sequenz zu suchen.
CLUSTALW – Um Sequenz Alignments aus BLAST erstellen.
Jalview – Um Sequenz Alignments aus Clustal zu bearbeiten.
VAST – Proteinsuche anhand der Struktur. Sucht nach ähnliche PDBs
Cn3D – Anzeige von VAST Ergebnisse und Bearbeitung der Daten.
ProtParam
ProtParam
http://www.expasy.ch/tools/protparam.html
ProtParam berechnet
verschiedene
Informationen anhand
der Primärstruktur:
• Molekulargewicht
• Theoretisches pI
• AS Komposition
• Atomkomposition
• Extinktionskoefficient
• Halbwertszeit
Gebe eine Swiss-Prot/TrEMBL AC oder ID hier ein
Oder die 1 Letter Code Sequenz hier.
Compute parameters führt zu eine neue Seite
mit den gewünschten Ergebnis in Text Form.
Worauf muss man bei ProtParam
achten?
• Molekularen Gewicht
– Berücksichtigt keine post-translationale Modifikationen
wie Glykosilierungen und Phosphorilierungen.
– Berücksichtigt keine Abspaltung von leader Sequenzen.
– Die Berechnung wird immer nur für ein Monomer
durchgeführt.
• Extinktionskoeffizient
– Betrachtet jede AS als einzeln und unabhängig. In der
Proteinumgebung wirken aber andere Bedingungen,
wodurch das Extinktionskoeffizient sehr vom angegebenen
Wert abweichen kann.
Worauf muss man bei ProtParam
achten?
• Instabilität
– Dies ist nur eine grobe Einschätzung. Erfahrungsgemäß ist
ein Protein dann stabil, wenn dieser Wert unter 40 liegt.
• Halbwertszeit
– Die Angabe ist für drei verschiedene Organismen, man
kann aber mit große Sicherheit auf ähnliche Organismen
übertragen.
– Dieser Wert ist bedeutungslos falls dein Protein durch
Regulation normalerweise degradiert wird.
PeptideCutter
PeptideCutter
http://www.expasy.ch/tools/peptidecutter/
PeptideCutter macht eine Vorhersage über
proteolitische Schnittstellen in der gegebenen
Sequenz.
Eingabe:
Die Sequenz kann in Plain-Format eingegeben
werden. Außerdem können AC- und IDNummern verwendet werden.
Du kannst entweder alle Proteasen und
Chemikalien zur Berechnung verwenden
(default) oder nur die, die dich interessieren.
Dafür musst du die dich interessierenden
Chemikalien oder Proteasen markieren.
PeptideCutter - Ergebnisse
Ausgabe:
Erst wird eine Auflistung der
verwendeten Enzyme und Chemikalien
dargestellt.
Dann folgt eine Auflistung der
gefundenen Schnittstellen.
Am Ende der Seite befindet sich ein
Graph. Die Enzyme oder Chemikalien
werden hier mit ihren Schnittstellen
gezeigt.
Auswahl einer dieser Agenzien führt zu
einer Seite, wo alle Schnittstellen für das
betreffende Agenz in der gewählten
Sequenz angezeigt werden.
Suche nach Transmembransegmente:
ProtScale und TMHMM Server 2.0
Unterschiede beider Programme:
ProtScale
• Sehr simples Programm.
• Gibt die Hydrophobizität der Aminosäuren an.
• Keine Vorhersage, muss alles vom Benutzer
ausgewertet werden.
TMHMM
• State-of-the-Art, sehr komplexes Modell.
• Vorhersage von Transmembransegmente.
• Vorhersage der Anordnung in der Zelle.
ProtScale
www.expasy.org/cgi-bin/protscale.pl
Protein Sequenz in
FASTA Format
hochladen oder
die UniProt AC
oder ID eingeben.
Wähle die
Methode zur
Berechnung.
Wähle eine
Fenstergröße.
Submit startet die
Berechnung.
ProtScale
www.expasy.org/cgi-bin/protscale.pl
Protein Sequenz in
FASTA Format
hochladen oder
die UniProt AC
oder ID eingeben.
ProtScale kann viele Graphen anhand der gegebene
Sequenz berechnen. Die meisten Algorithmen sind zur
Analyse von Hydrophobizität, aber auch Alpha Helix
und Beta Sheets können hiermit vorhergesagt werden.
Wähle die
Methode zur
Berechnung.
Die Fenstergröße bestimmt welche Anzahl von
Aminosäuren im ausgewählten Algorithmus jeweils in
eine Berechnung in Betrachtung genommen werden.
Wähle eine
Fenstergröße.
Für die Vorhersage von Transmembransegmente ist das
Algorithmus Hphob. /Kyte & Doolittle mit eine
Fenstergröße von 19 AS zu empfehlen.
Submit startet die
Berechnung.
Interpretieren der Daten
Beispiel wurde mit der ID
P78588 durchgeführt,
Hphob. / Kyte & Doolittle
und Fenstergröße von 19
AS.
Um die Daten zu
interpretieren, lässt man
ein Blatt die gesamte
Peaks verdecken und
bringt diesen langsam
runter, solange man noch
scharfe Peaks sehen kann.
Diese sind mit großer
Wahrscheinlichkeit
Transmembrandomänen.
Interpretieren der Daten
Beispiel wurde mit der ID
P78588 durchgeführt,
Hphob. / Kyte & Doolittle
und Fenstergröße von 19
AS.
Um die Daten zu
interpretieren, lässt man
ein Blatt die gesamte
Peaks verdecken und
bringt diesen langsam
runter, solange man noch
scharfe Peaks sehen kann.
Diese sind mit großer
Wahrscheinlichkeit
Transmembrandomänen.
Interpretieren der Daten
Beispiel wurde mit der ID
P78588 durchgeführt,
Hphob. / Kyte & Doolittle
und Fenstergröße von 19
AS.
Eindeutig
Nicht eindeutig
Um die Daten zu
interpretieren, lässt man
ein Blatt die gesamte
Peaks verdecken und
bringt diesen langsam
runter, solange man noch
scharfe Peaks sehen kann.
Diese sind mit großer
Wahrscheinlichkeit
Transmembrandomänen.
TMHMM Server 2.0
http://www.cbs.dtu.dk/services/TMHMM-2.0/
Protein Sequenz in FASTA Format
hochladen oder die Sequenz eingeben.
Auswahl der Ausgabe, bei viele
Sequenzen die graphische Darstellung
ausschalten.
Submit klicken um die Berechnung zu
starten
Ergebnisse der TMHMM Suche
Die Suche kann einige Sekunden
dauern.
Die Ausgabe der Ergebnisse startet mit
ein Text, wo die wahrscheinlichsten
Positionen zu Transmembran Helices zu
finden sind.
Bei Benutzung der graphische Ausgabe
wird ein Graph geplottet. Dieser zeigt
wo in der Sequenz mögliche
Transmembran Helices zu finden sind.
Außerdem wird angegeben, ob Teil der
Sequenz Intra- oder Extrazellulär zu
finden ist.
Es besteht die Möglichkeit, die Daten
zur Erstellung des Graphs über die
Links zu bekommen.
Überblick behalten
Nützliche Tools
•
•
•
Three-/one-letter Amino Acids' Сodes
RandSeq – Random Protein Sequence Generator
Protein Colourer
Kurze Themen
•
•
•
ProtParam – Vorhersage chemischer und physikalischer Eigenschaften anhand
der primär Sequenz
PeptideCutter – Vorhersage von Hydrolyse Stellen
ProtScale TMHMM Server 2.0 – Vorhersage von Transmembran Helix
Ausführlich behandelt
•
•
•
•
•
BLAST – Um Ähnliche Proteine durch eine Sequenz zu suchen.
CLUSTALW – Um Sequenz Alignments aus BLAST erstellen.
Jalview – Um Sequenz Alignments aus Clustal zu bearbeiten.
VAST – Proteinsuche anhand der Struktur. Sucht nach ähnliche PDBs
Cn3D – Anzeige von VAST Ergebnisse und Bearbeitung der Daten.
Sequenzbasierte
Datenbanksuchen und
Sequenzvergleiche
Wie funktioniert ein Sequenzvergleich
• Identische Sequenzen
• Match und Mismatch
G
A
C
C
G
C
A
T
C
T
G
A
C
C
G
C
A
T
C
T
G
A
C
G
A
C
A
A
C
T
G
A
C
C
G
C
A
T
C
T
G
A
C
-
G
C
A
T
C
T
G
A
C
C
G
C
A
T
C
T
M A
C
G
L
M P
T
K
K
M A
C
G
L
V
T
R
K
• Insertion und Deletion
• Konservative Austausche
– Bei Proteine (sehr, bzw
semi-Konservativ)
P
Beide Alignment Möglichkeiten
• Globales Alignment
– Hier wird die gesamte Sequenz zum Alignment verwendet.
– Liefert die beste Alignments, ist aber sehr Rechenintensiv.
– Identifiziert Insertionen sowie Mutationen.
• Lokales Alignment
– Nur ein Teil der Sequenz wird für den Alignment verwendet.
– Benötigt weniger Rechenzeit als beim globalen Alignment.
– Analyse Residuum nach Residuum sowie hoch qualitative Alignments.
• Gaps
– Wenn Gaps akzeptiert werden, dann können Bereiche einer Sequenz
nicht in der zu vergleichende Sequenz vorkommen.
– Ältere Programme akzeptierten keine Gaps.
Begriffserklärung
Bevor wir uns mit BLAST und CLUSTALW beschäftigen, wollen wir ein
paar Begriffe definieren:
Ähnlichkeit (similarity)
Bedeutet, dass man ein Modell hat, der die Ähnlichkeit der Aminosäuren definiert
und somit die Sequenzen vergleichen kann.
Homologie (homology)
Betrachteten Sequenzen haben eine gemeinsame Entwicklungsgeschichte, somit
auch eine gemeinsame Vorläufersequenz.
Identität (identity)
Angabe über die identische Aminosäurensequenz.
Begriffserklärung
Wann können wir über Homologie sprechen?
Für Sequenzen mit mehr als 100 AS oder Nukleotide gilt Homologie wenn:
Proteinsequenzen – 25% der AS identisch sind.
DNA Sequenzen – 70% der Nucleotide identisch sind.
Darunter befinden wir uns in der twilight zone – keiner kann genau sagen ob
Homologie besteht.
Vergiss nicht, dass manche Proteine mit eine AS Übereinstimmung von weniger als
15% trotzdem die gleiche 3D Struktur aufweisen.
Homolog oder nicht Homolog – diese Frage kann durch Sequenzvergleich nie sicher
beantwortet werden.
BLAST vs. CLUSTAL
• BLAST wird verwendet um eine Homologie
Suche durchzuführen. Die Ausgabe der Daten
zeigt die Ähnlichkeit der gefundenen
Sequenzen zu der angegebenen Sequenz.
• CLUSTAL dient zum Alignment verschiedener
Sequenzen. Es ist keine Suchfunktion
vorhanden. Aber die Ausgabe der Daten
ermöglicht Rückschlüsse, die alleine durch
BLAST nicht möglich sind.
BLAST
Basic Local Alignment Search Tool
(Altschul et al. 1990)
Vorgänger von BLAST?
Andere Suchalgorithmen:
• Needleman-Wunsch-Algorithmus (Needleman u. Wunsch 1970)
– Globales Alignment, erst ohne Gaps
• Smith-Walterman-Algorithmus (Smith u. Walterman 1981)
– Lokales Alignment, erst ohne Gaps
• FastA (Pearson u. Lipman 1988)
– Lokales Alignment, identifiziert kurze Wortbereiche, erlaubt Gaps
Diese sind aber in den aktuellen Rechner nicht in sinnvollen
Zeiträumen zu bewerkstelligen.
BLAST ist ein Kompromiss zwischen Ergebnis und Rechenzeit.
BLAST Allgemein
Was macht BLAST allgemein?
• BLAST ist eine heuristische Methode, was bedeutet dass BLAST
Abschätzungen verwendet um annähernd genaue Ergebnisse zu
bekommen. Gaps sind bei der Suche erlaubt.
• BLAST sucht nach Segmentpaare konstanter Länge, die verlängert
werden bis zu einem Schwellenwert der Ähnlichkeit der
Sequenzen.
• BLAST wird sowohl für Proteinsequenzen als auch für DNA
Sequenzen eingesetzt.
BLAST – Suchmechanismus Vereinfacht
Aminosäuren-Wörter eines Proteins wird mit den anderen Protein verglichen.
Die Ähnlichkeiten werden bewertet, so dass Proteine mit ähnlicher Sequenz
zum gesuchten Protein eine höhere Wertung bekommen.
Am Ende werden die Proteine nach deren
Benotungen sortiert. Die ähnlichsten
Sequenzen werden somit schnell gefunden.
Die Wörterlänge wird vergrößert
bis zu einem Schwellenwert.
Der ähnliche Bereich wird benotet
http://en.wikipedia.org/wiki/BLAST
BLAST
Im Internet sind verschiedene BLAST-Algorithmen zu finden.
Eine Auflistung der BLAST Suchmaschinen findet man bei ExPASy
und NCBI. Hier sind die Tools bei NCBI angegeben:
Protein BLAST
blastp, bl2seq, psi-blast, phi-blast
Nukleotid BLAST
blastn, megablast, discontinuous megablast
blastx – Nukleotidsequenz wird in alle 6 Leserahmen zur Suche
von Proteinen verwendet.
tblastn – Proteinsequenz wird in alle 6 Leserahmen übersetzt
und bei Nukleotiddatenbanken verwendet.
tblastx – Abfrage- und Datenbanksequenz werden in alle 6
Leserahmen übersetzt.
Spezifische Protein BLAST Algorithmen
• blastp
– Protein-Protein BLAST.
– Vergleicht die Abfragesequenz mit Proteinsequenzen in den
Zieldatenbanken.
• bl2seq
– Führt ein lokales Alignment von zwei Sequenzen durch.
• Pattern Hit Initiated BLAST (PHI-BLAST)
– Sucht mit einen Sequenzmotiv nach Proteinen mit ähnlichen Motiven.
Spezifische Protein BLAST Algorithmen
• Position Specific Iterated BLAST (PSI-BLAST)
– Mischung aus paarweise und multiplen Alignment.
– Nach eine Runde blastp wird die Position-Specific Scoring Matrix
(PSSM) gebildet. Die PSSM beinhaltet die Information vom Alignment
des ersten BLASTs.
– Die PSSM wird für eine weitere Runde BLAST verwendet und
aktualisiert, bis dass keine neue Proteine gefunden werden.
– Der PSI-BLAST wird verwendet um entfernte Verwandte eines Proteins
zu bestimmen.
• Hidden Markov Modelle (HMMs)
– Sensitiveres Modell als PSI-BLAST, ist aber Rechenintensiver.
– Stochastisches Modell, welches durch zwei zufällige Prozesse
beschrieben wird.
Spezifische Protein BLAST Algorithmen
Achtung bei der Auswertung von
PSI-BLAST und HMM Ergebnisse!
Da auch nicht verwandte Sequenzen durch diese
Algorithmen in Betrachtung gebracht werden
können, muss man auf die Interpretation der
Daten sehr achtgeben.
Spezifische DNA BLAST Algorithmen
• blastn
 Verwende es um ähnliche DNA Sequenzen zu finden.
 Mindestens 20 Nukleotide für die Anfragesequenz.
• megablast
 Verwende es um sehr ähnliche DNA Sequenzen zu finden.
 Mindestens 28 Nukleotide für die Anfragesequenz.
• discontinuous megablast
 Verwende es um nicht so ähnliche DNA Sequenzen zu finden.
 Mindestens 28 Nukleotide für die Anfragesequenz.
Weitere spezifische BLAST Algorithmen
Hier sind Spezifische BLAST Möglichkeiten von NCBI kurz erklärt.
Primer-BLAST
Zur Erstellung von spezifischen Primer für eine PCR, vor alledem
wenn man eine genomische PCR plant. Die Primer werden gegen der
gesamten Sequenz getestet, wodurch Nebenprodukte minimiert werden.
VecScreen
Findet Vektor Kontamination in eine Sequenz. Die Abfragesequenz
wird gegen eine Vektordatenbank getestet.
Conserved Domains
Suche nach konservierte Domäne innerhalb der Abfragesequenz.
WU-BLAST
An der Washington University angesiedelt, dieser BLAST Algorithmus ist ein
Abkömling von NCBI BLAST. Experten sagen, dass WU-BLAST besser mit Gaps
arbeiten kann als andere BLAST Algorithmen.
BLAST – Ergebnis bei NCBI
Erst werden die Sequenzen farblich
codiert präsentiert:
lila bedeutet eine gute SequenzÄhnlichkeit, schwarz nur geringe
Sequenzübereinstimmung.
Weiter unten auf der ErgebnisSeite werden die Daten etwas
präziser angegeben, wobei Score
die Güte der Sequenz-Ähnlichkeit
angibt. Unter 50 ist sehr
unzuverlässig. Expectation-value
zeigt ob das Ergebnis auch zufällig
sein könnte: über 0,0001 befindet
man sich in der twilight zone.
Wenn man weiter herunter scrollt,
findet man eine Gegenüberstellung
der gesuchten Sequenz und der
gefundenen Proteine.
Hinweis auf verschiedene BLAST
• Man soll verschiedene BLAST
Server kennen aus den folgenden
Gründen:
1. Manchmal ist ein Server überlastet oder nicht
erreichbar.
2. Verschiedene BLAST Server nutzen verschiedene
Datenbanken. Dies kann zu leicht unterschiedliche
Ergebnisse führen. Dies ist ein Problem mit dem
man Leben lernen muss.
Dot plot
Start mit Dot plot
• Dot plot wird verwendet um:
– Wiederholungen zu finden
– Deletionen und Insertionen zu finden
– Ein Sequenzbereich zu extrahieren und ein
Alignement durchzuführen
Wie funktioniert ein dot plot?
• Eine Matrix m:n wird gebaut, wobei m und n
AS oder Nukleotiden der zu vergleichenden
Sequenzen ist.
• Es wird ein Treffer markiert, wenn m(x) = n(x)
ist.
Deletion
Repeat
Die Sequenzen
sind Gleich wenn
sie eine Diagonale
im dot plot bilden.
Die verschiedene dot plot Programme
• Dotlet
– Proteine und DNA mit bis zu 10 000 Bausteine
– www.ch.embnet.org
• Dnadot
– Proteine und DNA mit bis zu 100 000 Bausteine
– http://arbl.cvmbs.colostate.edu/molkit/dnadot/
• Dotter
– Proteine und DNA mit bis zu 100 000 Bausteine
– www.cgr.ki.se/cgr/groups/sonnhammer/Dotter.html
• Dottup
– Komplette Genome, DNA mit >100 000 Nukleotide
– www.emboss.org
Dotlet – eine Einführung
Zwei Bereiche erlauben
über Input die zu
vergleichenden
Sequenzen anzugeben.
Treshold und Ratio
ändern das Aussehen
des Plots.
Tandem Repeats können
als Nebendiagnalen
beim plotten einer
Sequenz mit sich selbst.
CLUSTAL
CLUSTAL
Es sind zwei Versionen von CLUSTAL vorhanden:
• CLUSTALW – Kommandozeile
• CLUSTALX – GUI Version für Windows, Mac und
Unix/Linux
Methode: 3 Schritte
1. Paarweises Alignment.
2. Erstellung eines phylogenetischen Baums.
3. Phylogenetischer Baum dient für multiples
Alignment.
ClustalW2
http://www.ebi.ac.uk/Tools/clustalw2/index.html
Optionen bei ClustalW2
EMAIL – bei zu vielen Daten
(max. 500 Sequenzen oder
10 MB).
Ohne EMAIL Adresse wird die
Suche nach 24h
abgebrochen. Sonst erlaubt
das System bis zu 1ne Woche
Zeit zum Auswerten.
Füge die Sequenzen hier ein
(z.B. im FASTA-Format)
ClustalW2 Ergebnis
Die Ergebnis-Seite wird in fünf Abschnitte
unterteilt:
•
•
•
•
•
Results of search
Scores Table
Alignment
Guide Tree
Phylogram
Results of search
Links zum Download der
Ergebnisse.
Durch klicken auf „Start
Jalview“ startet man eine Java
Applikation, die ein Bearbeiten
der CLUSTAL Ergebnisse leicht
macht.
Erst erklären wir die restlichen
Ergebnisse auf dieser Seite, zu
letzt erklären wir dann Jalview.
Scores Table
Die Score Table zeigt im Text-Format
die Sequenz-Ähnlichkeit. Die Tabelle ist
folgendermaßen zu verstehen:
Jede Sequenz erhält eine
Identifikationsnummer: Seq.
SeqA (1. Spalte) wird mit SeqB (4.
Spalte) verglichen.
Dazu werden in Spalten 2 und 5 jeweils
die Namen der Sequenzen angegeben.
Auch die Längen der Sequenzen
werden bei Spalten 3 und 6 angezeigt.
Spalte 7 gibt eine Note für die
Ähnlichkeit der Sequenzen. Je höher,
desto ähnlicher sind die Sequenzen.
Alignment
Beim Alignment werden die
Sequenzen so orientiert,
dass übereinander liegende
Aminosäuren die höchste
Ähnlichkeit aufweisen.
Eine zusätzliche Funktion ist
das Färben der Sequenzen.
Erkennen von sauren,
basischen, aliphatischen und
kleinen Aminosäuren ist
somit vereinfacht.
Guide Tree
Die Sequenzen dienen zur Erzeugung des
Guide Trees. Der Guide Tree ist die Basis
für die Erstellung des Phylograms.
Ein Cladogram (von Verästelung) zeigt
ähnliche Proteine in einem Ast-Diagramm.
Phylogram
Ein Phylogram hat Ähnlichkeiten mit dem Cladogram. Der Unterschied
ist, dass die Ast-Länge im Phylogram der Zeit oder dem SequenzUnterschied entspricht (im Cladogram hat sie keine Bedeutung).
Das Phylogram gibt Auskunft über die Mutationsprozesse zwischen
den Sequenzen (je länger der Ast, desto mehr Unterschiede zwischen
den Sequenzen liegen vor).
Jalview
Jalview ist ein Tool für multiple Alignments in
Java. Es wird von vielen Internet-Seiten
verwendet, wie EBIs ClustalW-Server.
Jalview wird von der University of Dundee
programmiert und kann dort frei
heruntergeladen werden.
Jalview - Überblick
Die Funktionen von Jalview sind:
• Öffnen
– Öffnet u.a. FASTA- und Clustal-Formate.
• Editieren
– Gaps können eingefügt oder entfernt werden.
• Analyse
– Alignment über Clustal.
– AS-Konservierung und Angabe der Konsensus-Sequenz.
• Formatierung
– Färbung der Sequenz.
– Angabe von Sequenzeigenschaften, z.B. Domänen.
• Ausgabe
– Ausdrucken.
– Speicherung in XML.
– Export als HTML, PNG und EPS.
Jalview – Einschränkungen
• Zwar kann Jalview auch DNA und RNA
Alignments lesen und bearbeiten, versteht
diese aber als Aminosäuren und nicht als
Basen!
• Jalview wird weiter entwickelt. Eine neue
Version soll dies beheben.
Alignment bei Jalview
• Sequenz-Alignment wird oben dargestellt. Farbkodierung für die
verschiedenen AS.
• Unten werden Konservierung, Qualität und Konsensus angegeben.
Jalview Rechts-Klick-Menu
Rechts-Klick öffnet Kontext-Menü.
• Auf Protein-Name: Link z.B. zur PDB-Struktur (öffnet neues Fenster mit Jmol).
• Durch markieren einer Sequenz und rechts-Klick, kann man diese verstecken oder
Eigenschaften eingeben.
• Kopieren der Konsensus-Sequenz auch durch rechts-Klick möglich.
VAST und Cn3D
• Beide Programme werden von NCBI
bereitgestellt.
• VAST ist eine Struktursuchmaschine – Sie
sucht nach Koordinaten die ähnlich zu der in
deiner PDB Datei sind!
• Cn3D kann die VAST Alignments direkt
importieren und bearbeiten.
VAST
Vector Alignment Search Tool
VAST
http://www.ncbi.nlm.nih.gov/Structure/VAST/va
stsearch.html
Suche starten durch Upload
einer PDB-Datei.
Jede Suche erhält eine ID.
Man kann die Ergebnisse
der Suche durch diese ID
später wieder aufrufen. Hier
eintragen:
z.B. 711457003561123647
VAST - Suchvorgang
• Erst wird die PDB Datei hochgeladen.
• Bevor die Suche startet, besteht die
Möglichkeit evtl. selbst erstellte PDB-Dateien
visuell mit Cn3D zu verifizieren.
• Danach durch klicken auf „Start“ den
Suchvorgang starten.
• Die neue Seite gibt an, wie lange die Suche
dauern soll.
VAST Ergebnis
VAST-Alignment zeigt das Ergebnis in Form einer Sequenz-Ähnlichkeit. Rote Balken
geben Sequenz-Identität an.
Man selektiert gewünschte Proteine und kann das Alignment mit Cn3D betrachten.
VAST Algorithmus
• VAST verwendet die Definition der “Einheit” tertiäre
Strukturähnlichkeit wie ein Paar von sekundäre
Strukturelemente (SSE). SSE sind ähnlich gebaut, haben ähnliche
Orientierung und Verbindung bezüglich den Rest des Moleküls.
• Diese SSE werden bewertet nach ihre Ähnlichkeit und die
Proteine, die die besten Bewertungen bekommen, haben die
ähnlichsten SSE. Somit werden auch die ähnlichsten 3D
Strukturen gefunden.
• Um dies zu verifizieren wird ein Wert berechnet, der angibt wie
wahrscheinlich es ist, dass durch Zufall die gefundenen SSE in
der Orientierung und Verknüpfung zu finden sind.
Cn3D
Cn3D
Cn3D ist für Windows, Mac und Linux verfügbar.
• Alignment und Struktur können angezeigt und
bearbeitet werden.
• Auffinden interessanter AS in verschiedenen
Strukturen ist leicht durchführbar.
• Dazu kann man das Struktur-Alignment in
einer Datei speichern.
Visualisierung mit Cn3D
Das Farbschema kann jederzeit
geändert werden. Hier werden in rot
identische AS und in blau
unterschiedliche AS dargestellt.
In gelb wird die im Sequence-Viewer
markierte Sequenz angezeigt.
Auch die Sequenz verwendet das
Farbschema, sodass man schnell
sehen kann, welche AS in allen
Sequenzen übereinstimmen.
Sequenz und Struktur interaktiv
• View  Find Pattern
– Schreibe die Sequenz, die dich interessiert.
• CN3D wird diese Sequenz finden und gelb
markieren, sowohl in der Sequenz als auch im
3D Modell.
• Alternativ, markiere AS mit der Maus in der
Sequenz um diese gelb im 3D Modell
anzuzeigen.
Literatur
• Selzer, M., Paul et.al. Angewandte
Bioinformatik: Eine Einführung. New York:
McGraw-Hill, 2003.
• Claverie, Jean-Michel and Cedric Notredame.
Bioinformatics for Dummies. New York: Simon
& Schuster, 2007.
• Manuals der vorgezeigten Tools.