Proteine - BioKemika
Transcription
Proteine - BioKemika
Folien und Supplementals auf www.BioKemika.de Folien und Supplementals auf www.BioKemika.de Gliederung Nützliche Tools • Three-/one-letter Amino Acids' Сodes • RandSeq – Random Protein Sequence Generator • Protein Colourer Protein-Vorhersagen Kurze Themen • ProtParam – Vorhersage chemischer und physikalischer Eigenschaften anhand der primär Sequenz • PeptideCutter – Vorhersage von Hydrolyse Stellen • ProtScale und TMHMM Server 2.0 – Vorhersage von Transmembran Helix Gliederung Protein-Vorhersagen Ausführlich behandelt • BLAST – Um Ähnliche Proteine durch eine Sequenz zu suchen. • Dot plot und Alignments – Um zwei Sequenzen zu vergleichen. • CLUSTALW – Um multiple Sequenz zu vergleichen. • Jalview – Um Sequence Alignments aus Clustal zu bearbeiten. • VAST – Proteinsuche anhand der Struktur. Sucht nach ähnliche PDBs • Cn3D – Anzeige von VAST Ergebnisse und Bearbeitung der Daten. Three- one-letter Amino Acids' Сodes Three-/one-letter Amino Acids' Сodes http://molbiol.ru/eng/scripts/01_17.html On-Line Tool um Aminosäurensequenzen zwischen den 1 Buchstabencode und 3 Buchstabencode zu umwandeln. Bennenung der Sequenz Sequenz Wie viele AS in eine Reihe Großbuchstaben für 1 Letter Code RandSeq – Random Protein Sequence Generator RandSeq – Random Protein Sequence Generator http://www.expasy.ch/tools/randseq.html 20 bis 9999 AS lang Vier Möglichkeiten um die Sequenz zu produzieren: • Gleiche Wahrscheinlichkeit für alle AS • Komposition ähnlich zu bekannten Protein (Gut als Vergleich) • Wahrscheinlichkeit für Vorkommen einer AS wie in der Natur • Definierte Wahrscheinlichkeitsverteilung zwischen einzelnen AS. Protein Colourer Protein Colourer http://www.ebi.ac.uk/cgi-bin/proteincol/ProteinColourer.pl Tool um den Text einer Proteinsequenz farblich zu markieren. Vier Farben sind vorhanden: • Blau • Rot • Grün • Gelb Sequenz wird in FASTA Format hier eingetragen Colour portein: Neue Seite mit Ergebnis wird aufgerufen. Überblick behalten Nützliche Tools • • • Three-/one-letter Amino Acids' Сodes RandSeq – Random Protein Sequence Generator Protein Colourer Kurze Themen • • • ProtParam – Vorhersage chemischer und physikalischer Eigenschaften anhand der primär Sequenz PeptideCutter – Vorhersage von Hydrolyse Stellen ProtScale und TMHMM Server 2.0 – Vorhersage von Transmembran Helix Ausführlich behandelt • • • • • BLAST – Um Ähnliche Proteine durch eine Sequenz zu suchen. CLUSTALW – Um Sequenz Alignments aus BLAST erstellen. Jalview – Um Sequenz Alignments aus Clustal zu bearbeiten. VAST – Proteinsuche anhand der Struktur. Sucht nach ähnliche PDBs Cn3D – Anzeige von VAST Ergebnisse und Bearbeitung der Daten. ProtParam ProtParam http://www.expasy.ch/tools/protparam.html ProtParam berechnet verschiedene Informationen anhand der Primärstruktur: • Molekulargewicht • Theoretisches pI • AS Komposition • Atomkomposition • Extinktionskoefficient • Halbwertszeit Gebe eine Swiss-Prot/TrEMBL AC oder ID hier ein Oder die 1 Letter Code Sequenz hier. Compute parameters führt zu eine neue Seite mit den gewünschten Ergebnis in Text Form. Worauf muss man bei ProtParam achten? • Molekularen Gewicht – Berücksichtigt keine post-translationale Modifikationen wie Glykosilierungen und Phosphorilierungen. – Berücksichtigt keine Abspaltung von leader Sequenzen. – Die Berechnung wird immer nur für ein Monomer durchgeführt. • Extinktionskoeffizient – Betrachtet jede AS als einzeln und unabhängig. In der Proteinumgebung wirken aber andere Bedingungen, wodurch das Extinktionskoeffizient sehr vom angegebenen Wert abweichen kann. Worauf muss man bei ProtParam achten? • Instabilität – Dies ist nur eine grobe Einschätzung. Erfahrungsgemäß ist ein Protein dann stabil, wenn dieser Wert unter 40 liegt. • Halbwertszeit – Die Angabe ist für drei verschiedene Organismen, man kann aber mit große Sicherheit auf ähnliche Organismen übertragen. – Dieser Wert ist bedeutungslos falls dein Protein durch Regulation normalerweise degradiert wird. PeptideCutter PeptideCutter http://www.expasy.ch/tools/peptidecutter/ PeptideCutter macht eine Vorhersage über proteolitische Schnittstellen in der gegebenen Sequenz. Eingabe: Die Sequenz kann in Plain-Format eingegeben werden. Außerdem können AC- und IDNummern verwendet werden. Du kannst entweder alle Proteasen und Chemikalien zur Berechnung verwenden (default) oder nur die, die dich interessieren. Dafür musst du die dich interessierenden Chemikalien oder Proteasen markieren. PeptideCutter - Ergebnisse Ausgabe: Erst wird eine Auflistung der verwendeten Enzyme und Chemikalien dargestellt. Dann folgt eine Auflistung der gefundenen Schnittstellen. Am Ende der Seite befindet sich ein Graph. Die Enzyme oder Chemikalien werden hier mit ihren Schnittstellen gezeigt. Auswahl einer dieser Agenzien führt zu einer Seite, wo alle Schnittstellen für das betreffende Agenz in der gewählten Sequenz angezeigt werden. Suche nach Transmembransegmente: ProtScale und TMHMM Server 2.0 Unterschiede beider Programme: ProtScale • Sehr simples Programm. • Gibt die Hydrophobizität der Aminosäuren an. • Keine Vorhersage, muss alles vom Benutzer ausgewertet werden. TMHMM • State-of-the-Art, sehr komplexes Modell. • Vorhersage von Transmembransegmente. • Vorhersage der Anordnung in der Zelle. ProtScale www.expasy.org/cgi-bin/protscale.pl Protein Sequenz in FASTA Format hochladen oder die UniProt AC oder ID eingeben. Wähle die Methode zur Berechnung. Wähle eine Fenstergröße. Submit startet die Berechnung. ProtScale www.expasy.org/cgi-bin/protscale.pl Protein Sequenz in FASTA Format hochladen oder die UniProt AC oder ID eingeben. ProtScale kann viele Graphen anhand der gegebene Sequenz berechnen. Die meisten Algorithmen sind zur Analyse von Hydrophobizität, aber auch Alpha Helix und Beta Sheets können hiermit vorhergesagt werden. Wähle die Methode zur Berechnung. Die Fenstergröße bestimmt welche Anzahl von Aminosäuren im ausgewählten Algorithmus jeweils in eine Berechnung in Betrachtung genommen werden. Wähle eine Fenstergröße. Für die Vorhersage von Transmembransegmente ist das Algorithmus Hphob. /Kyte & Doolittle mit eine Fenstergröße von 19 AS zu empfehlen. Submit startet die Berechnung. Interpretieren der Daten Beispiel wurde mit der ID P78588 durchgeführt, Hphob. / Kyte & Doolittle und Fenstergröße von 19 AS. Um die Daten zu interpretieren, lässt man ein Blatt die gesamte Peaks verdecken und bringt diesen langsam runter, solange man noch scharfe Peaks sehen kann. Diese sind mit großer Wahrscheinlichkeit Transmembrandomänen. Interpretieren der Daten Beispiel wurde mit der ID P78588 durchgeführt, Hphob. / Kyte & Doolittle und Fenstergröße von 19 AS. Um die Daten zu interpretieren, lässt man ein Blatt die gesamte Peaks verdecken und bringt diesen langsam runter, solange man noch scharfe Peaks sehen kann. Diese sind mit großer Wahrscheinlichkeit Transmembrandomänen. Interpretieren der Daten Beispiel wurde mit der ID P78588 durchgeführt, Hphob. / Kyte & Doolittle und Fenstergröße von 19 AS. Eindeutig Nicht eindeutig Um die Daten zu interpretieren, lässt man ein Blatt die gesamte Peaks verdecken und bringt diesen langsam runter, solange man noch scharfe Peaks sehen kann. Diese sind mit großer Wahrscheinlichkeit Transmembrandomänen. TMHMM Server 2.0 http://www.cbs.dtu.dk/services/TMHMM-2.0/ Protein Sequenz in FASTA Format hochladen oder die Sequenz eingeben. Auswahl der Ausgabe, bei viele Sequenzen die graphische Darstellung ausschalten. Submit klicken um die Berechnung zu starten Ergebnisse der TMHMM Suche Die Suche kann einige Sekunden dauern. Die Ausgabe der Ergebnisse startet mit ein Text, wo die wahrscheinlichsten Positionen zu Transmembran Helices zu finden sind. Bei Benutzung der graphische Ausgabe wird ein Graph geplottet. Dieser zeigt wo in der Sequenz mögliche Transmembran Helices zu finden sind. Außerdem wird angegeben, ob Teil der Sequenz Intra- oder Extrazellulär zu finden ist. Es besteht die Möglichkeit, die Daten zur Erstellung des Graphs über die Links zu bekommen. Überblick behalten Nützliche Tools • • • Three-/one-letter Amino Acids' Сodes RandSeq – Random Protein Sequence Generator Protein Colourer Kurze Themen • • • ProtParam – Vorhersage chemischer und physikalischer Eigenschaften anhand der primär Sequenz PeptideCutter – Vorhersage von Hydrolyse Stellen ProtScale TMHMM Server 2.0 – Vorhersage von Transmembran Helix Ausführlich behandelt • • • • • BLAST – Um Ähnliche Proteine durch eine Sequenz zu suchen. CLUSTALW – Um Sequenz Alignments aus BLAST erstellen. Jalview – Um Sequenz Alignments aus Clustal zu bearbeiten. VAST – Proteinsuche anhand der Struktur. Sucht nach ähnliche PDBs Cn3D – Anzeige von VAST Ergebnisse und Bearbeitung der Daten. Sequenzbasierte Datenbanksuchen und Sequenzvergleiche Wie funktioniert ein Sequenzvergleich • Identische Sequenzen • Match und Mismatch G A C C G C A T C T G A C C G C A T C T G A C G A C A A C T G A C C G C A T C T G A C - G C A T C T G A C C G C A T C T M A C G L M P T K K M A C G L V T R K • Insertion und Deletion • Konservative Austausche – Bei Proteine (sehr, bzw semi-Konservativ) P Beide Alignment Möglichkeiten • Globales Alignment – Hier wird die gesamte Sequenz zum Alignment verwendet. – Liefert die beste Alignments, ist aber sehr Rechenintensiv. – Identifiziert Insertionen sowie Mutationen. • Lokales Alignment – Nur ein Teil der Sequenz wird für den Alignment verwendet. – Benötigt weniger Rechenzeit als beim globalen Alignment. – Analyse Residuum nach Residuum sowie hoch qualitative Alignments. • Gaps – Wenn Gaps akzeptiert werden, dann können Bereiche einer Sequenz nicht in der zu vergleichende Sequenz vorkommen. – Ältere Programme akzeptierten keine Gaps. Begriffserklärung Bevor wir uns mit BLAST und CLUSTALW beschäftigen, wollen wir ein paar Begriffe definieren: Ähnlichkeit (similarity) Bedeutet, dass man ein Modell hat, der die Ähnlichkeit der Aminosäuren definiert und somit die Sequenzen vergleichen kann. Homologie (homology) Betrachteten Sequenzen haben eine gemeinsame Entwicklungsgeschichte, somit auch eine gemeinsame Vorläufersequenz. Identität (identity) Angabe über die identische Aminosäurensequenz. Begriffserklärung Wann können wir über Homologie sprechen? Für Sequenzen mit mehr als 100 AS oder Nukleotide gilt Homologie wenn: Proteinsequenzen – 25% der AS identisch sind. DNA Sequenzen – 70% der Nucleotide identisch sind. Darunter befinden wir uns in der twilight zone – keiner kann genau sagen ob Homologie besteht. Vergiss nicht, dass manche Proteine mit eine AS Übereinstimmung von weniger als 15% trotzdem die gleiche 3D Struktur aufweisen. Homolog oder nicht Homolog – diese Frage kann durch Sequenzvergleich nie sicher beantwortet werden. BLAST vs. CLUSTAL • BLAST wird verwendet um eine Homologie Suche durchzuführen. Die Ausgabe der Daten zeigt die Ähnlichkeit der gefundenen Sequenzen zu der angegebenen Sequenz. • CLUSTAL dient zum Alignment verschiedener Sequenzen. Es ist keine Suchfunktion vorhanden. Aber die Ausgabe der Daten ermöglicht Rückschlüsse, die alleine durch BLAST nicht möglich sind. BLAST Basic Local Alignment Search Tool (Altschul et al. 1990) Vorgänger von BLAST? Andere Suchalgorithmen: • Needleman-Wunsch-Algorithmus (Needleman u. Wunsch 1970) – Globales Alignment, erst ohne Gaps • Smith-Walterman-Algorithmus (Smith u. Walterman 1981) – Lokales Alignment, erst ohne Gaps • FastA (Pearson u. Lipman 1988) – Lokales Alignment, identifiziert kurze Wortbereiche, erlaubt Gaps Diese sind aber in den aktuellen Rechner nicht in sinnvollen Zeiträumen zu bewerkstelligen. BLAST ist ein Kompromiss zwischen Ergebnis und Rechenzeit. BLAST Allgemein Was macht BLAST allgemein? • BLAST ist eine heuristische Methode, was bedeutet dass BLAST Abschätzungen verwendet um annähernd genaue Ergebnisse zu bekommen. Gaps sind bei der Suche erlaubt. • BLAST sucht nach Segmentpaare konstanter Länge, die verlängert werden bis zu einem Schwellenwert der Ähnlichkeit der Sequenzen. • BLAST wird sowohl für Proteinsequenzen als auch für DNA Sequenzen eingesetzt. BLAST – Suchmechanismus Vereinfacht Aminosäuren-Wörter eines Proteins wird mit den anderen Protein verglichen. Die Ähnlichkeiten werden bewertet, so dass Proteine mit ähnlicher Sequenz zum gesuchten Protein eine höhere Wertung bekommen. Am Ende werden die Proteine nach deren Benotungen sortiert. Die ähnlichsten Sequenzen werden somit schnell gefunden. Die Wörterlänge wird vergrößert bis zu einem Schwellenwert. Der ähnliche Bereich wird benotet http://en.wikipedia.org/wiki/BLAST BLAST Im Internet sind verschiedene BLAST-Algorithmen zu finden. Eine Auflistung der BLAST Suchmaschinen findet man bei ExPASy und NCBI. Hier sind die Tools bei NCBI angegeben: Protein BLAST blastp, bl2seq, psi-blast, phi-blast Nukleotid BLAST blastn, megablast, discontinuous megablast blastx – Nukleotidsequenz wird in alle 6 Leserahmen zur Suche von Proteinen verwendet. tblastn – Proteinsequenz wird in alle 6 Leserahmen übersetzt und bei Nukleotiddatenbanken verwendet. tblastx – Abfrage- und Datenbanksequenz werden in alle 6 Leserahmen übersetzt. Spezifische Protein BLAST Algorithmen • blastp – Protein-Protein BLAST. – Vergleicht die Abfragesequenz mit Proteinsequenzen in den Zieldatenbanken. • bl2seq – Führt ein lokales Alignment von zwei Sequenzen durch. • Pattern Hit Initiated BLAST (PHI-BLAST) – Sucht mit einen Sequenzmotiv nach Proteinen mit ähnlichen Motiven. Spezifische Protein BLAST Algorithmen • Position Specific Iterated BLAST (PSI-BLAST) – Mischung aus paarweise und multiplen Alignment. – Nach eine Runde blastp wird die Position-Specific Scoring Matrix (PSSM) gebildet. Die PSSM beinhaltet die Information vom Alignment des ersten BLASTs. – Die PSSM wird für eine weitere Runde BLAST verwendet und aktualisiert, bis dass keine neue Proteine gefunden werden. – Der PSI-BLAST wird verwendet um entfernte Verwandte eines Proteins zu bestimmen. • Hidden Markov Modelle (HMMs) – Sensitiveres Modell als PSI-BLAST, ist aber Rechenintensiver. – Stochastisches Modell, welches durch zwei zufällige Prozesse beschrieben wird. Spezifische Protein BLAST Algorithmen Achtung bei der Auswertung von PSI-BLAST und HMM Ergebnisse! Da auch nicht verwandte Sequenzen durch diese Algorithmen in Betrachtung gebracht werden können, muss man auf die Interpretation der Daten sehr achtgeben. Spezifische DNA BLAST Algorithmen • blastn Verwende es um ähnliche DNA Sequenzen zu finden. Mindestens 20 Nukleotide für die Anfragesequenz. • megablast Verwende es um sehr ähnliche DNA Sequenzen zu finden. Mindestens 28 Nukleotide für die Anfragesequenz. • discontinuous megablast Verwende es um nicht so ähnliche DNA Sequenzen zu finden. Mindestens 28 Nukleotide für die Anfragesequenz. Weitere spezifische BLAST Algorithmen Hier sind Spezifische BLAST Möglichkeiten von NCBI kurz erklärt. Primer-BLAST Zur Erstellung von spezifischen Primer für eine PCR, vor alledem wenn man eine genomische PCR plant. Die Primer werden gegen der gesamten Sequenz getestet, wodurch Nebenprodukte minimiert werden. VecScreen Findet Vektor Kontamination in eine Sequenz. Die Abfragesequenz wird gegen eine Vektordatenbank getestet. Conserved Domains Suche nach konservierte Domäne innerhalb der Abfragesequenz. WU-BLAST An der Washington University angesiedelt, dieser BLAST Algorithmus ist ein Abkömling von NCBI BLAST. Experten sagen, dass WU-BLAST besser mit Gaps arbeiten kann als andere BLAST Algorithmen. BLAST – Ergebnis bei NCBI Erst werden die Sequenzen farblich codiert präsentiert: lila bedeutet eine gute SequenzÄhnlichkeit, schwarz nur geringe Sequenzübereinstimmung. Weiter unten auf der ErgebnisSeite werden die Daten etwas präziser angegeben, wobei Score die Güte der Sequenz-Ähnlichkeit angibt. Unter 50 ist sehr unzuverlässig. Expectation-value zeigt ob das Ergebnis auch zufällig sein könnte: über 0,0001 befindet man sich in der twilight zone. Wenn man weiter herunter scrollt, findet man eine Gegenüberstellung der gesuchten Sequenz und der gefundenen Proteine. Hinweis auf verschiedene BLAST • Man soll verschiedene BLAST Server kennen aus den folgenden Gründen: 1. Manchmal ist ein Server überlastet oder nicht erreichbar. 2. Verschiedene BLAST Server nutzen verschiedene Datenbanken. Dies kann zu leicht unterschiedliche Ergebnisse führen. Dies ist ein Problem mit dem man Leben lernen muss. Dot plot Start mit Dot plot • Dot plot wird verwendet um: – Wiederholungen zu finden – Deletionen und Insertionen zu finden – Ein Sequenzbereich zu extrahieren und ein Alignement durchzuführen Wie funktioniert ein dot plot? • Eine Matrix m:n wird gebaut, wobei m und n AS oder Nukleotiden der zu vergleichenden Sequenzen ist. • Es wird ein Treffer markiert, wenn m(x) = n(x) ist. Deletion Repeat Die Sequenzen sind Gleich wenn sie eine Diagonale im dot plot bilden. Die verschiedene dot plot Programme • Dotlet – Proteine und DNA mit bis zu 10 000 Bausteine – www.ch.embnet.org • Dnadot – Proteine und DNA mit bis zu 100 000 Bausteine – http://arbl.cvmbs.colostate.edu/molkit/dnadot/ • Dotter – Proteine und DNA mit bis zu 100 000 Bausteine – www.cgr.ki.se/cgr/groups/sonnhammer/Dotter.html • Dottup – Komplette Genome, DNA mit >100 000 Nukleotide – www.emboss.org Dotlet – eine Einführung Zwei Bereiche erlauben über Input die zu vergleichenden Sequenzen anzugeben. Treshold und Ratio ändern das Aussehen des Plots. Tandem Repeats können als Nebendiagnalen beim plotten einer Sequenz mit sich selbst. CLUSTAL CLUSTAL Es sind zwei Versionen von CLUSTAL vorhanden: • CLUSTALW – Kommandozeile • CLUSTALX – GUI Version für Windows, Mac und Unix/Linux Methode: 3 Schritte 1. Paarweises Alignment. 2. Erstellung eines phylogenetischen Baums. 3. Phylogenetischer Baum dient für multiples Alignment. ClustalW2 http://www.ebi.ac.uk/Tools/clustalw2/index.html Optionen bei ClustalW2 EMAIL – bei zu vielen Daten (max. 500 Sequenzen oder 10 MB). Ohne EMAIL Adresse wird die Suche nach 24h abgebrochen. Sonst erlaubt das System bis zu 1ne Woche Zeit zum Auswerten. Füge die Sequenzen hier ein (z.B. im FASTA-Format) ClustalW2 Ergebnis Die Ergebnis-Seite wird in fünf Abschnitte unterteilt: • • • • • Results of search Scores Table Alignment Guide Tree Phylogram Results of search Links zum Download der Ergebnisse. Durch klicken auf „Start Jalview“ startet man eine Java Applikation, die ein Bearbeiten der CLUSTAL Ergebnisse leicht macht. Erst erklären wir die restlichen Ergebnisse auf dieser Seite, zu letzt erklären wir dann Jalview. Scores Table Die Score Table zeigt im Text-Format die Sequenz-Ähnlichkeit. Die Tabelle ist folgendermaßen zu verstehen: Jede Sequenz erhält eine Identifikationsnummer: Seq. SeqA (1. Spalte) wird mit SeqB (4. Spalte) verglichen. Dazu werden in Spalten 2 und 5 jeweils die Namen der Sequenzen angegeben. Auch die Längen der Sequenzen werden bei Spalten 3 und 6 angezeigt. Spalte 7 gibt eine Note für die Ähnlichkeit der Sequenzen. Je höher, desto ähnlicher sind die Sequenzen. Alignment Beim Alignment werden die Sequenzen so orientiert, dass übereinander liegende Aminosäuren die höchste Ähnlichkeit aufweisen. Eine zusätzliche Funktion ist das Färben der Sequenzen. Erkennen von sauren, basischen, aliphatischen und kleinen Aminosäuren ist somit vereinfacht. Guide Tree Die Sequenzen dienen zur Erzeugung des Guide Trees. Der Guide Tree ist die Basis für die Erstellung des Phylograms. Ein Cladogram (von Verästelung) zeigt ähnliche Proteine in einem Ast-Diagramm. Phylogram Ein Phylogram hat Ähnlichkeiten mit dem Cladogram. Der Unterschied ist, dass die Ast-Länge im Phylogram der Zeit oder dem SequenzUnterschied entspricht (im Cladogram hat sie keine Bedeutung). Das Phylogram gibt Auskunft über die Mutationsprozesse zwischen den Sequenzen (je länger der Ast, desto mehr Unterschiede zwischen den Sequenzen liegen vor). Jalview Jalview ist ein Tool für multiple Alignments in Java. Es wird von vielen Internet-Seiten verwendet, wie EBIs ClustalW-Server. Jalview wird von der University of Dundee programmiert und kann dort frei heruntergeladen werden. Jalview - Überblick Die Funktionen von Jalview sind: • Öffnen – Öffnet u.a. FASTA- und Clustal-Formate. • Editieren – Gaps können eingefügt oder entfernt werden. • Analyse – Alignment über Clustal. – AS-Konservierung und Angabe der Konsensus-Sequenz. • Formatierung – Färbung der Sequenz. – Angabe von Sequenzeigenschaften, z.B. Domänen. • Ausgabe – Ausdrucken. – Speicherung in XML. – Export als HTML, PNG und EPS. Jalview – Einschränkungen • Zwar kann Jalview auch DNA und RNA Alignments lesen und bearbeiten, versteht diese aber als Aminosäuren und nicht als Basen! • Jalview wird weiter entwickelt. Eine neue Version soll dies beheben. Alignment bei Jalview • Sequenz-Alignment wird oben dargestellt. Farbkodierung für die verschiedenen AS. • Unten werden Konservierung, Qualität und Konsensus angegeben. Jalview Rechts-Klick-Menu Rechts-Klick öffnet Kontext-Menü. • Auf Protein-Name: Link z.B. zur PDB-Struktur (öffnet neues Fenster mit Jmol). • Durch markieren einer Sequenz und rechts-Klick, kann man diese verstecken oder Eigenschaften eingeben. • Kopieren der Konsensus-Sequenz auch durch rechts-Klick möglich. VAST und Cn3D • Beide Programme werden von NCBI bereitgestellt. • VAST ist eine Struktursuchmaschine – Sie sucht nach Koordinaten die ähnlich zu der in deiner PDB Datei sind! • Cn3D kann die VAST Alignments direkt importieren und bearbeiten. VAST Vector Alignment Search Tool VAST http://www.ncbi.nlm.nih.gov/Structure/VAST/va stsearch.html Suche starten durch Upload einer PDB-Datei. Jede Suche erhält eine ID. Man kann die Ergebnisse der Suche durch diese ID später wieder aufrufen. Hier eintragen: z.B. 711457003561123647 VAST - Suchvorgang • Erst wird die PDB Datei hochgeladen. • Bevor die Suche startet, besteht die Möglichkeit evtl. selbst erstellte PDB-Dateien visuell mit Cn3D zu verifizieren. • Danach durch klicken auf „Start“ den Suchvorgang starten. • Die neue Seite gibt an, wie lange die Suche dauern soll. VAST Ergebnis VAST-Alignment zeigt das Ergebnis in Form einer Sequenz-Ähnlichkeit. Rote Balken geben Sequenz-Identität an. Man selektiert gewünschte Proteine und kann das Alignment mit Cn3D betrachten. VAST Algorithmus • VAST verwendet die Definition der “Einheit” tertiäre Strukturähnlichkeit wie ein Paar von sekundäre Strukturelemente (SSE). SSE sind ähnlich gebaut, haben ähnliche Orientierung und Verbindung bezüglich den Rest des Moleküls. • Diese SSE werden bewertet nach ihre Ähnlichkeit und die Proteine, die die besten Bewertungen bekommen, haben die ähnlichsten SSE. Somit werden auch die ähnlichsten 3D Strukturen gefunden. • Um dies zu verifizieren wird ein Wert berechnet, der angibt wie wahrscheinlich es ist, dass durch Zufall die gefundenen SSE in der Orientierung und Verknüpfung zu finden sind. Cn3D Cn3D Cn3D ist für Windows, Mac und Linux verfügbar. • Alignment und Struktur können angezeigt und bearbeitet werden. • Auffinden interessanter AS in verschiedenen Strukturen ist leicht durchführbar. • Dazu kann man das Struktur-Alignment in einer Datei speichern. Visualisierung mit Cn3D Das Farbschema kann jederzeit geändert werden. Hier werden in rot identische AS und in blau unterschiedliche AS dargestellt. In gelb wird die im Sequence-Viewer markierte Sequenz angezeigt. Auch die Sequenz verwendet das Farbschema, sodass man schnell sehen kann, welche AS in allen Sequenzen übereinstimmen. Sequenz und Struktur interaktiv • View Find Pattern – Schreibe die Sequenz, die dich interessiert. • CN3D wird diese Sequenz finden und gelb markieren, sowohl in der Sequenz als auch im 3D Modell. • Alternativ, markiere AS mit der Maus in der Sequenz um diese gelb im 3D Modell anzuzeigen. Literatur • Selzer, M., Paul et.al. Angewandte Bioinformatik: Eine Einführung. New York: McGraw-Hill, 2003. • Claverie, Jean-Michel and Cedric Notredame. Bioinformatics for Dummies. New York: Simon & Schuster, 2007. • Manuals der vorgezeigten Tools.