9. ¨Ubung Vorlesung Bioinformatik f¨ur Lebenswissenschaftler

Transcription

Prof. Dr. Oliver Kohlbacher, Dr. Jens Krüger
Nina Fischer, Charlotta Schärfe
Fachbereich Informatik, Angewandte Bioinformatik (ABI)
Zentrum für Bioinformatik Tübingen
9. Übung
zur
Vorlesung Bioinformatik für Lebenswissenschaftler
Sommersemester 2012
Bitte legen Sie vor der Übung ein Verzeichnis Uebung09 an, in das Sie alle Dateien dieser Übung speichern. Löschen
Sie bitte dieses Verzeichnis bevor Sie gehen, damit die späteren Übungsgruppen einen aufgeräumten Rechner vorfinden. Vielen Dank.
Aufgabe 1 Blast im Internet
Besuchen sie die NCBI Entrez Website unter http://www.ncbi.nlm.nih.gov/entrez und suchen
Sie in er Protein-Datenbank nach der Ihnen schon bekannten Y. pestis Toxin ymt. In dem Datenbankeintrag
gibt es auf der rechten Seite Funktionen zur Sequenzanalyse. Wählen Sie Run BLAST und Sie werden auf die
NCBI blast Seite weitergeleitet. Schauen Sie sich das Interface genau an, übernehmen Sie die Einstellungen
und klicken Sie auf BLAST am Ende der Seite. Auf der Ergebnisseite schauen Sie sich bitte zuerst die oberste
Grafik an, welche die gefundenen konservierten Domänen angibt. In welche Superfamilie lässt sich die Sequenz
einordnen? Untersuchen Sie nun in der folgenden Grafik wie sich die BLAST Hits auf der Query Sequenz
verteilen. Was bedeutet die Farbkodierung und was die Länge der einzelnen Linien? Schauen Sie sich nun die
Liste der Hits an. Achten sie auf die aufsteigende Sortierung nach dem e-value. Was gibt der e-value an und wie
ist die Relation des e-values und des Alignment Scores? Was bedeutet die Coverage? Schauen Sie sich ebenso
das BLAST Alignment der Query Sequenz mit der Sequenz des besten Hits an. Welche Sequenzidentität hat
dieses Alignment?
Aufgabe 2 Vorbereitung der Sequenzdatenbank
Von NCBI können Sie die Sequenzen der auf Chromosom 1 von Arabidopsis thaliana kodierten Proteine als
FASTA-Datei herunterladen. Wählen Sie auf der NCBI-Seite links Genomes & Maps aus und dann die Datenbank Genome. Von da aus können Sie unter Download / FTP zu Arabidopsis thaliana navigieren.
Dort können Sie das gesuchte Chromosom von Arabidopsis thaliana als FASTA-Datei herunterladen. Speichern
Sie das Chromosom als Arabidopsis chr1.fasta im Verzeichnis Uebung09.
Hinweis: Die Datei mit der Endung .faa ist die gesuchte FASTA-Datei.
Damit BLAST die Sequenzen der FASTA-Datei als Datenbank für seine Suche verwenden kann, müssen Indexdateien erzeugt werden. Das erledigt das Programm formatdb für Sie.
Wenn Sie formatdb mit der Option --help aufrufen, so wird eine Liste möglicher Kommandozeilenparameter angezeigt. Die für Sie relevante Option ist -i. Damit können Sie eine Sequenzdatei für die Vorbereitung
angeben. Rufen Sie formatdb für Ihre FASTA-Datei auf. Das Kommando erzeugt keine Ausgabe auf der Konsole, stattdessen werden eine Reihe weiterer Dateien angelegt, die BLAST als Eingabe benötigt. Überzeugen
Sie sich, dass formatdb wirklich etwas getan hat, indem Sie ls verwenden. Zusätzlich schauen Sie sich bitte
auch das erzeugte .log File an.
Aufgabe 3 BLAST-Suche auf dem Arabidopsis-Chromosom
Auf unserer Website finden Sie bei den Übungsblättern eine Datei mit Namen unknown u9 2.fasta, die
eine Proteinsequenz enthält. Für diese Sequenz sollen Sie herausfinden, ob es in A. thaliana auf Chromosom 1
stark homologe Sequenzen gibt. Laden Sie dazu die FASTA-Datei herunter und speichern Sie sie auf Ihrem
Rechner.
Sie können nun eine BLAST-Suche durchführen, indem Sie das Programm blastall verwenden. Wichtige
Kommandozeilenparameter werden Ihnen ebenfalls wieder mit --help angezeigt. Lassen Sie sich durch die
Vielzahl an Parametern nicht verwirren! Relevant f ür Ihr Problem sind in erster Linie die folgenden Parameter:
• -p für die Auswahl des korrekten BLAST-Programms: Sie m öchten eine Proteinsequenz in einer Proteindatenbank suchen!
• -d für die Auswahl der Datenbank auf der Sie suchen möchten. Hier genügt der Name Ihrer FASTA-Datei.
• -e für die Angabe eines geeigneten E-Werts. Alignments mit schlechteren E-Werten als der angegebene
Wert werden dann nicht mehr mit ausgegeben.
• -i für die Angabe der Sequenz nach der Sie suchen.
• -o für die Datei, in die die Ausgabe von BLAST geschrieben werden soll.
Führen Sie nun BLAST mit geeigneten Parametern aus und versuchen Sie das Ergebnis in der Ausgabedatei
nachzuvollziehen. Um was für ein Protein handelt es sich bei dem unbekannten Protein mit sehr großer Wahrscheinlichkeit?
Hinweis: Schauen Sie für die Wahl der korrekten Proteindatenbank (BLAST-Programm), die Sie für BLAST
benötigen, noch einmal in die Folien der letzten Vorlesung.
Aufgabe 4 Suche nach Nukleotidsequenzen
Die funktionelle Annotation des Reisgenoms ist noch nicht so weit fortgeschritten wie die des ArabidopsisGenoms. Die Datei unknown u9 3.fasta von der Webseite der Vorlesung enthält die DNA-Sequenz eines
Gens aus dem Reisgenom. Laden Sie die FASTA-Datei herunter und versuchen Sie dem Gen eine Funktion
zuzuordnen, indem Sie mit BLAST eine homologe Sequenz auf Chromosom 1 von A. thaliana suchen.
Hinweis: Achten Sie darauf, dass Sie das richtige BLAST-Programm verwenden.
Aufgabe 5 BLAST und BioPython
BioPython erlaubt es Ihnen, viele der Arbeitsschritte, die Sie in den vorhergehenden Aufgaben von Hand ausgeführt haben, insbesondere die Analyse der Ergebnisse, zu automatisieren. Das Python-Programm
annotate.py, das Sie von der Webseite der Vorlesung herunterladen k önnen, versucht dies zu veranschaulichen.
Wenn Sie diesem Programm auf der Kommandozeile eine FASTA-Datei mitgeben, so ruft es BLAST (blastp)
für die Datei auf und stellt fest, ob es Sequenzen gibt, die sehr stark homolog zur Anfragesequenz sind. Ist der
E-Wert für die beste gefundene Sequenz kleiner als 10−10 , so wird die Beschreibung der Sequenz ausgegeben.
Versuchen Sie die Funktionsweise des Programms nachzuvollziehen.
Verwenden Sie dazu die Dateien unknown u9 2.fasta und unknown u9 4.fasta.
Modifizieren Sie anschließend das Programm so, dass es auch für weniger stark homologe Sequenzen
(z.B. E-Wert < 10−5 ) eine Annotation ausgibt, den Benutzer allerdings warnt, dass diese Annotation unzuverlässiger ist, und zur Überprüfung das Alignment der beiden Sequenzen mit ausgibt. Die benötigten Informationen zur Benutzung des BLAST-Parsers in BioPython finden Sie auf
http://www.biopython.org/DIST/docs/api/Bio.Blast-module.html
unter Record/HSP und das dazugehörige Tutorial unter
http://biopython.org/DIST/docs/tutorial/Tutorial.html.
Bitte löschen Sie die von Ihnen angelegten oder heruntergeladenen Dateien bevor Sie gehen. Danke.
Bitte vergessen Sie Ihre Unterschrift nicht.
2

9. ¨Ubung Vorlesung Bioinformatik f¨ur Lebenswissenschaftler

Transcription

Similar documents

Handbuch EasyPS2000 - EA

blast

Proteine - BioKemika

Blatt 9

Bioinformatik für Biochemiker

Vorlesung: Theoretische Physik I

Verteilung der Studenten/innen auf die ¨Ubungsgruppen

Serie 2

47 - Medi

Jobmesse - BioContact eV

Kapitel 1 - Technische Fakultät

Die homologe Reihe der Alkanole