Side 1 af 13 Eksamen: Bioinformatik – It og Sundhed 27 Jan

Transcription

Side 1 af 13 Eksamen: Bioinformatik – It og Sundhed 27 Jan
Side
1
af
13
Eksamen: Bioinformatik – It og Sundhed
27 Jan 2011 kl 9-13
Navn:
Studie nummer:
Dette eksamenssæt vil også kunne ses som en pdf fil nederst på kursus-hjemmesiden
udfor den sidste dag d. 27 Jan (Navn: Eksamen_27-1-2011.pdf)
Kursus-hjemmeside:
http://www.cbs.dtu.dk/courses/bioinformatics_it_and_health/2010/programme.php
Eksamenssættet består af 6 hoved-emner 1 – 6 og til hvert emne er der en række
spørgsmål som du skal svare på. Ialt er der 13 sider, hvoraf de to sidste er Appendix 1
og 2.
Spørgsmålene du skal svare på står med kursiv
Hvis du ikke har tilstrækkelig plads på disse sider så svar på et andet stykke papir,
men husk at gengive hvilket spørgsmål du svarer på ved at skrive 1b hvis du svarer på
spørgsmål b i opgave 1.
Læs opgaverne omhyggeligt inden du begynder.
Emner (bedømmelses-vægt i procent)
Opgave 1: DNA og RNA (15%)
Opgave 2: Aminosyrer (20%)
Opgave 3: Uniprot (20%)
Opgave 4: Sekvens alignment (20 %)
Opgave
5:
SNP
‐
Single
Nucleotide
polymorphism
(15%)
Opgave
6:
PDB
–
3D‐struktur
og
homologi
modellering
(10%)
Vi vil logge jeres internet under denne eksamen og alt kommunikation med
andre personer via mail, tlf og lignende er diskvalificerende.
Side
2
af
13
Opgave 1: DNA og RNA (15%)
a) Hvad kaldes den proces, hvor DNA oversættes til messenger RNA (DNA ->
mRNA)?
b) Hvad kaldes den proces, hvor messenger RNA oversættes til protein (mRNA ->
protein)?
c) Hvad er 1-bogstavs koderne for kerne-baserne (nukleotiderne) i DNA?
d) Hvilke af disse kerne-baser danner hydrogen-bindinger til hinanden (kaldet base
parring på engelsk)?
Herunder er et stykke genomisk DNA (+ string) kaldet ‘gene1’ med læseretning fra
venstre mod højre
gene1: TTGATTGCAA
e) Er den korrekt læseretningen for DNA fra 3’ mod 5’ enden eller omvendt dvs fra 5’
mod 3’ enden ?
f) Der fines 3 stop codons: TAA, TAG og TGA. Benyt sekvensen herunder (geneA) til
at finde alle stop-codons i alle læserammer. Sekvensen er angivet for + stringen,
med læseretning fra venstre mod højre. Skriv læseramme efterfulgt af mulige stopcodons.
geneA: TTGATTTCAA
Side
3
af
13
Opgave 2: Aminosyrer (20%)
a) Hvor mange naturligt forekommende aminosyrer findes der?
b) En enkelt aminosyre har ikke et chiralt C-alpha atom. Hvad er 1 og 3-bogstavs
koderne for denne?
Skriv 1 og 3-bogstav koder for aminosyrerne som tilhører de grupper som er listet
herunder i spørgsmål c), d) og e)
c) Basiske:
d) Sure:
e) Aromatiske:
f) Skriv herunder en korrekt sekvens i FASTA format, med navnet MIN_SEKVENS.
Dette korte peptid skal bestå af 5 forskellige aminosyrer som er polære eller
hydrophobe – benyt 1-bogstavs koder.
g) Tegn et di-peptid, hvor du indikerer sidekæden med ‘R’. Skriv også navn på de 4
backbone atomer.
Side
4
af
13
Opgave 3: Uniprot (20%)
Benyt “Advanced Search” i Uniprot databasen til at lede efter ‘lysozyme’ hits for
organismen Gallus gallus (Chicken).
a) Hvor mange “reviewed”(dvs UniProtKB/Swiss‐Prot) hits finder du for
‘lysozyme’ for organismen’Chicken’, hvor lysozyme er en del af protein navnet
(protein name). skriv antal hits du ender op med til sidst og evt antal hits (søgeresultater) du får undervejs?
b) Angiv “Accession” nummer for et af den/de hits du fandt spørgsmål 3a og skriv,
med 1-bogstavs kode og position, de aminosyrer som er del af det aktive site i
dette protein?
c) Det protein du beskrev i spørgsmål 3b, vil det virke indenfor eller udenfor den
celle hvor det bliver lavet. Angiv længden af det modne (English: mature) protein,
samt hvor det befinder sig (dvs indenfor eller udenfor cellen). Begrund dine svar.
d) For proteinet med accession number P00698
(‘0’
er
et
nul
og
ikke
et
bogstav)
er
der
angivet
sekundær
strukturen
i
Uniprot.
Kan
du
udfra
denne
angive
hvilken
af
de
5
fold­klasser
(a,
b,
c,
d
eller
e)
proteinet
tilhører?
a. All‐alpha
b. All‐beta
c. Alpha+beta
d. Alpha/beta
e. Få
eller
ingen
sekundær
struktur
elementer
Side
5
af
13
4: Sekvens alignment (20 %)
Man har søgt med en protein sekvens mod en stor database af sekvenser vha Blast (i
protein mode ‘blastp’) og får 4 forskellige alignments tilbage. Resultaterne fra disse 4
alignments beskrives herunder som Hit 1-4. Normalt benyttes e-værdier (også kaldet
e-values eller Expection values) til at udvælge det bedste hit.
a) Skriv de 4 hits i en ordnet liste under hinanden, således at det bedste hit står øverst
og dårligste hit står nederst. Skriv også hvilke hits du vil betragte som signifikante og
hvorfor.
Hit 1: e-value = 4e-22
Hit 2: e-value= 0
Hit 3: e-value= 3.2
Hit 4: e-value = 0.01
Side
6
af
13
To protein sekvenser kan alignes såfremt man har en substitutions-matrix og et mål
for hvad det koster at lave gaps. Herunder er et alignment, hvor ‘Query’ er en
betegnelse for den sekvens man har søgt med, mens ‘Sbjct’ repræsenterer et hit fundet
i en sekvens-database.
‘Affine gap-scores’
Når man laver et alignment kan man benytte sig af en simple procedure, hvor alle
gaps koster det same eller man kan benytte en procedure med affine gap-scores, som
er den måde Blast benytter. Når man anvender affine gap-scores, koster det en pris for
at åbne et gap (gap-opening) og en anden pris for de næste gaps (gap-next).
‘Gap-opening’ er altså den pris det koster i en situation hvor man indsætter et gap i et
alignment og positionen lige før er ikke et gap.
‘Gap-next’ er den pris det koster i den situation hvor man indsætter et gap i et
alignment og positionen lige før er også et gap.
Her skal vi benytte denne procedure med affine gap-scores.
Gap-opening score: -11
Gap-next score: -1
b) Hvad er alignment scoren for det hypotetiske alignment som er vist. Benyt
Blosum62 matrix i Appendix 1 og proceduren som beskrevet ovenfor i ‘Affine gapscores’. Husk at skrive mellem-regninger, ikke kun et tal.
pos:
Query:
Sbjct:
Pos:
8
15
P R - - Q C K – S S
| |
|
P R R E R C R Q T S
3
12
c)
Der
findes
overordnet
to
forskellige
typer
af
alignments.
Hvad
kaldes
den
type
alignment
som
er
vist
i
spørgsmål
4b
?
Side
7
af
13
d) Herunder
er
2
korte
peptider
Seq1
og
Seq2.
Seq1:
R
D
V
N
T
Seq2:
K
I
Q
S
Disse
sekvenser
skal
alignes
vha
en
dynamisk
alignment
algoritme,
hvor
alle
gaps
hver
især
koster
2
point
(dvs
en
score
på
‐2),
mens
substitutions‐scoren
fås
udfra
den
Blosum62
matrix
der
findes
i
Appendix
1.
Du
selv
bestemme
hvilken
af
de
2
hoved‐alignment
typer
du
vælger,
men
skriv
dit
valg
herunder.
d1)
Jeg
vælger
alignment
type:
Udfyld
herefter
alignment‐matrix
på
næste
side
hvor
de
to
peptider
alignes.
Side
8
af
13
Alignment
matrix
K
I
Q
S
0
‐2
‐4
‐6
‐8
R
‐2
D
‐4
V
‐6
N
‐8
T
‐10
d2)
Skrive
det
færdige
alignment
herunder
samt
alignment­scoren:
Side
9
af
13
5:
SNP
­
Single
Nucleotide
polymorphism
(15%)
Herunder
ses
sekvensen
for
den
kodende
region
af
et
kort
gen
med
en
længde
på
51
bp.
Læseretningen
er
fra
venstre
mod
højre.
Der
findes
2
SNP’s
indenfor
dette
område,
SNP1(G/T)
på
position
6
og
SNP2(T/A)
på
position
15.
RNA
translation‐tabellen
i
Appendix
2
kan
benyttes
til
nogle
af
spørgsmålene.
SNP1
SNP2
|
|
ATGCAGCCTATGTGTAACGTGGTCACCCTGATCCGATCGTATGTTTTATTT
a) Hvad
er
forskellen
på
en
synonym
(Eng:
synonomous)
SNP
og
en
ikke
synonym
(Eng:
non­synonomous)
SNP
?
b) Vil
SNP1
have
nogen
indflydelse/ændre
på
det
protein
produkt
som
laves
og
hvor
langt
bliver
protein
sekvensen
(begrund
dit
svar)
?
c) Vil
SNP2
have
nogen
indflydelse
på
det
protein
produkt
som
laves
og
hvor
langt
bliver
protein
sekvensen
(begrund
dit
svar)
?
Side
10
af
13
6:
PDB
–
3D­struktur
og
homologi
modellering
(10%)
a) De
forskellige
lag
af
information
for
et
protein
beskrives
often
med
4
ord:
primær,
sekundær,
tertiær
og
kvaternær
struktur.
Beskriv
kort
betydningen
af
disse
ord
Du
skal
til
at
bygge
en
homologimodel
af
et
protein.
Ved
hjælp
af
en
sekvenssøgning
i
PDB
har
du
fundet
seks
strukturer
til
formålet.
Strukturernes
kvalitetsparametre
og
alignment‐scorer
er
angivet
nedenfor
i
Tabel
1
(side
11):
b)
Forklar
ud
fra
parametrene
i
Tabel
1
(side
11),
hvilken
struktur
(en
eller
flere)
der
vil
være
bedst
at
basere
din
model
på.
Begrund
dit
valg.
Side
11
af
13
c)
Forklar
ud
fra
parametrene
i
Tabel
1
(side
11),
hvilke
tre
strukturer,
der
vil
være
de
dårligste
valg.
Begrund
dit
valg.
Tabel1
Struktur
A
B
C
D
E
F
E­værdi
(Eng.
e­
values)
1,0E‐09
1,0E‐02
1,0E‐10
1,0E‐12
1,0E‐11
1,0E‐10
Sekvens­id
(%)
80
20
81
94
95
93
Metode*
X
X
X
X
N
N
Opløsningsevne
2,3
1,4
2,4
4,0
n/a
n/a
Resolution
(Å)
R­værdi
0,22
0,16
0,24
0,30
n/a
n/a
R­free
0.29
0,20
0,27
0,35
n/a
n/a
RMSD**
n/a
n/a
n/a
n/a
0,3
0,4
Ramachandran
3,0
1,0
2,0
5,0
5,0
2,5
statistik
(%
outliers)
*X
=
x‐ray/røntgenkrystallografi,
N
=
NMR,
**For
ensemblet
Side
12
af
13
Appendix
1
­
Blosum62
matrix
Side
13
af
13
Appendix
2
­
RNA
translation
table