Tin sinh học

Transcription

Tin sinh học
Tin sinh học
Khái niệm và bài toán cơ bản
Một vài kết quả nghiên cứu
Hồ Tú Bảo, Phạm Thọ Hoàn
School of Knowledge Science
Japan Advanced Institute of Science and Technology
1
“Sống”, Tạ Quang Bửu (1948)
“…Một đêm tháng 10 năm 1910, một tế bào haploid (cùng một
gamète với 24 chromosome) của cha tôi gặp một tế bào (cùng một
gamète với 24 chromosome) của mẹ tôi.
Hai tế bào ấy phối hợp với nhau thành một tế bào trứng với hai lần 24
chromosome. Tế bào này chẻ đôi sinh ra hai tế bào nữa, rồi hai sinh ra
bốn, bốn sinh ra tám, v,v… thành một khối tế bào. Khối tế bào này là tôi.
Chín tháng sau tôi ra đời với những đặc điểm này: da đen, mắt hoe,
chân ngắn như ông nội tôi; mồm rộng, vai ngang, tai nhỏ như bà ngoại
tôi. Ngoài ra trong thân thể có chỗ thì giống ông ngoại, có chỗ giống bà
nội tôi. Còn tính lười đặc biệt của tôi thì xem gia phả đến bậc ông cố nội
ngoại cũng không thấy tông tích. Có lẽ phải lên xa nữa.
Ba năm sau, cũng theo một loạt biến cố như trên, em tôi ra đời. Em
tôi thì mồm rộng, da trắng, mắt hoe, chân dài. Những đặc điểm của nó
cũng là những đặc điểm của hai gia đình chúng tôi, nhưng phân phối lại
cách khác.”
2
Outline
Bioinformatics:
problems and
issues
Some
research
results
3
Paradigm shift in biology
The
The new
new paradigm,
paradigm, now
now emerging,
emerging, isis that
that all
all the
the ‘genes’
‘genes’
will
will be
be known
known (in
(in the
the sense
sense of
of being
being resident
resident in
in databases
databases
available
available electronically)
electronically) ...
...
To
To use
use [the]
[the] flood
flood of
of knowledge,
knowledge, which
which will
will pour
pour across
across
the
the computer
computer networks
networks of
of the
the world,
world, biologists
biologists not
not only
only
must
must become
become computer
computer literate,
literate, but
but also
also change
change
their
their approach
approach to
to the
the problem
problem of
of understanding
understanding life.
life.
(Walter
(WalterGilbert.
Gilbert. 1991.
1991.Towards
Towardsaaparadigm
paradigmshift
shiftininbiology.
biology. Nature,
Nature,349:99.)
349:99.)
4
What is bioinformatics?
„
„
„
„
Bio: Molecular Biology
Informatics: Computer
Science
Bioinformatics: Solving
problems arising from
biology using methodology
from computer science.
Synonyms: Computational
biology, Computational
molecular biology,
Biocomputing
Various -ome and -omics
„ A gene → genome →
genomics
„ protein → proteome →
proteomics
„ interaction → interactome
→ ...
„ transcriptional product →
transcriptome → ...
„ metabolite → metabolome
→ ...
- ome means "as a whole"
5
Basic genetics Gene học cơ sở
ƒ Phần lớn của 100 tỷ tế bào (cell) trong cơ thể con người có sự sao
chép của toàn bộ hệ gene (human genome), là toàn bộ thông tin di
truyền cần thiết để tạo ra cơ thể sống.
„
„
„
Hạt nhân tế bào (cell nucleus)
chứa DNA gói trong các cặp
nhiễm sắc thể (chromosomes).
DNA chứa gene, là mã của cơ
thể và điều khiển mọi khía cạnh
về phát triển và kế thừa của tế
bào.
Protein, tạo ra từ amino acids,
là các thành phần thiết yếu của
mọi cơ quan (organs) và hoạt
động hóa học.
6
Small molecules Tiểu phân tử
„
„
Có thể có các vai trò độc lập hoặc có thể là các khối tạo dựng của
các đại phân tử (macromolecules). Thí dụ như phân tử nước,
đường, acids béo (fatty), amino acids và đơn phân tử
(nucleotides).
Có 20 loại amino
acids khác nhau, là
các khối tạo dựng của
proteins, mỗi loại
được ký hiệu bởi một
chữ cái Latin.
7
DNA (Deoxyribonucleic acid)
„
„
„
„
DNA là phân tử mang thông tin chủ yếu
trong một tế bào. DNA có thể là xoắn đơn
(single) hay xoắn kép (double)
Phân tử DNA xoắn đơn là một dãy các
đơn phân tử (nucleotides), còn gọi đa
đơn phân tử (polynucleotide).
Các cặp đơn phân tử đặc biệt có thể tạo
nên các liên kết yếu (weak bonds): A liên
kết với T, C liên kết với G. A-T và G-C là
các cặp cơ sở (base-pairs, bp)
Khi hai dãy đa đơn phân tử liên kết với
nhau, chúng thường dính vào nhau, gọi
là các DNA xoắn kép (double helix).
T-T-G-A-C-T-A-T-C-C-A-G-A-T-C
A-A-C-T-G-A-T-A-G-G-T-C-T-A-G
8
DNA
This structure was first figured out in
1953 in Cambridge by Watson and Crick
9
RNA (ribonucleic acid)
„
„
„
RNA được tạo thành từ đơn phân tử như DNA. Tuy nhiên, RNA
dùng U (uracil) thay vì T (pyrimidine thymine) là thành phần
không có trong DNA (chỉ có dải đơn).
RNA có nhiều chức năng trong tế bào, như mRNA và tRNA là
các kiếu chức năng khác nhau của RNA, cần thiết trong sự tổng
hợp protein.
RNA có thể liên kết với một dải đơn của một phân tử DNA,
bằng cách thay T bằng U, và các phân tử kiểu này có vai trò
quan trọng trong các quá trình sống và công nghệ sinh học.
C-G-A-T-T-G-C-A-A-C-G-A-T-G-C DNA
| | | | | | | | | | || | |
G-C-U-A-A-C-G-U-U-G-C-U-A-C-G RNA
10
Proteins
Protein là một đại phân tử tạo thành từ một hay nhiều dãy amono acids
theo một thứ tự đặc biệt; thứ tự này được xác định bởi dãy cơ sở (bazơ)
các nucleotides trong gene mã hóa cho protein. Các proteins cần thiết
cho cấu trúc, chức năng và điều chỉnh tế bào, mô và tổ chức, mỗi protein
có một vai trò đặc biệt. Vài thí dụ về proteins là:
„
„
„
„
Protein cấu trúc (Structural proteins), có thể coi
như các khối tạo dựng cơ sở của sinh vật.
Enzymes, thực hiện (xúc tác) một số lớn các phản
ứng sinh hóa học. Cùng với các phản ứng này và
các đường chuyển hóa (pathway) chúng tạo ra sự
trao đổi chất (metabolism).
Protein màng (transmembrane proteins): chìa
khóa của sự duy trì môi trường tế bào (cellular
environment), điều hòa dung tích tế bào, etc.
Hormones, antibodies, etc.
11
Protein structures Cấu trúc protein
„
„
„
„
Cấu trúc bậc một (primary structure)
Cấu trúc bậc hai (secondary structure):
alpha-helices (xoắn α) và beta-strands
(dải β).
Cấu trúc bậc ba (tertiary structure)
Cấu trúc bậc bốn (quaternary structure)
12
Genes và sự tổng hợp protein
„
„
Genes: các đoạn đặc biệt của DNA có chức năng điều khiển cấu trúc và
hoạt động của tế bào; là đơn vị chức năng của sự di truyền.
Tổng hợp protein là quá trình tạo ra proteins dựa trên thông tin được
mã hóa trong genes, gồm ba giai đoạn chính: (1) Transcription (phiên
mã) (2) Splicing (ghép mã) (3) Translation (dịch mã).
Central Dogma of Molecular Biology
DNA
RNA
Protein
Function
13
Molecular Interactions
„
Protein-Protein
−
−
−
−
−
„
Catalytic Complex Formation
Catalytic Modulation
„
Signaling Association
Protein Modification
Physical Structures: filaments,
pores, membranes
DNA-Protein
− Gene regulation
− Replication
NA-NA
− DNA-DNA helical pairing
− DNA/RNA transcription
− RNA-RNA
splicing/translation
BP C
14
Human genome project
In 2000, the draft
sequence of
human genome
was determined
Started 1990.
Goal: Identify
all of human
DNA sequences
within 15 years
(very
ambitious!)
"the most
important, most
wondrous map
ever produced by
humankind"
2003
99% of human genome
sequences were identified
with accuracy of 99.99%
15
Explosion of biological data
Biologists
are
drawing
by data!
10,267,507,282
bases in
9,092,760
records.
16
How genomic data look like?
A portion of the DNA sequence, consisting of 1.6 million characters,
is given as follows (about 350 characters, 4570 times smaller):
TACATTAGTTATTACATTGAGAAACTTTATAATTAAAAAAGATTCATGTAAATTTCTTATT
TGTTTATTTAGAGGTTTTAAATTTAATTTCTAAGGGTTTGCTGGTTTCATTGTTAGAATA
TTTAACTTAATCAAATTATTTGAATTTTTGAAAATTAGGATTAATTAGGTAAGTAAATAAA
ATTTCTCTAACAAATAAGTTAAATTTTTAAATTTAAGGAGATAAAAATACTACTCTGTTTT
ATTATGGAAAGAAAGATTTAAATACTAAAGGGTTTATATATATGAAGTAGTTACCCTTAG
AAAAATATGGTATAGAAAGCTTAAATATTAAGAGTGATGAAGTATATTATGT…
Biological data is usually complex and difficult to analyze
17
Problems in bioinformatics
Sequence analysis
„
„
„
Sequence alignment
DNA sequence analysis
Statistical sequence matching
Genomics
„
„
„
Gene finding & prediction
Functional genomics
Structural genomics
Proteomics
„
„
„
Functional proteomics
Structural proteomics
Sequence, structure, function
relationship
Other problems
„
„
„
Pathway analysis
Gene expression & regulation ana.
Protein-protein interaction
18
Problems in bioinformatics
Sequence analysis
„
„
„
Sequence alignment
DNA sequence analysis
Statistical sequence matching
Genomics
„
„
„
Gene finding & prediction
Functional genomics
Structural genomics
Proteomics
„
„
„
Functional proteomics
Structural proteomics
Sequence, structure, function
relationship
Other problems
„
„
„
Pathway analysis
Gene regulation & expression ana.
Protein-protein interaction
input: a DNA sequence
Gene finding program
(prediction program)
output: regions of genes
gene
gene
gene
exons and introns (in case of eucaryote)
19
Problems in bioinformatics
Sequence analysis
„
„
„
Sequence alignment
DNA sequence analysis
Statistical sequence matching
Genomics
„
„
„
„
„
Functional proteomics
Structural proteomics
Sequence, structure, function
relationship
Other problems
„
„
„
α helix
Gene finding & prediction
Functional genomics
Structural genomics
Proteomics
„
Protein structure prediction
Solving (discovering) the
protein structure is difficult
and expensive (50,000200,000€ per novel structure)
Pathway analysis
Gene regulation & expression ana.
Protein-protein interaction
Quaternary
structure
Tertiary structure
β strand
Pham T.H., Satou K., Ho T.B., “Using support vector
machines for prediction and analysis of β-turns”
Genome Informatics 2003
Pham, T.H., Satou, K., Ho, T.B. (2005). Support vector
machines for prediction and analysis of beta and gamma
turns in proteins, Journal of Bioinformatics and
Computational Biology (JBCB) (in press).
20
Problems in bioinformatics
Sequence analysis
„
„
„
Sequence alignment
DNA sequence analysis
Statistical sequence matching
Genomics
„
„
„
Gene finding & prediction
Functional genomics
Structural genomics
Proteomics
„
„
„
Functional proteomics
Structural proteomics
Sequence, structure, function
relationship
Other problems
„
„
„
Pathway analysis
Gene regulation & expression ana.
Protein-protein interaction
PPI: Given a sequence or structure
- in which part it interacts?
- with which protein it interacts?
- how tightly it interacts?
Our approaches: Inductive logic
programming, Bayesian networks.
21
Problems in bioinformatics
Sequence analysis
„
„
„
Sequence alignment
DNA sequence analysis
Statistical sequence matching
Genomics
„
„
„
Gene finding & prediction
Functional genomics
Structural genomics
How gene
expression
is switched
on and off,
i.e., how
genes are
regulated?
Proteomics
„
„
„
Functional proteomics
Structural proteomics
Sequence, structure, function
relationship
Other problems
„
„
„
Pathway analysis
Gene regulation & expression ana.
Protein-protein interaction
Gene expression is the process by which a gene's
coded information is converted into the structures
present and operating in the cell. Expressed genes
include those that are transcribed into mRNA and
then translated into protein and those that are
transcribed into RNA but not translated into
protein.
22
Data mining: find knowledge in data
the automatic extraction of non-obvious, hidden
knowledge (patterns/models) from large volumes
of data
106-1012 bytes (or more):
never see the whole
data set or put it in the
memory of computers
Data
mining
algorithms?
Which form of
knowledge?
How to evaluate
and use it?
23
Data types vs. Mining methods
Types of data
„
„
„
„
„
„
„
„
„
„
Flat data tables
Relational database
Temporal & Spatial
Transactional databases
Multimedia data
Genome databases
Materials science data
Textual data
Web data
etc.
Mining tasks and methods
„
„
Classification/Prediction
− Decision trees
− Neural network
− Rule induction
− Support vector machines
− Hidden Markov Model
− etc.
Description
− Association analysis
− Clustering
− Summarization
− etc.
24
Lessons learned
„
„
„
„
„
Understand the problem in biology
View the task in terms of data mining and which kinds of
models/patterns to be found.
Know what factors/attributes are relevant to the
problem and know how to represent them in appropriate
input form to data mining programs.
Decide which techniques can be used to solve the
problem. In many cases, techniques may need
adaptation/improvement.
Interpret and evaluate findings.
25
Outline
Bioinformatics:
problems and
issues
Some
research
results
26
Mechanism of transcription
„
„
A gene needs some special proteins binding to its
promoter to be expressed
These special proteins are called regulators/
transcriptional factors/ activators/ repressors
Gene
transcripts
27
Regulatory Network
If C then NOT D
B
A
A
Protein
Gene D
C
C
If A and B then D
B
the special proteins make a gene
expressed to produce its protein.
This protein may in turn make
other genes expressed
Protein
D
gene C
D
E
Gene C
If D then B
28
Summary of our work
DNA-factor
interactions
Association Rule Mining
(ARM)
Clustering genes into modules
(TRM: Transcriptional Regulatory
Modules)
Pham T.H., Satou K., Ho T.B., “Mining
yeast transcriptional regulatory modules
from binding sites and gene expression
data, Genome Informatics 2004.
Gene expression
profiles
Rule Induction
(IR)
Discovering the relationships
between the expression of target
genes and that of their transcription
factors
Pham T.H., J.C. Clemente, Satou K., Ho T.B.,
“Computational discovery of transcriptional
regulatory rules”, Bioinformatics 2005
(submitted).
29
Datasets
Data of factor-DNA
interactions
Data of gene expression
profiles
6272 genes x 113 transcription
factors
6293 genes x 213 experiments
30
Transcriptional Regulatory Modules (TRM)
A kind of motifs in regulatory network with the form:
TFset:
TFset
TFset →
GeneSet
→ GeneSet
− bind to the promoter of each gene in GeneSet
− control their expression (positive or negative regulation)
TF2
TF4
TF5
Make G3
TF2
TF4
TF5
Make G8
TF2, TF4, TF5 → G3, G8
31
Basic idea
Previous methods:
Our method:
−first cluster genes into
modules based on gene
expression profiles (by
normal clustering
methods)
−then analyze the data of
factor-DNA interactions in
each module
− first cluster genes into
modules based on factorDNA interactions data (by
a new clustering
approach: closed itemset
mining)
− then analyze expression
profiles of genes in each
module
We emphasize on the regulation mechanism
32
Φ
New clustering
approach
TF1(5)
Factor-DNA interaction
TF2(6)
TF1,3(2) TF1,2(3)
Closed factorset
lattice
2
3
1
TF1
TF2
TF3
TF4
TF5
G1
1
1
0
1
1
G2
1
1
0
0
0
G3
0
1
0
1
1
G4
0
1
0
0
1
G5
1
0
1
0
0
G6
0
0
0
1
1
G7
1
1
0
0
0
G8
0
1
0
1
1
G9
1
0
1
0
0
Database of “transactions”
3
TF5(5)
TF2,5(4)
TF4,5(4)
TF2,4,5(3)
TF1,2,4,5(1)
G1,2,3,4,5,6,7,8,9
G1,2,5,7,9
G5,9
G1,2,3,4,7,8
G1,2,7
G1,3,4,6,8
G1,3,4,8
G1,3,6,8
G1,3,8
G1
33
Example of TRM
Module: 30
Regs: HIR2 & HIR1 #Support: 7 Similar_ratio: 0.71
0.028
YDR225W
histone H2A
0.042
YNL030W
histone H4
0.046
YNL031C
histone H3
0.050
YDR224C
histone H2B
0.051
YBR009C
histone H4
0.096
YBR010W
histone H3
0.38
YPR195C
hypothetical protein
Pearson correlation:
=1
>=0.8
>=0.5
<0.5
http://www.jaist.ac.jp/~h-pham/regulation
34
Findings and evaluation
Database
Database of
of
2363
2363 transactions
transactions
405
405 candidate
candidate closed
closed
sup-TRMs
sup-TRMs
157
157 candidate
candidate closed
closed
inf-TRMs
inf-TRMs
„
„
„
141
141 closed
closed sup-TRMs
sup-TRMs
40
40 closed
closed inf-TRMs
inf-TRMs
81 of 141 sup-TRMs and 29 of
40 inf-TRMs contain genes that
have significant shared GO
terms.
Many TRMs contain genes that
are similar to gene modules
previously found by other
studies.
Some TRMs reveal complexes
of factors that incorporate
each other to control the
expression of genes.
35
Regulatory table, regulatory rules
Rule1:
If
RAP1= I
and
FHL1= I
then
YBR181C = I
D: decreased; I: increased; N: no change
RAP1
FHL1
D
YBR181C
I
N
D
D
1346
212
227
I
D
104
189
52
N
D
301
220
103
I
D
345
248
111
I
I
311
1552
293
I
N
399
494
236
…
…
Rule
mining
by CN2
Rule2:
If
RAP1= D
and
FHL1= D
then
YBR181C = D
RAP1 and FHL1 also
positively regulate more
than 30 genes.
36
Conclusion
„
„
„
Bioinformatics is an emerging and
challenging field.
The obtained results are encouraging.
Bioinformatics could be a promising
scientific direction in Vietnam.
Darwin: It’s not the strongest, nor the
most intelligent, but the species most
adaptable to change has the best
chance of survival.
37
Why use closed itemsets mining?
The space of closed itemsets is much
smaller than the space of all itemsets,
but represents the same knowledge
from the database.
Space of all itemsets
TID
Items
1
ACD
2
BCE
3
ABCE
4
BE
5
ABCE
Space of closed itemsets
38
Results
39
Φ
New clustering
approach
TF1(5)
Factor-DNA interaction
TF2(6)
TF1,3(2) TF1,2(3)
Closed factorset
lattice
2
3
1
TF1
TF2
TF3
TF4
TF5
G1
1
1
0
1
1
G2
1
1
0
0
0
G3
0
1
0
1
1
G4
0
1
0
0
1
G5
1
0
1
0
0
G6
0
0
0
1
1
G7
1
1
0
0
0
G8
0
1
0
1
1
G9
1
0
1
0
0
Database of “transactions”
3
TF5(5)
TF2,5(4)
TF4,5(4)
TF2,4,5(3)
TF1,2,4,5(1)
G1,2,3,4,5,6,7,8,9
G1,2,5,7,9
G5,9
G1,2,3,4,7,8
G1,2,7
G1,3,4,6,8
G1,3,4,8
G1,3,6,8
G1,3,8
G1
40
“Sống”, Tạ Quang Bửu (1948)
“…Một đêm tháng 10 năm 1910, một tế bào haploid (cùng một
gamète với 24 chromosome) của cha tôi gặp một tế bào (cùng một
gamète với 24 chromosome) của mẹ tôi.
Hai tế bào ấy phối hợp với nhau thành một tế bào trứng với hai lần 24
chromosome. Tế bào này chẻ đôi sinh ra hai tế bào nữa, rồi hai sinh ra
bốn, bốn sinh ra tám, v,v… thành một khối tế bào. Khối tế bào này là tôi.
Chín tháng sau tôi ra đời với những đặc điểm này: da đen, mắt hoe,
chân ngắn như ông nội tôi; mồm rộng, vai ngang, tai nhỏ như bà ngoại
tôi. Ngoài ra trong thân thể có chỗ thì giống ông ngoại, có chỗ giống bà
nội tôi. Còn tính lười đặc biệt của tôi thì xem gia phả đến bậc ông cố nội
ngoại cũng không thấy tông tích. Có lẽ phải lên xa nữa.
Ba năm sau, cũng theo một loạt biến cố như trên, em tôi ra đời. Em
tôi thì mồm rộng, da trắng, mắt hoe, chân dài. Những đặc điểm của nó
cũng là những đặc điểm của hai gia đình chúng tôi, nhưng phân phối lại
cách khác.”
41
Basic genetics Gene học cơ sở
„
„
„
„
Phần lớn của 100 tỷ tế bào (cell) trong cơ thể con người có
sự sao chép của toàn bộ hệ gene (human genome), là toàn bộ
thông tin di truyền cần thiết để tạo ra cơ thể sống.
Hạt nhân tế bào (cell nucleus)
chứa DNA gói trong các cặp
nhiễm sắc thể
(chromosomes).
DNA chứa gene, là mã của cơ
thể và điều khiển mọi khía
cạnh về phát triển và kế thừa
của tế bào.
Protein, tạo ra từ amino
acids, là các thành phần thiết
yếu của mọi cơ quan (organs)
và hoạt động hóa học.
42