Presentation is loading. Please wait.

Presentation is loading. Please wait.

東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷.

Similar presentations


Presentation on theme: "東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷."— Presentation transcript:

1 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

2 東海大學物理系‧計算科學總論 DNA Walk C.K. Peng et al. Nature 356, 168 (1992). H.S. Stanley et al. Physica A273, 1 (1999). For i=A, G → u(i)=-1 For i=C, T → u(i)=+1

3 東海大學物理系‧計算科學總論 DNA Walk (conti.) (a)intron-rich human  - cardiac myosin heavy- chain gene sequence (b)Its cDNA (c)Introless bacterion-phage DNA squence

4 東海大學物理系‧計算科學總論 DNA Walk (conti.) Fluctuations:Correlation: Random sequence and short correlated sequence: Long-range correlated sequence:

5 東海大學物理系‧計算科學總論 DNA Walk (conti.) (a) intron-containing  -cardiac myosin ( ● with a=0.67) and its cDNA ( ○ with a=0.49) (b) ● with a=0.62) and its intronless genes ( ○ with a=0.49), see table (b) intron-rich genes ( ● with a=0.62) and its intronless genes ( ○ with a=0.49), see table (c) same as in (a) for longer distance

6 東海大學物理系‧計算科學總論 DNA Walk 4/4 (conti.)

7 東海大學物理系‧計算科學總論 Puzzle 含有 intron (無編碼)的序列,具有 long-range correlation 含有 intron (無編碼)的序列,具有 long-range correlation 全部皆為編碼序列之 cDNA ,沒有 long-range correlation ,接近於 random walk 序列 全部皆為編碼序列之 cDNA ,沒有 long-range correlation ,接近於 random walk 序列 以上結果,似與預期相反,有生物意義之序列, 才應該有 long-range correlation? 以上結果,似與預期相反,有生物意義之序列, 才應該有 long-range correlation? Solution: mosaic organization of DNA sequence (C.K. Peng et al., Phys. Rev. E 49, 1685) Solution: mosaic organization of DNA sequence (C.K. Peng et al., Phys. Rev. E 49, 1685) Non-coding 部分有很多片段大量重複,此為其 具有 long-range correlation 之來源 Non-coding 部分有很多片段大量重複,此為其 具有 long-range correlation 之來源

8 東海大學物理系‧計算科學總論 Music of Life 將流行性感冒病毒之 DNA 序列轉換成樂譜:

9 東海大學物理系‧計算科學總論 Linguistic Analysis Ref.: R. N. Mantegna et al., Phys. Rev. E 52, 2939 (1995) Zipf law: Zipf law: Counting f, the frequency of occurrence of words in a given text. f of each word is ordered from the most frequent to the least one. The position of each word in the ordered list is the rank R. Counting f, the frequency of occurrence of words in a given text. f of each word is ordered from the most frequent to the least one. The position of each word in the ordered list is the rank R. In nature languages, the Zipf law is satisfied with ζclose to 1. In nature languages, the Zipf law is satisfied with ζclose to 1.

10 東海大學物理系‧計算科學總論 Linguistic Analysis (conti.) Use “n-tuple” Zipf analysis instead of the conventional one: the length of “word” is fixed as n Use “n-tuple” Zipf analysis instead of the conventional one: the length of “word” is fixed as n Natural language (English), computer language (UNIX binary code) and DNA sequences are analyzed by this method Natural language (English), computer language (UNIX binary code) and DNA sequences are analyzed by this method

11 東海大學物理系‧計算科學總論 Linguistic Analysis (conti.)

12 東海大學物理系‧計算科學總論 Linguistic Analysis (conti.)

13 東海大學物理系‧計算科學總論 Linguistic Analysis (conti.)

14 東海大學物理系‧計算科學總論

15

16 Puzzle: Non-coding sequence: satisfies Zipf law as the natural or computer languages Non-coding sequence: satisfies Zipf law as the natural or computer languages Coding sequence: doesn’t satisfy Zipf law but the logarithmic form: Coding sequence: doesn’t satisfy Zipf law but the logarithmic form: Does this mean, there are some biological meaning in the non-coding region? Does this mean, there are some biological meaning in the non-coding region?

17 東海大學物理系‧計算科學總論 Linguistic Analysis of Heartbeat Ref. A.C.C. Yang et al., Phys. Rev. Lett. 90, 108103 (2003) {x 1,x 2......}: interbeat interval , I n =0 (1) if x n ≦ (>) x n-1

18 東海大學物理系‧計算科學總論 Linguistic Analysis of Heartbeat (conti.) Zipf’s law

19 東海大學物理系‧計算科學總論 Linguistic Analysis of Heartbeat (conti.) “Distance” between different sequences:

20 東海大學物理系‧計算科學總論 Linguistic Analysis of Heartbeat (conti.)

21 東海大學物理系‧計算科學總論 Linguistic Analysis of Heartbeat (conti.)

22 東海大學物理系‧計算科學總論 Visualize the Complete Genome 利用符號動力學 (symbolic dynamics) 方法,可以將物種 的完整 DNA 序列圖像化,是 一種粗粒化的方式,雖然失 去一些細節,然而卻能使某 些重要的特性一目了然。右 圖為 Methanococcus jannaschii (第一種完成定序的古細菌) 的完整序列之圖像顯示。 B. L. Hao et al., Chaos, Solitons and Fractals, 11, 825-836 (2000).

23 東海大學物理系‧計算科學總論 Method for Visualization 將序列圖像化的方法: 1. 設定子序列長度,例如 為 2 2. 將一單位正方形分割為 四等分,其所代表的鹼 基如圖所示。 3. 將每一小格再細分為四 格,亦以同樣的相對位 置訂定對應鹼基。 GC ATGCGGCGCCGAGTCACT AGACTGTC AAATTATT

24 東海大學物理系‧計算科學總論 Method for Visualization (conti.) 4. 統計序列中各長度為 2 之子序列出現的次數, 例如下列序列: AATCGGACGTAACC GTAATATAGG ,則其 出現次數如右表所示。 5. 將各出現頻率依高低以 不同的顏色表示,顏色 越深者表出現次數越多。 6. 所得之圖稱為該物種之 Genome Portrait 。 GC0GG2CG3CC1 GA1GT2CA0CT0 AG1AC2TG0TC1 AA3AT3TA4TT0

25 東海大學物理系‧計算科學總論 Statistical Properties 如果 DNA 序列是 隨機序列,則各 個子序列出現的 機率應該差不多, 但是由所研究的 幾個序列顯示, 出現機率的分佈 極不均勻,因此 DNA 序列顯然不 是一個隨機序列。

26 東海大學物理系‧計算科學總論 Genome Maps of Different Species 對不同的物種可以作相同的分析, 發現有些物種的 Genome Map 很類似, 有些則差距較大。這種方法可能可 以作為分類或是演化學研究的方法。

27 東海大學物理系‧計算科學總論 Why so few? 既然 DNA 序列的子 序列分佈不均勻, 「經常出現」與「較 少出現」的子序列, 必然有其生物意義。 先由「較少出現」者 來看,在此圖形上似 乎顯示出某種碎形 ( fractal )的特性? 這是為了「躲避」限 制內切脢的攻擊。


Download ppt "東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷."

Similar presentations


Ads by Google