Presentation is loading. Please wait.

Presentation is loading. Please wait.

DNA 序列的統計遊戲 Statistical Games in DNA Sequences 東海大學物理系‧施奇廷 2004/10/05 計算科學總論.

Similar presentations


Presentation on theme: "DNA 序列的統計遊戲 Statistical Games in DNA Sequences 東海大學物理系‧施奇廷 2004/10/05 計算科學總論."— Presentation transcript:

1 DNA 序列的統計遊戲 Statistical Games in DNA Sequences 東海大學物理系‧施奇廷 2004/10/05 計算科學總論

2 摘要 DNA 序列,可以說是生命奧秘的「有字天書」。隨著定序技 術越來越發達,投入的經費與人力越來越多,我們已經知道 的序列已經達到數百億個鹼基對之多,但是我們對這部天書 該如何讀卻所知有限。除了生物學家的正攻法之外,物理學 家們想出了一些怪招來研究這些序列,得到許多有趣的結果。 雖然距離真正破解生命密碼還有很遙遠的距離,卻也在意想 不到的方向上,跨出了一小步。在這次演講中,我們將介紹 與 DNA 有關,基本的遺傳學基本知識,重頭戲當然是要介 紹這些至今還是被許多人是為邪魔歪道或是雕蟲小技的研究 方法,告訴大家如何拿這些長篇累牘的序列來玩一場統計遊 戲。

3 Outline 什麼是 DNA 什麼是 DNA 基因學研究簡史 基因學研究簡史 DNA 「走路」 DNA 「走路」 DNA 的「肖像」 DNA 的「肖像」 結語 結語

4 What is DNA? 一種巨大的長鍊狀分子 由一連串的核苷酸組成 由一連串的核苷酸組成 生命訊息的層級 生物體 > 細胞 > DNA > 核苷酸 > 鹼基對 核苷酸鹼基 Guanine (G ,鳥嘌呤 ) , Adenine (A ,腺嘌呤 ) , Cytosine (C ,胞嘧啶 ) , Thymine (T ,胸腺嘧啶 )

5 What is DNA? A Photo

6 What is DNA? A Schematic View

7 Nucleotides

8 The Book of Life 大英百科全書 Human Genome 26 英文字母 四種核甘酸 23 卷 23 對染色體 200,000 篇文章 35,000 基因 兩億個字元 30 億鹼基對 8.5”×12×20,000 頁 長 1m× 直徑 100Å

9 Brief History of Genetics

10 1860: Mendel 1860 年代,奧地利神 父孟德爾( Gregor Mendel, 1822-1884 ) 發現豌豆中有某種成對 的「因子」可以決定遺 傳性狀。 1860 年代,奧地利神 父孟德爾( Gregor Mendel, 1822-1884 ) 發現豌豆中有某種成對 的「因子」可以決定遺 傳性狀。

11 1869: Miescher 1869 年,瑞士生物學家 Johann Miescher (1844~ 1895) 在病患繃帶的膿汁中 發現一種新物質,由於是在 細胞核中,他將之取名為 「核素」 (nuclein) ,此即為 DNA (去氧核糖核酸)。 1869 年,瑞士生物學家 Johann Miescher (1844~ 1895) 在病患繃帶的膿汁中 發現一種新物質,由於是在 細胞核中,他將之取名為 「核素」 (nuclein) ,此即為 DNA (去氧核糖核酸)。

12 1928: Griffith 1928 年,英國軍醫 Frederick Griffith (1881~1941) 以老鼠實驗 發現,將活的良性肺炎雙 球菌與死的惡性肺炎雙球 菌混合,可以引起轉型, 得到活的惡性菌,使老鼠 死亡。 1928 年,英國軍醫 Frederick Griffith (1881~1941) 以老鼠實驗 發現,將活的良性肺炎雙 球菌與死的惡性肺炎雙球 菌混合,可以引起轉型, 得到活的惡性菌,使老鼠 死亡。

13 1908: Morgan Thomas Morgan (1866 ~1945) 首先利用果蠅來研究 遺傳學,他發現有許多基因是 一起遺傳的,因此推測有些基 因在染色體上的位置是相連的, 並且訂出了果蠅的基因圖譜。 Morgan 於 1933 年獲得諾貝爾 生理及醫學獎。 Thomas Morgan (1866 ~1945) 首先利用果蠅來研究 遺傳學,他發現有許多基因是 一起遺傳的,因此推測有些基 因在染色體上的位置是相連的, 並且訂出了果蠅的基因圖譜。 Morgan 於 1933 年獲得諾貝爾 生理及醫學獎。

14 1942: Beadle & Tatum 1942 年, George Beadle (1903~1989) 與 Edward Tatum (1909~1975) 以麵包上 的紅黴菌實驗證實, DNA 上所帶的遺傳訊息, 其功能是製造特定的蛋 白質。他們獲得了 1958 年的諾貝爾生理與醫學 獎。 1942 年, George Beadle (1903~1989) 與 Edward Tatum (1909~1975) 以麵包上 的紅黴菌實驗證實, DNA 上所帶的遺傳訊息, 其功能是製造特定的蛋 白質。他們獲得了 1958 年的諾貝爾生理與醫學 獎。

15 1949: Chargaff 1949 年, Irwin Chargaff (1905~) 提出了所謂的 Chargaff 法則: DNA 中的 四種核甘酸: A 與 T 的含量 相同, C 與 G 的含量相同, 推翻了過去 ATCG 含量均勻 的假說。 1949 年, Irwin Chargaff (1905~) 提出了所謂的 Chargaff 法則: DNA 中的 四種核甘酸: A 與 T 的含量 相同, C 與 G 的含量相同, 推翻了過去 ATCG 含量均勻 的假說。

16 1953: The Discovery of Double Helix 1951 年, Rosalind Franklin 得到 DNA 分子 的 X-ray 繞射照片, 1953 年, Watson 與 Crick 解 出了 DNA 的雙螺旋結構, 此為分子生物學的大躍 進。 1951 年, Rosalind Franklin 得到 DNA 分子 的 X-ray 繞射照片, 1953 年, Watson 與 Crick 解 出了 DNA 的雙螺旋結構, 此為分子生物學的大躍 進。

17 1955: Sequence of Insulin 英國科學家 Fred Sanger 定出了胰島 素的氨基酸序列(長 度為 51 個氨基酸), 獲得 1958 年諾貝爾化 學獎。 英國科學家 Fred Sanger 定出了胰島 素的氨基酸序列(長 度為 51 個氨基酸), 獲得 1958 年諾貝爾化 學獎。

18 1966: Genetic Code Marshall Nirenberg 與 H. Gobind Khorana 研究小組找到了遺傳碼 ( genetic code )。在 DNA 序列中每三個核甘 酸鹼基代表一個氨基酸, 稱為一個「編碼子」 ( codon )。他們因此 獲得了 1968 年諾貝爾獎。 Marshall Nirenberg 與 H. Gobind Khorana 研究小組找到了遺傳碼 ( genetic code )。在 DNA 序列中每三個核甘 酸鹼基代表一個氨基酸, 稱為一個「編碼子」 ( codon )。他們因此 獲得了 1968 年諾貝爾獎。

19 1977: Sequencing the DNA Fred Sanger 開發出 「連續反應中斷」 ( chain termin-ation ) 定序法定出了一個病毒 的完整序列 5375 個碼, 這是當時最簡便的 DNA 定序法,也是後來自動 定序的基礎,使他獲得 1980 年諾貝爾化學獎。 Fred Sanger 開發出 「連續反應中斷」 ( chain termin-ation ) 定序法定出了一個病毒 的完整序列 5375 個碼, 這是當時最簡便的 DNA 定序法,也是後來自動 定序的基礎,使他獲得 1980 年諾貝爾化學獎。

20 1989:The Human Genome Project 20 世紀末,美國 國家衛生院、英國 衛康基金會、以及 後來加入的民間組 織 TIGR ,一起推 動了堪稱與登陸月 球重要性相當的 「人類基因組計畫」 ( Human Genome Project, HGP ) 20 世紀末,美國 國家衛生院、英國 衛康基金會、以及 後來加入的民間組 織 TIGR ,一起推 動了堪稱與登陸月 球重要性相當的 「人類基因組計畫」 ( Human Genome Project, HGP )

21 The Human Genome 1999 December 2 1999 December 2 Chromosome 22 completed (47.7 Mb) Chromosome 22 completed (47.7 Mb) 2000 May 8 2000 May 8 Chromosome 21 completed (50.0 Mb) Chromosome 21 completed (50.0 Mb) 2000 June 26 2000 June 26 Working Draft of complete human genome Working Draft of complete human genome 97% coverage, 85% complete 97% coverage, 85% complete

22 2000: Human Genome Draft Completed 2000 年六月,美國總 統 Bill Clinton 、英國首 相 Tony Blair 共同宣布, 第一份人類基因組草圖, 比預計的 2005 年,提 前五年完成。 2000 年六月,美國總 統 Bill Clinton 、英國首 相 Tony Blair 共同宣布, 第一份人類基因組草圖, 比預計的 2005 年,提 前五年完成。 “the most important fact of life on this Earth is our common humanity” “the most important fact of life on this Earth is our common humanity”

23 Growth of GenBank 年份Seq.Bp.1982606680338 198557005204420 19903953349179285 1995555694 3.8×10 8 200010106023 1.1×10 10 200114976310 1.6×10 10

24 生物學家最感興趣的:基因圖譜

25 Music of Life 將流行性感冒病毒之 DNA 序列轉換成樂譜: 將流行性感冒病毒之 DNA 序列轉換成樂譜:

26 中心法則:生命訊息的傳遞 DNA RNA Protein 轉錄 轉譯 反轉錄

27 轉錄:拷貝藍圖 Start signal (e.g. TATAAT) and stop signal (e.g. AAAAA) Start signal (e.g. TATAAT) and stop signal (e.g. AAAAA) Splicing: keep exons (外碼子), throw out intron (內碼子) Splicing: keep exons (外碼子), throw out intron (內碼子) mRNA: concatenation of exons mRNA: concatenation of exons

28 Transcription: Copying

29 轉譯:基因碼 3-nucleotides = 1 codon 3-nucleotides = 1 codon 64 codons 64 codons 3 stop codons 3 stop codons Rest (61) codes to 20 amino acids Rest (61) codes to 20 amino acids

30 物理學家做了些什麼?

31 Random Walk 什麼是「無規行走」( Random Walk )? 什麼是「無規行走」( Random Walk )? 一維:丟一枚銅板,出現正面則向前一步,出現背面則向 後一步 一維:丟一枚銅板,出現正面則向前一步,出現背面則向 後一步 二維:丟兩枚銅板,出現「++」則向前、「+-」向後、 「-+」向左、「--」向右 二維:丟兩枚銅板,出現「++」則向前、「+-」向後、 「-+」向左、「--」向右 如果沒有作弊,平均而言,走過很多步以後,會回到原點 附近 如果沒有作弊,平均而言,走過很多步以後,會回到原點 附近 但是不會剛好回到原點,而是在距離原點 √N 的範圍之內 但是不會剛好回到原點,而是在距離原點 √N 的範圍之內 寫成數學表示法: Y(N)=0± √N 。若把標準差寫為 F(N) , 則 F(N)= √N 或 N 0.5 寫成數學表示法: Y(N)=0± √N 。若把標準差寫為 F(N) , 則 F(N)= √N 或 N 0.5 利用電腦程式模擬看看:

32 DNA Walk 如果我們不用丟骰子的方式來決定往哪個方向走, 而是利用 DNA 序列來決定,結果如何? 如果我們不用丟骰子的方式來決定往哪個方向走, 而是利用 DNA 序列來決定,結果如何? 一維 DNA walk 方法:依序讀入 DNA 序列,如果 讀到 C, T (嘧啶)則向前一步,如果讀到 A, G (嘌呤)則向後退一步 一維 DNA walk 方法:依序讀入 DNA 序列,如果 讀到 C, T (嘧啶)則向前一步,如果讀到 A, G (嘌呤)則向後退一步 二維 DNA walk 方法:四種核甘酸剛好對應四個 方向 二維 DNA walk 方法:四種核甘酸剛好對應四個 方向

33

34 麵包酵母菌第三及第八條染色體之一維 DNA Walk

35 麵包酵母菌第二條染色體之二維 DNA Walk

36 關於一維 Walker 的分析 比較三種「走法」:前兩種是我們前面介紹過的 Random walk 以及 DNA walk 比較三種「走法」:前兩種是我們前面介紹過的 Random walk 以及 DNA walk 第三種是 Fibonacci walk: 利用所謂的 Fibonacci 數列方法產生一個「假的」 DNA 序列 第三種是 Fibonacci walk: 利用所謂的 Fibonacci 數列方法產生一個「假的」 DNA 序列 由 G 開始 →G 變成 GC→G 變成 GC , C 變成 G ( GCG ) →GCGGC→GCGGCGCG…… 由 G 開始 →G 變成 GC→G 變成 GC , C 變成 G ( GCG ) →GCGGC→GCGGCGCG…… 產生出來的序列再用 DNA walk 的方法去走,得 到下圖 產生出來的序列再用 DNA walk 的方法去走,得 到下圖

37 DNA Walk (conti.) Fluctuations: Fluctuations: Correlation: Correlation: Random sequence and short correlated sequence: Random sequence and short correlated sequence: Long-range correlated sequence: Long-range correlated sequence:

38 F(N) N

39 關於一維 Walker 的分析(續) 由 F(N)=N  的行為看來,這三種序列有很大的不 同: 由 F(N)=N  的行為看來,這三種序列有很大的不 同: Random walk:  = 0.5 Random walk:  = 0.5 Human Ch22:  ~ 0.6 Human Ch22:  ~ 0.6 Fibonacci:  << 0.5 Fibonacci:  << 0.5 Random walk 裡面不含資訊(全是隨機亂數), 因此  =0.5 表示「資訊量最低」 Random walk 裡面不含資訊(全是隨機亂數), 因此  =0.5 表示「資訊量最低」 Fibonacci 序列有嚴謹的規則,所以  偏離 0.5 很遠 Fibonacci 序列有嚴謹的規則,所以  偏離 0.5 很遠 DNA ? DNA ? “ 有點亂又不是太亂 ”

40 DNA Walk (conti.) (a) intron-containing  -cardiac myosin (● with a=0.67) and its cDNA (○ with a=0.49) (b) ● with a=0.62) and its intronless genes (○ with a=0.49), see table (b) intron-rich genes (● with a=0.62) and its intronless genes (○ with a=0.49), see table (c) same as in (a) for longer distance

41 DNA Walk (conti.)

42 奇怪的是 …… DNA 序列中有分 coding (gene) 以及 non- coding (junk, intron) 區域,我們很合理的猜測, 編碼區應該是「含有資訊」,而非編碼區是接 近亂數序列、不含資訊的序列 DNA 序列中有分 coding (gene) 以及 non- coding (junk, intron) 區域,我們很合理的猜測, 編碼區應該是「含有資訊」,而非編碼區是接 近亂數序列、不含資訊的序列 可是根據對編碼區與非編碼區分別計算  的結 果 …… 可是根據對編碼區與非編碼區分別計算  的結 果 …… 編碼區的  = 0.5 ,非編碼區的  ~ 0.6 !

43 雖然還是搞不清楚原因,不過還是提供了一 個判斷編碼區或非編碼區的方法:

44 DNA 「剪不斷,理還亂?」 當  ≠0.5 時,表示這個序列有「 long range correlation 」,也就是第 x 步會與第 x+N 步有關 當  ≠0.5 時,表示這個序列有「 long range correlation 」,也就是第 x 步會與第 x+N 步有關 DNA 的  ≠0.5 ,也就表示 DNA 序列存在某種規 則, but what ? DNA 的  ≠0.5 ,也就表示 DNA 序列存在某種規 則, but what ? 一個可能性: DNA 的電子傳導( S. Roche et al. ) 一個可能性: DNA 的電子傳導( S. Roche et al. ) DNA 的電子傳導性較 random sequence 好 DNA 的電子傳導性較 random sequence 好 DNA 的電傳性質是目前一個非常重要的問題 DNA 的電傳性質是目前一個非常重要的問題

45

46 Still an open question!

47 Visualize the Complete Genome 利用符號動力學 (symbolic dynamics) 方法,可以 將物種的完整 DNA 序列圖像化,是一種粗粒化的方 式,雖然失去一些細節,然而卻能使某些重要的特 性一目了然

48 Method for Visualization 將序列圖像化的方法: 將序列圖像化的方法: 1. 設定子序列長度,例如為 2 2. 將一單位正方形分割為四 等分,其所代表的鹼基如 圖所示。 3. 將每一小格再細分為四格, 亦以同樣的相對位置訂定 對應鹼基。 GC ATGCGGCGCCGAGTCACT AGACTGTC AAATTATT

49 Method for Visualization (conti.) 統計序列中各長度為 2 之 子序列出現的次數,例如 下列序列: AATCGGACGTAACC GTAATATAGG ,則其出 現次數如右表所示。 統計序列中各長度為 2 之 子序列出現的次數,例如 下列序列: AATCGGACGTAACC GTAATATAGG ,則其出 現次數如右表所示。 將各出現頻率依高低以不 同的顏色表示,顏色越深 者表出現次數越多。 將各出現頻率依高低以不 同的顏色表示,顏色越深 者表出現次數越多。 所得之圖稱為該物種之 Genome Portrait 。 所得之圖稱為該物種之 Genome Portrait 。 GC0GG2CG3CC1 GA1GT2CA0CT0 AG1AC2TG0TC1 AA3AT3TA4TT0

50 Statistical Properties 如果 DNA 序列是隨機 序列,則各個子序列 出現的機率應該差不 多,但是由所研究的 幾個序列顯示,出現 機率的分佈極不均勻, 因此 DNA 序列顯然不 是一個隨機序列。

51 Genome Maps of Different Species 對不同的物種可以作相同的分析,發現有 些物種的 Genome Map 很類似,有些則差 距較大。這種方法可能可以作為分類或是 演化學研究的方法。 對不同的物種可以作相同的分析,發現有 些物種的 Genome Map 很類似,有些則差 距較大。這種方法可能可以作為分類或是 演化學研究的方法。

52 Why so few? 既然 DNA 序列的子 序列分佈不均勻, 「經常出現」與「較 少出現」的子序列, 必然有其生物意義。 先由「較少出現」者 來看,在此圖形上似 乎顯示出某種碎形 ( fractal )的特性? 這是為了「躲避」限 制內切脢的攻擊。

53 DNA 中的迴文 經過分析的結果,發現這 些「躲避」的字串都呈現 迴文的型態,如: CTAG , GGACC , CCTAGG 等。 經過分析的結果,發現這 些「躲避」的字串都呈現 迴文的型態,如: CTAG , GGACC , CCTAGG 等。 當某些酵素探測到這類序 列時可以與之結合,並由 此處將 DNA 長鏈切斷, 造成該生物死亡 當某些酵素探測到這類序 列時可以與之結合,並由 此處將 DNA 長鏈切斷, 造成該生物死亡 因此這些「 DNA 肖像」反 映出這個物種的演化痕跡 因此這些「 DNA 肖像」反 映出這個物種的演化痕跡

54 結語 物理學家處理 DNA 特性的方式,與生物學家大 為不同 物理學家處理 DNA 特性的方式,與生物學家大 為不同 生物學家希望能將每個生物的 DNA 序列的每個 基因找出來,並且探討這些基因在生物體內的功 能 生物學家希望能將每個生物的 DNA 序列的每個 基因找出來,並且探討這些基因在生物體內的功 能 物理學家喜歡找「共同規則」,所以經常將各種 不同物種的序列拿來一起分析,希望找出共同點 物理學家喜歡找「共同規則」,所以經常將各種 不同物種的序列拿來一起分析,希望找出共同點 但是由於目前資料量過於龐大,因此物理學家先 用所熟悉統計工具來「玩」 DNA 但是由於目前資料量過於龐大,因此物理學家先 用所熟悉統計工具來「玩」 DNA 只要有好點子,都可以來玩玩看! 只要有好點子,都可以來玩玩看!


Download ppt "DNA 序列的統計遊戲 Statistical Games in DNA Sequences 東海大學物理系‧施奇廷 2004/10/05 計算科學總論."

Similar presentations


Ads by Google