Presentation is loading. Please wait.

Presentation is loading. Please wait.

1 真核生物基因结构的预测分析 浙江加州国际纳米技术研究院. 2 基因组序列 cDNA 序列 编码区预测 Codon bias GC Content 限制性酶切位点 基因结构分析 选择性剪切 转录调控因子 序列比对 功能注释 KEGG GO 系统发育树 蛋白质序列 翻译 蛋白质理化性质 二级结构预测.

Similar presentations


Presentation on theme: "1 真核生物基因结构的预测分析 浙江加州国际纳米技术研究院. 2 基因组序列 cDNA 序列 编码区预测 Codon bias GC Content 限制性酶切位点 基因结构分析 选择性剪切 转录调控因子 序列比对 功能注释 KEGG GO 系统发育树 蛋白质序列 翻译 蛋白质理化性质 二级结构预测."— Presentation transcript:

1 1 真核生物基因结构的预测分析 浙江加州国际纳米技术研究院

2 2 基因组序列 cDNA 序列 编码区预测 Codon bias GC Content 限制性酶切位点 基因结构分析 选择性剪切 转录调控因子 序列比对 功能注释 KEGG GO 系统发育树 蛋白质序列 翻译 蛋白质理化性质 二级结构预测 结构域分析 重要信号位点分析 三级结构预测 基因组功能分析

3 3 真核生物基因的主要结构

4 4 基因结构分析 开放读码框 GENSCAN GENOMESCAN CpG 岛 CpGPlot 启动子 / 转录起始位点 PromoterScan 转录终止信号 POLYAH 密码子偏好分析 CodonW mRNA 剪切位点 NETGENE2 Spidey 选择性剪切 ASTD 基因结构分析常用软件

5 5 开放阅读框的识别 开放阅读框( open reading frame, ORF) 是一段起始密码子和终止密码子之间的碱基序列 ORF 是潜在的蛋白质编码区

6 6 基因开放阅读框 / 基因结构分析识别工具 ORF Finderhttp://www.ncbi.nlm.nih.gov/gorf/gorf.htmlNCBI 通用 BestORFhttp://linux1.softberry.com/berry.phtml?topic=bestorf& group=programs&subgroup=gfind Softberry 真核 GENSCANhttp://genes.mit.edu/GENSCAN.htmlMIT 脊椎、拟南芥、玉米 Gene Finderhttp://rulai.cshl.org/tools/genefinder/Zhang lab 人、小鼠、拟南芥、酵母 FGENESHhttp://linux1.softberry.com/berry.phtml?topic=fgenesh &group=programs&subgroup=gfind Softberry 真核 ( 基因结构 ) GeneMarkhttp://opal.biology.gatech.edu/GeneMark/eukhmm.cgiGIT 原核 GLIMMERhttp://www.ncbi.nlm.nih.gov/genomes/MICROBES/gli mmer_3.cgi http://www.cbcb.umd.edu/software/glimmer Maryland 原核 Fgeneshttp://linux1.softberry.com/berry.phtml?topic=fgenes& group=programs&subgroup=gfind Softberry 人(基因结构) FgeneSVhttp://linux1.softberry.com/berry.phtml?topic=virus&gr oup=programs&subgroup=gfindv Softberry 病毒 Generationhttp://compbio.ornl.gov/generation/ORNL 原核 FGENESBhttp://linux1.softberry.com/berry.phtml?topic=fgenesb &group=programs&subgroup=gfindb Softberry 细菌(基因结构) GenomeScanhttp://genes.mit.edu/genomescan.htmlMIT 脊椎、拟南芥、玉米 GeneWise2http://www.ebi.ac.uk/Wise2/EBI 人 GRAILhttp://grail.lsd.ornl.gov/grailexp/ORNL 人、小鼠、拟南芥、果蝇

7 7 ORF 识别: GENSCAN GENSCAN http://genes.mit.edu/GENSCAN.html 结果返回到邮箱(可选) 提交序列 提交序列文件 运行 GENSCAN 显示氨基酸或 CDS 序列 序列名称(可选) 是否显示非最优外显子 选择物种类型

8 88 GENSCAN 输出结果:文本

9 99 GENSCAN 输出结果:图形

10 10 ORF 识别: GenomeScanGenomeScan 提交待分析序列 提交同源蛋白质序列 运行 GenomeScan http://genes.mit.edu/genomescan.html

11 11 GenomeScan 输出结果:文本 预测外显子位置、可 信度等信息 同源比 对信息 预测结果的氨基酸序列

12 12 GenomeScan 输出结果:图形

13 13 课堂练习 1 使用 GENSCAN 预测序列中可能的 ORF 。 2 使用 GENOMESCAN 预测序列中可能的 ORF 。 练习用的序列文件在 c:\zcni\shixi2 文件下, 名字为 clone.fasta ,使用写字板打开查看。

14 14 转录调控序列分析 CpG 岛、启动子和转录终止信号区域的预测

15 15 CpG 岛的预测 CpG 岛 常位于真核生物基因转录起始位点, GC 含 >50% , 长度 >200bp 的一段 DNA 序列。

16 16 CpG Island 分析常用软件 CpG Island http://www.uscnorris.com/cpgislands2/cpg.asp x Web CpGPlot http://www.ebi.ac.uk/emboss/cpgplot/index. html Web CpG finder http://www.softberry.com/berry.phtml?topic=c pgfinder&group=programs&subgroup=pro moter Web CpGi130http://methycancer.psych.ac.cn/CpG130.doweb CpGproD http://pbil.univ- lyon1.fr/software/cpgprod_query.html web

17 提交序列文件 提交序列 参数选项 CpG 岛的预测: CpGPlot CpGPlot http://www.ebi.ac.uk/emboss/cpgplot/index.html

18 18 GENSCAN 预测结果 起始为 532bp 终止于 51783bp

19 19 启动子区结构 启动子( Promoter ) 位于结构基因 5’ 端上游,能活化 RNA 聚合酶,使之与模板 DNA 结合并具有转录起始的特异性  转录起始位点 (Transcription start site, TSS) P Y CAP Y (嘧啶)  核心启动子元件 (Core promoter element) TATA box , Pribnow box ( TATAA)  上游启动子元件 (Upstream promoter element , UPE) CAAT box , GC box , SP1 , Otc  增强子 (Enhancer) PyCAPy TATAAT GC 区 CAAT 区 mRNA +1+1 - 40 - 25 - 110 增强子 上游启动子元件, UPE 核心启动子元件 转录起始位点

20 20 PromoterScan http://bimas.dcrt.nih.gov:80/molbio/proscan/Web Promoser http://biowulf.bu.edu/zlab/PromoSer/Web Neural Network Promoter Prediction http://www.fruitfly.org/seq_tools/promoter.htmlWeb Softberry: BPROM, TSSP, TSSG, TSSW http://www.softberry.com/berry.phtml?topic=ind ex&group=programs&subgroup=promoter Web MatInspector http://www.gene-regulation.de/Web RSAT http://rsat.ulb.ac.be/rsat/Web Cister http://zlab.bu.edu/~mfrith/cister.shtmlWeb 启动子结合位点分析常用软件

21 21 启动子预测: PromoterScan PromoterScan http://www-bimas.cit.nih.gov/molbio/proscan/ 提交序列

22 22 PromoterScan 输出结果 找到的 TATA box 和转录起始位点 预测可能的转录因子转录因子在提交序列中的位置

23 23 转录终止信号 上游作用元件: AAUAAA 下游作用元件: GC rich 二重对称区、 UUUUUU C-G G-C U-A G-C C-G G-C UUUUUUUUU RNA 5’3’ AAUAAACAAAAAAAAAAAAA 成熟 mRNA 5’3’ AAUAAACAGU mRNA 前体 5’3’

24 24 转录终止信号预测: POLYAH POLYAH http://www.softberry.com/berry.phtml?topic=polyah&group=programs &subgroup=promoter 提交序列文件 提交序列

25 25 polyA 位置 GENESCAN 预测结果 PolyA 位点 52398bp POLYAH 输出结果

26 26 课堂练习 1 使用 CpG Plot 预测基因的 CpG island 位 置。 2 使用 PolyAH 预测基因可能的转录终止 的位置。 3 使用 PromotorScan 寻找基因上游序列 里可能的转录因子调控区域。

27 基因密码子偏好性 27

28 28 1. 研究蛋白质结 构功能中的作用 2. 在表达外源基 因方面的作用 3. 在生物信息学 研究中的作用

29 基因密码子偏好性 : CodonW CodonW 29 粘帖目的序列 密码子表的选择 如需计算 FOP/CBI 选择相 应物种 如需计算 CAI 选择 相应物种 http://mobyle.pasteur.fr/cgi-bin/portal.py?form=codonw

30 30 参 数 选 择参 数 选 择 计算所有指数 计算有效密码子数 计算 GC 含量 计算 GC3s 含量 计算同义密码子数量 计算同义密码子 第三位碱基组成 密码子总数

31 31 密码子使用频率 CodonW 结果界面

32 课堂练习 使用 CodonW 分析基因的密码子使用偏好, 了解密码子偏好分析中各指数的含义。 32

33 33 内含子 / 外显子剪接位点识别 如何分析核酸序列中的外显子组成?  通过对特征序列 (GT-AG) 的分析进行直 接的预测基因预测软件( NetGene2 )  与相应的基因组序列比对,分析比对片 段的分布位置( Spidey )

34 34

35 35 剪接位点识别: NetGene2 NetGene2 http:// www.cbs.dtu.dk/services/NetGene2 / 提交序列 选择物种

36 36 NetGene2 输出结果 供体位点 受体位点 可信度 相位

37 37 mRNA 剪接位点识别: Spidey Spidey NCBI 开发的在线匹配程序 用于 mRNA 序列同基因组序列比对分析 http://www.ncbi.nih.gov/spidey

38 38 Spidey 同源序列的获得 : 序列比对 通过 BLAST 进行序列比对,找到可能同源 的相似性好的一系列 mRNA 序列。 BLAST BLAST 比对到的三条 mRNA 序列

39 39 输入基因组序列或序列数据库号 输入相似性序列 判断用于分析的序列间的 差异,并调整比对参数 不受默认内含子长度限制。 默认长度:内部内含子为 35kb, 末端内含子为 100kb 比对阈值 选择物种 输出格式选择

40 40 Spidey 输出结果 第一条蓝色序列 为基因组序列, 橘黄色为外显子 外显子对应于 基因组上的 起始 / 结束位置 外显子对应于 mRNA/cDNA 上的 起始 / 结束位置 供体、受体位点 外显子 长度 一致性 百分比 错配和 gap 外显子 序号 序列联配结果

41 41 GENSCAN 与 Spidey 结果比较 可能的选择性剪切体

42 42 课堂练习 1 练习两种预测剪切位点的软件的使用, NetGene2 和 Spidey 。 2 Spidey 的同源序列文件保存在 c:\zcni\shixi2 文件下,名字为 Spidey.txt , 使用写字板打开查看。

43 43 选择性剪接 ( Alternative splicing ) 分析 选择性剪接是调控基因表达的重要机制 了解不同物种、细胞、发育阶段、环境压力下基因 的调控表达机制

44 44 选择性剪接的类型  5’ 端选择性剪接位点 恒定外显子 可变外显子  外显子遗漏  内含子保留  互斥外显子  3’ 端选择性剪接位点

45 45 查询选择性剪接相关的网站 http://www.ebi.ac.uk/astd/main.html 综合 http://splicenest.molgen.mpg.de/ 综合 http://rulai.cshl.edu/new_alt_exon_db2/ 综合 http://prosplicer.mbc.nctu.edu.tw/ http://www.bit.uq.edu.au/altExtron 人 http://www.cse.ucsc.edu/~kent/intronerator/altsplice.html 线虫 http://www.tigr.org/tdb/e2k1/ath1/altsplicing/splicing_variations.shtml 拟南芥 从已知基因的功能推测剪接机制

46 46 选择性剪接查询: ASTD 数据库 ASTD http://www.ebi.ac.uk/astd/main.html 输入基因名称 选择物种类型

47 47 ASTD 数据库检索结果:基因描述信息 导出序列文件

48 48 ASTD 数据库检索结果:选择性剪接的 mRNA 十一种选择性剪切产物十一种选择性剪切产物

49 49 ASTD 数据库检索结果:表达的组织特异性 在不同组织中各 种选择性剪接体 的表达差异 十一种不同的选 择性剪接产物

50 50 基因结构分析 开放读码框 GENSCAN GENOMESCAN CpG 岛 CpGPlot 启动子 / 转录起始位点 PromoterScan 转录终止信号 POLYAH 密码子偏好分析 CodonW mRNA 剪切位点 NETGENE2 Spidey 选择性剪切 ASTD 小结

51 51 实习一基因组数据注释和功能分析 实习二真核生物基因结构的预测分析 实习三芯片的基本数据处理和分析 实习四蛋白质结构与功能分析 实习五蛋白质组学数据分析 实习六系统生物学软件实习 课程内容 基因组学 转录组学 蛋白质组学

52 52 Thanks!

53 53


Download ppt "1 真核生物基因结构的预测分析 浙江加州国际纳米技术研究院. 2 基因组序列 cDNA 序列 编码区预测 Codon bias GC Content 限制性酶切位点 基因结构分析 选择性剪切 转录调控因子 序列比对 功能注释 KEGG GO 系统发育树 蛋白质序列 翻译 蛋白质理化性质 二级结构预测."

Similar presentations


Ads by Google