Presentation is loading. Please wait.

Presentation is loading. Please wait.

Bioinformática y la era post-genómica Coral del Val Muñoz Dept. Ciencias de la Computación e Inteligencia Artificial, Universidad de Granada Dept. Molecular.

Similar presentations


Presentation on theme: "Bioinformática y la era post-genómica Coral del Val Muñoz Dept. Ciencias de la Computación e Inteligencia Artificial, Universidad de Granada Dept. Molecular."— Presentation transcript:

1 Bioinformática y la era post-genómica Coral del Val Muñoz Dept. Ciencias de la Computación e Inteligencia Artificial, Universidad de Granada Dept. Molecular Biophysics, German Cancer Research Center Heidelberg, Alemania Dept. Molecular Microbiology HHMI, Washington University, St. Louis USA

2 Volvemos al principio…“El dogma central” ADN ARN Proteína Trascripción Traducción Replicacion

3 Eucariotas: tienen una membrana nuclear y orgánulos (plantas, animales, hongos,…) Biología Molecular: ProcariotasVsEucariotas Procariotas: no tienen una membrana Que separe núcleo y orgánulos (bacteria) NO todos los organismos unicelulares son procariotas (levadura) BIOS Scientific Publishers Ltd, 1999

4 ATGCCAGGCCCCCCACCAGCCACGTTGGGGCAGCCCCCACAGCTCCCGGCCTTCGGGCCAAGGTGTCGGGGTGCGTCTCCTGGCCCATC AATACAGATTACATATTTATATCAATCGCGGGCTCTGAGGGCGCCCTCGGAGAGCGGCCCCGCGCCTACGAAACCAAACTGGGAGTGG TCGCGCGGAAACTCTGGCTCGGGATTGGCTGCGGGCGCCCGCCGCGGTGCGGGGGGATTGCTAATCGTATTCAGCATGTTTTGCACAAG AAATGTCAGCCAGAAAGGGCTATCTGCTCCCTTCGCCAAATTATCCCACAACAATGTCATGCTCGGAGAGCCCCGCCGCGAACTCTTTT TTGGTCGACTCGCTCATCAGCTCGGGCAGAGGCGAGGCAGGCGGCGGTGGTGGTGGCGCGGGGGGCGGCGGCGGTGGCGGTTACTACG CCCACGGCGGGGTCTACCTGCCGCCCGCCGCCGACCTGCCATACGGGCTGCAGAGCTGCGGGCTCTTCCCCACGCTGGGCGGCAAGCGC AATGAGGCAGCGTCGCCGGGCAGCGGTGGCGGTGGCGGGGGTCTAGGTCCCGGGGCGCACGGCTACGGGCCCTCGCCCATAGACCTGT GGCTAGACGCGCCCCGGTCTTGCCGGATGGAGCCGCCTGACGGGCCGCCGCCGCCGCCCCAGCAGCAGCCGCCGCCCCCGCCGCAACC ACCCCAGCCAGCGCCGCAGGCCACCTCGTGCTCTTTCGCGCAGAACATCAAAGAAGAGAGCTCCTACTGCCTCTACGACTCGGCGGACA AATGCCCCAAAGTCTCGGCCACCGCCGCCGAACTGGCTCCCTTCCCGCGGGGCCCGCCGCCCGACGGCTGCGCCCTGGGCACCTCCAGC GGGGTGCCAGTGCCTGGCTACTTCCGCCTTTCTCAGGCCTACGGCACCGCCAAGGGCTATGGCAGCGGCGGCGGCGGCGCGCAGCAACT CGGGGCTGGCCCGTTCCCCGCGCAGCCCCCGGGGCGCGGTTTCGATCTCCCGCCCGCGCTAGCCTCCGGCTCGGCCGATGCGGCCCGGA AGGAGCGAGCCCTCGATTCGCCGCCGCCCCCCACGCTGGCTTGCGGCAGCGGCGGGGGCTCGCAGGGCGACGAGGAGGCGCACGCGTC GTCCTCGGCCGCGGAGGAGCTCTCCCCGGCCCCTTCCGAGAGCAGCAAAGCCTCGCCGGAGAAGGATTCCCTGGGTAAGCAGGGCTGC AGAGGGCTGCAGTCAGGCGGGCAGACAGGCAGACACAAGGAGGAGAAGGATCAGAAAACTAGGAGCCCGCGCAGCAGCCGGCCGGC CTTGGCCCAAGCTGCAGGCAGGCTGACCTTGTGAACTTGCTTTTTAATATTTGGGCGTGGGGGCGCAGTAAAATTCATGTCCGGCTTAG CGCCCCACAGCAAGACGTCCTCGGCGCTGGCCTCAGCTCCCCCTGACTAGGGACGAGGACACCAGCGAGCAGGCCCCCTCCTGTGCGCT CTTTCCTGTGGCCGGGAGGACCCAGAGCCCTGGTCCCTGCCCAGCCTGCGCGGCGCGGCCCACGCGGGGGGAGGGGGAGGGAGGGAAA GTAGCTCGCCCGCAGATAGCGCGGATGTTTGTAAGGCATCCAAAATAAGCAGCCGCCAGCGCCAATAAATAAGCCCATTAACCGGCGA AGTTCGAGTGTACGATCCCCCATGCTTTTTTCAAAGTTGCTGAGGGGCGGGAATCTTCGTGGCGGGAAGAAGAAAAGGCAAATCCGGC CTGGAAGCGGGGGGCCCTGAGCTGAGAGCCAGAGAAGGGCCATTTCCCTTCCCCTGGACCTCGGAATCGCCCAGCTATGTATCCTGGCT CCTGGAGAAACTTGAGGGAGGGCCCTTGACCCCCGAATCGGTTTTTCCTGCCTTCCCCATTGGACCAATGATGCCCTTCTTTCTCCCCTT ATCGAGTCTTGGGCAATCAGGGCCCTGGGGTGAGACAGCCAAGCTGCCTGGCCCATCTTCCAAGTAAGCACCCCGCGCTCCTAGCCTGG GGGCTACAGGAAATGCTTGTCTGCCATATGGCAAGAGGCAAAGAAAAGCGTTAAGTTCAAGATGTACAGCCTGCCCTCCCAGGCCTTTC CTTCTGCAAGCATCTACGGCTTAGCGCTAAAACAGGTGTTTGGAAAAGTGGGGGAAATGTAAATTGGAAGGGTCATGTAGATTGAAGG CCCACTCAATTTTTGTCATGACTTATGGAGGAACTGCTTGCTCTCAGCAAGCCAAAAACGGGGGCACGACTCTCTTCTCTGTGACTTGGG ACATCTCTCTTATGGGAGAAACGGAGGCAATTCACCCCCGCGGGCAGCCCGTGTGGCCTCGACTTAATCATCCCCTCTTTATTCTCTTAC ATGCCAGGCAATTCCAAAGGTGAAAACGCAGCCAACTGGCTCACGGCAAAGAGTGGTCGGAAGAAGCGCTGCCCCTACACGAAGCAC CAGACACTGGAGCTGGAGAAGGAGTTTCTGTTCAATATGTACCTTACTCGAGAGCGGCGCCTAGAGATTAGCCGCAGCGTCCACCTCAC GGACAGACAAGTGAAAATCTGGTTTCAGAACCGCAGGATGAAACTGAAGAAAATGAATCGAGAAAACCGGATCCGGGAGCTCACAGC CAACTTTAATTTTTCCTGATGAATCTCCAGGCGAC ¿Cómo y dónde encontramos los genes?

5 Alta densidad de genes y estructura sencilla Genes cortos con poca información Genes solapados Gen procariota (bacterias)

6 Ejemplo de promotor procariota Pribnow box located at –10 (6-7bp) Promoter sequence located at -35 (6bp)

7 Eukaryotic Gene Organisation Transcription: core promoter:loosely conserved initiator region (Inr) around TSS ~ - 25: TATA-box proximal promoter:~ - 75: CAT (CCAAT) ~ - 170: GC-box enhancer / silencer: upstream or downstream to promoter Core PromoterProximal Promoter TSS TATA GC Inr CAAT Promoter core proximal Translation: 5‘ Kozak sequence: GCCACCATG 3‘ polyadenylation site: AATAAA

8 Baja densidad de genes y estructura compleja Corte y unión alternativo (Splicing alternativo) Pseudo-genes Gen eucariota (con núcleo) preRNA: 3'UTR5'UTR Exon 1Exon 2Exon 3 Intron 1Intron 2 AAAAAAAAA mRNA: Splicing / Polyadenylation polyA ATG TAA active protein: Traducción CPLTW GFL CPLTW PJC Splice variant Modificación post- transduccional CPLTW LAC ATGTAA

9 Genes Procariotas vs Eucariotas

10 Espliceosoma

11 Por homología (similaridad en la secuencia) –Requiere una secuencia similar no muy distante Ab initio –Requiere: Información de su composición –Información de señales ¿Cómo reconocer un gen?

12 Alineamientos por pares - Globales: Needleman & Wunsch - Locales: Smith & Watterman Identificación por homología Alineamientos múltiples: - Clustalw - T-Coffee - Di-Align - DSC Búsquedas en Bases de Datos - BLAST- Phi-BLAST - FASTA - Megablast - Psi-BLAST - BLAT - WU-BLAST

13 Problemas: –Genes sin homólogos en las bases de datos no son detectados –Se requiere de homólogos cercanos para deducir la estructura del gen Métodos por homología

14 Integra la detección de señales con las estadísticas de codificación –Éstas se deducen de un conjunto de entrenamiento –Detectar pequeños motivos de ADN (promotores, start/stop codons, splice sites, etc.) Un sistema de puntuación “scoring” puede ser utilizado para evaluar estas predicciones Métodos ab Initio

15 El problema de la detección de señales –Las señales de ADN tienen un bajo nivel de información –Son altamente inespecíficas y degeneradas –Dificultad para distinguir un TP de un FP Como mejorar la detección de señales –Tomar en cuenta el contexto (ej. un sitio aceptor debe encontrarse entre un intrón y un exón) –Combinar las estadísticas de codificación Detección de señales Gribskov Profiles PSWM Modelos Ocutos de Markov Redes Neuronales

16 Secuencia de ADN Probabilidad de laregión codificante Métodos ab Initio Gribskov Profiles PSWM Modelos Ocutos de Markov Redes Neuronales Búsqueda de señales y regiones codificantes

17 Computational annotation tools Gene finding Repeat finding EST/cDNA alignment Homology searching –BLAST, FASTA, HMM-based methods, etc. Protein family searching –PFAM, Prosite, etc.

18 Which analyses need to be run? Similarity searches –BLAST (Altschul et al., 1990) BLASTN (nucleotide databases) BLASTX (amino acid databases) TBLASTX (amino acid databases, six-frame translation) –sim4 (Miller et al., 1998) Sequence alignment program for finding near-perfect matches between nucleotide sequences containing introns Gene predictors –Genefinder (Green, unpublished) –GenScan (Burge and Karlin, 1997) –Genie (Reese et al., 1997) Other analyses –tRNAscanSE (Lowe and Eddy, 1996)

19 Which analyses need to be run and how? mRNAs –ORFFinder(Frise, unpublished) Protein translations –HMMPFAM 2.1 (Eddy 1998) against PFAM (v Sonnhammer et al. 1997, Bateman et al. 1999) –Ppsearch (Fuchs 1994) against ProSite (release 15.0) filtered with EMOTIF ( Nevill-Manning et al. 1998) –Psort II (Horton and Nakai 1997) –ClustalW (Higgins et al. 1996)

20 Raw sequence: Adh.fa GAATTCCCGGTTCAATCTCGTAGAACTTGCCCTTGGTGGACAGTGGGACGTACAACACCTGCCGGTTTTCATTAAGCAGCTGGGCATAC TTCTTTTCCTTCTCCCTTCCCATGTACCCACTGCCATGGGACCTGGTCGCATTGCCGTTGCCATGTTGCGACATATTGACCTGATCCTG TTTGCCATCCTCGAAGACGGCCAACAGACGGAATACCTGCCCGCCCCTTGCCGTCGTTTTCACGTACTGTGGTCGTCCCTTGTTTATGG GCAGGCATCCCTCGTGCGTTGGACTGCTCGTACTGTTGGGCGAGGATTCCGTAAACGCCGGCATGTTGTCCACTGAGACAAACTTGTAA ACCCGTTCCCGAACCAGCTGTATCAGAGATCCGTATTGTGTGGCCGTGGGGAGACCCTTCTCGCTTAGCATCGAAAAGTAACCTGCGGG AATTCCACGGAAATGTCAGGAGATAGGAGAAGAAAACAGAACAACAGCAAATACTGAGCCCAAATGAGCGATAGATAGATAGATCGTGC GGCGATCTCGTACTGGTAACTGGTAATTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGGTTCTGGCTTACGATCGGGTTT TGGGCTTTGGTTGTGGCCTCCAGTTCTCTGGCTCGTTGCCTGTGCCAATTCAAGTGCGCATCCGGCCGTGTGTGTGGGCGCAATTATGT TTATTTACTGGTAACTGGTAATTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGTCCCGGTTCAATCTCGTAGAACTTGCC CTTGGTGGACAGTGGGACGTACAACACCTGCCGGTTTTCATTAAGCAGCTGGGCATACTTCTTTTCCTTCTCCCTTCCCATGTACCCAC TGCCATGGGACCTGGTCGCATTGCCGTTGCCATGTTGCGACATATTGACCTGATCCTGTTTGCCATCCTCGAAGACGGCCAACAGACGG AATACCTGCCCGCCCCTTGCCGTCGTTTTCACGTACTGTGGTCGTCCCTTGTTAAAGTAACCTGCGGGAATTCCACGGAAATGTCAGGA GATAGGAGAAGAAAACAGAACAACAGCAAATACTGAGCCCAAATGAGCGATAGATAGATAGATCGTGCGGCGATCTCGTACTGGTAACT GGTAATTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGGTTCTGGCTTACGATCGGGTTTTGGGCTTTGGTTGTGGCCTCC AGTTCTCTGGCTCGTTGCCTGTGCCAATTCAAGTGCGCATCCGGCCGTGTGTGTGGGCGCAATTATGTTTATTTACTGGTAACTGGTAA TTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGTCCCGGTTCAATCTCGTAGAACTTGCCCTTGGTGGACAGTGGGACGTA CAACACCTGCCGGTTTTCATTAAGCAGCTGGGCATACTTCTTTTCCTTCTCCCTTCCCATGTACCCACTGCCATGGGACCTGGTCGCAT TGCCGTTGCCATGTTGCGACATATTGACCTGATCCTGTTTGCCATCCTCGAAGACGGCCAACAGACGGAATACCTGCCCGCCCCTTGCC GTCGTTTTCACGTACTGTGGTCGTCCCTTGTTTATGGGCAGGCATCCCTCGTGCGTTGGACTGCTCGTACTGTTGGGCGAGGATTCCGT AAACGCCGGCATGTTGTCCACTGAGACAAACTTGTAAACCCGTTCCCGAACCAGCTGTATCAGAGATCCGTATTGTGTGGCCGTGGGGA GACCCTTCTCGCTTAGCATCGAAAAGCTTACGATCGGGTTTTGGGCTTTGGTTGTGGCCTCCAGTTCTCTGGCTCGTTGCCTGTGCCAA TTCAAGTGCGCATCCGGCCGTGTGTGTGGGCGCAATTATGTTTATTTACTGGTAACTGGTAATTTGATCGATTCAAACGATTCTGGGTC TCCCCGGTTTTCTGTCCCGGTTCAATCTCGTAGAACTTGCCCTTGGTGGACAGTGGGACGTACAACACCTGCCGGTTTTCATTAAGCAG CTGGGCATACTTCTTTTCCTTCTCCCTTCCCATGTACCCACTGCCATGGGACCTGGTCGCATTGCCGTTGCCATGTTGCGACATATTGA CCTGATCCTGTTTGACTGGTAACTGGTAATTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGTCCCGGTTCAATCTCGTAG AACTTGCCCTTGGTGGACAGTGGGACGTACAACACCTGCCGGTTTTCATTAAGCAGCTGGGCATACTTCTTTTCCTTCTCCCTTCCCAT GTACCCACTGCCATGGGACCTGGTCGCATTGCCGTTGCCATGTTGCGACATATTGACCTGATCCTGTTTGCCATCCTCGAAGACGGCCA ACAGACGGAATACCTGCCCGCCCCTTGCCGTCGTTTTCACGTACTGTGGTCGTCCCTTGTTTATGGGCAGGCATCCCTCGTGCGTTGGA CTGCTCGTACTGTTGGGCGAGGATTCCGTAAACGCCGGCATGTTGTCCACTGAGACAAACTTGTAAACCCGTTCCCGAACCAGCTGTAT CAGAGATCCGTATTGTGTGGCCGTGGGGAGACCCTTCTCGCTTAGCATCGAAAAGTAACCTGCGGGAATTCCACGGAAATGTCAGGAGA TAGGAGAAGAAAACAGAACAACAGCAAATACTGTGCGGCGATCTCGTACTGGACGGAAATGTCAGGAGATAGGAGAAGAAAA

21 Promotores –Elementos del nucleo promotor Caja TATA Initiador (Inr) Elementos posteriores al promotor (DPE) –Factores de transcripción (“TF”) caja CAAT caja GC sitios SP-1 caja GAGA –Sitios activadores de la transcripción Secuencias reguladoras

22 Espliceosoma

23 Gracias por su atención…


Download ppt "Bioinformática y la era post-genómica Coral del Val Muñoz Dept. Ciencias de la Computación e Inteligencia Artificial, Universidad de Granada Dept. Molecular."

Similar presentations


Ads by Google