Presentation is loading. Please wait.

Presentation is loading. Please wait.

Bioinformática y la era post-genómica

Similar presentations


Presentation on theme: "Bioinformática y la era post-genómica"— Presentation transcript:

1 Bioinformática y la era post-genómica
Coral del Val Muñoz Dept. Ciencias de la Computación e Inteligencia Artificial, Universidad de Granada Dept. Molecular Biophysics, German Cancer Research Center Heidelberg, Alemania Dept. Molecular Microbiology HHMI, Washington University, St. Louis USA

2 Volvemos al principio…“El dogma central”
ADN Replicacion ARN Trascripción Proteína Traducción

3 Biología Molecular: ProcariotasVsEucariotas
Eucariotas: tienen una membrana nuclear y orgánulos (plantas, animales, hongos,…) Procariotas: no tienen una membrana Que separe núcleo y orgánulos (bacteria) NO todos los organismos unicelulares son procariotas (levadura) BIOS Scientific Publishers Ltd, 1999

4 ¿Cómo y dónde encontramos los genes?
ATGCCAGGCCCCCCACCAGCCACGTTGGGGCAGCCCCCACAGCTCCCGGCCTTCGGGCCAAGGTGTCGGGGTGCGTCTCCTGGCCCATCAATACAGATTACATATTTATATCAATCGCGGGCTCTGAGGGCGCCCTCGGAGAGCGGCCCCGCGCCTACGAAACCAAACTGGGAGTGGTCGCGCGGAAACTCTGGCTCGGGATTGGCTGCGGGCGCCCGCCGCGGTGCGGGGGGATTGCTAATCGTATTCAGCATGTTTTGCACAAGAAATGTCAGCCAGAAAGGGCTATCTGCTCCCTTCGCCAAATTATCCCACAACAATGTCATGCTCGGAGAGCCCCGCCGCGAACTCTTTTTTGGTCGACTCGCTCATCAGCTCGGGCAGAGGCGAGGCAGGCGGCGGTGGTGGTGGCGCGGGGGGCGGCGGCGGTGGCGGTTACTACGCCCACGGCGGGGTCTACCTGCCGCCCGCCGCCGACCTGCCATACGGGCTGCAGAGCTGCGGGCTCTTCCCCACGCTGGGCGGCAAGCGCAATGAGGCAGCGTCGCCGGGCAGCGGTGGCGGTGGCGGGGGTCTAGGTCCCGGGGCGCACGGCTACGGGCCCTCGCCCATAGACCTGTGGCTAGACGCGCCCCGGTCTTGCCGGATGGAGCCGCCTGACGGGCCGCCGCCGCCGCCCCAGCAGCAGCCGCCGCCCCCGCCGCAACCACCCCAGCCAGCGCCGCAGGCCACCTCGTGCTCTTTCGCGCAGAACATCAAAGAAGAGAGCTCCTACTGCCTCTACGACTCGGCGGACAAATGCCCCAAAGTCTCGGCCACCGCCGCCGAACTGGCTCCCTTCCCGCGGGGCCCGCCGCCCGACGGCTGCGCCCTGGGCACCTCCAGCGGGGTGCCAGTGCCTGGCTACTTCCGCCTTTCTCAGGCCTACGGCACCGCCAAGGGCTATGGCAGCGGCGGCGGCGGCGCGCAGCAACTCGGGGCTGGCCCGTTCCCCGCGCAGCCCCCGGGGCGCGGTTTCGATCTCCCGCCCGCGCTAGCCTCCGGCTCGGCCGATGCGGCCCGGAAGGAGCGAGCCCTCGATTCGCCGCCGCCCCCCACGCTGGCTTGCGGCAGCGGCGGGGGCTCGCAGGGCGACGAGGAGGCGCACGCGTCGTCCTCGGCCGCGGAGGAGCTCTCCCCGGCCCCTTCCGAGAGCAGCAAAGCCTCGCCGGAGAAGGATTCCCTGGGTAAGCAGGGCTGCAGAGGGCTGCAGTCAGGCGGGCAGACAGGCAGACACAAGGAGGAGAAGGATCAGAAAACTAGGAGCCCGCGCAGCAGCCGGCCGGCCTTGGCCCAAGCTGCAGGCAGGCTGACCTTGTGAACTTGCTTTTTAATATTTGGGCGTGGGGGCGCAGTAAAATTCATGTCCGGCTTAGCGCCCCACAGCAAGACGTCCTCGGCGCTGGCCTCAGCTCCCCCTGACTAGGGACGAGGACACCAGCGAGCAGGCCCCCTCCTGTGCGCTCTTTCCTGTGGCCGGGAGGACCCAGAGCCCTGGTCCCTGCCCAGCCTGCGCGGCGCGGCCCACGCGGGGGGAGGGGGAGGGAGGGAAAGTAGCTCGCCCGCAGATAGCGCGGATGTTTGTAAGGCATCCAAAATAAGCAGCCGCCAGCGCCAATAAATAAGCCCATTAACCGGCGAAGTTCGAGTGTACGATCCCCCATGCTTTTTTCAAAGTTGCTGAGGGGCGGGAATCTTCGTGGCGGGAAGAAGAAAAGGCAAATCCGGCCTGGAAGCGGGGGGCCCTGAGCTGAGAGCCAGAGAAGGGCCATTTCCCTTCCCCTGGACCTCGGAATCGCCCAGCTATGTATCCTGGCTCCTGGAGAAACTTGAGGGAGGGCCCTTGACCCCCGAATCGGTTTTTCCTGCCTTCCCCATTGGACCAATGATGCCCTTCTTTCTCCCCTTATCGAGTCTTGGGCAATCAGGGCCCTGGGGTGAGACAGCCAAGCTGCCTGGCCCATCTTCCAAGTAAGCACCCCGCGCTCCTAGCCTGGGGGCTACAGGAAATGCTTGTCTGCCATATGGCAAGAGGCAAAGAAAAGCGTTAAGTTCAAGATGTACAGCCTGCCCTCCCAGGCCTTTCCTTCTGCAAGCATCTACGGCTTAGCGCTAAAACAGGTGTTTGGAAAAGTGGGGGAAATGTAAATTGGAAGGGTCATGTAGATTGAAGGCCCACTCAATTTTTGTCATGACTTATGGAGGAACTGCTTGCTCTCAGCAAGCCAAAAACGGGGGCACGACTCTCTTCTCTGTGACTTGGGACATCTCTCTTATGGGAGAAACGGAGGCAATTCACCCCCGCGGGCAGCCCGTGTGGCCTCGACTTAATCATCCCCTCTTTATTCTCTTACATGCCAGGCAATTCCAAAGGTGAAAACGCAGCCAACTGGCTCACGGCAAAGAGTGGTCGGAAGAAGCGCTGCCCCTACACGAAGCACCAGACACTGGAGCTGGAGAAGGAGTTTCTGTTCAATATGTACCTTACTCGAGAGCGGCGCCTAGAGATTAGCCGCAGCGTCCACCTCACGGACAGACAAGTGAAAATCTGGTTTCAGAACCGCAGGATGAAACTGAAGAAAATGAATCGAGAAAACCGGATCCGGGAGCTCACAGCCAACTTTAATTTTTCCTGATGAATCTCCAGGCGAC

5 Gen procariota (bacterias)
Alta densidad de genes y estructura sencilla Genes cortos con poca información Genes solapados

6 Ejemplo de promotor procariota
Pribnow box located at –10 (6-7bp) Promoter sequence located at -35 (6bp)

7 Eukaryotic Gene Organisation
Core Promoter Proximal Promoter TSS TATA GC Inr CAAT Promoter core proximal Transcription: core promoter: loosely conserved initiator region (Inr) around TSS ~ : TATA-box proximal promoter: ~ : CAT (CCAAT) ~ - 170: GC-box The sequences just 5' of the start site of transcription are the most important for the initiation of transcription. This is where the transcription complex is built. In general, this region is called the promoter. For eukaryotes, several sequences same to be conserved among many genes. One such sequences is the TATA box. The sequence is located about 30 bases upstream (-30) from the transcription start site and is the one sequence required for any significant transcription to occur. Other sequences add in transcription but are not always part of promoter. The two most found are the CCAAT box (called the CAT box) and the GC box. Because mutants of these three sequences only express mRNAs at low levels, these are considered the most important sequences of the basic transcription complex. The sequences just 5' of the start site of transcription are the most important for the initiation of transcription. This is where the transcription complex is built. In general, this region is called the promoter. For eukaryotes, several sequences same to be conserved among many genes. One such sequences is the TATA box. The sequence is located about 30 bases upstream (-30) from the transcription start site and is the one sequence required for any significant transcription to occur. Other sequences add in transcription but are not always part of promoter. The two most found are the CCAAT box (called the CAT box) and the GC box. Because mutants of these three sequences only express mRNAs at low levels, these are considered the most important sequences of the basic transcription complex. enhancer/silencer: upstream or downstream to promoter Translation: 5‘ Kozak sequence: GCCACCATG 3‘ polyadenylation site: AATAAA

8 Gen eucariota (con núcleo)
Baja densidad de genes y estructura compleja Corte y unión alternativo (Splicing alternativo) Pseudo-genes 5'UTR 3'UTR Exon 1 Exon 2 Exon 3 Intron 1 Intron 2 preRNA: ATG TAA Splicing / Polyadenylation polyA mRNA: ATG TAA AAAAAAAAA Traducción active protein: CPLTW GFL Splice variant CPLTW PJC Modificación post-transduccional CPLTW LAC

9 Genes Procariotas vs Eucariotas

10 Espliceosoma

11 ¿Cómo reconocer un gen? Por homología (similaridad en la secuencia)
Requiere una secuencia similar no muy distante Ab initio Requiere: Información de su composición Información de señales

12 Identificación por homología
Alineamientos por pares - Globales: Needleman & Wunsch - Locales: Smith & Watterman Alineamientos múltiples: - Clustalw - T-Coffee - Di-Align - DSC Búsquedas en Bases de Datos - BLAST - Phi-BLAST - FASTA Megablast - Psi-BLAST - BLAT - WU-BLAST El algoritmo encuentra las secuencias de la base de datos que tienen mayor parecido a la secuencia query. Es importante mencionar que BLAST usa un algoritmo heurístico por lo que no nos puede garantizar que ha encontrado la solución correcta. Sin embargo, BLAST es capaz de calcular la significancia de sus resultados, por lo que nos provee de un parámetro para juzgar los resultados que se obtienen

13 Métodos por homología Problemas:
Genes sin homólogos en las bases de datos no son detectados Se requiere de homólogos cercanos para deducir la estructura del gen

14 Métodos ab Initio Integra la detección de señales con las estadísticas de codificación Éstas se deducen de un conjunto de entrenamiento Detectar pequeños motivos de ADN (promotores, start/stop codons, splice sites, etc.) Un sistema de puntuación “scoring” puede ser utilizado para evaluar estas predicciones

15 Detección de señales El problema de la detección de señales
Las señales de ADN tienen un bajo nivel de información Son altamente inespecíficas y degeneradas Dificultad para distinguir un TP de un FP Como mejorar la detección de señales Tomar en cuenta el contexto (ej. un sitio aceptor debe encontrarse entre un intrón y un exón) Combinar las estadísticas de codificación PSWM Modelos Ocutos de Markov Gribskov Profiles Redes Neuronales

16 Probabilidad de la región codificante
Métodos ab Initio Secuencia de ADN Búsqueda de señales y regiones codificantes Probabilidad de la región codificante Modelos Ocutos de Markov PSWM Gribskov Profiles Redes Neuronales

17 Computational annotation tools
Gene finding Repeat finding EST/cDNA alignment Homology searching BLAST, FASTA, HMM-based methods, etc. Protein family searching PFAM, Prosite, etc.

18 Which analyses need to be run?
Similarity searches BLAST (Altschul et al., 1990) BLASTN (nucleotide databases) BLASTX (amino acid databases) TBLASTX (amino acid databases, six-frame translation) sim4 (Miller et al., 1998) Sequence alignment program for finding near-perfect matches between nucleotide sequences containing introns Gene predictors Genefinder (Green, unpublished) GenScan (Burge and Karlin, 1997) Genie (Reese et al., 1997) Other analyses tRNAscanSE (Lowe and Eddy, 1996)

19 Which analyses need to be run and how?
mRNAs ORFFinder(Frise, unpublished) Protein translations HMMPFAM 2.1 (Eddy 1998) against PFAM (v Sonnhammer et al. 1997, Bateman et al. 1999) Ppsearch (Fuchs 1994) against ProSite (release 15.0) filtered with EMOTIF ( Nevill-Manning et al. 1998) Psort II (Horton and Nakai 1997) ClustalW (Higgins et al. 1996)

20 Raw sequence: Adh.fa GAATTCCCGGTTCAATCTCGTAGAACTTGCCCTTGGTGGACAGTGGGACGTACAACACCTGCCGGTTTTCATTAAGCAGCTGGGCATACTTCTTTTCCTTCTCCCTTCCCATGTACCCACTGCCATGGGACCTGGTCGCATTGCCGTTGCCATGTTGCGACATATTGACCTGATCCTGTTTGCCATCCTCGAAGACGGCCAACAGACGGAATACCTGCCCGCCCCTTGCCGTCGTTTTCACGTACTGTGGTCGTCCCTTGTTTATGGGCAGGCATCCCTCGTGCGTTGGACTGCTCGTACTGTTGGGCGAGGATTCCGTAAACGCCGGCATGTTGTCCACTGAGACAAACTTGTAAACCCGTTCCCGAACCAGCTGTATCAGAGATCCGTATTGTGTGGCCGTGGGGAGACCCTTCTCGCTTAGCATCGAAAAGTAACCTGCGGGAATTCCACGGAAATGTCAGGAGATAGGAGAAGAAAACAGAACAACAGCAAATACTGAGCCCAAATGAGCGATAGATAGATAGATCGTGCGGCGATCTCGTACTGGTAACTGGTAATTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGGTTCTGGCTTACGATCGGGTTTTGGGCTTTGGTTGTGGCCTCCAGTTCTCTGGCTCGTTGCCTGTGCCAATTCAAGTGCGCATCCGGCCGTGTGTGTGGGCGCAATTATGTTTATTTACTGGTAACTGGTAATTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGTCCCGGTTCAATCTCGTAGAACTTGCCCTTGGTGGACAGTGGGACGTACAACACCTGCCGGTTTTCATTAAGCAGCTGGGCATACTTCTTTTCCTTCTCCCTTCCCATGTACCCACTGCCATGGGACCTGGTCGCATTGCCGTTGCCATGTTGCGACATATTGACCTGATCCTGTTTGCCATCCTCGAAGACGGCCAACAGACGGAATACCTGCCCGCCCCTTGCCGTCGTTTTCACGTACTGTGGTCGTCCCTTGTTAAAGTAACCTGCGGGAATTCCACGGAAATGTCAGGAGATAGGAGAAGAAAACAGAACAACAGCAAATACTGAGCCCAAATGAGCGATAGATAGATAGATCGTGCGGCGATCTCGTACTGGTAACTGGTAATTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGGTTCTGGCTTACGATCGGGTTTTGGGCTTTGGTTGTGGCCTCCAGTTCTCTGGCTCGTTGCCTGTGCCAATTCAAGTGCGCATCCGGCCGTGTGTGTGGGCGCAATTATGTTTATTTACTGGTAACTGGTAATTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGTCCCGGTTCAATCTCGTAGAACTTGCCCTTGGTGGACAGTGGGACGTACAACACCTGCCGGTTTTCATTAAGCAGCTGGGCATACTTCTTTTCCTTCTCCCTTCCCATGTACCCACTGCCATGGGACCTGGTCGCATTGCCGTTGCCATGTTGCGACATATTGACCTGATCCTGTTTGCCATCCTCGAAGACGGCCAACAGACGGAATACCTGCCCGCCCCTTGCCGTCGTTTTCACGTACTGTGGTCGTCCCTTGTTTATGGGCAGGCATCCCTCGTGCGTTGGACTGCTCGTACTGTTGGGCGAGGATTCCGTAAACGCCGGCATGTTGTCCACTGAGACAAACTTGTAAACCCGTTCCCGAACCAGCTGTATCAGAGATCCGTATTGTGTGGCCGTGGGGAGACCCTTCTCGCTTAGCATCGAAAAGCTTACGATCGGGTTTTGGGCTTTGGTTGTGGCCTCCAGTTCTCTGGCTCGTTGCCTGTGCCAATTCAAGTGCGCATCCGGCCGTGTGTGTGGGCGCAATTATGTTTATTTACTGGTAACTGGTAATTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGTCCCGGTTCAATCTCGTAGAACTTGCCCTTGGTGGACAGTGGGACGTACAACACCTGCCGGTTTTCATTAAGCAGCTGGGCATACTTCTTTTCCTTCTCCCTTCCCATGTACCCACTGCCATGGGACCTGGTCGCATTGCCGTTGCCATGTTGCGACATATTGACCTGATCCTGTTTGACTGGTAACTGGTAATTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGTCCCGGTTCAATCTCGTAGAACTTGCCCTTGGTGGACAGTGGGACGTACAACACCTGCCGGTTTTCATTAAGCAGCTGGGCATACTTCTTTTCCTTCTCCCTTCCCATGTACCCACTGCCATGGGACCTGGTCGCATTGCCGTTGCCATGTTGCGACATATTGACCTGATCCTGTTTGCCATCCTCGAAGACGGCCAACAGACGGAATACCTGCCCGCCCCTTGCCGTCGTTTTCACGTACTGTGGTCGTCCCTTGTTTATGGGCAGGCATCCCTCGTGCGTTGGACTGCTCGTACTGTTGGGCGAGGATTCCGTAAACGCCGGCATGTTGTCCACTGAGACAAACTTGTAAACCCGTTCCCGAACCAGCTGTATCAGAGATCCGTATTGTGTGGCCGTGGGGAGACCCTTCTCGCTTAGCATCGAAAAGTAACCTGCGGGAATTCCACGGAAATGTCAGGAGATAGGAGAAGAAAACAGAACAACAGCAAATACTGTGCGGCGATCTCGTACTGGACGGAAATGTCAGGAGATAGGAGAAGAAAA

21 Secuencias reguladoras
Promotores Elementos del nucleo promotor Caja TATA Initiador (Inr) Elementos posteriores al promotor (DPE) Factores de transcripción (“TF”) caja CAAT caja GC sitios SP-1 caja GAGA Sitios activadores de la transcripción

22 Espliceosoma

23 Gracias por su atención…


Download ppt "Bioinformática y la era post-genómica"

Similar presentations


Ads by Google