Компьютерный анализ белковой последовательности Анализируют только аминокислотную последовательность белка, пренебрегают взаимодействием между боковыми.

Slides:



Advertisements
Similar presentations
Corrections. SEQUENCE 4 >seq4 MSTNNYQTLSQNKADRMGPGGSRRPRNSQHATASTPSASSCKEQQKDVEH EFDIIAYKTTFWRTFFFYALSFGTCGIFRLFLHWFPKRLIQFRGKRCSVE NADLVLVVDNHNRYDICNVYYRNKSGTDHTVVANTDGNLAELDELRWFKY.
Advertisements

Биоинформатика Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции). Изучение и внедрение в компьютерную.
©CMBI 2005 Exploring Protein Sequences - Part 2 Part 1: Patterns and Motifs Profiles Hydropathy Plots Transmembrane helices Antigenic Prediction Signal.
Астрометрические каталоги К.В.Куимов, ГАИШ МГУ. Определение астрометрического каталога Астрометрический каталог – понятие неопределённое. Например, это.
© Wiley Publishing All Rights Reserved. Analyzing Protein Sequences.
Схема распределения грантов городам-участникам программы Тасис (TCAS) Экологические гранты для муниципалитетов.
Домены Определения Методы разделения структуры на домены Классификации.
Расторгуев А.C., 545 группа Научный руководитель: Пименов А.А. Рецензент: ст. преп. Смирнова Е.А.
Системы отбора. Условные обозначения (1) (2) (3) (4) (5) (6) (7) Математическое моделирование процессов отбора2.
 Максимум информации, которую мы можем получить из современных сайтов кулинарных рецептов, это список ингредиентов и руководство по приготовлению  Но.
Можно выделить два подхода, на основе которых производится выбор посредника: 1.Аналитический, предполагающий осуществление выбора с использованием формул,
Всевоволод Головизнин, MVC – паттерн проектирование, в котором бизнес - логика, управляющая логика и интерфейс разделены на три отдельных компонента.
Bank ownership and lending behavior Alejandro Micco, Ugo Panizza Politicians and banks: Political influences on government-owned banks in emerging markets.
Определение необходимого уровня запасов на складе.
Учитель математики Кулакова Т.М. МОУ ООШ №15 г.о Новокуйбышевск Самарской области Сентябрь 2011г.
Функции IV. Биоинформатические ресурсы для работы с мембранными белками А.Б.Рахманинова (3 и 4 апреля 2007г.)
Блок 3. Семейства белков I. Множественное выравнивание Первый курс, весна 2008, А.Б.Рахманинова.
Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать?
BLAST Что такое выравнивание Выравнивание 2х последовательностей
Основы цифровой обработки речевых сигналов. Общая схема процесса речеобразования x[n] – дискретные отсчеты сигнала возбуждения y[n] – дискретные отсчеты.
Понятие риска применительно к инвестиционным проектам
Ген-ориентированные базы данных и геномные браузеры Что такое ген-ориентированные базы данных? Самые простые примеры таких БД Примеры геном-ориентированных.
Магистерская программа двойных дипломов. Эта программа даёт вам возможность получить два диплома учебных заведений Великобритании и России: Диплом магистра.
Сравнение различных методов хранения XML в реляционных базах данных и в разных системах. Нгуен Тхань Хуен- 545 группа Руководитель : Б.А. Новиков Рецензент:
Структура белка Как предсказать вторичную структуру белка? Как найти и анализировать пространственную структуру, если она известна? Что можно делать, если.
"The European Molecular Biology Open Software Suite"
Формантный синтезатор речи. Часть 1. Полюсы и нули – иное понимание Полюс – это пара чисел (B, F), B – ширина форманты, F – частота форманты Нуль – это.
Множественные выравнивания как метод исследования Материалы к занятиям IV блока курса биоинформатики, 2006 А.Б.Рахманинова.
Д.А. Равчеев (14 апреля 2009 г.) Факультет Биоинженерии и Биоинформатики, 2 курс, весенний семестр Функции Трансмембранные белки.
Corrections. N-linked glycosylation (GlcNac): Look at the Swiss-Prot annotation (in a random ‘glycosylated’ entry)
Что можно делать с одиночной последовательностью ДНК? Как исключить векторные фланки? Рестрикционная карта Вашей последовательности Дизайн праймеров Анализ.
Swiss-Prot – одна из первых баз данных белковых последовательностей, “gold standard” белковой аннотации. Аннотация выполнена вручную группой профессиональных.
Анализ и Проектирование качественных приложений Презентация по книге Крэга Лармана.
Методы анализа данных. Статистическая проверка гипотез.
Как найти последовательность, кодирующую Ваш белок? Как найти последовательность ДНК, кодирующую Ваш белок: – Ссылки из белковых баз данных – Прямой поиск.
Cравнение биологических последовательностей А.Б.Рахманинова, 2008.
ВВЕДЕНИЕ В ВЫЧИСЛИТЕЛЬНУЮ МАТЕМАТИКУ Лекция 5 6 октября 2009 ВЫЧИСЛИТЕЛЬНАЯ ЛИНЕЙНАЯ АЛГЕБРА.
9 октября 2004 Поиск статических изображений по содержанию: использование текстового запроса Наталья Васильева
Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать?
TMG Tel: 8 (495) Fax: 8 (477) Technology Management Group ООО «TMG» PayKeeper.
Множественное выравнивание С.А.Спирин, весна
Классификация, кластеризация и поиск изображений на основе низкоуровневых характеристик Наталья Васильева Руководитель: Новиков Б. А.
Обработка исключений в C# Единая техника обнаружения ошибок времени выполнения и передачи информации о них.
Predicting Function (& location & post-tln modifications) from Protein Sequences June 15, 2015.
Microsoft TechDayshttp:// Александр Шаповал Эксперт по стратегическим технологиям
The PIR-PSD current release 78.03, November 24, 2003, contains entries. 65 proteins The PIR was established in 1984 by the National Biomedical.
Pattern databasesPattern databasesPattern databasesPattern databases Gopalan Vivek.
PROTEIN PATTERN DATABASES. PROTEIN SEQUENCES SUPERFAMILY FAMILY DOMAIN MOTIF SITE RESIDUE.
Simple Rearrangements Reversals Blocks represent conserved genes , 2, 3, 4, 5, 6, 7, 8, 9, 10.
1 R E F R I G E R A T I O N A N D A I R C O N D I T I O N I N G Как обновить программное обеспечение в AK-SC 255.
Good solutions are advantageous Christophe Roos - MediCel ltd Similarity is a tool in understanding the information in a sequence.
Sequence analysis: Macromolecular motif recognition Sylvia Nagl.
Day 2: Protein Sequence Analysis 1.Physico-chemical properties. 2.Cellular localization. 3.Signal peptides. 4.Transmembrane domains. 5.Post-translational.
Multiple Alignments Motifs/Profiles What is multiple alignment? HOW does one do this? WHY does one do this? What do we mean by a motif or profile? BIO520.
BLOCKS Multiply aligned ungapped segments corresponding to most highly conserved regions of proteins- represented in profile.
Protein and RNA Families
School B&I TCD Bioinformatics Proteins: structure,function,databases,formats.
PROTEIN PATTERN DATABASES. PROTEIN SEQUENCES SUPERFAMILY FAMILY DOMAIN MOTIF SITE RESIDUE.
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
Protein domain/family db Secondary databases are the fruit of analyses of the sequences found in the primary sequence db Either manually curated (i.e.
Т.В. Биренбаум Н.А. Качанова Подходы к формированию электронной библиотеки университета в условиях минимальных финансовых, материальных и трудовых ресурсов.
 What is MSA (Multiple Sequence Alignment)? What is it good for? How do I use it?  Software and algorithms The programs How they work? Which to use?
Опыт Технопарка БНТУ по разработке проектной заявки Что скрывает CBHE? Томашевич Наталия Юрьевна Руководитель Центра МНТС Научно-технологический парк БНТУ.
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
Bio/Chem-informatics
Protein Families, Motifs & Domains.
Functional manual annotation including GO
Genome Annotation Continued
Genome Center of Wisconsin, UW-Madison
Сортировка, поиск и фильтрация данных в базе данных и выборках
Presentation transcript:

Компьютерный анализ белковой последовательности Анализируют только аминокислотную последовательность белка, пренебрегают взаимодействием между боковыми цепями аминокислот. Что можно делать: Вычисление физико-химических параметров белка Предсказание продуктов расщепления протеазами Гидрофобные, гидрофильные участки: например, трансмембранные сегменты Пост-трансляционные модификации Функциональные домены, принадлежность к функциональным семействам

Компьютерный анализ белковой последовательности … и где это можно делать: The ExPASy server – протеомика The Swiss EMBnet – coiled-coil участки, выравнивания и др. биоинф. анализ The CBS Prediction Servers – локализация, пост-трансляционные модификации…

Программы для предсказания физико-химических параметров белка: ProtParam

ProtParam

Molecular weight (не учитывает пост-трансляционных модификаций) Аминокислотный состав Теоретическая pI Extinction coefficients (280 nm) (не учитывает пространственных взаимодействий аминокислот) Instability (менее 40 – хорошо) – нестабильность в эксперименте (test tube, статистика дипептидов) Half-life (yeast in vivo, mammalian reticulocytes in vitro, Escherichia coli in vivo; N-terminal rule) Алифатический индекс Grand average of hydropathicity (GRAVY) гидрофильность – (-), гидрофобность – (+)

Compute pI/Mw Выбирается участок белка (или весь белок), для него вычисляются теоретическая pI и молекулярный вес

Простейшие программы по вычислению параметров: PeptideMass Можно учитывать или не учитывать пост-трансляционные модификации для белков из Swiss-Prot, а также полиморфизмы, AS изоформы и конфликты

PeptideMass - output

PeptideCutter Для трипсина и хемотрипсина можно выбрать другую модель, в которой будет посчитана вероятность расщепления по каждому остатку

PeptideCutter - output

Метод скользящего окна Анализируется последовательность в несколько аминокислот, параметр усредняется по окну. Значение приписывается средней аминокислоте. Output – график Seq. LQAPVLPSDLLSWSCVGAVGILALVSFTCV Window 1 Window 2 Window 3 Размер окна должен соответствовать характерному размеру анализируемого свойства (для ТМ – 19!) Методы, основанные на технике скользящего окна, как правило, не интерпретируют результаты. При интерпретации важно: Учитывать только очень четко выраженные сигналы Не зависящие от параметров программы – размера окна, конкретного метода и т.п.

56 аминокислотных шкал (с литературными ссылками), скользящее окно -> выбор ширины окна Предсказание трансмембранных сегментов: ProtScale

ProtScale - output Правильный порог для метода – 1.6. Здесь находит не все

Более сложное предсказание трансмембранных сегментов: TMHMM Transmembrane beta barrel prediction: PROFtmb ( ); PRED-TMBB ( TBBPred ( )

TMHMM - результаты TMHMM предсказывает сегменты, а также топологию межсегментных участков Находит только 7! TMs

Домены Домен – независимая глобулярная единица в белке. Более функционально – часть белка, обладающая активностью (если отрезать, например). Как правило, каждый домен играет свою роль в функции белка (связывает ион или ДНК, содержит активный сайт и т.п.) Только небольшая часть известных доменов была изучена экспериментально, остальные описаны как сходные части гомологичных белков Очень сложно четко определить домен и его границы => существует много подходов и различных доменных коллекций. Какую выбрать?

История коллекций доменов 1980ые – PROSITE: ручная выборка паттернов в белках, определяющих функцию 1987 – доменный профайл (Gribskov): position specific scoring schema – это вероятность для каждой аминокислоты находиться в данной позиции домена начало 1990х – BLOCKs, PRINTs, Prodom… PfamA – коллекция профайлов, курированная вручную (сейчас также использует HMM)

3 сервера для поиска доменов InterProScan CD (Conserved Domain) server (NCBI) wrpsb.cgi Pfscan

InterPro InterPro is a database of protein families, domains and functional sites in which identifiable features found in known proteins can be applied to unknown protein sequences. Классификация базируется на первичных классификациях целого ряда баз данных функциональных доменов и семейств, объединяет всю доступную информацию С 2001 года – Release 18.0: 75.6% UniProt

Как это происходит Каждое InterPro семейство объединяет первичные семейства других баз данных, описывающие один и тот же домен; включает все белки, принадлежащие хотя бы одной из первичных баз. Документация IP семейства подробно описывает функцию и структуру соответствующей белковой подписи.

Поиск доменов: InterProScan

InterProScan - результаты

Table View

CD server Input - Accession number, gi или последовательность в FASTA формате

CD server – output Красный – SMART, синий – Pfam, зеленый – COGs Рваные концы указывают на неполные домены!!!! Курсор в графической части – краткое описание функции домена

CDART – поиск белков с аналогичной доменной структурой

Pfscan Как правило, работает несколько минут

Pfscan - output

Особенности вывода Pfscan Схема – легенда, как всегда под рисунком За легендой следует таблица с локализацией доменов Далее расшифровка каждого хита – с оценкой вероятности: ? или ! Затем следует графическая схема для каждого хита и scores (высокий score = хороший хит)

“Match detail” (или графическая схема)