fc3de30b99eca5c344606ae051fd9420.ppt
- Количество слайдов: 30
Множественные выравнивания как метод исследования Материалы к занятиям IV блока курса биоинформатики, 2006 А. Б. Рахманинова
Повторяем… Зачем строят выравнивания аминокислотных последовательностей? Данные: новая последовательность Биологические задачи: Предсказание 3 D Реконструкция -структуры функции, эволюции а. к. остатков в «активном центре» Общий подход к решению — оценка сходства последовательностей: Выбор алгоритма и программы Построение выравнивания Анализ выравнивания
Какое выравнивание интереснее?
Повторяем… Какие бывают выравнивания аминокислотных последовательностей? Выравнивания парные глобальные классический алгоритм Нидельмана-Вунша, см. needle из EMBOSS, алгоритм Маейрса. Миллера, см. stretcher из EMBOSS ……… локальные классический алгоритм Смита-Ватермана, см. matcher, water из EMBOSS ……. . множественные глобальные Динамическое программирование Carillo& Lipman, см MSA Эвристические алгоритмы прогрессивного выравнивания, см. Clustal. X, emma в EMBOSS, muscle, T-Coffee , ……. локальные Dialign, Pro. DA
Какие выравнивания строит программа BLASTP? • Blast. P (Basic Local Alignment Search) – программа для быстрого поиска в БД последовательностей, похожих на заданную. • Программа строит локальные выравнивания, но не гарантирует, что это будут оптимальные выравнивания!
Зачем нужны множественные выравнивания? http: //www. ebi. ac. uk/thornton-srv/databases/cgi-bin/pdbsum/Get. Page. pl? pdbcode=1 QPZ
В чем проблема? Построение парного выравнивания по алгоритму Нидельмана. Вунша (пример из упр. студента ФББ) Можно найти самое лучшее выравнивание за время t seq 1: MA-RR seq 2: CADRQ при условии, что вес совпадения: 2 вес замены: -1 штраф за делецию: -2 Построение множественного выравнивания N последовательностей t =LN !!!
Руководящее дерево Алгоритм Clustal. W – пример эвристического прогрессивного алгоритма Очевидные недостатки: 1) Результат зависит от порядка выравниваний; 2) «один раз гэп – всегда гэп»
Современные методы построения множественного выравнивания (MSA, multiple sequence alignment): • Алгоритм Clustal. W (реализации Clustal. X, emma из EMBOSS) – до сих пор самый популярный, но уже устаревший метод. • muscle (программа установлена на kodomo) – быстрее и немного точнее. • T-COFFEE – заметно точнее, но существенно медленнее
Построение множественных выравниваний и их анализ Развитие представлений об эволюции белков Создание коллекций мотивов в аминокислотных последовательностях
Biologists must constantly keep in mind that what they see was not designed, but rather evolved. It might be thought, therefore, that evolutionary arguments would play a large part in guiding biological research, but this is far from the case. Francis Crick What Mad Pursuit (1988) pp. 138 -139
Мутации, рекомбинация, …. ?
Точечные мутации и их последствия ATA AAG GTC CTG ATA AAG GTA CTG Ile Lys Val Leu ATA AAG GTC CTG ATA AAG TTC CTG Ile Lys Val Leu Ile Lys Phe Leu ATA AAG GTC CTG ATA TAG GTC CTG Ile Lys Val Leu Ile Ter терминация трансляции ATA AAG GTC CTG ATA AAG TCC CT сдвиг рамки Ile Lys Val Leu Ile Lys Ser «молчащая» мутация замена а. к. остатка
Геномные перестройки: рекомбинации, транспозиции Следствие 1 - дупликации Кластер –глобинов в 11 -ой хромосоме человека Кластер –глобинов в 16 -ой хромосоме человека
Геномные перестройки: рекомбинации, транспозиции Следствие 2 – перемешивание (перетасовка) доменов 223 белка 243 белка 507 белков 25 белков 9 белков 2 белка 12 белков
Домен – единица эволюции, структуры и функции белков. Домен – компактная, относительно независимо сворачивающаяся структура, относительно консервативная в процессе эволюции. Белок может состоять из одного или многих доменов. nitrogen fixation positive activator protein
Вернемся к дупликации… Эволюция глобинов
Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка). Признаки гомологичности белков • сходная 3 D-структура • в той или иной степени похожая аминокислотная последовательность • разные другие соображения…
Гомологи Ортологи Паралоги Ксенологи ? (W. M. Fitch, Syst. Zool. 19, 99(1970)
Ортологи — последовательности, возникшие из одного общего предшественника в процессе видообразования. Ортологи, как правило, имеют одну и ту же функцию Паралоги — последовательности, возникшие из одного общего предшественника в результате дупликации одного гена в одном организме. Паралоги, как правило, имеют разные функции.
Задача выравнивания = задача поиска сходства. Сходство — не то же cамое, что гомология! Гэп – пропуск в последовательности
Построение множественных выравниваний и их анализ Развитие представлений об эволюции белков Создание коллекций мотивов в аминокислотных последовательностях
Мотив ? • Мотив в аминокислотной последовательности - набор консервативных остатков, важных для функции белка и расположенных на определенном (обычно коротком) расстоянии друг от друга в последовательности. • Мотив структуры (структурный мотив) – часто встречающийся в белках элемент пространственной структуры ( спираль, -шпилька, -поворот). В общем случае, структурные мотивы не обязательно соответствуют мотивам в аминокислотным последовательностях. Один домен может содержать один или несколько мотивов в аминокислотной последовательности. Мотив может не входить в домены. Не в любом выравнивании легко найти мотив.
Основные понятия и термины • Место, сайт(site) • Мотив (motif) – • Домен (domain) – • Семейство – • Суперсемейство - ? • Паттерн (pattern) – • Позиционно специфическая матрица весов (PSSM) – • Профиль–HМM • Подпись (signature) – • «Oтпечатки пальцев» (fingerprints) – • Кластер -
Пример простого мотива Алкогольдегидрогеназа 6 (человек) 68 - 82: GHEg. AGIvesi. Geg. V Алкогольдегидрогеназа класса 3 (рис) 70 - 84: GHEa. AGIvesv. Geg. V Алкогольдегидрогеназа, специфичная к пропанолу (кишечная палочка) 57 - 71: GHEg. IGVvaev. Gpg. V Распознающее правило типа «паттерн» : G - H - E - x - {EL} - G - {AP} - x(4) - [GA] - x(2) - [IVSAC] Паттерн – регулярное выражение UNIX’a: Например, выражение [AC]-x-V-x(4)-{ED} читается как Ala или Cys- х-Val- х- х- х - х- (любой остаток, но не Glu и не Asp)
Более сложное распознающее правило – PSSM. Какая а. к. последовательность будет иметь максимальный вес по этому профилю? A C D E F G H I K L M N P Q R S T V W Y -18 -22 -35 -27 60 -30 -13 3 -26 14 3 -22 -30 -32 -18 -22 -10 0 9 34 -10 -33 0 15 -30 -20 -12 -27 25 -28 -15 -6 24 5 9 -8 -10 -25 -18 -1 -18 -32 -25 12 -28 -25 21 -25 19 10 -24 -26 -25 -22 -16 -6 22 -18 -1 -8 -18 -33 -26 14 -32 -25 25 -27 27 14 -27 -28 -26 -22 -21 -7 25 -19 1 8 -22 -7 -9 -26 28 -16 -29 -6 -27 -17 1 -14 -9 -10 11 -5 -19 -25 -23 -3 -26 6 23 -29 -14 14 -23 4 -20 -10 8 -10 24 0 2 -8 -26 -27 -12 3 22 -17 -9 -15 -23 -22 -8 -15 -9 -9 -15 -22 -16 -18 -1 2 6 -34 -19 -10 -24 -34 -24 4 -33 -22 33 -27 33 25 -24 -17 -23 -24 -10 19 -20 0 -2 -19 -31 -23 12 -27 -23 19 -26 26 12 -24 -26 -23 -22 -19 -7 16 -17 0 -8 -7 0 -1 -29 -5 -10 -23 0 -21 -11 -4 -18 7 -4 -4 -11 -16 -28 -18
Pfam • http: //www. sanger. ac. uk/Software/Pfam/index. shtml • Большая коллекция множественных выравниваний, доменов, семейств и профилей-HMM для них. • Состоит из 2 -х частей: § Pfam. A – курируемая часть, покрывает 74% Uni. Prot § Pfam. B – большое число маленьких семейств из автоматически сгенерированной базы доменов Pro. Dom, не вошедших в Pfam. A. • Удобна для анализа доменной структуры белков.
Построение множественных выравниваний и их анализ Развитие представлений об эволюции белков Создание коллекций мотивов в аминокислотных последовательностях
Типичные задачки • • • Описать доменную архитектуру заданной последовательности Сравнить доменную организацию нескольких белков Получить множественное выравнивание полных последовательностей заданной выборки, выделить консервативные позиции. *Сравнить множественные выравнивания, полученные с помощью разных инструментов. Получить множественное выравнивание определенных доменов белков заданной выборки, выделить консервативные а. о. Найти на множественном выравнивании возможный мотив. *Создать распознающее правило для найденного мотива и найти белки, удовлетворяющие этому правилу. Проверить, не соответствует ли найденный вами мотив уже известному мотиву. *Определить степень консервативности какого-либо остатка в заданном белке (например, степень консервативности остатков, контактирующих с лигандом)