Comparisone_L2.ppt
- Количество слайдов: 49
СТРУКТУРНАЯ БИОИНФОРМАТИКА Карпов Павел Андреевич Лекция № 2
Арчимбольди Джузеппе (Arcimboldo Giuseppe) (1527 -1593) Гомологичными (др. -греч. ὅμοιος — подобный, похожий; λογος — слово, закон) в биологии называют сопоставимые части сравниваемых биологических объектов.
• Понятие гомологии в биологии было введено Ричардом Оуэном в 1840 -е гг. • Он предложил различить аналогичные: – «…a part or organ in one animal that has the same function as another part or organ in a different animal…» [часть или орган животного, который имеет ту же самую функцию, что и другая часть или орган у иного животного] • и гомологичные структуры: – «the same organ in different animals under every variety of form and function…» [тот же самый орган в различных животных при всех вариациях формы и функции]
Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка). Признаки гомологичности белков • сходная 3 D-структура • в той или иной степени похожая аминокислотная последовательность • разные другие соображения…
Гомоло гия (др. -греч. ὅμοιος — подобный, похожий; λογος — слово, закон) • Гомологичные последовательности называют ортологичными, если к их разделению привел акт видообразования: если ген существует у некоего вида, который дивергирует с образованием двух видов, то копии этого гена у дочерних видов называются ортологами. Гомологичные последовательности называют паралогичными, если к их разделению привело удвоение гена: если в пределах одного организма в результате хромосомной мутации произошло удвоение гена, то его копии называют паралогами. • Ортологи обычно выполняют идентичные или сходные функции. Это не всегда справедливо в отношении паралогов. Ввиду отсутствия давления отбора на одну из копий гена, подвергшегося удвоению, эта копия получает возможность беспрепятственно мутировать далее, что может привести к возникновению новых функций.
• Сравнительный анализ нуклеотидных и аминокислотных последовательностей потребовал развития традиционного понятия гомологии. • При анализе последовательностей принято различать ортологию и паралогию (и, соответственно, ортологи и паралоги).
ОРТОЛОГИЯ И ПАРАЛОГИЯ Гомологичные последовательности называют ортологичными, если к их разделению привел акт видообразования: если ген существует у некоего вида, который дивергирует с образованием двух видов, то копии этого гена у дочерних видов называются ортологами. Гомологичные последовательности называют паралогичными, если к их разделению привело удвоение гена: если в пределах одного организма в результате хромосомной мутации произошло удвоение гена, то его копии называют паралогами. Ортологи обычно выполняют идентичные или сходные функции. Не всегда справедливо в отношении паралогов. Гены, кодирующие миоглобин и гемоглобин.
Упрощенная схема эволюции глобинов. Каждый прямоугольник соответствует глобиновому гену. Узлы эволюционного дерева отмечены латинскими цифрами. Все глобины происходят от одного предшественника и, следовательно являются гомологами — ортологами протоглобина. Гемоглобины являются паралогами миоглобинов, так как произошли от гена протоглобина после его дупликации (на эволюционном отрезке между узлами I и II). Паралогами по отношению друг к другу являются, например, и гемоглобины человека: все они возникли в результате дупликаций и последующего накопления мутаций. Гемоглобины человека α 1 и α 2 являются ортологами α гемоглобинов акулы и курицы, так как происходят от про-α-гемоглобина общего предка, находящегося в узле II. То же верно и для β-гемоглобинов. При этом αгемоглобины человека можно назвать паралогами, по отношению не только к человеческим, но и акульим, и куриным β-гемоглобинам, поскольку оба эти ряда ортологов восходят в конечном счете к одному протогемоглобину, возникшему на отрезке I—II.
Сравнение аминокислотных и нуклеотидных последовательностей: • позволяет идентифицировать семейства генов; • относить к ним секвенированные последовательности, • устанавливать их структурные и функциональные взаимоотношения…
Пути эволюции последовательностей • В основе случайное изменение нуклеотидной последовательности ДНК: – точечные замены, – дупликации, – рекомбинации. • Давление естественного отбора направлено на функциональные свойства последовательности, например, на свойства кодируемого белка или на свойства регуляторного участка ДНК. • Разные изменения нуклеотидной последовательности гена в разной степени влияют на функциональные свойства кодируемого белка.
Гомологи Ортологи Паралоги Ксенологи ? (W. M. Fitch, Syst. Zool. 19, 99(1970)
Ксенологи • • Ксенология (от др. -греч. ξενός — чужой и λόγος — учение) — возникновение гомологичных ДНК-последовательностей в геномах различных видов при «горизонтальном» (ненаследственном) переносе генетического материала между организмами. Горизонтальный перенос генов происходит при физическом контакте клеток, обменивающихся генетическим материалом, т. е. в паразитарных, симбиотических, или ассоциативных системах, т. е. ксенологичные гены (ксенологи) обнаруживаются у филогенетически отдалённых, но территориально близких групп клеток или организмов. В качестве носителей ксенологичной ДНК могут выступать ретровирусы, захватывающие фрагменты оттранслированной в РНК ДНК клетки-хозяина одного вида и встраивающих при следующем инфицировании эти последовательности в геном клеток-хозяев другого вида, у прокариот: плазмиды при конъюгации, бактериофаги при трансдукции, содержащаяся в среде свободная ДНК при трансформации. При переносе ксенолог может замещать ксенологичный ген (при переносе генов-ортологов).
Сравнение последовательностей при помощи метода точечных графов Сравнение аминокислотных последовательностей фактора коагуляции XII (F 12; SWISS-PROT P 00748) и тканевого плазмогенактивирующего фактора (PLAT; SWISSPROT P 00750) человека. Граф был сгенерирован при помощи специального ПО (Sonnhammer and Durban, 1996).
Выравнивания последовательностей • Одним из методов исследования гомологичности последовательностей является выравнивание, суть которого заключается в нахождении с помощью различных алгоритмов наиболее консервативных остатков в этих последовательностях, которые обычно являются ключевыми для выполнения одной или нескольких функций белка.
Задача выравнивания последовательностей часто сводится к задаче поиска сходства. Сходство — не то же, что гомология! Гэп – пропуск в последовательности
Точечная матрица, кривая и выравнивание: Все три представляют выравнивание схожих доменов EGF коагуляционного фактора XII (F 12; SWISS-PROT P 00748) и тканевого плазмоген-активирующего фактора (PLAT; SWISS-PROT P 00750) человека. a - Полные последовательности белков сравнивались при помощи точечного графика и выравнивания схожих областей, соответствующих EGF домену. b - Кривая (график) выравнивания был построен при помощи BLASTP. c - Выравнивание в BLASTpgp представляет информацию в знакомой текстовой форме.
Парное и множественное выравнивание 1. Любое множественное выравнивание порождает набор парных выравниваний 2. Не любой набор парных выравниваний можно просто "сложить" во множественное выравнивание. Пример: P 1 P 2 + P 1 P 3 + P 2 P 3 ALGTEEICALGT--IAA AL-GTEEI-C ALVGTE-IAC AL-GT-IAA ALVGTEIAC P 1 AL-GTEEI-C P 2 AL-GT--IAA P 3 ALVGTE-IAC
Выравнивание последовательностей в Gene. Doc Номер столбца выравнивания Название последовательности Функционально консервативная позиция Консервативный Номер последнего в строке остатка ИЗ ЭТОЙ ПОСЛЕДОВАТЕЛЬНОСТИ остаток
Попарное выравнивание: Множественное выравнивание: Что мы можем узнать нового?
Какое выравнивание “правильнее”? 12 консервативных остатков 13 “консервативных” остатков
Построенное выравнивание может оказаться: • «Правильным» = биологически обоснованным • «неправильным» = биологически бессмысленным, пусть даже и с хорошим весом • Выравнивание с хорошим весом может отсутствовать (что еще не достаточно для утверждения о негомологичности белков)
Условные критерии биологически «правильного» выравнивания Сa атомы соответствующих выровненных а/к остатков находятся рядом в пространственном совмещении белковых структур
Условные критерии биологически «правильного» выравнивания Ca атомы могут оказаться рядом. Имеет ли это смысл?
Условные критерии биологически «правильного» выравнивания Близость Ca атомов может быть случайной
Условные критерии биологически «правильного» выравнивания Соответствующие выровненные а/к остатки играют сходную биологическую роль
Выравнивание на основе сопоставления пространственных структур Большая часть остатков двух цепей соответствуют другу. Соответствие в данном случае определяется хорошим наложением структур в пространстве. ? Этим Ca-атомам в «синей» структуре ничего не соответствует в «зелёной»
Программы • ALIGN, AMAS, BLAST, BLAT, CLUSTAL, Di. Align, FASTA, HI, HMMER, MAP, MGA, OWEN, Pip. Maker, Multi. Pip. Maker, TCoffee и др. • Наиболее важные: • BLAST • FASTA • CLUSTAL
FASTA • Алгоритм FASTA описан Pearson and Lipman, Proc. Natl. Acad. Sci. USA 85: 2444 (1988) и Pearson, Meth. Enzvmol. 183: 63 (1990). [PMID: 3162770] Параметры: Размер якоря, матрица сходства, штраф за делецию http: //fasta. bioch. virginia. edu/ Замены консервативных аминокислот Основные: аргинин лизин гистидин Кислые: глутаминовая кислота аспарагиновая кислота Полярные: глутамин аспарагин Гидрофобные: лейцин изолейцин валин Ароматические: фенилаланин триптофан тирозин Небольшие: глицин аланин серии треонин метионин
Основы поиска FASTA • Используется техника поиска якорей с помощью хэш-таблицы. • Два якоря (i 1, j 1), (i 2, j 2) принадлежат одной диагонали, если i 1 – j 1 = i 2 – j 2 • Мощностью диагонали называется количество якорей, принадлежащих диагонали. Иногда в мощность диагонали включают мощности соседних диагоналей (чтобы учесть возможность делеций) • Отбираем n* (n*=10) самых мощных диагоналей и для них пытаемся построить цепочки якорей, или строим S -W выравнивание в полосе (Wilbur-Lipman-Pearson) Для оценки стат. значимости используют z-score
Basic Local Alignment Search Tool • BLAST (англ. Basic Local Alignment Search Tool) — семейство компьютерных программ, служащих для поиска гомологов белков или нуклеиновых кислот, для которых известна первичная структура (последовательность) или её фрагмент. • Используя BLAST, исследователь может сравнить имеющуюся у него последовательность с последовательностями из базы данных и найти последовательности предполагаемых гомологов. • Является важнейшим инструментом для молекулярных биологов, биоинформатиков, систематиков.
Cписок программ BLAST для поиска последовательностей • nucleotide blast - поиск в БД нуклеотидов, с использованием нуклеотидной формы запроса. Алгоритмы: blastn, megablast, discontiguous megablast • protein blast – поиск в белковой БД, с использованием пептидной формы запроса. Алгоритмы: blastp, psi-blast, phi-blast • blastx – поиск в базе белков, с использованием формы запроса транслированных нуклеотидов • tblastn – поиск в базе транслированных нуклеотидов, с использованием аминокислотного запроса • tblastx – поиск в базе транслированных нуклеотидов, с использованием формы запроса транслированных нуклеотидов
Три основных вида трансляций, последовательносей в BLAST • • • blastx - проводится сравнение нуклеотидной последовательности, которую перемещают (транслируют) во все рамки считывания (при трансляции генетического кода) базы данных протеиновых последовательностей tblastn – проводится сравнение белковой последовательности, которую динамически транслируют во все рамки считывания базы данных нуклеотидных последовательностей tblastx - проводится сравнение шести рамочной трансляции (the six-frame translations) нуклеотидной последовательности с шести рамочными трансляциями базы данных нуклеотидных последовательностей. Из-за больших сложностей при проведении этого вида сравнения и значительного поискового «шума» рекомендуется использовать tblastx только, если другие виды сравнения не дают никакого результата.
Парное выравнивание аминокислотных последовательностей матричной структуры PP 2 AA (Uni. Prot: P 67775) из H. sapiens и ее растительного гомолога – PP 2 A 5 (Uni. Prot: O 04951) из A. thaliana Примечание: универсальным символом IUPAC – Х, обозначены аминокислотные остатки отсутствующие в матричной структуре PP 2 AA (PDB: 2 NYL) и соответствующие остатки растительного гомолога. Темносерым обозначены идентичные аминокислотные остатки, серым – гомологичные остатки, белым – вариативные аминокислотные остатки (полное «несовпадение» физико-химических свойств в данных позициях).
Ленточные диаграммы пространственной структуры и результаты фитинга каталитических субъединиц молекул протеинфосфатазы PP 1 G (PDB: 1 U 32, Uni. Prot: P 36873) из H. sapiens и ее растительного гомолога - PP 12 (Uni. Prot: P 48482) из A. thaliana. Примечание: α 1 -α 11 и β 1 - β 13 - элементы вторичной структуры; оранжевым цветом обозначена Nконцевая область (область α 1) не входящая в состав каталитического домена; D 95, (H. sapiens) и D 95 (A. thaliana) – консервативные остатки ответственные за связывание молекулы АТФ; H 125 (H. sapiens) и H 125 (A. thaliana) – консервативные аминокислоты активного центра, ответственные за связывание остатков фосфорной кислоты; R 96 и R 221 уникальные для молекулы PP 1 G из H. sapiens остатки аминокислот ответственные за образование водородных связей с окадаиновой кислотой. На рисунке описывающем результаты молекулярного фитинга розовым обозначена структура PP 1 G из H. sapiens, а зеленым – структура PP 12 из A. thaliana.
Ленточные диаграммы пространственной структуры и результаты фитинга каталитических субъединиц молекул протеинфосфатазы PP 2 AA (PDB: 2 NYL, Uni. Prot: P 67775) из H. sapiens и ее растительного гомолога – PP 2 A 5 (Uni. Prot: O 04951) из A. thaliana Примечание: α 1 -α 11 и β 1 - β 12 - элементы вторичной структуры; оранжевым цветом обозначена N-концевая область (область α 1) не входящая в состав каталитического домена; D 95, (H. sapiens) и D 95 (A. thaliana) – консервативные остатки ответственные за связывание металлов; H 125 (H. sapiens) и H 125 (A. thaliana) – консервативные аминокислоты активного центра, ответственные за связывание остатков фосфорной кислоты; R 96 и R 221 уникальные для молекулы PP 2 AA из H. sapiens остатки аминокислот ответственные за образование водородных связей с окадаиновой кислотой. На рисунке описывающем результаты молекулярного фитинга розовым обозначена структура PP 2 AA из H. sapiens, а зеленым - структура PP 2 A 5 из A. thaliana.
Казеин киназы I из Arabidopsis thaliana
Семейства белков Паттерны и профили
Доменная архитектура двух белков участвующих в процессе свертывания крови. Схема структуры плазмаген-активатора и коагуляционного фактора XII. Модуль обозначенный как С представлен несколькими положениями причастными к процессу сворачивания крови. F 1 и F 2 are часто повторяющиеся элементы, впервые обнаруженные в белке фибронектине. E - модуль имеющий сходство с эпидермальным ростовым фактором. Модуль A – известен как крингл домен (‘‘kringle domain’’) и обозначен как K.
Новый белок с неизвестной функцией ДНК-связывающий участок АТФ – связывающий участок Белок А ДНК-связывающий участок Белок В АТФ – связывающий участок Что можно сказать про новый белок?
В белках можно выделять Мотив кластер малых молекул Site (сайт) домен Полезно заранее знать важные (сходные) участки последовательности/структуры
Мотив в аминокислотной последовательности Структурный мотив часто встречающийся в набор консервативных остатков, важных белках элемент для функции белка и расположенных на пространственной структуры определенном (обычно коротком) расстоянии друг от друга в последовательности не всегда соответствуют другу Мотив 1 Мотив 2 Мотив 3 Домен из одного или нескольких мотивов Мотив 4 Мотив, не входящий в домен Мотив – широкое понятие
Что тут общее? ? С? ? СR? ? K? ? C? ? ? C Функционально важные остатки Принятая форма записи [GASTPV]-C-x(2)-C-[RKHSTACW]-x(2)-[RKHQ] -x(2)-C-x(5, 12)-C-x(6, 8)-C Паттерн Мотив в аминокислотной последовательности: как искать?
Выравнивание хорошо изученного семейства Функционально важные остатки 4 -5 консервативных остатков x [AT] {CR} K(3) X(2, 4) < > любая а/к Ala или Thr кроме Cys и Arg K-K-K x-x или x-x-x-x / A(2, 4) N- конец C- конец Паттерн Поиск в Uni. Prot Если много лишнего, то увеличиваем паттерн [AC]-x-V-x(4)-{ED} Если находим только «правильные» , то ОК Как создать паттерн?
БД белковых доменов, семейств и функциональных сайтов Содержит описание объектов + описание паттернов, профилей и правил для их обнаружения. Релиз 20. 47 14 -Apr-2009 1547 документов, 1308 паттернов, 845 профилей + 846 Pro. Rule PROSITE ─ биологически значимые сайты, паттерны и профили, http: //www. expasy. ch/prosite/
Найдено лишнее Не найдено нужное Качество паттерна
Est in media verum Альбрехт Дюрер изобразил носорога, никогда не видев его, используя рисунки и описания очевидцев. «… ни одно изображение животного не оказывало такого глубокого влияния на искусство» .
Comparisone_L2.ppt