039ec2f2bd5b8005a697fe9568e54c89.ppt
- Количество слайдов: 81
Биоинформатика
Распознавание генов
Таблица генетического кода
Поиск генов если известен белок: просто
… или родственный белок: тоже просто
Генетический код: стоп-кодоны TTT TTC TTA TTG CTT CTC CTA CTG ATT ATC ATA ATG GTT GTC GTA GTG F F L L L I I I M/ start V V TCT TCC TCA TCG CCT CCC CCA CCG ACT ACC ACA ACG GCT GCC GCA GCG S S P P T T A A TAT TAC TAA TAG CAT CAC CAA CAG AAT AAC AAA AAG GАT GАC GАA GАG Y Y stop H H Q Q N N K K D D E E TGT TGC TGA TGG CGT CGC CGA CGG AGT AGC AGA AGG GGT GGC GGA GGG C C stop W R R S S R R G G
Открытые рамки считывания Ген должен располагаться внутри области от стопкодона до следующего стоп-кодона (в той же фазе)
Сильное перепредсказание (Aeropyrum pernix)
Генетический код: синонимы TTT TTC TTA TTG CTT CTC CTA CTG ATT ATC ATA ATG GTT GTC GTA GTG F F L L L I I I M/ start V V TCT TCC TCA TCG CCT CCC CCA CCG ACT ACC ACA ACG GCT GCC GCA GCG S S P P T T A A TAT TAC TAA TAG CAT CAC CAA CAG AAT AAC AAA AAG GАT GАC GАA GАG Y Y stop H H Q Q N N K K D D E E TGT TGC TGA TGG CGT CGC CGA CGG AGT AGC AGA AGG GGT GGC GGA GGG C C stop W R R S S R R G G
Codon usage (статистика употребления кодонов) • частоты кодонов отличаются от частот триплетов в некодирующих областях – различия в частотах аминокислот в белках – различия в частотах синонимичных кодонов • частоты синонимичных кодонов – специфичны для генома – коррелируют с концентрациями т. РНК
Gen. Mark, окно 96 нт
Генетический код: старт-кодоны TTT TTC TTA TTG CTT CTC CTA CTG ATT ATC ATA ATG GTT GTC GTA GTG F F L L L I I I M/ start V V TCT TCC TCA TCG CCT CCC CCA CCG ACT ACC ACA ACG GCT GCC GCA GCG S S P P T T A A TAT TAC TAA TAG CAT CAC CAA CAG AAT AAC AAA AAG GАT GАC GАA GАG Y Y stop H H Q Q N N K K D D E E TGT TGC TGA TGG CGT CGC CGA CGG AGT AGC AGA AGG GGT GGC GGA GGG C C stop W R R S S R R G G
Начала генов Bacillus subtilis dna. N ACATTATCCGTTAGGAGGATAAAAATG gyr. A GTGATACTTCAGGGAGGTTTTTTAATG ser. S TCAATAAAAAAAGGAGTGTTTCGCATG bof. A CAAGCGAAGGAGATGAGAAGATTCATG csf. B GCTAACTGTACGGAGGTGGAGAAGATG xpa. C ATAGACACAGGAGTCGATTATCTCATG met. S ACATTCTGATTAGGAGGTTTCAAGATG gca. D AAAAGGGATATTGGAGGCCAATAAATG spo. VC TATGTGACTAAGGGAGGATTCGCCATG fts. H GCTTACTGTGGGAGGAGGTAAGGAATG pab. B AAAGAAAATAGAGGAATGATACAAATG rpl. J CAAGAATCTACAGGAGGTGTAACCATG tuf. A AAAGCTCTTAAGGAGGATTTTAGAATG rps. J TGTAGGCGAAAAGGAGGGAAAATAATG rpo. A CGTTTTGAAGGAGGGTTTTAAGTAATG rpl. M AGATCATTTAGGAGGGGAAATTCAATG
Участок связывания рибосом dna. N ACATTATCCGTTAGGAGGATAAAAATG gyr. A GTGATACTTCAGGGAGGTTTTTTAATG ser. S TCAATAAAAAAAGGAGTGTTTCGCATG bof. A CAAGCGAAGGAGATGAGAAGATTCATG csf. B GCTAACTGTACGGAGGTGGAGAAGATG xpa. C ATAGACACAGGAGTCGATTATCTCATG met. S ACATTCTGATTAGGAGGTTTCAAGATG gca. D AAAAGGGATATTGGAGGCCAATAAATG spo. VC TATGTGACTAAGGGAGGATTCGCCATG fts. H GCTTACTGTGGGAGGAGGTAAGGAATG pab. B AAAGAAAATAGAGGAATGATACAAATG rpl. J CAAGAATCTACAGGAGGTGTAACCATG tuf. A AAAGCTCTTAAGGAGGATTTTAGAATG rps. J TGTAGGCGAAAAGGAGGGAAAATAATG rpo. A CGTTTTGAAGGAGGGTTTTAAGTAATG rpl. M AGATCATTTAGGAGGGGAAATTCAATG
Сравнительный анализ (один и тот же ген в нескольких геномах) Гены консервативнее, чем межгенные области (точнее, особенности эволюции другие) Sty TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAG ATGGGATGCATAATT Stm TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAG ATGGGATGCATAATT Sen TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAG ATGGGATGCATAATT Eco TTGCCCG--TGCCAGACGGCAGATTATCTCCCTGACCTGGTGGTTGCCCAGGAGGAGGGCCGGAAATAGGTTGTATCATT Kpn ----CGG--TGGCGCAGTGCCTGATGGG-CCTCGCCCTGGAGGACGGTCTGGCAT---ATCAGCAAGGGGGTGCGTCATG Ype TTGTTAGAACAGGGGAAAACGGTAAACAGTGTGGCATTAGATGTCGGTTATAGCT-----CCGCCTCTGCTTTTATCGCC * * * * * * * Sty AATTATCCTTTAAC-----CATAAATCTGAGCAATA-TATGCTTGGCGGCCAGATTATGGC--ACACTTGTCCGG Stm AATTATCCTTTAAC-----CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGG Sen AATTATCCTTTAAC-----CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGG Eco ACGTATCCTTATAC-----CTGAAATCTTCGCAAG--TATGCCTGGCCGCGAGATTATGGC--ACACTTGTCCGG Kpn ATTCATCCTTTCGATATCGCGGTGCTGGAACCAGGTGATGAGTATGCCTGGCGGCCAGATTATGGC--ACACTTCCCCAG Ype ATGTTTCAGCAAATAT----CGGGTACCA-CGCCTGAGCGTTTCCGGCGGGGCAATA GTGGCTTATACTAAGCCCC * ** * * *** * ** **** * *** Sty TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC Stm TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC Sen TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC Eco TTAACTCTCGT--CTCATACAG------GTAACACAAAC--GTGAAAATCCTTGTTGATGAAAATATGCCTTATGCCCGC Kpn TTAACTCTCGTT-CTCAGACAG------GTACTGAACT---GTGAAAATCCTCGTTGATGAAAATATGCCCGT Ype CTGTTTTTCATCTGTATGGCAGTTCGCTGTCGGAGAGTAAAGTGAAAATTCTGGTTGATGAAAATATGCCGTACGCTGAG * * ** * * *** **** ** ********* ** ** 123123123123123123123
rbs. D в E. coli Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAAAAAAATGAAAAAAGGC Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG
rbs. D в энтеробактериях Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Sen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Stm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC Ype TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** ******** * * ***** Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Sen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Stm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG Ype GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** ****** ***** *
rbs. D в энтеробактериях: ответ Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Sen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Stm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC Ype TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** ******** * * ***** Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Sen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Stm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG Ype GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** ****** ***** *
Мораль • Комплексный подход: использование многих разнородных соображений, каждое из которых по отдельности – слабое • Сравнительный подход: одновременный анализ множества геномов (находящихся на различных эволюционных расстояниях друг от друга)
Идеология • Сходство => гомология (общность происхождения) • Гомология => сходная функция • Принцип Пирсона: консервативно то, что важно – функциональные мотивы в белках – регуляторные сайты в ДНК – не обязательно последовательности • структура белка и РНК • расположение генов на хромосоме • ко-экспрессия генов
Transporters • Two main classes – ATP-dependent • TM-protein (permease) • ATPase • Substrate-binding protein – Secondary (symporters, antiporters) • Difficult to study in experiment (compared to enzymes) • Relatively easy to identify – Similarity to known transporters – Prediction of transmembrane segments • Difficult to predict specificity H+
Функциональный анализ транспортеров • Предсказание общей функции – гомология – анализ трансмембранных сегментов • Отнесение к функциональной подсистеме (метаболическому пути) – ко-локализация – ко-регуляция • Предсказание специфичности – анализ филогенетического профиля • конечный продукт биосинтетического пути: присутствует в геномах, не имеющих пути (импорт заменяет биосинтез) • промежуточный продукт биосинтетического пути; может заменять часть пути «выше по течению» • исходный продукт катаболического или биосинтетического пути: не встречается в геномах, где этот путь отсутствует
It is difficult to predict specificity by sequence analysis (nickel-oligopeptide family, substrate-binding Nik. A)
Pnu. C family of cofactor transporters
Riboflavin biosynthesis pathway
5’ UTR regions of riboflavin genes from various bacteria
Conserved secondary structure of the RFN-element Capitals: invariant (absolutely conserved) positions. Lower case letters: strongly conserved positions. Dashes and stars: obligatory and facultative base pairs N: any nucleotide. X: any nucleotide or deletion
Attenuation of transcription Antiterminator The RFN element Antiterminator Terminator
Attenuation of translation Antisequestor The RFN element SD-sequestor
Рибопереключатель RFN: регуляторный механизм Transcription attenuation Translation attenuation
Ypa. A/Rib. U: транспортёр рибофлавина • 5 предсказанных ТМ-сегментов => потенциальный транспортёр • регуляторный RFN-элемент => корегуляция с генами метаболизма рибофлавина => транспорт рибофлавина или предшественника • S. pyogenes, E. faecalis, Listeria: есть ypa. A, нет генов биосинтеза рибофлавина => транспорт рибофлавина Предсказание: Ypa. A – рибофлавиновый транспортёр (Gelfand et al. , 1999) Проверка: • генетический анализ (Кренева и др. , 2000) • биохимический эксперимент (Burgess et al. , 2006)
Биотиновый транспортер Bio. Y
Метаболическая реконструкция тиаминового биосинтеза = thi. N (confirmed) Transport of HMP Transport of HET (Gram-positive bacteria) (Gram-negative bacteria)
yua. J(=thi. T): тиаминовый транспортер (возможно, H+зависимый) в фирмикутах • 6 предсказанных трансмембранных сегментов • Почти всегда регулируется THI-рибопереключателями • Встречается в геномах, в которых отсутствует тиаминовый путь (Streptococci); • В B. cereus импорт тиамина сопряжен с током протонов (Arch. Microbiol. , 1977)
thi. X-thi. Y-thi. Z и yko. F-yko. E-yko. Dyko. C: предсказанные АТФ-зависимые транспортеры HMP • Почти всегда регулируются THI-рибопереключателями • Не встречаются в геномах, в которых отсутствует тиаминовый путь • Всегда встречаются вместе с thi. D и thi. E • В ряде геномов (Pasteurellacee, Brucella некоторые фирмикуты) встречаются в отсутствие thi. C
Co и Ni • ко-локализация (хромосомные локусы) – транспортеры Ni – с генами никель-зависимых ферментов – транспортеры Co – с генами синтеза кобаламина • ко-регуляция – транспортеры Ni – фактор транскрипции Nik. R – транспортеры Co – рибопереключатель В 12
Пять семейств транспортеров
Новое семейство транспортеров Co и Ni + Cbi. N Cbi. M Ni 2+ Co 2+ Nik. M + Nik. N + Nik. L, Nik. K + Nik. L
Структура локусов гены B 12 -элемент сайт связывания Nik. R
Структура cbi. O=Nik. O~bio. M cbi. Q=Nik. Q~bio. N
Проверка: тест на транспорт ионов Co Co Ni Ni Ni Co
Для транспорта достаточно компонент МN (первый пример такого АВС-транспортера) cbi. MNQO cbi. MNQ cbi. MN cbi. M контроль
Вспомним Bio. Y. Действительно, Bio. Y достаточно; у Bio. MNY более крутая кинетика
Экспериментальные подтверждения рибофлавин тиамин фолат
• Дмитрий Родионов – регуляция транскрипции – метаболическая реконструкция – идентификация транспортеров • Алексей Витрещак – рибопереключатели • А. А. Миронов – программное обеспечение • Томас Хеббельн (Берлин) – Cо, Ni, биотин • Андрей Остерман (Сан Диего) – рибофлавин • Эндрю Хансон (Флорида) – тиамин • Дирк Слотблум (Гронинген) – фолат
Transporters • Two main classes – ATP-dependent • TM-protein (permease) • ATPase • Substrate-binding protein – Secondary (symporters, antiporters) • Difficult to study in experiment (compared to enzymes) • Relatively easy to identify – Similarity to known transporters – Prediction of transmembrane segments • Difficult to predict specificity H+
It is difficult to predict specificity by sequence analysis (nickel-oligopeptide family, substrate-binding Nik. A)
Pnu. C family of cofactor transporters
Riboflavin biosynthesis pathway
5’ UTR regions of riboflavin genes
RFN-element Capitals: invariant (absolutely conserved) positions. Lower case letters: strongly conserved positions. Dashes and stars: obligatory and facultative base pairs Degenerate positions: R = A or G; Y = C or U; K = G or U; B= not A; V = not U. N: any nucleotide. X: any nucleotide or deletion
RFN: the mechanism of regulation • Transcription attenuation • Translation attenuation
Ypa. A: riboflavin transporter • 5 predicted TM segments => a transporter • Upstream RFN element => co-regulation with riboflavin genes => transport of riboflavin / precursor • S. pyogenes, E. faecalis, Listeria spp. : ypa. A, no riboflavin pathway => transport of riboflavin Prediction: Ypa. A is riboflavin transporter (Gelfand et al. , 1999) Verification: • by genetic analysis (Kreneva et al. , 2000) • directly (Burgess et al. , 2006) => Rib. U • • ypa. A is regulated by riboflavin (Lee et al. , 2001) … via attenuation of transcription (Winkler et al. , 2003)
Biotin transporter Bio. Y • Identification: – co-localization – co-regulation – phylogenetic profiling • Additional components – ATPase(? ) bio. M – Permease(? ) bio. N
Thiamin biosynthesis = thi. N (confirmed) Transport of HMP Transport of HET (Gram-positive bacteria) (Gram-negative bacteria)
yua. J(=thi. T): thiamine transporter • 6 predicted TM-segments • Regulated by THI riboswitches • Streptococci: Thi. T, no thiamine pathway
yko. FEDC: ATP-dependent HMP transporter • • Regulated by THI riboswitches Newer occurs in genomes lacking thiamine pathway Always co-occurs with thi. D and thi. E Sometimes occurs without thi. C
Cobalt and Nickel • Co-localization – Ni transporters with genes for Nidependent enzymes – Co transporters with cobalamine biosynthesis genes • Co-regulation – Ni transporters by transcription factor Nik. R – Co transporters by В 12 riboswitich
Structure of the loci genes B 12 riboswitch Nik. R binding site
Five families of transporters
New ATP-dependent transporters + Cbi. N Cbi. M Ni 2+ Co 2+ Nik. M + Nik. N + Nik. L, Nik. K + Nik. L
Dmitry Rodionov Thomas Eitinger
Test 1: predicted specificity is correct Co Co Ni Ni Ni Co
Structure: too many components
Biotin transporter Bio. Y • ATPase Bio. M ~ Cbi. O = Nik. O • Permease Bio. N ~ Cbio. Q = Nik. Q
Test 2: MN components are suffucient (ATPase and permease are dispensable) cbi. MNQO cbi. MNQ cbi. MN cbi. M control
Test 3: Bio. Y is sufficient Even if the genome had Bio. MNY; Bio. MNY has better cinetics
Tip of the iceberg?
Validations Rib. U: riboflavin Thi. T: thiamin Fol. T: folate (like Bio. Y)
Universal energizing component + specific components
Цель (глобальная) Предсказать свойства организма путем (компьютерного) анализа его генома (возможно, с использованием дополнительной информации: эпигенетика, белок-белковые взаимодействия и т. п. ) сейчас: метаболическая реконструкция, транспортные системы, ответ на стресс и т. д. “Понять” эволюцию геномов/организмов
«Неприкладная» биоинформатика • Молекулярная эволюция – – филогения генов таксономия организмов горизонтальные переносы и т. п. положительный и отрицательный отбор • что сделало нас людьми? • лекарственная устойчивость – эволюция геномов • Системная биология – строение геномов – сети взаимодействий • белок-белковые • регуляция транскрипции • сигнальные пути
Задачи биоинформатики • С проверяемым ответом – предсказание функции, регуляции, структуры и т. п. : • ставим эксперимент • С непроверяемым ответом – эволюционные деревья • но если бы знать все геномы всех (в том числе очень давно умерших) существ, то задача станет тривиальной • С принципиально непроверяемым ответом (который зависит от операциональных определений) – идентификация повторов, консервативных областей, островов метилирования и т. п. • (так ли он непроверяем? ) • Без ответа (общеописательные) – статистика геномов (изохоры и т. п. ) – описание регуляторных и пр. сетей (hubs, мотивы и т. п. )
«В принципе не проверяемые ответы» (зависящие от определений) Так ли они непроверяемы? • Повторы – если иметь все геномы, то можно описывать вставки/замены фрагментов генома и их последующее расхождение • Консервативные области – если иметь все геномы, то можно просто оценивать локальную скорость эволюции (но это будет функцией времени) • Статистика ДНК (локальный нуклеотидный состав) – это следствие локального паттерна замен, так и надо описывать • Микросателлиты – можно ли «функционально» (а не операционально) определить микросателлит, исходя из динамики вставок/замен/дупликаций? • Cp. G-острова – можно ли «функционально» (а не операционально) определить Cp. G-остров, исходя из паттерна мутаций, состояния метилирования и т. п. ? (тут уже эволюция + эксперимент)
Цель (недостижимая? ) откуда оно все взялось? первое приближение – реконструкция генома/свойств LUCA реально ли заглянуть глубже? реально ли смоделировать? (времена) реально ли смоделировать «по частям» ?
039ec2f2bd5b8005a697fe9568e54c89.ppt