Скачать презентацию Сравнительная геномика и функциональная аннотация генов Михаил Гельфанд Скачать презентацию Сравнительная геномика и функциональная аннотация генов Михаил Гельфанд

99d02289cabc011b3b0bb3c2ac00cf5b.ppt

  • Количество слайдов: 79

Сравнительная геномика и функциональная аннотация генов Михаил Гельфанд ИППИ РАН Конференция «Синтетическая биология и Сравнительная геномика и функциональная аннотация генов Михаил Гельфанд ИППИ РАН Конференция «Синтетическая биология и проектирование биоинженерных устройств» Synbio 2012. ru МФТИ, 11 VII 2012

Fig. 1 A doubling of sequencing output every 9 months has outpaced and overtaken Fig. 1 A doubling of sequencing output every 9 months has outpaced and overtaken performance improvements within the disk storage and high-performance computation fields. S D Kahn Science 2011; 331: 728 -729 Published by AAAS

Вот они, эти чудовища Вот они, эти чудовища

1464 расшифрованных геномов прокариот (на самом деле, уже много больше) база данных не успевает 1464 расшифрованных геномов прокариот (на самом деле, уже много больше) база данных не успевает

Расшифрованых ли? Перехватить зашифрованное сообщение – еще не значит его понять Расшифрованых ли? Перехватить зашифрованное сообщение – еще не значит его понять

0. 1% генома E. coli Геном бактерии: несколько миллионов нуклеотидов От 600 до 9 0. 1% генома E. coli Геном бактерии: несколько миллионов нуклеотидов От 600 до 9 тысяч генов (примерно 90% генома кодирует белки) (бывает существенно меньше – у эндосимбионтов)

Может быть, хватит? Нет, потому что: • новые геномы – это часто новая биология Может быть, хватит? Нет, потому что: • новые геномы – это часто новая биология • сравнение геномов само по себе дает новые результаты – про эволюцию бактерий и их геномов – про эволюцию регуляторных и метаболических сетей и семейств генов – про регуляцию конкретных генов и функцию белков – про новые белки с ранее не описанными свойствами

Метод Ферми-Финкельштейна Если белок похож на уже изученный, он делает примерно то же самое Метод Ферми-Финкельштейна Если белок похож на уже изученный, он делает примерно то же самое Doolittle R. F. et al. Science. 1983. • Gen. Bank • BLAST

Проблемы • часто можно предсказать только общую функцию (тип фермента, транспортер), но не специфичность Проблемы • часто можно предсказать только общую функцию (тип фермента, транспортер), но не специфичность • ничего нового!

Принцип Пирсона консервативно то, что несет функциональную нагрузку • не только последовательности: – ко-локализация Принцип Пирсона консервативно то, что несет функциональную нагрузку • не только последовательности: – ко-локализация генов на хромосоме – появление «большой компанией» (филетические паттерны) – одинаковая регуляция Другие соображения: трансмембранные сегменты, сигнальные пептиды и т. п.

STRING: trp. B – позиционные кластеры STRING: trp. B – позиционные кластеры

Биологические причины • опероны – совместная регуляция • горизонтальный перенос локусов Биологические причины • опероны – совместная регуляция • горизонтальный перенос локусов

STRING: trp. B – филетические паттерны STRING: trp. B – филетические паттерны

Phyletic profiles in the Phe/Tyr pathway Шикимат-киназа Phyletic profiles in the Phe/Tyr pathway Шикимат-киназа

Шикимат-киназа архей путь синтеза хоризмата (E. coli) Шикимат-киназа архей путь синтеза хоризмата (E. coli)

Арифметика филетических паттернов 3 -dehydroquinate dehydratase (EC 4. 2. 1. 10): Class I (Aro. Арифметика филетических паттернов 3 -dehydroquinate dehydratase (EC 4. 2. 1. 10): Class I (Aro. D) COG 0710 aompkzyq---lb-e----n---i-Class II (Aro. Q) COG 0757 ------y-vdr-bcefghs-uj---+ aompkzyqvdrlbcefghsnuj-i-Two forms combined Shikimate dehydrogenase (EC 1. 1. 1. 25): Aro. E COG 0169 aompkzyqvdrlbcefghsnuj-i-Shikimate kinase (EC 2. 7. 1. 71): Typical (Aro. K) COG 0703 ------yqvdrlbcefghsnuj-i-Archaeal-type COG 1685 aompkz----------+ aompkzyqvdrlbcefghsnuj-i-Two forms combined 5 -enolpyruvylshikimate 3 -phosphate synthase (EC 2. 5. 1. 19) Aro. A COG 0128 aompkzyqvdrlbcefghsnuj-i-Chorismate synthase (EC 2. 5. 1. 19) Aro. C COG 0082 aompkzyqvdrlbcefghsnuj-i--

Филогенетический футпринтинг оперон rbs в Enterobacteriaceae Start codon of rbs. D Филогенетический футпринтинг оперон rbs в Enterobacteriaceae Start codon of rbs. D

Филогенетический футпринтинг оперон rbs в Enterobacteriaceae регуляруется CRP и Rbs. R CRP binding site Филогенетический футпринтинг оперон rbs в Enterobacteriaceae регуляруется CRP и Rbs. R CRP binding site Rbs. R binding site Start codon of rbs. D

Много сайтов (nrd): FNR, Dna. A, Nrd. R Много сайтов (nrd): FNR, Dna. A, Nrd. R

Сохранение регуляции на больших эволюционных расстояниях Set of known sites Genome 1 Genome 2 Сохранение регуляции на больших эволюционных расстояниях Set of known sites Genome 1 Genome 2 PWM Genome N

Two major roles of zinc in bacteria • Structural role in DNA polymerases, primases, Two major roles of zinc in bacteria • Structural role in DNA polymerases, primases, ribosomal proteins, etc. • Catalytic role in metal proteases and other enzymes

Genomes and regulators ? ? ? n. ZUR FUR family p. ZUR Adc. R Genomes and regulators ? ? ? n. ZUR FUR family p. ZUR Adc. R ? FUR family Mar. R family

n. ZUR- Regulators and motifs GATATGTTATAACATATC n. ZUR- GAAATGTTATANTATAACATTTC GTAATAACATTAC TTAACYRGTTAA p. ZUR TAAATCGTAATNATTACGATTTA n. ZUR- Regulators and motifs GATATGTTATAACATATC n. ZUR- GAAATGTTATANTATAACATTTC GTAATAACATTAC TTAACYRGTTAA p. ZUR TAAATCGTAATNATTACGATTTA Adc. R

Transporters • Orthologs of the Adc. ABC and Yci. C transport systems • Paralogs Transporters • Orthologs of the Adc. ABC and Yci. C transport systems • Paralogs of the components of the Adc. ABC and Yci. C transport systems • Candidate transporters with previously unknown specificity

zin. T: regulation zin. T is isolated zin. T is regulated by zinc repressors zin. T: regulation zin. T is isolated zin. T is regulated by zinc repressors (n. ZUR- , p. ZUR) E. coli, S. typhi, K. pneumoniae Gamma-proteobacteria A. tumefaciens, R. sphaeroides Alpha-proteobacteria B. subtilis, S. aureus Bacillus group S. pneumoniae, S. mutans, S. pyogenes, L. lactis, E. faecalis Streptococcus group fusion: adc. A-zin. T is regulated by zinc repressors (p. ZUR, Adc. R) (ex. L. l. )

Zin. T: protein sequence analysis Y. pestis, V. cholerae, B. halodurans S. aureus, E. Zin. T: protein sequence analysis Y. pestis, V. cholerae, B. halodurans S. aureus, E. faecalis, S. pneumoniae, S. mutans, S. pyogenes E. coli, S. typhi, K. pneumoniae, A. tumefaciens, R. sphaeroides, B. subtilis L. lactis TM Zn Adc. A Zin. T

Zin. T: summary • zin. T is sometimes fused to the gene of a Zin. T: summary • zin. T is sometimes fused to the gene of a zinc transporter adc. A • zin. T is expressed only in zinc-deplete conditions (regulated by zinc repressors) • Zin. T is attached to cell surface (has a TM-segment) • Zin. T has a zinc-binding domain Zin. T: conclusions • Zin. T is a new type of zinc-binding component of zinc ABC transporter

Zinc regulation of PHT (pneumococcal histidine triad) proteins of Streptococcus spp. S. pneumoniae S. Zinc regulation of PHT (pneumococcal histidine triad) proteins of Streptococcus spp. S. pneumoniae S. pyogenes zinc regulation shown in experiment lmb pht. D pht. A pht. E pht. B lmb pht. D pht. Y S. equi S. agalactiae lmb pht. D

Structural features of PHP proteins • PHT proteins contain multiple Hxx. H motifs • Structural features of PHP proteins • PHT proteins contain multiple Hxx. H motifs • PHT proteins of S. pneumoniae are paralogs (65 -95% id) • Sec-dependent hydrophobic leader sequences are present at the Ntermini of PHT proteins • Localization of PHT proteins from S. pneumoniae on bacterial cell surface has been confirmed by flow cytometry

PHH proteins: summary • PHT proteins are induced in zincdeplete conditions • PHT proteins PHH proteins: summary • PHT proteins are induced in zincdeplete conditions • PHT proteins are localized at the cell surface • PHT proteins have zinc-binding motifs A hypothesis: • PHT proteins represent a new family of zinc transporters

… incorrect • Zinc-binding domains in zinc transporters: EEEHEEHDHGEHEHSH HSHEEHGHEEDDHDHSH EEHGHEEDDHHHHHDED • Histidine triads … incorrect • Zinc-binding domains in zinc transporters: EEEHEEHDHGEHEHSH HSHEEHGHEEDDHDHSH EEHGHEEDDHHHHHDED • Histidine triads in streptococci: HGDHYHY HGDHYHF HGNHYHF HYDHYHN HMTHSHW 7 out of 21 2 out of 21 DEHGEGHEEEHGHEH (histidine-aspartateglutamate-rich) (specific pattern of histidines and aromatic

Analyis of PHP proteins (cont’d) • The pht. D gene forms a candidate operon Analyis of PHP proteins (cont’d) • The pht. D gene forms a candidate operon with the lmb gene in all Streptococcus species – Lmb: an adhesin involved in laminin binding, adherence and internalization of streptococci into epithelial cells • Pht. Y of S. pyogenes: – pht. Y regulated by Adc. R – Pht. Y consists of 3 domains: 4 HIS TRIADS PHT LRR IR HDYNHNHTYEDEEGH AHEHRDKDDHDHEHED internalin H-rich

PHH proteins: summary-2 • • • PHT proteins are induced in zinc-deplete conditions PHT PHH proteins: summary-2 • • • PHT proteins are induced in zinc-deplete conditions PHT proteins are localized at the cell surface PHT proteins have structural zinc-binding motifs pht. D forms a candidate operon with an adhesin gene Pht. Y contains an internalin domain responsible for the streptococcal invasion Hypothesis PHT proteins are adhesins involved in the attachment of streptococci to epithelium cells, leading to invasion Current state • Pht proteins are required for inhibition of complement deposition on the pneumococcal surface through the recruitment of complement factor H (Oqunniyi et al. , 2009) • Pht proteins may play a role in immune evasion, but the mechanism of function is unlikely to be mediated by factor H binding (Melin et al. , 2010)

n. ZUR Zinc and (paralogs of) ribosomal proteins E. coli, S. typhi K. pneumoniae n. ZUR Zinc and (paralogs of) ribosomal proteins E. coli, S. typhi K. pneumoniae Y. pestis, V. cholerae p. ZUR B subtilis S. aureus Listeria spp. Adc. R E. faecalis S. pne. , S. mutans S. pyo. , L. lactis L 36 – – – – – L 33 – –+– –– ––– L 31 –+ –– –+ –+ – – – S 14 – –+ –+– – –+

Zn-ribbon motif n. ZUR (Makarova-Ponomarev-Koonin, 2001) E. coli, S. typhi K. pneumoniae Y. pestis, Zn-ribbon motif n. ZUR (Makarova-Ponomarev-Koonin, 2001) E. coli, S. typhi K. pneumoniae Y. pestis, V. cholerae p. ZUR B subtilis S. aureus Listeria spp. Adc. R E. faecalis S. pne. , S. mutans S. pyo. , L. lactis L 36 (–) (–) (–) L 33 – – – (–) + – (–) – – (–) – – L 31 (–) + (–) – (–) + – – – S 14 – – – (–) + – (–) +

Summary of observations: • Makarova-Ponomarev-Koonin, 2001: – L 36, L 33, L 31, S Summary of observations: • Makarova-Ponomarev-Koonin, 2001: – L 36, L 33, L 31, S 14 are the only ribosomal proteins duplicated in more than one species – L 36, L 33, L 31, S 14 are four out of seven ribosomal proteins that contain the zinc-ribbon motif (four cysteines) – Out of two (or more) copies of the L 36, L 33, L 31, S 14 proteins, one usually contains zinc-ribbon, while the other has eliminated it • Among genes encoding paralogs of ribosomal proteins, there is (almost) always one gene regulated by a zinc repressor, and the corresponding protein never has a zinc ribbon motif

Bad scenario Zn-rich conditions Zn-deplete conditions: all Zn utilized by the ribosomes, no Zn Bad scenario Zn-rich conditions Zn-deplete conditions: all Zn utilized by the ribosomes, no Zn for Zn -dependent enzymes

Regulatory mechanism Sufficient Zn ribosomes repressor R Zn-dependent enzymes Zn starvation R Regulatory mechanism Sufficient Zn ribosomes repressor R Zn-dependent enzymes Zn starvation R

Good scenario Zn-rich conditions Zn-deplete conditions: some ribosomes without Zn, some Zn left for Good scenario Zn-rich conditions Zn-deplete conditions: some ribosomes without Zn, some Zn left for the enzymes

Prediction … (Proc Natl Acad Sci U S A. 2003 Aug 19; 100(17): 9912 Prediction … (Proc Natl Acad Sci U S A. 2003 Aug 19; 100(17): 9912 -7. ) … and confirmation (Mol Microbiol. 2004 Apr; 52(1): 273 -83. ) Later: L 31 is a depot; S 14 and L 33 are “failsafe” substitutes (integrity of ribosomes unde zink starvation). Owen et al, 2007: Of seven Znribbon proteins, six are regulated in Streptomycs (also L 28, L 32, S 18)

Метаболический путь синтеза рибофлавина (витамин В 2) Метаболический путь синтеза рибофлавина (витамин В 2)

Консервативная последовательность перед генами рибофлавинового пути из очень разных бактерий Консервативная последовательность перед генами рибофлавинового пути из очень разных бактерий

Консервативная вторичная структура RFN-элемента Capitals: invariant (absolutely conserved) positions. Lower case letters: strongly conserved Консервативная вторичная структура RFN-элемента Capitals: invariant (absolutely conserved) positions. Lower case letters: strongly conserved positions. Dashes and stars: obligatory and facultative base pairs N: any nucleotide. X: any nucleotide or deletion

RFN: механизм регуляции • Transcription attenuation • Translation attenuation RFN: механизм регуляции • Transcription attenuation • Translation attenuation

… и еще перед одним геном (ypa. A) цветные стрелки – гены пути желтые … и еще перед одним геном (ypa. A) цветные стрелки – гены пути желтые стрелки – ypa. A, ген с неизвестной функцией черные стрелки – регуляторный элемент

Ypa. A/Rib. U: транспортёр рибофлавина • 5 предсказанных ТМ-сегментов => потенциальный транспортёр • регуляторный Ypa. A/Rib. U: транспортёр рибофлавина • 5 предсказанных ТМ-сегментов => потенциальный транспортёр • регуляторный RFN-элемент => корегуляция с генами метаболизма рибофлавина => транспорт рибофлавина или предшественника • S. pyogenes, E. faecalis, Listeria: есть ypa. A, нет генов биосинтеза рибофлавина => транспорт рибофлавина Предсказание: Ypa. A – рибофлавиновый транспортёр (Gelfand et al. , 1999) Проверка: • генетический анализ (Кренева и др. , 2000) • биохимический эксперимент (Burgess et al. , 2006)

Биотиновый транспортер Bio. Y Биотиновый транспортер Bio. Y

Метаболическая реконструкция пути биосинтеза тиамина (витамин В 1) = thi. N (confirmed) Transport of Метаболическая реконструкция пути биосинтеза тиамина (витамин В 1) = thi. N (confirmed) Transport of HMP Transport of HET (Gram-positive bacteria) (Gram-negative bacteria)

yua. J(=thi. T) тиаминовый транспортер (возможно, H+зависимый) в фирмикутах • 6 предсказанных трансмембранных сегментов yua. J(=thi. T) тиаминовый транспортер (возможно, H+зависимый) в фирмикутах • 6 предсказанных трансмембранных сегментов • Почти всегда регулируется THI-рибопереключателями • Встречается в геномах, в которых отсутствует тиаминовый путь (Streptococcus spp. ); • В B. cereus импорт тиамина сопряжен с током протонов (Arch. Microbiol. , 1977)

thi. X-thi. Y-thi. Z и yko. F-yko. E-yko. D -yko. C: предсказанные АТФ-зависимые транспортеры thi. X-thi. Y-thi. Z и yko. F-yko. E-yko. D -yko. C: предсказанные АТФ-зависимые транспортеры HMP • Почти всегда регулируются THI-рибопереключателями • Не встречаются в геномах, в которых отсутствует тиаминовый путь • Всегда встречаются вместе с thi. D и thi. E • В ряде геномов (Pasteurellacee, Brucella некоторые фирмикуты) встречаются в отсутствие thi. C

Co и Ni • ко-локализация (хромосомные локусы) – транспортеры Ni – с генами никельзависимых Co и Ni • ко-локализация (хромосомные локусы) – транспортеры Ni – с генами никельзависимых ферментов – транспортеры Co – с генами синтеза кобаламина • ко-регуляция – транспортеры Ni – фактор транскрипции Nik. R – транспортеры Co – рибопереключатель В 12

Дмитрий Родионов Thomas Eitinger Дмитрий Родионов Thomas Eitinger

Пять семейств транспортеров Пять семейств транспортеров

Новое семейство транспортеров Co и Ni Новое семейство транспортеров Co и Ni

Структура локусов гены B 12 -элемент сайт связывания Nik. R Структура локусов гены B 12 -элемент сайт связывания Nik. R

Проверка: тест на транспорт ионов Co Co Ni Ni Ni Co Проверка: тест на транспорт ионов Co Co Ni Ni Ni Co

Структура: слишком много компонентов Структура: слишком много компонентов

Биотиновый транспортер Bio. Y • АТФаза Bio. M ~ Cbi. O = Nik. O Биотиновый транспортер Bio. Y • АТФаза Bio. M ~ Cbi. O = Nik. O • Пермеаза Bio. N ~ Cbio. Q = Nik. Q

Для транспорта достаточно компонент МN (первый пример такого АВС-транспортера) cbi. MNQO cbi. MNQ cbi. Для транспорта достаточно компонент МN (первый пример такого АВС-транспортера) cbi. MNQO cbi. MNQ cbi. MN cbi. M контроль

Bio. Y тоже достаточно (даже в геномах, содержащих Bio. MN); у Bio. MNY более Bio. Y тоже достаточно (даже в геномах, содержащих Bio. MN); у Bio. MNY более крутая кинетика

Верхушка айсберга? Верхушка айсберга?

Экспериментальные подтверждения Rib. U: рибофлавин Thi. T: тиамин Fol. T: фолат (ср. Bio. Y) Экспериментальные подтверждения Rib. U: рибофлавин Thi. T: тиамин Fol. T: фолат (ср. Bio. Y)

Универсальный «энергетический комплекс» + компоненты, определяющие специфичность Универсальный «энергетический комплекс» + компоненты, определяющие специфичность

The overall structure of Rib. U. P Zhang et al. Nature 000, 1 -4 The overall structure of Rib. U. P Zhang et al. Nature 000, 1 -4 (2010) doi: 10. 1038/nature 09488

Эволюция регуляторных путей Эволюция регуляторных путей

Глобализация: как Fru. R превратился в CRA • CRA (= Fru. R) в Escherichia Глобализация: как Fru. R превратился в CRA • CRA (= Fru. R) в Escherichia coli: – глобальный регулятор – хорошо изучен экспериментально • Машина времени: поиск потенциальных сайтов связывания CRA/Fru. R перед генами, которые регулируются в E. coli

Общий предок Escherichia и Salmonella Mannose Glucose man. XYZ pts. HI-crr edd epd eda Общий предок Escherichia и Salmonella Mannose Glucose man. XYZ pts. HI-crr edd epd eda adh. E ace. EF Mannitol mtl. A fbp Fructose fru. BA pyk. F mtl. D fru. K gap. A pfk. A pgk gpm. A icd. A pps. A pck. A ace. A tpi. A ace. B Gamma-proteobacteria Enterobacteriales E. coli и Salmonella spp.

Общий предок Enterobacteriales Mannose Glucose man. XYZ pts. HI-crr edd epd eda adh. E Общий предок Enterobacteriales Mannose Glucose man. XYZ pts. HI-crr edd epd eda adh. E ace. EF Mannitol mtl. A fbp Fructose fru. BA pyk. F mtl. D fru. K gap. A pfk. A pgk gpm. A icd. A pps. A pck. A ace. A tpi. A ace. B Gamma-proteobacteria Enterobacteriales

Общий предок gamma-proteobacteria Mannose Glucose man. XYZ pts. HI-crr edd epd eda adh. E Общий предок gamma-proteobacteria Mannose Glucose man. XYZ pts. HI-crr edd epd eda adh. E ace. EF Mannitol mtl. A fbp Fructose fru. BA pyk. F mtl. D fru. K gap. A pfk. A pgk gpm. A icd. A pps. A pck. A ace. A tpi. A ace. B Gamma-proteobacteria

Общий предок Enterobacteriales Mannose Glucose man. XYZ pts. HI-crr edd epd eda adh. E Общий предок Enterobacteriales Mannose Glucose man. XYZ pts. HI-crr edd epd eda adh. E ace. EF Mannitol mtl. A fbp Fructose fru. BA pyk. F mtl. D fru. K gap. A pfk. A pgk gpm. A icd. A pps. A pck. A ace. A tpi. A ace. B Gamma-proteobacteria Enterobacteriales

Общий предок Escherichia и Salmonella Mannose Glucose man. XYZ pts. HI-crr edd epd eda Общий предок Escherichia и Salmonella Mannose Glucose man. XYZ pts. HI-crr edd epd eda adh. E ace. EF Mannitol mtl. A fbp Fructose fru. BA pyk. F mtl. D fru. K gap. A pfk. A pgk gpm. A icd. A pps. A pck. A ace. A tpi. A ace. B Gamma-proteobacteria Enterobacteriales E. coli and Salmonella spp.

Перестройка: катаболизм жирных кислот и разветвленных аминокислот в гамма- и бета-протеобактериях Перестройка: катаболизм жирных кислот и разветвленных аминокислот в гамма- и бета-протеобактериях

Gnt. R | Tet. R | Mer. R Gnt. R | Tet. R | Mer. R

Кто это делал • • • *Екатерина Панина (цинк) Дмитрий Родионов (транспортеры) Алексей Казаков Кто это делал • • • *Екатерина Панина (цинк) Дмитрий Родионов (транспортеры) Алексей Казаков (жирные кислоты) Дмитрий Равчеев (CRA) Алексей Витрещак (РНК-переключатели) • © Андрей Остерман (Burnham-Sanford Inst. ) • Томас Эйтингер (Humboldt Universuty) • © Михаил Гальперин (NCBI)

template • text template • text