
5396ac024a811b3f254b18e325ce468e.ppt
- Количество слайдов: 30
Зачем нужен анализ транскриптома Наука зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы • одинаковый геном → разные типы клеток • ответ клетки на внешние воздействия Клиника • предрасположенность к болезни → генотип болезнь → профиль экспрессии • классификация болезней, тонкий диагноз • молекулярные причины болезни, выбор мишени RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
Тонкая диагностика по анализу транскриптомов
Сходство болезней по сходству транскриптомов Работа проводилась на трансформированных клеточных линиях. Оказалось, что изменение профилей экспрессии при трансформации сходно с изменениями профилей экспрессии для трех групп болезней: • онкологические • аутоиммунные • связанные с метаболизмом липидов Авторы проверили, как влияют лекарства ля болезней второй и третьей группы на трансформацию и опухолевый рост. Лекарства, используемые для лечения неонкологических болезней блокируют клеточную трансформацию. (A) анализ морфологии клеток (B) анализ на мягком агаре. (C) рост опухолей ER-Src клеток в голых мышах после 4 -х внутрибрюшных инъекций лекарства
История Способы «на удачу» вычеты, differential display, вычитающая гибридизация и др. зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы Систематический анализ • масштабный EST-сиквенс • микрочипы - ограниченный набор генов - «весь» транскриптом - полногеномные (tailing) чипы RNA-Seq первый раз появилась возможность провести исчерпывающий анализ RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
RNA-Seq / чувствительность Клетка человека содержит 10 -50 pg тотальной RNA. m. RNA составляет 1 -5%: 0. 1 -2. 5 pg. Если принять средний размер 1 kb, это составит 0. 2 -5 х106 молекул зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы Каждая из 8 дорожек сиквенатора Illumina даёт ~1. 5 -2 х107 сиквенсов. Т. е. , если какой-то ген (размером 1 kb) имеет уровень экспрессии одна копия на клетку, то будет задетектировано примерно 3 -200 соответствующих ему сиквенсов. Бактериальная клетка содержит примерно 0. 1 pg тотальной RNA. Одна копия на клетку 1 kb гена даст ~200 сиквенсов. RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
RNA-Seq Одна платформа, однородные данные • анализ всех типов RNA: RNA-Seq зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы • влияние генотипа на транскрипцию: resequencing • влияние эпигенетических факторов • DNA-белковые и RNA-белковые взаимодействия: Ch. IP-Seq Чувствительность • пропорциональна цене • ~1 копия на клетку за $300 Возможна сборка транскриптома de novo RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
RNA-Seq: метод (i) прямой сиквенс c. DNA зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы (ii) уровень экспрессии с определенного участка генома оценивается как частота встречаемости соответствующих фрагментов (iii) структура транскриптов выводится из анализа нуклеотидных последовательностей (пересечение splice-junctions), расположения парных сиквенсов и redundancy RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
RNA-Seq: мол. биология RNA дробление зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы синтез c. DNA дробление лигирование 5′ и 3′ адаптеров лигирование адаптеров библиотека коротких c. DNA фрагментов сиквенс фрагментов с одной или двух сторон анализ RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
RNA-Seq: биоинформатика файл с сиквенсами зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы файл с качеством выравнивание • на геном • на базу splice-junctions unmatched: не используются неоднозначное выравнивание: используются только для определения абсолютного уровня экспрессии однозначное выравнивание: все остальные анализы RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
Сравнение параметр RNA-Seq Чипы RT-PCR ~104 -5 ~102 ~106 динамический диапазон чувствительность • зависит от масштаба сиквенса • 1 копия на клетку за ~$300 • зависит от зонда и гена • ~10 копий на клетку 1 копия на 10 -100 клеток точность • ошибка ~ корень из числа хитов • сильно зависит от уровня экспрессии если экспрессия сравнима с фоном, то измерить не удастся ~20% гены • полнотранскриптомный анализ • сложно исключить отдельные гены • по выбору • возможно полногеномное с исключением отдельных областей один ген – одна реакция абсолютный уровень экспрессии можно очень грубо можно de novo анализ для непросиквенированных организмов возможен аннотация новых генов возможна, без применения специальных библиотек разрешение – несколько нуклеотидов невозможен • только tiling arrays • низкая разрешающая способность (десятки-сотни нуклеотидов) невозможна RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
Сравнение параметр RNA-Seq Чипы RT-PCR чувствительность к мутациям в геноме слабое влияние может сильно повлиять на результат анализа аллель-специфическая экспрессия • полнотранскриптомный анализ • нельзя использовать интронные SNP • выборочный анализ • можно использовать интронные SNP повторяющиеся последовательности только по различающимся участкам, высокий фон в режиме SNP-анализа межлабораторная кооперация • одинаковый протокол: тривиально • разные протоколы: можно • одинаковая чип-система: можно • разные системы: очень сложно тривиально производительность • низкая: ~10 -50 библиотек на человека • сложное приготовление библиотек и долгое время сиквенса • высокая: ~10 -40 анализов в день на человека • автоматизируется • максимальная: ~100 -1000 анализов в день на человека • почти полностью автоматизируется перспективы развивающаяся область, цена быстро падает и технология и цена стабильны RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
Сравнение чипов и RNA-Seq Как соотносятся сравнения профилей экспрессии с помощью чипа (ось Y) и RNASeq (ось X). В обоих случаях log 2 (отношение экспрессии в B и HEK клетках). Всего 7043 гена. Зеленые и красные линии: разница 33 and 50%, соответственно. RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
Выводы • сохранятся все три технологии зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы • экспрессионные чипы и RT-PCR будут применяться как тест-системы под конкретные вопросы • RNA-Seq: полнотранскриптомный анализ для биологии и клиники RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
RNA-Seq позволяет • определять как отностительный, так и абсолютный уровни экспрессии зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы • аннотировать новые и уточнять аннотацию известных генов • анализировать структурные перестройки • выявлять аллель-специфическую экспрессию • определять экспрессирующиеся SNP • исследовать редактирование RNA • детектировать слитые (fusion) транскрипты • выявлять присутствие в образце микроорганизмов и вирусов RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
Аллельная экспрессия B 6 F 1(B 6 x. PWD) PWD F 1(PWDx. B 6) Генетически-обусловленное различие. Хромосома 13, ген SNCB (Synuclein, beta). Экспрессия PWD больше при любом направлении скрещивания F 1(B 6 x. PWD) и F 1(PWDx. B 6). Импринтинг. Хромосома 15, ген Peg 13. Отцовский аллель экспрессируется в F 1 мышах: PWD аллель в F 1(B 6 x. PWD) и B 6 аллель в F 1(PWDx. B 6). RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
RNA-Seq и реплики зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы Очень надежная процедура. Обычно, бессмысленно тратить деньги на реплики в смысле «сделаем несколько измерений одного и того же чтобы повысить точность» Биологические реплики зависят от задачи. Но общее впечатление: транскрипция хорошо воспроизводится. Стандартизация параметров: пол, возраст, режим кормления и т. п. Если возможно, избегать самок с их гормональными циклами. RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
Сравнение уровней экспрессии длина фрагментов: чем меньше, тем лучше. Вариабельность длины роли не играет принцип: один сиквенс – один хит зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы • не рационально использовать длинные сиквенсы (50 nt – хороший выбор) • не рационально проводить PE-сиквенс, т. к. Сиквенсы с двух концов нельзя рассматривать как независимые и засчитывать за два хита • это не относится к анализу экспрессии de novo множественное выравнивание • выбрасываются из анализа при попарном сравнении • учитываются при расчете абсолютного уровня экспрессии достоверность зависит не только от разницы, но и от абсолютного уровня экспрессии: 2000/1000, 20/10, 2/1 RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
Распределение уровней экспрессии N most expressed transcripts 1000 5000 10000 15000 % reads 20% 52% 87% 99. 7% Большая часть ридов из сильноэкспрессирующихся генов. Большинство генов слабо экспрессируются. RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
Геномный броузер – часть web-программы, которая от каталогизации образцов и библиотек до анализа и презентации данных. Масштаб представления может плавно меняться. Слева: сравнение экспрессии в нескольких линиях; справа: от целой хромосомы до отдельных нуклеотидов. http: //genseq. molgen. mpg. de/ss. RNA/ RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
Примеры пересекающихся генов YOR 163 W и YOR 164 C Ncaph 2 и Ecgf 1 Mrpl 24 и BC 023814 YJR 086 W, YJR 087 W и YJR 088 C Слева – дрожжевые примеры, справа – мышиные. RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
Новые гены дрожжи: новый ген между YNR 066 C и YNR 067 C мышь: новый и неправильно анотированный экзоны Cdc 42 bpa гена мышь: новый экзон Chd 3 гена мышь: новый ген-кандидат RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
Анализ структуры (сплайсинга) на сегодня нет стандартных методов • детектируем, а не измеряем • для сильно-экспрессирующихся генов зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы • анализ ограниченного числа генов «вручную» для анализа используется • выравнивание на in silico базе splice-junctions • PE-сиквенс: узкий диапазон, низкий выход, двойная очистка в геле • разница в представленности экзонов (очень ненадежные данные, так как вариабельность покрытия при RNA-Seq существенно выше, чем при ресиквенсе) Все эти способу не требуют длинных сиквенсов. Длинные сиквенсы могут понадобится для поиска новых, неохарактеризованных splice-junctions RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
Сплайсинг EIF 4 G 1 ген на 3 -ей хромосоме в двух линиях клеток. HEK (вверху) и B клетки (внизу), зелёные прямоугольники: 33 известных экзона гена, красная гистограмма: число ридов в на данном фрагменте, голубые линии - splice junctions (ширина пропорциональна числу ридов). RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
Удаление рибосомной RNA oligo(d. T) • преимущественная очистка 3′ областей • один цикл очистки: m. RNA≈r. RNA зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы Ribo-minus (Invitrogen) • удаляются 18 S, 28 S, 5. 8 S, and 5 S r. RNA • если сравнивать с oligo(d. T): нет преимущественной очистки 3′ областей, гораздо дороже, экспрессионный профиль практически тот же Terminator™ 5'-Phosphate-Dependent Exonuclease (Epicentre) • удаляются 18 S и 28 S r. RNA нормализация уменьшается содержание всех распространенных типов RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
Выбор платформы • не рассматривается 454, так как в ~200 раз дороже • из предположения, что обе есть, а не «какую купить» зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы параметр Illumina производительность, перспективы, приготовление библиотек SOLi. D ≈ цена сиквенс на SOLi. D примерно вдвое дешевле качество • если проводится выравнивание относительно референсного генома, то качество выше у SOLi. D • для de novo сборки качество выше у Illumina размер вставки <600 bp <300 bp длина сиквенса SR: до 150 nt PE: до 150 и 150 nt параллелизация • лучше у Illumina: как по умолчанию, так и для barcoding • SOLi. D: 4 поля – 25% потерь площади; 8 полей – 33% удобство системы Illumina немного удобнее и заметно безопаснее в смысле загрязнения старой библиотекой оптимизация сиквенса и использование нестандартных библиотек Illumina существенно удобнее: легкое перепрограммирование машины, простой переход на новые сиквенсовые праймеры SR: до 75 nt PE: до 75 и 25 nt RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
Wet-протоколы лигирование 5′ и 3′ адаптеров зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы • сложнее и капризнее • RNA любой длины • точнее аннотация RNA дробление синтез c. DNA дробление • проще и надежнее • только сравнительно длинные транскрипты (реальные проблемы только для микро RNA) • химическое расщепление (быстрее и удобнее, чем ультразвук); чувствительно к r. RNA загрязнению, два цикла очистки • распределение фрагментов существенно равномернее • 3′-bias при использовании oligo(d. T) праймера* • способ устойчив к r. RNA загрязнению, достаточно одного цикла очистки • дробление: ультразвук**; устойчиво к переозвучиванию • протоколы не выявляющие направление транскрипции устарели • важно, чтобы все было как можно более одинаковым: протокол, способ щепления, длина фрагментов и т. п. • для специальных задач – специальные библиотеки (например, уточнение аннотации генов) * само по себе это ни хорошо и ни плохо ** не надо пользоваться Nebulizer; нет денег на Covaris, можно сделать систему за ~3 k$ RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
d. UTP протокол - ориентация poly. A m. RNA Oligo(d. T) and random hexamer primed first-strand c. DNA synthesis Second-strand synthesis with d. UTP c. DNA fragmentation A RNA fragmentation Random hexamer primed first-strand c. DNA synthesis B Second-strand synthesis with d. UTP Adapters ligation, size selection UNG treatment, preamplification Illumina sequencing Полезность информации о направлении транскрипции. 5’ область дрожжевого гена YGR 203 W пересекается с 5’ областью неанотированного гена. A: mapping без ориентации; B: ss. RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
На сегодняшний день Очень разная представленность разных генов • чем выше уровень экспрессии, тем подробнее и качественнее анализ зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы • анализ гетерогенных систем Анализ структуры откровенно слаб: сейчас, скорее детекция, чем количественный анализ Нет корпоративных стандартов • нет общепринятых алгоритмов анализа • используются разные wet-протоколы и разные платформы • не проблема для попарного анализа Низкая производительность: хорошую библиотеку делать долго RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
На ближайшее время NB! не рассматривается «естественное улучшение» : длиннее риды, нормализация, надежнее анализ и т. п. зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы • цена будет падать по-прежнему быстро • быстрый анализ на сиквенаторах третьего поколения • биологические базы знаний (модельные организмы, модельные ткани) - сплайс-варианты - уровень и вариабельность экспрессии • клинические диагностические базы знаний RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin
Участники проф. Ханс Лерах зачем? • возможности • метод • сравнение • подробности • проблемы • перспективы Дмитрий Пархомчук, кбн - биоинформатика Татьяна Бородина, кбн Мария Банару, аспирант Алексей Давыдов, аспирант RNA-Seq: анализ транскриптома с помощью секвенатора второго поколения // А. Солдатов, MPI for Molecular Genetics, Berlin