
genome eng-lecture2.pptx
- Количество слайдов: 44
Геноміка і геномна інженерія. Методи секвенування ІІ і ІІІго поколінь Спецкурс Лекція 2
Метод 454 q Ферментативний метод копіювання матриці q Визначення послідовності у реальному часі ДНК+праймер, полімераза сульфурилаза, люцифераза+люциферин Додаємо один тип д. НТФ Некомплементарний Комплементарний Емісія світла Промивка, новий д. НТФ
Геномні бібліотеки для 454 Виділення та механічна фрагментація геномної ДНК. Утворюються фрагменти з різними типами кінців, які перетворюють у т. зв. “тупі” за допомогою полірування – див. нижче Отримання бібліотеки фрагментів однониткової ДНК (полірування кінців – кіназа полімераза Кленов-фр. ), до кінців якої приєднані адаптери. Один з них містить біотиновий таг Імобілізація ДНК на агарозних кульках (28 мкм) за рахунок комплементарної взаємодії праймерів. Збагачення бібліотек на кульки, до яких приєдналась ДНК, за рахунок взаємодії з стрептавідином
Емульсійна ПЛР Одну кульку з імобілізованою ДНК ізолюють у краплині водо-олійної емульсії, де містяться усі необхідні для ПЛР реагенти. 1 мкл розчину – приблизно 1000 мікрореакторів Після ПЛР на поверхні кульці міститься кілька мільйонів клонів вихідного фрагмента ДНК Кульки виділяють з емульсії, змішують з універсальним праймером для секвенування, полімеразою Bst. I і білком звязування однониткової ДНК – і потім завантажують у секвенатор
Секвенування 454: мініатюрне, паралельне Реактор для секвенування – кремнієвий чип з ~4× 105 робочих комірок піколітрового обєму (пікотитр). В одну комірку поміщається одна кулька Потім у кожну комірку за допомогою дифузії вносять кульки меншого розміру, на поверхні яких імобілізовано сульфурилазу і люциферазу лунки фотоелемент Вигляд робочої поверхні пікотитру, з якої у лунки завантажують кульки, реагенти і д. НТФ Емісія світла – наслідок включення д. НТФ у ланцюг і запуску каскаду спряжених реакцій. Промивання чипу, новий цикл… Концептуальна схема секвенатора 454
Метод 454: аналіз даних Асинхронний синтез ДНК у різних комірках
Метод 454 q Сучасні версії методу дають змогу просеквенувати до 1000 п. н. (500 п. н. у середньому) q Погано працює при секвенуванні гомополімерів У 454 викликають не основи, а потоки (flows; інтенсивність світлового сигналу), тобто співставляють кількість циклів додавання д. НТФ і піків емісії світла із довжиною секвенованої ділянки ТААААА буде виглядати як невеликий пік емісії, що позначає Т, і поруч значно більший пік, що позначає 5 А. Тому 5 А може виглядати як 4 А чи 6 А q Складно аналізувати гетерозиготні варіації геному і великі геноми q Метод 454 має інший профіль помилок ніж метод Сенгера
Спаровані бібліотеки для 454 q Так отримується необхідна інформація для складання великих геномів, ділянок багатих на повтори
Метод 454 одним поглядом q Ферментативний метод копіювання матриці q Визначення послідовності у реальному часі q Мініатюрний, високопаралельний метод (піколітрові об’єми, 400 тис. реакцій за один цикл) q Немає термінаторів синтезу q До 1000 п. н. – і велика глибина секвенування (20 -50×) q Всі етапи – in vitro q За один цикл роботи приладу – 200 млн п. н. q Асинхронний синтез q Унікальний профіль помилок q Секвенування de транскриптоміка novo, повторне, метагеноміка,
Метод іllumina q Ферментативний метод копіювання матриці q Оборотні термінатори синтезу q Створення бібліотеки – як у 454 (фрагментування, адаптори) q Ампліфікація бібліотеки на поверхні проточної камери. Місткова ПЛР. Утворюються кластери ДНК (1000 копій) Денатурація Приєднання Синтез до праймера ДНК Цикл 1 Цикл 2 Цикл 3
Метод іllumina Оборотні термінатори синтезу Структура після видалення флуорофора і блокуючої групи на 3´ гідроксилі
Метод іllumina Принцип роботи 1 2 + усі 4 НТФ, + ДНК-пол. Термінація синтезу ДНК у кожному кластері при включенні певного НТФ 3 опромінення лазером Флуоресценція ( наслідок термінації), її детекція Видалення 3´-блокуючої групи, видалення флуорофору Промивання камери – початок нового циклу (додавання НТФ, детекція флуоресценції, розблокування
Метод іllumina Спаровані бібліотеки Один кінець Спаровані кінці Об’єднані кінці
Метод іllumina одним поглядом q Копіювання матриці, оборотні термінатори q Можна просеквенувати 100 п. н. , у ~300 млн зразках q Вихід – 320 млрд п. н. за один цикл роботи приладу q Аналіз вихідних даних – подібно до Сенгера (аналіз первинних tif. -зображень, виклик основ (за кольором), первинна фільтрація даних) q Оскільки аналізується популяція молекул (як і у інших методах), то можливий зсув фази секвенування у межах кластера ДНК. Ці помилки фіксуються і при можливості виправляються при первинному аналізі даних q Застосування – увесь спектр q Секвенує спаровані кінці фрагментів розміром до 500 п. н. – по 100 п. н. з кожного кінця
Метод SMRT (Pacific Biosciences) q Метод копіювання матриці q Секвенування у реальному часі на ZMW q Нема етапу ампліфікації - аналіз окремих молекул ДНК На дні лунки – імобілізована полімераза φ29, праймер і 4 НТФ, кожен з яких має специфічний флуорофор
Метод SMRT (Pacific Biosciences)
Метод SMRT одним поглядом q Копіювання матриці q Т. зв. “мономолекулярний” метод секвенування у реальному часі q Нанофотонна структура ZMW, максимум 150 тис. точок секвенування q Секвенує більше 1000 п. н. , 10 % усіх зчитувань – 4500 п. н. q Вихід – прибл. 45 млн. п. н. за цикл роботи приладу q Високий відсоток помилок, що компенсується багаторазовим секвенуванням (консенсусна якість відповідає сенгерівському методу) q Метод працює на кільцевих матрицях, де здійснює циклічне секвенування (rolling circle seq)
Метод SOLi. D q Метод лігазного динуклеотидного декодування q Приготування бібліотеки – подібно до 454 (е. ПЛР) q Структурована популяція октамерів
Метод SOLi. D Принцип роботи
Метод SOLi. D Принцип визначення послідовності
Метод SOLi. D Принцип визначення послідовності
Метод SOLi. D одним поглядом q Лігазний метод динуклеотидного декодування q Секвенує 50 п. н. на 100 млн. точок секвенування q Можливість спарованого секвенування q Вихід – прибл. 20 -100 млрд п. н. за цикл роботи приладу q Особлива обробка даних, наразі складно сумістити з Phred-Phrap викликом основ за методом Сенгера q Дворазове секвенування кожної основи – підходить для виявлення однонуклеотидного поліморфізму q Застосування – увесь спектр, але фокус на повторному секвенуванні, MDx, транскриптоміці (тагування м. РНК)
Метод Ion Torrent q Метод копіювання матриці q Геномна бібліотека – на ПАА-кульках; е. ПЛР – все аналогічно до 454 чи SOLi. D q Включеня основи у лацюг ДНК вивільняє протон, що приводить до зміни р. Н комірки, у якій відбувається реакція – цю зміну прямо детектує транзистор
Метод Ion Torrent Робоче тіло секвенатора Мініатюрний р. Н-метр
Метод Ion Torrent
Метод Ion Torrent Аналіз даних q Метод копіювання матриці q Найпростіший – нема міток, фотодетекції q Довжина секвенованого фрагменту – 300 п. н. , близько 25× 106 лунок на 1 мм 2 приладу q Революція в аналізі ДНК? ? ?
Методи секвенування нового покоління Метод Сенгера 454 Іллюміна Ion Torrent SMRT SOLi. D Основний Незворотні Піросек- Оборотні р. Н-метрія ZMW Лігування (дидезокси-) вену- термінатори вання In vivo ? 1 Так Ні Ні Ні In vitro ? 2 ПЛР ем-ПЛР 7 міст-ПЛР 8 ем-ПЛР Ні ем-ПЛР RT ? 3 Ні Так Ні Субстрат4 ПМ ПМ ПМ чи ОМ ПМ ОМ ПМ П. н. 5 1000 100 200 4000 50 Пропуск. 6 4 102 4 105 2 108 106 105 4 108 Помилки Транзиції Інсерції Транзиції Повтори Усі типи Транзиції Трансверсії Делеції Трансверсії 8 год 7 год 9 днів принцип Цикл 1 популяції октамерів Трансверсії 1, 5 год 15 хв 9 днів – наявність етапу ампліфікації бібліотеки для секвенування in vivo ; 2 - наявність етапу ампліфікації бібліотеки для секвенування in vitro; 3 - секвенування у реальному часі; 4 – субстратом для секвенування є популяція молекул (ПМ) чи окрема молекула (ОМ); 5 – довжина секвенованого фрагменту, в п. н. ; 6 – кількість
Методи секвенування нового покоління База EST, 2009 Інші методи геномного аналізу Всіх орг-мів 1683 Експ-т Вимірювання Всього EST 60× 106 SAGE 103 - 105 Організм К-ть EST Людина 8× 106 Генний чіп 103 - 105 Миша 5× 106 Кукурудза 2× 106 Інструмент Вимірювання Арабідопсіс 1. 5× 106 454 Titanium 106 Illumina GA 80× 106 SOLi. D V 3 180× 106 EST – Expressed Sequence Tags SAGE – Serial Analysis of Genome Expression Секвенування нового покоління Методи секвенування нового покоління генерують величезні масиви даних, які можна використати не тільки для визначення структури геномів
Транскриптоміка: RNA-seq проти генних чіпів Добра статистика, обмеженість покриття Погана статистика, глибоке покриття
RNA-seq q Диференційний аналіз експресії генів можна виконати, якщо визначити скільки разів просеквеновано м. РНК певного типу. Це роблять біоінформатично, порівнюючи дані RNA-seq з референтним геномом. Більше число зчитувань – більше вихідної РНК – вищий рівень транскрипції q Відкриття нових РНК q Перевірка меж екзонів, покращення анотацій геному
Інші застосування секвенування НП q Вивчення метилування секвенування) ДНК (бісульфітне q ДНК-білкові взаємодії (Ch. IP-seq) seq q Визначення третинної структури ДНК
Методи секвенування нового покоління q Біоінформатичний аспект – результатом майже усіх цих методів є величезний масив (десятки мільйонів) коротких фрагментів – і їхній аналіз за допомогою програми BLAST практично неможливий. BLAST не впорається з таким масивом даних, і вона не розрахована на короткі фрагменти q Розроблено низку нових алгоритмів – MAQ, SOAP, Sh. RIMP, Eland, ZOOM, RMAP
Методи секвенування нового покоління MAQ – використовує хешеві таблиці; 1 індексуються, 0 хешуються
Методи секвенування нового покоління q Масована паралелізація q Проточна камера як реактор q Клональна ампліфікація або окремі молекули q Циклічний процес додавання нуклеотидів q Ультравеликі обсяги даних про короткі фрагменти q Високі вимоги до комп’ютерного забезпечення - як програмного так і апаратного (терабайти даних!) q Застосування – як структурна, так і функціональна геноміка q Різний спосіб приготування матриць q Різна хімія секвенування q Різна конфігурація проточної камери
Бази даних геномів: NCBI, Genome, Gen. Bank q National Center Biotechnology Information q www. ncbi. nlm. nih. gov q http: //www. ncbi. nlm. nih. gov/genome q http: //trace. ncbi. nlm. nih. gov/Traces/sra. cgi? – зберігаються “сирі” дані про частоково секвеновані геноми, дані секвенування нового покоління q Завдання Gen. Bank – зберігання, упорядкування і курування даних. Останнє – це перевірка точності поданих з метою зменшення поширення помилок у базах даних. Станом на грудень 2011 у базі міститься інформація про 60 млрд п. н. ; зараз обсяг бази подвоюється кожні 18 місяців
Бази даних геномів: NCBI, Genome, Gen. Bank q http: //www. ncbi. nlm. nih. gov/genome FASTA-формат >gi|256374160: 156424 -156891 Actinosynnema mirum DSM 43827 chromosome, complete genome GTGGGAGCTGAACCGCGGTGGTTGGACGAGGGCGAGATGCGCGCGTGGCGCAACTACGTGGT CGGGGCGGCGATGCTCTCCGACCGGCTGCACCGCGAGCTCCAGACCACGACCTGTCGCGGACTACGAGATCATGGTGCGGCTCTCCGAGCAGCCGGGCGGCCGGATGTCC CAGCTGGCGGAGGACGTCGTCCAAGAGCCGGGTGTCGCACCAGGTCGCGCGGATGGA GAAGGAGGGCCTGGTCAGGCGCCGCGAGTGCCCGGAGGACGGCAGGGGCGTGTTCGCCGAGC TGACCGCGGACGGCGCCTCCTGGAGAACTCCGCCCCGACGCACGTGCGGGGCGTGCGC GAGCACATGGTGGACCTGCTCAGCCCGGAGGAGCAGGAGGTCCTGGCGAAGGTCTTCAACCG GGTCATCACGCACCTGCGGGGGTCGGACGGGTAA >gi|255918604|gb|ACU 34115. 1| transcriptional regulator, Mar. R family [Actinosynnema mirum DSM 43827] MGAEPRWLDEGEMRAWRNYVVGAAMLSDRLHRELQTDHDLSLADYEIMVRLSEQPGGRMRMS QLAEDVASSKSRVSHQVARMEKEGLVRRRECPEDGRGVFAELTADGARLLENSAPTHVRGVR EHMVDLLSPEEQEVLA KVFNRVITHLRGSDG
Бази даних геномів: NCBI, Genome, Gen. Bank q BLAST – Basic Local Alignment and Search Tool http: //blast. ncbi. nlm. nih. gov/Blast. cgi q Програма шукає подібні послідовності у базі даних Gen. Bank. Вихідним матеріалом для порівняння може слугувати як ДНК, так і трансльована послідовність. Програма налаштована на пошук найкращої локальної подібності між запитом і базою даних; тому часто BLAST відсікає початок і кінець гена/білка, що покращує результат порівняння. Для порівняння повних біологічних послідовностей слід використовувати інші знаряддя – напр. CLUSTALW, COFFEE. q За вказанами гіперпосиланнями багато додаткових сервісів
Філогенетичний аналіз білків gb|AEA 22488. 1| regulatory protein Mar. R [Pseudonocardia dioxanivorans CB 1190] Length=162 Score = 167 bits (424), Expect = 2 e-51, Method: Compositional matrix adjust. Identities = 84/153 (55%), Positives = 107/153 (70%), Gaps = 0/153 (0%) Query 2 GAEPRWLDEGEMRAWRNYVVGAAMLSDRLHRELQTDHDLSLADYEIMVRLSEQPGGRMRM 61 A P+WLD+ EMR WR++++ A +L RL+REL H +S +DY I+V LSE P +MRM Sbjct 4 AATPQWLDDDEMRFWRSFILTATLLESRLNRELVEGHGISHSDYSILVVLSEAPDHQMRM 63 q BLAST і інші згадані вище програми непридатні для філогенетичного аналізу – тобто з’ясування родинних стосунків у певній групі генів, білків чи організмів q Спеціалізовані програми для філогенетики – PHYLIP, phylogeny. fr тощо
Концепція філогенетичного дерева 1831, Чарлз Дарвін q Для побудови філогенетичного дерева можна використати будь яку ознаку чи сукупність ознак, яку(і-) можна кількісно оцінити – кількість смужок на хутрі, особливості будови квітки (№ пелюсток), довжина антен/сегментів у комах тощо q Відмінності у нуклеотидній послідовності і продуктів її трансляції – одна з найкращих ознак для філогенії
Філогенія декоративних голубів
Філогенетичний аналіз білків Матриця заміщення BLOSUM 62
Філогенетичний аналіз білків Статистична оцінка клада (clade) паралог гомологи нода (node) ортолог outgroup К-ть заміщень на 1 ак позицію
Філогенетичний аналіз видів http: //evolution. berkeley. edu/evolibrary/article/0_0_0/phylogenetics_01 Політомія розв’язана Швидке видоутворення Наскільки достовірні філогенетичні дерева? Порівняння геномів – остання інстанція?
Дерево життя чи хащі життя?