c7e3f799abed39d33eb31bb63bb63c60.ppt
- Количество слайдов: 41
Биостатистика 10. Генетическая обусловленность I (одномерный анализ) Рубанович А. В. Институт общей генетики им. Н. И. Вавилова РАН
Сопряженность «генотип – фенотип» q «Однолокусный» анализ (Single-SNP analysis) - Фенотип в зависимости от одного полиморфного сайта или локуса q «Многолокусный» анализ (Multiple-SNP analysis) - Эффекты гаплотипов ( «однолокусный» анализ с большим числом «аллелей» ) - Эпистаз (совместное действие 2 -3 генов с помощью ANOVA) - Индексы генетического риска (зависимость фенотипа от суммы числа рисковых аллелей по нескольким локусам) - Множественные регрессии «фенотип ~ полиморфные сайты» (коэффициенты наследуемости) Soft q R: PLINK, SNPassos, Haplo. View, Haplo. Stats, MDR, GEsnpx. Para, PIA 2 , … q On line: SNPStats
«Однолокусный» анализ сопряженности количественного признака и генотипов Самое простое и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее сравнение (обычно по непараметрическому тесту - не по Стьюденту!) Обычно стараются 3 группы, используя ANOVA Можно рассмотреть сразурассмотреть две группы Среднее значение признака 0. 4 0. 3 0. 2 0. 1 0. 0 A/A Гомозигота по Рецессивная мажорному аллелю модель + A/G + G/G Гомозигота по Доминантная модельминорному аллелю
«Однолокусный» анализ сопряженности заболевания и генотипов Больные Контроль Рецессивная модель: сравнение по частоте генотипа G/G (минорные гомозиготы) q AA AG GG Доминантная модель: сравнение по частоте A/A (мажорные гомозиготы) q Аддитивная модель: линейный тренд фактически сравнение по частоте минорного аллеля A q
SNPStats – однолокусный и многолокуный анализ on line: http: //bioinfo. iconcologia. net/SNPstats_web q Однолокусный анализ : - Allele and genotype frequencies - Test for Hardy-Weinberg equilibrium - Analysis of association with a response variable based on linear inheritance models: co-dominant, recessive, over-dominant and additive - Analysis of interactions (gene-gene or gene-environment) q Многолокуный анализ: - Linkage disequilibrium statistics - Haplotype frequency estimation - Analysis of association of haplotypes with the response - Analysis of interactions (haplotypes-covariate)
Сюда копируем из Excel
Выбор зависимой переменной (фенотипа) SNPs, включенные в анализ
Однолокусный анализ без ковариат Сцепление и эффекты гаплотипы
Single-SNP analysis Генотип Т/Т защищает от заболевания
Multiple-SNP analysis
Multiple-SNP analysis Протективный гаплотип
Эффекты гаплотипов – это «однолокусный» анализ при большом числе «аллелей» В широком смысле Multiple-SNP analysis - это оценка генетических рисков с учетом совместного действия генов Подлинное название моей лекции: Индексы генетического риска, эпистаз, гаплотипы, множественные регрессии и другие верные способы сделать случайные генетические ассоциации статистически значимыми или как читать работы по ассоциативным генетическим исследованиям
Тест на недоверчивость Combined effect of polymorphisms in Rad 51 and Xrcc 3 on breast cancer risk and chromosomal radiosensitivity. Vral A, Willems P, et al. 2011. Mol Med Rep; 4(5): 901 -12. 5 SNP в генах репарации двойных разрывов ДНК Контроль Больные Нет даже намеков на сопряженность с заболеванием < < < Далее для каждого < человека считаем число рисковых генотипов и сравниваем здоровых и больных по Стьюденту < Частоты вариантов Но может надо «Рисковые» генотипы у Ура! p-value здоровых и больных посмотреть совместное(чаще у больных)= 0. 041 Вывод: 5 SNP совокупноне отличаютсяпредрасположенность к РМЖ определяют действие 5 SNP?
Проголосуем? q Кому этот вывод кажется правдоподобным? q Кто считает его лукавым и продиктованным желанием опубликовать статистически значимый результат? q Кто не определился?
То, что здесь вычислялось, называется Genetic Risk Score (GRS) т. е. индекс (показатель, балл) генетического риска
Genetic Risk Score (GRS) т. е. индекс (показатель, балл) генетического риска Другие названия: gene-gene interactions, combined effects, epistatic effects, joined effect, multi-locus genetic risk, combined analysis of multiple genetic variants. . . GRS = G 1 + G 2 + …т. е. сумма по генотипированным SNP (возможно с весами), обнаружившим тенденцию к сопряженности с заболеванием 0, гомозигота по протективному аллелю Gi = 1, гетерозигота 2, гомозигота по рисковому аллелю Дальше можно сравнивать больных и здоровых по уровню GRS, используя критерий Стьюдента или Манна-Уитни В результате научные журналы заполонили подозрительно красивые картинки, которых не может быть в экспериментальной биологии
Частота Подобные картинки всегда отражают некую математическую, а не биологическую закономерность Эффект (OR) Nature Genetics 42, 132– 136 (2010) Число рисковых аллелей
Богатство как заболевание (case – control) Бинарные признаки (маркеры) Знак зодиака телец Фамилия с гласной буквы Богатые Контроль (100) 18 > 10 p-value «Рисковый» фактор 0. 153 Телец Так будет всегда!0. 095 26 < 38 «Значимость» гарантирована, Курение если число< 21 26 признаков 0. 505 5 Согласная буква Все незначимо! Не курит Высокий рост Высокий Очки 0. 241 Не 19 (независимо от объемов 12 < и встречаемости вариантовносит выборок признаков) 29 > 24 0. 522 Число «рисковых» Можно Предрасполагающий 2. 5 «гаплотип» : 10001 0. 040 печататься! факторов на 2. 9 человека
«Парадокс сложения рисков» ! При увеличении числа признаков кажущаяся «значимость» различий групп по среднему числу рисковых факторов на человека может быть сколь угодно велика (т. е. р-value 0). Число изученных признаков, заведомо не связанных с заболеванием m AUC = 0. 724 1 2 3 4 5 10 20 30 40 50 100 Кажущаяся значимость отличий по сумме рисковых факторов p-value 0. 2125 0. 1296 Начиная с 5 признаков, 0. 0835 различия всегда будут «значимы» 0. 0553 0. 0372 0. 0058 0. 0002 6. 2 10 -6 2. 3 10 -7 8. 4 10 -9 7. 8 10 -16
Отчего это происходит? Все дело в том, что выявление рисковых факторов и оценка их совместного действия проводились для одной и той же выборки Пусть X 0 и X 1 – число обладателей определенного статуса по некому бинарному признаку в двух выборках (0 –контроль, 1 - больные). Если заболевание не связано с числа изученных признаков (m) При увеличении признаком, то распределения для X 1 иt-статистика для различий по сумме «рисковых» X 0 одинаковы факторов растет как Распределение для разности X 1 -X 0 Дальше самое важное: Даже если эти признаки никак не связаны В качестве рискового фактора мы берем то с заболеванием! значение признака, которое чаще встречается у больных. Тем самым мы переопределяем значения признака так, чтобы в данной выборке X 1 > X 0, т. е. от разности переходим к разности по модулю t-статистика для m признаков: Распределение для разности по модулю. Среднее равно 1. 13 Средняя разность ~ = SE разности ~
Довольно Более точное утверждение: в среднем неожиданно, что при нулевой гипотезе При Т-статистика и соответствующие значения p-value, не зависят нулевой гипотезе Т-статистика, сравнивающая число рисковых факторов по m признакам, не имеет стандартного распределения с нулевым средним! от объемов выборок и частот вариантов признаков т. е. На самом деле f (t) m=5 Мы думаем, А на самом деле вот так что так 0 m = 20 Кажущееся p-value = 2 10 -4 1 2 3 4 Кажущееся p-value = 0. 037 m = 50 Кажущееся p-value = 10 -8 5 6 t
Пример использования формулы для Т-статистики при чтении статей (объемы выборок неважны!) 1200 случаев воспалительного заболевания кишечника (IBD - inflammatory bowel disease) против 849 здоровых NADPH oxidase complex genes: RAC 2, CYBA , NCF 2, NCF 4 – всего 58 SNP Даже если все эти 58 SNP не связны с IBD: GRS по 58 изученным SNP В таблицах такого t нет, но можно через Excel: 2. 1 10 -7 (жен. ) p-value = 4. 6 10 -11 (муж. ) Контроль IBD =1 - НОРМСТРАСП(6, 1) p-value =5. 3 10 -10 ! Результаты работы незначимы! Hu P, Muise AM, Xing X et al. Association between a multi-locus genetic risk score and inflammatory bowel disease // Bioinform Biol Insights. 2013 May 19; 7: 143 -52.
В предыдущем примере GRS вычислялся для всех изученных (генотипированных) сайтов Чаще мы сталкиваемся с более сложной ситуацией: из большого числа генотипированных сайтов выбираются несколько «топовых» (рекордных, максимальных по эффекту) Часто для вычисления GRS отбирают все сайты, для которых р -value меньше фиксированного уровня, например р < 0. 05
Пример исследования, в котором GRS вычисляется для нескольких «топовых» сайтов 492 случая носоглоточной карциномы против 373 в контроле (Тунис + Марокко) 26 SNPs в 6 генах иммунной системы: CD 209, DDX 58, MBL 2, TLR 3, TLR 9 5 топовых SNP с 0. 005 < p < 0. 05 (не преодолевают порог Бонферрони = 0. 002) p-value = 8. 2 10 -4 И это формальное применение t-теста. Нулевая гипотеза должна выполняться значительно чаще! Число рисковых аллелей для 5 топовых SNP Moumad K, Lascorz J, Bevier M et al. Genetic polymorphisms in host innate immune sensor genes and the risk of nasopharyngeal carcinoma in North Africa // G 3 (Bethesda). 2013 Jun 21; 3(6): 971 -7.
Сравнения по GRS для k топовых из m изученных SNP Пусть топовые SNP и GRS определены для одной и той же выборки, при этом GRS вычислено для k топовых из m изученных SNP. Тогда при нулевой гипотезе в среднем Т-статистика различий по GRS будет равна: q GRS по всем изученным SNP (k = m): q GRS по k топовым из m изученных (k < m): - все вычисляется в Excel! =НОРМСТОБР() - обратная (квантильная) функция к стандартному нормальному распределению
Табуляция формулы Кажущаяся значимость различий (p-value), когда GRS вычисляют для k топовых из m изученных SNP Рекордный эффект из m генотипированных при нулевой гипотезе При сравнении по 5 топовым из 1000 SNP мнимая значимость может быть очень высокой Всегда выше порога Бонферрони 1 2 m = 10 0. 0196 0. 0065 p-value m = 100 0. 0019 8. 2 10 -5 m = 1000 0. 0002 9. 5 10 -7 3 4 5 10 p. Бонф 0. 0035 0. 0026 0. 0022 0. 0058 0. 0050 6. 1 10 -6 6. 4 10 -7 8. 6 10 -8 4. 4 10 -11 0. 0005 8. 7 10 -9 1. 1 10 -10 1. 9 10 -12 3. 4 10 -20 5 10 -5 k Бонферрони не пропустит даже рекордный эффект, если он случайный!
Пример исследования, в котором GRS вычисляется для нескольких «топовых» сайтов 492 случая носоглоточной карциномы против 373 в контроле (Тунис + Марокко) 26 SNPs в 6 генах иммунной системы: CD 209, DDX 58, MBL 2, TLR 3, TLR 9 У них были все шансы получить и 5 топовых SNP с 0. 005 < p < 0. 05 (не преодолевают порог Бонферрони = 0. 002) более «значимый» результат p-value = 8. 2 10 -4 ! Любые 26 SNP для 5 топовых в среднем дадут: Число рисковых аллелей для 5 топовых SNP Moumad K, Lascorz J, Bevier M et al. Genetic polymorphisms in host innate immune sensor genes and the risk of nasopharyngeal carcinoma in North Africa // G 3 (Bethesda). 2013 Jun 21; 3(6): 971 -7.
Пример исследования «количественный признак - кандидатные гены» Концентрация витамина D Ген rs Хр ~ Генотипы GC, VDR, CYP 2 R 1, CYP 24 A 1, CYP 27 B 1 Витамин D p-value Всего 94 SNP > 0. 05/94 0. 0005 Бонферрони не пропускает! + 91 SNP c p-value > 0. 05 GRS = Сумма «понижающих» аллелей #rs 2298849*A + #rs 2282679*G + #rs 10877012*G Случайная корреляция с GRS по 3 топовым сайтам из 94 изученных: ! ptrend < 0. 001 Signorello LB, Shi J et al. Common variation in vitamin D pathway genes predicts circulating 25 -hydroxyvitamin D Levels among African Americans // PLo. S One. 2011; 6(12)
GWAS – зона повышенной опасности проявления «парадокса сложения рисков» Объемы выборок: n 0 = n 1 = 1000 Оценивать совместные эффекты снипов в рамках единичного GWAS совершенно бессмысленно Число генотипированных сайтов: m = 500 000 Пусть все SNP не связаны с заболеванием, и тем не менее больные и здоровые сравниваются по GRS, который вычисляется для k топовых сайтов (k = 1 100) Число топовых SNP из 500 000 Кажущаяся значимость отличий по GRS изученных, которые использованы при вычислении GRS k Любые манипуляции с 2 или 3 топовыми SNP (эпистаз, гаплотипы) покажут значимость 10 -16 - 10 -12 p-value 1 2 3 4 5 10 50 100 3. 7 10 -7 5. 2 10 -12 1. 1 10 -16 5. 5 10 -21 2. 3 10 -25 1. 2 10 -45 2. 1 10 -186 4. 3 10 -242 Рекордный SNP из 500 000 изученных. Для него p-value всегда выше порога Бонферрони (0. 05/500 000 = 10 -7)
Q: А почему я впервые об этом слышу? A: Потому, что раньше все было в порядке! q ХХ век – медицина, экология, социология, демография: концепция «cumulative risk» , т. е. суммы рисковых факторов Факторы риска: q высокое давление q высокий холестерин q диабет q курение q избыточный вес q малоподвижность RR заболеваний сердца Например: Число рисковых факторов Но при этом всегда рисковые факторы задавались априорно, как общеизвестные, а не назначались по результатам текущего исследования
Q: А почему я впервые об этом слышу? A: Потому, что раньше все было в порядке! q ХХ век – медицина, экология, социология, демография: концепция «cumulative risk» , т. е. суммы рисковых факторов q ХХI век – генетика, ассоциативные генетические исследования: концепция «genetic risk score» , т. е. числа рисковых аллелей, предрасполагающих к заболеванию Ситуацию с вычислением суммарного риска изменили два обстоятельства: q Как правило, сравнивая генотипы больных и здоровых, мы заранее не знаем какой аллель на самом деле является рисковым Shen H. et al. . PLo. S One (2013): из 3. 3 млн. SNP лишь 0. 005% связаны с инактивацией генного продукта (loss-of-function) q Однолокусные (индивидуальные) эффекты SNP редки и очень малы. В среднем для маргинальных эффектов отношение шансов OR < 1. 5
SNP-маркеры предрасположенности: самые превентивные и самые бесполезные 92 SNP - 16 заболеваний (высокая воспроизводимость) Wray et al. (2008) Curr Opin Genet Dev. Для клиники такие OR совершенно бесполезны. Нужно знать PPV: Positive Predictive Value - доля больных среди носителей маркера. Не измеряется в «case-control» , но всегда PPV < OR , где -распространенность заболевания Например, PPV < 0. 001 1. 5 = 0. 0015 - кому нужен такой прогноз! Кстати, даже для маммографии (OR = 200) : PPV = 14% - всего!
В «поисках значимости» мы вынуждены прибегать к тем или иным способам оценки совместного действия генов: q Эпистаз Как же при этом избежать q Индексы генетического риска (GRS) проявлений «парадокса сложения наследуемости) q Множественная корреляция (оценки рисков» ? потому что проблему «missing heritability» никто не отменял: «still missing» ! Мы научились считывать всю возможную изменчивость нуклеотидов, но это не помогает нам объяснить даже несколько процентов той наследуемости, которая наблюдается в родословных.
Как же избежать проявлений «парадокса сложения рисков» ? q Использовать формулу для оценки ситуации, которая возникает при нулевой гипотезе (что-то вроде поправки Бонферрони). Критические Вычисленное значение t-статистики должно уровни p-value удовлетворять неравенству: m p-value (ранее мы полагали, что t > 1. 96) Но все-таки лучше: 2 3 4 5 10 50 0. 0100 0. 0048 0. 0025 0. 0013 0. 0001 3. 8 10 -12 q Проводить оценку индивидуальных эффектов снипов (OR) и последующую оценку их совместного действия (GRS, h 2) на разных выборках
2 этапа – стандарт современных ассоциативных генетических исследований Валидизация результатов - не просто проверка воспроизводимости Направленность и уровень индивидуальных эффектов SNP (OR, p-value) Discovery sample Ни в коем случае не оценивать заново OR и не сливать выборки! Validation (target) sample Оценка любых совместных, в том числе эпистатических эффектов для топовых SNP, а также оценка наследуемости и доли объясненной вариансы (GRS, h 2) Контроль Больные Альтернатива: cross-validation кросс-валидация на большой выборке OR, p-value GRS, h 2 В противном случае вы неизбежно столкнетесь с «парадоксом сложения рисков» !
Только после GWAS и на независимой выборке Discovery sample: GWAS 1 GWAS 2 GWAS 3 … Target sample: 20 – 50 топовых SNP Мета-анализ Оценки совместного действия SNP: GRS, r, h 2, AUC, PPV, NPV Сегодня так проводят исследования большинства широко распространенных заболеваний: рак, атеросклероз, диабет 2 -го рода, астма, шизофрения Однако, во многих случаях возникают сомнения: q Первый GWAS (редкие или малоизученные заболевания и признаки) q Частичное совпадение Discovery sample и Target sample q Часто авторы добавляют в список кандидатных снипов из предшествующих GWAS несколько десятков новых SNP, которые выявлены для Target sample q Ссылки не на снипы, а на кандидатные гены или участки, обнаруженные ранее другими исследователями q Часто бывает трудно понять: рисковые аллели выявлены в данном исследовании или взяты из более ранних GWAS? q Чем сложнее это понять, тем красивей картинки
Пример исследования «качественный признак - GWAS» GWAS 600 000 SNP 1054 случаев облысения 139 ассоциированных SNP на уровне p-value < 5 10 -7 GRS для 16 топовых SNP в генах иммунного ответа ptrend < 10 -107 Случайные различия по GRS по 16 топовым сайтам из 600 000 изученных: ! L. Petukhova, M. Duvic et al. Genome-wide association study in alopecia areata implicates both innate and adaptive immunity // Nature (2010), 466, 113– 117
Ловушки, связанные с предсказанием сложных признаков по. SNPs Pitfalls of predicting complex traits from снипам Wray NR, Yang J, …, Visscher PM. Nat Rev Genet. 2013 Jul; 14(7) «Do not re-estimate effect sizes of selected SNPs in the validation sample» Если Discovery = Validation, то и при H 0 корреляция признака с GRS по топовыми снипами может быть очень высока m = 100 000 Prof. Peter Visscher, Univ. of Queensland, Australia k = 1000 больных, 1000 здоровых и 100 000 SNP, несвязанных с заболеванием. Из них 100 топовых SNP совместно обеспечат корреляцию с заболеванием 0. 56 или наследуемость порядка 0. 562 30% 0. 56 1000 Объем выборки (n)
Текущие выводы – их только два! q Определение направленности индивидуального действия снипов (OR) и оценка их совместного действия (GRS, R 2) должны проводиться на разных выборках q В противном случае показатели типа GRS обнаружат мнимую сопряженность с фенотипом, «значимость» которой пропорциональна числу снипов, входящих в GRS
«Парадокс сложения рисков» подкарауливает нас еще в одной ситуации (уже без всяких «рисковых» факторов): множественная регрессия И это тоже оценка совместного действия генов-предикторов Но об этом поговорим в следующий раз…
c7e3f799abed39d33eb31bb63bb63c60.ppt