Скачать презентацию Взаимодействие генов и оценка генетических рисков А В Скачать презентацию Взаимодействие генов и оценка генетических рисков А В

2fa7ba3d1bcb0491261a395f958bd4ad.ppt

  • Количество слайдов: 42

Взаимодействие генов и оценка генетических рисков А. В. Рубанович Институт общей генетики им. Н. Взаимодействие генов и оценка генетических рисков А. В. Рубанович Институт общей генетики им. Н. И. Вавилова РАН rubanovich@vigg. ru

Тест на недоверчивость Combined effect of polymorphisms in Rad 51 and Xrcc 3 on Тест на недоверчивость Combined effect of polymorphisms in Rad 51 and Xrcc 3 on breast cancer risk and chromosomal radiosensitivity. Vral A, Willems P, et al. 2011. Mol Med Rep; 4(5): 901 -12. 5 SNP в генах репарации двойных разрывов ДНК Контроль Больные Нет даже намеков на сопряженность с заболеванием < < < Далее для каждого < человека считаем число рисковых генотипов и сравниваем здоровых и больных по Стьюденту < Частоты вариантов у Но может надо «Рисковые» генотипы Ура! p-value = 0. 041 посмотреть совместное здоровых и больных (чаще у больных) Вывод: 5 SNP совокупно определяют предрасположенность к РМЖ не отличаются действие 5 SNP?

Проголосуем? q Кому этот вывод кажется правдоподобным? q Кто считает его лукавым и продиктованным Проголосуем? q Кому этот вывод кажется правдоподобным? q Кто считает его лукавым и продиктованным желанием опубликовать статистически значимый результат? q Кто не определился?

То, что здесь вычислялось, называется Genetic Risk Score (GRS) т. е. индекс (показатель, балл) То, что здесь вычислялось, называется Genetic Risk Score (GRS) т. е. индекс (показатель, балл) генетического риска

Подлинное название моей лекции: Индексы генетического риска, эпистаз, гаплотипы, множественные регрессии и другие верные Подлинное название моей лекции: Индексы генетического риска, эпистаз, гаплотипы, множественные регрессии и другие верные способы сделать случайные генетические ассоциации статистически значимыми или как читать работы по ассоциативным генетическим исследованиям

Genetic Risk Score (GRS) т. е. индекс (показатель, балл) генетического риска Другие названия: gene-gene Genetic Risk Score (GRS) т. е. индекс (показатель, балл) генетического риска Другие названия: gene-gene interactions, combined effects, epistatic effects, joined effect, multi-locus genetic risk, combined analysis of multiple genetic variants. . . GRS = G 1 + G 2 + …т. е. сумма по генотипированным SNP (возможно с весами), обнаружившим тенденцию к сопряженности с заболеванием 0, гомозигота по протективному аллелю Gi = 1, гетерозигота 2, гомозигота по рисковому аллелю Дальше можно сравнивать больных и здоровых по уровню GRS, используя критерий Стьюдента или Манна-Уитни В результате научные журналы заполонили подозрительно красивые картинки, которых не может быть в экспериментальной биологии

Частота Подобные картинки всегда отражают некую математическую, а не биологическую закономерность Эффект (OR) Nature Частота Подобные картинки всегда отражают некую математическую, а не биологическую закономерность Эффект (OR) Nature Genetics 42, 132– 136 (2010) Число рисковых аллелей

Богатство как заболевание (case – control) Бинарные признаки (маркеры) Знак зодиака - телец Фамилия Богатство как заболевание (case – control) Бинарные признаки (маркеры) Знак зодиака - телец Фамилия с гласной буквы Богатые Контроль (100) 18 > 10 p-value «Рисковый» фактор 0. 153 Телец Так будет всегда!0. 095 26 < 38 «Значимость» гарантирована, Курение если число признаков 5 0. 505 21 < 26 Согласная буква Все незначимо! Не курит Высокий рост Высокий Очки 0. 241 Не носит 12 < 19 (независимо от объемов выборок и встречаемости вариантов признаков) 29 > 24 0. 522 Число «рисковых» Можно Предрасполагающий «гаплотип» : 10001 0. 040 печататься! факторов на 2. 9 2. 5 человека

 «Парадокс сложения рисков» ! При увеличении числа признаков кажущаяся «значимость» различий групп по «Парадокс сложения рисков» ! При увеличении числа признаков кажущаяся «значимость» различий групп по среднему числу рисковых факторов на человека может быть сколь угодно велика (т. е. р-value 0). Число изученных признаков, заведомо не связанных с заболеванием m AUC = 0. 724 1 2 3 4 5 10 20 30 40 50 100 Кажущаяся значимость отличий по сумме рисковых факторов p-value 0. 2125 0. 1296 Начиная с 5 признаков, 0. 0835 различия всегда будут «значимы» 0. 0553 0. 0372 0. 0058 0. 0002 6. 2 10 -6 2. 3 10 -7 8. 4 10 -9 7. 8 10 -16

Отчего это происходит? Все дело в том, что выявление рисковых факторов и оценка их Отчего это происходит? Все дело в том, что выявление рисковых факторов и оценка их совместного действия проводились для одной и той же выборки Пусть X 0 и X 1 – число обладателей определенного статуса по некому бинарному признаку в двух выборках (0 –контроль, 1 - больные). Если заболевание не связано с При увеличении числа изученных признаков (m) признаком, то распределения t-статистика для различий по сумме «рисковых» для X 1 и X 0 одинаковы факторов растет как Распределение для разности X 1 -X 0 Дальше самое важное: Даже если эти признаки никак В качестве рискового фактора мы берем то не связаны с заболеванием! значение признака, которое чаще встречается у больных. Тем самым мы переопределяем значения признака так, чтобы в данной выборке X 1 > X 0, т. е. от разности переходим к разности по модулю t-статистика для m признаков: Распределение для разности по модулю. Среднее равно 1. 13 Средняя разность ~ = SE разности ~

Более точное утверждение: Довольно неожиданно, что при нулевой гипотезе в среднем При нулевой гипотезе Более точное утверждение: Довольно неожиданно, что при нулевой гипотезе в среднем При нулевой гипотезе Т-статистика, сравнивающая число рисковых факторов Т-статистика и соответствующие значения p-value, не зависят по m признакам, не имеет стандартного распределения с нулевым средним! от объемов выборок и частот вариантов признаков т. е. На самом деле f (t) m = 5 Мы думаем, А на самом деле вот так что так 0 m = 20 Кажущееся p-value = 2 10 -4 1 2 3 4 Кажущееся p-value = 0. 037 m = 50 Кажущееся p-value = 10 -8 5 6 t

Пример использования формулы для Т-статистики при чтении статей (объемы выборок неважны!) 1200 случаев воспалительного Пример использования формулы для Т-статистики при чтении статей (объемы выборок неважны!) 1200 случаев воспалительного заболевания кишечника (IBD - inflammatory bowel disease) против 849 здоровых NADPH oxidase complex genes: RAC 2, CYBA , NCF 2, NCF 4 – всего 58 SNP Даже если все эти 58 SNP не связны с IBD: GRS по 58 изученным SNP В таблицах такого t нет, но можно через Excel: 2. 1 10 -7 (жен. ) p-value = 4. 6 10 -11 (муж. ) Контроль IBD =1 - НОРМСТРАСП(6, 1) p-value =5. 3 10 -10 ! Результаты работы незначимы! Hu P, Muise AM, Xing X et al. Association between a multi-locus genetic risk score and inflammatory bowel disease // Bioinform Biol Insights. 2013 May 19; 7: 143 -52.

В предыдущем примере GRS вычислялся для всех изученных (генотипированных) сайтов Чаще мы сталкиваемся с В предыдущем примере GRS вычислялся для всех изученных (генотипированных) сайтов Чаще мы сталкиваемся с более сложной ситуацией: из большого числа генотипированных сайтов выбираются несколько «топовых» (рекордных, максимальных по эффекту) Часто для вычисления GRS отбирают все сайты, для которых р -value меньше фиксированного уровня, например р < 0. 05

Пример исследования, в котором GRS вычисляется для нескольких «топовых» сайтов 492 случая носоглоточной карциномы Пример исследования, в котором GRS вычисляется для нескольких «топовых» сайтов 492 случая носоглоточной карциномы против 373 в контроле (Тунис + Марокко) 26 SNPs в 6 генах иммунной системы: CD 209, DDX 58, MBL 2, TLR 3, TLR 9 5 топовых SNP с 0. 005 < p < 0. 05 (не преодолевают порог Бонферрони = 0. 002) p-value = 8. 2 10 -4 И это формальное применение t-теста. Нулевая гипотеза должна выполняться значительно чаще! Число рисковых аллелей для 5 топовых SNP Moumad K, Lascorz J, Bevier M et al. Genetic polymorphisms in host innate immune sensor genes and the risk of nasopharyngeal carcinoma in North Africa // G 3 (Bethesda). 2013 Jun 21; 3(6): 971 -7.

Сравнения по GRS для k топовых из m изученных SNP Пусть топовые SNP и Сравнения по GRS для k топовых из m изученных SNP Пусть топовые SNP и GRS определены для одной и той же выборки, при этом GRS вычислено для k топовых из m изученных SNP. Тогда при нулевой гипотезе в среднем Т-статистика различий по GRS будет равна: q GRS по всем изученным SNP (k = m): q GRS по k топовым из m изученных (k < m): - все вычисляется в Excel! =НОРМСТОБР() - обратная (квантильная) функция к стандартному нормальному распределению

Табуляция формулы Кажущаяся значимость различий (p-value), когда GRS вычисляют для k топовых из m Табуляция формулы Кажущаяся значимость различий (p-value), когда GRS вычисляют для k топовых из m изученных SNP Рекордный эффект из m генотипированных при нулевой гипотезе При сравнении по 5 топовым из 1000 SNP мнимая значимость может быть очень высокой Всегда выше порога Бонферрони 1 2 m = 10 0. 0196 0. 0065 p-value m = 100 0. 0019 8. 2 10 -5 m = 1000 0. 0002 9. 5 10 -7 3 4 5 10 p. Бонф 0. 0035 0. 0026 0. 0022 0. 0058 0. 0050 6. 1 10 -6 6. 4 10 -7 8. 6 10 -8 4. 4 10 -11 0. 0005 8. 7 10 -9 1. 1 10 -10 1. 9 10 -12 3. 4 10 -20 5 10 -5 k Бонферрони не пропустит даже рекордный эффект, если он случайный!

Пример исследования, в котором GRS вычисляется для нескольких «топовых» сайтов 492 случая носоглоточной карциномы Пример исследования, в котором GRS вычисляется для нескольких «топовых» сайтов 492 случая носоглоточной карциномы против 373 в контроле (Тунис + Марокко) 26 SNPs в 6 генах иммунной системы: CD 209, DDX 58, MBL 2, TLR 3, TLR 9 У них были все шансы получить и 5 топовых SNP с 0. 005 < p < 0. 05 (не преодолевают порог Бонферрони = 0. 002) более «значимый» результат p-value = 8. 2 10 -4 ! Любые 26 SNP для 5 топовых в среднем дадут: Число рисковых аллелей для 5 топовых SNP Moumad K, Lascorz J, Bevier M et al. Genetic polymorphisms in host innate immune sensor genes and the risk of nasopharyngeal carcinoma in North Africa // G 3 (Bethesda). 2013 Jun 21; 3(6): 971 -7.

Пример исследования «количественный признак - кандидатные гены» Концентрация витамина D ~ GC, VDR, CYP Пример исследования «количественный признак - кандидатные гены» Концентрация витамина D ~ GC, VDR, CYP 2 R 1, CYP 24 A 1, CYP 27 B 1 Всего 94 SNP Ген rs Хр Генотипы Витамин D p-value > 0. 05/94 0. 0005 Бонферрони не пропускает! + 91 SNP c p-value > 0. 05 GRS = Сумма «понижающих» аллелей #rs 2298849*A + #rs 2282679*G + #rs 10877012*G Случайная корреляция с GRS по 3 топовым сайтам из 94 изученных: ! ptrend < 0. 001 Signorello LB, Shi J et al. Common variation in vitamin D pathway genes predicts circulating 25 -hydroxyvitamin D Levels among African Americans // PLo. S One. 2011; 6(12)

GWAS – зона повышенной опасности проявления «парадокса сложения рисков» Объемы выборок: n 0 = GWAS – зона повышенной опасности проявления «парадокса сложения рисков» Объемы выборок: n 0 = n 1 = 1000 Оценивать совместные эффекты снипов в рамках единичного GWAS совершенно бессмысленно Число генотипированных сайтов: m = 500 000 Пусть все SNP не связаны с заболеванием, и тем не менее больные и здоровые сравниваются по GRS, который вычисляется для k топовых сайтов (k = 1 100) Число топовых SNP из 500 000 Кажущаяся значимость отличий по GRS изученных, которые использованы при вычислении GRS k Любые манипуляции с 2 или 3 топовыми SNP (эпистаз, гаплотипы) покажут значимость 10 -16 - 10 -12 p-value 1 2 3 4 5 10 50 100 3. 7 10 -7 5. 2 10 -12 1. 1 10 -16 5. 5 10 -21 2. 3 10 -25 1. 2 10 -45 2. 1 10 -186 4. 3 10 -242 Рекордный SNP из 500 000 изученных. Для него p-value всегда выше порога Бонферрони (0. 05/500 000 = 10 -7)

Q: А почему я впервые об этом слышу? A: Потому, что раньше все было Q: А почему я впервые об этом слышу? A: Потому, что раньше все было в порядке! q ХХ век – медицина, экология, социология, демография: концепция «cumulative risk» , т. е. суммы рисковых факторов Факторы риска: q высокое давление q высокий холестерин q диабет q курение q избыточный вес q малоподвижность RR заболеваний сердца Например: Число рисковых факторов Но при этом всегда рисковые факторы задавались априорно, как общеизвестные, а не назначались по результатам текущего исследования

Q: А почему я впервые об этом слышу? A: Потому, что раньше все было Q: А почему я впервые об этом слышу? A: Потому, что раньше все было в порядке! q ХХ век – медицина, экология, социология, демография: концепция «cumulative risk» , т. е. суммы рисковых факторов q ХХI век – генетика, ассоциативные генетические исследования: концепция «genetic risk score» , т. е. числа рисковых аллелей, предрасполагающих к заболеванию Ситуацию с вычислением суммарного риска изменили два обстоятельства: q Как правило, сравнивая генотипы больных и здоровых, мы заранее не знаем какой аллель на самом деле является рисковым Shen H. et al. . PLo. S One (2013): из 3. 3 млн. SNP лишь 0. 005% связаны с инактивацией генного продукта (loss-of-function) q Однолокусные (индивидуальные) эффекты SNP редки и очень малы. В среднем для маргинальных эффектов отношение шансов OR < 1. 5

SNP-маркеры предрасположенности: самые превентивные и самые бесполезные 92 SNP - 16 заболеваний (высокая воспроизводимость) SNP-маркеры предрасположенности: самые превентивные и самые бесполезные 92 SNP - 16 заболеваний (высокая воспроизводимость) Wray et al. (2008) Curr Opin Genet Dev. Для клиники такие OR совершенно бесполезны. Нужно знать PPV: Positive Predictive Value - доля больных среди носителей маркера. Не измеряется в «case-control» , но всегда PPV < OR , где -распространенность заболевания Например, PPV < 0. 001 1. 5 = 0. 0015 - кому нужен такой прогноз! Кстати, даже для маммографии (OR = 200) : PPV = 14% - всего!

В «поисках значимости» мы вынуждены прибегать к тем или иным способам оценки совместного действия В «поисках значимости» мы вынуждены прибегать к тем или иным способам оценки совместного действия генов: q Эпистаз Как же при этом избежать проявлений q Индексы генетического риска (GRS) «парадокса сложения рисков» ? q Множественная корреляция (оценки наследуемости) потому что проблему «missing heritability» никто не отменял: «still missing» ! Мы научились считывать всю возможную изменчивость нуклеотидов, но это не помогает нам объяснить даже несколько процентов той наследуемости, которая наблюдается в родословных.

Как же избежать проявлений «парадокса сложения рисков» ? q Использовать формулу для оценки ситуации, Как же избежать проявлений «парадокса сложения рисков» ? q Использовать формулу для оценки ситуации, которая возникает при нулевой гипотезе (что-то вроде поправки Бонферрони). Критические Вычисленное значение t-статистики должно уровни p-value удовлетворять неравенству: m p-value (ранее мы полагали, что t > 1. 96) Но все-таки лучше: 2 3 4 5 10 50 0. 0100 0. 0048 0. 0025 0. 0013 0. 0001 3. 8 10 -12 q Проводить оценку индивидуальных эффектов снипов (OR) и последующую оценку их совместного действия (GRS, h 2) на разных выборках

2 этапа – стандарт современных ассоциативных генетических исследований Валидизация результатов - не просто проверка 2 этапа – стандарт современных ассоциативных генетических исследований Валидизация результатов - не просто проверка воспроизводимости Направленность и уровень индивидуальных эффектов SNP (OR, p-value) Discovery sample Ни в коем случае не оценивать заново OR и не сливать выборки! Validation (target) sample Оценка любых совместных, в том числе эпистатических эффектов для топовых SNP, а также оценка наследуемости и доли объясненной вариансы (GRS, h 2) Контроль Больные Альтернатива: cross-validation кросс-валидация на большой выборке OR, p-value GRS, h 2 В противном случае вы неизбежно столкнетесь с «парадоксом сложения рисков» !

Только после GWAS и на независимой выборке Discovery sample: GWAS 1 GWAS 2 GWAS Только после GWAS и на независимой выборке Discovery sample: GWAS 1 GWAS 2 GWAS 3 … Target sample: 20 – 50 топовых SNP Мета-анализ Оценки совместного действия SNP: GRS, r, h 2, AUC, PPV, NPV Сегодня так проводят исследования большинства широко распространенных заболеваний: рак, атеросклероз, диабет 2 -го рода, астма, шизофрения Однако, во многих случаях возникают сомнения: q Первый GWAS (редкие или малоизученные заболевания и признаки) q Частичное совпадение Discovery sample и Target sample q Часто авторы добавляют в список кандидатных снипов из предшествующих GWAS несколько десятков новых SNP, которые выявлены для Target sample q Ссылки не на снипы, а на кандидатные гены или участки, обнаруженные ранее другими исследователями q Часто бывает трудно понять: рисковые аллели выявлены в данном исследовании или взяты из более ранних GWAS? q Чем сложнее это понять, тем красивей картинки

Пример исследования «качественный признак - GWAS» GWAS 600 000 SNP 1054 случаев облысения 139 Пример исследования «качественный признак - GWAS» GWAS 600 000 SNP 1054 случаев облысения 139 ассоциированных SNP на уровне p-value < 5 10 -7 GRS для 16 топовых SNP в генах иммунного ответа ptrend < 10 -107 Случайные различия по GRS по 16 топовым сайтам из 600 000 изученных: ! L. Petukhova, M. Duvic et al. Genome-wide association study in alopecia areata implicates both innate and adaptive immunity // Nature (2010), 466, 113– 117

Ловушки, связанные с предсказанием сложных признаков по снипам Pitfalls of predicting complex traits from Ловушки, связанные с предсказанием сложных признаков по снипам Pitfalls of predicting complex traits from SNPs Wray NR, Yang J, …, Visscher PM. Nat Rev Genet. 2013 Jul; 14(7) «Do not re-estimate effect sizes of selected SNPs in the validation sample» Если Discovery = Validation, то и при H 0 корреляция признака с GRS по топовыми снипами может быть очень высока m = 100 000 Prof. Peter Visscher, Univ. of Queensland, Australia k = 1000 больных, 1000 здоровых и 100 000 SNP, несвязанных с заболеванием. Из них 100 топовых SNP совместно обеспечат корреляцию с заболеванием 0. 56 или наследуемость порядка 0. 562 30% 0. 56 1000 Объем выборки (n)

Что мы имеем вместо нуля: выборочные корреляции при нулевой гипотезе Случайная выборочная корреляция между Что мы имеем вместо нуля: выборочные корреляции при нулевой гипотезе Случайная выборочная корреляция между двумя независимыми признаками весьма ощутима при малых выборках: , но , где N – число точек Например, при N = 4 в среднем | r | ~ ½ !!! Случайные корреляции «заболевание - GRS» могут быть гораздо выше: пусть объемы выборок больных и здоровых равны: n 0 = n 1 = n, и GRS вычисляется для k топовых признаков из m изученных. Тогда при Н 0 корреляция «заболевание - GRS» в среднем равна: при m >> n и k > 0. 1 m Ясно, что , если число признаков сравнения существенно больше объемов выборок

 «Парадокс сложения рисков» подкарауливает нас еще в одной ситуации (уже без всяких «рисковых» «Парадокс сложения рисков» подкарауливает нас еще в одной ситуации (уже без всяких «рисковых» факторов): множественная регрессия Это тоже оценка совместного действия признаков-предикторов

Как устроена множественная регрессия например, в программе STATISTICA Y – зависимая переменная, фенотип (например, Как устроена множественная регрессия например, в программе STATISTICA Y – зависимая переменная, фенотип (например, болен-здоров) X 1, …, Xm – независимые переменные, признаки-предикторы (например, SNP) Y ~ a + b 1 X 1 + b 2 X 2 + … Значимость индивидуальных + bm. Xm вкладов предикторов Beta Intercept X 1 X 2 X 3 … Std. Err. B Std. Err. t(6) 0, 480 0, 186 p-level 2, 573 0, 042 0, 811 0, 371 -0, 624 1, 337 -0, 466 0, 657 0, 370 2, 110 1, 938 1, 088 0, 318 … Коэффициент множественной корреляции … … Стандартизированные коэффициенты для -0, 092 0, 369 -0, 419 1, 683 сравнения эффектов предикторов -0, 249 -0, 173 0, 403 … (доля объясненной изменчивости зависимой переменной) Regression Summary for Dependent Variable: Y R= 0, 429 R 2= 0, 184 Adjusted R 2 = 0, 098 F(3, 6) = 0, 452 p< 0, 725 Std. Error of estimate: 0, 583 Значимость модели в целом

Богатство как заболевание (case – control) Бинарные признаки (маркеры) Знак зодиака - телец Фамилия Богатство как заболевание (case – control) Бинарные признаки (маркеры) Знак зодиака - телец Фамилия с гласной буквы Курение Коэффициент ыв p-value уравнении Богатые Контроль регрессии (100) 18 10 0. 153 0. 102 26 38 0. 095 - 0. 133 21 26 0. 505 -0. 034 Очки 0. 241 - 0. 087 12 19 Наверно, «рисковые» факторы – это неправильно! Высокий Попробуем множественную регрессию - это тоже 0. 522 0. 031 29 24 рост оценка совместного действия предикторов Богатство ~ a + b 1 + b 2 + b 3 + b 4 + b 5 Никаких чудес: квадрат множественной корреляции R 2 = 0. 033 Значимость в целом p-value = 0. 615

Не сдаемся – очень хочется разбогатеть! Количественные признаки Возраст Рост Вес Наличие родителей Семейное Не сдаемся – очень хочется разбогатеть! Количественные признаки Возраст Рост Вес Наличие родителей Семейное полож. Число браков Национальность Образование …. Богатые Контроль (100) 45 3. 2 175 6. 7 79 2. 8 1. 8 0. 4 0. 8 0. 2 1. 7 0. 2 0. 7 0. 1 1. 5 0. 6 …. 48 4. 6 168 5. 2 83 5. 4 1. 7 0. 6 0. 9 0. 3 1. 2 0. 3 0. 8 0. 2 1. 2 0. 6 …. p-value 0. 593 0. 411 0. 512 0. 888 0. 782 0. 167 0. 655 0. 724 …. и т. д. , все, что приходит в голову – всего 50 признаков Множественная регрессия для 50 признаков: R 2 = 0. 234 p-value = 0. 667

Не сдаемся – очень хочется разбогатеть! Итак, в совокупности 50 признаков незначимы: p-value = Не сдаемся – очень хочется разбогатеть! Итак, в совокупности 50 признаков незначимы: p-value = 0. 667, причем для всех признаков маргинальные эффекты с p-value > 0. 1 Отберем 3 топовых признака из 50: q На глаз по величине p-value, либо q Используя встроенную процедуру Stepwise Для 3 топовых признаков: R 2 = 0. 072, в целом p-value = 0. 008! Признаки b SE t-Statistic р-value Число детей 0. 177 0. 068 2. 575 0. 011 Левша-правша 0. 171 0. 067 2. 495 0. 013 Web browser 0. 148 0. 068 2. 165 0. 032 На самом деле все изученные признаки заведомо не связаны с банковским счетом!

Это называется парадокс Фридмана (1983) D. Freedman. A Note on Screening Regression Equations. The Это называется парадокс Фридмана (1983) D. Freedman. A Note on Screening Regression Equations. The American Statistician, V. 37, 2, (1983) При большом числе предикторов отбор топовых признаков приводит, к построению ложноположительных регрессий Более того: любые процедуры отбора топовых из большого числа предикторов обеспечат мнимую значимость, в т. ч. Stepwise, встроенный в статистические пакеты SPSS, STATISTICA и пр. Journal of Animal Ecology (2006), 75, 1182– 1189

Множественная регрессия и GRS при Н 0 Исходная совокупность признаков – «предикторов» G 1, Множественная регрессия и GRS при Н 0 Исходная совокупность признаков – «предикторов» G 1, G 2, G 3, … , Gm-1, Gm k << m Отобранные топовые по эффекту признаки: G 1, G 2, … , Gk q Множественная регрессия: Y ~ a + b 1 G 1 + b 2 G 2 + … + bk. Gk R 2 – множественная корреляция (не учитывает знаки bi) q Регрессия «заболевание – GRS» : Y ~ a + b(|G 1| + |G 2| + … + |Gk|) r 2 – корреляция Y ~ GRS (не учитывает знаки Gi) GRS Симуляции показывают, что при k << m Парадоксы Фридмана и «сложения рисков» имеют одинаковую природу: суммирование топовых незначимых эффектов без учета их направленности

Множественная регрессия и GRS при Н 0 Что более эффективно в деле получения фальшивых Множественная регрессия и GRS при Н 0 Что более эффективно в деле получения фальшивых результатов? Пусть n 0 = n 1 = 500, но это не влияет на p-value (только на R 2) Если иметь в виду кажущееся p-value, то Число изученных признаков, заведомо не Число отобранных топовых связанных с заболеванием признаков корреляции с GRS на несколько поряков опасней, ! Множественная Корреляция с GRS чем множественная регрессия топовых признаков корреляция m k (имитации) R 2 p-value r 2 p-value 50 5 0. 0210 0. 0040 0. 0208 2. 0·10 -6 100 5 0. 0268 0. 0005 0. 0266 8. 6·10 -8 500 5 0. 0402 1. 2·10 -6 = 0. 0402 5. 0·10 -11 1000 5 0. 0461 6. 6·10 -8 0. 0460 1. 9·10 -12 10 000 5 0. 0654 8. 2·10 -12 0. 0651 5. 2·10 -17

 Радикальное изменение ситуации в экспериментальной биологии и биомедицине = Big Manipulations? XX век Радикальное изменение ситуации в экспериментальной биологии и биомедицине = Big Manipulations? XX век XXI век Размеры выборок гораздо больше, чем число признаков сравнения Число признаков сравнения на порядки превосходит объемы выборок Забвение классического правила: q GWAS: n ~ 1000, m > 500 000 10 outcome events per predictor variable (EPV) q Microarray: n ~ 5 – 20 (!), m > 10 000 Подавляющее большинство результатов исследований «профиля экспрессии» генов никогда не воспроизводятся!

Жизнь в пространствах с большим числом измерений не похожа на трехмерную! Объем поверхностного слоя Жизнь в пространствах с большим числом измерений не похожа на трехмерную! Объем поверхностного слоя толщиной R Объем сферы радиуса R d = 1 d = 2 d = 3 при d = 1000 ? 0. 010 0. 020 0. 030 0. 99996 Это вероятность того, что случайно Это означает, что почти все выбранная точка лежит вблизи случайно распределенные точки поверхности лежат на поверхности! Объем d-мерной сферы:

В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков» ? q Вычисление Genetic В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков» ? q Вычисление Genetic Risk Score (GRS) GRS - число рисковых аллелей на человека, т. е. сумма аллелей предрасполагающих к заболеванию или повышающих значение признака q Оценка эпистатических эффектов «топовых» сайтов Часто приходится видеть как комбинированный генотип (или гаплотип) объявляется сопряженным с заболеванием, в то время как все индивидуальные эффекты снипов статистически незначимы. При этом рассматривается совместный эффект «топовых» SNP из числа незначимых. q Анализ результатов GWAS и DNA-Microarray В современных ассоциативных исследованиях число предикторов стремительно растет и часто на порядки превышает объемы выборок. При этом кажущаяся значимость эффектов по GRS может достигать невероятного уровня, например, p-value = 10 -100 q Оценка наследуемости и вычисление корреляций «SNP-фенотип» Работы, в которых анонсированы высокие корреляции «признак - SNPs» (0. 3 – 0. 7), требуют тщательного разбора на предмет присутствия «парадокса сложения рисков»

Более конкретные выводы – их только два! q Определение направленности индивидуального действия снипов (OR) Более конкретные выводы – их только два! q Определение направленности индивидуального действия снипов (OR) и оценка их совместного действия (GRS, R 2) должны проводиться на разных выборках q В противном случае показатели типа GRS обнаружат мнимую сопряженность с фенотипом, «значимость» которой пропорциональна числу снипов, входящих в GRS

Спасибо организаторам Школы и всем присутствующим! Слайды доступны! rubanovich@vigg. ru Спасибо организаторам Школы и всем присутствующим! Слайды доступны! rubanovich@vigg. ru