
2fa7ba3d1bcb0491261a395f958bd4ad.ppt
- Количество слайдов: 42
Взаимодействие генов и оценка генетических рисков А. В. Рубанович Институт общей генетики им. Н. И. Вавилова РАН rubanovich@vigg. ru
Тест на недоверчивость Combined effect of polymorphisms in Rad 51 and Xrcc 3 on breast cancer risk and chromosomal radiosensitivity. Vral A, Willems P, et al. 2011. Mol Med Rep; 4(5): 901 -12. 5 SNP в генах репарации двойных разрывов ДНК Контроль Больные Нет даже намеков на сопряженность с заболеванием < < < Далее для каждого < человека считаем число рисковых генотипов и сравниваем здоровых и больных по Стьюденту < Частоты вариантов у Но может надо «Рисковые» генотипы Ура! p-value = 0. 041 посмотреть совместное здоровых и больных (чаще у больных) Вывод: 5 SNP совокупно определяют предрасположенность к РМЖ не отличаются действие 5 SNP?
Проголосуем? q Кому этот вывод кажется правдоподобным? q Кто считает его лукавым и продиктованным желанием опубликовать статистически значимый результат? q Кто не определился?
То, что здесь вычислялось, называется Genetic Risk Score (GRS) т. е. индекс (показатель, балл) генетического риска
Подлинное название моей лекции: Индексы генетического риска, эпистаз, гаплотипы, множественные регрессии и другие верные способы сделать случайные генетические ассоциации статистически значимыми или как читать работы по ассоциативным генетическим исследованиям
Genetic Risk Score (GRS) т. е. индекс (показатель, балл) генетического риска Другие названия: gene-gene interactions, combined effects, epistatic effects, joined effect, multi-locus genetic risk, combined analysis of multiple genetic variants. . . GRS = G 1 + G 2 + …т. е. сумма по генотипированным SNP (возможно с весами), обнаружившим тенденцию к сопряженности с заболеванием 0, гомозигота по протективному аллелю Gi = 1, гетерозигота 2, гомозигота по рисковому аллелю Дальше можно сравнивать больных и здоровых по уровню GRS, используя критерий Стьюдента или Манна-Уитни В результате научные журналы заполонили подозрительно красивые картинки, которых не может быть в экспериментальной биологии
Частота Подобные картинки всегда отражают некую математическую, а не биологическую закономерность Эффект (OR) Nature Genetics 42, 132– 136 (2010) Число рисковых аллелей
Богатство как заболевание (case – control) Бинарные признаки (маркеры) Знак зодиака - телец Фамилия с гласной буквы Богатые Контроль (100) 18 > 10 p-value «Рисковый» фактор 0. 153 Телец Так будет всегда!0. 095 26 < 38 «Значимость» гарантирована, Курение если число признаков 5 0. 505 21 < 26 Согласная буква Все незначимо! Не курит Высокий рост Высокий Очки 0. 241 Не носит 12 < 19 (независимо от объемов выборок и встречаемости вариантов признаков) 29 > 24 0. 522 Число «рисковых» Можно Предрасполагающий «гаплотип» : 10001 0. 040 печататься! факторов на 2. 9 2. 5 человека
«Парадокс сложения рисков» ! При увеличении числа признаков кажущаяся «значимость» различий групп по среднему числу рисковых факторов на человека может быть сколь угодно велика (т. е. р-value 0). Число изученных признаков, заведомо не связанных с заболеванием m AUC = 0. 724 1 2 3 4 5 10 20 30 40 50 100 Кажущаяся значимость отличий по сумме рисковых факторов p-value 0. 2125 0. 1296 Начиная с 5 признаков, 0. 0835 различия всегда будут «значимы» 0. 0553 0. 0372 0. 0058 0. 0002 6. 2 10 -6 2. 3 10 -7 8. 4 10 -9 7. 8 10 -16
Отчего это происходит? Все дело в том, что выявление рисковых факторов и оценка их совместного действия проводились для одной и той же выборки Пусть X 0 и X 1 – число обладателей определенного статуса по некому бинарному признаку в двух выборках (0 –контроль, 1 - больные). Если заболевание не связано с При увеличении числа изученных признаков (m) признаком, то распределения t-статистика для различий по сумме «рисковых» для X 1 и X 0 одинаковы факторов растет как Распределение для разности X 1 -X 0 Дальше самое важное: Даже если эти признаки никак В качестве рискового фактора мы берем то не связаны с заболеванием! значение признака, которое чаще встречается у больных. Тем самым мы переопределяем значения признака так, чтобы в данной выборке X 1 > X 0, т. е. от разности переходим к разности по модулю t-статистика для m признаков: Распределение для разности по модулю. Среднее равно 1. 13 Средняя разность ~ = SE разности ~
Более точное утверждение: Довольно неожиданно, что при нулевой гипотезе в среднем При нулевой гипотезе Т-статистика, сравнивающая число рисковых факторов Т-статистика и соответствующие значения p-value, не зависят по m признакам, не имеет стандартного распределения с нулевым средним! от объемов выборок и частот вариантов признаков т. е. На самом деле f (t) m = 5 Мы думаем, А на самом деле вот так что так 0 m = 20 Кажущееся p-value = 2 10 -4 1 2 3 4 Кажущееся p-value = 0. 037 m = 50 Кажущееся p-value = 10 -8 5 6 t
Пример использования формулы для Т-статистики при чтении статей (объемы выборок неважны!) 1200 случаев воспалительного заболевания кишечника (IBD - inflammatory bowel disease) против 849 здоровых NADPH oxidase complex genes: RAC 2, CYBA , NCF 2, NCF 4 – всего 58 SNP Даже если все эти 58 SNP не связны с IBD: GRS по 58 изученным SNP В таблицах такого t нет, но можно через Excel: 2. 1 10 -7 (жен. ) p-value = 4. 6 10 -11 (муж. ) Контроль IBD =1 - НОРМСТРАСП(6, 1) p-value =5. 3 10 -10 ! Результаты работы незначимы! Hu P, Muise AM, Xing X et al. Association between a multi-locus genetic risk score and inflammatory bowel disease // Bioinform Biol Insights. 2013 May 19; 7: 143 -52.
В предыдущем примере GRS вычислялся для всех изученных (генотипированных) сайтов Чаще мы сталкиваемся с более сложной ситуацией: из большого числа генотипированных сайтов выбираются несколько «топовых» (рекордных, максимальных по эффекту) Часто для вычисления GRS отбирают все сайты, для которых р -value меньше фиксированного уровня, например р < 0. 05
Пример исследования, в котором GRS вычисляется для нескольких «топовых» сайтов 492 случая носоглоточной карциномы против 373 в контроле (Тунис + Марокко) 26 SNPs в 6 генах иммунной системы: CD 209, DDX 58, MBL 2, TLR 3, TLR 9 5 топовых SNP с 0. 005 < p < 0. 05 (не преодолевают порог Бонферрони = 0. 002) p-value = 8. 2 10 -4 И это формальное применение t-теста. Нулевая гипотеза должна выполняться значительно чаще! Число рисковых аллелей для 5 топовых SNP Moumad K, Lascorz J, Bevier M et al. Genetic polymorphisms in host innate immune sensor genes and the risk of nasopharyngeal carcinoma in North Africa // G 3 (Bethesda). 2013 Jun 21; 3(6): 971 -7.
Сравнения по GRS для k топовых из m изученных SNP Пусть топовые SNP и GRS определены для одной и той же выборки, при этом GRS вычислено для k топовых из m изученных SNP. Тогда при нулевой гипотезе в среднем Т-статистика различий по GRS будет равна: q GRS по всем изученным SNP (k = m): q GRS по k топовым из m изученных (k < m): - все вычисляется в Excel! =НОРМСТОБР() - обратная (квантильная) функция к стандартному нормальному распределению
Табуляция формулы Кажущаяся значимость различий (p-value), когда GRS вычисляют для k топовых из m изученных SNP Рекордный эффект из m генотипированных при нулевой гипотезе При сравнении по 5 топовым из 1000 SNP мнимая значимость может быть очень высокой Всегда выше порога Бонферрони 1 2 m = 10 0. 0196 0. 0065 p-value m = 100 0. 0019 8. 2 10 -5 m = 1000 0. 0002 9. 5 10 -7 3 4 5 10 p. Бонф 0. 0035 0. 0026 0. 0022 0. 0058 0. 0050 6. 1 10 -6 6. 4 10 -7 8. 6 10 -8 4. 4 10 -11 0. 0005 8. 7 10 -9 1. 1 10 -10 1. 9 10 -12 3. 4 10 -20 5 10 -5 k Бонферрони не пропустит даже рекордный эффект, если он случайный!
Пример исследования, в котором GRS вычисляется для нескольких «топовых» сайтов 492 случая носоглоточной карциномы против 373 в контроле (Тунис + Марокко) 26 SNPs в 6 генах иммунной системы: CD 209, DDX 58, MBL 2, TLR 3, TLR 9 У них были все шансы получить и 5 топовых SNP с 0. 005 < p < 0. 05 (не преодолевают порог Бонферрони = 0. 002) более «значимый» результат p-value = 8. 2 10 -4 ! Любые 26 SNP для 5 топовых в среднем дадут: Число рисковых аллелей для 5 топовых SNP Moumad K, Lascorz J, Bevier M et al. Genetic polymorphisms in host innate immune sensor genes and the risk of nasopharyngeal carcinoma in North Africa // G 3 (Bethesda). 2013 Jun 21; 3(6): 971 -7.
Пример исследования «количественный признак - кандидатные гены» Концентрация витамина D ~ GC, VDR, CYP 2 R 1, CYP 24 A 1, CYP 27 B 1 Всего 94 SNP Ген rs Хр Генотипы Витамин D p-value > 0. 05/94 0. 0005 Бонферрони не пропускает! + 91 SNP c p-value > 0. 05 GRS = Сумма «понижающих» аллелей #rs 2298849*A + #rs 2282679*G + #rs 10877012*G Случайная корреляция с GRS по 3 топовым сайтам из 94 изученных: ! ptrend < 0. 001 Signorello LB, Shi J et al. Common variation in vitamin D pathway genes predicts circulating 25 -hydroxyvitamin D Levels among African Americans // PLo. S One. 2011; 6(12)
GWAS – зона повышенной опасности проявления «парадокса сложения рисков» Объемы выборок: n 0 = n 1 = 1000 Оценивать совместные эффекты снипов в рамках единичного GWAS совершенно бессмысленно Число генотипированных сайтов: m = 500 000 Пусть все SNP не связаны с заболеванием, и тем не менее больные и здоровые сравниваются по GRS, который вычисляется для k топовых сайтов (k = 1 100) Число топовых SNP из 500 000 Кажущаяся значимость отличий по GRS изученных, которые использованы при вычислении GRS k Любые манипуляции с 2 или 3 топовыми SNP (эпистаз, гаплотипы) покажут значимость 10 -16 - 10 -12 p-value 1 2 3 4 5 10 50 100 3. 7 10 -7 5. 2 10 -12 1. 1 10 -16 5. 5 10 -21 2. 3 10 -25 1. 2 10 -45 2. 1 10 -186 4. 3 10 -242 Рекордный SNP из 500 000 изученных. Для него p-value всегда выше порога Бонферрони (0. 05/500 000 = 10 -7)
Q: А почему я впервые об этом слышу? A: Потому, что раньше все было в порядке! q ХХ век – медицина, экология, социология, демография: концепция «cumulative risk» , т. е. суммы рисковых факторов Факторы риска: q высокое давление q высокий холестерин q диабет q курение q избыточный вес q малоподвижность RR заболеваний сердца Например: Число рисковых факторов Но при этом всегда рисковые факторы задавались априорно, как общеизвестные, а не назначались по результатам текущего исследования
Q: А почему я впервые об этом слышу? A: Потому, что раньше все было в порядке! q ХХ век – медицина, экология, социология, демография: концепция «cumulative risk» , т. е. суммы рисковых факторов q ХХI век – генетика, ассоциативные генетические исследования: концепция «genetic risk score» , т. е. числа рисковых аллелей, предрасполагающих к заболеванию Ситуацию с вычислением суммарного риска изменили два обстоятельства: q Как правило, сравнивая генотипы больных и здоровых, мы заранее не знаем какой аллель на самом деле является рисковым Shen H. et al. . PLo. S One (2013): из 3. 3 млн. SNP лишь 0. 005% связаны с инактивацией генного продукта (loss-of-function) q Однолокусные (индивидуальные) эффекты SNP редки и очень малы. В среднем для маргинальных эффектов отношение шансов OR < 1. 5
SNP-маркеры предрасположенности: самые превентивные и самые бесполезные 92 SNP - 16 заболеваний (высокая воспроизводимость) Wray et al. (2008) Curr Opin Genet Dev. Для клиники такие OR совершенно бесполезны. Нужно знать PPV: Positive Predictive Value - доля больных среди носителей маркера. Не измеряется в «case-control» , но всегда PPV < OR , где -распространенность заболевания Например, PPV < 0. 001 1. 5 = 0. 0015 - кому нужен такой прогноз! Кстати, даже для маммографии (OR = 200) : PPV = 14% - всего!
В «поисках значимости» мы вынуждены прибегать к тем или иным способам оценки совместного действия генов: q Эпистаз Как же при этом избежать проявлений q Индексы генетического риска (GRS) «парадокса сложения рисков» ? q Множественная корреляция (оценки наследуемости) потому что проблему «missing heritability» никто не отменял: «still missing» ! Мы научились считывать всю возможную изменчивость нуклеотидов, но это не помогает нам объяснить даже несколько процентов той наследуемости, которая наблюдается в родословных.
Как же избежать проявлений «парадокса сложения рисков» ? q Использовать формулу для оценки ситуации, которая возникает при нулевой гипотезе (что-то вроде поправки Бонферрони). Критические Вычисленное значение t-статистики должно уровни p-value удовлетворять неравенству: m p-value (ранее мы полагали, что t > 1. 96) Но все-таки лучше: 2 3 4 5 10 50 0. 0100 0. 0048 0. 0025 0. 0013 0. 0001 3. 8 10 -12 q Проводить оценку индивидуальных эффектов снипов (OR) и последующую оценку их совместного действия (GRS, h 2) на разных выборках
2 этапа – стандарт современных ассоциативных генетических исследований Валидизация результатов - не просто проверка воспроизводимости Направленность и уровень индивидуальных эффектов SNP (OR, p-value) Discovery sample Ни в коем случае не оценивать заново OR и не сливать выборки! Validation (target) sample Оценка любых совместных, в том числе эпистатических эффектов для топовых SNP, а также оценка наследуемости и доли объясненной вариансы (GRS, h 2) Контроль Больные Альтернатива: cross-validation кросс-валидация на большой выборке OR, p-value GRS, h 2 В противном случае вы неизбежно столкнетесь с «парадоксом сложения рисков» !
Только после GWAS и на независимой выборке Discovery sample: GWAS 1 GWAS 2 GWAS 3 … Target sample: 20 – 50 топовых SNP Мета-анализ Оценки совместного действия SNP: GRS, r, h 2, AUC, PPV, NPV Сегодня так проводят исследования большинства широко распространенных заболеваний: рак, атеросклероз, диабет 2 -го рода, астма, шизофрения Однако, во многих случаях возникают сомнения: q Первый GWAS (редкие или малоизученные заболевания и признаки) q Частичное совпадение Discovery sample и Target sample q Часто авторы добавляют в список кандидатных снипов из предшествующих GWAS несколько десятков новых SNP, которые выявлены для Target sample q Ссылки не на снипы, а на кандидатные гены или участки, обнаруженные ранее другими исследователями q Часто бывает трудно понять: рисковые аллели выявлены в данном исследовании или взяты из более ранних GWAS? q Чем сложнее это понять, тем красивей картинки
Пример исследования «качественный признак - GWAS» GWAS 600 000 SNP 1054 случаев облысения 139 ассоциированных SNP на уровне p-value < 5 10 -7 GRS для 16 топовых SNP в генах иммунного ответа ptrend < 10 -107 Случайные различия по GRS по 16 топовым сайтам из 600 000 изученных: ! L. Petukhova, M. Duvic et al. Genome-wide association study in alopecia areata implicates both innate and adaptive immunity // Nature (2010), 466, 113– 117
Ловушки, связанные с предсказанием сложных признаков по снипам Pitfalls of predicting complex traits from SNPs Wray NR, Yang J, …, Visscher PM. Nat Rev Genet. 2013 Jul; 14(7) «Do not re-estimate effect sizes of selected SNPs in the validation sample» Если Discovery = Validation, то и при H 0 корреляция признака с GRS по топовыми снипами может быть очень высока m = 100 000 Prof. Peter Visscher, Univ. of Queensland, Australia k = 1000 больных, 1000 здоровых и 100 000 SNP, несвязанных с заболеванием. Из них 100 топовых SNP совместно обеспечат корреляцию с заболеванием 0. 56 или наследуемость порядка 0. 562 30% 0. 56 1000 Объем выборки (n)
Что мы имеем вместо нуля: выборочные корреляции при нулевой гипотезе Случайная выборочная корреляция между двумя независимыми признаками весьма ощутима при малых выборках: , но , где N – число точек Например, при N = 4 в среднем | r | ~ ½ !!! Случайные корреляции «заболевание - GRS» могут быть гораздо выше: пусть объемы выборок больных и здоровых равны: n 0 = n 1 = n, и GRS вычисляется для k топовых признаков из m изученных. Тогда при Н 0 корреляция «заболевание - GRS» в среднем равна: при m >> n и k > 0. 1 m Ясно, что , если число признаков сравнения существенно больше объемов выборок
«Парадокс сложения рисков» подкарауливает нас еще в одной ситуации (уже без всяких «рисковых» факторов): множественная регрессия Это тоже оценка совместного действия признаков-предикторов
Как устроена множественная регрессия например, в программе STATISTICA Y – зависимая переменная, фенотип (например, болен-здоров) X 1, …, Xm – независимые переменные, признаки-предикторы (например, SNP) Y ~ a + b 1 X 1 + b 2 X 2 + … Значимость индивидуальных + bm. Xm вкладов предикторов Beta Intercept X 1 X 2 X 3 … Std. Err. B Std. Err. t(6) 0, 480 0, 186 p-level 2, 573 0, 042 0, 811 0, 371 -0, 624 1, 337 -0, 466 0, 657 0, 370 2, 110 1, 938 1, 088 0, 318 … Коэффициент множественной корреляции … … Стандартизированные коэффициенты для -0, 092 0, 369 -0, 419 1, 683 сравнения эффектов предикторов -0, 249 -0, 173 0, 403 … (доля объясненной изменчивости зависимой переменной) Regression Summary for Dependent Variable: Y R= 0, 429 R 2= 0, 184 Adjusted R 2 = 0, 098 F(3, 6) = 0, 452 p< 0, 725 Std. Error of estimate: 0, 583 Значимость модели в целом
Богатство как заболевание (case – control) Бинарные признаки (маркеры) Знак зодиака - телец Фамилия с гласной буквы Курение Коэффициент ыв p-value уравнении Богатые Контроль регрессии (100) 18 10 0. 153 0. 102 26 38 0. 095 - 0. 133 21 26 0. 505 -0. 034 Очки 0. 241 - 0. 087 12 19 Наверно, «рисковые» факторы – это неправильно! Высокий Попробуем множественную регрессию - это тоже 0. 522 0. 031 29 24 рост оценка совместного действия предикторов Богатство ~ a + b 1 + b 2 + b 3 + b 4 + b 5 Никаких чудес: квадрат множественной корреляции R 2 = 0. 033 Значимость в целом p-value = 0. 615
Не сдаемся – очень хочется разбогатеть! Количественные признаки Возраст Рост Вес Наличие родителей Семейное полож. Число браков Национальность Образование …. Богатые Контроль (100) 45 3. 2 175 6. 7 79 2. 8 1. 8 0. 4 0. 8 0. 2 1. 7 0. 2 0. 7 0. 1 1. 5 0. 6 …. 48 4. 6 168 5. 2 83 5. 4 1. 7 0. 6 0. 9 0. 3 1. 2 0. 3 0. 8 0. 2 1. 2 0. 6 …. p-value 0. 593 0. 411 0. 512 0. 888 0. 782 0. 167 0. 655 0. 724 …. и т. д. , все, что приходит в голову – всего 50 признаков Множественная регрессия для 50 признаков: R 2 = 0. 234 p-value = 0. 667
Не сдаемся – очень хочется разбогатеть! Итак, в совокупности 50 признаков незначимы: p-value = 0. 667, причем для всех признаков маргинальные эффекты с p-value > 0. 1 Отберем 3 топовых признака из 50: q На глаз по величине p-value, либо q Используя встроенную процедуру Stepwise Для 3 топовых признаков: R 2 = 0. 072, в целом p-value = 0. 008! Признаки b SE t-Statistic р-value Число детей 0. 177 0. 068 2. 575 0. 011 Левша-правша 0. 171 0. 067 2. 495 0. 013 Web browser 0. 148 0. 068 2. 165 0. 032 На самом деле все изученные признаки заведомо не связаны с банковским счетом!
Это называется парадокс Фридмана (1983) D. Freedman. A Note on Screening Regression Equations. The American Statistician, V. 37, 2, (1983) При большом числе предикторов отбор топовых признаков приводит, к построению ложноположительных регрессий Более того: любые процедуры отбора топовых из большого числа предикторов обеспечат мнимую значимость, в т. ч. Stepwise, встроенный в статистические пакеты SPSS, STATISTICA и пр. Journal of Animal Ecology (2006), 75, 1182– 1189
Множественная регрессия и GRS при Н 0 Исходная совокупность признаков – «предикторов» G 1, G 2, G 3, … , Gm-1, Gm k << m Отобранные топовые по эффекту признаки: G 1, G 2, … , Gk q Множественная регрессия: Y ~ a + b 1 G 1 + b 2 G 2 + … + bk. Gk R 2 – множественная корреляция (не учитывает знаки bi) q Регрессия «заболевание – GRS» : Y ~ a + b(|G 1| + |G 2| + … + |Gk|) r 2 – корреляция Y ~ GRS (не учитывает знаки Gi) GRS Симуляции показывают, что при k << m Парадоксы Фридмана и «сложения рисков» имеют одинаковую природу: суммирование топовых незначимых эффектов без учета их направленности
Множественная регрессия и GRS при Н 0 Что более эффективно в деле получения фальшивых результатов? Пусть n 0 = n 1 = 500, но это не влияет на p-value (только на R 2) Если иметь в виду кажущееся p-value, то Число изученных признаков, заведомо не Число отобранных топовых связанных с заболеванием признаков корреляции с GRS на несколько поряков опасней, ! Множественная Корреляция с GRS чем множественная регрессия топовых признаков корреляция m k (имитации) R 2 p-value r 2 p-value 50 5 0. 0210 0. 0040 0. 0208 2. 0·10 -6 100 5 0. 0268 0. 0005 0. 0266 8. 6·10 -8 500 5 0. 0402 1. 2·10 -6 = 0. 0402 5. 0·10 -11 1000 5 0. 0461 6. 6·10 -8 0. 0460 1. 9·10 -12 10 000 5 0. 0654 8. 2·10 -12 0. 0651 5. 2·10 -17
Радикальное изменение ситуации в экспериментальной биологии и биомедицине = Big Manipulations? XX век XXI век Размеры выборок гораздо больше, чем число признаков сравнения Число признаков сравнения на порядки превосходит объемы выборок Забвение классического правила: q GWAS: n ~ 1000, m > 500 000 10 outcome events per predictor variable (EPV) q Microarray: n ~ 5 – 20 (!), m > 10 000 Подавляющее большинство результатов исследований «профиля экспрессии» генов никогда не воспроизводятся!
Жизнь в пространствах с большим числом измерений не похожа на трехмерную! Объем поверхностного слоя толщиной R Объем сферы радиуса R d = 1 d = 2 d = 3 при d = 1000 ? 0. 010 0. 020 0. 030 0. 99996 Это вероятность того, что случайно Это означает, что почти все выбранная точка лежит вблизи случайно распределенные точки поверхности лежат на поверхности! Объем d-мерной сферы:
В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков» ? q Вычисление Genetic Risk Score (GRS) GRS - число рисковых аллелей на человека, т. е. сумма аллелей предрасполагающих к заболеванию или повышающих значение признака q Оценка эпистатических эффектов «топовых» сайтов Часто приходится видеть как комбинированный генотип (или гаплотип) объявляется сопряженным с заболеванием, в то время как все индивидуальные эффекты снипов статистически незначимы. При этом рассматривается совместный эффект «топовых» SNP из числа незначимых. q Анализ результатов GWAS и DNA-Microarray В современных ассоциативных исследованиях число предикторов стремительно растет и часто на порядки превышает объемы выборок. При этом кажущаяся значимость эффектов по GRS может достигать невероятного уровня, например, p-value = 10 -100 q Оценка наследуемости и вычисление корреляций «SNP-фенотип» Работы, в которых анонсированы высокие корреляции «признак - SNPs» (0. 3 – 0. 7), требуют тщательного разбора на предмет присутствия «парадокса сложения рисков»
Более конкретные выводы – их только два! q Определение направленности индивидуального действия снипов (OR) и оценка их совместного действия (GRS, R 2) должны проводиться на разных выборках q В противном случае показатели типа GRS обнаружат мнимую сопряженность с фенотипом, «значимость» которой пропорциональна числу снипов, входящих в GRS
Спасибо организаторам Школы и всем присутствующим! Слайды доступны! rubanovich@vigg. ru