Скачать презентацию ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав лаб экологической Скачать презентацию ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав лаб экологической

704c2d82c670f41753554b41cdf8b99e.ppt

  • Количество слайдов: 26

ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН rubanovich@vigg. ru тел. ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН [email protected] ru тел. (499) 132 -8958

Темы для обсуждения q Оценка ассоциаций «генотип-фенотип» и их значимости q Факторы, влияющие на Темы для обсуждения q Оценка ассоциаций «генотип-фенотип» и их значимости q Факторы, влияющие на значимость оценок q Объединение выборок и метаисследования q Учет множественности сравнений

Выявление ассоциаций «генотип-фенотип» : минимальный набор действий q q Фенотип - качественный признак Кроме Выявление ассоциаций «генотип-фенотип» : минимальный набор действий q q Фенотип - качественный признак Кроме этого в обоих случаях можно (например: «здоровый - больной» , «русский - татарин» ) строить различные регрессионные модели: Зависимая переменная – признак (фенотип), независимыми переменные – генотипы. Например так: A/A - 0, A/T - 1, тесту Фишера Вычисляем OR; значимость по точному T/T - 2 Фенотип - количественный признак (например: вес, содержание кальция, частота аберраций) Вычисляем средние значения признака для разных генотипов; значимость по критерию Манна-Уитни

OR – количественная мера предрасположенности (Odd Ratio) OR – непременный атрибут «case-control association study» OR – количественная мера предрасположенности (Odd Ratio) OR – непременный атрибут «case-control association study» (выявление «генов предрасположенности» к заболеванию путем сопоставлений частот генотипов у больных и здоровых) OR показывает во сколько раз повышена вероятность заболеть для носителя «плохого» генотипа Группа больных >> Рбольные OR = Контроль (здоровые) Р - генотип, указывающий на предрасположенность к заболевания Рконтроль (1 - Р ) больные контроль ___________ Рконтроль (1 - Рбольные) OR>1 – генотип связан с болезнью OR=1 – нет связи между генотипом и болезнью OR<1 – протективный генотип

Soft для вычисления OR и проведения матаисследований Win. Pepi Portal (2010) - computer programs Soft для вычисления OR и проведения матаисследований Win. Pepi Portal (2010) - computer programs for epidemiologists q q Free! 30 дней

Статистический анализ сопряженности генотипов и количественных признаков Самое простое и необходимое: вычисление средних значений Статистический анализ сопряженности генотипов и количественных признаков Самое простое и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее сравнение по непараметрическому тесту (не по Стьюденту!) Обычно стараются рассмотреть две группы Частота аберраций хромосом q 0. 04 0. 03 0. 002 0. 01 0. 00 A/A Гомозигота по Рецессивная мажорному аллелю модель + A/G + G/G Гомозигота по Доминантная модельминорному аллелю

Статистический анализ сопряженности генотипов и количественных признаков Самое простое и необходимое: вычисление средних значений Статистический анализ сопряженности генотипов и количественных признаков Самое простое и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее вычисляется OR Далее сравнение по непараметрическому тесту и значимость по точному критерию Фишера. В данном (не по Стьюденту!) примере риск возникновения q аберраций у носителей минорного аллеля G равен OR=2, 1 и р=0, 015 Сравнение частот генотипов для групп с низким (или высоким) значением признака q 40 30 20 10 0 G/G 50 Частота, % , Частота, % 60 Группа людей с нулевым уровнем аберраций 50 40 G/G A/G 30 20 A/G A/A 10 0 -1 1 -2 2 -3 3 -4 4 -5 5 -6 Частота аберраций на 100 клеток >6 0 0 1 Частота аберраций на 100 клеток

Статистический анализ сопряженности генотипов и количественных признаков Самое простое и необходимое: вычисление средних значений Статистический анализ сопряженности генотипов и количественных признаков Самое простое и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее сравнение по непараметрическому тесту (не по Стьюденту!) q Сравнение частот генотипов для групп с низким Зависимая переменная – признак (р), (или высоким) значением признака независимыми переменные – генотипы (xi). q Нелинейные многомерные регрессии, Например так: A/A - 0, A/T - 1, T/T - 2 реализованные в пакетах Statistica и SPSS q Логистическая и пуассоновская регрессии р – частота аберраций xi – генотип i-го локуса аi – коэф. регрессии Для логиcтической регрессии ai =ln(ORi)

Soft для работы с генотипами и гаплотипами q Win. Stat for Excel Free! q Soft для работы с генотипами и гаплотипами q Win. Stat for Excel Free! q X. Sole, E. Guino, J. Valls, R. Iniesta 1, V. Moreno (2006) http: //bioinfo. iconcologia. net/index. php? module=Snpstats q http: //www. bios. unc. edu/~lin/hapstat/ Free!

Темы для обсуждения q Оценка ассоциаций «генотип-фенотип» и их значимости q Факторы, влияющие на Темы для обсуждения q Оценка ассоциаций «генотип-фенотип» и их значимости q Факторы, влияющие на значимость оценок q Объединение выборок и метаисследования q Учет множественности сравнений

Чуть-чуть об ошибках статистических тестов Нулевая. Традиционно биологпредположение об отсутствии гипотеза – обычно ориентирован Чуть-чуть об ошибках статистических тестов Нулевая. Традиционно биологпредположение об отсутствии гипотеза – обычно ориентирован на контроль ошибки I рода одной генеральной совокупности различий = 2 выборки из(через уровень значимости), т. е. на гарантии отсутствия ложных открытий, Ошибка I рода ( ) Вероятность отвергнуть правильную нулевую гипотезу = Вероятность обнаружить различия там, где их нет = Вероятность совершить фальшивое открытие Ошибка II рода ( ) Вероятность принять неправильную нулевую гипотезу = Вероятность не обнаружить существующие различия = Вероятность упустить открытие Мощность теста = 1 - Ошибка II рода о возможности … и при этом мало заботится = Вероятность правильно отвергнуть нулевую гипотезу упустить открытие (ошибка II рода) Вероятность не упустить открытие

От чего зависят ошибки статистических тестов? q От размаха реально существующих отличий и разброса От чего зависят ошибки статистических тестов? q От размаха реально существующих отличий и разброса данных q От объемов выборок Ошибка I рода (вероятность фальшивого открытия) С увеличением объема выборки мощность теста слабо зависит от объемов выборок, (вероятность не упустить открытие) q Ошибки I и II рода однозначно не связаны. В целом если они сравнимы по величине всегда возрастает ошибка II рода растет при уменьшении ошибки I рода Крайний случай: «критерий» св. Фомы Неверующего (0033) Ошибка I рода = 0 Ошибка II рода = 1

Сравнение частот при уровне значимости 0. 05 Объемы выборок в опыте и контроле одинаковы Сравнение частот при уровне значимости 0. 05 Объемы выборок в опыте и контроле одинаковы Минимальное число событий в опыте при значимом отличии от контроля Число событий в контроле Стьюдент 2 Фишер 0 2 4 5 1 6 7 7 2 8 9 9 3 10 11 10 6 15 15 15 7 16 16 16 8 18 18 18 9 19 10 21 21 20 20 35 35 33 30 47 47 46 больше 5 Если в контроле нет мутаций, то при 4 независимо от объемов выборок 12 12 значимости отличий в 12 опыте их должно или 1000) 5 13(100 быть 13 13

Темы для обсуждения q Оценка ассоциаций «генотип-фенотип» и их значимости q Факторы, влияющие на Темы для обсуждения q Оценка ассоциаций «генотип-фенотип» и их значимости q Факторы, влияющие на значимость оценок q Объединение выборок и метаисследования q Учет множественности сравнений

Проверка однородности материала и вычисление OR для нескольких выборок q Индекс рассеяния для биномиальных Проверка однородности материала и вычисление OR для нескольких выборок q Индекс рассеяния для биномиальных выборок Можно ли объединить k независимых выборок и оценить частоту как Объем выборки Число мутаций Частота N 1 n 1 p 1 N 2 n 2 p 2 …. …. Nk nk pk q Mantel-Haenszel test Выборки можно объединять, если

Mantel-Haenszel test Значимость гетерогенности выборок Вычисление OR для совокупности выборок Mantel-Haenszel test Значимость гетерогенности выборок Вычисление OR для совокупности выборок

Объединение выборок с незначимыми эффектами Если это принять за 4 -ое превышение, то р=0. Объединение выборок с незначимыми эффектами Если это принять за 4 -ое превышение, то р=0. 015 Только в 3 выборках из 18 частота гетерозигот w/d у HIV+ выше, чем у HIV- Монета достоверно несимметрична! Гетерозиготы w/d чаще встречаются среди HIVНо какое OR? Если ассоциации нет, то случаи «больше-меньше» должны появляться с вероятностью ½ Вероятность выпадения 3 (и менее) орлов в 18 бросаниях монеты равна

Протективное with Win. Pepi: результаты Mantel-Haenszel testдействие гетерозиготы w/d CCR 5 достоверно, но не Протективное with Win. Pepi: результаты Mantel-Haenszel testдействие гетерозиготы w/d CCR 5 достоверно, но не велико: OR=1. 15 Мета-анализ OR RR = f+ / f- f = f- - f+ Mantel-Haenszel оценка 0. 87 (1. 15) 0. 887 0. 016 Unadjusted оценка (по всем данным) 0. 78 0. 801 0. 027 95%-довер. интервал 0. 77 - 0. 97 0. 81 - 0. 98 0. 007 -0. 023 Значимость гетерогенности (р) 0. 131 0. 236 0. 451 Число «null» -статей (OR=1) 7 2 для ликвидации значимости Значимость корреляции 0. 188 (Regression asymmetry test, Egger) объемов выборок 0. 211 (Adjusted rank correlation, Begg&Mazumdar): и эффектов (д. б. > 0. 1 ) Итоговая 0. 014 значимость различий (Fisher’s two-tailed)

Темы для обсуждения q Оценка ассоциаций «генотип-фенотип» и их значимости q Факторы, влияющие на Темы для обсуждения q Оценка ассоциаций «генотип-фенотип» и их значимости q Факторы, влияющие на значимость оценок q Объединение выборок и метаисследования q Учет множественности сравнений

Как это бывает? Генерируем две одинаково распределенные выборки по 100 особей с 20 -локусными Как это бывает? Генерируем две одинаково распределенные выборки по 100 особей с 20 -локусными генотипами Наблюдаем появление фальшивых ассоциаций Частоты минорых аллелей (в среднем 0. 1) Ген Больные 1 Выборка Здоровые Выборка 2 OR p Должно быть OR=1 Значимо! 4 2 3 1 Сразу 3 локуса «ассоциированы» с заболеваемостью!

Как избежать фальшивых открытий? q Правило Карло Бонферрони (1935): При проведение m независимых статистических Как избежать фальшивых открытий? q Правило Карло Бонферрони (1935): При проведение m независимых статистических тестов значимы только те результаты, для которых q False Discovery Rate control: FDR - контроль q Permutation test (компьютерная перестановка лэйблов «case-control» )

Зависимость ошибки II рода от числа тестов (SNP) при использовании поправки Бонферрони При 100 Зависимость ошибки II рода от числа тестов (SNP) при использовании поправки Бонферрони При 100 сравнениях ради того, чтобы гарантировать Вероятность пропустить ген с OR=2. 7 отсутствие хотя бы одного на выборках 100 (case) и 100 (control) ложного результата, мы упускаем 88% открытий! При m=100 ошибка равна 0. 88 При тесте вероятность В отдельном 5 сравнениях упускаем 50% упустить открытиеоткрытий равна 0. 2 1

Новый принцип проверки статистических гипотез: FDR-контроль False Discovery Rate control: Benjamini, Hochberg (1995) Вероятность Новый принцип проверки статистических гипотез: FDR-контроль False Discovery Rate control: Benjamini, Hochberg (1995) Вероятность хотя бы одного фальшивого открытия < Уровня значимости Ошибка I рода < 0. 05 Традиционный принцип заменяется на 105 статей в базе Средняя доля фальшивых открытий < Выбранный уровень

Пример: множественные сравнения по 10 тестам Располагаем тесты Коррекция по в порядке увелечения p Пример: множественные сравнения по 10 тестам Располагаем тесты Коррекция по в порядке увелечения p Bonferroni FDR Значимые различия после коррекции по 0, 005 FDR Тест pi 1 0, 001 2 0, 0055 3 0, 005 0, 01 В первой клетке 0, 005 0, 015 как второй клетке во у Бонферрони, 0, 005 0, 02 больше, вдвое больше втрое 0, 04 т. д …. 0, 005 и 0, 005 0, 3 4 5 6 7 8 9 10 0, 005 0, 010 0, 015 Поправка Бонферрони 0, 020 оставляет значимым лишь первое сравнение 0, 025 0, 030 0, 035 все!!! 0, 005 И это 0, 040 без 0, 5 Значимые различия Для 6 -ого теста p больше на 0, 005 0, 6 этого значенияпоправок 0, 045 множественность 0, 005 0, 050 0, 8

Что делать, если FDR не помогает? Permutation tests: случайные перестановки пометок «case-control» в компьютерных Что делать, если FDR не помогает? Permutation tests: случайные перестановки пометок «case-control» в компьютерных симуляциях по алгоритму: q В исходной базе данных делаем случайную перестановку лейблов case-control q Тем самым мы уровни для каждого гена (pperm Вычисляем заново p-отказываемся от попыток ) q Вычисляем откорректированное p как Точный тест Фишера – это тоже permutation test, вычислить значимость различий. только реализованный. N раз (минимум 10000), фиксируя аналитически (р вычисляется q Повторяем процедуру Вместо этого мы ее «измеряем» экспериментально, по случаи, когда p формулам комбинаторной теории вероятностей) разыгрывая ситуацию на компьютереp perm меньше исходного значения

Permutation test применительно к данным об ассоциации заболеваемости с 10 SNP Переставляем отметки «case-control» Permutation test применительно к данным об ассоциации заболеваемости с 10 SNP Переставляем отметки «case-control» 10000 раз. В результате получаем коррекцию p SNP Частота минорного аллеля Case (100) 62 26 2 19 3 31 4 20 5 Но так бывает не всегда p` p Indulgentia Control (100) 1 OR 4, 6 0, 0001 0, 000 3, 7 0, 009 0, 010 2, 8 0, 011 0, 007 2, 9 0, 023 0, 025 3, 0 0, 071 0, 109 2, 0 0, 096 0, 098 7 11 Значимо побез Значимо 4 FDR коррекции на 23 множественность 13 44 30 1, 8 0, 103 0, 058 8 54 39 1, 8 0, 120 0, 067 9 59 53 1, 3 0, 571 0, 476 10 40 41 1, 0 0, 911 1, 000 6 Значимо по 14 Бонферрони 8 Совсем маленькая программка 6