Планирование научных исследований Переменные и их отбор

Планирование научных исследований • Определение целей • Определение задач • Определение переменных и методов их измерения • Выбор дизайна исследования • Выбор метода статистической обработки • Определение размера выборки • Написание протокола исследования и создание ИРК участника Описание плана исследования – это протокол

Протокол • Степень, с которой идет соблюдение процедур, описанных в протоколе и то, насколько анализ следует заранее спланированному курсу, является важнейшей характеристикой доверия к исследованию и его выводам • Задачей исследователя является минимизация смещений и максимизация точности заключений

Типы исследований • Подтверждающие • Исследовательские (гипотезогенерирующие)

Типы исследований • Подтверждающее испытание – Исследование с заранее сформулированной гипотезой, которая получает подтверждение – Подтверждающее исследование необходимо для получения доказательств эффективности и безопасности • Необходимо неукоснительное соблюдение протокола и СОП • Все неизбежные изменения должны быть задокументированы и объяснены – Чрезвычайно важным является, помимо тестирования гипотезы, оценить размер эффекта

Типы исследований • Гипотезогенерирующее – Основание для планирования подтверждающих исследований – Имеют четкие цели и задачи – Не всегда имеют четкие предопределенные гипотезы – Выбор гипотез зависит от данных – Не предоставляют доказательств эффективности или безопасности

Задачи в экспериментальных исследованиях Уровень Вопрос Уровень абстракции 1 Что такое? 2 Какова связь? Концепции и Опрос, конструкты описательное, описание случаев Взаимоот. Опрос, пассивное ношения корреляционное, когортные 3 Почему? Принципы, теории, модели Дизайн Экспериментальные, квазиэкспериментальные

Как формулировать вопрос • На уровне 1 надо изучить переменную в одной популяции • На уровне 2 надо изучить связь между минимум двумя переменными • Если изучается причина или следствие – вопрос должен быть уровня 3 • Все переменные должны иметь возможность варьировать • На уровне 3 должны быть две переменные описывающие причину и следствие • Если сформулирован вопрос уровня 3 проверьте, что этично и возможно манипулировать причинной переменной. Если нет – перепишите вопрос как вопрос уровня 2 • Гипотезы формулируются для уровней 2 и 3

Типы исследований • Классификация по доказательности

Иерархия доказательств

Вначале надо определиться с дизайном • Рандомизированное испытание • Дизайн с неэквивалентными группами – Простой дизайн с неэквивалентными группами (NEGD) – Регрессионо-прерывистый дизайн (RDD)

Почему такая иерархия? • Основная цель исследования – предсказать, какой результат получат те, кто будет повторять его в аналогичных условиях (цель исследования лекарственного средства – показать, что если пациенты в будущем будут получать подобный препарат, они получат подобный – положительный – результат) • Иными словами, доказать причинно следственные связи между вмешательством и исходом

Что нам мешает доказывать? • Мы видим, что группе пациентов стало лучше на фоне приема препарата. Что может быть причиной улучшения? – Препарат – Третий фактор (другой препарат, который все получали, сам факт госпитализации и т. п. ) – Случайность • Иными словами, связь с причиной может быть истинной, а может быть кажущейся вследствие влияния систематических (bias) или случайных (error) факторов

Как избежать влияния систематических факторов? • Надо иметь группу контроля, которая во всем похожа на группу вмешательства – с одним единственным отличием воздействием Популяция Лечение Результат Выборка Результат Контроль Выборка Рандомизация Лечение Оценка

РКИ (RCT) • Пациенты распределяются в группы воздействия и лечения случайным образом • Типы рандомизированных экспериментов – Полностью рандомизированный дизайн (CRD) – Рандомизированный блочный дизайн (RBD) • Полнотью рандомизированный блочный дизайн (RCBD) • Неполный блочный дизайн (RIBD) – Факториальный дизайн

Общая схема РКИ Лечение Популяция Выборка Плацебо Рандомизация Результат

Полностью рандомизированный дизайн (CRD) • Полезен, если экспериментальные единицы гомогенны • Если единицы гетерогенны, будет отмечен рост ошибки и сложнее будет отвергнуть Н 0

РКИ с предлечением (run in) Группы воздействия Популяция Выборка Плацебо Рандомизация Результаты

Рандомизированный блочный дизайн (RBD)

APACHE II <15 Популяция Выборка APACHE II > 15 Стратификация Рандомизация Стратифицированные РКИ

Два блочных фактора, неполный дизайн

РКИ с факториальным дизайном p = плацебо A&B Популяция A & Bp Ap & B Выборка Ap & Bp Результат

РКИ временных серий Лечение Популяция Лечение Выборка Контроль

Перекрестный дизайн 1 период Популяция Выборка Второй период

N раз по 1 РКИ • Использование плацебо и рандомизации для одного пациента – Отбираем пациента (или группу) с состоянием, которое может достаточно быстро меняться – Открытый период – Создаем режим назначения препарата (рандомизированный) – Анализируем результат

N раз по 1 РКИ

N раз по 1 РКИ • • • Нескрытый период исключает эффект Оценка эффекта лекарства у пациента Оптимизация дозы Определение скорости наступления эффекта Определение количества и характеристик пациентов, которым лекарство помогает

Рандомизация • По таблице случайных чисел • При помощи компьютерного генератора случайных чисел • При помощи запечатанных конвертов • Обычно в головном учреждении • Не является рандомизацией – по дням недели – каждый второй, и т. д.

Рандомизация • Простая – Генератор случайных чисел – Возможность больших различий численности групп

Таблица случайных чисел

Рандомизация • Простая – Генератор случайных чисел – Возможность больших различий численности групп • Блочная – Количество методов воздействия – Размер блока (4) – Выписать все возможные комбинации

РКИ • Рандомизированное клиническое испытание – Группа пациентов отобрана на основании критериев включения в и исключения из исследования – Группа пациентов случайным образом разделена на группы контроля и вмешательства – За счет случайности разделения (рандомизации) все возможные влияющие на исход факторы в группах аналогичны – Источниками различий между группами могут быть воздействие и случайные факторы

У исследований ниже статусом • Все те же проблемы, что у РКИ, плюс целый ряд собственных

Вероятность попадания в группу воздействия по результатам претеста

Причины проблем при NEGD

претест Причины проблем при NEGD посттест

Причины проблем при NEGD Чем больше ошибка – тем «сильнее» псевдоэффект

RDD

RDD воздействие контроль

Интерпретация

RDD Для той же точности надо в 2. 75 раз больше пациентов. Тогда РКИ тяжело больных – 200 чел. RDD – 275 тяжело больных и 275 умеренно больных – контроль. Результатов ждать дольше, потенциальная опасность выше.

Итак, • Для клинических испытаний золотым стандартом остается рандомизированное контролируемое испытание

Когортное исследование

Когортное исследование • Возможно, что отказавшиеся от участие в исследовании отличаются от согласившихся по ряду показателей, например, заботе о собственном здоровье. • Eсли между группами найдены различия, они могут быть объяснены, как эффектом вмешательства, так и различиями вследствие разного отношения к здоровью. • Возможность альтернативного толкования результатов исследования снижает уровень доказательности.

Типы когортных исследований • Проспективные популяционные – Выборка из популяции, наблюдение вперед во времени • Ретроспективные популяционные – Выборка из популяции, анализ собранных ранее данных • Проспективные (групповые) проспективные и ретроспективные – Непопуляционные группы

Когортные исследования в клинике • Исследования с историческим контролем (если был отбор до начала терапии) • Отбор в группы вмешательства «по показаниям» • Любые другие методы, при которых не было истинной рандомизации

Исследование случай-контроль

Исследование случай-контроль • Возможна та же ошибка самоотбора, что и в случае когортного исследования • Возможны другие ошибки – Ошибки воспоминаний (больные могут с большей вероятностью вспомнить о том, что у них были нездоровые практики - переедание или потребление большого количества соли) – Ошибки обратного направления (фактор ускоряет прогрессирование заболевания к фатальному исходу. Среди больных он будет встречаться реже и исследователь сделает ошибочный вывод о том, что фактор является благоприятным, а не вредоносным)

Исследования случай-контроль • При положительном результате исследования возможно, что: 1. Вмешательство эффективно 2. Вмешательство не эффективно, различия связаны с исходными различиями между группами вмешательства и контроля 3. Вмешательство вредно, группа больных содержит меньшее количество подвергавшихся воздействию, поскольку подвергшиеся воздействию умирали чаще • Все три толкования возможны (хотя и не равновероятны) по результатам одного и того же исследования, вне зависимости от количества включенных в него пациентов и полученного уровня статистической значимости.

Другие дизайны • Вложенные СК – СК на основе данных когортного исследования • Одномоментные исследования – Исследования по типу случай-контроль, когда случаи и контроли находятся в результате обследования популяции (скринига) • Панельные исследования – Серия одномоментных исследований

Экологические исследования • Другое название - корреляционные • Измерение показателей в популяции в целом. Отсутствие данных на индивидуальном уровне

По типу задач • • • Лечение – РКИ (когортные, СК) Этиология (ФР) – Когортные (СК, экологические) Прогноз – Когортные Диагностика – РКИ, Когортные, СК Экономические – Моделирование на основе РКИ, когортных Управленческие – Когортные, СК, экологические

Определение цели исследования • Проводится анализ литературы и консультации с экспертами • Выявляются основные проблемы, они классифицируются как решаемые путем – Приобретения нового знания – Приобретения нового оборудования – Принятия нормативных актов/стандартов • Только пробелы в знаниях относятся к области науки • Цель исследования формулируется как необходимость заполнить пробелы в научных знаниях

Декомпозиция цели (определение задач) • Берем цель исследования и последовательно анализируем все используемые термины. • Определяем, будет измеряться показатель, который скрывается за этим термином. • Если общепринятой методики измерения не существует, создаем задачу исследования – определение методики измерения, и повторяем процесс

Декомпозиция цели • Цель: Оценить влияние высокого ХС на течение ИБС • ХС – измеряется методом Абеля-Кендалла • Высокий – (? ) верхние 25% популяционного распределения – Популяционное распределение – неизвестно – Какая популяция? • Течение ИБС - (? ) развитие ИМ или смерть – Надо ежегодно (? ) контактировать с пациентами и обследовать их

Другой термин - операционализация • Боль – Боль — неприятное сенсорное и эмоциональное переживание, связанное с истинным или потенциальным повреждением ткани или описываемое в терминах такого повреждения. – Численно описать такую величину невозможно – Поэтому операционализируем боль как • • Значения по шкале VAS Ответ на вопрос есть/нет боли Три уровня И т. д. – Очевидно, что исследования с разной операционализацией понятий не сравнимы друг с другом. Поэтому важно использовать принятую в данной области операционализацию.

Операционализация • Дайте измеряемые определения – Наркоман – Проститутка – Больной ИБС • При этом надо помнить, что определения должны быть стандартизированными, т. е. разные исследователи, использующие это определения на одном и том же объекте должны получать одни и те же результаты • Фактически операционализация сводится к выбору надежного измерительного инструмента • Процесс получения данных о свойствах инструмента называется его валидизацией (чаще всего это оценка приемлимости валидности и надежности инструмента)

Надежность и валидность Высокие Н и В Низкая Н хорошая В Высокая Н низкая В Низкие Н и В

Точность исследования • Складывается из двух компонент – Точность измерительного прибора – Ошибка выборочного метода – Обычно оценка размера выборки производится для минимизации (оптимизации) влияния случайной ошибки Точность = надежность + валидность

Точность измерительного прибора • Количественный показатель – CV – для множественных повторных измерений одного образца (CV<5%) – Метод Бланда-Альтмана (повторные измерения или разные методы) – Почему важно? • s 2=s 2 p + s 2 e • е – ошибка измерения

Метод Бланда-Альтмана • Сравнение двух методов – Построение графика зависимости разности значений от их полусуммы (среднего) – Разности анализируются и рассчитывается их стандартное отклонение и интервал, равный удвоенному стандартному отклонению

Метод Бланда-Альтмана SD=1. 92

Напомним, что • Дисперсия ошибки измерения должна быть на порядок меньше дисперсии самой переменной.

Точность опросников • r – показатель надежности опросника (например, a Кронбаха) • поскольку дисперсия ошибки должна быть в 10 раз меньше общей дисперсии, показатель надежности должен быть больше 0, 9

Субъективная вариабельность • Критерий согласия (каппа)

Критерий каппа (диагностика субтипа карциномы легких) Патолог А Патолог Б

Критерий каппа • Более 0, 75 - хорошее согласие • 0, 40 -0, 75 - умеренное согласие • менее 0, 40 - плохое согласие

Надежность ЭКГ • Диагностика инфаркта миокарда по ЭКГ – Для зубца Q k=0. 61 – Для наличия депрессии сегмента ST k=0. 30 • Lim et al. , Critical Care 2005, 9 (Suppl 1): P 320

Валидность • Измеряет то, что мы хотим измерить – Конструктная валидность • То, что мы хотим измерить существует – Контентная валидность • По содержанию совпадает с ожидаемым – Конвергентная валидность • Совпадает с результатами других тестов – Дивергентная валидность • Не совпадает с результатами тестов на измерение иных показателей

Валидность • Внутренняя – адекватность ответа на вопрос исследователя • Внешняя – генерализуемость результатов • Статистическая – надежность заключений • Конструктная – соответствие конструктов их представлению в исследовании

Угрозы внутренней валидности • История (влияние внешних событий на результат) • Тестирование (эффект Hawthorn) • Инструменты (влияние инструментария на результат) • Созревание (эффект времени) • Регрессия к среднему • Смертность (потери при наблюдении) • Взаимные эффекты (комбинация вышеперечисленных)

Вернемся к задачам • Изучить распределение уровней ХС в популяции мужчин в возрасте 40 -59 лет • Организовать наблюдение за пациентами с ИБС в течение 5 лет с ежегодным обследованием пациентов • Оценить частоту развития ОИМ и смерти от ИБС в группах лиц с высоким и нормальным ХС

Задачи • Задачи описывают те эксперименты, которые должны быть выполнены в ходе достижения цели • Для каждого эксперимента следует описать – – – – Показатели исхода Переменные воздействия Дизайн исследования Исходную популяцию Методику формирования выборки Методики измерения показателей влияния и исхода Размер выборки, необходимый для ответа на поставленные вопросы

Переменные • Соответственно, изучаемые переменные – Переменные исхода – отклика, результата, зависимые – Переменные воздействия – вмешивающиеся, влияющие, независимые

Показатели исхода • Те показатели, которые являются индикаторами наступления исхода (смерть, развитие ИМ) или интересующими нас показателями, влияние на которые мы изучаем (зависимые переменные) • Обычно для каждой задачи имеется только один основной показатель исхода (зависимая переменная) и может быть несколько вторичных (дополнительных) показателей.

Показатели исхода • Показатели исхода (зависимые переменные) всегда измеряемые показатели и исследователь должен понимать, каким образом он/она будут измерять эти показатели • Переменные исхода • Первичные • Вторичные

Переменные исхода • Первичные – Первичная переменная – предоставляет наиболее клинически значимые и прямые доказательства для цели исследования. • В исследовании может быть только одна первичная переменная • Обычно это переменная эффективности • Другие потенциальные первичные переменные – Безопасность/переносимость – Качество жизни – Экономические показатели • Отбор переменной производится на основании принятых норм и стандартов в данной области. • Необходимо использовать надежные и достоверные переменные, которые использовались в ранних исследованиях или опубликованной литературе Размер выборки оценивается по первичной переменной

Переменные исхода • В протоколе должно быть дано точное определение первичной переменной, которое будет использоваться в статистическом анализе • Смертность – не первичная переменная – Сравнение • Доли умерших? • Распределения времен дожития? • Эффект терапии тоже не первичная переменная – Сравнение • Возник исход/нет • Время по первого возникновения • Скорость возникновения события (количество на длительность)

Переменные исхода • Вторичные переменные – Поддерживающие показатели в дополнение к первичной переменной или – Показатели эффекта для вторичных задач исследования – Количество вторичных переменных должно быть ограничено и они должны быть четко описаны в протоколе

Композитные переменные • Объединение нескольких переменных в одну, с использованием четко прописанного алгоритма • Позволяет избавиться от проблемы множественного сравнения не раздувая ошибку I типа • Метод должен быть описан в протоколе • Надо оценить валидность и надежность переменной

Переменные глобальной оценки • Переменные для оценки «общей» эффективности или «общей» безопасности • Обычно имеют субъективный компонент. Надо представить следующую информацию – Соответствие основной цели исследования – Основания для оценки надежности и валидности – Как собранные данные используются для оценки по глобальной шкале – Как оцениваются пациенты с пропущенными данными • Если исследователь опирается на объективные показатели, они также должны быть включены в анализ как дополнительные первичные или важные вторичные переменные • Переменные глобальной полезности включают оценку врачом пользы и риска назначения терапии. – Смешивают два разных показателя – Не рекомендуются как первичные переменные

Множественные первичные переменные • В некоторых случаях необходимо иметь несколько первичных переменных (диапазон эффектов) • Необходимо спланировать сравнения • Указать, какой минимум или все должны давать доказательства успеха исследования • Необходимо объяснить эффект на ошибку I типа и описать методы контроля ошибки I типа

Суррогатные переменные • Непрямые показатели, которые коррелируют с интересующим клиническим исходом • По возможности не должны использоваться – Нет уверенности в том, что они являются предиктором клинического исхода – Могут не давать адекватной оценки клинического эффекта, которая может быть сравнена с нежелательными явлениями

Категоризированные переменные • Дихотомизация интервальных или ординальных переменных, а также иное снижение размерности шкалы • Иногда полезно, если есть клиническое обоснование • Должно быть четкое предварительное описание в протоколе • Надо учитывать потерю мощности

Переменные • Показатели, которые измеряются в исследовании • Исходя из характеристик измерительного прибора выделяют переменные, измеряющиеся – – Номинальной шкалой Ординальной шкалой Интервальной шкалой Шкалой отношений

Переменные • Количество информации, которая содержится в переменных зависит от типа шкалы, при помощи которой происходит измерение • Соответственно, надо использовать наиболее точный, т. е. информативный, из доступных методов • Кроме того, следует помнить, что измеренную с большей точностью переменную можно огрубить, а вот наоборот сделать не получится – Разные методы статобработки предназначены для переменых, измеренных разными шкалами: • Точный тест Фишера: номинальные • Тест Викоксона: ординальные • Т-тест: интервальные Рост мощности

Переменные • Поскольку шкала напрямую определяет мощность статистического теста, то чем более точный измерительный метод используется, тем меньше надо единиц наблюдения • Чем более надежен измерительный инструмент, тем выше его точность и тем меньше надо единиц наблюдения • Поэтому с теоретической точки зрения количественные (интервальные) переменные предпочтительнее все других

Однако… • Целый ряд исходов, интересующих пациента бинарен • Это номинальная переменная • Поскольку ДМ считает только важные для пациента исходы, то заменять их на количественные показатели только с целью повышения эффективности исследования нельзя • Но можно адекватно операционализировать исследовательский вопрос • «Доктор, умру ли я? » • «Да, абсолютно точно» • «Вопрос только в том, когда» – Замена бинарного показателя (жизнь/смерть) на интервальный (времена дожития)

Для удобства • Переменные, измеренные при помощи разных шкал, имеют дополнительные названия – Качественные (номинальные) – Полуколичественные (ординальные) – Количественные (интервальные) • Кроме того, для компьютерного ввода необходимо учесть, как будем кодировать переменные – Число (любые) • Количество разрядов числа, наличие десятичной запятой и число знаков после запятой (для ИРК) – Текст (всегда номинальные) Лучше всего все кодировать числами

Показатели исхода • Показатели исхода (зависимые переменные) всегда измеряемые показатели и исследователь должен понимать, каким образом он/она будут измерять эти показатели • На что следует обратить внимание – Тип переменной (качественная/количественная) – Пределы колебаний – Точность измерения • Ошибка измерения должна быть значительно меньше диапазона изменений переменной

Эпидемиологическое исследование • Влияние курения на артериальное давление

Исследование • Гипотезогенерирующее • Возможная гипотеза – Курение приводит к повышенному АД • Переменные исхода – САД (? ) – ДАД (? ) • Поскольку ДАД более стабильна, формулируем гипотезу точнее – Факт курения (положительный ответ на вопрос, курите ли Вы) ассоциирован с более высоким уровнем ДАД

Исследование • Надо собрать данные о пациентах, которые проходят скриниг на выявление высокого уровня АД – – – – – Идентификационный номер Пол Возраст Образование Курение Рост и вес Систолическое АД Диастолическое АД Дата обследования

Исследование • Первичная переменная исхода – Систолическое АД • Вторичная переменная исхода – Диастолическое АД • Переменная влияния – Курение • Вмешивающиеся переменные – – Пол Возраст Образование Рост и вес • Вспомогательные переменные – Идентификационный номер пациента – Дата обследования

Каковы же типы данных? – – – – – Идентификационный номер - число Пол - муж/жен Возраст - целое число (например, 20 - 60) Образование - высшее/среднее/ниже среднего Курение - курит/ не курит Рост и вес - целые числа (рост 100 -220, вес 25 -150) Систолическое АД - целое число (50 -300) Диастолическое АД - целое число (10 -280) Дата обследования - дата

Планирование исследования • Зачем оно необходимо? – Уменьшение вероятности ошибочного заключения • Систематические ошибки • Случайные ошибки

Систематические ошибки • Возможность альтернативного толкования данных, связанная с особенностями дизайна исследования • Организация исследования таким образом, что результат может оказаться смещенным – Измерение давления после подъема на пятый этаж • В реальности классификация доказательности базируется на вероятности систематической ошибки – РКИ – систематические ошибки маловероятны – Когортные – систематические ошибки самоотбора – СК – систематические ошибки самоотбора, воспоминаний и т. п.

Случайные ошибки • Влияние большого количества малопредсказуемых факторов • Исключить (в противоположность систематическим) – невозможно • Аналогично диагностической неопределенности в медицине • При диагностике парные гипотезы – Есть заболевание – Нет заболевания • Можно провести тест, у части больных он будет положителен, у части нет (FN). Если провести на здоровых, у большинства будет отрицателен, но у части – положителен (FP)

Итак Болен Здоров Тест + TP FP Тест - FN TN

Соответственно • Se=TP/(TP+FN) – на больных • Sp=TN/(TN+FP) – на здоровых • Но нас интересует PV, вероятность того, что пациент болен, если тест положителен • К сожалению, этот показатель зависит не от характеристик теста, а от соотношения больных и здоровых в популяции

В первом случае PV=90%, во втором – PV=8, 3%

Какой тест наилучший? • Для подтверждения того, что пациент болен? – Очевидно, что тест со 100% специфичностью PV всегда 100% Sp. PIN

Для непрерывных показателей Scientific American. October, 2000. 1. Найти популяцию для которой известны уровень глазного давления и есть или нет у них глаукома. Выделить здоровых и больных и нарисовать графики. В данном случае давление от 10 до 40 мм. в. ст. не может разделить больных и здоровых лиц.

2. Подсчитать вероятность положительного диагноза для значения, превышающего некий заданный порог. Если считать площадь под кривой 100% и границу 20, 90% лиц с глаукомой будут диагносцированы как таковые, и 50% здоровых лиц получат неправильный диагноз (ложно-положительные)

4. Если точность достаточно высока, необходимо выбрать точку разделения таким образом, чтобы было достаточное количество истинно положительных результатов без чрезвычайно большого количества ложно-положительных. Тем не менее, сохраняются FP/FN и снижение одних означает увеличение других

Какое это отношение имеет к статистике? • Две гипотезы – Вмешательство «работает» (пациент «болен» ): Ha – Вмешательство «не работает» (пациент «здоров» ): Ho • Если надо доказать, что вмешательство «работает» надо использовать тест с высокой специфичностью (но тогда будет значительное количество FN). Надо анализировать Ho • Кроме того, определение Ho проще – «не работает» означает, равенство эффектов в группе вмешательства и контроля • Поэтому появилась р-оценка

Р-оценка • Вероятность того, что полученные различия (положительный результат теста) могли появиться в популяции, если вмешательство «не работает» (между группами нет различий) • Р-оценка не что иное, как FP, количество ложноположительных результатов • Сама по себе Sp или FP ничего не говорят о справедливости гипотезы

Р оценка • Предположим, что эффективность вмешательства маловероятно (одно из 10 000 таких вмешательств оказывается эффективным) – Р(Ha)=0, 0001 • Проводим 100000 исследований таких вмешательств и признаем различия значимыми при р<0, 05 • Вне зависимости от Se, большинство результатов будут FP

Р оценка • Предположим, что эффективность вмешательства маловероятно (одно из 10 000 таких вмешательств оказывается эффективным) – Р(Ha)=0, 0001 • Проводим 100000 исследований таких вмешательств и признаем различия значимыми при р<0, 0001 • Ситуация сильно зависит от Se (мощности исследования) – PV может подняться до 50%, но все равно останется низким

Р оценка • Предположим, что эффективность вмешательства вероятна (одно из 10 таких вмешательств оказывается эффективным) – Р(Ha)=0, 1 • Проводим 100000 исследований таких вмешательств и признаем различия значимыми при р<0, 05 • Ситуация сильно зависит от Se (мощности исследования) – PV может подняться до 69%

Р оценка • Предположим, что эффективность вмешательства вероятна (одно из 10 таких вмешательств оказывается эффективным) – Р(Ha)=0, 1 • Проводим 100000 исследований таких вмешательств и признаем различия значимыми при р<0, 01 • Ситуация мало зависит от Se (мощности исследования) – PV опустится до 50% только если мощность будет меньше 4, 5%

Р оценка • Предположим, что эффективность вмешательства очень вероятна (одно из 2 таких вмешательств оказывается эффективным) – Р(Ha)=0, 5 • Проводим 100000 исследований таких вмешательств и находим р=0, 07 (мощность 80%) • PV = 92, 5% Вывод – вмешательство работает!

Р-оценка • Таким образом, оценка p-значения в отрыве от других данных является ошибочной • Одна и та же р-оценка может указывать на большую вероятность FP или TP значения • Интерпретация результатов зависит от знаний о предмете и мощности исследования • Однако исследование должно быть спланировано соответствующим образом

Поэтому • Желательно не просто указывать на вероятность получения подобных значений при условии справедливости нулевой гипотезы (роценка), но давать возможный диапазон значений, из которых могла придти данная выборка • Доверительный интервал

Поскольку 95% ДИ пересекает 1. 0, различия не значимы 95% C. I. 0. 68 Риск может быть настолько низок. . . 0. 91 1. 0 1. 2 Или настолько высок

И еще • Вспомним, что оценивая диагностическую точность мы смотрели на распределение признака Средние равны

Иными словами • Выбор метода статистической обработки зависит от распределения признака – Нормальное распределение – Нормализуемые распределения • Логнормальное и др. – Не нормализуемые распределения • • Гипергеометрическое Биномиальное Вейбулла Гомперца и др. Однако…

Центральная предельная теорема В случае большого количества наблюдений распределение выборочных средних становится нормальным

Иными словами • При большом количестве наблюдений нам все равно, каково распределение, ибо распределение выборочных средних – нормальное… • Все равно? • Но у нас и выборочная дисперсия

N=15 Истинное значение 2, 88 Распределение - прямоугольное N=100 N=500

Таким образом • При большом количестве наблюдений распределение в популяции становится менее важным • При небольшом существуют серьезные проблемы • Поэтому лучше иметь больше размер выборки, чем играть со статистическими тестами

Исследовательский анализ • Exploratory analysis • Попытка выяснить, что данные хотят нам рассказать – предварительной гипотезы нет • Две основные проблемы – Подгонка модели под данные • Модель подходит только под выборку, не под популяцию – Множественные сравнения • Множественные сравнения повышают вероятность ошибки I типа

Исследовательский анализ • Решения – Подгонка модели под данные • Разделение данных на два набора – для создания модели и ее тестирования – Множественные сравнения • Использование подхода Бонферрони • Оба варианта резко увеличивают вероятность ошибки II типа, поэтому необходимо иметь значительный размер исходной выборки • На малых выборках исследовательский анализ бессмысленен