Bakulina_stat.ppt
- Количество слайдов: 23
Основы биостатистики к. б. н Анастасия Бакулина, Теоретический отдел ГНЦ ВБ “Вектор”
Введение Статистика – это наука о сборе и анализе данных, имеющих случайную природу. Статистика помогает описывать данные. Использование статистических методов необходимо для того, чтобы делать выводы.
Задача • В мешке находится шар, о котором известно, что с вероятностью равной 1/2 он либо белый, либо черный. • В этот мешок кладут белый шар, после чего содержимое мешка тщательно перемешивают, и человек наугад извлекает один шар, который оказывается белым. • Вопрос: какова после этого вероятность извлечь белый шар?
Историческая справка Первое использование статистики в биологии – Георг Мендель
Отечественная биостатистика “. . . нас, биологов, и не интересуют математические выкладки, подтверждающие практически бесполезные статистические формулы менделистов” Трофим Денисович Лысенко
Статистика для математика Статистика для биолога
Основные термины Генеральная совокупность (population) – все объекты, относительно которых делаются выводы. Выборка – множество объектов, доступных (или выбранных) для исследования. Распределение вероятностей – закон, описывающий вероятность принятия значений случайной величины.
Пример: распределения вероятностей генеральной совокупности и выборки
Как получается нормальное распределение Если из мешка, в котором поровну белых и черных шаров, доставать N шаров M раз, то при больших N и M получится нормальное распределение количества белых шаров. Если сложить много независимых одинаково распределённых величин с конечной дисперсией, то сумма будет распределена примерно нормально (центральная предельная теорема).
Статистическая гипотеза – это предположение о параметрах распределения. Примеры: “две выборки принадлежат к одной генеральной совокупности”, “выборка содержит данные из генеральной совокупности с нормальным распределением”. Ошибка первого рода – вероятность отвергнуть верную гипотезу (уровень значимости). Ошибка второго рода – вероятность принять неверную гипотезу.
Для проверки гипотез служат статистические критерии (test), например: Критерий Стьюдента Критерий Фишера Критерий Колмогорова Критерий Пирсона
Внимание! Критерий Стьюдента только для сравнения двух независимых выборок с нормальным распределением! Если выборок несколько, то надо использовать однофакторный дисперсионный анализ (ANOVA)
Проблема 1: распределения в биологии часто не нормальны Чтобы свести к нормальному – надо логарифмировать
Закон Бенфорда Площади бассейнов рек Удельная теплоемкость Номера домов Бухгалтерские данные Население стран мира Во многих реальных данных первая цифра “ 1” встречается в 30% случаев. Данные распределены логнормально.
Проблема 2: малый размер выборки При сравнении выборок возможно 3 исхода: они одинаковые, они разные, неизвестно. Обычно считается, что выборка должна быть размером не менее 30. Для работы с малыми выборками надо использовать непараметрические критерии (U-критерий Манна – Уитни). Существуют методы последовательного анализа (Вальд и др. ).
Проблема 3: данные не непрерывны Качественные данные (зеленый, синий, красный). Дискретные данные (1, 2, 3). Порядковые данные (плохо, нормально, хорошо). Необходимо использовать методы непараметрической статистики. Например, для LD 50 - пробит-анализ.
Проблема 4: выбросы. Существуют критерии для отбрасывания выбросов (критерий Граббса, например). Важно не перепутать выбросы и неверно определенную форму распределения! Особенно важно убирать выбросы при регрессионном анализе.
Проблема 5: связанные выборки Пример связанных выборок: давление у пациентов до приема препарата и после приема. Надо использовать другие статистические критерии! Критерий Вилкоксона, критерий Фридмана и т. д.
Проблема 6: много параметров. Можно использовать многофакторный дисперсионный анализ для сравнения выборок. Регрессионный анализ, анализ главных компонент, факторный анализ – выявление зависимости между параметрами.
Итак, что надо учитывать при выборе критерия. Тип данных. Размер выборки. Вид распределения. Связанность выборок. Количество параметров. Количество выборок.
Программы для статобработки Excel – просто и доступно. Statistica – хорошая документация, большие возможности. R – бесплатно, сложно для изучения, очень большие возможности.
Что должно быть в публикации Размер выборки Статистический критерий Уровень значимости Используемые программы Желательно приводить все исходные данные
Контрольные вопросы Почему “среднебольничная температура” не является информативным показателем? Чем больше пожарных участвует в тушении, тем больше ущерб от пожара. Уменьшение количества пожарных снизит ущерб? При броске монеты 10 раз подряд выпал “орел”. Какова вероятность выпадения “решки” при 11 броске?
Bakulina_stat.ppt