Хранение данных. Описательная статистика_new_11_05_17.pptx
- Количество слайдов: 59
ОСНОВЫ ПРАКТИЧЕСКОЙ БИОМЕДИЦИНСКОЙ СТАТИСТИКИ СЕРИЯ 2 ПОНЯТИЕ ПЕРЕМЕННОЙ. ВИДЫ ПЕРЕМЕННЫХ. ТАБЛИЦЫ ДАННЫХ. ОПИСАТЕЛЬНАЯ СТАТИСТИКА. ТАБЛИЦЫ ДАННЫХ И МАНИПУЛЯЦИИ С НИМИ В РАЗЛИЧНЫХ СТАТИСТИЧЕСКИХ ПАКЕТАХ, ОБЗОР. ОПИСАТЕЛЬНАЯ СТАТИСТИКА В СТАТИСТИЧЕСКИХ ПРОГРАММАХ. ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ.
ШИРОКИЙ ФОРМАТ ДАННЫХ
ПОЛУШИРОКИЙ ФОРМАТ ДАННЫХ
УЗКИЙ ФОРМАТ ДАННЫХ
Уменьшение объема информации Типы переменных • Количественные (интервальные) – возможны все математические операции • Дискретные (что то в штуках) • Непрерывные (возраст, АД, пульс) • Порядковые (ординальные) (стадия заболевания) - можно сказать что больше-меньше • Категориальные (качественные, номинальные) (цвета, группа крови) • Бинарные (выжил/умер, да/нет)
Для количественных переменных характерны выбросы данных Oops!
Тип шкалы: интервальная Тип шкалы Интервальная (измерение) Примеры АД, ЧСС, t°C, возраст. . . Описательные статистики Среднее арифметическое, показатели дисперсии: стандартное отклонение Оценки Среднее арифметическое + ст. ошибка среднего Тесты (inferential statistics) Зависят от характера распределения Сравнение 1 группы с гипотетическим значением Тест Вилкоксона/t-тест для одной выборки Сравнение 2 не связанных совокупностей Тест Манн-Уитни/t-тест для несвязанных совокупностей Сравнение 2 связанных совокупностей Тест Вилкоксона/t-тест для связанных совокупностей Сравнение 3 и более несвязанных Тест Крускала-Уоллеса/1 -way совокупностей ANOVA (дисперсионный анализ)
Тип шкалы: ординальная Тип шкалы Ординальная (порядковая) Примеры Функциональный класс заболевания, оценка, опросник и т. п. Описательные статистики Медиана, процентили, МКР Оценки Медиана + 95% доверительный интервал для медианы Тесты (inferential statistics) Сравнение 1 группы с гипотетическим значением Тест Вилкоксона Сравнение 2 не связанных совокупностей Тест Манн-Уитни Сравнение 2 связанных совокупностей Тест Вилкоксона Сравнение 3 и более несвязанных совокупностей Тест Крускала-Уоллеса
Тип шкалы: номинальная Тип шкалы Номинальная (шкала категорий) Примеры Пол, раса и т. п. Описательные статистики Абсолютные частоты, доли в % в группе, мода Оценки Доля (в %) + 95% доверительный интервал Тесты (inferential statistics) Сравнение 1 группы с гипотетическим значением Тест хи-квадрат или биноминальный тест Сравнение 2 не связанных совокупностей Χ 2 тест, точный критерий Фишера Сравнение 2 связанных совокупностей Тест Мак-Неймера Сравнение 3 и более несвязанных совокупностей Χ 2 тест
Boxplot of Political Bent (0=Most Conservative, 100=Most Liberal) maximum (100) interquartile range (IQR) = 85 – 68 = 17 “outliers” 75 th percentile (85) median (78) 25 th percentile (68) Q 1 – 1. 5 * IQR = 68 – 1. 5 * 17 = 42. 5 minimum (27)
Y-axis: The percent of observations that fall within each bin. Histogram of Exercise Bins of size = 2 hours/week
Формы распределения Скошенное Симметричное влево Скошенное вправо
Нормальное распределение 68% данных 95% данных 99. 7% данных
Нормальное распределение
Описательные статистики: меры центральной тенденции среднее арифметическое (+ уникальность, + простота расчета, - зависимость от экстремальных значений) медиана – значение, которое делит ряд данных пополам (+ уникальность, + простота расчета, + малая зависимость от экстремальных значений, - интерпретация) медиана=52 50 50 50 52 52 53 медиана =2 мода – наиболее часто встречающееся значение
Среднее Пример: 17 19 21 22 23 23 23 38
Mean= 11. 4 hours/week Точка равновесия
Выбросы Mean= 2. 9 drinks/week
МЕДИАНА • Значение в середине распределения Расчет: • Среднее если нечетное число • Среднее между двумя средними числами если четное.
30 25 Mean=-18. 5 pounds 20 Median=-19 pounds P e r c 15 e n t 10 5 0 -30 -25 -20 -15 -10 -5 0 Weight change 5 10 15 20
30 25 Mean=-34. 5 pounds 20 Median=-4. 5 pounds P e r c 15 e n t 10 5 0 -300 -280 -260 -240 -220 -200 -180 -160 -140 -120 -100 -80 -60 Weight Change -40 -20 0 20
Меры разброса данных Меры рассеяния показывают, насколько хорошо данные значения представляют данную совокупность • Размах • Стандартное отклонение • Перцентили • Межквартильный размах (IQR)
Дисперсия Теряем степень свободы так как уже посчитали среднее! Стандартное отклонение
Mean = 15 S = 0. 9 Mean = 15 S = 3. 7 Mean = 15 S = 5. 1
Стандартное отклонение и стандартная ошибка среднего • Отклонение – это разброс данных • Ошибка – оценка истинного значения параметра, который рассчитывается ИСКУССТВЕННО НЕ ПУТАТЬ!
Межквартильный размах • Межквартильный размах = 3 -й квартиль – 1 -й квартиль • Средние 50% данных • Выбросы не влияют!
Окно свойств переменных SPSS
Удобно для категориальных переменных
Для категориальных переменных – не нужно
Окно вывода - статистики
Окно вывода - графики
Статистики для количественных переменных, но есть более удобное окно
Стандартизованное Z-значение 1. Ответ на вопрос «как далеко от среднего находится данное значение» , выраженный в относительных (стандартизованных) единицах; 2. Зная m и s, каждое значение х может быть преобразовано в значение z, и на основании таблиц площади под стандартизованной нормальной кривой; 3. В результате возможно ответить на вопрос «какова вероятность наблюдать подобное (или меньшее) значение x в совокупности с данными характеристиками (m и s).
Оценка среднего по выборочному среднему Приблизительно 95% получаемых x будут находится в пределах 2 стандартных отклонений от среднего полученных выборочных средних, этот интервал будет ограничен: Поскольку µ и µx неизвестны по условиям задачи, x используется в качестве точечной оценки µ, и 95% построенных интервалов будут содержать µ. В общем случае доверительный интервал: Z-значение в данном случае называется коэффициент надежности (reliability coefficient), а закрашенная площадь 1 -α – доверительный уровень (confidence level)
Общая формула для оценки интервала •
Интерпретация доверительных интервалов На примере 95% ДИ для среднего: • Интервальная оценка μ вычисляется по формуле: • Если α=0. 05, мы можем сказать, что при повторном отборе выборки, 95% полученных интервалов будут включать μ. Это заключение основано на вероятности получения различных значений x.
Доверительные интервалы • Многими незаслуженно относятся к описательной статистике • ДИ – численный интервал, построенный вокруг оценки параметра по определенной методике • В силу этого он характеризует, в первую очередь, методику • Во вторую очередь он характеризует данные • В последнюю очередь – параметры популяционного показателя
Исследователь Петрик рапортует: 95% доверительный интервал для среднего 0, 1 -0, 4! Robust misinterpretation of confidence intervals. Hoekstra R 1, Morey RD, Rouder JN, Wagenmakers EJ. Psychon Bull Rev. 2014 Jan 14.
Какие из приведенных утверждений верны: 95% ДИ 0, 1 -0, 4! 1. Вероятность, что истинное (популяционное) среднее больше 0, как минимум, 95% 2. Вероятность, что истинное среднее равно 0 меньше 5% 3. Нулевая гипотеза, что истинное среднее равно 0, вероятно, будет отвергнута 4. С 95% вероятностью истинное среднее находится между 0, 1 и 0, 4 5. Мы можем быть на 95% уверены, что истинное среднее находится между 0, 1 и 0, 4 6. Если бы мы повторяли эксперимент снова и снова, 95% времени истинное среднее находилось бы в интервале 0, 1 – 0, 4
Доверительные интервалы: ответы 1. Вероятность, что истинное (популяционное) среднее больше 0, как минимум, 95% 2. Вероятность, что истинное среднее равно 0 меньше 5% • Присвоение вероятности параметру 3. Нулевая гипотеза, что истинное среднее равно 0, вероятно, неверна • Присвоение вероятности гипотезе 4. С 95% вероятностью истинное среднее находится между 0, 1 и 0, 4 • Присвоение вероятности параметру 5. Мы можем быть на 95% уверены, что истинное среднее находится между 0, 1 и 0, 4 6. Если бы мы повторяли эксперимент снова и снова, 95% времени истинное среднее находилось бы в интервале 0, 1 – 0, 4 • Утверждение относительно границ истинного среднего 7. Если бы мы повторяли эксперимент снова и снова, 95% времени (в 95% случаев) доверительные интервалы содержали бы истинное среднее
Хранение данных. Описательная статистика_new_11_05_17.pptx