Випадкова величина.ppt
- Количество слайдов: 31
ВИПАДКОВА ВЕЛИЧИНА, ЇЇ РОЗПОДІЛ Незалежні випадкові події - це таки події, для котрих настання однієї з них ніяк не впливає на імовірність настання іншої. Незалежні випадкові величини це такі величини, які є результатом незалежних випадкових подій. Випадкові величини – дискретні, безперервні Розподіл – це відповідність, або залежність між значеннями хi випадкової величини (X) й ймовірностями їхньої реалізації (абсолютними частотами) pi. Для дискретної величини X={xi}, i=1…N: pi=f(xi), i=1…N, причому Функція розподілу — це функція F(х), яка задає імовірність того, що випадкова величина X в дослідженні прийме значення менше х: F(х) = p(Х<х), F(х)≤ 1 Щільність розподілу – це похідна від функції розподілу: f(x)=F´(x)
РОЗПОДІЛ ВИПАДКОВОЇ ВЕЛИЧИНИ Таблиця розподілу випадкової величини Х Функція розподілу дискретної випадкової величини Х 1 3 4 8 pi Багатокутник розподілу дискретної випадкової величини Х xi 0, 2 0, 3 0, 4 0, 1
ЗАКОНИ РОЗПОДІЛУ ВИПАДКОВИХ ВЕЛИЧИН Емпіричний закон розподілу – отриманий експериментальним шляхом Теоретичні закони розподілу: Гауса, Ст‘юдента, Фішера, хі-квадрат Пірсона, біноміальний, Пуасона. Методи завдання законів розподілу Табличний – варіаційні ряди; Графічний - гістограма; Аналітичний - формула.
ХАРАКТЕРИСТИКИ ВИПАДКОВОЇ ВЕЛИЧИНИ 1) Характеристики положення: Середнє арифметичне Мода - значення випадкової величини (спостереження), яке найбільш часто зустрічається. Медіана - значення випадкової величини (спостереження), зліва і справа від якого однакова кількість значень цієї величини. 2) Характеристики розсіяння Дисперсія Середнє квадратичне відхилення Квантіль : квартиль (Q 25%, Q 75%), деціль, центіль
НОРМАЛЬНИЙ ЗАКОН РОЗПОДІЛУ (ГАУСА)
ОСНОВНІ ВЛАСТИВОСТІ ЗАКОНУ НОРМАЛЬНОГО РОЗПОДІЛУ 1. Рівність числових характеристик М=Мо=Ме, максимум щільності розподілу припадає на середнє арифметичне, і спостерігається симетричність відхилень від середнього 2. Малі відхилення від середнього більш ймовірні, великі – менш ймовірні, практичні межи відхилень від середнього ± 3σ (ймовірність 99, 9%) Для представлення значень випадкової величини у стандартному вигляді, тобто для приведення будь яких перемінних до одного діапазону використовується нормоване відхилення:
ОСНОВНІ ПОНЯТТЯ СТАТИСТИЧНОГО АНАЛІЗУ Предметом статистичного дослідження служить статистична сукупність, або множина біологічно однорідних одиниць, що розрізняються індивідуально, які поєднуються для вивчення деякої ознаки. Варіанти, або дані - окремі одиниці вимірювання, отримані на окремому об’єкті, що входять до складу статистичної сукупності. Статистичний комплекс - статистична сукупність, що створена з декількох ознакак і складається з декількох однорідних груп. Розміри статистичного комплексу (таблиці) – дорівнюють n·(k+l), n в 3… 5 разів більше (k+l). Шкали вимірів: шкала класифікації (найменувань); шкала порядку; шкала інтервалів; шкала відносин.
Типи даних Некількісні Кількісні (числові) Д и с к р е т н і Б е з п е р в н і Номінальні (атрибутивні) Бінарні Порядкові (ранговані)
ВИДИ ОЗНАК Параметричні – підпорядковуються нормальному закону Характеристики положення: Xср, Mo, Me Характеристики розсіяння: σ, σ2 Непараметричні – не підпорядковуються нормальному закону Характеристики положення: Mo, Me Характеристики розсіяння: Q 25%, Q 75%
ВИБІРКОВИЙ ПІДХІД Генеральна сукупність - статистична сукупність, що сформована на усієї популяції однорідних об’єктів дослідження. Вибірка – частина генеральної сукупності. Умови репрезентативності вибірки 1. Типовість об’єктів – використання рандомізованого підходу. 2. Достатність обсягу. Ціль вибіркового дослідження полягає у виявленні деяких закономірностей на вибірці і подальшій екстраполяції отриманих результатів на всю генеральну сукупність (популяцію) із певною ймовірністю, яка називається довірчою. Етапи вибіркового дослідження • • Формування репрезентативного вибіркового матеріалу (збір емпіричних даних), складання таблиць та баз даних. Проведення статистичного аналізу даних відповідно до мети та завдань дослідження
ЕТАПИ СТАТИСТИЧНОГО АНАЛІЗУ Первинна статистична обробка даних (результатів досліджень): опис групи (вибірки) об'єктів дослідження, тобто побудова статистичних рядів розподілу ознак, визначення емпіричного розподілу ознаки, оцінювання відповідності емпіричних розподілів теоретичним законам, статистична оцінка параметрів розподілу; Статистичний аналіз даних (результатів досліджень): дослідження впливовості факторів на ознаку, оцінка значущості різниці між однорідними ознаками; дослідження взаємозв'язків між ознаками (складається з перевірки статистичних гіпотез).
ПЕРЕВІРКА СТАТИСТИЧНИХ ГІПОТЕЗ Нульова гіпотеза Н 0 - гіпотеза про значення параметрів, або про відсутність розходжень між групами, або про відповідність розподілу до нормального (деякого іншого теоретичного) закону; Альтернативна гіпотеза Н 1 — гіпотеза про існування розходжень між групами, або про параметри, що відрізняються від заданих значень, чи про невідповідність розподілу до нормального (деякого іншого теоретичного) закону. У результаті перевірки статистичних гіпотез можуть виникати наступні похибки: Н 0 - вірна (розходжень між групами нема), але помилково відхилена відповідно до статистичного критерію (помилково доведена статистична значущість розходження) — похибка першого роду (α-похибка); Н 0 - не вірна (розходження між групами є), але помилково не відхилена відповідно до статистичного критерію (не доведена статистична значущість розходження) — похибка другого роду (β-похибка).
РІВЕНЬ СТАТИСТИЧНОЇ ЗНАЧУЩОСТІ Ймовірність допустити помилку першого роду, тобто відхилити вірну 0 гіпотезу, коли насправді вона вірна, називається рівнем статистичної значущості (α). Цей рівень обирається дослідником або як максимально прийнятний для нього, або як загально прийнятий. Звичайно прийнято три рівня значущості: α={0, 05; 0, 01; 0, 001}, які відповідають значенням довірчої ймовірності: Р= {0, 95; 0, 999}. У ході застосування статистичного методу обчислюються значення тестової статистики – критеріальні числа, наприклад: Ст′юдента – t; χ2 – Пірсона - χ2; Фішера - Fi
ПЕРЕВІРКА СТАТИСТИЧНИХ ГІПОТЕЗ Для перевірки статистичних гіпотез використовують дві методики. 1. Порівняння розрахованого критеріального числа із критичним значенням відповідного критерію, яке визначається за допомогою функції розподілу для заданих рівня статистичної значущості (як правило рα=0, 05) і кількості ступенів свободи (df). Якщо розраховане критеріальне число більше критичного, то то нульову гіпотезу Н 0 відхиляють, при цьому варто прийняти альтернативну гіпотезу Н 1. 2. - Порівняння отриманого значення рα із прийнятим рівнем значущості: якщо розраховане в статистичному тесті значення рα виявляється більше прийнятого (на розсуд дослідника) рівня значущості (звичайно 0, 05), то нульову гіпотезу Н 0 не відхиляють, а розходження груп називаються статистично незначущі. - якщо ж значення рα виявляється менше рівня значущості, то нульову гіпотезу Н 0 відхиляють, при цьому варто прийняти альтернативну гіпотезу Н 1.
ДОВІРЧІЙ ІНТЕРВАЛ Довірчий інтервал (ДІ) - це інтервал значень ознаки, розрахований для якого-небудь параметра (наприклад, середнього значення ознаки, коефіцієнту кореляції) по вибірці із визначеною довірчою ймовірністю (наприклад, 95%), що включає істинне значення цього параметру у всій генеральній сукупності. Якщо генеральне середнє оцінюється за значенням середнього вибірки, розподіл якої підпорядковується нормальному закону, то 95%-ий довірчій інтервал популяційного (генерального) середнього відповідно буде:
КЛАСИФІКАЦІЯ МЕТОДІВ СТАТИСТИЧНОГО АНАЛІЗУ Методи Задача Виконання описової статистики Параметричні для кількісних нормально розподілених ознак Обрахування середніх , середніх квадратичних відхилень і т. п. Непараметричні для кількісних ознак незалежно від виду розподілу, а також для некількісних (порядкових або номінальних) ознак Обрахування медіан і інтерквартільних интервалів, пропорцій Методи однофакторного аналізу Порівняння двох непов’язаних груп за однією ознакою t-критерій Ст′юдента для непов’язаних вибірок Критерії Манна— Уїтні, Колмогорова-Смірнова, Вальда. Вольфовіца, χ2, точний критерій Фішера Порівняння двох пов’язаних груп за однією ознакою t-критерій Ст′юдента для пов’язаних вибірок Критерій Вілкоксона, критерій знаків, критерій Мак. Немара Порівняння трьох і більше незалежних груп за однією ознакою ANOVA по Краскелу- Уоллісу, медіанній критерій, критерій χ 2 Порівняння трьох залежних груп і більше за однією ознакою Критерій Кохрена* ANOVA по Фрідмену, критерій Кохрена Аналіз взаємозв’язку двох ознак Кореляційний аналіз за Пірсоном Критерій χ2, кореляційний аналіз за Спірменом, Кендаллом, гамма та ін. Методи багатофакторного аналізу Одночасний аналіз трьох і більше ознак Множинна кореляція, Регресійний аналіз, Дискримінантний аналіз, Факторний аналіз, Кластерний аналіз Логістичний регресійний аналіз, логлінійний аналіз, аналіз деревовідних діаграм, аналіз кон′юнкцій та ін.
СТАТИСТИЧНИЙ АНАЛІЗ КІЛЬКІСНИХ ОЗНАК Наукова задача - визначення впливовості фактора на кількісну ознаку Статистична задача - Порівняння двох вибірок за кількісною ознакою Використовуються два підходи : 1) шляхом перевірки статистичних гіпотез; 2) з використанням ДІ середніх порівнюваних груп або ДІ різниці середніх Вибір придатного методу порівняння, визначається декількома факторами: — видом розподілу ознак; — пов’язаністю чи непов’язаністю вибірок (груп) — числом груп, що зіставляються
ПОРІВНЯННЯ ДВОХ ВИБІРОК Параметричні методи t-критерій Ст’юдента Н 0 - середні значення ознаки в двох порівнюваних групах (наприклад, контрольна і експериментальна) не відрізняються, впливовість фактору не можна вважати статистично значущою , n 1, σ12, σ1 , n 2, σ2 Послідовність перевірки статистичної значущості 1. Розрахунок критеріального числа Ст’юдента за формулою: 2. Визначення ймовірності 0 -гипотези за розподілом Ст’юдента рα(t, df), де df – кількість ступенів свободи розраховується в залежності дисперсій порівнюваних вибірок.
РОЗРАХУНОК ПОХИБКИ РІЗНИЦІ СЕРЕДНІХ ВИБІРКОВИХ 1. Вибірки непов’язані: Обсяги вибірок Співвідношення дисперсій σ12=σ22 σ12≠σ22 n 1 = n 2= n n 1≠ n 2 2. Вибірки пов’язані: Довірчій інтервал різниці двох середніх Довірчій інтервал різниці двох генеральних показників D=|M 1 -M 2| :
Порівняння двох вибірок Непараметричні методи 1. Вибірки непов’язані: Критерій Манна-Уїтні (U-критерій Вілкоксона-Манна-Уїтні) Найбільш міцний непараметричний критерій. Вимоги: 1)дисперсії вибірок повинні бути рівними; 2) не повинно бути багато співпадаючих значень. Критерій серій Вальда-Вольфовіца (S) Використовують для великих вибірок, може бути багато співпадаючих значень Двовибірковий критерій Колмогорова—Смірнова (d ) Критерій можна використовувати і для невеликих вибірок 2. Вибірки пов’язані: Критерій знаків Z Мало міцний метод, рекомендований для первинної обробки даних Т-критерій Вілкоксона для пов’язаних вибірок Більш міцний, але він використовується тільки для змінних, що вимірюються в шкалі відносин.
АЛГОРИТМ ПОРІВНЯННЯ ДВОХ ГРУП ЗА КІЛЬКІСНОЮ ОЗНАКОЮ Розподіл обох ознак відповідає нормальному закону (χ2) рα>0, 05 рα≤ 0, 05 Параметричні методи Непараметричні методи Вибірки пов’язані нет да да нет Дисперсії вибірок рівні (Fi) рα≤ 0, 05 Парний tкритерій рα>0, 05 t-критерій для двох вибірок із різними дисперсіями Критерії Манна-Уїтні, Вальда. Вольфовіца, Колмогорова. Смірнова t-критерій для двох вибірок із рівними дисперсіями рα≤ 0, 05 Групи різні рα>0, 05 Групи однакові Критерії знаків, Вілкоксона
СТАТИСТИЧНИЙ АНАЛІЗ НОМІНАЛЬНИХ ОЗНАК Описова статистика: 1. Мода (Мо), тобто типове значення номінальної зустрічається найбільш часто у даній вибірці; 2. Абсолютні та відносні частоти. Відносна частота. - у частках одиниці - у відсотках: - у проміле: 100%; і=1, …, k 1000‰, і=1, …, k. ознаки, яке
ПОРІВНЯННЯ ГРУП ЗА НОМІНАЛЬНОЮ ОЗНАКОЮ Наукова задача - визначення впливовості фактора на некількісну ознаку Статистична задача - Порівняння двох вибірок за номінальною ознакою Таблиця спряженості Ознака Фактор Σ X 1 … Xj … Xl Y 1 m 11 … m 1 j … m 1 l n 1 … … … … Yi mi 1 … mij … mil ni … … … … Yk mk 1 … mkj … mkl nk Σ m 1 … mj … ml N де Yi, – можливі значення номінальної ознаки, i=1, …, k, k – кількість значень ознаки, Xj, - значення фактору, j=1, . . . , l, l - кількість значень фактору, mіj - абсолютні частоти, ni, mj - маргінальні частоти (суми абсолютних частот) відповідно по рядках та стовпчиках, i=1, …, k, j=1, . . . , l, N – загальна кількість досліджень.
ПОРІВНЯННЯ ГРУП ЗА НОМІНАЛЬНОЮ ОЗНАКОЮ Н 0 - зміна фактора Х не змінює ознаку Y, тобто розподіли частот в групах не розрізняються. Перевірка проводиться за критерієм χ2 Пірсона: де очікувана абсолютна частота, тобто ті значення абсолютних частот, яки були б в випадку відсутності впливу фактору на ознаку. Умови коректності критерію χ2: ≥ 5 За умови р (χ2, df=(k-1)(l-1))≤ 0, 05, Н 0 спростовується, тобто фактор змінює ознаку При порівнянні двох чи більше груп за порядковою (ранговою ознакою) звертаються також до критерію χ2 або до методів непараметричної статистики
СТАТИСТИЧНИЙ АНАЛІЗ БІНАРНИХ ОЗНАК Описова статистика: Розподіл бінарної ознаки 1 0 Всього m n-m n Середнє арифметичне : у абсолютному вигляді (абсолютна частота): у частках (відносна частота): у відсотках (розповсюдженість) у проміле:
СТАТИСТИЧНИЙ АНАЛІЗ БІНАРНИХ ОЗНАК Описова статистика: Показники варіації У абсолютних величинах: У частках: У відсотках: У проміле: Похибка вибіркового середнього При m=0, або m=n, треба використовувати поправку Ван дер Вардена:
ДОВІРЧИЙ ІНТЕРВАЛ ЧАСТКИ При виконанні умов: де df=(n-1) - кількість ступенів свободи, 1/2 n – поправка на безперервність, яка компенсує помилку, що виникає при заміні біноміального розподілу нормальним При p>0, 75, або p<0, 25 (особливо для n<30) використовують методику - Фішера
ПОРІВНЯННЯ ДІ ВИБІРКОВОЇ ЧАСТКИ ІЗ ПОПУЛЯЦІЙНИМ ЗНАЧЕННЯМ 1. Якщо популяційна (генеральна) частка задана просто числом (наприклад, 24%), то перевіряється, чи попадає вона у ДІ95% вибіркової частки, чи ні 2. Перевірка 0 -гіпотези Якщо z≥ 1, 96, або pα(z)≤ 0, 05, то нуль-гіпотеза відхиляється, тобто вибіркова частка статистично значимо відрізняється від генеральної, і відповідно вибірка не належить до генеральної сукупності
ПОРІВНЯННЯ ГРУП ЗА БІНАРНОЮ ОЗНАКОЮ Усі задачі аналізу бінарних ознак в клінічній практиці зводяться до наступних задач : - Порівняння двох часток в межах однієї групи. - Порівняння часток у двох групах. - Порівняння абсолютних частот бінарної ознаки у двох непов’язаних групах. - Порівняння абсолютних частот бінарної ознаки у двох пов’язаних групах. - Порівняння абсолютних частот бінарної ознаки у трьох і більше непов’язаних групах. Вирішити ці задачі можна трьома способами: 1. Порівняти ДІ95% відносних частот. Треба розрахувати ДІ95% для кожної з порівнюваних відносних частот. Якщо інтервали не перетинаються, то частоти з рівнем статистичної значущості меншим за 0, 05 розрізняються. 2. Побудувати ДІ95% різниці порівнюваних відносних частот. Якщо він не містить 0, то частоти з рівнем статистичної значущості меншим за 0, 05 розрізняються. 3. Перевірка 0 -гіпотези про рівність відносних частот.
ПОРІВНЯННЯ ГРУП ЗА БІНАРНОЮ ОЗНАКОЮ Побудова ДІ різниці порівнюваних часток при dp≥ 25% dp<25% - методика φ– Фішера Розрахунок md і df залежить від рівності обсягів вибірок 1. При n 1 =n 2. При n 1 ≠n 2 df =n-1, df = n 1 +n 2 -2,
ПОРІВНЯННЯ ГРУП ЗА БІНАРНОЮ ОЗНАКОЮ Порівняння абсолютних частот бінарної ознаки у двох непов’язаних групах Послідовність перевірки статистичної значущості впливу фактору на ознаку 1. Побудова таблиці спряженості (чотирипільної таблиці). 2. Побудова таблиці очікуваних частот, вибір критерію статистичної значущості. 3. Розрахунок значення критерію. Критерій 2 Пірсона 4. Визначення рівня статистичної значущості (очікувані частоти більше 5) Для N≥ 100 Чотирипільна таблиця спряженості Є ефект (є покращення) Нема ефекту (нема покращення) Всього Фактор діє (експериментальна) A=m 1 B=n 1 -m 1 A+B=n 1 Фактор не діє (контрольна) C=m 2 D=n 2 -m 2 C+D=n 2 B+D A+B+C+D =n 1+n 2=N Групи Всього A+C Для N<100 вноситься поправка Йєтса Точний критерій Фішера (очікувані частоти менше 5) В випадку рα(χ2, df=1)≤ 0, 05 нуль-гіпотеза, за якою групи (розподіли ознаки в групах) не відрізняються, спростовується, і групи можна вважати різними


