
ОБС_07_2013.ppt
- Количество слайдов: 52
ОБС 7 ОСНОВЫ БИОСТАТИСТИКИ http: //www. hydrobiology. spb. ru БИБЛИОТЕКА Biostat-1 Biostat-2 Biostat-3 Biostat-4 Biostat-5 Biostat-6 Biostat-7 Фото: Risto Vainola
СТАТИСТИЧЕСКИЕ КРИТЕРИИ ПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ - критерии, которые включают в расчет параметры вероятностного распределения признака (средние и дисперсии. . . Параметрические критерии предполагают, что выборка порождена распределением из заданного параметрического семейства. В частности, существует много критериев, предназначенных для анализа выборок из нормального распределения. Преимущество этих критериев в том, что они более мощные. Однако если выборка не удовлетворяет дополнительным предположениям, то вероятность ошибок (как I, так и II рода) может резко возрасти. НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ - критерии, которые не включают в расчёт параметры вероятностного распределения и основаны на оперировании частотами или рангами. Они построенные на основании функций, зависящих непосредственно от вариант данной совокупности с их частотами, и свободны от предположения о виде распределения. Непараметрические критерии не опираются на дополнительные предположения о распределении. В частности, к этому типу критериев относится большинство ранговых критериев.
при согласии с H 0 наиболее вероятное значение нижняя критическая область верхняя критическая область Область Согласия с Н 0 вероятность односторонний критерий двухсторонний критерий односторонний критерий
СТАТИСТИЧЕСКИЙ КРИТЕРИЙ МОЩНОСТЬ КРИТЕРИЯ Тк ОШИБКА 1 РОДА (α) 0 Тк ОШИБКА 2 РОДА (β) Т 0
Исследователи стремятся работать с низкими уровнями значимости и мощными статистическими критериями, чтобы повысить шансы получения надежных выводов 1. Уровень значимости не выше 0, 05 (a<0, 05) 2. Хорошо спланированное исследование с: - с направленной альтернативной гипотезой (строим односторонний критерий); - большим объемом выборки; - значительной величиной эффекта (большая дистанция между сравниваемыми величинами).
P=0, 95 a<0, 05 P- value или критическая область (a<0, 05)? ! Statistica
КРИТЕРИЙ СТЬЮДЕНТА НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ СТЬЮДЕНТА. m вместо s В 1908 г. В. Госсет нашёл распределение величины William Gosset С – константа, зависящая только от степени свободы
Открытый Стьюдентом в 1908 г. закон t-распределения теоретическое обоснование нашел в трудах Р. Фишера только в 40 -х годах ХХ-го столетия. Таким образом был создан широко известный параметрический t-критерий. Или Критерий Стьюдента Ronald Aylmer Fisher 1890 - 1962
При увеличении объема выборки (при n 30) t-распределение быстро приближается к нормальному с параметрами =0, =1, т. е. стандартной кривой нормального распределения
ПРИНЦИПЫ ПОСТРОЕНИЯ КРИТЕРИЯ СТЬЮДЕНТА Следовательно, различия М 1 и М 2 случайны < 0. 05 1. т. е. М 1<>M 2 Строим двухсторонний t-критерий
При справедливости Н 0 с вероятностью Р=1 -0. 05 должна попасть в интервал
0, 025 0, 95 0. 5 0, 025 0. 2 Достаточное условие Н 1: М 1> M 2 0. 1 0. 05 0. 02 0. 01 0. 001 1 1. 000000 3. 077684 6. 313752 12. 70620 31. 82052 63. 65674 636. 6192 2 0. 816497 1. 885618 2. 919986 4. 30265 6. 96456 9. 92484 31. 5991 3 0. 764892 1. 637744 2. 353363 3. 18245 4. 54070 5. 84091 12. 9240 4 0. 740697 1. 533206 2. 131847 2. 77645 3. 74695 4. 60409 8. 6103 5 0. 726687 1. 475884 2. 015048 2. 57058 3. 36493 4. 03214 6. 8688 0. 674490 1. 281552 1. 644854 1. 95996 2. 32635 2. 57583 3. 2905
Если то нулевая гипотеза сохраняется при Если то на уровне значимости Н 0 отклоняется, в пользу Н 1 2. АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА Проверяется условие или -
Условие согласия с Но 0, 95 0. 5 0, 05 0. 2 0. 1 0. 05 0. 02 0. 01 0. 001 1 1. 000000 3. 077684 6. 313752 12. 7062 31. 8205 63. 6567 636. 619 2 0. 816497 1. 885618 2. 919986 4. 30265 6. 96456 9. 92484 31. 5991 3 0. 764892 1. 637744 2. 353363 3. 18245 4. 54070 5. 84091 12. 9240 4 0. 740697 1. 533206 2. 131847 2. 77645 3. 74695 4. 60409 8. 6103 5 0. 726687 1. 475884 2. 015048 2. 57058 3. 36493 4. 03214 6. 8688 0. 674490 1. 281552 1. 644854 1. 95996 2. 32635 2. 57583 3. 2905
ТЕОРИЯ МАЛЫХ ВЫБОРОК. Согласно нормальному закону для достижения 95% вероятности накрывания доверительным интервалом μ, достаточно соблюдения условия M/m = 1, 96 (M=1, 96 m) Однако при стьюдентеризации это условие не соблюдается Замена квантиля норм. откл. t(z) квантилем критерия Стьюдента t ПРИ N = 60 t = 2. 00 ПРИ N =30 t = 2. 42 ПРИ N = 6 t = 2. 57 ПРИ N = 3 t = 4. 3 ПРИ N = 2 t = 12. 71
Возражения теории малых выборок 1. - теория малых выборок предъявляет слишком строгие требования и часто приводит к тому, что вполне зарекомендовавшие себя методы исследований оказываются опороченными как необоснованные. 2. - теория малых выборок стремиться путем математических операций улучшить качественно негодный материал.
"Arguing with a statistician is like wrestling with a pig. After a few hours, you realize that the pig likes it. " Steve Carlson
Критерий РАСПРЕДЕЛЕНИЕ ХИ-КВАДРАТ Имеются независимые нормально распределенные случайные величины: с мат. ожиданиями и дисперсиями PEARSON, KARL Карл Пирсон (1900) нашел распределение случайных величин где:
Распределение (хи-квадрат) с n степенями свободы — это распределение суммы квадратов n независимых стандартных нормальных случайных величин Свойства распределения хи-квадрат: 1. Величина ПОЛОЖИТЕЛЬНА 2. ПАРАМЕТР РАСПРЕДЕЛЕНИЯ - СТЕПЕНЬ СВОБОДЫ 3. РАСПРЕДЕЛЕНИЕ РЕЗКО АСИММЕТРИЧНО
4. При больших n (порядка 1000) распределение аппроксимируется нормальным законом с 5. Если Из одной генеральной совокупности получены независимые случайные величины: , ИМЕЮЩИЕ РАСПРЕДЕЛЕНИЕ ХИ-КВАДРАТ С ЧИСЛАМИ СТЕПЕНЕЙ СВОБОДЫ. ТОГДА СЛУЧАЙНАЯ ВЕЛИЧИНА РАСПРЕДЕЛЕНА ТАКЖЕ ПО ЗАКОНУ ХИ-КВАДРАТ С ЧИСЛОМ СТЕПЕНЕЙ СВОБОДЫ
плотность вероятности распределения хи-квадрат v=1 v=2 v=3 v=4 v=5 v - число степеней свободы
Критерий МЕРА РАССТОЯНИЯ МЕЖДУ МОДЕЛЬЮ И ЭМПИРИЧЕСКИМ РАСПРЕДЕЛЕНИЕМ Где - - фактическая частота наблюдений, - ожидаемая (теоретическая) частота . . наблюдений, k - число классов. РАСПРЕДЕЛЕНИЕ СТАТИСТИКИ ДОВОЛЬНО БЛИЗКО АППРОКСИМИРУЕТСЯ РАСПРЕДЕЛЕНИЕМ
Пример: оценка согласия модели с эмпирическим распределением f 20 15 10 5 ПРОВЕРЯЕТСЯ УСЛОВИЕ СОГЛАСИЯ С НУЛЕВОЙ ГИПОТЕЗОЙ X
таблицы квантилией распределения хи-квадрат ОДНОСТОРОННИЕ ? df . 995 . 990 . 975 . 950 . 025 . 010 . 005 1 0. 00004 0. 00016 0. 00098 0. 00393 3. 8414 5. 02389 6. 63490 7. 87944 2 0. 01003 0. 02010 0. 05064 0. 10259 5. 9914 7. 37776 9. 21034 10. 59663 3 0. 07172 0. 11483 0. 21580 0. 35185 7. 8147 9. 34840 11. 34487 12. 83816 4 0. 20699 0. 29711 0. 48442 0. 71072 9. 4877 11. 14329 13. 27670 14. 86026 5 0. 41174 0. 55430 0. 83121 1. 14548 11. 071 12. 83250 15. 08627 16. 74960
КРИТЕРИЙ ФИШЕРА (F - СТАТИСТИКА) Распределение Снедекора-Фишера. Имеются 2 независимые случайные Величины , имеющие распределение хи-квадрат с числом степеней свободы, соответственно Тогда George W. Snedecor имеет распределение Снедекора-Фишера, или F- РАСПРЕДЕЛЕНИЕ. Sir Ronald Aylmer Fisher
F - критерий Р. Фишер вывел закон F-распределения в 1924 г. Он показал, что РАЗЛИЧИЯ ГЕНЕРАЛЬНЫХ ДИСПЕРСИЙ ( ) МОЖНО ИССЛЕДОВАТЬ ПО Д. СНЕДЕКОР ДЛЯ СРАВНЕНИЯ ГЕНЕРАЛЬНЫХ ДИСПЕРСИЙ ПРЕДЛОЖИЛ СТАТИСТИКУ
Плотность вероятности распределения Фишера
Изменение формы распределения Фишера при фиксированном значении одного из параметров
Пример: Имеется две выборки из совокупностей нормально распределенных вариант. , СЛЕДОВАТЕЛЬНО различия между и случайны ПРОВЕРЯЕТСЯ УСЛОВИЕ: . (v 1=n 1 -1 и v 2 n 2 -1) Строится односторонний F-критерий
(v 1 = n 1 -1 и v 2 = n 2 -1) 1 2 3 4 5 10 15 20 30 40 50 >∞ 3 10. 13 9. 55 9. 28 9. 12 9. 01 8. 79 8. 70 8. 66 8. 62 8. 59 8. 58 8. 54 4 7. 71 6. 94 6. 59 6. 39 6. 26 5. 96 5. 86 5. 80 5. 75 5. 72 5. 70 5. 63 5 6. 61 5. 79 5. 41 5. 19 5. 05 6 5. 99 5. 14 4. 76 4. 53 4. 39 4. 06 3. 94 3. 87 3. 81 3. 77 3. 75 3. 67 7 5. 59 4. 74 4. 35 4. 12 3. 97 3. 64 3. 51 3. 44 3. 38 3. 34 3. 32 3. 23 8 5. 32 4. 46 4. 07 3. 84 3. 69 3. 35 3. 22 3. 15 3. 08 3. 04 3. 02 2. 93 9 5. 12 4. 26 3. 86 3. 63 3. 48 3. 14 3. 01 2. 94 2. 86 2. 83 2. 80 2. 71 10 4. 96 4. 10 3. 71 3. 48 3. 33 2. 98 2. 85 2. 77 2. 70 2. 66 2. 64 2. 54 15 4. 54 3. 68 3. 29 3. 06 2. 90 2. 54 2. 40 2. 33 2. 25 2. 20 2. 18 2. 07 20 4. 35 3. 49 3. 10 2. 87 2. 71 2. 35 2. 20 2. 12 2. 04 1. 99 1. 97 1. 84 >∞ 1. 04 3. 00 2. 61 2. 37 2. 21 1. 83 1. 67 1. 57 1. 46 1. 40 1. 35 1. 03 4. 74 4. 62 4. 56 4. 50 4. 46 4. 44 4. 36
КРИТИЧЕСКАЯ ОБЛАСТЬ ДЛЯ СЛУЧАЯ
таблицы F-критерия односторонние Таблица F-критерия ОДНОСТОРОННИЙ 1 5 2 3 6. 61 5. 79 5. 41 4 5 5. 19 5. 05 10 15 4. 74 4. 62 30 40 50 >∞ 4. 56 4. 50 4. 46 4. 44 4. 36 20 ВХОД В ТАБЛИЦУ для /2 ДВУСТОРОННИЙ 1 5 2 3 4 5 10 6, 62 15 20 30 40 50 >∞
ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ Статистические методы можно разделить на : 1. Методы оценивания параметров. Важны свойства состоятельности, несмещенности, эффективности оценок. 2. Методы сравнения распределений или оцениваемых параметров, оценка статистической значимости различий. Важны: корректность формулировки нулевой и альтернативной гипотез, выбор критерия и уровня значимости и мощность критерия. 3. Методы классификации, кластеризации, распознования образов, ординации.
He uses statistics as a drunken man uses lamp-posts - for support rather than illumination. Andrew Lan
ОПТИМИЗАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ ДЛЯ ЦЕЛЕЙ СТАТИСТИЧЕСКОГО АНАЛИЗА. Задачу решают в ходе: - АНАЛИЗА ХАРАКТЕРА И ПРИЧИН ВАРЬИРОВАНИЯ ВАРИАНТ; - ПРОВЕРКИ СОМНИТЕЛЬНЫХ ВАРИАНТ и - ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТА ИЛИ РЕЖИМА ПРОБООТБОРА.
ПРОВЕРКА СОМНИТЕЛЬНЫХ ВАРИАНТ ВАРИАЦИОННОГО РЯДА ? 0 1 2 3 4 5 6 7 8 9 10 11
ОБЩАЯ СХЕМА ПОСТРОЕНИЯ КРИТЕРИЯ: Н 0 : сомнительная варианта вместе с другими принадлежат к одной и той же генеральной совокупности и, следовательно, наблюдаемые отклонения крайних вариант от центра вариационного ряда случайны. Н 1 - варианта относится к другой генеральной совокупности. Н 1 формулируется в зависимости от положения проверяемой варианты в вариационном ряду: Критерий строится как односторонний тест
Непараметрические критерии. 1. По разности между сомнительными и соседними вариантами. Для ПРОВЕРЯЕТСЯ УСЛОВИЕ: N - критерий принадлежности максимальной варианты к совокупности, XN - максимальная варианта, XN-1 - варианта, следующая перед максимальной, X 2 - варианта, стоящая в рядом с Для ПРОВЕРЯЕТСЯ УСЛОВИЕ: X 1 - минимальная варианта. Квантили критерий табулированы в специальных таблицах. Вход в таблицу по и
2. По величине среднего квадратического отклонения Статистика критерия: Квантили критерий табулированы в специальных таблицах. Вход в таблицу по и Таблица 2 Па “Критических значений разности между двумя крайними вариантами совокупности” (Зайцев, 1984).
3. Нормальное распределение вариант Строим наиболее мощный параметрический критерий t - нормированное отклонение: ПРОВЕРЯЕТСЯ УСЛОВИЕ: t = |(Xi-M)/s| =tst. Квантили критерий табулированы в специальных таблицах. Вход в таблицу по и
доверительный интервал средней А. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ СРЕДНЕЙ АРИФМЕТИЧЕСКОЙ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ (n>30) Н 0: Средняя относится к генеральной совокупности и, следовательно, различия между средней вариационного ряда и генеральной средней случайны. t - нормированное отклонение стандартной нормальной кривой для выбранной доверительной вероятности (при а<=0, 05 t=1, 96) Н 1: Средняя не принадлежит генеральной совокупности
доверительный интервал средней МАЛЫЕ ВЫБОРКИ tэ – критерий Cтьюдента 95% двухсторонний или односторонний интервал РАСПРЕДЕЛЕНИЕ НЕИЗВЕСТНО Симметричный доверительный интервал можно построить по неравенству Чебышёва:
доверительный интервал средней НЕСИММЕТРИЧНЫЙ ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ
доверительный интервал средней 1 - трансформации вариант в lg 2 – построение симметричного доверительного интервала для преобразованной выборки 3 – построение несимметричного доверительного интервала для восстановленных показателей выборки , нижняя граница верхняя граница - где M’ и m. M’ - средняя и ошибка средней преобразованного вариационного ряда.
доверительный интервал средней РАСПРЕДЕЛЕНИЕ ПУАССОНА (95% доверительный интервал) левая граница - tл = правая граница - tп = tп. 950 . 025 . 010 . 005 0. 00004 0. 00016 0. 00098 0. 00393 3. 8414 5. 02389 6. 63490 7. 87944 2 0. 01003 0. 02010 0. 05064 0. 10259 5. 9914 7. 37776 9. 21034 10. 59663 3 0. 07172 0. 11483 0. 21580 0. 35185 7. 8150 9. 348 11. 34487 12. 83816 4 0. 20699 0. 29711 0. 48442 0. 71072 9. 4877 11. 14329 13. 27670 14. 86026 5 0. 41174 0. 55430 0. 831 1. 14500 11. 071 12. 83250 15. 08627 16. 74960 vP . 995 1 . 975 tл . 990 0. 415 (М=1, 5) 4. 675
доверительный интервал средней ОДНОСТОРОННИЙ ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ Квантили распределения критерия Стьюдента следует брать из графы αх2
доверительный интервал средней t В таблице выбираем: двусторонний односторонний 95% доверительный интервал
Доверительный интервал вариансы и среднего квадратического отклонения Н 0: генеральный параметр накрывается доверительным интервалом, и отклонения S 2 от 2 случайны. Н 1: генеральный параметр не накрывается доверительным интервалом , А. нижняя граница - верхняя граница - -квантиль критерия Стьюдента для выбранного
Б. Теорема Фишера подчиняется распределению с числом степеней свободы При поостроении 95% дов. интервала варианса накрывается интервалом нижняя ВЕРХНЯЯ ГРАНИЦА. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ СРЕДНЕГО КВАДРАТИЧЕСКОГО ОТКЛОНЕНИЯ ОЦЕНИВАЕТСЯ ПО ПОДКОРЕННЫМ ВЫРАЖЕНИЯМ ДОВЕРИТЕЛЬНЫХ ГРАНИЦ ВАРИАНСЫ
доверительный интервал средней Что значит, построить 95% доверительный интервал? Mi Mi
1 2 3 4 к
ОБС_07_2013.ppt