БИОМЕТРИЯ ЗАНЯТИЕ 4 АНАЛИЗ РАСПРЕДЕЛЕНИЯ ЭМПИРИЧЕСКИХ ДАННЫХ ОПРЕДЕЛЕНИЯ:
БИОМЕТРИЯ ЗАНЯТИЕ 4 АНАЛИЗ РАСПРЕДЕЛЕНИЯ ЭМПИРИЧЕСКИХ ДАННЫХ
ОПРЕДЕЛЕНИЯ: Ранжированный вариационный ряд представляет собой ряд распределения. Под Распределением признака понимается соотношение между его значениями, ранжированными в порядке возрастания или убывания величин, и их частотой встречаемости в выборке.
Полигон распределения размеров Serripes groenlandicus на песчаном пляже. По оси абсцисс - варианты, по оси ординат - частоты вариант. Кривая распределения частот б/интервального вариационного ряда. По оси абсцисс - варианты, по оси ординат - частоты вариант.
ОПРЕДЕЛЕНИЕ: ЗАКОН РАСПРЕДЕЛЕНИЯ СЛУЧАЙНЫХ ВЕЛИЧИН. Функция f(x) , связывающая значения Xi переменной случайной величины X с их вероятностью " P " , называется законом распределения этой случайной величины. Полигон распределения частот размеров Serripes groenlandicus на песчаном пляже. По оси абсцисс - варианты, по оси ординат - частоты вариант.
ЗАКОН БОЛЬШИХ ЧИСЕЛ Формулировка закона: ЧАСТОСТЬ m/n СОБЫТИЯ А БУДЕТ СКОЛЬ УГОДНО БЛИЗКОЙ К ЕГО ВЕРОЯТНОСТИ, ЕСЛИ ЧИСЛО ИСПЫТАНИЙ НЕОГРАНИЧЕННО ВОЗРАСТАЕТ. Числовую меру объективной возможности осуществления события " А " при единичном испытании называют ВЕРОЯТНОСТЬЮ и обозначают символом Р(А). По классическому определению вероятность события "А" в бесконечном ряду испытаний это отношение числа положительных исходов (m) к числу всех равновозможных и несовместных исходов (k). Частость
f(X) = ФУНКЦИЯ ПЛОТНОСТИ ВЕРОЯТНОСТИ f(x)=P(x) dx Функции (а) распределения F норм(x;a,σ²) и (б) плотности f норм(x;a,σ²) нормального закона
Кумулята распределения размеров Serripes groenlandicus на песчаном пляже. По оси абсцисс – значения вариант, по оси ординат – накопленные частоты вариант. Полигон распределения размеров Serripes groenlandicus на песчаном пляже. По оси абсцисс - варианты, по оси ординат - частоты вариант. Гистограмма распределения размеров Serripes groenlandicus на песчаном пляже. По оси абсцисс - варианты, по оси ординат - частоты вариант.
Математическое ожидание МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ - характеризует теоретическое (ожидаемое или модельное) значение средней. Обычно обозначается так же как и генеральная средняя и рассчитывается по формуле:
Модели распределений могут играть в статистическом анализе две роли: адекватное описание реального явления. В этом случае модель описывает закон распределения вероятностей непосредственно изучаемой случайной величины. использование их как вспомогательное средство при реализации доказательной функции вариационной статистики. С помощью моделей этого типа описываются распределения вероятностей некоторых функций от исследуемой вспомогательной величины. Эти функции используются для построения разного рода статистических оценок или критериев. Например, распределения Фишера (F-распределение), Стьюдента (t- распределение) и Пирсона (хи-квадрат распределение).
а) исследования вида распределения как характерной (оригинальной) черты вариационного ряда и для его параметризации; б) исследование вида распределения с целью оценки степени его согласия с нормальным законом или иной моделью; в) исследование распределений с целью определения достоверности различий между ними. Анализ распределения данных в выборках проводится для:
Числовую меру объективной возможности осуществления события " А " при единичном испытании называют ВЕРОЯТНОСТЬЮ и обозначают символом Р(А). По классическому определению вероятность события "А" в бесконечном ряду испытаний это отношение числа положительных исходов (m) к числу всех равновозможных и несовместных исходов (k).
ОПРЕДЕЛЕНИЕ: Вероятности, признанные достаточными для уверенного суждения на основе статистик о генеральных параметрах и называют доверительными вероятностями Обычно в качестве доверительных используют близкие к единице вероятности: Р1=0.95 Р2=0.99 Р3=0.999
ОПРЕДЕЛЕНИЕ: В математической статистике выдвигаемую (проверяемую) гипотезу обычно называют нулевой (или, реже, основной) и обозначают как Н0. Альтернативная гипотеза HA. В случае отклонения нулевой гипотезы принимают альтернативную гипотезу
ОПРЕДЕЛЕНИЕ: Процедура сопоставления высказанной гипотезы с полученными выборочными данными осуществляется с помощью статистических критериев и называется статистической проверкой гипотез. Функция выборочных значений статистики, построенная в условии справедливости нулевой гипотезы, и согласно которой по условиям альтернативной гипотезы и данным конкретной выборки принимается или отвергается нулевая гипотеза, называется СТАТИСТИЧЕСКИМ КРИТЕРИЕМ
ОПРЕДЕЛЕНИЯ: Вероятность ошибочного отклонения нулевой гипотезы называют УРОВНЕМ ЗНАЧИМОСТИ нулевой гипотезы Сейчас в выборе значимости обычно опираются на 3 стандартных уровня значимости Н0: 0.001, 0.01 и 0.05. Они соответствуют трем уровням доверительной вероятности: Р1=0.95 Р2=0.99 Р3=0.999
Функция плотности вероятности вспомогательного распределения P t
Но Ha
Алгоритм проверки справедливости нулевой гипотезы P t
Общие принципы проверки статистических гипотез Процедура проверки нулевой гипотезы в общем случае включает следующие этапы: 1. задается допустимая вероятность ошибочного отклонения справедливой нуль-гипотезы ( =0,05) 2. выбирается статистика критерия (Т) 3. ищется область допустимых значений 4. по исходным данным вычисляется значение статистики Т 5. если Т (статистика критерия) принадлежит области принятия нулевой гипотезы, то нулевая гипотеза принимается (корректнее говоря, делается заключение, что исходные данные не противоречат нулевой гипотезе), а в противном случае нулевая гипотеза отвергается и принимается альтернативная гипотеза.
Inf 0.674490 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905 Вспомогательное теоретическое распределение Стьюдента
Двусторонний (а) и односторонний (б) критерии
Двусторонний (а) и односторонний (б) критерии Различие между двусторонним и односторонним тестами – двусторонний тест принимает гипотезу Ho на уровне значимости α при данном значении критерия To; – односторонний тест отвергает нуль-гипотезу Ho на том же уровне значимости α
Практические рекомендации: сравнение опыта и контроля требует одностороннего критерия сравнение выборок из разных группировок логичнее проводить с использованием двустороннего критерия На практике, если “нет” таблиц двустороннего критерия следует просто, работая с уровнем , критические значения из таблицы считывать с графы /2.
СТАТИСТИЧЕСКИЕ КРИТЕРИИ
СТАТИСТИЧЕСКИЕ КРИТЕРИИ ПАРАМЕТРИЧЕСКИЕ НЕПАРАМЕТРИЧЕСКИЕ
СТАТИСТИЧЕСКИЕ КРИТЕРИИ ПАРАМЕТРИЧЕСКИЕ НЕПАРАМЕТРИЧЕСКИЕ Функции параметров генеральной совокупности Зависят от вариант данной совокупности с их частотами
а) исследования вида распределения как характерной (оригинальной) черты вариационного ряда и для его параметризации; б) исследование вида распределения с целью оценки степени его согласия с нормальным законом или иной моделью; в) исследование распределений с целью определения достоверности различий между ними. Процедуры для сравнения распределений (выборок) используются для:
где dx - малая величина, определяющая ширину интервала, и e - математические константы, (s) - стандартное отклонение. В показатель степени входит нормированное отклонение t=(Xi-M)/s - величина, играющая важную роль в исследовании свойств такого распределения НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ dx Во многих случаях вероятность Pi любого значения Xi непрерывно меняющейся случайной величины X, находящегося в интервале от X до Х+dХ, выражается Формулой:
где dx - малая величина, определяющая ширину интервала, и e - математические константы, (s) - стандартное отклонение. В показатель степени входит нормированное отклонение t=(Xi-M)/s - величина, играющая важную роль в исследовании свойств такого распределения НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ dx Во многих случаях вероятность Pi любого значения Xi непрерывно меняющейся случайной величины X, находящегося в интервале от X до Х+dХ, выражается Формулой:
где dx - малая величина, определяющая ширину интервала, и e - математические константы, (s) - стандартное отклонение. В показатель степени входит нормированное отклонение t=(Xi-M)/s - величина, играющая важную роль в исследовании свойств такого распределения НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ dx Во многих случаях вероятность Pi любого значения Xi непрерывно меняющейся случайной величины X, находящегося в интервале от X до Х+dХ, выражается Формулой: ОПРЕДЕЛЕНИЕ: ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ - Вероятность отклонения любой варианты Хi от центра распределения () , является функцией нормированного отклонения (t) .
Функция плотности вероятности нормальной кривой t=(Xi - M)/s
Функция плотности вероятности нормальной кривой t=(Xi - M)/s
Функция плотности вероятности нормальной кривой Нормальные кривые (1, 2, 3) при разных значениях параметра (1< 2< 3)
Функция плотности вероятности нормальной кривой Нормальные кривые (1, 2, 3) при разных значениях параметра (1< 2< 3) Нормальные кривые при различных значений параметров M и s: I. M = 0, s = 2,5; II. M = 0, s = 1; III. M = 0, s = 0,4; IV. M = 3, s = 1.
Пример нормального распределения Р (-s < Xi-M<+ s) =0.6827 Р (-2 s <Xi-M<+2 s)=0.9545 Р (-3 s <Xi-M<+3 s)=0.9973 ПРАВИЛО ТРЕХ СИГМ
t=(Xi - M)/s Стандартизированная форма нормальной кривой (при =1) НОРМАЛЬНАЯ КРИВАЯ С ПАРАМЕТРАМИ =0 и =1 НАЗЫВАЕТСЯ НОРМАЛЬНОЙ ИЛИ СТАНДАРТИЗИРОВАННОЙ
«Ординаты нормальной кривой»
ПРОВЕРКА ГИПОТЕЗ О СОГЛАСИИ РАСПРЕДЕЛЕНИЯ С МОДЕЛЬЮ. ПРОВЕРКА НА НОРМАЛЬНОСТЬ A. Тест с использованием As и Es
Общие принципы проверки статистических гипотез Процедура проверки нулевой гипотезы в общем случае включает следующие этапы: 1. задается допустимая вероятность ошибочного отклонения справедливой нуль-гипотезы ( =0,05) 2. выбирается статистика критерия (Т) 3. ищется область допустимых значений 4. по исходным данным вычисляется значение статистики Т 5. если Т (статистика критерия) принадлежит области принятия нулевой гипотезы, то нулевая гипотеза принимается (корректнее говоря, делается заключение, что исходные данные не противоречат нулевой гипотезе), а в противном случае нулевая гипотеза отвергается и принимается альтернативная гипотеза.
ПРОВЕРКА ГИПОТЕЗ О СОГЛАСИИ РАСПРЕДЕЛЕНИЯ С МОДЕЛЬЮ. ПРОВЕРКА НА НОРМАЛЬНОСТЬ A. Тест с использованием As и Es В ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ НЕТ АСИММЕТРИИ И НЕТ ЭКСЦЕССА
ПРОВЕРКА ГИПОТЕЗ О СОГЛАСИИ РАСПРЕДЕЛЕНИЯ С МОДЕЛЬЮ. ПРОВЕРКА НА НОРМАЛЬНОСТЬ A. Тест с использованием As и Es В ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ НЕТ АСИММЕТРИИ И НЕТ ЭКСЦЕССА
ПРОВЕРКА ГИПОТЕЗ О СОГЛАСИИ РАСПРЕДЕЛЕНИЯ С МОДЕЛЬЮ. ПРОВЕРКА НА НОРМАЛЬНОСТЬ A. Тест с использованием As и Es В ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ НЕТ АСИММЕТРИИ И НЕТ ЭКСЦЕССА ПРОВЕРЯЮТСЯ ОДНОВРЕМЕННЫЕ УСЛОВИЯ: Обычно строится двухсторонний t-критерий Стьюдента
Inf 0.674490 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905 Вспомогательное теоретическое распределение Стьюдента
Нахождение табличного значения критерия Стьюдента (tst): Функция=> Cтатистические=> СТЬЮДЕНТ.ОБР.2Х
Вывод: таким образом, на основании анализа показателей асимметрии и эксцесса размерного распределения моллюсков не обнаружено его отличий от нормального распределения.
между распределениями существует согласие, т.е. различия наблюдаемых и прогнозных частот Хl случайны. эмпирическое распределение не описывается теоретическим. ПО ОПРЕДЕЛЕНИЮ строим односторонний тест.
между распределениями существует согласие, т.е. различия наблюдаемых и прогнозных частот Хl случайны. эмпирическое распределение не описывается теоретическим. ПО ОПРЕДЕЛЕНИЮ строим односторонний тест. ПРОВЕРЯЕМ УСЛОВИЕ:
между распределениями существует согласие, т.е. различия наблюдаемых и прогнозных частот Хl случайны. эмпирическое распределение не описывается теоретическим. ПО ОПРЕДЕЛЕНИЮ строим односторонний тест. ПРОВЕРЯЕМ УСЛОВИЕ: , mf - число параметров модели ВЕЛИЧИНА mf СОСТАВЛЯЕТ: - нормальное и биномиальное распределение - 2, - распределение Пуассона - 1
- объем выборки; 2. - количество классов; 3. “борьба” с низкой теоретической представленностью классов по краям распределения. Соблюдение условий проверки нулевой гипотезы: k- число классов
***Вся процедура не валидна, если объем выборки оказывается (по разным рекомендациям) меньше 30-50*** Объем выборки: . Если ожидаемые частоты оказываются слишком малыми, то приходится объединять соседние классы. О частотах в крайних классах: Общая рекомендация при работе с малыми выборками: Частоты крайних классов следует синхронно объединять до тех пор, пока сумма теоретических частот в объединенном классе не достигнет 1-10. Максимальной мощности критерия можно достичь, если в каждом классе
v=k-3 1 2 3-6 >6 мин. частоты в крайних классах 4 2 1 0,5 ПРАВИЛО ВАН ДЕР ВАДЕНА Количество вариант в крайних классах вариационного ряда следует связывать с числом степеней свободы : k – число классов
- критерий согласия и различия Пример: согласие эмпирического распределения с нормальным законом - величина классового интервала - наблюдаемая частота = pi*n* теоретическая частота Вероятность нормального распределения Нахождение теоретических частот для отдельных значений признака (вариант) в соответствии с функцией нормального распределения в приложении Excel
Примечание: xi и fi -варианты и соответствующие им эмпирические частоты; Pi - теоретические вероятности нормального распределения; n – объем выборки; i - величина классового интервала.
F4
где λ - малая величина, определяющая ширину интервала, и e - математические константы, s - стандартное отклонение. В показатель степени входит нормированное отклонение t=(Xi-M)/s - величина, играющая важную роль в исследовании свойств такого распределения НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
- наблюдаемая частота = pi*n* - теоретическая частота
- наблюдаемая частота = pi*n* - теоретическая частота
Полученная величина критерия Хи-квадрат (5,05) меньше табличного значения критерия (18,31) при выбранном уровне значимости (равном 0,05). На этом основании различия между эмпирическими и вычисленными по нормальному закону частотами данного распределения следует считать случайными. Следовательно, и эмпирический ряд имеет нормальное распределение.
Таблица
Оценку расхождений между теоретическими и эмпирическими частотами можно провести и с помощью непараметрического критерия, предложенного А.Н.Колмогоровым и Н.В.Смирновым где n –объем выборки максимальная разность накопленных частот эмпирического и теоретического рядов (без учета знаков разности). Предельное значение где — соответствующий уровень значимости. Критические (стандартные) значения критерия лямбда, соответствующие трем порогам доверительной вероятности—Р1 = 0,95; Р2=0,99 и Р3=0,999, соответственно равны: 1,36; 1,63 и 1,95
С поправкой на число наблюдений критические (стандартные) значения критерия, соответствующие трем порогам доверительной вероятности—Р1 = 0,95; Р2=0,99 и Р3=0,999 оценивают по выражениям: Р1 = 0,95 Р2 = 0,99 Р3 = 0,999 Но принимается, если при выбранном уровне значимости.
Но принимается, если при выбранном уровне значимости:
Но принимается, если при выбранном уровне значимости:
Но принимается, если при выбранном уровне значимости:
Но принимается, если при выбранном уровне значимости:
Но принимается, если при выбранном уровне значимости: Так как dst (0.19) больше dmax (0.017) мы принимаем нулевую гипотезу. Таким образом, с вероятностью 0,95 наблюдаемые различия эмпирических и теоретических частот случайны, а так как теоретические частоты найдены в соответствии с законом нормального распределения, следовательно и размерное распределение моллюсков соответствует нормальному распределению.
Гистограмма распределения размеров моллюсков Serripes groenlandicus и кривая нормального распределения (красная линия). По оси абсцисс – размеры моллюсков; по оси ординат – частоты; в заголовке графика приведены результаты тестов нормальности распределения признака.
Критерий Шапиро-Уилка (W) W меняется в пределах от 0 до 1. Чем ближе W к 1, тем меньше вероятность ошибочно принять гипотезу о нормальности распределения. Гипотеза о нормальности отвергается при малых значениях статистики . где S2 = (xi-µ)2 ; b = an-i+1(xn-i+1-xi) ; µ - среднее выборки; an-i+1 некоторые константы
Соответствие эмпирического распределения размеров моллюсков Serripes groenlandicus модели нормального распределения. По оси ординат – нормализованные значения признака (нормированные отклонения); по оси абсцисс – значения вариант; красная линия соответствует ожидаемым (теоретическим) значениям нормированного отклонения признака, полученным из модели нормального распределения.
zanjatie_4-5_13.ppt
- Количество слайдов: 117