Математическая статистика Что такое математическая
Математическая статистика17122012.ppt
- Количество слайдов: 34
Математическая статистика
Что такое математическая статистика? математическая статистика – это одновременно искусство и наука извлечения полезной информации из данных, полученных в результате наблюдений или экспериментов
Объекты, изучаемые математической статистикой 1. Генеральная совокупность – конечное или бесконечное множество объектов, обладающих определенными математическими свойствами. 2. Выборка - некоторое число случайным образом выбранных объектов из конечной или бесконечной генеральной совокупности; число выбранных объектов называют объемом выборки.
Какие задачи нас интересуют? - определение закона распределения случайной величины по выборочным данным; - задача проверки правдоподобия гипотез (отличия характеристик выборки от некоторых неслучайных величин; отличия характеристик нескольких выборок; связь случайных величин из разных выборок); - задача нахождения неизвестных параметров распределения.
Кто выше – шведы или итальянцы? Как поставить эксперимент, позволяющий дать ответ на этот вопрос: Вариант 1: взять одного произвольного итальянца и одного произвольного шведа, измерить их рост и сравнить. Вариант 2: измерить рост всех шведов и всех итальянцев и вычислить математические ожидания роста тех и других. Вариант 3: выбрать некоторое количество шведов и некоторое количество итальянцев, вычислить их выборочные средние и сравнить их
Проблемы при сравнении выборочные средних 1. Каким должен быть размер выборки, чтобы мы были уверены в правильности нашего вывода? 2. Условие состоятельности выборки 2. Каким должно быть различие значений выборочных средних, чтобы мы были уверены в правильности нашего вывода? Условие значимости различий средних 3. Как нужно выбирать элементы выборки, чтобы мы были уверены в правильности нашего выводы? Условие представительности выборки – использование процедуры рэндомизации (random – случайный)
Различия между теорией вероятностей и математической статистикой Объекты, изучаемые теорией вероятностей Генеральная совокупность – конечное или бесконечное множество объектов, обладающих определенными математическими свойствами. Объекты, изучаемые математической статистикой Выборка - некоторое число случайным образом выбранных объектов из конечной или бесконечной генеральной совокупности; число выбранных объектов называют объемом выборки.
Основная задача математической статистики - проверка правдоподобия статистических гипотез Пример нулевой статистической гипотезы: между средним ростом итальянцев и средним ростом шведов нет значимой разницы Основные задачи проверки правдоподобия гипотез: отличия характеристик (средних, дисперсии) выборки от некоторых неслучайных величин; отличия характеристик (средних, дисперсии) нескольких выборок; связь случайных величин из разных выборок, определение закона распределения случайной величины по выборочным данным, нахождение неизвестных параметров распределения.
Выборочная статистическая функция распределения Пусть имеется некоторая случайная величина Х, закон распределения которой неизвестен и требуется проверить гипотезу о том, что эта случайная величина подчиняется тому или иному закону. С этой целью над случайной величиной проводится ряд независимых опытов. В каждом из них случайная величина Х принимает определенное значение. Совокупность найденных значений Х характеризует выборочную функцию распределения:
Результаты эксперимента по измерению роста шведов Эмпирическая функция распределения Эмпирическая функция плотности распределения
Числовые характеристики эмпирического статистического распределения Среднее дисперсия
Унимодальность и бимодальность эмпирической статистики В больнице 10 больных, из них у 9 температура +40 0 С, а один уже отмучился, лежит в морге, где температура воздуха +6 0 С. Спрашивается: какова средняя выборочная температура по больнице?
Согласие теоретического и статистического распределения Если между теоретической кривой распределения F(X) и эмпирической функцией распределения существуют различия, то возникает вопрос: объясняются ли эти расхождения некоторыми случайными обстоятельствами, или же они связаны с тем, что эмпирическая функция распределения не описывается теоретической кривой? Для ответа на этот вопрос используются критерии согласия. Нулевая гипотеза Н: случайная величина Х подчиняется определенному закону распределения. Для того, чтобы принять или опровергнуть нулевую гипотезу, введем некоторую величину U, характеризующую степень расхождения теоретической и эмпирической функций распределения.
Критерий «хи-квадрат» Как бы точно не вычислялись теоретические частоты они, как правило, не совпадают с эмпирическими частотами ряда. Отсюда возникает необходимость сопоставления эмпирических частот с вычисленными, или ожидаемыми, частотами, с тем, чтобы установит достоверность или случайность наблюдаемого между ними расхождения. Нулевая гипотеза сводится к предположению, что несоответствие эмпирических частотам, вычисленным по тому или иному закону распределения, - совершенно случайное, т. е. между вычисленными и эмпирическими частотами никакой разницы нет. Для проверки нулевой гипотезы используются особые критерии. Одним из наиболее часто применяемых служит критерий χ2, предложенный К. Пирсоном в 1900 г. Этот критерий представляет сумму квадратов отклонений эмпирических частот (p) от частот теоретических или ожидаемых (p'), отнесенную к теоретическим частотам (p')
2 -критерий
Точечные и интервальные оценки генеральной совокупности Требуется оценить параметры генеральной совокупности по наблюдениям выборки. Пусть оценкой неизвестного параметра Θ является величина Θn, зависящая от наблюдений выборки: Θ Θn. (Θn-случайная величина, меняющаяся от выборки к выборке). Для правильной аппроксимации параметра генеральной совокупности Θ выборочная оценка Θn по правилам математической статистики должна быть состоятельной и несмещенной.
• Оценка Θn называется состоятельной оценкой параметра Θ, если при n , Θn Θ, то есть вероятность отклонения оценки от истинного значения параметра можно сделать сколь угодно малой, увеличивая объем выборки. • Оценка Θn называется несмещенной оценкой параметра Θ, если при любом n: М(Θn) = Θ. Это означает, что отклонение Θn от Θ не содержит систематической ошибки. В противном случае оценка называется смещенной.
• В качестве оценки М(X) используется выборочное среднее: • Оценкой D(X) служит исправленная выборочная дисперсия: • Смещенная выборочная дисперсия (n>30): • Среднее квадратическое отклонение:
Интервальные оценки для генеральной средней • Для n выборок из генеральной совокупности получим ряд средних арифметических: • Центральная предельная теорема: Выборочные средние имеют приближенно нормальное распределение независимо от распределения исходной совокупности, из которой были извлечены выборки. • Среднее значение всех возможных выборочных средних равно среднему исходной совокупности. • Стандартное отклонение всех возможных средних по выборкам данного объема зависит как от стандартного отклонения совокупности, так и от объема выборки.
Таким образом, величина служит мерой точности, с которой выборочное среднее является оценкой среднего по совокупности . Поэтому эту величину называют средней квадратической ошибкой (или стандартной ошибкой).
Проверка статистической гипотезы: выборочная средняя значимо от отличается от некоторой заданной неслучайной величины. Способ проверки: использование t-критерия (критерия Стьюдента)
Стьюдент – псевдоним одного из основоположников теории статистических оценок и проверки гипотез английского математика У. Госсета, показавшего, что оценка расхождений между средним значением малой выборки и средним значением генеральной совокупности подчиняется особому закону распределения: t-распределению Стьюдента.
• Критерий нормированного отклонения (по Стьюденту): Доверительный интервал имеет вид: Распределение значений t отличается от нормального тем сильнее, чем меньше n. По мере увеличения n t–распределение Стьюдента приближается к нормальному. При n > 30 разница между этими распределениями практически исчезает.
Психологическая гипотеза: студенты перед экзаменом волнуются. Способ проверки психологической гипотезы: измерение частоты сердечных сокращений (ЧСС) у студентов до и после экзамена. Статистическая гипотеза: ЧСС у студентов до и после экзамена статистически значимо не различаются.
• Данные измерений: частоты сердечных сокращений студентов до и после экзамена N ЧССдо ЧССпосле 1 90 60 2 80 70 3 70 4 90 70 5 100 70 6 110 80 среднее 90 70
Способы проверки нулевой гипотезы 1. Проверить различия средних значений ЧСС до и после экзамена у выбранной группы студентов; 2. Проверить отличие от нуля средней разности ЧСС до и после экзамена у выбранной группы студентов.
Определение достоверности различия двух независимых выборочных совокупностей • Нормированное отклонение: Для n<30, ошибка разницы sd определяется по формуле:
Нулевая гипотеза: Определяем критическое значение критерия Стьюдента (tтаб)для p=0, 95 и df=n-1 • Если tэксп ≥ tтаб нулевая гипотеза отвергается, различие средних статистически значимо • Если t эксп < tтаб, нулевая гипотеза принимается, различие средних статистически не значимо
Нулевая гипотеза 1: средние значения ЧСС до и после экзамена статистически значимо не различаются ЧСС, ударов/мин параметр До экзамена После экзамена среднее 90 70 1000 200 Число 6 элементов в выборке
Расчетное значение t-критерия
Таблица значений t-критерия Стьюдента Степени Уровень свободы значимости df/Р 0, 95 0, 999 1 12, 706 63, 657 636, 619 2 4, 303 9, 925 31, 598 3 3, 182 5, 841 12, 941 4 2, 781 4, 602 8, 610 5 2, 571 4, 032 6, 859 6 2, 447 3, 707 5, 959 7 2, 365 3, 499 5, 405 8 2, 306 3, 355 5, 041
Нулевая гипотеза 2: разность ЧСС до и после экзамена равны нулю Проверяем достоверность нулевой гипотезы по критерию Стьюдента при уровне вероятности p=0, 95 ( =0, 05). Определяем tэксп: где d - среднее значение разности пульса до и после экзамена; sd-стандартная ошибка разности
Оценка разности ЧСС у одного и того же студента до и после экзамена N ЧССдо ЧССпосле d (d-dср)2 1 90 60 -30 100 2 80 70 -10 100 3 70 0 400 4 90 70 -20 0 5 100 70 -30 100 6 110 80 -30 100 90 70 dср=-20 D=160
• Определим, достоверно ли средняя арифметическая разности ЧСС до и после экзамена отличается от нуля: tтаб(0, 95; 5) = 2, 57 tэксп> tтаб Это означает, что нулевая гипотеза отвергается, снижение ЧСС после экзамена статистически значимо