Л3.Элементы математической статистики. .ppt
- Количество слайдов: 28
Общие сведения • Математическая статистика – раздел математики, в котором изучаются методы сбора, систематизации, обработки и анализа результатов наблюдений массовых случайных явлений для выявления существующих закономерностей. • Первой задачей математической статистики является определение способов сбора и систематизации статистической информации. • Вторая задача математической статистики состоит в разработке методов обработки и анализа статистических данных
Этапы моделирования эмпирических данных вероятностными моделями 1. 2. 3. 4. 5. Предварительная обработка данных: группировка, анализ засоренности и независимости данных. Расчет выборочных характеристик (параметров выборки) Точечное и интервальное оценивание параметров выборки Описание данных вероятностными моделями Точечное и интервальное оценивание параметров модели Проверка гипотез о согласии модели и экспериментальных (эмпирических) данных
Основные понятия При изучении некоторого явления проводится исследование некоторой совокупности однородных объектов. Для этого измеряются качественные или количественные признаки, характеризующего эти объекты. Проводят сплошное или выборочное обследование объектов. При сплошном обследовании все изучаемые объекты формируют генеральную совокупность (ГС) данных. Объем генеральной совокупности обозначают N. Часто сплошное обследование невозможно: объем ГС слишком велик или эксперимент связан с уничтожением объекта. В подобной ситуации пользуются выборочным методом, из совокупности выбирают ограниченное число объектов и их подвергают изучению. Выборка – ограниченный набор данных из генеральной совокупности. Объем выборки обозначают n Задачей исследования явления (генеральной совокупности) заключается в анализе того, насколько результаты выборочного обследования будут справедливы для всей совокупности.
Чтобы по данным выборки можно было достаточно уверенно судить об интересующем нас признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли. Это требование звучит так: выборка должна быть репрезентативной (представительной). Для этого каждый из её объектов должен быть отобран из генеральной совокупности случайным образом, то есть все объекты генеральной совокупности должны иметь одинаковую вероятность попасть в выборку. Существуют специальные приёмы отбора, обеспечивающие репрезентативность выборки, и мы будем, в дальнейшем предполагать, что это требование выполнено.
Рассмотрим несколько терминов. Пусть n – объем выборки, xk – значение количественного признака, nk – количество раз его наблюдения. Наблюдаемые значения количественного признака хi, называются вариантами, а последовательность вариант, записанных в порядке возрастания называется дискретным вариационным рядом. Число наблюдений значения признака хi, , , величина ni, называется частотой , а vi, - отношение ni, к объёму выборки n называется относительной частотой. Справедливы соотношения Соответствие между вариантами хi , записанными в порядке возрастания, и относительными частотами называется статистическим или эмпирическим распределением выборки. дискретным вариационным рядом. Данные, разбитые на интервалы, образуют интервальный вариационный ряд. Здесь ni - частота попадания в i– тый интервал, vi, - отношение ni, к объёму выборки n - относительная частота.
Графическое изображение вариационных рядов • Чаще всего используются: § Точечная диаграмма – для изображения данных дискретных вариационных рядов § Полигон § Гистограмма – для интервальных вариационных рядов § Кумулятивная кривая (кумулята). Представляет собой эмпирическую функцию распределения
Графическое представление экспериментальных данных. Полигон Рис. 3. Полигон
Кумулятивная кривая Рис 4. Кумулятивная кривая
• • Существует аналогия между статистическим распределением выборки и законом распределения дискретной случайной величины. В данном случае вместо возможных значений случайной величины фигурируют варианты, а вместо соответствующих вероятностей - относительные частоты. В силу этой аналогии по известному эмпирическому распределению можно по тем же формулам, что и для дискретного распределения, найти выборочные аналоги математического ожидания и дисперсии. Для оценки числовых параметров выборки и , в дальнейшем, генеральной совокупности, в математической статистике используют следующие числовые характеристики – меры процесса, параметры распределения: 1. меры положения – средние значения, медиана, мода; 2. меры разброса – размах, выборочная дисперсия, выборочное среднеквадратическое отклонение; 3. меры формы – коэффициент асимметрии, эксцесс Перечисленные выше параметры зависят от элементов выборки, являются функцией выборочных значений, называются статистиками
Меры положения: медиана, мода Модой М 0 называют варианту, которая имеет наибольшую частоту. Например, для ряда Варианта Xi. . 1 4 7 9 Частота ni. . 5 1 20 6 – мода равна 7. Медианой me называют варианту, которая делит вариационный ряд на две части, равные по числу вариант. Если число вариант нечётно, т. е. n = 2 k + 1, то me = Xk+1 при чётном n = 2 k медиана me = (Xk + Xk+1)/2 Например, для ряда Xi = 2 3 5 6 7 медиана me равна 5 Для ряда Xi = 2 3 5 6 7 9 медиана me равна (5+6)/2 = 5, 5.
Меры положения: средние Арифметической средней – Xср называют среднее арифметическое значение признака совокупности Xср= Например для ряда xi 1 3 6 16 ni 4 10 5 1 Xср=(1*4+3*10+6*5+16*1)/(4+10+5+1)=4
i. Мера положения - сглаженная средняя - средняя средних • Обычно применяется в исследовании интервальных выборочных рядов или в исследовании временных рядов • Xсрср=
Меры разброса: размах, дисперсия, СКО Размах варьирования R – разность между наибольшей и наименьшей вариант: R = xmax - xmin Дисперсия (рассеяние) дискретной СВ - математическое ожидание квадрата отклонения случайной величины от математического ожидания: D(X) = M[(X – M(X))2] Среднеквадратическое (стандартное) отклонение – квадратный корень из дисперсии σ = √D Приведенные меры разброса характеризуют теоретическое распределение, распределение генеральной совокупности
Выборочные параметры зависят от выборки, являются функцией выборки, статистикой 1. Размах R = xmax - xmin 2. Выборочная дисперсия 3. Выборочное СКО S = √S 2
Теоретическая функция распределения генеральной совокупности F(x) характеризует процесс, определяет вероятность события <х, Обозначим n(х) - число вариант, меньших х, Зависимость относительной частоты события <х , равной называют эмпирической функцией распределения и обозначают характеризует относительную частоту распределения. Эмпирическая функция распределения и ее числовые характеристики для различных выборок будут отличаться друг от друга. Задача заключается в том, чтобы по полученному экспериментальному материалу сделать выводы о виде и значениях числовых параметров теоретического распределения.
. Точечные и интервальные оценки параметров распределения • • Полученные выборочные параметры будут меняться от выборки к выборке. Задача исследования заключается в том, чтобы по полученным по экспериментальным данным выборочным параметрам оценить параметры процесса, т. е. параметры генеральной совокупности. Так, например, если известно, что интересующая нас величина распределена нормально, то оценке подлежат математическое ожидание и среднеквадратическое отклонение (или дисперсия) генеральной совокупности. Задача оценивания параметров теоретического распределения состоит в построении формул, зависящих от выборочных значений x 1 …xn. • Любую функцию • поэтому являющуюся случайной величиной, называют статистикой. , зависящую от выборки и
• Для того, чтобы оценки неизвестных параметров, то есть статистики, давали хорошее приближение неизвестных параметров распределения генеральной совокупности, они должны удовлетворять определённым требованиям: • 1. Математическое ожидание оценки параметра по всевозможным выборкам данного объёма должно равняться истинному значению определяемого параметра. В этом случае оценку называют несмещенной. • 2. При увеличении объёма выборки оценка должна сходиться по вероятности к истинному значению параметра. В этом случае оценку называют состоятельной. • В теории оценивания различают точечные и интервальные оценки. • Известно много способов получения оценок. Широко применяется метод моментов, которого заключается в приравнивании теоретических характеристик соответствующим эмпирическим характеристикам.
• Точечные оценки параметров нормального распределения • Нормальное распределение определяется двумя параметрами –m и . • Приравнивая теоретические математическое ожидание М( )=m и дисперсию D( )= 2 к соответствующим эмпирическим величинам получим искомые оценки: • Эмпирическое математическое ожидание (среднее) • Эмпирическая дисперсия • Эмпирическое среднеквадратическое отклонение
• Оценка является состоятельной и несмещенной. • Оценки и • • • Исправленные оценки соответственно равны Исправленная дисперсия состоятельные, но смещенные. • Исправленное среднеквадратическое отклонение
• Пример. Для проверки фасовочной установки было отобраны и взвешены 20 упаковок. Были получены следующие результаты (в граммах): 246 247. 3 247. 4 251. 7 252. 5 252. 6 2528 252. 9 253. 6 254. 7 254. 8 256. 1 256. 3 256. 8 257. 4 259. 2 • Найти доверительные интервалы для математического ожидания с надёжностью 0. 95 и среднеквадратического отклонения с надёжностью 0. 9, предполагая, что измеряемая величина распределена нормально. • Решние Сначала найдем точечные оценки m и : • Затем определим интервальные оценки
• Интервальные оценки • • Точечные оценки параметров распределения являются случайными величинами и могут отличаться от оцениваемых параметров, то возникает необходимость в оценке их точности и надёжности. Необходимо оценить, к каким ошибкам может привести замена неизвестного параметра его точечной оценкой, и с какой уверенностью можно ожидать, что ошибки не выйдут за известные пределы. С этой целью вводятся интервальные оценки. По данным выборки указывается интервал, который с заданной и достаточно близкой к 1 вероятностью (её называют доверительной вероятностью или надёжностью оценки) накрывает неизвестный параметр. Идея, лежащая в основе построения доверительных интервалов, заключается в следующем: - вводится определенная случайная величина, являющаяся функцией выборки и определяемого параметра (статистика), распределение которой заранее известно. - для этой случайной величины строится интервал, в который она попадает с заданной вероятностью . Затем, на основе полученного интервала, строится доверительный интервал для искомого параметра.
В приведенном выше примере были найдены точечные оценки Для построения доверительного интервала для среднего применяют табулированное распределение Стьюдента. Для построения доверительного интервала для СКО применяют табулированное распределение Пирсона, хи- квадрат
Доверительный интервал для математического ожидания m (применяют распределение Стьюдента) Определяют по таблице распределения Стьюдента для Доверительной вероятности =0, 95 и числу степеней свободы (n 1)=19 соответствующее значение t =2. 093, и по формуле находят искомый интервал: Доверительный интервала для строят по Пирсону. Задаются Надежностью =0. 9 и находят по таблице распределения 2 с (n 1)=19 степенями свободы числа h 1, и h 2, из условий: По таблицам получаем h 1, =10. 117 и h 2, =30. 144 и доверительный интервал, накрывающий с надёжностью , равный (2. 9 5. 0).
10. 3. Сглаживание экспериментальных зависимостей методом наименьших квадратов • • Пусть экспериментально исследуется зависимость двух физических величин (у от х). Предположим, что величины у и х связаны функциональной зависимостью у= (х). вид которой требуется определить из опыта. Предположим, что зависимость у= (х) известна и в результате опыта получен ряд экспериментальных точек (xi, yj). Обычно эти точки не ложатся точно на график функции у= (х). Всегда имеется некоторый разброс, то есть обнаруживаются случайные отклонения от этой функциональной зависимости. Эти отклонения связаны с неизбежными при любом опыте ошибками. Требуется, не зная зависимости у= (х), наилучшим образом воспроизвести эту зависимость по полученным экспериментальным данным. Вид этой зависимости будет меняться от одной серии измерений к другой. Возникает типичная для практики задача сглаживания экспериментальных зависимостей. Задача сглаживания - требуется найти такую функцию у= (х), чтобы она некоторым наилучшим образом отражала функциональную зависимость у от х, и вместе с тем были бы сглажены случайные, незакономерные отклонения измерений, связанные с неизбежными погрешностями самих измерений.
• Между значениями yi , полученными теоретически и экспериментально существует разность, которая может быть как положительной, так и отрицательной. Чтобы минимизировать разность этих отклонений (невязок), используют метод наименьших квадратов • Задача сводится к решению системы двух уравнений, которая при линейной теоретической функции сводится к системе •
• Пример. Проведена серия опытов по определению влияния дозы внесённых удобрений на повышение урожайности пшеницы. • Соответствующие данные приведены в первых трёх столбцах таблицы (х - внесённая доза удобрений в центнерах на гектар, у - прирост урожайности в центнерах с гектара). • Требуется по методу наименьших квадратов подобрать линейную функцию, выражающую у через х. • Решение. Искомые величины связаны линейной зависимостью: у=ах+Ь, коэффициенты а и b которой и требуется определить. • Сумма квадратов невязок равна: • Система нормальных уравнений
i xi yi xi 2 yi 2 xiyi 1 0, 342 2, 10 0, 1170 4, 41 0, 718 2 0, 417 4, 70 0, 1739 22, 09 1, 960 3 0, 675 6, 05 0, 4556 36, 60 4, 084 4 0, 867 8, 65 0, 7517 74, 82 7, 500 5 1, 000 10, 00 1, 0000 100, 00 10, 000 6 1, 158 12, 60 1, 3410 158, 76 14, 591 7 1, 283 12, 08 1, 6461 145, 93 15, 499 8 1, 500 14, 68 2, 2500 215, 50 22, 020 9 1, 733 16, 65 3, 0033 277, 22 28, 854 10 2, 008 19, 25 4, 0321 370, 56 38, 654 11 2, 083 19, 98 4, 3389 399, 20 41, 618 12 2, 242 23, 20 5, 0266 538, 24 52, 014 13 2, 508 23, 93 6, 2901 572, 64 60, 016 1, 370 13, 37 224, 31 22, 887 2, 3405
• Раскрывая скобки и группируя, в результате получим следующую систему двух линейных уравнений для определения коэффициентов а и Ь: • Решая эту систему, получим: а=9. 86; Ь=-0. 14 y=9. 89 x-0. 14
Л3.Элементы математической статистики. .ppt