Элементы математической статистики В лекции рассматриваются следующие вопросы

Скачать презентацию Элементы математической статистики В лекции рассматриваются следующие вопросы

Л3.Элементы математической статистики. .ppt

Количество слайдов: 31

Элементы математической статистики В лекции рассматриваются следующие вопросы: 1. Элементы математической статистики. Основные понятия 2. Предварительная обработка экспериментальных данных. Вариационные ряды 3. Вариационный ряд. Статистические характеристики 4. Точечные и интервальные оценки параметров распределения 5. Сглаживание экспериментальных данных. Метод наименьших квадратов 1

1. Элементы математической статистики. Основные понятия При изучении некоторого явления проводится исследование некоторой совокупности однородных объектов. Для этого измеряются качественные или количественные признаки, характеризующие эти объекты. Проводят сплошное или выборочное обследование объектов. При сплошном обследовании все изучаемые объекты формируют генеральную совокупность (ГС) данных. Объем генеральной совокупности обозначают N. Часто сплошное обследование невозможно: объем ГС слишком велик или эксперимент связан с уничтожением объекта. В подобной ситуации пользуются выборочным методом, из совокупности выбирают ограниченное число объектов и их подвергают изучению. Выборка – ограниченный набор данных из генеральной совокупности. Объем выборки обозначают n Задачей исследования явления (генеральной совокупности) заключается в анализе того, насколько результаты выборочного обследования будут справедливы для всей совокупности. 2

1. Элементы математической статистики 1. Предмет математической статистики – изучение методов сбора, систематизации, обработки и анализа результатов наблюдений массовых случайных явлений для выявления существующих закономерностей. 2. Задачи математической статистики: Задача первая - определение способов сбора и систематизации статистической информации. При этом следует понимать, что исследуются не вся совокупность (генеральная совокупность) данных, а только ее часть (выборка) Задача вторая - разработка и применение методов обработки и анализа статистических данных. Решение этой задачи связано с первичным анализом данных, построением вероятностных моделей процесса и оценками результатов моделирования с характером реального процесса, генеральной совокупности 3

Этапы моделирования эмпирических данных вероятностными моделями 1. 2. 3. 4. Предварительная обработка данных: группировка, анализ засоренности и независимости данных. Расчет выборочных характеристик (параметров выборки) Точечное и интервальное оценивание параметров выборки Описание данных вероятностными моделями Проверка гипотез о согласии модели и экспериментальных (эмпирических) данных 4

Чтобы по данным выборки можно было достаточно уверенно судить об интересующем нас признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли. Это требование звучит так: выборка должна быть репрезентативной (представительной). Для этого каждый из её объектов должен быть отобран из генеральной совокупности случайным образом, то есть все объекты генеральной совокупности должны иметь одинаковую вероятность попасть в выборку. Существуют специальные приёмы отбора, обеспечивающие репрезентативность выборки, и мы будем, в дальнейшем предполагать, что это требование выполнено. 5

2. Предварительная обработка данных. Вариационный ряд Обозначим: Х исследуемая случайная величина; - n – объем выборки; хi, - варианта, наблюдаемое значение; - ni – частота наблюдения варианта хi; - vi - относительная частота, частость vi = ni / n. Дискретный вариационный ряд - последовательность вариант, записанных в порядке возрастания. Справедливы соотношения Интервальный вариационный ряд. Данные, разбитые на интервалы, образуют интервальный вариационный ряд. В интервальном вариационном ряду ni - частота попадания хi в i-тый интервал, vi, - отношение ni к объёму выборки n - относительная частота, частость. Рекомендуемое число интервалов m= 1+3, 322 lg(n) (Стерджес) Ширина интервала k= (xmax – xmin)/m 6

2. Вариационные ряды. Графическое изображение Полигон – ломанная, с координатами концов отрезков (xi, ni) Гистограмма (для интервальных вариационных рядов) – столбиковая диаграмма, с основанием столбика равным ширине интервала k и высотой ni (vi). При соединении середины высот столбиков получаем полигон распределения. Полигон (гистограмма) аналогичен плотности распределения f( x) Кумулятивная кривая (кумулята) – кривая накопленных частот niнак (частостей viнак ). Для дискретного ряда – ломанная, соединяющая точки (xi, niнак). Для интервального ряда – ломанная, которая начинается с точки (xmin, 0). Другие точки соответствуют концам интервалов (xi, viнак) Эмпирическая функция ( в дальнейшем F*(x) ) распределения (кумулята) – аналог функции распределения F(x) Примеры построения графических изображений показаны на следующих слайдах 7

2. Вариационные ряды. Примеры Пример 1. Предмет анализа: изучение изменения выработки на одного рабочего в отчетном ряду во сравнению с предыдущем. Имеются данные о выработке 100 рабочих в процентах к предыдущему году. Для исследования данные сначала упорядочиваются, затем группируются. Количество интервалов (групп) вычисляется по формуле Стерджеса m= 1+3, 322 lg(n) = 1+3, 322 lg(10) = 8 Ширина интервала k= (xmax – xmin)/m = (142 -94) /8 = 6 После упорядочивания и группировки получена таблица 1. Обработка данных таблицы позволяет построить графики процесса 8

Пример 1. Таблица 1 i Выработка в % к Частота ni предыдущему году 1 94, 0 – 100, 0 3 0, 03 2 100, 0 – 106, 0 7 0, 07 10 0, 1 3 106, 0 – 112, 0 11 0, 11 21 0, 21 4 112, 0 – 118, 0 20 0, 2 41 0, 41 5 118, 0 – 124, 0 28 0, 28 69 0, 69 6 124, 0 – 130, 0 19 0, 19 88 0, 88 7 130, 0 – 136, 0 10 0, 1 98 0, 98 8 136, 0 – 142, 0 2 0, 02 100 1, 00 - - Сумма Частость vi Накопленная частота niнак частость viнак 9

Гистограмма. Кумулята 10

3. Вариационные ряды. Статистические характеристики Аналогично теоретическому исследованию СВ, в математической статистике вводятся статистические характеристики выборки. Для оценки числовых параметров выборки и , в дальнейшем, генеральной совокупности, в математической статистике используют следующие числовые характеристики – меры процесса, параметры распределения, • 1. меры положения – средние значения, медиана, мода; • 2. меры разброса – размах, выборочная дисперсия, выборочное среднеквадратическое отклонение; • 3. меры формы – коэффициент асимметрии, эксцесс Перечисленные выше параметры зависят от элементов выборки, являются функцией выборочных значений, являются статистическими параметрами, называются статистиками 11

Меры положения: средние величины Средняя арифметическая признака совокупности - Для несгруппированного ряда (невзвешенная) средняя - Для сгруппированного (интервального) ряда - Средняя средних (сглаженная средняя) 12

Арифметическая средняя – пример 1 Вычислить арифметическую среднюю для сгруппированного ряда xi 1 3 6 16 ni 4 10 5 1 Xср=(1*4+3*10+6*5+16*1)/(4+10+5+1)=4 13

Порядковые средние : медиана, мода Модой М 0 вариационного ряда называют варианту, которая имеет наибольшую частоту. Например, для ряда Варианта Xi. . 1 4 7 9 Частота ni. . 5 1 20 6 – мода равна 7. Медианой Ме называют варианту, которая делит вариационный ряд на две части, равные по числу вариант. Если число вариант нечётно, т. е. n = 2 k + 1, то Ме = X k+1 ; при чётном n = 2 k медиана Ме = (Xk + X k+1)/2 Например, для ряда Xi = 2 3 5 6 7 медиана Me равна 5 Для ряда Xi = 2 3 5 6 7 9 медиана Me равна (5+6)/2 = 5, 5. Можно отметить, что для симметричных одномодальных распределений мода, медиана и среднее арифметическое – совпадают 14

Меры разброса: размах, дисперсия, СКО Размах варьирования R – разность между наибольшей и наименьшей вариант: R = xmax - xmin Дисперсия (рассеяние) случайной величины математическое ожидание квадрата отклонения случайной величины от математического ожидания: D(X) = M[(X – M(X))2] Среднеквадратическое (стандартное) отклонение – квадратный корень из дисперсии σ = √D Приведенные меры разброса характеризуют теоретическое распределение, распределение генеральной совокупности 15

Выборочные параметры разброса 1. Размах R = xmax - xmin 2. Выборочная дисперсия S 2 в случае сгруппированных данных В случае не сгруппированных данных 3. Выборочное СКО S = √S 2 16

Теоретическая функция распределения генеральной совокупности F(x) характеризует процесс, определяет вероятность события <х. Обозначим n нак (х) - число вариант, меньших х, Зависимость относительной частоты события <х , равной называют эмпирической функцией распределения и обозначают характеризует относительную частоту распределения. Эмпирическая функция распределения и ее числовые характеристики для различных выборок будут отличаться друг от друга. Задача заключается в том, чтобы по полученному экспериментальному материалу сделать выводы о виде и значениях числовых параметров теоретического распределения. 17

. 4. Точечные и интервальные оценки параметров распределения • • Полученные выборочные параметры будут меняться от выборки к выборке. Задача исследования заключается в том, чтобы по полученным по экспериментальным данным выборочным параметрам оценить параметры процесса, т. е. параметры генеральной совокупности. Так, например, если известно, что интересующая нас величина распределена нормально, то оценке подлежат математическое ожидание и среднеквадратическое отклонение (или дисперсия) генеральной совокупности. Задача оценивания параметров теоретического распределения состоит в построении формул, зависящих от выборочных значений x 1 …xn. • Любую функцию • поэтому являющуюся случайной величиной, называют , зависящую от выборки и статистикой. 18

• Для того, чтобы оценки неизвестных параметров, то есть статистики, давали хорошее приближение неизвестных параметров распределения генеральной совокупности, они должны удовлетворять определённым требованиям: • 1. Математическое ожидание оценки параметра по всевозможным выборкам данного объёма должно равняться истинному значению определяемого параметра. В этом случае оценку называют несмещенной. • 2. При увеличении объёма выборки оценка должна сходиться по вероятности к истинному значению параметра. В этом случае оценку называют состоятельной. • В теории оценивания различают точечные и интервальные оценки. • Известно много способов получения оценок. Широко применяется метод моментов, которого заключается в приравнивании теоретических характеристик соответствующим эмпирическим характеристикам. 19

• Точечные оценки параметров нормального распределения • Нормальное распределение определяется двумя параметрами –m и . • Приравнивая теоретические математическое ожидание М( )=m и дисперсию D( )= 2 к соответствующим эмпирическим величинам получим искомые оценки: • Эмпирическое математическое ожидание (среднее) • Эмпирическая дисперсия • • или Эмпирическое среднеквадратическое отклонение или 20

является состоятельной и несмещенной. • Оценка • • Оценки и состоятельные, но смещенные. Исправленные оценки соответственно равны Исправленная дисперсия • Исправленное среднеквадратическое отклонение 21

• Пример3. Для проверки фасовочной установки было отобраны и взвешены 20 упаковок. Были получены следующие результаты (в граммах): 246 247. 3 247. 4 251. 7 252. 5 252. 6 2528 252. 9 253. 6 254. 7 254. 8 256. 1 256. 3 256. 8 257. 4 259. 2 • Задание 1. 1. Найти точечные оценки математического ожидания m и СКО • Решение Исходные данные являются вариационным рядом с n =20 • Вычислим точечные оценки эмпирических параметров: среднее значение m* , оценки дисперсии и СКО • 22

• Интервальные оценки Точечные оценки параметров распределения являются случайными величинами, могут отличаться от оцениваемых параметров. Поэтому необходимо оценить, к каким ошибкам может привести замена неизвестного параметра его точечной оценкой, и с какой уверенностью можно ожидать, что ошибки не выйдут за известные пределы. С этой целью вводятся интервальные оценки. Для этого: - задается достаточно близкая к 1 вероятностью (её называют доверительной вероятностью или надёжностью оценки) ; - выбирается оцениваемый параметр (статистика) , распределение которой заранее известно - по заданной доверительной вероятности и известному распределению определяются границы доверительного интервала, строится доверительный интервал 23

Продолжение примера 3. Задание 1. 2. Найти доверительные интервалы для математического ожидания с надёжностью 0. 95 и среднеквадратического отклонения с надёжностью 0. 9, предполагая, что измеряемая величина распределена нормально. Были получены точечные оценки Для построения доверительного интервала для среднего применяют табулированное распределение Стьюдента. Для построения доверительного интервала для СКО применяют табулированное распределение Пирсона, хи- квадрат 24

Доверительный интервал для математического ожидания m (применяют распределение Стьюдента) Определяют по таблице распределения Стьюдента для доверительной вероятности =0, 95 и числу степеней свободы (n-1)=19 соответствующее значение t =2. 093, и по формуле находят искомый интервал: Полученное значение точечной оценки (см. слайд 21) 25

Доверительный интервала для строят по Пирсону. Задаются надежностью =0. 9 и находят по таблице распределения 2 с (n-1)=19 степенями свободы числа h 1, и h 2, из условий: По таблицам получаем h 1, =10. 117 и h 2, =30. 144 и доверительный интервал, накрывающий с надёжностью , равный (2. 9 5. 0). Вычисленная ранее (слайд 23) точечная оценка 26

5. Сглаживание экспериментальных зависимостей методом наименьших квадратов Экспериментально исследуется зависимость двух физических величин (у от х). Предположим, что величины у и х связаны функциональной зависимостью у= (х), вид которой требуется определить из опыта. Пусть зависимость у= (х) известна и в результате опыта получен ряд экспериментальных точек (xi, yj). Обычно эти точки не ложатся точно на график функции у= (х), всегда имеется некоторый разброс, вызванный случайными отклонениями. Эти отклонения связаны с неизбежными при любом опыте ошибками. Требуется, не зная зависимости у= (х), по полученным экспериментальным данным наилучшим образом ее воспроизвести. Возникает типичная для практики задача сглаживания экспериментальных зависимостей. Задача сглаживания - требуется найти такую функцию у= (х), которая некоторым наилучшим образом отражала функциональную зависимость у от х, и вместе с тем были бы сглажены случайные, незакономерные отклонения измерений, связанные с неизбежными погрешностями самих измерений. 27

• Между значениями yi , полученными теоретически и экспериментально существует разность, которая может быть как положительной, так и отрицательной. Чтобы минимизировать разность этих отклонений (невязок), используют метод наименьших квадратов • Задача сводится к решению системы двух уравнений, которая при линейной теоретической функции сводится к системе • 28

• Пример. Проведена серия опытов по определению влияния дозы внесённых удобрений на повышение урожайности пшеницы. • Соответствующие данные приведены в первых трёх столбцах таблицы (х - внесённая доза удобрений в центнерах на гектар, у - прирост урожайности в центнерах с гектара). • Требуется по методу наименьших квадратов подобрать линейную функцию, выражающую у через х. • Решение. Искомые величины связаны линейной зависимостью: у=ах+Ь, коэффициенты а и b которой и требуется определить. • Сумма квадратов невязок равна: • Система нормальных уравнений 29

i xi yi xi 2 yi 2 xiyi 1 0, 342 2, 10 0, 1170 4, 41 0, 718 2 0, 417 4, 70 0, 1739 22, 09 1, 960 3 0, 675 6, 05 0, 4556 36, 60 4, 084 4 0, 867 8, 65 0, 7517 74, 82 7, 500 5 1, 000 10, 00 1, 0000 100, 00 10, 000 6 1, 158 12, 60 1, 3410 158, 76 14, 591 7 1, 283 12, 08 1, 6461 145, 93 15, 499 8 1, 500 14, 68 2, 2500 215, 50 22, 020 9 1, 733 16, 65 3, 0033 277, 22 28, 854 10 2, 008 19, 25 4, 0321 370, 56 38, 654 11 2, 083 19, 98 4, 3389 399, 20 41, 618 12 2, 242 23, 20 5, 0266 538, 24 52, 014 13 2, 508 23, 93 6, 2901 572, 64 60, 016 1, 370 13, 37 224, 31 22, 887 2, 3405 30

• Раскрывая скобки и группируя, в результате получим следующую систему двух линейных уравнений для определения коэффициентов а и Ь: • Решая эту систему, получим: а=9. 86; Ь=-0. 14 y=9. 89 x-0. 14 31