Теория вероятностей и математическая статистика Лекция 11

Скачать презентацию Теория вероятностей и математическая статистика Лекция 11

lect11_copy.ppt

Количество слайдов: 34

Теория вероятностей и математическая статистика Лекция № 11 1

Выборки и их характеристики 2

Предмет математической статистики Математическая статистика — раздел математики, в котором изучаются методы сбора, систематизации и обработки результатов наблюдений массовых случайных явлений для выявления существующих закономерностей. Математическая статистика тесно связана с теорией вероятностей. Обе эти математические дисциплины изучают массовые случайные явления. Связующим звеном между ними являются предельные теоремы теории вероятностей. При этом теория вероятностей выводит из математической модели свойства реального процесса, а математическая статистика устанавливает свойства математической модели, исходя из данных наблюдений (говорят «из статистических данных» ). 3

Предмет математической статистики Предметом математической статистики является изучение случайных величин (или случайных событий, процессов) по результатам наблюдений. Полученные в результате наблюдения (опыта, эксперимента) данные сначала надо каким либо образом обработать: • упорядочить, представить в удобном для обозрения и анализа виде. Это первая задача. • Затем, это уже вторая задача, оценить, хотя бы приблизи тельно, интересующие нас характеристики наблюдаемой случайной. Например, дать оценку неизвестной вероятности события, оценку неизвестной функции распределения, оценку математического ожидания, оценку дисперсии случайной величины, оценку параметров распределения, вид которого неизвестен, и т. д. 4

Предмет математической статистики • Следующей, назовем ее условно третьей, задачей является проверка статистических гипотез, т. е. решение вопроса согласования результатов оценивания с опытными данными. Например, выдвигается гипотеза, что: а) наблюдаемая СВ подчиняется нормальному закону; б) м. о. наблюдаемой СВ равно нулю; в) случайное событие обладает данной вероятностью и т. д. Одной из важнейших задач математической статистики является разработка методов, позволяющих по результатам обследования выборки (т. е. части исследуемой совокупно сти объектов) делать обоснованные выводы о распределе нии признака (СВ X) изучаемых объектов по всей совокуп ности. 5

Предмет математической статистики Для обработки статистических данных созданы специальные про граммные пакеты ( TADIA, Стат. Эксперт, Эвриста, SYSTAT, S STAT GRAPHICS и др. ), которые выполняют трудоемкую работу по расчету различных статистик, построению таблиц и графиков. Простейшие статистические функции имеются в программируемых калькуляторах и популярных офисных программах (EXCEL). Результаты исследования статистических данных методами математической статистики используются для принятия решения (в задачах планирования, управления, прогнози рования и организации производства, при контроле качества продукции, при выборе оптимального времени настройки или замены действующей аппаратуры и т. д. ), т. е. для науч ных и практических выводов. 6

Предмет математической статистики Говорят, что «математическая статистика — это теория принятия решений в условиях неопределенности» . Математическая статистика возникла в XVIII веке в работах Я. Бернулли, П. Лапласа, К, Пирсона. В ее современном развитии определяющую роль сыграли труды Г. Крамера, Р. Фишера, Ю. Неймана и др. Большой вклад в математичес кую статистику внесли русские ученые П. Л. Чебышев, А. М. Ляпунов, А. Н. Колмогоров, Б. В. Гнеденко и другие. 7

Генеральная и выборочная совокупности Пусть требуется изучить данную совокупность объектов относительно некоторого признака. Например, рассматривая работу диспетчера (продавца, парикмахера, . . . ), можно исследовать: его загруженность, тип клиентов, скорость обслуживания, моменты поступления заявок и т. д. Каждый такой признак (и их комбинации) образует случайную величину, наблюдения над которой мы и производим. Совокупность всех подлежащих изучению объектов или возможных результатов всех мыслимых наблюдений, производимых в неизменных условиях над одним объектом, называется генеральной совокупностью. Более строго: генеральная совокупность — это СВ Х(ω), заданная на пространстве элементарных событий Ω с выделенным в нем классом S подмножеств событий, для 8 которых указаны их вероятности.

Генеральная и выборочная совокупности Зачастую проводить сплошное обследование, когда изуча ются все объекты (например — перепись населения), трудно или дорого, экономически нецелесообразно (например — не вскрывать же каждую консервную банку для проверки качества продукции), а иногда невозможно. В этих случаях наилучшим способом обследования является выборочное наблюдение: выбирают из генеральной совокупности часть ее объектов ( «выборку» ) и подвергают их изучению. Выборочной совокупностью (выборкой) называется совокупность объектов, отобранных случайным образом из генеральной совокупности. Более строго: выборка — это последовательность X 1, Х 2, . . . , Хn независимых одинаково распределенных СВ, распределение каждой из которых совпадает с распределением генераль ной случайной величины. 9

Генеральная и выборочная совокупности Число объектов (наблюдений) в совокупности, генеральной или выборочной, называется ее объемом; обозначается соответственно через N или n. Конкретные значения выборки, полученные в результате наблюдений (испытаний), называют реализацией выборки и обозначают строчными буквами х1, х2, . . . , хn. Метод статистического исследования, состоящий в том, что на основе изучения выборочной совокупности делается заключение о всей генеральной совокупности, называется выборочным. 10

Генеральная и выборочная совокупности Для получения хороших оценок характеристик генеральной совокупности необходимо, чтобы выборка была репрезентативной (или представительной), т. е. достаточно полно представлять изучаемые признаки генеральной совокупности. Условием обеспечения репрезентативности выборки является, согласно закону больших чисел, соблюдение случайности отбора, т. е. все объекты генеральной совокупности должны иметь равные вероятности попасть в выборку. Различают выборки с возвращением (повторные) и без возвращения (бесповторные). В первом случае отобранный объект возвращается в генеральную совокупность перед извлечением следующего; во втором — не возвращается. На практике чаще используется бесповторная выборка. (Заметим, если объем выборки значительно меньше объема генеральной совокупности, различие между повторной и бесповторной выборками очень мало, его можно не учитывать. ) 11

Генеральная и выборочная совокупности В зависимости от конкретных условий для обеспечения репре зентативности применяют различные способы отбора: üпростой, при котором из генеральной совокупности извлекают по одному объекту; üтипический, при котором генеральную совокупность делят на «типические» части и отбор осуществляется из каждой части (например, мнение о референдуме спросить у случайно ото бранных людей, разделенных по признаку пола, возраста, . . . ); üмеханический, при котором отбор производится через определенный интервал (например, мнение спросить у каждого шестидесятого. . . ); üсерийный, при котором объекты из генеральной совокуп ности отбираются «сериями» , которые должны исследоваться при помощи сплошного обследования. На практике пользуются сочетанием вышеупомянутых спосо 12 бов отбора.

Генеральная и выборочная совокупности Пример 1. Десять абитуриентов проходят тестирование по математике. Каждый из них может набрать от 0 до 5 баллов включительно. Пусть Xk — количество баллов, набранных k-м (k = 1, 2, . . . , 10) абитуриентом. Тогда значения 0, 1, 2, 3, 4, 5 — все возможные количества баллов, набранных одним абитуриентом, — образуют генеральную совокупность. Выборка Х 1, Х 2, . . . , Х 10 — результат тестирования 10 абитури ентов. Реализациями выборки могут быть следующие наборы чисел: {5, 3, 0, 1, 4, 2, 5, 4, 1, 5} или {4, 4, 5, 3, 3, 1, 5, 5, 2, 5} или {3, 4, 5, 0, 1, 2, 3, 4, 5, 4} и т. д. 13

Статистическое распределение выборки. Эмпирическая функция распределения Пусть изучается некоторая СВ X. С этой целью над СВ X производится ряд независимых опытов (наблюдений). В каждом из этих опытов величина X принимает то или иное значение. Пусть она приняла n 1 раз значение х1, n 2 раз – значение х2, . . . , nk раз — значение хk. При этом n 1 + n 2 +. . . + nk = n – объем выборки. Значения х1, . . . , хk называются вариантами СВ X. Вся совокупность значений СВ X представляет собой первичный статистический материал, который подлежит дальнейшей обработке, прежде всего — упорядочению. Операция расположения значений случайной величины (признака) по неубыванию называется ранжированием статистических данных. 14

Статистическое распределение выборки. Эмпирическая функция распределения Полученная таким образом последовательность x(1), x(2), …, x(n) значений СВ X (где x(1) ≤ x(2) ≤ … ≤ x(n) и x(1) = min Xi , x(n) = max Xi) называется вариационным рядом. Числа ni, показывающие, сколько раз встречаются вари анты xi в ряде наблюдений, называются частотами, а отно шение их к объему выборки — частостями или относительными частотами (р*), т. е. Перечень вариантов и соответствующих им частот или часто стей называется статистическим распределением выборки или статистическим рядом. Записывается статистическое распределение в виде таблицы. Первая строка содержит варианты, а вторая — их частоты ni 15 (или частости рi*).

Статистическое распределение выборки. Эмпирическая функция распределения Пример 2. В результате тестирования (см. пример 1) группа абитуриентов набрала баллы: 5, 3, 0, 1, 4, 2, 5, 4, 1, 5. Записать полученную выборку в виде: а) вариационного ряда; б) статистического ряда. а) Проранжировав статистические данные (т. е. исходный ряд), вариационный ряд (x(1), x(2), …, x(n) ): (0, 1, 1, 2, 3, 4, 4, 5, 5, 5). б) Подсчитав частоту и частость вариантов x 1=0, x 2=1, x 3= 2, x 4=3, x 5=4, x 6= 5, получим статистическое распределение выборки (так называемый дискретный статистический ряд) xi 0 1 2 3 4 5 ni 1 2 1 1 2 3 или xi Р*i 0 1 2 3 4 5 0, 1 0, 2 0, 3 16

Статистическое распределение выборки. Эмпирическая функция распределения Статистическое распределение выборки является оценкой неизвестного распределения. В соответствии с теоремой Бернулли относительные частоты рi* сходятся при n→∞ к соответствующим вероятностям рi, т. е. р Поэтому при больших значениях n статистическое распреде ление мало отличается от истинного распределения. В случае, когда число значений признака (СВ X) велико или признак является непрерывным (т. е. когда СВ X может при нять любое значение в некотором интервале), составляют интервальный статистический ряд. 17

Статистическое распределение выборки. Эмпирическая функция распределения В первую строку таблицы статистического распределения вписывают частичные промежутки [x 0, x 1), [x 1, x 2), …, [xk 1, xk), которые берут обычно одинаковыми по длине: h = x 1 – x 0 = x 2 x 1 = … Для определения величины интервала (h) можно исполь зовать формулу Стерджеса: где в числителе — разность между наибольшим и наимень шим значениями признака, m = 1 + log 2 n – число интервалов (log 2 n ≈ 3, 322 Ig n). За начало первого интервала рекомендуется брать величину xнач = xmin – h/2. Во второй строчке статистического ряда вписывают количество наблюдений ni (n = 1, …, k), попавших 18 в каждый интервал.

Статистическое распределение выборки. Эмпирическая функция распределения Пример 3. Измерили рост (с точностью до см) 30 наудачу отобранных студентов. Результаты измерений таковы: 178, 160, 154, 183, 155, 153, 167, 186, 163, 155, 157, 175, 170, 166, 159, 173, 182, 167, 171, 169, 179, 165, 156, 179, 158, 171, 175, 173, 164, 172. Построить интервальный статистический ряд. Для удобства проранжируем полученные данные: 153, 154, 155, 156, 157, 158, 159, 160, 163, 164, 165, 166, 167, 169, 170, 171, 172, 173, 175, 178, 179, 182, 183, 186. Отметим, что X рост студента – непрерывная СВ. При более точном измерении роста значения с. в. X обычно не повторя ются (вероятность наличия на Земле двух человек, рост кото 19

Статистическое распределение выборки. Эмпирическая функция распределения Как видим, xmin = 153, xmax = 186; по формуле Стерджеса, при n = 30, находим длину частичного интервала Примем h = 6. Тогда xнач = 153 – 6/2 = 150. Исходные данные разбиваем на 6 (m = 1 + log 230 = 5, 907 ≈ 6) интервалов: [150, 156), [156, 162), [162, 168), [168, 174), [174, 180), [180, 186). Подсчитав число студентов (ni), попавших в каждый из получен ных промежутков, получим интервальный статистический ряд: Рост [150, 156) [156, 162) [162, 168) [168, 174) [174, 180) [180, 186) Частота 4 5 6 7 5 3 Частость 0, 13 0, 17 0, 20 0, 23 0, 17 20 0, 10

Статистическое распределение выборки. Эмпирическая функция распределения Одним из способов обработки вариационного ряда явля ется построение эмпирической функции распределения. Эмпирической (статистической) функцией распределения называется функция F*(x), определяющая для каждого значения х частость события {X < х}: Fn*(x) = p*{X

Статистическое распределение выборки. Эмпирическая функция распределения При увеличении числа n наблюдений (опытов) относите льная частота события {X < х} приближается к вероятности этого события (теорема Бернулли). Эмпирическая функция распределения Fn*(x) является оценкой вероятности события {X < х}, т. е. оценкой теоретической функции распределения F(x) СВ X. Имеет место Теорема 1 (Гливенко). Пусть F(x) – теоретическая функция распределения СВ X, a Fn*(x) — эмпирическая. Тогда для любого > 0 22

Статистическое распределение выборки. Эмпирическая функция распределения Пример 4. Построить функцию Fn*(x), используя условие и результаты примера 2. Здесь n = 10. Имеем F 10*(x) = 0/10 = 0 при х ≤ 0 (наблюде ний меньше 0 нет); F 10*(x) = 1/10 при 0 < Х ≤ 1 (здесь nх = 1) и т. д. Окончательно получаем формулу и график F 10*(x) 23

Графическое изображение статистического распределения Статистическое распределение изображается графически (для наглядности) в виде так называемых полигона и гисто граммы. Полигон, как правило, служит для изображения ди скретного (т. е. варианты отличаются на постоянную величи ну) статистического ряда. Полигоном частот называют ломаную, отрезки которой соединяют точки с координатами (х1, n 1), (x 2, n 2), . . . , (xk, nk), полигоном частостей — с координатами (х1, p*1), (x 2, p*2), . . . , (xk, p*k). Варианты (хi) откладываются на оси абсцисс, а частоты и/или частости — на оси ординат. 24

Графическое изображение статистического распределения Пример 5. Для примера 2 полигон частостей имеет вид, изображенный на ниже рисунке. Заметим, что сумма частостей = 1. Как видно, полигон частостей является статистическим аналогом многоугольника распределения. 25

Графическое изображение статистического распределения Для непрерывно распределенного признака (т. е. варианты могут отличаться один от другого на сколь угодно малую величину) можно построить полигон частот, взяв середины интервалов в качестве значений x 1, х2, …, xk. Более употре бительна так называемая гистограмма. Гистограммой частот (частостей) называют ступенча тую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длины h, а высоты равны отношению ni/h— плотность частоты ( pi*/h или ni/(nh)—плотности частости). Очевидно, площадь гистограммы частот равна объему выборки, а площадь гистограммы частостей равна единице. 26

Графическое изображение статистического распределения Пример 6. Используя условие и результаты примера 3 из построить гистограмму частостей. В данном случае длина интервала равна h = 6. Находим высоты hi прямоугольников: h 1 = 0, 13/6 ≈ 0, 022 и т. д. Гистограмма частостей изображена на рис. 61. . 27

Графическое изображение статистического распределения Гистограмма частот является статистическим аналогом дифференциала функции распределения (плотности) f(x) СВ X. Сумма площадей прямоугольников равна единице что соответствует условию для плотности вероятностей f(x). На рис. 61 показана и плот ность вероятностей f{x). Если соединить середины верхних оснований прямоуголь ников отрезками прямой, то получим полигон того же распре деления. 28

Числовые характеристики статистического распределения Для выборки можно определить ряд числовых характери стик, аналогичным тем, что в теории вероятностей опреде лялись для случайных величин. Пусть статистическое распределение выборки объема n имеет вид: xi ni x 1 n 1 x 2 n 2 x 3 n 3 … … xk nk Выборочным средним хn называется среднее арифметичес кое всех значений выборки: 29

Числовые характеристики статистического распределения Выборочное среднее можно записать и так: где — частость. Для обозначения выборочного среднего используют следу ющие символы: х, М*(Х), тx*. Отметим, что в случае интервального статистического ряда в равенстве в качестве xi берут середины его интервалов, а ni – соответствующие им частоты. Выборочной дисперсией DB называется среднее арифме тическое квадратов отклонений значений выборки от выбо рочной средней хв, т. е. или, что то же самое, 30

Числовые характеристики статистического распределения Можно показать, что DB может быть подсчитана также по формуле: Выборочное среднее квадратическое отклонение выборки определяется формулой Особенность выборочного с. к. о. (σв) состоит в том, что оно измеряется в тех же единицах, что и изучаемый признак. 31

Числовые характеристики статистического распределения При решении практических задач используется и величина которая называется исправленной выборочной дисперсией. Величина называется исправленным выборочным средним квадратическим отклонением. Для непрерывно распределенного признака формулы для выборочных средних будут такими же, но за значения x 1, x 2, . . . , xk надо брать не концы промежутков [x 0, x 1), [x 1, x 2), …, а их середины (x 0 + x 1)/2, (x 1 + x 2), … 32

Числовые характеристики статистического распределения В качестве описательных характеристик вариационного ряда x(1), x(2), …, x(n) (или полученного из него статистического распределения выборки используется медиана, мода, размах вариации (выборки) и т. д. • Размахом вариации называется число R = x(n) – x(0), (где x(n) = max xk, x(0) = min хk, k=1, 2, …, n) или R = хmax – xmin (где хmax – наибольший, xmin – наименьший вариант ряда). • Модой М 0* вариационного ряда называется вариант, имеющий наибольшую частоту. • Медианой Мe* вариационного ряда называется значение признака (СВ X), приходящееся на середину ряда. Если n = 2 k (т. е. ряд x(1), x(2), …, x(2 k) имеет четное число членов), то Мe* = (x(k) + x(k+1))/2; если n = 2 k + 1, то Мe* = x(k+1). 33

Числовые характеристики статистического распределения Пример 7. По условию примера 2 найти характеристики выборки — результаты тестирования 10 абитуриентов. Используя рассмотренные формулы и определения, находим: q хв = 1/10 (0 • 1 + 1 • 2 +. . . + 5 • 3) = 3, q Dв = 1/10((0 – З)2 • 1 + (1 – З)2 • 2 +. . . + (5 – З)2 • 3) = 3, 2, q σВ = 3, 2 ≈ 1, 79, q S 2 = 10/9 • 3, 2 ≈ 3, 56, q S = 3, 56 ≈ 1, 87, q R = 5 – 0 = 5, q M 0* = 5, q Мe* = (3 + 4)/2 = 3, 5. 34