Скачать презентацию Математическая статистика Основной задачей математической статистики является Скачать презентацию Математическая статистика Основной задачей математической статистики является

мат статистика 1.ppt

  • Количество слайдов: 110

Математическая статистика Математическая статистика

Основной задачей математической статистики является разработка методов получения научно обоснованных выводов о массовых явлениях Основной задачей математической статистики является разработка методов получения научно обоснованных выводов о массовых явлениях и процессах из данных наблюдений и экспериментов.

Эти выводы и заключения относятся не к отдельным испытаниям, из повторения которых складывается данное Эти выводы и заключения относятся не к отдельным испытаниям, из повторения которых складывается данное массовое явление, а представляют собой утверждения об общих вероятностных характеристиках данного процесса, то есть о вероятностях, законах распределения, математических ожиданиях, дисперсиях и т. д. Такое использование фактических данных как раз и является отличительной чертой статистического метода.

В математической статистике рассматриваются две основные категории задач: оценивание и статистическая проверка гипотез. Первая В математической статистике рассматриваются две основные категории задач: оценивание и статистическая проверка гипотез. Первая задача разделяется на точечное оценивание и интервальное оценивание параметров распределения. Например, может возникнуть необходимость по n наблюдениям получить точечные оценки параметров M(X) и D(X).

Если мы хотим получить некоторый интервал, с той или иной степенью достоверности содержащий истинное Если мы хотим получить некоторый интервал, с той или иной степенью достоверности содержащий истинное значение параметра, то это задача интервального оценивания.

Вторая задача – проверка гипотез – заключается в том, что мы делаем предположение о Вторая задача – проверка гипотез – заключается в том, что мы делаем предположение о распределении вероятностей случайной величины (например, о значении одного или нескольких параметров функции распределения) и решаем, согласуются ли в некотором смысле эти значения параметров с полученными результатами наблюдений.

Выборочный метод Выборочный метод

Пусть нам нужно обследовать количественный признак в партии экземпляров некоторого товара. Проверку партии можно Пусть нам нужно обследовать количественный признак в партии экземпляров некоторого товара. Проверку партии можно проводить двумя способами: 1) провести сплошной контроль всей партии; 2) провести контроль только части партии.

Первый способ не всегда осуществим, например, из–за большого числа экземпляров в партии, из–за дороговизны Первый способ не всегда осуществим, например, из–за большого числа экземпляров в партии, из–за дороговизны проведения операции контроля, из–за того, что контроль связан с разрушением экземпляра (проверка электролампы на долговечность ее работы).

При втором способе множество случайным образом отобранных объектов называется выборочной совокупностью или выборкой. При втором способе множество случайным образом отобранных объектов называется выборочной совокупностью или выборкой.

Все множество объектов, из которого производится выборка, называется генеральной совокупностью. Число объектов в выборке Все множество объектов, из которого производится выборка, называется генеральной совокупностью. Число объектов в выборке называется объемом выборки.

Обычно будем считать, что объем генеральной совокупности бесконечен. Выборки разделяются на повторные (с возвращением) Обычно будем считать, что объем генеральной совокупности бесконечен. Выборки разделяются на повторные (с возвращением) и бесповторные (без возвращения).

Обычно осуществляются бесповторные выборки, но благодаря большому (бесконечному) объему генеральной совокупности ведутся расчеты и Обычно осуществляются бесповторные выборки, но благодаря большому (бесконечному) объему генеральной совокупности ведутся расчеты и делаются выводы, справедливые лишь для повторных выборок.

Выборка должна достаточно полно отражать особенности всех объектов генеральной совокупности, иначе говоря, выборка должна Выборка должна достаточно полно отражать особенности всех объектов генеральной совокупности, иначе говоря, выборка должна быть репрезентативной (представительной).

Выборки различаются по способу отбора. 1. Простой случайный отбор. Все элементы генеральной совокупности нумеруются Выборки различаются по способу отбора. 1. Простой случайный отбор. Все элементы генеральной совокупности нумеруются и из таблицы случайных чисел берут, например, последовательность любых 30 -ти идущих подряд чисел. Элементы с выпавшими номерами и входят в выборку.

2. Типический отбор. Такой отбор производится в том случае, если генеральную совокупность можно представить 2. Типический отбор. Такой отбор производится в том случае, если генеральную совокупность можно представить в виде объединения подмножеств, объекты которых однородны по какому–то признаку, хотя вся совокупность такой однородности не имеет (партия товара состоит из нескольких групп, произведенных на разных предприятиях). Тогда по каждому подмножеству проводят простой случайный отбор, и в выборку объединяются все полученные объекты.

3. Механический отбор. Отбирают каждый двадцатый (сотый) экземпляр. 3. Механический отбор. Отбирают каждый двадцатый (сотый) экземпляр.

4. Серийный отбор. В выборку подбираются экземпляры, произведенные на каком–то производстве в определенный промежуток 4. Серийный отбор. В выборку подбираются экземпляры, произведенные на каком–то производстве в определенный промежуток времени.

В дальнейшем под генеральной совокупностью мы будем подразумевать не само множество объектов, а множество В дальнейшем под генеральной совокупностью мы будем подразумевать не само множество объектов, а множество значений случайной величины, принимающей числовое значение на каждом из объектов.

Рассмотрим выборку объема n, представляющую данную генеральную совокупность. Рассмотрим выборку объема n, представляющую данную генеральную совокупность.

Первое выборочное значение x 1 будем рассматривать как реализацию, как одно из возможных значений Первое выборочное значение x 1 будем рассматривать как реализацию, как одно из возможных значений случайной величины X 1, имеющей тот же закон распределения с теми же параметрами, что и случайная величина X. Второе выборочное значение x 2 – одно из возможных значений случайной величины X 2 с тем же законом распределения, что и случайна величина X. То же самое можно сказать о значениях x 3, x 4, . . . , xn.

Таким образом на выборку будем смотреть как на совокупность независимых случайных величин X 1, Таким образом на выборку будем смотреть как на совокупность независимых случайных величин X 1, X 2, . . . , Xn, распределенных так же, как и случайная величина X, представляющая генеральную совокупность.

Выборочные значения x 1, x 2, . . . , xn – это значения, Выборочные значения x 1, x 2, . . . , xn – это значения, которые приняли эти случайные величины в результате 1 -го, 2 -го, . . . , n-го эксперимента.

Вариационные ряды и их числовые характеристики. Вариационные ряды и их числовые характеристики.

Пусть для объектов генеральной совокупности определен некоторый признак или числовая характеристика, которую можно замерить Пусть для объектов генеральной совокупности определен некоторый признак или числовая характеристика, которую можно замерить (размер детали, удельное количество нитратов в дыне, шум работы двигателя). Эта характеристика – случайная величина X, принимающая на каждом объекте определенное числовое значение.

Из выборки объема n получаем значения этой случайной величины в виде ряда из n Из выборки объема n получаем значения этой случайной величины в виде ряда из n чисел: x 1, x 2, . . . , xn. (*) Эти числа называются значениями признака.

Среди чисел ряда (*) могут быть одинаковые числа. Если значения признака упорядочить, то есть Среди чисел ряда (*) могут быть одинаковые числа. Если значения признака упорядочить, то есть расположить в порядке возрастания или убывания, написав каждое значение лишь один раз, а затем под каждым значением xi признака написать число mi, показывающее сколько раз данное значение встречается в ряду (*):

x 1 x 2 x 3 . . . xk m 1 m 2 x 1 x 2 x 3 . . . xk m 1 m 2 m 3 . . . mk

то получится таблица, называемая дискретным вариационным рядом. Число mi называется частотой i-го значения признака. то получится таблица, называемая дискретным вариационным рядом. Число mi называется частотой i-го значения признака. Очевидно, что xi в ряду (*) может не совпадать с xi в вариационном ряду. Очевидна также справедливость равенства

Если промежуток между наименьшим и наибольшим значениями признака в выборке разбить на несколько интервалов Если промежуток между наименьшим и наибольшим значениями признака в выборке разбить на несколько интервалов одинаковой длины, каждому интервалу поставить в соответствие число выборочных значений признака, попавших в этот интервал, то получим интервальный вариационный ряд.

xi 200 -210 210 -220 220 -230 230 -240 240 -250 250 -260 ni xi 200 -210 210 -220 220 -230 230 -240 240 -250 250 -260 ni 2 4 7 8 6 3

Если признак может принимать любые значения из некоторого промежутка, то есть является непрерывной случайной Если признак может принимать любые значения из некоторого промежутка, то есть является непрерывной случайной величиной, приходится выборку представлять именно таким рядом.

Если в вариационном интервальном ряду каждый интервал [ i; i+1) заменить лежащим в его Если в вариационном интервальном ряду каждый интервал [ i; i+1) заменить лежащим в его середине числом ( i+ i+1)/2, то получим дискретный вариационный ряд. Такая замена вполне естественна, так как, например, при измерении размера детали с точностью до одного миллиметра всем размерам из промежутка (49, 5; 50, 5), будет соответствовать одно число, равное 50.

Графическое представление статистических данных Графическое представление статистических данных

Статистический график – это чертеж, на котором статистические совокупности, характеризуемые определенными показателями, описываются с Статистический график – это чертеж, на котором статистические совокупности, характеризуемые определенными показателями, описываются с помощью условных геометрических образов или знаков. Представление данных таблицы в виде графика делает статистический материал более наглядным и доступным.

Диаграммы – наиболее распространенный способ графических изображений, это графики количественных отношений. Виды и способы Диаграммы – наиболее распространенный способ графических изображений, это графики количественных отношений. Виды и способы их построения разнообразны. Диаграммы применяются для наглядного сопоставления в различных аспектах независимых друг от друга величин: территорий, населения и т. д. При этом сравнение совокупностей производится по какому-либо существенному варьирующему признаку.

Пример. Имеются данные о группировке рабочих по стажу лет, оформленные в виде табл. Построить Пример. Имеются данные о группировке рабочих по стажу лет, оформленные в виде табл. Построить гистограмму (непрерывную столбиковую диаграмму) по этим данным.

Интервал стажа рабочих, лет 1– 3 3– 5 5– 7 7– 9 9– 11 Интервал стажа рабочих, лет 1– 3 3– 5 5– 7 7– 9 9– 11 Итого Число рабочих 4 12 15 10 9 50

Решение: При построении откладываются прямоугольники с высотой прямо пропорциональной частоте данного интервала, шириной – Решение: При построении откладываются прямоугольники с высотой прямо пропорциональной частоте данного интервала, шириной – длине интервала.

Точечные оценки параметров генеральной совокупности. Точечные оценки параметров генеральной совокупности.

Пусть выборка объема n представлена в виде вариационного ряда. Назовем выборочной средней величину Пусть выборка объема n представлена в виде вариационного ряда. Назовем выборочной средней величину

Величина называется относительной частотой значения признака xi. Величина называется относительной частотой значения признака xi.

Если значения признака, полученные из выборки не группировать и не представлять в виде вариационного Если значения признака, полученные из выборки не группировать и не представлять в виде вариационного ряда, то для вычисления выборочной средней нужно пользоваться формулой

Естественно считать величину выборочной оценкой параметра M(X). Выборочная оценка параметра, представляющая собой число, называется Естественно считать величину выборочной оценкой параметра M(X). Выборочная оценка параметра, представляющая собой число, называется точечной оценкой. Выборочную дисперсию

можно считать точечной оценкой дисперсии D(X) генеральной совокупности. можно считать точечной оценкой дисперсии D(X) генеральной совокупности.

x 1 x 2 . . . xn y 1 y 2 . . x 1 x 2 . . . xn y 1 y 2 . . . yn

Выборочный коэффициент корреляции рассчитывается по формуле Выборочный коэффициент корреляции рассчитывается по формуле

Здесь Здесь

Выборочный коэффициент корреляции можно рассматривать как точечную оценку, характеризующего генеральную совокупность. Выборочный коэффициент корреляции можно рассматривать как точечную оценку, характеризующего генеральную совокупность.

Выборочные параметры или любые другие зависят от того, какие объекты генеральной совокупности попали в Выборочные параметры или любые другие зависят от того, какие объекты генеральной совокупности попали в выборку и различаются от выборки к выборке. Поэтому они сами являются случайными величинами.

Например. Выборочная проверка размеров дневной выручки оптовой базы от реализации товаров по 100 рабочим Например. Выборочная проверка размеров дневной выручки оптовой базы от реализации товаров по 100 рабочим дням дала следующие результаты:

i 1 2 3 4 5 6 7 8 Ji 0 -5 5 - i 1 2 3 4 5 6 7 8 Ji 0 -5 5 - 10 10 - 15 15 -20 20 - 25 25 - 30 30 - 35 35 - 40 2 7 14 19 25 20 10 3 ni

Здесь, i - номер интервала наблюденных значений дневной выручки ( i=1… 8); Ji - Здесь, i - номер интервала наблюденных значений дневной выручки ( i=1… 8); Ji - границы i – го интервала (в условных денежных единицах); ni - число рабочих дней, когда дневная выручка оказывалась в пределах i - го интервала; при этом очевидно, что

Требуется: n построить гистограмму частот; n найти несмещенные оценки и s 2 для математического Требуется: n построить гистограмму частот; n найти несмещенные оценки и s 2 для математического ожидания и дисперсии случайной величины Х (дневной выручки оптовой базы) соответственно; n определить приближенно вероятность того, что в наудачу выбранный рабочий день дневная выручка составит не менее 15 условных денежных единиц.

Решение. В условиях данной задачи естественно исходить из того, что наблюдаемая случайная величина Х Решение. В условиях данной задачи естественно исходить из того, что наблюдаемая случайная величина Х (дневная выручка оптовой базы) имеет непрерывное распределение вероятностей.

Статистическим аналогом графика плотности распределения такой случайной величины, как известно, является гистограмма относительных частот. Статистическим аналогом графика плотности распределения такой случайной величины, как известно, является гистограмма относительных частот.

Она представляет собой совокупность прямоугольников, построенных на выделенных интервалах наблюденных значений случайной величины Х Она представляет собой совокупность прямоугольников, построенных на выделенных интервалах наблюденных значений случайной величины Х как на основаниях. Площадь каждого i-го прямоугольника равна относительной частоте wi i-го интервала, определяемой по формуле

Отсюда высота i-го прямоугольника вычисляется как где hi, - длина i-го интервала (в нашей Отсюда высота i-го прямоугольника вычисляется как где hi, - длина i-го интервала (в нашей задаче hi = h = 5 для всех i =1… 8 ).

Полная площадь гистограммы, таким образом, будет равна единице. На основе изложенного для построения гистограммы Полная площадь гистограммы, таким образом, будет равна единице. На основе изложенного для построения гистограммы составим следующую таблицу.

i 1 2 3 4 5 6 Ji 0 -5 5 - 10 ni i 1 2 3 4 5 6 Ji 0 -5 5 - 10 ni 2 7 14 19 25 20 10 3 wi 0, 02 0, 07 0, 14 0, 19 0, 25 0, 20 0, 10 0, 03 0, 004 0, 014 0, 028 0, 038 0, 05 0, 04 0, 02 0, 006 10 - 15 15 - 20 20 - 25 25 - 30 7 8 30 - 35 35 - 40

Вид этой гистограммы позволяет считать рассматриваемое распределение вероятностей нормальным. Вид этой гистограммы позволяет считать рассматриваемое распределение вероятностей нормальным.

Несмещенные оценки и s 2 найдем по формулам Несмещенные оценки и s 2 найдем по формулам

Все необходимые вычисления для удобства и наглядности проведем в рамках следующей таблицы: Все необходимые вычисления для удобства и наглядности проведем в рамках следующей таблицы:

i 1 2 3 4 5 6 7 8 xi 2, 5 7, 5 i 1 2 3 4 5 6 7 8 xi 2, 5 7, 5 12, 5 17, 5 22, 5 27, 5 32, 5 37, 5 wi 0, 02 0, 07 0, 14 0, 19 0, 25 0, 20 0, 10 0, 03 xi wi 0, 05 0, 525 1, 75 3, 325 5, 625 5, 5 3, 25 1, 125 = 21, 15 18, 65 13, 65 8, 65 3, 65 1, 35 6, 35 11, 35 16, 35 347, 82 186, 32 74, 82 13, 32 1, 82 40, 32 128, 82 267, 32 13, 04 10, 48 2, 53 0, 46 8, 06 12, 88 8, 02 w 6, 96 i

Таким образом, Таким образом,

Как следует из пункта 1, распределение случайной величины Х можно считать нормальным. В качестве Как следует из пункта 1, распределение случайной величины Х можно считать нормальным. В качестве его параметров возьмем оценки

Тогда приближенно вероятность P(Х 15) того, что в наудачу выбранный рабочий день дневная выручка Тогда приближенно вероятность P(Х 15) того, что в наудачу выбранный рабочий день дневная выручка оптовой базы составит не менее 15 условных денежных единиц, можно вычислить следующим образом, c использованием функции Лапласа Ф(х). Имеем Р(x<15)+Р(x 15)=1 Р(x 15)= =1 - Р(x<15)=1 - F(15),

Но Но

Таким образом, P(Х 15) 0, 78. Это означает, что в среднем в 78 из Таким образом, P(Х 15) 0, 78. Это означает, что в среднем в 78 из 100 рабочих дней дневная выручка оптовой базы составит не менее 15 условных денежных единиц.

Статистические оценки статистических гипотез Обычно в практических задачах не встречаются случайные величины, распределения которых Статистические оценки статистических гипотез Обычно в практических задачах не встречаются случайные величины, распределения которых точно соответствовали бы теоретическим распределениям.

Подбор таких моделей и анализ их адекватности моделируемым случайным величинам, что является одной из Подбор таких моделей и анализ их адекватности моделируемым случайным величинам, что является одной из основных задач математической статистики, которая, в свою очередь, сводится к проверке предположений (гипотез) о виде модели распределения и о его параметрах.

n Определение 3. Статистической называется гипотеза о виде неизвестного распределения, о параметрах известных распределений, n Определение 3. Статистической называется гипотеза о виде неизвестного распределения, о параметрах известных распределений, об отношениях между случайными величинами и т. д.

n Определение 4. Нулевой (основной) гипотезой называется выдвинуn тая гипотеза Hо. n Определение 5. n Определение 4. Нулевой (основной) гипотезой называется выдвинуn тая гипотеза Hо. n Определение 5. Конкурирующей (альтернативной) гипотезой называется гипотеза H, которая противоречит нулевой гипотезе Но

Гипотезы различают на простые (содержащие только одно предположение) и сложные (состоящие из конечного или Гипотезы различают на простые (содержащие только одно предположение) и сложные (состоящие из конечного или бесконечного числа простых гипотез). Наиболее распространенными являются два типа гипотез:

n 1. Параметрические гипотезы: при известном виде распределения предположения о неизвестных характеристиках этого распределения. n 1. Параметрические гипотезы: при известном виде распределения предположения о неизвестных характеристиках этого распределения. n 2. Для известной случайной величины (выборки) предположения о виде ее распределения.

Общая схема проверки статистических гипотез Определение 6. Статистическим критерием (или просто критерием) называют случайную Общая схема проверки статистических гипотез Определение 6. Статистическим критерием (или просто критерием) называют случайную величину T, которая служит для проверки статистических гипотез.

Укажем основные моменты проверки статистических гипотез. 1. Для основной гипотезы о формулируется альтернативная гипотеза Укажем основные моменты проверки статистических гипотез. 1. Для основной гипотезы о формулируется альтернативная гипотеза H, . 2. Выбирается малое положительное число а — уровень значимости проверки. Обычно а колеблется в пределах от 0, 01 до 0, 05.

n 3. Рассматриваются теоретические выборки значений случайных величин, о которых сформулирована гипотеза Hо, и n 3. Рассматриваются теоретические выборки значений случайных величин, о которых сформулирована гипотеза Hо, и выбирается (формируется) случайная величина Т. Значения и распределение T полностью определяются по выборкам при предположении о верности гипотезы Hо. Величина Т называется статистикой или тестом критерия.

n 4. На числовой оси задают интервал D такой, что вероятность попадания текста Т n 4. На числовой оси задают интервал D такой, что вероятность попадания текста Т в этот интервал равна р = 1 - а:

n Интервал D называется областью принятия гипотезы Hо, а оставшаяся область числовой оси — n Интервал D называется областью принятия гипотезы Hо, а оставшаяся область числовой оси — критической областью. В ряде случаев за область D принимают один из интервалов:

где число tkp — критическое значение теста проверки. Соответственно этим промежуткам критерий проверки называется где число tkp — критическое значение теста проверки. Соответственно этим промежуткам критерий проверки называется правосторонним, двусторонним или левосторонним. Соответствующие области отклонения гипотезы Hо:

n 5. По реализациям анализируемых теоретических выборок вычисляется конкретное (наблюдаемое) значение теста Т (обозначим n 5. По реализациям анализируемых теоретических выборок вычисляется конкретное (наблюдаемое) значение теста Т (обозначим его tk) и проверяется выполнение условия : если оно выполняется, то гипотеза Hо принимается в том смысле, что она не противоречит опытным данным; если же условие не выполняется, то полагается, что гипотеза Hо неверна и вероятность этого события определена неверно.

Из представленной ранее схемы следует, что при проверке гипотезы Hо возможны следующие ошибки: • Из представленной ранее схемы следует, что при проверке гипотезы Hо возможны следующие ошибки: • ошибка первого рода — отвергнуть гипотезу Hо при ее правильности, вероятность этой ошибки равна а; • ошибка второго рода — принятие гипотезы Hо при правильности альтернативной гипотезы H, .

Пусть вероятность ошибки второго рода равна f, тогда число 1 - f называют мощностью Пусть вероятность ошибки второго рода равна f, тогда число 1 - f называют мощностью критерия. Чем больше мощность критерия, тем меньше вероятность ошибки второго рода. При выбранном уровне значимости критическую область следует строить так, чтобы мощность критерия была максимальной.

Типы статистических критериев проверки гипотез n Любой критерий не доказывает справедливость проверяемой гипотезы Hо, Типы статистических критериев проверки гипотез n Любой критерий не доказывает справедливость проверяемой гипотезы Hо, а лишь устанавливает на принятом уровне значимости ее согласие или несогласие с данными наблюдений. Укажем здесь наиболее употребительные критерии проверки статистических гипотез:

n Рассмотрим примеры проверки статистических гипотез с использованием критериев X^2 и Стьюдента. n Рассмотрим примеры проверки статистических гипотез с использованием критериев X^2 и Стьюдента.

n При уровне значимости 0, 05 проверить гипотезу Hо о нормальном распределении генеральной совокупности. n При уровне значимости 0, 05 проверить гипотезу Hо о нормальном распределении генеральной совокупности.

Далее находим число степеней свободы k = s - 3 = 8 - 3 Далее находим число степеней свободы k = s - 3 = 8 - 3 = 5 (число групп выборки минус один — это число степеней свободы распределения Пирсона — и минус еще два, так как нормальное распределение характеризуется двумя параметрами — математическим ожиданием и дисперсией).

По таблице критических точек распределения X^2 (приложение 3) по уровню значимости а = 0, По таблице критических точек распределения X^2 (приложение 3) по уровню значимости а = 0, 05 и числу степеней свободы 5 находим критическое значение теста то оснований отвергать нулевую гипотезу Но нет, т. е. Расхождение эмпирических и теоретических частот незначимое. Иными словами, гипотеза о нормальном распределении генеральной совокупности не противоречит данным наблюдений.

n Пример 9. Для независимых наблюдений хи хъ. . . , х„ проверим гипотезу n Пример 9. Для независимых наблюдений хи хъ. . . , х„ проверим гипотезу Яо: математическое ожидание т = т0 при двусторонней альтернативной гипотезе Н Уровень значимости а задан.

n где s — оценка среднего квадратического отклонения. Величина Т имеет распределение Стьюдента с n где s — оценка среднего квадратического отклонения. Величина Т имеет распределение Стьюдента с n - 1 степенями свободы. По таблице распределения Стьюдента при заданном n находим критическую точку определяющую доверительный интервал