Скачать презентацию ТЕОРИЯ ВЕРОЯТНОСТИ Лекция 13 Интервальные оценки доцент Колосько Скачать презентацию ТЕОРИЯ ВЕРОЯТНОСТИ Лекция 13 Интервальные оценки доцент Колосько

Лекция 13 (интервальные оценки).pptx

  • Количество слайдов: 31

ТЕОРИЯ ВЕРОЯТНОСТИ Лекция 13 Интервальные оценки доцент: Колосько Анатолий Григорьевич ( agkolosko@mail. ru ) ТЕОРИЯ ВЕРОЯТНОСТИ Лекция 13 Интервальные оценки доцент: Колосько Анатолий Григорьевич ( agkolosko@mail. ru )

Три поросёнка α-Квантиль xα – значение, которое заданная случайная величина Х не превышает с Три поросёнка α-Квантиль xα – значение, которое заданная случайная величина Х не превышает с фиксированной вероятностью α : или, что то же самое Ква. Ртиль – значение, ниже которого лежит часть распределения вероятностей Х, кратная одной четвёртой вероятности (всего их три штуки и каждый - квантиль!): 0, 25 -квантиль называется первым (или нижним) квартилем 0, 5 -квантиль называется вторым квартилем или медианой 0, 75 -квантиль называется третьим (или верхним) квартилем. Разность между третьим и первым квартилями наз. интерквартильным размахом, Медиана и интерквартильный размах – робастные аналоги мат. ожидания и дисперсии, которые можно использовать в распределении с большими выбросами. p-й Перцентиль – квантиль уровня α = p/100. Квантили стандартного нормального распределения

Доверительный интервал Допустим, мы нашли способ по выборке V оценить неизвестный параметр Θ. Как Доверительный интервал Допустим, мы нашли способ по выборке V оценить неизвестный параметр Θ. Как оценить надёжность замены реального параметра Θ его точечной оценкой Θ*? Этот вопрос актуален при малых объёмах выборки, когда точечная оценка совсем случайна и её использование может привести к большим ошибкам. Введём вероятность попадания случайной Θ* в интервал [a, b] : P(a < Θ* < b). Интервал Iα = [Θ 1, Θ 2] называется доверительным интервалом для оценки параметра Θ, отвечающим доверительной вероятности α , если P(Θ 1 < Θ* < Θ 2) = α. Θ 1 Θ Θ* Θ 2 Р – это вероятность того, что случайный доверительный интервал Δ накроет Θ. В общем виде Θ 1 и Θ 2 – это две функции зависящие от выборки V (также как и Θ* ), её вариант и объёма, а также от доверительной вероятности α. Число α обычно выбирается близким к единице (0, 95 или даже 0, 99).

Интервальные оценки против точечных Рассмотрим статистическое исследование ожидаемых изменений цен рынка недвижимости формата стрит-ритейл. Интервальные оценки против точечных Рассмотрим статистическое исследование ожидаемых изменений цен рынка недвижимости формата стрит-ритейл. Вопрос выбора оценки = на какой из вопросов важнее ответить: 1. Какое изменение цен наиболее вероятно в течение ближайших месяцев? 2. В каком интервале находится ожидаемое вами изменение цен? С одной стороны, интереснее получить интервал, чем какую-то точечную оценку. Что даст нам точечная оценка? Всегда ведь есть разброс! Однако в отличие от точечной интервальную оценку можно проводить по-разному: кто-то стремится к максимальной определённости, поэтому получит интервал поуже, а кто-то будет осторожничать и постарается получить интервал пошире, причём оговорить все эти "тонкости" ответа на вопрос довольно сложно. Точечные оценки, наоборот, всем ясны.

Замена теоретических на экспериментальные Как же найти такой интервал Iα , который с заранее Замена теоретических на экспериментальные Как же найти такой интервал Iα , который с заранее заданной, близкой к единице, вероятностью α накрывал бы истинное значение Θ? Если бы был известен закон распределения оценки Θ* , какой-нибудь F(Θ* ), то для вычисления границ интервала, достаточно было бы найти такое ε , что : Однако закон распределения ΘV зависит от случайной величины Х, формирующей выборку V, то есть зависит от закона распределения самой Х, который конечно включает в себя то самое неизвестное Θ, которое мы пытаемся оценить. т. е. F(Θ* ) ~ V(X) ~ F(X) ~ Θ В некотором приближении можно заменить в выражении для ε , полученном из формулы распределения Х, неизвестные параметры их точечными оценками. Это возможно при сравнительно большом числе опытов (объёме выборки > 20).

Метод построения интервала № 1 Предположим, что характеристика объектов генеральной совокупности Х имеет нормальное Метод построения интервала № 1 Предположим, что характеристика объектов генеральной совокупности Х имеет нормальное распределение: Х ~ N(a, σ2). Из любой выборки V мы можем определить оценочные а. В и σВ , так как : а - это мат. ожидание Х, а σ - исправленное среднеквадратичное отклонение. В таком случае оказывается, что доверительный интервал для неизвестного математического ожидания а любой случайной выборки V : где Zα – всего лишь решение уравнения Ф(Zα) = α / 2.

Вывод формулы Оцениваем параметр а, предполагая, что σ уже нашли. Найдем такую величину ε, Вывод формулы Оцениваем параметр а, предполагая, что σ уже нашли. Найдем такую величину ε, для которой Так как а. V – среднее арифметическое случайных величин Х (числа выборки), то по Центральной Предельной Теореме при достаточно большом n их сумма (∑аi = n∙ а. В) тоже распределена по нормальному закону: n∙а. В ~ N(a, σ2). Откуда получаем : а. В ~ N(a, σ2/n) Тогда вероятность попадания случайной величины а. В в интервал а. В ± ε из свойств нормального распределения: Делаем замену переменной, вводим долгожданное zα, и вуаля!

Пример 1 Отобранные случайным образом из некоторой популяции (генеральной совокупн. ) 10 студентов откармливались Пример 1 Отобранные случайным образом из некоторой популяции (генеральной совокупн. ) 10 студентов откармливались в столовой по специальному рациону. Прибавление веса регистрировалось и по прошествии определённого периода, оказалось таковым: Известно, что прибавление веса имеет нормальное распределение со среднеквадратичной ошибкой σ = 40 (разброс тел по весам). Определить доверительный интервал с доверительной вероятностью 0, 95 для среднего прибавления веса в популяции студентов при этом рационе.

Решение Построим доверительный интервал по доказанной формуле при n = 10, α = 0, Решение Построим доверительный интервал по доказанной формуле при n = 10, α = 0, 95 и σ = 40. Выборочное среднее в данной выборке у нас M = 90, 6, а zα = 1, 96. Тогда границами доверительного интервала будут: А сам доверительный интервал: Iα = (66, 12 ; 115, 4) Итак, при изучении большого числа выборок по 10 студентов в каждой в предполагаемых "нормальных" условиях вычисленный нами интервал должен в 95% случаев включать истинное среднее прибавление веса в популяции.

Пример 2 Случайным образом в банке выбрали и проанализировали 400 кредитов. Невозвращенными оказались 80. Пример 2 Случайным образом в банке выбрали и проанализировали 400 кредитов. Невозвращенными оказались 80. Найти доверительный интервал с уровнем доверия 0. 95 для вероятности невозвращения кредита по всей совокупности кредитов.

Решение Дисперсия однократного события - невозврата с вероятностью р: D = p∙(1 -p) При Решение Дисперсия однократного события - невозврата с вероятностью р: D = p∙(1 -p) При большом n > 100, отклонение частоты события p* от вероятности p имеет нормальное распределение. Используем выведенную формулу: Находим по таблице значение zα, для которого выполняется это условие: При большом n можно сделать замену: По данным задачи: Тогда:

Основные виды распределений, используемые в статистике для построения доверительных интервалов и проверки гипотез (4 Основные виды распределений, используемые в статистике для построения доверительных интервалов и проверки гипотез (4 штуки)

Нормальное распределение (закон Гаусса) имеет плотность вероятности: f(x ) Замена Y = (X - Нормальное распределение (закон Гаусса) имеет плотность вероятности: f(x ) Замена Y = (X - a) / σ даёт стандартизированное нормальное распределение:

χ2 -распределение Если Х нормально распределена, центрирована и нормирована, то функция Z = ∑Xi χ2 -распределение Если Х нормально распределена, центрирована и нормирована, то функция Z = ∑Xi от выборки (X 1, X 2, . . . , Xn) будет иметь так называемое χ2 -распределение с n степенями свободы. Его плотность вероятности: Г(x) - гамма функция: Для целых х : Г(n+1) = n! Это распределение задаётся лишь одним параметром - числом степеней свободы, причём с ростом n оно как-то слева приближается к нормальному.

t-распределение Стьюдента Если Y - нормальная случайная величина, центрированная и нормированная, а Z - t-распределение Стьюдента Если Y - нормальная случайная величина, центрированная и нормированная, а Z - независимая от неё случайная величина с χ2 распределением с n степенями свободы, то величина T : будет иметь так называемое распределение Стьюдента (псевдоним англ. В. Госсета) с n степенями свободы. Плотность его вероятности: С ростом n t-распределение быстро приближается к нормальному. В частности, для любой нормальной величины Х этим распределением будет обладать функция .

F-распределение Фишера Если X и Y - две независимые случайные величины, распределённые по закону F-распределение Фишера Если X и Y - две независимые случайные величины, распределённые по закону χ2 со степенями свободы k 1 и k 2, то величина F : будет иметь распределение Фишера-Снедекора со степенями свободы k 1 и k 2. Его плотность вероятности: где Если то . При то есть

Метод построения интервала № 2 Пусть произведено n независимых опытов над случайной величиной Х, Метод построения интервала № 2 Пусть произведено n независимых опытов над случайной величиной Х, распределенной по нормальному закону с неизвестными параметрами. Мат. ожидание и дисперсия опять-таки оцениваются только по выборке: Тогда доверительным интервалом с вероятностью α для мат. ожидания m будет: где tα, n-1 - т. н. коэффициент Стьюдента, который находится из таблиц. (это правая критическая точка распределения t (n-1) с уровнем значимости 1 - α). Указанный доверительный интервал шире интервала, найденного ранее для а, потому что в этот раз мы не заменяли теоретическую дисперсию выборочной.

Вывод формулы Построим симметричный доверительный интервал для мат. ожидания шириной 2ε. Перейдем в левой Вывод формулы Построим симметричный доверительный интервал для мат. ожидания шириной 2ε. Перейдем в левой части к случайной величине Т, распределенной по закону Стьюдента, умножив обе части неравенства на одну и ту же величину : Стьюдент: теперь где Используем для вычисления вероятности плотность вероятности Стьюдента: Решение этого уравнения для заданного α относительно t находится по таблицам. Зная tα, n-1 , можно получить и сам Iα : MВ - εα < MВ + εα.

Таблица коэффициентов Стьюдента. Таблица коэффициентов Стьюдента.

Пример 3 Отобранные случайным образом из некоторой популяции (генеральной совокупн. ) 10 студентов откармливались Пример 3 Отобранные случайным образом из некоторой популяции (генеральной совокупн. ) 10 студентов откармливались в столовой по специальному рациону. Прибавление веса регистрировалось и по прошествии определённого периода, оказалось таковым: Известно, что прибавление веса имеет нормальное распределение с НЕИЗВЕСТНОЙ среднеквадратичной ошибкой. Определить доверительный интервал с доверительной вероятностью 0, 95 для среднего прибавления веса в популяции студентов при этом рационе.

Решение Исправленная выборочная дисперсия по данным примера равна 992, 8. Применяя выведенную формулу для Решение Исправленная выборочная дисперсия по данным примера равна 992, 8. Применяя выведенную формулу для доверительного интервала, и учитывая, что tα, n-1 = t 0, 95, 9 , = 2, 262, найдём границы случайного интервала: тогда сам интервал Iα = (68, 06 ; 113, 14). Отметим, что при большом n можно строить приближенные интервалы для неизвестного математического ожидания M без предположения нормальности.

Пример 4 Произведено 5 независимых опытов над случайной величиной Х, распределенной нормально с неизвестными Пример 4 Произведено 5 независимых опытов над случайной величиной Х, распределенной нормально с неизвестными параметрами m и σ. Найти оценку для мат. ожидания и построить доверительный интервал с доверительной вероятностью 0, 9. i xi 1 2 -2, 5 3, 4 3 4 5 -2 1 2, 1

Решение. По таблице находим для n - 1 = 4 и α = 0, Решение. По таблице находим для n - 1 = 4 и α = 0, 9 tα, n-1 = 2, 13

Доверительный интервал для дисперсии Рассмотрим несмещенную точечную оценку дисперсии по выборке объёма n : Доверительный интервал для дисперсии Рассмотрим несмещенную точечную оценку дисперсии по выборке объёма n : Составим из случайной величины DВ величину Z, которая будет ещё и нормирована: Эта Z – сумма квадратов независимых Хi поэтому должна быть распределена по χ2: Выберем интервал так, чтобы вероятности выхода величины Z за его пределы вправо и влево были одинаковы и равны. Пользуясь таблицей для P(Z > χ2) = pзаданная. найдём числа χ21 и χ22 для P = (1+α)/2 и (1 -α)/2. Тогда искомый интервал будет:

Сопряжённые априорные распределения Рассмотрим задачу о нахождении p(Θ | x) – распределения параметра Θ, Сопряжённые априорные распределения Рассмотрим задачу о нахождении p(Θ | x) – распределения параметра Θ, рассматриваемого как случайная величина, по измерению (выборке) величины Х. Согласно теореме Байеса апостериорное (выведенное из опыта) распределение вычисляется из априорного (не зависящее от опыта) распределения по формуле: Это аналог известного выражения: Здесь p(Θ) - плотность вероятности теоретического распределения Х, а p(x|Θ) - функция правдоподобия (как бы вероятность получить такую выборку). Сопряжённое априорное распределение (conjugate prior) – это апостериорное распределение p(Θ|Х), которое принадлежит к тому же семейству распределений, что и априорное распределение p(Θ), но с другими параметрами. Так например в байесовской статистике широко используется Бета-распределение, потому что оно является сопряжённым априорным распределением для биномиального, геометрического и пуассоновского распределений.

 - распределение Бе та-распределе ние – это двухпараметрическое семейство непрерывных распределений. Используется для - распределение Бе та-распределе ние – это двухпараметрическое семейство непрерывных распределений. Используется для описания случайных величин, значения которых ограничены каким-то интервалом. Случайная величина имеет бета-распределение, если её плотность вероятности: где α и β – произвольные фиксированные параметры больше нуля, B - бета функция: Стандартное непрерывное равномерное распределение является частным случаем бета-распределения: N(0, 1) = B(1, 1)

Сопряжённые дискретные семейства распределений. Сопряжённые дискретные семейства распределений.

Сопряжённые непрерывные семейства распределений. Сопряжённые непрерывные семейства распределений.

Спасибо за внимание : ). . доверительный интервал. . . Спасибо за внимание : ). . доверительный интервал. . .

Вопросы для контроля усвояемости предмета • • • Доверительный интервал Доверительная вероятность В чём Вопросы для контроля усвояемости предмета • • • Доверительный интервал Доверительная вероятность В чём отличие интервальных оценок от точечных? Как построить доверительный интервал по заданной выборке и заданной доверительной вероятности, если дисперсия распределения признака ИЗВЕСТНА? Нормальное распределение (плотность вероятности f ) χ2 -распределение (формула для признака Z) распределение Стьюдента (формула для признака T) распределение Фишера (формула для признака F) Как построить доверительный интервал по заданной выборке и заданной доверительной вероятности, если дисперсия распределения признака НЕизвестна?