Лекция 13 (интервальные оценки).pptx
- Количество слайдов: 31
ТЕОРИЯ ВЕРОЯТНОСТИ Лекция 13 Интервальные оценки доцент: Колосько Анатолий Григорьевич ( agkolosko@mail. ru )
Три поросёнка α-Квантиль xα – значение, которое заданная случайная величина Х не превышает с фиксированной вероятностью α : или, что то же самое Ква. Ртиль – значение, ниже которого лежит часть распределения вероятностей Х, кратная одной четвёртой вероятности (всего их три штуки и каждый - квантиль!): 0, 25 -квантиль называется первым (или нижним) квартилем 0, 5 -квантиль называется вторым квартилем или медианой 0, 75 -квантиль называется третьим (или верхним) квартилем. Разность между третьим и первым квартилями наз. интерквартильным размахом, Медиана и интерквартильный размах – робастные аналоги мат. ожидания и дисперсии, которые можно использовать в распределении с большими выбросами. p-й Перцентиль – квантиль уровня α = p/100. Квантили стандартного нормального распределения
Доверительный интервал Допустим, мы нашли способ по выборке V оценить неизвестный параметр Θ. Как оценить надёжность замены реального параметра Θ его точечной оценкой Θ*? Этот вопрос актуален при малых объёмах выборки, когда точечная оценка совсем случайна и её использование может привести к большим ошибкам. Введём вероятность попадания случайной Θ* в интервал [a, b] : P(a < Θ* < b). Интервал Iα = [Θ 1, Θ 2] называется доверительным интервалом для оценки параметра Θ, отвечающим доверительной вероятности α , если P(Θ 1 < Θ* < Θ 2) = α. Θ 1 Θ Θ* Θ 2 Р – это вероятность того, что случайный доверительный интервал Δ накроет Θ. В общем виде Θ 1 и Θ 2 – это две функции зависящие от выборки V (также как и Θ* ), её вариант и объёма, а также от доверительной вероятности α. Число α обычно выбирается близким к единице (0, 95 или даже 0, 99).
Интервальные оценки против точечных Рассмотрим статистическое исследование ожидаемых изменений цен рынка недвижимости формата стрит-ритейл. Вопрос выбора оценки = на какой из вопросов важнее ответить: 1. Какое изменение цен наиболее вероятно в течение ближайших месяцев? 2. В каком интервале находится ожидаемое вами изменение цен? С одной стороны, интереснее получить интервал, чем какую-то точечную оценку. Что даст нам точечная оценка? Всегда ведь есть разброс! Однако в отличие от точечной интервальную оценку можно проводить по-разному: кто-то стремится к максимальной определённости, поэтому получит интервал поуже, а кто-то будет осторожничать и постарается получить интервал пошире, причём оговорить все эти "тонкости" ответа на вопрос довольно сложно. Точечные оценки, наоборот, всем ясны.
Замена теоретических на экспериментальные Как же найти такой интервал Iα , который с заранее заданной, близкой к единице, вероятностью α накрывал бы истинное значение Θ? Если бы был известен закон распределения оценки Θ* , какой-нибудь F(Θ* ), то для вычисления границ интервала, достаточно было бы найти такое ε , что : Однако закон распределения ΘV зависит от случайной величины Х, формирующей выборку V, то есть зависит от закона распределения самой Х, который конечно включает в себя то самое неизвестное Θ, которое мы пытаемся оценить. т. е. F(Θ* ) ~ V(X) ~ F(X) ~ Θ В некотором приближении можно заменить в выражении для ε , полученном из формулы распределения Х, неизвестные параметры их точечными оценками. Это возможно при сравнительно большом числе опытов (объёме выборки > 20).
Метод построения интервала № 1 Предположим, что характеристика объектов генеральной совокупности Х имеет нормальное распределение: Х ~ N(a, σ2). Из любой выборки V мы можем определить оценочные а. В и σВ , так как : а - это мат. ожидание Х, а σ - исправленное среднеквадратичное отклонение. В таком случае оказывается, что доверительный интервал для неизвестного математического ожидания а любой случайной выборки V : где Zα – всего лишь решение уравнения Ф(Zα) = α / 2.
Вывод формулы Оцениваем параметр а, предполагая, что σ уже нашли. Найдем такую величину ε, для которой Так как а. V – среднее арифметическое случайных величин Х (числа выборки), то по Центральной Предельной Теореме при достаточно большом n их сумма (∑аi = n∙ а. В) тоже распределена по нормальному закону: n∙а. В ~ N(a, σ2). Откуда получаем : а. В ~ N(a, σ2/n) Тогда вероятность попадания случайной величины а. В в интервал а. В ± ε из свойств нормального распределения: Делаем замену переменной, вводим долгожданное zα, и вуаля!
Пример 1 Отобранные случайным образом из некоторой популяции (генеральной совокупн. ) 10 студентов откармливались в столовой по специальному рациону. Прибавление веса регистрировалось и по прошествии определённого периода, оказалось таковым: Известно, что прибавление веса имеет нормальное распределение со среднеквадратичной ошибкой σ = 40 (разброс тел по весам). Определить доверительный интервал с доверительной вероятностью 0, 95 для среднего прибавления веса в популяции студентов при этом рационе.
Решение Построим доверительный интервал по доказанной формуле при n = 10, α = 0, 95 и σ = 40. Выборочное среднее в данной выборке у нас M = 90, 6, а zα = 1, 96. Тогда границами доверительного интервала будут: А сам доверительный интервал: Iα = (66, 12 ; 115, 4) Итак, при изучении большого числа выборок по 10 студентов в каждой в предполагаемых "нормальных" условиях вычисленный нами интервал должен в 95% случаев включать истинное среднее прибавление веса в популяции.
Пример 2 Случайным образом в банке выбрали и проанализировали 400 кредитов. Невозвращенными оказались 80. Найти доверительный интервал с уровнем доверия 0. 95 для вероятности невозвращения кредита по всей совокупности кредитов.
Решение Дисперсия однократного события - невозврата с вероятностью р: D = p∙(1 -p) При большом n > 100, отклонение частоты события p* от вероятности p имеет нормальное распределение. Используем выведенную формулу: Находим по таблице значение zα, для которого выполняется это условие: При большом n можно сделать замену: По данным задачи: Тогда:
Основные виды распределений, используемые в статистике для построения доверительных интервалов и проверки гипотез (4 штуки)
Нормальное распределение (закон Гаусса) имеет плотность вероятности: f(x ) Замена Y = (X - a) / σ даёт стандартизированное нормальное распределение:
χ2 -распределение Если Х нормально распределена, центрирована и нормирована, то функция Z = ∑Xi от выборки (X 1, X 2, . . . , Xn) будет иметь так называемое χ2 -распределение с n степенями свободы. Его плотность вероятности: Г(x) - гамма функция: Для целых х : Г(n+1) = n! Это распределение задаётся лишь одним параметром - числом степеней свободы, причём с ростом n оно как-то слева приближается к нормальному.
t-распределение Стьюдента Если Y - нормальная случайная величина, центрированная и нормированная, а Z - независимая от неё случайная величина с χ2 распределением с n степенями свободы, то величина T : будет иметь так называемое распределение Стьюдента (псевдоним англ. В. Госсета) с n степенями свободы. Плотность его вероятности: С ростом n t-распределение быстро приближается к нормальному. В частности, для любой нормальной величины Х этим распределением будет обладать функция .
F-распределение Фишера Если X и Y - две независимые случайные величины, распределённые по закону χ2 со степенями свободы k 1 и k 2, то величина F : будет иметь распределение Фишера-Снедекора со степенями свободы k 1 и k 2. Его плотность вероятности: где Если то . При то есть
Метод построения интервала № 2 Пусть произведено n независимых опытов над случайной величиной Х, распределенной по нормальному закону с неизвестными параметрами. Мат. ожидание и дисперсия опять-таки оцениваются только по выборке: Тогда доверительным интервалом с вероятностью α для мат. ожидания m будет: где tα, n-1 - т. н. коэффициент Стьюдента, который находится из таблиц. (это правая критическая точка распределения t (n-1) с уровнем значимости 1 - α). Указанный доверительный интервал шире интервала, найденного ранее для а, потому что в этот раз мы не заменяли теоретическую дисперсию выборочной.
Вывод формулы Построим симметричный доверительный интервал для мат. ожидания шириной 2ε. Перейдем в левой части к случайной величине Т, распределенной по закону Стьюдента, умножив обе части неравенства на одну и ту же величину : Стьюдент: теперь где Используем для вычисления вероятности плотность вероятности Стьюдента: Решение этого уравнения для заданного α относительно t находится по таблицам. Зная tα, n-1 , можно получить и сам Iα : MВ - εα < MВ + εα.
Таблица коэффициентов Стьюдента.
Пример 3 Отобранные случайным образом из некоторой популяции (генеральной совокупн. ) 10 студентов откармливались в столовой по специальному рациону. Прибавление веса регистрировалось и по прошествии определённого периода, оказалось таковым: Известно, что прибавление веса имеет нормальное распределение с НЕИЗВЕСТНОЙ среднеквадратичной ошибкой. Определить доверительный интервал с доверительной вероятностью 0, 95 для среднего прибавления веса в популяции студентов при этом рационе.
Решение Исправленная выборочная дисперсия по данным примера равна 992, 8. Применяя выведенную формулу для доверительного интервала, и учитывая, что tα, n-1 = t 0, 95, 9 , = 2, 262, найдём границы случайного интервала: тогда сам интервал Iα = (68, 06 ; 113, 14). Отметим, что при большом n можно строить приближенные интервалы для неизвестного математического ожидания M без предположения нормальности.
Пример 4 Произведено 5 независимых опытов над случайной величиной Х, распределенной нормально с неизвестными параметрами m и σ. Найти оценку для мат. ожидания и построить доверительный интервал с доверительной вероятностью 0, 9. i xi 1 2 -2, 5 3, 4 3 4 5 -2 1 2, 1
Решение. По таблице находим для n - 1 = 4 и α = 0, 9 tα, n-1 = 2, 13
Доверительный интервал для дисперсии Рассмотрим несмещенную точечную оценку дисперсии по выборке объёма n : Составим из случайной величины DВ величину Z, которая будет ещё и нормирована: Эта Z – сумма квадратов независимых Хi поэтому должна быть распределена по χ2: Выберем интервал так, чтобы вероятности выхода величины Z за его пределы вправо и влево были одинаковы и равны. Пользуясь таблицей для P(Z > χ2) = pзаданная. найдём числа χ21 и χ22 для P = (1+α)/2 и (1 -α)/2. Тогда искомый интервал будет:
Сопряжённые априорные распределения Рассмотрим задачу о нахождении p(Θ | x) – распределения параметра Θ, рассматриваемого как случайная величина, по измерению (выборке) величины Х. Согласно теореме Байеса апостериорное (выведенное из опыта) распределение вычисляется из априорного (не зависящее от опыта) распределения по формуле: Это аналог известного выражения: Здесь p(Θ) - плотность вероятности теоретического распределения Х, а p(x|Θ) - функция правдоподобия (как бы вероятность получить такую выборку). Сопряжённое априорное распределение (conjugate prior) – это апостериорное распределение p(Θ|Х), которое принадлежит к тому же семейству распределений, что и априорное распределение p(Θ), но с другими параметрами. Так например в байесовской статистике широко используется Бета-распределение, потому что оно является сопряжённым априорным распределением для биномиального, геометрического и пуассоновского распределений.
- распределение Бе та-распределе ние – это двухпараметрическое семейство непрерывных распределений. Используется для описания случайных величин, значения которых ограничены каким-то интервалом. Случайная величина имеет бета-распределение, если её плотность вероятности: где α и β – произвольные фиксированные параметры больше нуля, B - бета функция: Стандартное непрерывное равномерное распределение является частным случаем бета-распределения: N(0, 1) = B(1, 1)
Сопряжённые дискретные семейства распределений.
Сопряжённые непрерывные семейства распределений.
Спасибо за внимание : ). . доверительный интервал. . .
Вопросы для контроля усвояемости предмета • • • Доверительный интервал Доверительная вероятность В чём отличие интервальных оценок от точечных? Как построить доверительный интервал по заданной выборке и заданной доверительной вероятности, если дисперсия распределения признака ИЗВЕСТНА? Нормальное распределение (плотность вероятности f ) χ2 -распределение (формула для признака Z) распределение Стьюдента (формула для признака T) распределение Фишера (формула для признака F) Как построить доверительный интервал по заданной выборке и заданной доверительной вероятности, если дисперсия распределения признака НЕизвестна?


