Теория вероятностей и математическая статистика Лекция 12

Скачать презентацию Теория вероятностей и математическая статистика Лекция 12

lect12-copy.ppt

Количество слайдов: 34

Теория вероятностей и математическая статистика Лекция № 12 1

Элементы теории оценок Точечные и интервальные оценки параметров 2

Оценка неизвестных параметров Пусть изучается случайная величина X с законом распределения, зависящим от одного или нескольких параметров. Например, это параметр а в распределении Пуассона ( ) или параметры а и σ для нормаль- ного закона распределения. Требуется по выборке X 1, Х 2, . . . , Хn , полученной в результате n наблюдений (опытов), оценить неизвестный параметр θ. Напомним, что X 1, Х 2, . . . , Хn — случайные величины: Х 1 — результат первого наблюдения, Х 2 — второго и т. д. , причем СВ Хi, i = 1, 2, . . . , n, имеют такое же распределение, что и СВ X; конкретная выборка х1, х2, . . . , хn — это значения (реализация) независимых СВ X 1, Х 2, . . . , Хn. 3

Оценка неизвестных параметров Статистической оценкой (далее просто – оценкой ) параметра θ теоретического распределения называют его приближенное значение, зависящее от данных выбора. Очевидно, что оценка есть значение некоторой функции результатов наблюдений над случайной величиной, т. е. Функцию результатов наблюдений (т. е. функцию выборки) называют статистикой. Можно сказать, что оценка параметра θ есть статистика, которая в определенном смысле близка к истинному значению θ. Так, F*(x) есть оценка Fx(x), гистограмма — плотности f(x). 4

Оценка неизвестных параметров Оценка является случайной величиной, так как является функцией независимых СВ X 1, Х 2, . . . , Хn , если произвести другую выборку, то функция примет, вообще говоря, другое значение. Если число опытов (наблюдений) невелико, то замена неизвестного параметра θ его оценкой , например математического ожидания средним арифметическим, приводит к ошибке. Это ошибка в среднем тем больше, чем меньше число опытов. К оценке любого параметра предъявляется ряд требований, которым она должна удовлетворять, чтобы быть «близкой» к истинному значению параметра, т. е. быть в каком-то смысле «доброкачественной» оценкой. 5

Свойства статистических оценок Качество оценки определяют, проверяя, обладает ли она свойствами несмещенности, состоятельности, эффективности. Оценка параметра θ называется несмещенной, если М = θ. Если М θ, то оценка называется смещенной. Чтобы оценка не давала систематической ошибки (ошибки одного знака) в сторону завышения (М > θ) или занижения (М < θ) надо потребовать, чтобы «математическое ожидание оценки было равно оцениваемому параметру» . Если М → θ то оценка называется асимптотически несмещенной. Требование несмещенности особенно важно при малом числе наблюдений (опытов). 6

Свойства статистических оценок Оценка параметра θ называется состоятельной, если она сходится по вероятности к оцениваемому параметру: р т. е. для любого ε > 0 выполнено Это означает, что с увеличением объема выборки мы все ближе приближаемся к истинному значению параметра θ, т. е. практически достоверно. Свойство состоятельности обязательно для любого правила оценивания (несостоятельные оценки не используются). Состоятельность оценки часто может быть установлена с помощью следующей теоремы. Теорема 1. Если оценка параметра θ является несмещенной и при n→∞, то — состоятельная оценка. 7

Свойства статистических оценок Несмещенная оценка параметра θ называется эффективной, если она имеет наименьшую дисперсию среди всех возможных несмещенных оценок параметра θ, т. е. оценка эффективна, если ее дисперсия минимальна. Эффективную оценку в ряде случаев можно найти, используя неравенство Рао-Крамера: где I = I(θ) — информация Фишера. Отметим, что на практике не всегда удается удовлетворить всем перечисленным выше требованиям (несмещенность, состоятельность, эффективность), и поэтому приходится довольствоваться оценками, не обладающими сразу всеми тремя свойствами. Все же три свойства, как правило, выделяют оценку однозначно. 8

Точечные оценки математического ожидания и дисперсии Пусть изучается СВ X с математическим ожиданием а = MX и дисперсией DX, оба параметра неизвестны. Статистика, используемая в качестве приближенного значения неизвестного параметра генеральной совокупности, называется ее точечной оценкой. Т. е. точечная оценка характеристики генеральной совокупности — это число, определяемое по выборке. Пусть х1, х2, . . . , хn— выборка, полученная в результате проведения n независимых наблюдений за СВ X. Чтобы подчерк -нуть случайный характер величин х1, х2, . . . , хn, перепишем их в виде X 1, X 2, . . . , Хn, т. е. под Xi будем понимать значение СВ X в i-м опыте. Случайные величины X 1, X 2, . . . , Хn можно рас-сматривать как n независимых «экземпляров» величины X. Поэтому МХ 1 = МХ 2 =…= МХn = MX = a, DX 1 = DX 2 =…= DXn = 9 DX.

Точечные оценки математического ожидания и дисперсии Теорема 2. Пусть X 1, X 2, . . . , Хn — выборка из генеральной совокупности и МХi = MX = a, Dxi = DX (i = 1, …, n). Тогда выборочное среднее — несмещенная и состоятельная оценка математического ожидания MX. Можно показать, что при нормальном распределении СВ X эта оценка, т. е. , будет и эффективной. На практике во всех случаях в качестве оценки математического ожидания используется среднее арифметическое, т. е. . В статистике оценку математического ожидания принято обозначать через или , а не. 10

Точечные оценки математического ожидания и дисперсии Для выборочной дисперсии справедлива формула Из этого равенства следует, что MDB ≠ DX, т. е. выборочная дисперсия является смещенной оценкой дисперсии DX. Поэтому выборочную дисперсию исправляют, умножив ее на n/(n – 1), получая формулу S 2 = n/(n – 1)*Dв Теорема 3. Пусть X 1, X 2, . . . , Хn — выборка из генеральной совокупности и МХi = MX = a, Dxi = DX (i = 1, …, n). Тогда выборочное среднее Тогда исправленная выборочная дисперсия - несмещенная состоятельная оценка дисперсии DX. Замечание: при больших значениях n разница между DB и S 2 очень мала и они практически равны, поэтому оценку S 2 используют для оценки дисперсии при малых выборках, 11

Точечные оценки математического ожидания и дисперсии Имеют место следующие теоремы. Теорема 4. Относительная частота n. A /n появления события А в n независимых испытаниях является несмещенной состоятельной и эффективной оценкой неизвестной вероятности р = Р(А) этого события (р - вероятность наступления события А в каждом испытании). Теорема 5. Эмпирическая функция распределения выборки F*(x) является несмещенной состоятельной оценкой функции распределения F(x) случайной величины X. Пример 1. Монету подбрасывают n раз. Вероятность выпадения герба при каждом подбрасывания равна р. В ходе опыта монета выпала гербом n. A раз. Показать несмещенность оценки вероятности θ = р выпадения герба в каждом опыте. 12

Методы нахождения точечных оценок Рассмотрим наиболее распространенные методы получения точечных оценок параметров распределения: q метод моментов (кратко: ММ), q метод максимального правдоподобия (кратко: ММП), q метод наименьших квадратов (кратко: МНК). 13

Метод моментов для нахождения точечных оценок неизвестных параметров заданного распределения состоит в приравнивании теоретических моментов распределения соответствующим эмпирическим моментам, найденных по выборке. Так, если распределение зависит от одного параметра θ (например, задан вид плотности распределения f(х, θ)), то для нахождения его оценки надо решить относительно θ одно уравнение: 14

Метод моментов Если распределение зависит от двух параметров (например, вид плотности распределения f(x, θ 1, θ 2)) - надо решить относительно θ 1 и θ 2 систему уравнений: И, наконец, если надо оценить n параметров θ 1, θ 2, …, θn решить одну из систем вида: или 15

Метод моментов является наиболее простым методом оценки параметров. Он был предложен в 1894 г. Пирсоном. Оценки метода моментов обычно состоятельны, однако их эффективность часто значительно меньше единицы. Пример 2. Найти оценки параметров нормального распределения СВ X методом моментов. 16

Метод максимального правдоподобия Пусть х1, х2, . . . , хn — выборка, полученная в результате проведения n независимых наблюдений за СВ X. И пусть вид закона распределения величины X, например, вид плотности f(x, θ), известен, но неизвестен параметр θ, которым определяется этот закон. Требуется по выборке оценить параметр θ. В основе метода максимального правдоподобия (ММП), предложенного Р. Фишером, лежит понятие функции правдоподобия. Функцией правдоподобия, построенной по выборке х1, х2, . . . , хn, называется функция аргумента θ вида или где f(x, θ) — плотность распределения непрерывной СВ 17 X

Метод максимального правдоподобия Если X — дискретная СВ, то функция правдоподобия имеет вид Где Из определения следует, что чем больше значение функции L(x, θ), тем более вероятно (правдоподобнее) появление (при фиксированном θ) в результате наблюдений чисел х1, х2, . . . , хn. За точечную оценку параметра θ, согласно ММП, берут такое его значение , при котором функция правдоподо-бия достигает максимума. Эта оценка, называемая оценкой максимального правдоподобия, является решением уравнения 18

Метод максимального правдоподобия Так как функции L(x, θ) и In L(x, θ) достигают максимума при одном и том же значении θ, то вместо отыскания максимума функции L(x, θ) ищут (что проще) максимум функции In L(x, θ). Таким образом, для нахождения оценки максимального правдоподобия надо: • решить уравнение правдоподобия 2. отобрать то решение, которое обращает функцию In L(x, θ) в максимум (удобно использовать вторую производную: если то — точка максимума). 19

Метод максимального правдоподобия Если оценке подлежат несколько параметров θ 1, θ 2, . . . , θn распределения, то оценки определяются решением системы уравнений правдоподобия: Пример 3. Найти оценку параметра а распределения Пуассона методом максимального правдоподобия. 20

Метод наименьших квадратов Метод нахождения оценки неизвестного параметра θ, основанный на минимизации суммы квадратов отклонений выборочных данных от определяемой (искомой) оценки θ, называется методом наименьших квадратов (коротко: МНК). Другими словами, в МНК требуется найти такое значение , которое минимизировало бы сумму Отметим, что МНК является наиболее простым методом нахождения оценок параметра θ. Пример 4. Найти оценку параметра а распределения Пуассона методом наименьших квадратов. 21

Интервальное оценивания параметров Точечные оценки неизвестного параметра θ хороши в качестве первоначальных результатов обработки наблюдений. Их недостаток в том, что неизвестно, с какой точностью они дают оцениваемый параметр. Для выборок небольшого объема вопрос о точности оценок очень существенен, так как между θ и может быть большое расхождение в этом случае. Кроме того, при решении практических задач часто требуется определить и надежность этих оценок. Тогда и возникает задача о прибли -жении параметра θ не одним числом, а целым интервалом. Оценка неизвестного параметра называется интервальной, если она определяется двумя числами — концами интервала. 22

Интервальное оценивания параметров Задачу интервального оценивания можно сформулировать так: по данным выборки построить числовой интервал , относительно которого с заранее выбранной вероятностью γ можно сказать, что внутри этого интервала находится точное значение оцениваемого параметра Интервал , накрывающий с вероятностью γ истинное значение параметра θ, называется доверительным интервалом, а вероятность γ — надежностью оценки или доверительной вероятностью. 23

Интервальное оценивания параметров Очень часто (но не всегда) доверительный интервал выбирается симметричным относительно несмещенной точечной оценки θ, т. е. выбирается интервал вида такой, что Число ε > 0 характеризует точность оценки: чем меньше разность , тем точнее оценка. Величина γ выбирается заранее, ее выбор зависит от конкретно решаемой задачи. Так, степень доверия авиапассажира к надежности самолета, очевидно, должна быть выше степени доверия покупателя к надежности телевизора, лампочки, игрушки. . . Надежность γ принято выбирать равной 0, 9; 0, 95; 0, 99 или 0, 999. Тогда практически достоверно нахождение параметра 0 в доверительном интервале 24.

Доверительные интервалы для параметров нормального распределения Построим доверительные интервалы для параметров нормального распределения, т. е. когда выборка производится из генеральной совокупности, имеющей нормальное распределение с параметрами а и σ. 25

Доверительный интервал для математического ожидания при известной дисперсии Пусть СВ X ~ N(a, σ); σ — известна, доверительная вероятность (надежность) γ — задана. Пусть х1, х2, . . . , хn — выборка, полученная в результате проведения n независимых наблюдений за СВ X. Чтобы подчеркнуть случайный характер величин х1, х2, . . . , хn , перепишем их в виде Х 1, Х 2, . . . , Хn, т. е. под Xi будем понимать зна -чение СВ X в i-м опыте. Случайные величины Х 1, Х 2, . . . , Хn – независимы, закон распределения любой из них совпадает с законом распределения СВ X (т. е. Xi ~ N(a, σ)). А это зна-чит, что МХ 1 = МХ 2 =. . . = МХn = MX = a, DX 1 = DX 2 =. . . = DXn = DX. 26

Доверительный интервал для математического ожидания при известной дисперсии Выборочное среднее также будет распределено по нормальному закону (примем без доказательства). Параметры распределения X таковы: М( ) = a, D( ) = Действительно, Таким образом, 27

Доверительный интервал для математического ожидания при известной дисперсии Следовательно, пользуясь формулой можно записать где поэтому Из последнего равенства находим или 28

Доверительный интервал для математического ожидания при известной дисперсии В соответствии с определением доверительного интервала получаем, что доверительный интервал для а = MX есть где t определяется из уравнения (или ) при заданном γ по таблице функции Лапласа находим аргумент t. Заметим, что из равенства следует: с возрастанием объема выборки n число ε убывает и, значит, точность оценки увеличивается; увеличение надежности γ влечет уменьшение точности оценки. 29

Доверительный интервал для математического ожидания при известной дисперсии Пример 5. Произведено 5 независимых наблюдений над СВ X ~ N(a, 20). Результаты наблюдений таковы: х1 = - 25, х2 = 34, х3 = - 20, х4 = 10, х5 = 21. Найти оценку для а = MX, а также построить для него 95%-й доверительный интервал. Решение: Находим сначала (-25 + 34 - 20 + 10 + 21) = 4, т. е. =4. Учитывая, что γ = 0, 95 и , получаем Ф 0(t) = 0, 475. По таблице (см. Приложение) выясняем, что t = tγ = 1, 96. Тогда ε = (1, 96 · 20)/√ 5 ≈ 17, 5. Доверительный интервал для а = MX таков: (4 - 17, 5; 4 + 17, 5), т. е. (-13, 5; 21, 5). 30

Доверительный интервал для математического ожидания при неизвестной дисперсии Пусть СВ X ~ N(a, σ); σ — известна, доверительная вероятность (надежность) γ — задана. Найдем такое число ε, чтобы выполнялось соотношение Выполнив ряд преобразований, получим доверительный интервал (для неизвестного математического ожидания СВ X), который покрывает a = MX с вероятностью γ: где S — исправленное среднее квадратическое отклонение СВ X, вычисленное по выборке, находим по таблице квантилей распределения Стьюдента. 31

Доверительный интервал для математического ожидания при неизвестной дисперсии Пример 6. Произведено 5 независимых наблюдений над СВ X ~ N(a, σ). Результаты наблюдений таковы: х1 = - 25, х2 = 34, х3 = - 20, х4 = 10, х5 = 21. Найти оценку для а = MX, а также построить для него 95%-й доверительный интервал. Решение: Из примера 5 находим = 4. Затем определим значение S: S 2 = 1/4·((-25 – 4)2 + (34 – 4)2 + (-20 – 4)2 + (10 – 4)2 + (21 – 4)2) = = 660, 5; S = 25, 7. Учитывая, что γ = 0, 95 и n – 1 =4, получаем по таблице (см. Приложение) tγ = 2, 78. Тогда ε = (2, 78 · 25, 7)/√ 5 ≈ 31, 9. Доверительный интервал для а = MX таков: 32 (4 - 31, 9; 4 + 31, 9), т. е. (-27, 9; 35, 9).

Доверительный интервал для среднего квадратического отклонения нормального распределения Пусть СВ X ~ N(a, σ); σ — неизвестна, доверительная вероятность γ — задана. Можно показать, что если MX = а известно, то доверительный интервал для среднего квадратического отклонения σ имеет вид: Если а = MX неизвестно, то доверительный интервал для неизвестного σ имеет вид: где n — объем выборки, являются квантилями деления, определяемые по таблице квантилей -распре 33

Пример 7. Глубина моря измеряется прибором, систематическая ошибка которого равна нулю, а случайные ошибки распределены нормально с а = 15 м. Сколько надо сделать независимых измерений, чтобы определить глубину моря с ошибкой не более 5 м при надежности 7 = 0, 9? Решение: 34