
выборочный метод.ppt
- Количество слайдов: 64
Выборочный метод Основные понятия
Основные понятия l l l Множество всех объектов статистической совокупности носит название генеральной совокупности. В некоторых случаях ограничиваются изучением лишь части генеральной совокупности. Эта часть называется выборочной совокупностью или выборкой. Когда в истории возникает проблема выборки?
Основные понятия l Основная идея: полученные при изучении выборки результаты обобщают на всю генеральную совокупность. l Когда это возможно?
Основные понятия l l l Выборка должна быть не произвольной частью генеральной совокупности, а такой частью, которая достаточно правильно отражает основные параметры этой совокупности. Это значит, что выборка должна быть репрезентативной (представительной). Как обеспечить репрезентативность?
Основные понятия l Для репрезентативности выборка должна быть случайной. Что это значит?
Основные понятия l Случайность означает, что все объекты генеральной совокупности должны иметь равные шансы попасть в выборку. l Примеры случайного отбора – ?
Основные понятия l l l Жеребьевка. Таблицы случайных чисел. Механический отбор. Типический отбор. … Комбинированный отбор.
Основные понятия l Никакая, даже самым тщательным образом сформированная выборка, не может дать точного знания о генеральной совокупности. l Почему?
Основные понятия l В выборочных результатах присутствуют ошибки: l l l случайные, систематические. Какие из них неизбежны?
Основные понятия l l Случайные ошибки обусловлены самой природой выборочного метода, и поэтому они неизбежны. Однако величина случайной ошибки поддается вычислению (оценке).
Основные понятия l l Систематические ошибки не носят случайного характера и не являются неизбежными. Они появляются тогда, когда нарушается основное правило случайного отбора – обеспечение для всех объектов равных шансов попасть в выборку.
Основные понятия l Основные источники систематических ошибок: l l l неадекватность выборки задачам исследования; нарушение в выборке структуры генеральной совокупности; сознательный отбор наиболее удобных и выигрышных элементов генеральной совокупности.
Выборочный метод Оценка среднего значения количественного признака
Теория статистического оценивания l Выборочная характеристика какого-либо параметра (например, среднего арифметического значения признака) является приближенным значением – оценкой – этого параметра в генеральной совокупности. l Как сильно отклоняется эта оценка от истинного (неизвестного) значения?
Теория статистического оценивания l Можно ли построить вокруг выборочного значения такой интервал, который с достаточно высокой вероятностью "накрывал" бы истинное значение этого параметра в генеральной совокупности и при этом величина ошибки такой оценки была бы достаточно мала?
Ошибка среднего l l l Пример 1. Имеются данные промышленной переписи 1900 г. по предприятиям Закавказья (файл Industry. sta) Это генеральная совокупность (1060 предприятий). Среднее число рабочих на предприятии равно 77 чел. (по всей генеральной совокупности).
Ошибка среднего l l l Построим выборку: случайным образом отберем 5% объектов (53 предприятия). По выборке среднее число рабочих равно 81 чел. Ошибка выборки – это разность между генеральным средним ( ) и выборочным ( ), т. е. между числами 77 и 81.
Ошибка среднего l l Если сформировать другую выборку того же объема, каким будет новое выборочное среднее? Какой будет величина ошибки?
Ошибка среднего l Разброс выборочных средних вокруг генеральной средней (т. е. стандартное отклонение выборочных средних) называется стандартной ошибкой среднего и выражается формулой: где – среднее квадратическое отклонение, n – объем выборки.
Ошибка среднего l l Стандартная ошибка среднего измеряется в тех же единицах, что и среднее значение признака. Стандартная ошибка выборки тем меньше, чем меньше величина (которая характеризует разброс значений признака) и чем больше объем выборки n.
Ошибка среднего l Можно утверждать, что большинство выборочных средних должно находиться в интервале . l Что значит "большинство"?
Ошибка среднего l В статистике известно, какая часть совокупности попадает в любой интервал вокруг среднего значения. В частности: l l l 67% всех выборочных средних попадут в интервал ; 95% – в интервал 2 ; 99, 7% – в интервал 3.
Ошибка среднего l l l Пример 1. В данном случае величина в генеральной совокупности равна 187 чел. ; по формуле для ошибки выборки легко подсчитать, что 26 чел. Построим интервал ; получится 77 26 (от 52 до 103 чел. ), в который должны попасть 67% всех выборочных средних. Легко убедиться, что число 81 попадает в этот интервал.
Ошибка среднего l Однако на практике характеристики генеральной совокупности нам не известны, а выборка делается именно с целью их оценки.
Ошибка среднего l Значит, если делать выборки одного и того же объема n из генеральной совокупности, то в 67% случаев на интервале будет находиться неизвестное значение Оно же в 95% случаев будет находится на интервале 2 и в 99, 7% случаев – на интервале 3.
Ошибка среднего l Поскольку реально делается только одна выборка, то формулируется это утверждение в терминах вероятности: l l l с вероятностью 67% среднее значение признака в генеральной совокупности заключено в интервале , с вероятностью 95% – в интервале 2 и т. д.
Теория статистического оценивания l l Таким образом строится доверительный интервал. Он строится вокруг выборочного значения и с высокой вероятностью – доверительной вероятностью – "накрывает" истинное значение параметра в генеральной совокупности.
Теория статистического оценивания l Доверительная вероятность P – это степень уверенности в том, что доверительный интервал будет содержать истинное (неизвестное) значение параметра в генеральной совокупности. l Как можно интерпретировать доверительную вероятность P = 0, 90?
Теория статистического оценивания l Часто указывается не доверительная вероятность, а противоположная по смыслу величина – вероятность ошибки, т. е. неверной оценки значения в генеральной совокупности. Она обозначается p и равна 1 – P. l Как можно интерпретировать вероятность ошибки 0, 90?
Теория статистического оценивания l Чем шире доверительный интервал, тем выше уверенность, что в него попадет неизвестное значение для генеральной совокупности. l На практике для построения доверительного интервала берется доверительная вероятность не менее 95%, что соответствует интервалу 2 .
Доверительный интервал для среднего l l l В общем виде доверительный интервал можно записать как t. Параметр t выбирается, исходя из требуемого уровня доверительной вероятности. Какому уровню доверительной вероятности соответствует значение t = 1? значение t = 2? значение t = 3?
Доверительный интервал для среднего l l l Величина = t , которая определяет величину доверительного интервала, называется предельной ошибкой выборки и связана с точностью оценки. Чем больше предельная ошибка, тем меньше точность. Чем меньше предельная ошибка, тем больше точность. Параметр t показывает во сколько раз предельная ошибка превышает среднюю ошибку .
Доверительный интервал для среднего l l Пример 1. Построение доверительного интервала для среднего значения числа рабочих в генеральной совокупности по выборке из 53 предприятий при степени уверенности 95%. Доверительный интервал: от 32 до 131 (истинное значение , равное 77 чел. , действительно находится на этом интервале).
Доверительный интервал для среднего l l Точность (Δ) и уверенность (надежность) (P) оценки находятся в обратной зависимости: чем больше точность, тем меньше надежность (степень уверенности). И наоборот – чем меньше точность оценки, тем выше ее надежность.
Доверительный интервал для среднего Точность увеличивается Точность уменьшается Предельная ошибка увеличивается Доверительный интервал суживается Доверительный интервал расширяется Уверенность (надежность) уменьшается Уверенность (надежность) увеличивается
Доверительный интервал для среднего Последовательность действий при построении доверительного интервала: l 1. 2. 3. 4. 5. По выборке вычисляется и σ. Вычисляется средняя ошибка выборки μ. Выбирается доверительная вероятность P и соответствующее ей значение параметра t. Вычисляется предельная ошибка Δ как произведение t и μ. Строится интервал t.
Выборочный метод Оценка доли качественного признака
Ошибка доли l l l При работе с неколичественными данными, роль среднего арифметического значения играет доля или частота признака. Доля (обозначается q) вычисляется как отношение числа объектов, обладающих данным признаком (n 0), к числу объектов во всей совокупности: q=n 0 / n. Доля часто выражается в процентах.
Ошибка доли l l Роль меры рассеяния качественного признака играет величина Стандартная ошибка выборки для оценки доли качественного признака в генеральной совокупности вычисляется по формуле:
Ошибка доли l l l Пример 3. Имеется выборка 53 предприятий из генеральной совокупности промышленных предприятий Закавказья (общее число предприятий – 1060). Из 53 предприятий оказалось 38 частных, т. е. доля частных предприятий равна 0, 72 (или 72%). По формуле стандартной ошибки для доли величина μ равна 0, 06 (или 6%).
Доверительный интервал для доли l l l Чтобы построить доверительный интервал для доли, надо выбрать величину t. Ее значение связано с уровнем надежности (доверительной вероятностью) P. Если P равно 95%, то t = 2. Значит, с вероятностью 95% можно утверждать, что доля частных предприятий в генеральной совокупности лежит в границах 0, 72 2(0, 06), т. е. от 0, 60 до 0, 84 (или от 60 до 84%).
Доверительный интервал для доли Последовательность действий при построении доверительного интервала: l 1. 2. 3. 4. 5. По выборке вычисляется . Вычисляется средняя ошибка выборки μ. Выбирается доверительная вероятность P и соответствующее ей значение параметра t. Вычисляется предельная ошибка Δ как произведение t и μ. Строится интервал
Сравнение выборочных средних
Сравнение выборочных средних l l Как сравнить две генеральные совокупности на основе выборок? Если выборочные средние достаточно близки, это свидетельствует о том, что соответствующие генеральные совокупности не различаются по данному признаку, а наблюдаемые различия в значениях средних объясняются просто случайностями выборок, являются статистически незначимыми.
Сравнение выборочных средних l Если же выборочные средние заметно различаются, это связано с тем, что и соответствующие генеральные совокупности различаются по данному признаку, т. е. наблюдаемые различия статистически значимы.
Сравнение выборочных средних l l Какие же различия между выборочными средними являются достаточно малыми или достаточно большими? Ответ на этот вопрос дают доверительные интервалы, построенные для обоих выборочных средних.
Сравнение выборочных средних l l Если построенные доверительные интервалы не пересекаются, это значит, что с высокой степенью вероятности средние значения в генеральных совокупностях различны. В этом случае различие между выборочными средними считается статистически значимым (т. е. существенным).
Сравнение выборочных средних l l Если же доверительные интервалы пересекаются, это значит, что с высокой степенью вероятности средние значения в генеральных совокупностях одинаковы. В этом случае различие между выборочными средними считается статистически незначимым (несущественным).
Сравнение выборочных средних l l l Пример 5. В файле General. sta есть переменные "год вступления в армию" и "год вступления в партию". Средние значения этих признаков равны, соответственно, 1918, 9 и 1924, 9. Является ли различие между ними статистически значимым?
Сравнение выборочных средних l l Доверительный интервал для среднего значения признака "год вступления в армию" равен [1918, 7; 1919, 2] (уровень значимости 95%). Доверительный интервал для среднего значения признака "год вступления в партию" равен [1923, 9; 1925, 8].
Сравнение выборочных средних l l l Эти доверительные интервалы можно изобразить графически: 1918, 7 1918, 9 1919, 2 1923, 9 1924, 9 1925, 8 Интервалы не пересекаются, а это значит, что с уверенностью 95% можно считать различия между средними для обоих признаков статистически значимыми.
Сравнение выборочных средних l Последовательность действий при сравнении двух выборочных средних: 1. По каждой выборке (в программе Statistica) вычисляется: a) и σ; b) средняя ошибка выборки μ; c) предельная ошибка Δ как произведение μ и t (зависящего от доверительной вероятности P); 2. Строятся два доверительных интервала и изображаются на одном графике. 3. Если они пересекаются, различие статистически незначимо, если не пересекаются
Сравнение выборочных долей
Сравнение выборочных долей l l С помощью доверительных интервалов можно сравнивать также доли качественного признака для разных выборок. Если в двух выборках доли качественного признака близки, это значит, что в соответствующих генеральных совокупностях доли этого признака не различаются, а наблюдаемые расхождения объясняются просто случайностями выборок, т. е. являются статистически незначимыми.
Сравнение выборочных долей l И наоборот - если выборочные значения долей заметно различаются, это связано с тем, что и в соответствующих генеральных совокупностях доли признака различны, т. е. наблюдаемые различия статистически значимы.
Сравнение выборочных долей l Чтобы решить, малыми или большими являются различия выборочных значений, надо построить соответствующие им доверительные интервалы.
Сравнение выборочных долей l l Если доверительные интервалы не пересекаются, это значит, что с высокой степенью вероятности доли качественного признака в генеральных совокупностях различны. В этом случае различие между выборочными значениями считается статистически значимым (т. е. существенным).
Сравнение выборочных долей l l Если же доверительные интервалы пересекаются, это значит, что с высокой степенью вероятности доли качественного признака в генеральных совокупностях одинаковы. В этом случае различие между выборочными значениями считается статистически незначимым (несущественным).
Сравнение выборочных долей l l l Пример 6. Опрос 100 респондентов в городе А показал, что 40 человек из них собираются голосовать за некую партию. Опрос 400 респондентов в городе В показал, что за эту партию собираются голосовать 200 человек. Таким образом доля голосов в городе А равна 0, 4 (40%), в городе В – 0, 5 (50%). Является ли различие между городами А и В в поддержке этой партии статистически значимым?
Сравнение выборочных долей l По формуле средней ошибки доли найдем величину в первом и во втором случае: μ 1 = ; μ 2 = l Таким образом, ошибка выборки в первом случае приближенно равна 0, 05 или 5%, а во втором случае 0, 025 или 2, 5%.
Сравнение выборочных долей l l l Чтобы найти предельную ошибку ( = t ), выберем доверительную вероятность 95%. Тогда t=2 и предельная ошибка в первом случае равна 10% и во втором – 5%. Доверительный интервал для доли голосов в поддержку данной партии в городе А равен 40% 10% или [30%; 50%] (на уровне значимости 95%). На том же уровне значимости доверительный интервал для доли голосов в городе В равен 50% 5% или [45%; 55%].
Сравнение выборочных долей l На графике: 30 40 45 50 55 l Интервалы пересекаются, а это значит, что с уверенностью 95% можно считать различия голосов в поддержку данной партии в городах А и В статистически незначимыми.
Сравнение выборочных долей l Последовательность действий при сравнении двух выборочных долей: 1. По каждой выборке (с помощью калькулятора) вычисляются: a) ; b) средняя ошибка выборки μ; c) предельная ошибка Δ как произведение μ и t (зависящего от доверительной вероятности P). 2. Строятся два доверительных интервала и изображаются на одном графике. 3. Если они пересекаются, различие статистически незначимо, если не пересекаются – значимо.
Контрольные вопросы В чем сходство и различие между средним квадратическим (стандартным) отклонением и коэффициентом вариации V? 2. При увеличении объема выборки доверительный интервал: l увеличивается; l уменьшается; l не изменяется. Укажите верный ответ. 1.
выборочный метод.ppt