ММП_2_Описательная статистика.ppt
- Количество слайдов: 23
Статистическая обработка данных Распределение признака Непрерывный, дискретный признак, квантование; выборка, группировка данных, частота, объем выборки, относительная частота, частость, эмпирическое распределение признака, вариационный ряд: интервальный, безынтервальный, гистограмма, полигон частот, ось значений признака, накопленная частота, полигон накопленных частот.
Признаком будем называть какое-либо измеренное свойство объекта, явления и т. п. Постоянным будем считать такой признак, значения которого одинаковы для всех объектов рассматриваемого множества при любом измерении. В противном случае будем считать признак переменным.
Причины варьирования признака • – в зависимости от условий, в которых проводится измерение; • – из-за ошибок измерения, которые могут быть связаны с точностью измерительных инструментов, личными ошибками исследователя, случайными ошибками; • – под влиянием неконтролируемых факторов, которые могут оказывать как случайное, так и закономерное, но неизвестное влияние.
Переменные величины могут быть дискретными – если числовая структура шкалы состоит из отдельных (обычно целых) чисел и непрерывными – если признак может принимать сколь угодно близкие друг к другу значения, то есть если числовая структура шкалы является непрерывным числовым множеством. Дискретные переменные могут быть измерены в номинативной или порядковой шкале, непрерывные – в интервальной или шкале отношений.
Для непрерывных признаков выполняют квантование – все значения, которые может принимать признак, разбиваются на конечное число обычно равных интервалов, и измерение проводится с точностью до интервала. Величина интервала при квантовании зависит от различительной способности измерительного инструмента и общей ситуации исследования. В номинативных и порядковых шкалах точность измерения закладывается при построении шкалы – при определении отношения неразличимости.
В математической статистике различают генеральную совокупность как множество объектов, подлежащих изучению, и выборку как непосредственно изучаемое подмножество генеральной совокупности. Для того, чтобы выборка адекватно отражала свойства объектов генеральной совокупности она должна быть репрезентативной (представительной). Это обеспечивается, если выборка является случайной.
• Для изучения свойств случайных величин проводят многократные испытания или опыты – выполнения измерительной процедуры в определенных условиях. Полученные таким образом массовые данные изучают с помощью математической статистики. • В математической статистике традиционно выделяют два раздела: описательную и «проверяющую» статистику.
Основной задачей описательной статистики является определение закона распределения вероятностей случайной величины и характеризующих его числовых параметров. Закон распределения вероятностей описывает вероятность появления тех или иных значений случайной величины. Для дискретной случайной величины закон распределения выражается отдельными значениями вероятностей для каждого значения переменной. Для непрерывной – может быть выражен специальными числовыми функциями.
Основной задачей аналитической ( «проверяющей» ) статистики является проверка статистических гипотез – разного рода предположений о свойствах одной или нескольких случайных величин, истинность или ложность которых можно определить с некоторой вероятностью. Статистические гипотезы формулируются на основе научных гипотез и служат для
Первой процедурой обработки данных является группировка – то есть объединение в группы результатов измерений (случаев), соответствующих отдельным значениям признака или интервалам квантования признака. Частотой значения или интервала группировки называют число объектов, которые при группировке были отнесены к данному значению или интервалу. ni Объемом выборки называют общее количество проведенных измерений. N Относительной частотой или частостью называют отношение частоты к объему выборки. ni/N
• Вариационным рядом или эмпирическим распределением признака называется двойной числовой ряд, показывающий, каким образом численные значения изучаемого признака связаны с их повторяемостью на множестве измеренных объектов. • В безынтервальном вариационном ряду частоты (или частости) распределяются непосредственно по значениям признака. В интервальном вариационном ряду частоты (или частости) распределяются по интервалам группировки. • Распределение признака может быть представлено в табличной или графической форме. Для описания его различных свойств используют различные числовые характеристики, которые называют параметрами распределения. Описательная математическая статистика предоставляет методы изучения особенностей распределения признака.
Пример безынтервального вариационного Значения Частот признака а 1 1 2 3 3 5 4 9 5 8 6 7 7 6 8 3 9 2 10 1 Сумма 45 ряда 0, 02 0, 07 0, 11 0, 20 0, 18 0, 16 0, 13 0, 07 0, 04 0, 02 Накопленн ая частота 1 4 9 18 26 33 39 42 44 45 Наколенна я частость 0, 02 0, 09 0, 20 0, 40 0, 58 0, 73 0, 87 0, 93 0, 98 1, 00 1 Частость
Гистограмма
Полигон частот
Полигон наколенных частот (кумулята)
Параметры распределения Квантили (квартили, децили, процентили); меры средней тенденции: мода, медиана, среднее арифметическое; меры вариативности: размах вариации, дисперсия, стандартное отклонение, среднее отклонение; стандартизация данных: z-оценки; коэффициент асимметрии, коэффициент эксцесса.
Под параметром распределения понимают число, которое в обобщенном виде показывает какую-либо особенность распределения признака. Наиболее полезными и часто используемыми являются: квантили, меры средней (центральной) тенденции, меры вариативности (рассеяния), меры асимметрии и эксцесса.
Квантиль – число, которое делит упорядоченный ряд данных в определенной пропорции. Например, три квартиля (Q 1, Q 2, Q 3) делят весь ряд значений на четыре группы с одинаковым числом наблюдений – кварты: Q 1 в отношении 1: 3, Q 2 – 1: 1, Q 3 – 3: 1. Также часто используются децили (D 1, … D 9) – делят ряд значений на десять частей, процентили (P 1, … P 99) – на 100 частей и др.
Меры центральной или средней тенденции - значения, которые характеризуют ряд в целом и в среднем. Иначе каждую меру средней тенденции можно охарактеризовать как такое наилучшее в каком-либо смысле значение, которым можно было бы для обобщения заменить все значения выборки. мода, медиана и среднее арифметическое. • Мода является единственным параметром, который применим к данным, полученным в любой шкале. • Медиана лучше характеризует унимодальные выборки, имеющие редко встречающиеся крайние значения.
Среднее – значение, сумма всех отклонений от которого отдельных измерений равна нулю. Среднее применимо только для данных, полученных в шкалах, близких к интервальными. Свойства среднего: • - сумма квадратов отклонений значений от их среднего меньше суммы квадратов отклонений от любой другой точки на оси значений признака. • - при преобразовании f(x) = kx+b среднее также изменяется kx+b. Моду и медиану при объединении данных нескольких групп найти, не имея исходных данных, нельзя. Соотношение моды, медианы и среднего показывает симметрию распределения.
Пример Существуют случаи, когда о средней тенденции говорить вообще нельзя – при малых объемах выборки и «распадении» распределения на группы с различными средними тенденциями. два бродяги (по 25 центов), рабочий (2000), средний бизнесмен (15 000), миллионер (5 000). мода: 25 центов, медиана: 2000, среднее 1 003 400, 10.
Меры вариативности (изменчивости или рассеяния) признака показывают степень рассеяния значений. При этом можно учитывать только крайние значения (размах вариации), или все значения выборки. Дисперсия и стандартное отклонение показывают среднюю удаленность всех значений от среднего. Свойства: • - прибавление константы к каждому значению не изменяет значения дисперсии и ст. отклонения. • - умножение на константу – приводит к умножению на квадрат этой константы для дисперсии или на саму константу для стандартного отклонения.
Пример • • • 1 2 3 4 5 среднее: 3, 1 3 3 3 5 среднее: 3, 2 3 3 3 4 среднее: 3, 2 2 3 4 4 среднее: 3, 1 1 3 5 5 среднее: 3, 3 3 3 среднее: 3, • • • дисперсия: 2, 5 дисперсия: 2 дисперсия: 0, 5 дисперсия: 1 дисперсия: 4 дисперсия: 0
ММП_2_Описательная статистика.ppt