Первичные описательные статистики.ppt
- Количество слайдов: 22
ПЕРВИЧНЫЕ ОПИСАТЕЛЬНЫЕ СТАТИСТИКИ
К первичным описательным статистикам обычно относят числовые характеристики распределения, измеренного на выборке признака. Каждая такая характеристика отражает в одном числовом значении свойство распределения множества результатов измерения: с точки зрения их расположения на числовой оси либо с точки зрения их изменчивости.
Основное назначение каждой из первичных описательных статистик — замена множества значений признака, измеренного на выборке, одним числом (например, средним значением как мерой центральной тенденции). Компактное описание группы при помощи первичных статистик позволяет интерпретировать результаты измерений, в частности, путем сравнения первичных статистик разных групп
МЕРЫ ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ Мера центральной тенденции - это число, характеризующее выборку по уровню выраженности измеренного признака. Существуют три способа определения «центральной тенденции» , каждому из которых соответствует своя мера: мода, медиана и выборочное среднее
Мода - это такое значение в совокупности, которое встречается наиболее часто. Например, в совокупности значений 2, 6, 6, 8, 9, 9, 9, 10 - модой является 9, потому что оно встречается чаще любого другого значения. Однако не всякая совокупность значений имеет единственную моду.
1. Если все значения в совокупности встречаются одинаково часто, то совокупность не имеет моды. Например, в группе (2, 2, 4, 4, 5, 5) мода отсутствует. 2. Когда два или несколько соседних значений имеют одинаковую частоту, то мода есть среднее из этих значений. Например, в совокупности (1, 2, 3, 3, 3, 5, 5, 5, 6) мода равна 4. 3. Если два или несколько несмежных значений в совокупности имеют равные частоты, то существуют две или несколько мод. Например, в совокупности (1, 3, 3, 4, 4, 6, 7, 7, 7, 9, 9) модами являются 4 и 7.
Медиана - это значение, которое делит упорядоченное множество данных пополам, так что в обе стороны от медианы располагается одинаковое число вариант.
Вычисление медианы 1. Если данные содержат нечетное число различных значений, например, 11, 13, 18, 19, 20, то медиана есть среднее значение для случая, когда они упорядочены, то есть 18. 2. Если данные содержат четное число различных значений, например, 4, 9, 13, 14, то медиана есть точка, лежащая посредине между двумя центральными значениями, когда они упорядочены: (9+13)/2 = 11.
3. Если данные сгруппированы в классы, возникает необходимость производить вычисление внутри классового интервала, куда попадает медиана. Значение медианы можно определить по формуле: где: Md - медиана, nф - фактическая нижняя граница интервала медианы, d - ширина интервала медианы, nн - частота, накопленная к интервалу медианы, nм - частота в интервале медианы, n-суммарная частота.
Среднее или средняя арифметическая совокупности из n значений обозначается через x и определяется как: или: где i-любое из n значений.
Для любых совокупностей экспериментальных данных может быть определена каждая из уже упомянутых мер центральной тенденции. Важно лишь помнить, что медиана и мода не требуют для своего определения всех значений, а для вычисления средней арифметической величины необходимо использовать все значения совокупности.
КВАНТИЛИ РАСПРЕДЕЛЕНИЯ Помимо мер центральной тенденции в психологии широко используются меры положения, которые называются квантилями распределения. Квантиль — это точка на числовой оси измеренного признака, которая делит всю совокупность упорядоченных измерений на две группы с известным соотношением их численности. С одним из квантилей мы уже знакомы — это медиана. Это значение признака, которое делит всю совокупность измерений на две группы с равной численностью. Кроме медианы часто используются процентили и квартили.
Процентили {Percentiles) — это 99 точек — значений признака (Р 1. . . , Р 99), которые делят упорядоченное (по возрастанию) множество наблюдений на 100 частей, равных по численности. Определение конкретного значения процентиля аналогично определению медианы. Например, при определении 10 -го процентиля, Р 10, сначала все значения признака упорядочиваются по возрастанию. Затем отсчитывается 10% испытуемых, имеющих наименьшую выраженность признака. Р 10 будет соответствовать тому значению признака, который отделяет эти 10% испытуемых от остальных 90%.
Квартили (Quartlles) — это 3 точки — значения признака, которые делят упорядоченное (по возрастанию) множество наблюдений на 4 равные по численности части. Первый квартиль соответствует 25 му процентилю, второй — 50 -му процентилю или медиане, третий квартиль соответствует 75 -му процентилю. Процентили и квартили используются для определения частоты встречаемости тех или иных значений (или интервалов) измеренного признака или для выделения подгрупп и отдельных испытуемых, наиболее типичных или нетипичных для данного множества наблюдений
МЕРЫ ИЗМЕНЧИВОСТИ Меры центральной тенденции отражают уровень выраженности измеренного признака. Однако не менее важной характеристикой является выраженность индивидуальных различий испытуемых по измеренному признаку. Меры изменчивости применяются в психологии для численного выражеия величины межиндивидуальной вариации признака.
Наиболее простой и очевидной мерой изменчивости является размах, указывающий на диапазон изменчивости значений. Размах — это просто разность максимального и минимального значений: R = xmax – x min Это очень неустойчивая мера изменчивости, на которую влияют любые возможные «выбросы» .
Более устойчивыми являются разновидности размаха: размах от 10 до 90 -го процентиля (Р 90 — Р 10) или междуквартильный размах (Р 75 - Р 25). Последние две меры изменчивости находят свое применение для описания вариации в порядковых данных. А для метрических данных используется дисперсия — величина, название которой в науке является синонимом изменчивости.
Дисперсия - статистический показатель, отражающий степень варьирования признаков в группе. Дисперсия величина положительная и определяется по формуле: где: x- средняя арифметическая; xi - значения варианты от 1 -го до n-го; n - число вариант; i=1, 2, 3, , n.
Среднее квадратическое отклонение (стандартное отклонение) определяется как корень квадратный из величины дисперсии: = или σ =
Коэффициент вариации - число, выражающее изменчивость признаков в процентах независимо от того, какими единицами измерения они выражены. Коэффициент вариации определяется по следующей формуле: V =
Стандартизация или z-преобразование данных — это перевод измерений в стандартную Z-шкалу (Z-scores) со средним x = 0 и Dz = 1. Сначала для переменной, измеренной на выборке, вычисляют среднее x стандартное отклонение Затем все значения переменной хi пересчитываются по формуле: z = i x -x i s x
В результате преобразованные значения (zзначения) непосредственно выражаются в единицах стандартного отклонения от среднего. Если для одной выборки несколько признаков переведены в z-значения, появляется возможность сравнения уровня выраженности разных признаков у того или иного испытуемого.