Основы описательной статистики Представление данных Это
















Описательная статистика.ppt
- Количество слайдов: 16
Основы описательной статистики
Представление данных Это подготовительный этап обработки данных с целями: l представления в наиболее компактной, удобной для обработки форме; l сохранения максимума содержащейся в них информации. Представление данных включает в себя ряд последовательных действий: l протоколирование, l табулирование данных, l создание таблиц сгруппированных частот, l построение диаграмм или полигона распределения частот и т. д.
Протоколирование и табулирование Протоколирование – заполнение базы данных или индивидуальных протоколов по всем исследуемым. Табулирование – оформление данных в форме таблиц, заполнение сводных таблиц №п/п Фамилия, имя, Другие данные Исследуемый отчество (если необходимо) показатель 1 2 … n Перед составлением сводной таблицы проводится ранжирование данных - данные выстраиваются в общий ряд по исследуемому признаку в порядке его возрастания или убывания: х1≤х2≤х3≤…≤хn, где n – общее число значений признака
Табулирование Затем строят таблицы распределения частот: №№ пп 1 2 … n-1 n xi fi При выборках большого объёма используются таблицы распределения сгруппированных частот: Номер класса (N) 1 2 … N-1 N Границы класса (xmin xmax) Среднее значение ( ) Частоты (fi ) Накопленные частоты (Fi)
Табулирование Для составления таблицы распределения сгруппированных частот необходимо: 1) общий диапазон изменения признака разделить на равные по ширине классы, их число в общем диапазоне определяется формулой Стэрджесса: N = 1 + 3, 322 lg n, где n – объем выборки, N – количество классов; 2) определить границы классов; 3) подсчитать частоты встречаемости признака в каждом классе.
Графическое представление результатов Гистограмма – столбчатая фигура, у которой ширина каждого столбца – ширина класса, высота – соответствующая частота встречаемости признака. Полигон – ломаная, соединяющая точки с координатами ( , fi), где - среднее значение, fi – частота встречаемости признака на каждом интервале.
Основные числовые характеристики рядов данных
Меры центральной тенденции Центральная тенденция – это количественное (численное) значение признака, к которому тяготеет переменная величина. В качестве мер центральной тенденции чаще всего используются l мода, l медиана l среднее арифметическое значение.
Мода (Mo)–наиболее часто встречающееся значение признака. При анализе таблицы сгруппированных частот определяется модальный класс - тот класс распределения, в который попадает наибольшее количество частот.
Медиана (Md) – значение, которое делит ранжированный ряд пополам – среднее значение ранжированного ряда. Если число значений нечетное, то медиана соответствует среднему члену ряда, если четное, то медиана есть среднее между двумя центральными значениями Мода и медиана не учитывают разброса данных, и переменные, лежащие в стороне от центра, не влияют на их величину.
Среднее значение (среднее арифметическое), равно сумме значений переменной, деленной на их число. Для несгруппированных переменных среднее арифметическое вычисляется по формуле: Для сгруппированных переменных используют формулу:
Меры вариации (изменчивости) Для определения степени вариации (изменчивости) исследуемого параметра используются различные величины: l размах вариаций, l дисперсия, l стандартное отклонение, l коэффициент вариации и др.
Размах вариаций (R) есть математическая разность между максимальной и минимальной величиной признака
Дисперсия ( 2) представляет собой сумму квадратов отклонений значений признака от среднего: При расчете дисперсии вручную используют другую (рабочую) формулу:
Среднеквадратичное (стандартное) отклонение Стандартное отклонение ( х) соответствует квадратному корню из дисперсии.
Коэффициент вариации (V) есть отношение стандартного отклонения к среднему арифметическому значению, выраженное в процентах:

