Описательная статистика.ppt
- Количество слайдов: 17
Основы описательной статистики
Представление данных Это подготовительный этап обработки данных с целями: l l представления в наиболее компактной, удобной для обработки форме; сохранения максимума содержащейся в них информации. Представление данных включает в себя ряд последовательных действий: l l протоколирование, табулирование данных, создание таблиц сгруппированных частот, построение диаграмм или полигона распределения частот и т. д.
Протоколирование и табулирование Протоколирование – заполнение базы данных или индивидуальных протоколов по всем объектам наблюдений. Табулирование – оформление данных в форме таблиц, заполнение сводных таблиц №п/п 1 2 … n Фамилия, имя, отчество Другие данные (если необходимо) Исследуемый показатель
Типы рядов ¡ ¡ Если основой группировки данных выбран качественный признак, ряд распределения называют атрибутивным. Вариационным рядом называется ряд распределения, построенный по количественному признаку. Выделяют 3 формы вариационных рядов: Ранжированный ряд – распределение отдельных единиц совокупности в порядке возрастания или убывания признака. l Дискретный ряд – вариационный ряд, в основу которого положен признак с дискретным (прерывным) изменением. l Интервальный ряд – вариационный ряд, отражающий непрерывно изменяющийся признак или дискретный признак с большим числом различных значений. Два последних типа рядов отражают в виде групповых таблиц распределения частот l
Табулирование Построение таблицы распределения частот (дискретный ряд): xi ni хi – варианты ряда - значения признака ni - частоты–число наблюдений соответствующего значения признака Наряду с частотами в ряде распределения могут отражаться: • накопленные частоты: • относительные частоты или частости: • накопленные относительные частоты: или
Табулирование Построение таблицы распределения сгруппированных частот (интервальный ряд): Границы класса (xmin xmax) Среднее значение (х*i) Частоты (ni ) Накопленные частоты (ni нак) Для построения интервального ряда необходимо: 1) общий диапазон изменения признака разделить на равные по ширине интервалы, их число определяется формулой Стэрджесса: к = 1 + 3, 322 lg n, где n – объем выборки, к – количество классов; 2) определить ширину и границы интервалов; 3) подсчитать частоты для каждого интервала.
Графическое представление ряда Гистограмма – столбчатая фигура, у которой ширина каждого столбца – ширина интервала, высота – соответствующая частота встречаемости признака. Полигон – ломаная, соединяющая точки с координатами (xi*, ni). Кумулята – ломаная, соединяющая точки с координатами (xi*, ni нак). Те же фигуры могут строиться по относительным частотам
Основные числовые характеристики вариационных рядов
Меры центральной тенденции Центральная тенденция – это количественное значение признака, к которому тяготеет переменная величина. В качестве мер центральной тенденции чаще всего используются l l l мода, медиана среднее арифметическое значение.
Мода (Mo)–наиболее часто встречающееся значение признака. Для дискретного вариационного ряда мода определяется по частотам и соответствует варианте с максимальной частотой. При анализе интервального ряда определяется модальный класс - класс распределения с наивысшей частот. При равных интервалах мода находится внутри модального интервала по формуле:
Медиана (Mе) – это значение изучаемого признака, приходящееся на середину ранжированного ряда. В дискретном вариационном ряде ¡ если число значений нечетное, то медиана соответствует среднему члену ряда, ¡ если четное, то медиана есть среднее между двумя центральными значениями В интервальном ряде применяют формулу: xn–начало медианного интервала n. Ме- частота медианного интервала SMe-1 – накопленная частота предшествующего интервала Мода и медиана не учитывают разброса данных, и переменные, лежащие в стороне от центра, не влияют на их величину.
Среднее значение (среднее арифметическое), равно сумме значений переменной, деленной на их число. Для несгруппированных переменных среднее вычисляется по формуле: Для сгруппированных переменных используют формулу:
Меры вариации (изменчивости) Для определения степени вариации (изменчивости) исследуемого параметра используются различные величины: l l размах вариаций, дисперсия, стандартное отклонение, коэффициент вариации и др.
Размах вариаций (R) есть математическая разность между максимальной и минимальной величиной признака
Дисперсия (Dв) представляет собой сумму квадратов отклонений значений признака от среднего: При расчете дисперсии вручную используют другую (рабочую) формулу:
Среднеквадратическое отклонение Среднеквадратическое или стандартное отклонение ( х) соответствует квадратному корню из дисперсии
Коэффициент вариации (V) есть отношение стандартного отклонения к среднему арифметическому значению, выраженное в процентах:


