
сводка и группировка данных.ppt
- Количество слайдов: 34
Первичная статистическая обработка данных.
Решаются задачи: а) отображение переменных, описанных текстом, в номинальную (с предписанным числом градаций) или ординальную (порядковую) шкалу; б) статистическое описание исходных совокупностей с определением пределов варьирования переменных; в) анализ резко выделяющихся наблюдений; г) восстановление пропущенных наблюдений; д) проверка статистической независимости последовательности наблюдений, составляющих массив исходных данных;
Сводка – научно организованная обработка материалов наблюдения (по заранее разработанной программе), включающая в себя кроме обязательного контроля собранных данных, систематизацию, группировку материалов, составление таблиц, получение итогов по группам и в целом. Программа сводки включает определение групп и подгрупп, системы показателей и видов таблиц.
Группировка – разбиение совокупности на группы, однородные по какому-либо признаку или объединение отдельных единиц совокупности в группы, однородные по каким-либо признакам. Устойчивое разграничение объектов называется классификацией или стандартом, в котором каждая атрибутивная запись может быть отнесена лишь к одной группе или подгруппе. Метод группировки основывается на двух категориях – группировочном признаке и интервале.
Группировочный признак – признак, по которому происходит объединение отдельных единиц совокупности в однородные группы. Он может носить как количественный, так и качественный характер. Интервал очерчивает количественные границы групп и представляет собой промежуток между максимальным и минимальным значениями признака в группе. Интервалы бывают равные, неравные, закрытые (когда имеется верхняя и нижняя граница) и открытые (когда одна из границ отсутствует).
При определении числа групп учитываются задача исследования, объем совокупности и виды признаков, которые берутся в качестве основания группировки. Например, по количественному признаку - возраст населения, стаж работников предприятия. . . Если берется такой качественный признак, как образование, то групп будет столько, сколько ступеней или профилей образования (среднее; неполное среднее специальное; специальное среднее; высшее). По профилю образования (гуманитарное; инженерно-техническое; естественнонаучное).
В зависимости от числа положенных в основание группировки признаков различают простые и многомерные группировки. Простая группировка выполняется по одному признаку. Среди простых группировок особо выделяются ряды распределения. Ряд распределения – группировка, в которой для характеристики групп, упорядоченно расположенных по значению признака применяется один показатель – численность группы.
В качестве иллюстрации приведём измерение роста 50 студентов (индивидуальное измерение представлено отдельно) - такие данные несгруппированные. 170 185 180 188 155 173 178 168 185 173 170 183 175 180 178 183 180 196 175 180 188 173 178 183 168 183 178 180 178 163 165 175 183 190 178 168 170 178 183 170 178 173 168 185 180 175 170
В противоположность этим данным значения, образующие ряд распределения называют сгруппированными: Ряд распределения роста 50 студентов (сгруппированные данные) Рост, см. Число студентов 155 - 160 1 160 - 166 2 166 - 172 8 172 - 178 19 178 - 184 13 184 - 190 и выше 7
Если за основу группировки взят качественный признак, то такой ряд распределения называют атрибутивным (распределение по видам труда, по полу, по профессии, по религиозному признаку, национальной принадлежности и т. д. ). Характеризуют состав совокупности по тем или иным существенным признакам. Взятые за несколько периодов, эти данные позволяют исследовать изменение структуры явления.
Атрибутивный ряд распределения уличной преступности: Вид преступления Число % Умышленные убийства 3022 1, 4 Умышленные тяжкие телесные повреждения Изнасилования 8799 4 965 0, 4 Разбой 7276 3, 3 Грабежи 50125 22, 9 Кражи 66156 30, 2 Хулиганство 39013 17, 8 Прочие 43842 20 Итого 219211 100
Если ряд распределения построен по количественному признаку, то такой ряд называют вариационным. Показывает изменение (варьирование) количественного признака у какого -либо явления. Построить вариационный ряд - значит упорядочить количественное распределение единиц совокупности по значениям признака, а затем подсчитать числа единиц совокупности с этими значениями.
Вариационный ряд – ранжированный в порядке возрастания или убывания ряд вариантов с соответствующими им весами (частотой, частостью …). Это двойной числовой ряд, показывающий, каким образом численные значения изучаемого признака связаны с их повторяемостью в выборке, дают наглядное представление о характерных особенностях варьирования признака.
Выделяют три формы вариационного ряда: ранжированный, дискретный и интервальный. Ранжированный ряд - распределение отдельных единиц совокупности в порядке возрастания или убывания. Ранжирование позволяет легко разделить количественные данные по группам, сразу обнаружить наименьшее и наибольшее значения признака, выделить значения, которые чаще всего повторяются.
Дискретный - вариационный ряд, в основу построения которого положены признаки с прерывным изменением (дискретные признаки). Например, тарифный разряд, количество детей в семье, число работников на предприятии. . . - признаки могут принимать конечное число значений. Представляет таблицу: в первой графе указывается конкретное значение признака, во второй - число единиц совокупности с определенным значением признака.
Общий вид дискретного вариационного ряда: xi х1 х2 … хk ni n 1 n 2 … nk Здесь хi – варианты, ni – соответствующие им частоты.
Пример. Получен статистический ряд: xi ni 2 4 5 8 9 0, 1 0, 3 ___ 0, 1 Тогда значение относительной частоты при x=5 будет равно: 1) 0, 3 2) 0, 2 3) 0, 5 4) 0, 4 Ответ: пункт № 4, т. к. 0, 1+ 0, 3 + 0, 4 + 0, 1=1
Если признак имеет непрерывное изменение, то для него строят интервальный вариационный ряд: в первой графе указывают значение признака в интервале «от - до» (варианты), во второй - число единиц, входящих в интервал (частота). Частота – численность отдельных вариант или каждой группы ряда. Если частоты выражены в долях единицы или в % к итогу, их называют частостями.
Пример интервального вариационного ряда: Номера интервала, i Границы интервалов Серединные значения Частоты xi ni xн xв 1 4 8 6 5 2 8 12 10 6
Графическое представление рядов Наиболее употребительные графики для изображения вариационных рядов, т. е. соотношений между значениями признака и соответствующими частотами или относительными частотами: полигон, гистограмма и кумулята.
Полигон чаще используют для изображения дискретных рядов: в прямоугольной системе координат на оси абсцисс откладывают значения аргумента (варианты), на оси ординат - значения частот. Масштаб выбирают такой, чтобы была обеспечена необходимая наглядность. Далее строят точки, координаты которых - пары соответствующих чисел из вариационного ряда. Полученные точки последовательно соединяют отрезками.
Учебные достижения учащихся характеризуются данными: Количество баллов x 1 2 3 4 5 6 7 8 9 10 11 12 Число 1 1 2 3 4 4 6 5 3 3 2 1 учащихся n Построить полигон частот. Если полигон строят для интервального ряда, то в качестве абсцисс точек берут середины соответствующих интервалов (!!!).
Кумулята служит для графического изображения кумулятивного вариационного ряда. Для ее построения на оси абсцисс откладывают значения аргумента, на оси ординат - накопленные частоты или накопленные частости. Далее строят точки, абсциссы которых равны вариантам (для дискретных рядов) или верхним границам интервалов (для интервальных рядов), ординаты - соответствующим накопленным частотам. Точки соединяют отрезками - полученная ломаная является кумулятой.
По данным таблицы составить кумулятивный вариационный ряд, построить кумуляту. Количество баллов x 1 2 3 4 5 6 7 8 9 10 11 12 Число учащихся 1 1 2 3 4 4 6 5 3 3 2 1 (частота) Накопленная 1 2 4 7 11 15 21 26 29 32 34 35 частота
Гистограмму используют для изображения интервальных рядов: по данным ряда с равными интервалами (как для полигона) на оси абсцисс откладывают значения аргумента, на оси ординат - значения частот или относительных частот. Далее строят прямоугольники, основания которых- полученные отрезки оси абсцисс, высоты - отрезки, длины которых пропорциональны частотам или относительным частотам соответствующих интервалов.
При проведении плановых мероприятий по выявлению нарушений скоростного режима на дорогах г. N зарегистрирована скорость движения автотранспорта (км/ч): 118; 134; 105; 137; 180; 154; 113; 111; 166; 153; 122; 131; 137; 120; 144; 155; 100; 105; 139; 140; 132; 119; 112; 106; 145. 1. Построить интервальный ряд распределения 2. Полученный ряд изобразить на графике. Решение: 1. Определим объём выборки n = 25.
2. Определение границ варьирования (изменения) наблюдений Xmin= 100; Xmax= 180. 3. Расчёт размаха вариации - определяется как разница между максимальным и минимальным значениями вариант в выборке: R = Xmax – Xmin= 180 – 100 = 80 (км/ч). 4. Выбор числа классов m с учётом объёма выборки n и точности измерения.
Определяют по формулe Стэрджесса: m = 3, 321·lg n + 1= 3, 321· lg 25 + 1 = 5, 62. максимально допустимое число классов m < 6 Пусть m = 5 (последнее целое число < 6). 5. Определение длины (шаг) интервала. h = (км/час) 6. Определение серединных значений интервалов.
7. Построение вариационного ряда. Необходимо подсчитать частоты интервалов. Числа, показывающие, сколько раз варианты, относящиеся к каждому интервалу группировки встречаются в выборке - частоты интервалов. Общая сумма частот равна объёму выборки (!!!). Относительные частоты показывают процентную долю вариант каждого интервала в выборке, общая сумма всех относительных частот равна 100%.
Границы интервалов 100 116 132 148 164 180 Σ Серединные частоты значения 108 124 140 156 172 7 6 7 3 2 25 Отн. Частоты % 28 24 28 12 8 100
сводка и группировка данных.ppt