Агрегирование данных. Фильтр.ppt
- Количество слайдов: 41
Семестр 7 Курс «Методи комп'ютерної обробки соціологічної інформації: ОСА, SPSS» Кислова О. М. Лекція 14 1. Тема «Агрегування даних в пакеті SPSS» 2. Тема «Відбір даних у SPSS»
Тема «Агрегування даних в пакеті SPSS»
За допомогою команди Data Aggregate (Дані Агрегування) можна об’єднати групу ознак і створити новий агрегований файл даних.
• Наприклад, можна агрегувати дані соціологічного опитування за містами і створювати новий файл даних, в якому одиницями аналізу будуть міста. Процедуру агрегування можна застосувати й після проведення кластерного аналізу для створення нового файлу, де одиницями аналізу будуть кластери. • Агрегація змінних використовується соціологами також для номінальних шкал із сумісними альтернативами з метою наочного представлення результатів у звіті.
• Розглянемо процедуру агрегування на прикладі створення нового файлу, в якому одиницями аналізу будуть кластери, що представляють різні прояви моральних орієнтацій студентської молоді (масив st 06, перемінна р533, яка має назву clu 6_6 та мітку Ward Method 6 кластерів).
Щоб агрегувати дані виберіть в меню Data Aggregate (Дані Агрегування в діалоговому вікні Aggregate (див. )і Data рис. 1) у якості перемінної групування задайте р533, у якості перемінних, що будуть агреговані, виберіть p 131 - р142.
Агрегируемые переменные. Для создания новых переменных используются исходные переменные с функциями агрегирования. За именем агрегированной переменной идет необязательная метка переменной, имя агрегирующей функции и имя исходной переменной в скобках. Перемінні, що отримані в результаті процедури агрегування
Агрегований файл даних
Агрегований файл даних може слугувати основою подальшого аналізу, але зазвичай він застосовується: ь для візуалізації загальних характеристик кластерів (наприклад, побудови пелюсткових діаграм та піктографіків, які призначені для представлення багатомірних даних); ь для представлення результатів у табличній формі у звіті проведене дослідження.
Для представлення результатів у табличній формі, агрегований файл рекомендується транспонувати. Для цього слід виконати команду Data Transpose (Дані Транспозиція)
У результаті транспонування, ми отримуємо файл, в якому стовпці v 1, v 2, v 3, v 4, v 5, v 6 містять середні значення за ознаками 131 -142 у кожному з 6 кластерів. Стовпчик v_ містить характеристики всіх респондентів, які не увійшли до кластерів.
Отриманий файл можна скопіювати до буферу обміну та вставити в іншу програму для подальшої роботи. Наприклад: Шу текст звіту як таблицю; Шу Excel та застосувати ці дані для побудови багатовимірної пелюсткової діаграми; Шу програму STATІSTІCA для побудови піктографіків.
Ш Піктографік, побудований у програмі STATІSTІCA Ш Багатовимірна пелюсткова діаграма, побудована в Excel
Агрегування з виводом процентів • В SPSS не передбачений тип шкал, який соціологи називають “номінальний з сумісними альтернативами”. Тому дані, отримані в результаті вимірювання ознаки при допомозі номінальної шкали із сумісними альтернативами, в SPSS будуть представлені як декілька змінних номінального типу з двома альтернативами відповіді – так ні (в описі змінної стовпчик Values значення приймає 1 чи 0 ). Кількість таких дихотомічних змінних дорівнює кількості альтернатив відповіді. При аналізі цих перемінних дуже корисним буває агрегування по одній або декільком перемінним. За допомогою процедури агрегування можна створити наочні таблиці, які містять проценти респондентів, що вибрали вказані альтернативи відповіді.
• Перед тим як ми розглянемо приклади побудови таких таблиць необхідно згадати, що SPSS по замовчуванню використовує у якості функції агрегування вивід середніх значень. Щоб задати іншу функцію агрегування, необхідно виділити змінну в полі Aggregate Variableта натиснути (s) мишкою на клавішу Function. Функція ( ) (див. рис. ). У результаті цих дій відкриється діалогове вікно Aggregate Data : Aggregate Function.
Порядок дій при виборі функції агрегування
Percentage above (відсоток значень вище, чим. . . ). Відсоток спостережень в агрегованій групі, значення яких більше значення, визначеного користувачем. Відображається як PGT.
Результат агрегування
Другий приклад. Необхідно агрегувати дані за двома перемінними: кластер та стать. Для цього виберіть в меню Data Aggregate (Дані Агрегування) і в діалоговому вікні Aggregate Data у якості перемінних групування задайте clu 6_6 (кластери за моральними принципами) та р204(стать), у якості перемінних, що будуть агреговані, виберіть p 1_1 р1_11 (причини, по яких респонденти вступили до Щоб у агрегованому файлі містились вузу). проценти, встановіть функцію агрегування Percentage Above 0.
Література • Бююль А. , Цёфель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. – СПб. : ООО «Диа. Софт. ЮП» , 2002. – С. 143 -145. • Ковалева Г. Д. , Ростовцев П. С. Анализ социологических данных с применением статистического пакета SPSS: Учебно-методическое пособие. - Новосибирск: НГУ, 2002. – С. 34 -39. – Доступно на: http: //window. edu. ru/window_catalog/redir? id=28133&file=nsu 012. pdf
Тема «Відбір даних у SPSS»
Відбір даних – це вибір спостережень (анкет) за визначеними критеріями. • Так, наприклад, при опитуванні виборців можна відібрати тільки чоловіків, що голосують за певну партію, а при опитуванні студентів – тільки студенток, які вирішили вступити до вузу тому, що сподівалися зустріти майбутнього супутника життя. Після виконання операції відбору всі обчислення будуть проводитися тільки з цими відібраними спостереженням.
Data → Select Cases. . .
• Для відбору даних у SPSS існують такі можливості: • Іf condіtіon satіsfіed іs (Якщо виконується умова). спостережень Вибір (анкет) по визначеній умові (логічному вираженню). Ця операція аналогічна побудові фільтрів у пакеті ОСА. • Random Samplecases of (Випадковий відбір спостережень). Витяг випадкової вибірки з масиву анкет. • Based on time or case range (На основі часових обмежень або інтервалі спостережень). надає можливість відібрати інтервали по датам або SPSS часу для часових рядів, що містять перемінні у вигляді дати. Відзначимо, що потреба у застосуванні такої можливості при аналізі масивів соціологічних анкет практично ніколи не виникає. • Use filter variables (Застосовувати перемінну фільтру). Встановлення цієї опції дає аналітику можливість вказати у файлі даних перемінну, яка буде застосовуватися з метою фільтрації анкет. В цьому разі будуть відбиратися анкети з будь-якими значеннями перемінної-фільтру, окрім 0 та пропущених значень. Ця можливість дуже рідко, але все ж таки застосовується соціологами. Потреба її застосування виникає лише в тих випадках, коли так звані Не. Відповіді на якесь запитання (дуже важливе з точки зору соціологічного аналізу) значно змінюють розподіли по всім ознакам досліджуваного масиву анкет.
• Необхідно звернути увагу на опції Filtered Deleted та , що розташовані унизу діалогового вікна Select Cases. Зазвичай застосовується опція Filteredяка дає можливість , працювати лише з тими анкетами, які цікавлять дослідника при вивченні певного аспекту досліджуваного явища. • Опція Deleted дозволяє видалити з масиву даних всі анкети, які не задовольняють певній вимозі. Наприклад, якщо задати вимогу р204 = 1 (стать = чоловік) та встановити опцію Deleted з масиву будуть видалені всі , то анкети, які не задовольняють цій умові, тобто у масиві остануться тільки анкети чоловіків. Зрозуміло, що потрібно застосовувати цю опцію дуже обережно, оскільки можна втратити значну кількість корисних даних.
• При аналізі результатів соціологічних опитувань частіше за все виникає потреба у відборі анкет по певній умові, але інколи застосовують й інші можливості, зокрема, вилучення випадкової вибірки з масиву даних.
Вибір анкет по визначеній умові
Діалогове вікно Select Cases: Іf
Коротко розглянемо оператори, які застосовуються у SPSS для створення логічних виражень для відбору анкет з масиву. • Оператори поділяються на арифметичні, логічні й оператори відносин. Арифметичні оператори застосовуються в так званих арифметичних вираженнях (математичних формулах), що при відборі даних мають лише другорядне значення. Арифметичні оператори можна використовувати й в логічних вираженнях, однак це зустрічається нечасто. • При створенні фільтрів для відбору анкет головним чином застосовують логічні оператори й оператори відносин.
Оператори відносин • Відношення - це логічне вираження, у якому два значення порівнюються один з одним за допомогою оператора відносини. Частіш за все значення перемінної порівнюються з яким-небудь чисельним значенням (константою), наприклад: • р1_6 = 1 (вирішили вступити до вузу тому, що сподівалися зустріти майбутнього супутника ж • р146 > 2 (відчувають себе представниками своє національності частково або повною мірою).
Для побудови логічних виражень можуть застосовуватися наступні оператори відносин: Оператори можна ввести в редактор умов або клацнувши в діалоговому вікні на кнопці з відповідним знаком, або ввівши з клавіатури альтернативний текст. Наприклад, замість ~= можна ввести NE або <>.
Логічні оператори • Для побудови умовних виражень можуть застосовуватися наступні логічні оператори:
Практичне завдання • 1. Побудуйте фільтр для відбору з усього масиву st 06. sav чоловіків (ознака р204), які повною мірою відчувають себе громадянами України (ознака р147) та вважають, що Україна у зовнішній політиці повинна передусім орієнтуватися на Росію, Білорусь та інші країни Єдиного економічного простору (ознака р152).
Діалогове вікно Select Cases: Іf (Вибрати спостереження: Якщо), у якому міститься логічний вираз для вилучення з масиву анкет, що відповідають умові, яка задана аналітиком
Побудуйте одномірний розподіл за ознакою 157. Цей розподіл, як Ви самі побачите, буде побудований лише для 156 анкет, які задовольняють умові, що була Вами задана. Проаналізуйте отриманий результат.
Проаналізуйте ставлення студентської молоді до політики, політичних процесів у суспільстві (масив st 06, ознака р157). Для цього поверніться до роботи зі всім масивом (виконайте команду Data (Дані) →Select Cases. . . (Вибрати спостереження) та встановіть опцію All cases (Усі спостереження). Розрахуйте одномірний розподіл за ознакою р157, у результаті Ви отримаєте таку таблицю (см. табл. ) • Розміркуйте, які групи студентської молоді можуть відрізнятися від загальної маси за своїм ставленням до політики, політичних процесів у суспільстві. Висуньте свої гіпотези та запропонуйте засоби їх перевірки.
Витяг випадкової вибірки спостережень з файлу даних • Виберіть у меню команди Data → Select Cases. . . • У діалоговому вікні Select Casesяке з’явиться на , екрані після виконання команди, виберіть пункт Random sample cases of. • Потім клацніть на кнопці Sample , щоб відкрити. . . діалогове вікно Select Cases Random : Sample
Вилучення випадкової вибірки з масиву анкет у SPSS можна здійснити одним з наступних способів: • Approxіmately (Приблизно). Аналітик вказує процент анкет, які потрібно відібрати зі всього масиву. SPSS створить випадкову вибірку з обсягом, що приблизно відповідає зазначеному відсоткові спостережень. Наприклад, можна відібрати 50% анкет зі всього масиву (див. рис. а). • Exactly (Точно). Аналітик указує точну кількість анкет у випадковій вибірці. Крім того, тут треба задати кількість спостережень, з яких буде витягнута вибірка. Звісно, що це число не може бути меншим ніж кількість анкет у вибірці та не повинне перевищувати загальної кількості анкет у файлі даних. При аналізі масивів соціологічної інформації зазвичай для створення вибірки з масиву анкет вказують кількість анкет у масиві. Так, наприклад, щоб з масиву, який містить 3057 анкет, випадково вилучити 400 анкет, необхідно задати такі параметри, які вказані на рисунку б.
Два способи створення випадкової вибірки
Література • Бююль А. , Цёфель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. – СПб. : ООО «Диа. Софт. ЮП» , 2002. – С. 104 -121.
Агрегирование данных. Фильтр.ppt