Тема 2_1 (2014_24_02) Мет анализа ОДНОМЕРКИ.ppt
- Количество слайдов: 51
Кислова О. М. Курс «Методи аналізу соціологічної інформації» Тема. Дескриптивна статистика: поняття одновимірного розподілу.
План • • • Загальне поняття про статистику. Сутність дескриптивної статистики. Аналіз одновимірних розподілів: – Загальний вигляд одновимірних розподілів; – Статистики, що застосовуються при аналізі одновимірних розподілів; – Приклади аналізу одновимірних розподілів.
Що таке статистика? • Термін «статистика» походить від латинського «status» , що означає положення, стан явищ. Від кореня цього слова виникли слова «stato» (держава), «statista» (статистик, знавець держави), «statistiks» (статистика — певна сума знань, зведень про державу). Спочатку, в XVІІІ в. , коли статистика початку оформлятися в наукову дисципліну, термін статистика зв'язувався лише із системою опису фактів, що характеризують стан держави. При цьому навіть не передбачалося, що згодом статистика перетвориться у науку, яка не тільки займається збором та інтерпретацією даних, а й вивчає закономірності будь-яких масових процесів.
Відомий радянський математик, фахівець із теорії ймовірностей та математичної статистики академік АН УРСР Б. В. Гнеденко характеризуючи сутність сучасної статистики виокремив її складові частини: «Статистика складається із трьох розділів: 1) збір статистичних відомостей, тобто відомостей, що характеризують окремі одиниці яких-небудь масових сукупностей; 2) статистичне дослідження отриманих даних, що полягає в з'ясуванні тих закономірностей, які можуть бути встановлені на основі даних масового спостереження; 3) розробка прийомів статистичного спостереження й аналізу статистичних даних. Останній розділ, властиво, і становить зміст математичної статистики» [1]. • [1] Гнеденко Б. В. Курс теории вероятностей (7 -е изд. ) / Борис Владимирович Гнеденко. – М. : УРСС, 2001. – С. 354.
Сьогодні слово «статистика» використовують у кількох значеннях: • сукупність даних про яке-небудь явище або процес • • • (наприклад, можна говорити про статистику виборів, статистику народжуваності, злочинів тощо). Саме в цьому контексті розрізнюють соціальну, демографічну, економічну, промислову, торговельну, банківську, фінансову, медичну й т. п. статистики. галузь практичної діяльності, спрямовану на збір, обробку та аналіз статистичних даних, що відбивають явища й процеси громадського життя. Цю роботу зазвичай виконують і очолюють спеціальні державні установи (наприклад, Держкомстат України). наука про методи збору, обробки, аналізу й інтерпретації даних, що характеризують масові (зокрема, суспільні) явища й процеси. статистичній показник, що характеризує властивості вибірки.
Статистика як наука про методи збору, обробки, аналізу й інтерпретації даних, поєднує цілий комплекс спеціалізованих наукових дисциплін, у якому можна виділити такі основні напрямки: • Методи збору даних. Основними методами збору даних є повне або • • вибіркове обстеження генеральної сукупності та експеримент, методологічною основою яких є теорія вибірки й планування експерименту. Методи виміру. Теоретичною основою цього напрямку є загальна теорія вимірів, на базі якої розробляються спеціальні показники, використовувані певними науками, зокрема соціологією (див. , наприклад, Толстова Ю. Н. Измерение в социологии: учебное пособие. 2 -е издание, переработанное и дополненное. – М. : Университет, 2009. ) Методи обробки й аналізу даних, які включають теорію ймовірностей, математичну статистику та їх додатки в різних наукових галузях – від технічних наук до соціальних. Якщо математична статистика має теоретичне призначення, розробляє методи статистичної обробки й аналізу даних, займається обґрунтуванням і перевіркою їх валідності, ефективності, умов застосування, стійкості до порушення умов застосування і т. п. , то прикладна статистика націлена на практичне застосування цих методів для вирішення певних дослідницьких завдань.
Прикладна статистика – це наука про те, як обробляти та аналізувати наявні дані. • Прикладна статистика вирішує три основні завдання - опис, узагальнення, пояснення або/і прогнозування - і, відповідно, включає три групи методів: методи описової (дескриптивної) статистики, методи статистичного висновку й методи аналізу зв'язків і залежностей. Дескриптивна або описова статистика призначена для одержання узагальнених характеристик вибіркової сукупності. Методи статистичного виводу дозволяють коректно узагальнювати результати вибіркового дослідження на генеральну сукупність. Найбільш велика група методів аналізу зв'язків призначена для дослідження парних і множинних зв'язків між змінними.
• Дескриптивна (описова) статистика – один з розділів статистичної науки, у рамках якого вивчаються методи опису й представлення основних властивостей досліджуваних даних. Вона об’єднує статистичні процедури, метою яких є одержання узагальненої інформації про досліджувані дані: угруповання даних по їхніх значеннях, побудову розподілу частот, виявлення центральних тенденцій розподілу (наприклад, середньої арифметичної) і, нарешті, оцінку розкиду даних стосовно знайденої центральної тенденції.
• Дескриптивна статистика націлена на перетворення маси цифрових даних у форму, зручну для сприйняття й обговорення. На відміну від статистичного виводу (аналітичної статистики), дескриптивна статистика не ставить за мету узагальнення результатів вибіркового дослідження на генеральну сукупність.
У межах описової статистики застосовуються наступні найпростіші техніки: • Табличне подання даних. • Графічне подання даних. • Використання узагальнюючих статистичних показників (статистик), таких, як середнє арифметичне, медіана, дисперсія тощо.
Узагальнюючі статистичні показники (статистики) застосовуються для вирішення двох основних завдань: • Показати загальне в характері сукупності даних. • Показати, у чому й наскільки дані розрізняються. При узагальненні (для вирішення першого завдання) найчастіше застосовуються міри центральної тенденції (середнє арифметичне, медіана або мода). Для вирішення другого завдання застосовують такі міри неоднорідності даних, як дисперсія, стандартне відхилення, інтерквартільний розмах тощо.
• Відомо, що основна мета аналізу даних – виявлення якихось статистичних закономірностей, що цікавлять дослідника. Самим простим способом досягнення цієї мети є «стиснення» , усереднення інформації, що міститься у наявних даних. Саме для цього слугують методи дескриптивної статистики, а її цінність обумовлюється тим, що вона дає стислу й концентровану характеристику досліджуваного явища, яка дає можливість «побачити» закономірності у досліджуваних даних.
Перший крок аналізу результатів соціологічного опитування − опис отриманих результатів, який головним чином зводиться до оформлення та інтерпретації одновимірних розподілів відповідей респондентів на всі поставлені в анкеті запитання. Опис передбачає послідовне виконання таких процедур: • 1) формування рядів розподілів; • 2) статистичну оцінку отриманих рядів розподілів; • 3) оформлення отриманих та статистично оцінених рядів розподілів у вигляді таблиць або діаграм таким чином, щоб вони при максимальному інформаційному навантаженні були досить доступні для сприйняття і розуміння.
Вигляд одновимірного розподілу і вибір статистик, що використовуються для його аналізу, залежать від типу шкали вимірювання аналізованої ознаки. • Якісні (класифікаційні) ознаки – ознаки, що • вимірюються номінальними або порядковими шкалами. Кількісні ознаки – ознаки, що вимірюються інтервальними або метричними шкалами. Для номінальних та порядкових шкал у якості описових статистик використовуються в основному частотні та процентні розподіли, а для метричних та псевдометричних шкал − статистики, що дозволяють охарактеризувати середнє значення отриманих даних. Середні значення розраховують інколи і для порядкових шкал (у тих випадках, коли у дослідника є підстави розглядати порядкову шкалу як псевдометричну).
Вигляд одновимірних розподілів, що розраховані у пакеті ОСА Вигляд одновимірного розподілу ознаки, що виміряна номінальною шкалою Вигляд одновимірного розподілу ознаки, що виміряна порядковою шкалою Вигляд одновимірного розподілу ознаки, що виміряна номінальною шкалою із сумісними альтернативами Вигляд одновимірного розподілу ознаки, що виміряна метричною шкалою
Вигляд одновимірного розподілу ознаки, що виміряна номінальною шкалою Діаграма, що Діаграма візуально представляє одновимірний розподіл
Вигляд одновимірного розподілу ознаки, що виміряна номінальною шкалою із сумісними альтернативами
Вигляд одновимірного розподілу ознаки, що виміряна порядковою шкалою
Вигляд одновимірного розподілу ознаки, що виміряна метричною шкалою
Статистики, що застосовуються при аналізі одновимірних розподілів: • Частоти, відсотки; • Міри центральної тенденції; • Міри варіації; • Характеристики форми розподілу.
Одновимірні розподіли також прийнято називати варіаційними рядами Одновимірні розподіли часто поділяють на частотні та процентні Наскільки Ви задоволені своїм життям? частота Повністю задоволений Скоріш задоволений Важко відповісти Скоріш не задоволений Повністю не задоволений Разом Не. Відп Всього 66 199 39 127 78 509 1 510 Наскільки Ви задоволені своїм життям? відсоток Повністю задоволений Скоріш задоволений Важко відповісти Скоріш не задоволений Повністю не задоволений Разом Не. Відп Всього 12, 9 33, 0 7, 6 24, 9 15, 3 99, 8 , 2 100, 0
Міри центральної тенденції Основними узагальнюючими характеристиками даних, отриманих за безперервними шкалами, є середні величини або міри центральної тенденції: • Середнє арифметичне; • Мода; • Медіана. Міри центральної тенденції дозволяють визначити й описати найбільш типову величину досліджуваної ознаки.
Міри варіації ознаки Поряд із мірами центральної тенденції, для опису даних необхідно наводити й параметри, що характеризують ступінь мінливості (варіації, розсіювання) ознаки. Існує ціла низка величин, які дозволяють оцінити міру варіації ознаки: • Варіаційний розмах. • Дисперсія. • Стандартне відхилення. • Коефіцієнт варіації.
Міри варіації ознаки : Варіаційний розмах • Варіаційний розмах = Максимум - Мінімум. • Мінімум − це найменше значення ознаки, • отримане внаслідок вимірювання (у наведеному прикладі − 1 співробітник). Максимум, відповідно, − найбільше значення (у наведеному прикладі − 3500 співробітників).
Міри варіації ознаки : Дисперсія (σ2) Диспе рсія (Variance) є мірою відхилення значень випадкової величини від центру розподілу. Більші значення дисперсії свідчать про більші відхилення значень випадкової величини від центру розподілу. Дисперсія − середнє арифметичне квадратів відхилень від середнього значення ознаки.
Міри варіації ознаки : Ср. Кв. Откл (σ) • Корінь квадратний із дисперсії називають • середнім квадратичним відхиленням або стандартним відхиленням та позначають символом σ. Середнє квадратичне відхилення є найбільш розповсюдженим показником варіації ознаки, тому що вимірює "середній" розкид значень змінної щодо її середнього арифметичного в тих самих одиницях вимірювання, що й сама ознака.
Міри варіації ознаки : Коефіцієнт варіації • Коефіцієнт варіації − відношення середнього квадратичного до середнього значення помножене на 100 %. • Коефіцієнт варіації дозволяє порівнювати між собою середні відхилення різних ознак, оскілки цей показник мінливості виражається у відносних величинах, а саме у відсотках. • Крім того коефіцієнт варіації дозволяє побачити, чи дійсно середнє значення є “середнім” (тобто досліджувана група є однорідною). Для цього Коэф. Вар повинен бути < 33%
Міри варіації ознаки : Коефіцієнт варіації • Коэффициент вариации позволяет судить об однородности совокупности: • – < 17% – абсолютно однородная; • – 17– 33%% – достаточно однородная; • – 35– 40%% – недостаточно однородная; • – 40– 60%% – это говорит о большой колеблемости совокупности.
Зверніть увагу, як ОСА розраховує Коэф. Вар. • Ми бачимо, що Коэф. Вар дорівнює 16, 8% < 33%
• Зараз у дослідника немає необхідності вручну • розраховувати різноманітні дескриптивні статистики, щоб описати дані, отримані в результаті соціологічного опитування. Практично всі комп'ютерні програми статистичного аналізу дозволяють автоматично отримувати значення всіх необхідних показників. Завдання соціолога-аналітика полягають в тому, щоб застосувати всі необхідні методи (тобто всі відповідні статистики) та грамотно проінтерпретувати отримані результати.
• Найбільш поширеним способом не зовсім коректного застосування такої дескриптивної статистики, як середнє значення є її аналіз без аналізу відповідної міри варіації (наприклад середнього квадратичного відхилення).
Розглянемо гіпотетичний приклад, який демонструє необхідність використання мір варіації ознак при інтерпретації результатів аналізу середніх значень.
Опитано 2 групи респондентів, та отримані такі дані: Середні значення обчислюється за формулою: , де xi, значення ознаки для кожного респондент N - кількість респондентів. Середнє значення у першій групі = (3 * 100) / 100 = 3. Середнє значення у другій групі = (1 * 50 + 5 * 50) / 100 = 3.
Опитано 2 групи респондентів, та отримані такі дані: Думки респондентів у двох групах кардинально відрізняються, а середні значення однакові! Середнє значення у першій групі = (3 * 100) / 100 = 3. Середнє значення у другій групі = (1 * 50 + 5 * 50) / 100 = 3.
Опитано 2 групи респондентів, та отримані такі дані: Середнє квадратичне відхилення (Ср. Кв. Откл) розраховується за формулою:
Питання для самоконтролю • Чи залежить значення Ср. Кв. Отл від шкали • • • ознаки? Чи може Ср. Кв. Отл бути більш 1? Як дізнатися максимальне значення Ср. Кв. Отл для заданої ознаки? Чому поряд із середніми значеннями необхідно використовувати міри варіації? Як інтерпретувати результат, якщо Ср. Кв. Отл = 0? А якщо його значення близьке до 0? Як інтерпретувати результат, якщо Ср. Кв. Отл має максимальне значення?
Інтерпретація одновимірного розподілу метричної ознаки Признак #217. 71. СКОЛЬКО У ВАС ДЕТЕЙ? Всего 806. Ответили 574 ( 71. 22%). Минимум 1. 000 Максимум 3. 000 Среднее 1. 399 Ср. Кв. Откл 0. 525 Коэф. Вар 0. 375 • З даного одновимірного розподілу видно, що мінімальним значенням ознаки «кількість дітей» є 1, максимальним - 3. Середнє значення дорівнює 1. 339. Це говорить нам про те, що серед опитаних найчастіше зустрічаються сім'ї, які мають одну або дві дитини, причому одну дитину частіше, ніж двох. • Середнє квадратичне відхилення дорівнює 0. 525 (макс. зн. Ср. Кв. Отл = 1, 41). Це означає, що відхилення від середнього значення зустрічаються досить рідко. Іншими словами, мати одну дитину − це типова ситуація для опитаних респондентів.
Характеристики форми розподілу: асиметрія (skewness) і ексцес (kurtosis). Існує ще одна характеристика розподілу даних, отриманих за кількісними шкалами, яку дослідник теж повинен враховувати. Це форма розподілу.
Практично будь-які емпіричні дані тієї чи іншою мірою відхиляються від нормального розподілу ймовірностей, закону якого підкоряються розподіли випадкових величин. Але оскільки всі розрахунки, що включають значення середнього арифметичного і стандартного відхилення, засновані на теорії ймовірності, до аналітичного завдання дослідника входить оцінка (хоча б, приблизна) того, наскільки правомірно використовувати даний тип аналізу до отриманих результатів. Тому навіть на рівні опису (не кажучи вже про аналіз), перш ніж наводити дані а їхніми середніми значеннями (середнє арифметичне та стандартне відхилення), необхідно оцінити характер форми розподілу − наскільки вона наближається до нормального розподілу. Для цього використовують показники асиметрії (skewness) і ексцесу (kurtosis).
Коефіцієнт асиметрії (skewness)
Показник асиметрія (skewness) дозволяє оцінити ступінь і спрямованість асиметрії кривої розподілу. У випадку нормального розподілу асиметрія дорівнює нулю. • Асиметрія − показник, що відображає перекіс розподілу • щодо середнього арифметичного ліворуч або праворуч. У тих випадках, коли які-небудь причини сприяють більш частій появі значень, які вищі або, навпаки, нижчі за середні, утворюються асиметричні розподіли. При лівобічній, або позитивній, асиметрії в розподілі частіше зустрічаються більш низькі значення ознаки, а при правобічній, або негативній - більш високі. Значна асиметрія зустрічається у специфічних вибірках. Якщо ми візьмемо учнів-відмінників і виміряємо IQ, то ймовірно отримаємо розподіл, із перекосом праворуч (у бік високих балів). Так само, вивчаючи екстраверсію менеджерів, ми швидше за все отримаємо перекіс розподілу в бік значної екстраверсії, тому що більша частина менеджерів товариські люди.
Візуальна перевірка нормальності розподілу ознаки «статусні домагання» (масив 2006 року). Асиметрія = - 0, 955, тобто більшість опитаних прагнуть зайняти найвищі сходинки на соціальній драбині.
105. Ексцес = -1, 346 107. Ексцес = 1, 083
Коефіцієнт ексцесу (kurtosis).
Показник ексцесу (kurtosis) показує, якою мірою «крутість» отриманої кривої наближається до нормального розподілу • Ексцес − показник, що відображає висоту • розподілу. У тих випадках, коли які - небудь причини сприяють переважній появі середніх або близьких до середніх значень, утворюється розподіл з позитивним ексцесом. Якщо ж у розподілі переважають крайні значення, то такий розподіл характеризується негативним ексцесом.
Одновимірний розподіл відповідей на запитання: « Як Ви ставитесь до такого явища, як самогубство? » . Шкала вимірювання: 5. Це цілком припустимо; 4. Скоріше припустимо; 3. В деяких випадках припустимо, у деяких ні; 2. Скоріше не припустимо; 1. Зовсім не припустимо
РЕЗЮМЕ • У найбільш широкому сенсі статистика – це наука про методи • • збору, обробки, аналізу й інтерпретації даних, що характеризують масові (зокрема, суспільні) явища й процеси. Дескриптивна (описова) статистика націлена на «стиснення» , усереднення та наочного представлення інформації, що міститься у наявних даних. Завдяки стислому та наочному представленню дані ніби «говорять самі за себе» , що створює передумови виявлення в них певних закономірностей. Дескриптивна статистика не ставить за мету узагальнення результатів вибіркового дослідження на генеральну сукупність, вона призначена лише для опису вибіркових даних. Перший крок аналізу результатів соціологічного опитування − опис отриманих результатів, який головним чином зводиться до розрахунку та аналізу одновимірних розподілів. Вигляд одновимірних розподілів та вибір статистик, які застосовують для їх аналізу залежать від типів шкал, якими вимірювались досліджувані ознаки.
1. 2. 3. 4. 5. 6. Обов’язкова література Добреньков В. И. , Кравченко А. И. Методы социологических исследований. – М. : ИНФРА-М, 2006. – С. 193 -208. Иванов О. В. Статистика. Учебный курс для социологов и менеджеров. Часть 1. Описательная статистика. Теоретиковероятностные основания статистического вывода. – М. : МГУ им. Ломоносова, 2005. – 187 с. Панина Н. В. Технология социологического исследования. – Киев: ИС НАН Украины, 1998. – С. 195 -212. Паніотто В. І. , Максименко В. С. , Харченко Н. М. Статистичний аналіз соціологічних даних. – К. : «КМ Академія» , 2004. С. – 1064. Терещенко О. В. Статистика дескриптивная (описательная) [Электронный ресурс] : Социология: Энциклопедия / Сост. А. А. Грицанов, В. Л. Абушенко, Г. М. Евелькин, Г. Н. Соколова, О. В. Терещенко. — Минск: Интерпрессервис; Книжный Дом, 2003. – Режим доступа: slovari. yandex. ru Толстова Ю. Н. Анализ социологических данных (Методология, дескриптивная статистика, изучение связей между номинальными признаками). – Москва: Научный мир, 2003. – С. 124 -163.
1. 2. 3. 4. 5. 6. 7. Додаткова література Дубнер П. Н. Ловушки анализа данных [Электронный ресурс] : Библиотека РГИУ. – Режим доступа: http: //www. i-u. ru/biblio/archive/dubner_ladn/ РГИУ. – Режим доступа: Крыштановский А. О. Анализ социологических данных с помощью пакета SPSS. – М. : ГУ ВШЭ, 2007. – С. 10 -38. Малхотра Нэреш К. Маркетинговые исследования. Практическое руководство. 3 -е изд. , пер. с англ. – М. : Вильямс, 2002. – С. 552 -601. Мангейм Дж. Б. , Рич Р. К. Политология: Методы исследования. – М. : Издательство “Весь Мир”, 1997. – 544 с. (глава 14. Статистика I: анализ одномерных распределений) [Электронный ресурс] : Библиотека Михаила Грачева. – Режим доступа: http: //grachev 62. narod. ru/Mr/Mr_14. html#par 4 Математическая статистика [Электронный ресурс] : Лопатников Л. И. Экономико-математический словарь: Словарь современной экономической науки. – 5 -е изд. , перераб. и доп. – М. : Дело, 2003. – Режим доступа: slovari. yandex. ru/ ~книги/Лопатников/ Татарова Г. Г. Методология анализа данных в социологии (введение) / Учебник для вузов. – М. : NOTA BENE, 1999. – Режим доступа: http: //society. polbu. ru/tatarova_sociology/ch 39_all. html Терещенко О. В. Статистика [Электронный ресурс] : Социология: Энциклопедия / Сост. А. А. Грицанов, В. Л. Абушенко, Г. М. Евелькин, Г. Н. Соколова, О. В. Терещенко. – Минск: Интерпрессервис; Книжный Дом, 2003. – Режим доступа: slovari. yandex. ru/Статистика/Энциклопедия социологии/Статистика/


