PE.pptx
- Количество слайдов: 21
Кластерний аналіз. Дискримінантний аналіз. Виконали ст. гр. ЕМЕм 12: Николин А. Подоляк В. Приведа Р. Прикладна економетрика
Кластерний аналіз • Кластерний аналіз (англ. Data clustering) — задача розбиття заданої вибірки об'єктів (ситуацій) на підмножини, що називаються кластерами, так, щоб кожен кластер складався з схожих об'єктів, а об'єкти різних кластерів істотно відрізнялися. Завдання кластеризації відноситься до статистичної обробки, а також до широкого класу завдань навчання без вчителя. • Це багатовимірна статистична процедура, яка виконує збір даних, що містять інформацію про вибірку об'єктів і потім упорядковує об'єкти в порівняно однорідні групи — кластери. Прикладна економетрика
• Основна мета кластерного аналізу — знаходження груп схожих об'єктів у вибірці. Спектр застосувань кластерного аналізу дуже широкий: його використовують в археології, антропології, медицині, психології, хімії, біології, державному управлінні, філології, маркетингу, соціології та інших дисциплінах. Однак універсальність застосування привела до появи великої кількості несумісних термінів, методів і підходів, що ускладнюють однозначне використання і несуперечливу інтерпретацію кластерного аналізу. Кластерний аналіз виконує наступні основні завдання: • Розробка типології або класифікації. • Дослідження корисних концептуальних схем групування об'єктів. • Породження гіпотез на основі дослідження даних. • Перевірка гіпотез або дослідження для визначення, чи дійсно групи, виділені тим чи іншим способом, присутні в наявних даних. Прикладна економетрика
Незалежно від конкретної сфери, застосування кластерного аналізу передбачає наступні етапи: • Відбір вибірки для кластеризації. • Визначення множини характеристик, по яких будуть оцінюватися об'єкти у вибірці. • Обчислення значень тієї чи іншої міри схожості між об'єктами. • Застосування одного з методів кластерного аналізу для створення груп схожих об'єктів. • Перевірка достовірності результатів кластеризації. • Якщо кластерному аналізу передує факторний аналіз, то вибірка не потребує коректування — викладені вимоги виконуються автоматично самою процедурою факторного моделювання. В іншому випадку вибірку потрібно коректувати. Прикладна економетрика
Методи кластеризації де d — метрика, — і-ий об'єкт даних, а — центр кластера, якому на j-ій ітерації приписаний елемент . Маємо масив спостережень (об'єктів), кожен з яких має певні значення по ряду ознак. Відповідно до цих значень об'єкт розташовується у багатовимірному просторі. 1. Дослідник визначає кількість кластерів, що необхідно утворити 2. Випадковим чином обирається k спостережень, які на цьому кроці вважаються центрами кластерів 3. Кожне спостереження «приписується» до одного з n кластерів — того, відстань до якого найкоротша 4. Розраховується новий центр кожного кластера як елемент, ознаки якого розраховуються як середнє арифметичне ознак об'єктів, що входять у цей кластер 5. Відбувається така кількість ітерацій (повторюються кроки 3 -4), поки кластерні центри стануть стійкими (тобто при кожній ітерації в кожному кластері опинятимуться одні й ті самі об'єкти), дисперсія всередині кластера буде мінімізована, а між кластерами — максимізована Метод к середніх Прикладна економетрика
Методи кластеризації Кластеризація методом к–середніх: Демонстрація алгоритму Прикладна економетрика
Методи кластеризації Ієрархічна кластеризація (також «графові алгоритми кластеризації» ) Прикладна економетрика
Методи кластеризації де перше підсумовування ведеться за всіма кластерам вибірки, друге підсумовування - по всіх об'єктах x, що належить поточному кластеру K_j, а W_j - центр поточного кластера, p (x, y) - відстань між об'єктами. FOREL (Формальний Елемент) Прикладна економетрика
Методи кластеризації Шар Кохонена складається з деякої кількості N паралельно діючих лінійних елементів. Всі вони мають однакову кількість входів M і отримують на свої входи один і той же вектор вхідних сигналів X = (x 1, . . xm). На виході j -го лінійного елемента отримуємо сигнал. Де w j 0 — ваговий коефіціент j-го входу нейрона, wj 0— пороговий коефіцієнт. Після проходження шару лінійних елементів сигнали посилаються на обробку за правилом «переможець забирає все» : серед вихідних сигналів yj шукається максимальний; Нейронна мережа Кохонена Прикладна економетрика
8% Приклади кластерного аналізу Кластерна карта економіки м. Львів 7% Частка Льова у зайнятості України 6% Одяг та взуття 7334. 8 Готелі і ресторани 4171. 8 5% Приладобудування 7323. 2 4% Гума і пластик 1645. 6 Транспорт і зв'язок 34107. 4 Бізнес-послуги 27680. 4 Торгівля 35192. 6 3% Фінансові послуги 10467 Дерево, папір і друк 3661. 2 2% 1% 0% -8% -6% Прикладна економетрика -4% -2% 0% 5 -річне середнє зростання 2% 4% 6%
Львів: попередня оцінка Прикладна економетрика
Львів: відбір кластерів Прикладна економетрика
Приклад кластерних сайтів: Групи подібності по контенту Прикладна економетрика
Дискримінантний аналіз • • • Дискриміна нтний ана ліз — різновид багатовимірного аналізу, призначеного для вирішення задач розпізнавання образів. Використовується для прийняття рішення про те, які змінні розділюють (тобто «дискримінують» ) певні масиви даних (так звані «групи» ). Весь процес проведення дискримінантного аналізу розбивається на два етапи й кожен з них можна розглядати як абсолютно самостійний метод. Перший етап – виявлення і формальний опис відмінностей між існуючими множинами (групами) спостережуваних об’єктів. Другий етап – безпосередня класифікація нових об’єктів, тобто віднесення кожного об’єкта до одні з існуючих множин. За допомогою дискримінантного аналізу на підставі деяких ознак (незалежних змінних) об’єкт може бути зарахований до однієї із заданих наперед груп. Вагомий внесок у розвиток багатовимірної статистики зробили такі вчені, як П. Ч. Махалонобіс, Р. Фішер, Г. Хотеллінг та ін. Прикладна економетрика
• Загальна модель дискримінантного аналізу для кількісних змінних при відсутності інформації щодо апріорної ймовірності віднесення до певної групи та при рівності втрат має такий вигляд: Прикладна економетрика
• У світовій практиці одним з найважливіших інструментів системи раннього запобігання та прогнозування банкрутства підприємств є дискримінантний аналіз (аналіз множинних дис кримінант Multiple discriminant analysis, MDA). Його зміст полягає в тому, що за допомогою математично статистичних методів будують функцію та розраховують інтегральний показник, на підставі якого можна з достатньою ймовірністю передбачити банкрутство суб’єкта господарювання. Дискримінантний аналіз ґрун тується на емпірично індуктивному дослідженні фінансових показників великої кількості підприємств, одні з яких збанкрутували, а решта успішно функціонує в умовах ринкового середовища. • Пристосована до вітчизняних умов дискримінантна модель була розроблена О. Терещенком. Вона існує у двох варіантах: універсальна та спеціалізована за галузями народного господарства. Ця модель враховує специфіку діяльності саме українських підприємств. Але вагомим її недоліком є широкий інтервал невизначеності, коли неможливо достовірно визначити приналежність підприємства до фінансово стійких чи до потенційних банкрутів. Прикладна економетрика
Приклад дискримінантного аналізу за допомогою MDA Прикладна економетрика
Універсальна дискримінантна модель Z = 1, 5 Х 1 + 0, 08 Х 2 + 10 Х 3 + 5 Х 4 + 0, 3 Х 5 + 0, 1 Х 6 де Х 1 – Cash Flow / зобов’язання; Х 2 – валюта балансу/ зобов’язання; Х 3 – чистий прибуток/ баланс; Х 4 – чистий прибуток/ виручка; Х 5 – виробничі запаси/ виручка; Х 6 – виручка/ обіговість основного капіталу. Для обчислення коефіцієнта X 1 використовується показник Cash Flow, який характеризує величину чистих грошових потоків, які утворюються в результаті операційної та інвестиційної діяльності й залишаються в розпорядженні підприємства в певному періоді. Отримані результати після обрахунків можна інтерпретувати так: • Z>2 – підприємство вважається фінансово стійким і йому не загрожує банкрутство; • 1
Переваги та недоліки застосування кластерного аналізу • Низька чутливість до розмірності вибірки • Показник є найбільш критичним в більшості систем і методів, що вирішують задачі класифікації( встановлює обмеження у прогнозуванні) • Метод кластерного аналізу працює навіть якщо не виконуються вимоги нормальності розподілів випадкових величин Прикладна економетрика • Результат класифікації сильно залежить від випадкових початкових позицій кластерних центрів • Алгоритм чутливий до викидів, які можуть викривлювати середнє • Кількість кластерів повинна бути заздалегідь визначена дослідником
Переваги та недоліки застосування дискримінантного аналізу • простота у розрахунку; • • враховує галузеві особливості підприєм ства; • вирішує проблему визначення критичних значень показників, які • є індикатором вірогідн ості певного явища в галузі. Прикладна економетрика широкий інтервал невиз наченості. Дані такого прогнозування є вельми суб’єктивними і не дають підстав для практичних висновків. знижує точність прогнозу
Прикладна економетрика