
Тема 6.pptx
- Количество слайдов: 33
Тема 6. Кластерный анализ Цыпин Александр Павлович ©Центр Статистического Анализа, www. statmethods. ru
Cодержание 1. Понятие группировки 2. Одномерная группировка в пакете STATISTICA 3. Многомерная группировка (кластерный анализ) 4. Проведение кластерного анализа в пакете STATISTICA ©Центр Статистического Анализа, www. statmethods. ru
Понятие группировки Статистическая сводка – научно организованная обработка материалов статистического наблюдения в целях получения обобщающих характеристик изучаемого явления по ряду существенных для него признаков Элементы статистической сводки группировка данных сводные показатели таблицы и графики
Понятие группировки Статистическая группировка - это процесс образования однородных групп на основе разделения статистической совокупности на части или объединения единиц в частные совокупности по определенным, существенным для них признаками Цель статистической группировки данных получение нескольких однородных групп для расчета и анализа обобщающих групповых показателей, которые дают возможность получить представление о составе, структуре и взаимосвязях изучаемого объекта или явления
Понятие группировки По целевому назначению По числу группировочных признаков Типологическая – характеризует качественные особенности и различия между единицами совокупности Структурная – выявление состава однородной в качественном отношении совокупности по какому-либо признаку Аналитическая – используется для выявления взаимосвязи между явлениями Простая – по одному признаку Сложная – по двум и более признакам Комбинированная – Многомерная последовательное одновременное использование признаков Первичная – на основании исходных данных По используемой информации Вторичная – на основании группировки
Cодержание 1. Понятие группировки 2. Одномерная группировка в пакете STATISTICA 3. Многомерная группировка (кластерный анализ) 4. Проведение кластерного анализа в пакете STATISTICA ©Центр Статистического Анализа, www. statmethods. ru
Проведение кластерного анализа в пакете STATISTICA Пример № 1: Разделение совокупности животных на 3 частных совокупности по величине признака Al Выборка объемом N=99 Al – содержание алюминия в волосах животных (КРС) 1 гр. Al (0; 50) 2 гр. Al (50; 100) 3 гр. Al (100; + )
Одномерная группировка в пакете STATISTICA После переменной перемену Al_GR Al образуем новую Скопируем значения из столбца Al в столбец Al_GR В Главное меню Перекодировать выбираем Данные / В окне Перекодировать значений переменной 7 в разделе Категория укажем интервалы группировки, а в группе опций Новое значение последовательно введем номера групп 1, 2, 3 После нажатия ОК, все значения в столбце Al_GR будут заменены на номера групп
Одномерная группировка в пакете STATISTICA
Одномерная группировка в пакете STATISTICA Выберем в Главном меню Анализ / Основные статистики и таблицы В окне Основные статистики и таблицы укажем Группировка и однофакторный ДА В качестве зависимой переменной укажем Al, в качестве группирующей Al_GR
Одномерная группировка в пакете STATISTICA
Cодержание 1. Понятие группировки 2. Одномерная группировка в пакете STATISTICA 3. Многомерная группировка (кластерный анализ) 4. Проведение кластерного анализа в пакете STATISTICA ©Центр Статистического Анализа, www. statmethods. ru
Многомерная группировка (кластерный анализ) Кластерный анализ представляет собой совокупность статистических методов, используемых для классификации многомерных объектов или событий в относительно однородные группы, которые называют кластерами Цель кластерного анализа - определение однородности изучаемых объектов, если она не может быть установлена другими более простыми методами, анализ и идентификация наблюдаемых однородных объектов, образование их ранее неизвестных групп как носителей новых явлений, содержательная интерпретация роли и значения этих групп в преобразовании окружающей социальноэкономической действительности
Многомерная группировка (кластерный анализ)
Многомерная группировка (кластерный анализ) Задачи решаемые в рамках кластерного анализа: 1. разработка типологии или классификации; 2. исследование полезных концептуальных схем группирования объектов; 3. порождение гипотез на основе исследования данных; 4. проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных. ©Центр Статистического Анализа, www. statmethods. ru
Многомерная группировка (кластерный анализ) Достоинства кластерного анализа: 1. он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. 2. не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных данных практически произвольной природы. 3. позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы социально-экономической информации, делать их компактными и наглядными. 4. результаты кластерного анализа могут послужить базисом для дальнейшего изучения рассматриваемой совокупности другими количественными методами. ©Центр Статистического Анализа, www. statmethods. ru
Многомерная группировка (кластерный анализ) Недостатки кластерного анализа: 1. состав и количество кластеров зависит от выбираемых критериев разбиения. 2. при сведении исходного массива данных к более компактному виду могут возникать определенные искажения, а также могут теряться индивидуальные черты отдельных объектов за счет замены их характеристиками обобщенных значений параметров кластера. 3. при проведении классификации объектов игнорируется очень часто возможность отсутствия в рассматриваемой совокупности каких-либо значений кластеров ©Центр Статистического Анализа, www. statmethods. ru
Многомерная группировка (кластерный анализ) Процедуры кластерного анализа Неиерархические Иерархически (структурные) е агломеративн ые дивизимные (делимые)
Многомерная группировка (кластерный анализ)
Многомерная группировка (кластерный анализ)
Cодержание 1. Понятие группировки 2. Одномерная группировка в пакете STATISTICA 3. Многомерная группировка (кластерный анализ) 4. Проведение кластерного анализа в пакете STATISTICA ©Центр Статистического Анализа, www. statmethods. ru
Проведение кластерного анализа в пакете STATISTICA Пример № 2: Разбиение совокупности на частные совокупности по нескольким признакам Al, As, B, Ca, Cd, Co Выборка объемом N=99 Группирующие переменные Al, As, B, Ca, Cd, Co
Проведение кластерного анализа в пакете STATISTICA В Главном меню выдираем Анализ / Многомерный разведочный анализ / Кластерный анализ В окне Методы кластеризации выберем Иерархическая классификация В окне Кластерный анализ : иерархическая классификация необходимо сделать установки, в частности меру близости и алгоритм объединения
Проведение кластерного анализа в пакете STATISTICA
Проведение кластерного анализа в пакете STATISTICA
Проведение кластерного анализа в пакете STATISTICA
Проведение кластерного анализа в пакете STATISTICA Рис. А Рис. Б
Проведение кластерного анализа в пакете STATISTICA
Проведение кластерного анализа в пакете STATISTICA
Проведение кластерного анализа в пакете STATISTICA Фактические значения F статистики Фишера
Проведение кластерного анализа в пакете STATISTICA
Теперь Вы знаете § Какие виды группировок существуют § В чем сущность кластерного анализа § Какие достоинства и недостатки присущи кластерному анализу § Какие виды кластер процедур существуют § Каким образом проводить клатеризацию в пакете STATISTICA ©Центр Статистического Анализа, www. statmethods. ru
Вопросы по теме 1. Какие виды группировок существуют? 2. В чем особенность кластерного анализа? 3. Какие виды кластер процедур существуют? ©Центр Статистического Анализа, www. statmethods. ru