Скачать презентацию Занятие 8 Основы многомерных методов анализа Дискриминантный анализ Скачать презентацию Занятие 8 Основы многомерных методов анализа Дискриминантный анализ

14c398107c802a2358b60a7291b7bd79.ppt

  • Количество слайдов: 46

Занятие 8 Основы многомерных методов анализа. Дискриминантный анализ. Занятие 8 Основы многомерных методов анализа. Дискриминантный анализ.

Методы многомерного анализа (multivariate analyses) Предназначены для анализа многомерных данных Много независимых переменных – Методы многомерного анализа (multivariate analyses) Предназначены для анализа многомерных данных Много независимых переменных – üМногофакторная ANOVA üМножественная регрессия Много зависимых переменных (или переменных, которые нельзя разделить на зависимые и независимые) – ümultivariate analyses В массиве данных n объектов, для каждого измерено p переменных.

multivariate analyses Многомерное распределение: описание üЕго «центр» - центроид (в одномерном - среднее значение). multivariate analyses Многомерное распределение: описание üЕго «центр» - центроид (в одномерном - среднее значение). На практике, используется для поиска аутлаеров. üКак оценить разброс? (в одномерном – суммы квадратов и дисперсия). Для каждой переменной – два источника изменчивости: 1) собственная изменчивость внутри переменной; 2) изменчивость, обусловленная влиянием других переменных. Как же работать с этими разными изменчивостями?

multivariate analyses Многомерное распределение: описание üФорма распределения Многомерные методы в большой степени описательны, но: multivariate analyses Многомерное распределение: описание üФорма распределения Многомерные методы в большой степени описательны, но: üесли предполагается тестирование гипотез, надо чтобы данные соответствовали многомерному нормальному распределению; üчем больше отклонение от многомерного нормального распределения, тем больше неточности в оценке параметров (коэффициентов и пр. ).

multivariate analyses Оценка разброса в многомерном распределении Используют особые таблицы – матрицы. Одна матрица multivariate analyses Оценка разброса в многомерном распределении Используют особые таблицы – матрицы. Одна матрица у нас уже есть – матрица исходных данных (Y). Clevenger & Waltho изучали, сколько раз и как (на велосипеде-верхомпешком) люди переходят дорогу в заповеднике на разных 11 переходах.

multivariate analyses Матрица (p x p) с суммами квадратов на диагонали (sums -of-squares-and-cross-products, SSCP) multivariate analyses Матрица (p x p) с суммами квадратов на диагонали (sums -of-squares-and-cross-products, SSCP) Матрица дисперсий и ковариаций (covariances, C) – предыдущая матрица, где элементы поделили на число степеней свободы (n -1). На её основе – оценка дисперсии: üчерез сумму элементов диагонали = дисперсий ( «след» матрицы, trace); üчерез её определитель.

multivariate analyses Матрица корреляций (correlation matrix, R) – получится, если в предыдущей матрице каждый multivariate analyses Матрица корреляций (correlation matrix, R) – получится, если в предыдущей матрице каждый элемент поделить на его стандартное отклонение. На главной диагонали – единицы, все остальные элементы – коэффициенты корреляции

multivariate analyses Основная техника в любом многомерном анализе – получение линейных комбинаций исходных переменных, multivariate analyses Основная техника в любом многомерном анализе – получение линейных комбинаций исходных переменных, так, что общая изменчивость по-новому распределяется между ними. Для каждого i-го (от 1 до n) объекта и p исходных переменных можно рассчитать значение новой k-той переменной как Здесь y – значения исходных переменных для данного объекта, с – коэффициенты, показывающие величину вклада данной исходной переменной в новую переменную. В некоторых моделях добавляют ещё константу - intercept Новые переменные называются по-разному в разных типах анализа: дискриминантными функциями, каноническими функциями, главными компонентами, факторами. Линейная комбинация аналогична уравнению линейной регрессии.

multivariate analyses Новые переменные формируют так, чтобы первая объясняла максимум изменчивости исходных переменных, вторая multivariate analyses Новые переменные формируют так, чтобы первая объясняла максимум изменчивости исходных переменных, вторая – максимум оставшейся изменчивости, и. т. д. , но так, чтобы новые переменные не коррелировали друг с другом. Так можно теоретически получить р новых переменных, но большая часть дисперсии сосредоточится в нескольких первых. Собственное значение ( ) = eigenvalue – показатель того, какая доля общей изменчивости приходится на компоненту. Это популяционные параметры, у них есть выборочные оценки – l Их сумма = сумме дисперсий (если мы их строим на основе матрицы ковариаций), или = числу исходных переменных (для матрицы корреляций). Собственный вектор = eigenvector – просто список коэффициентов при исходных переменных для каждой компоненты.

multivariate analyses Выделим новые компоненты для переходов: В примере используется матрица ковариаций Значения собственных multivariate analyses Выделим новые компоненты для переходов: В примере используется матрица ковариаций Значения собственных значений для новых переменных Коэффициенты для новых переменных (столбец = eigenvector)

multivariate analyses Теперь можно для каждого конкретного перехода посчитать значения новых переменных = компонент. multivariate analyses Теперь можно для каждого конкретного перехода посчитать значения новых переменных = компонент. И, например, использовать в дальнейшем анализе. Мы рассмотрели способ получения компонент (и их значений для объектов) из матриц ковариаций или корреляций (p x p). – R-mode analysis. Есть другой способ: построить матрицу «корреляций» = «дистанций» между объектами (n x n) в исходных переменных, и из линейных комбинаций объектов рассчитать значения новых компонент, и затем найти eigenvectors - Q-mode analysis. Разные пути используются в разных типах многомерного анализа, но вообще-то они алгебраически связаны.

multivariate analyses Матрица «дистанций» меду объектами (dissimilarity matrix): multivariate analyses Матрица «дистанций» меду объектами (dissimilarity matrix):

multivariate analyses Есть много показателей «дистанции» между объектами (самый очевидный – евклидовы расстояния). Дистанции multivariate analyses Есть много показателей «дистанции» между объектами (самый очевидный – евклидовы расстояния). Дистанции можно посчитать между объектами с любыми переменными, в т. ч. Качественными и даже бинарными! Это более демократичная основа для анализа, к ней перейдём в лекции 10.

multivariate analyses Подготовка данных для многомерного анализа üТрансформация данных: нормализует распределения и делает отношения multivariate analyses Подготовка данных для многомерного анализа üТрансформация данных: нормализует распределения и делает отношения между переменными линейными (важно для выделения компонент). Логарифмическая, квадратного корня и пр. üважно избавиться от многомерных аутлаеров! Их можно найти с помощью дистанций Махаланобиса (квадрат расстояния от объекта до центроида); иногда исчезают при трансформации; ü стандартизация данных (обязательна, если переменные измерены в принципиально разных шкалах); ü можно предварительно построить картинки и оценить сходство и различие между объектами (лица Чернова, «звёздный» график); üИсключение слишком сильно коррелирующих др. с др. переменных; ü пропущенные измерения – не casewise, а pairwise deletion. Совет: попробовать проанализировать данные с разными вариантами трансформации/стандартизации.

multivariate analyses Лица Чернова «звёздный» график – star plot multivariate analyses Лица Чернова «звёздный» график – star plot

Теперь представим, что наши объекты делятся на ГРУППЫ (в анализе есть независимая группирующая переменная). Теперь представим, что наши объекты делятся на ГРУППЫ (в анализе есть независимая группирующая переменная). Возможны два исследовательских вопроса: 1. Существуют ли различия между группами; 2. Можем ли мы успешно классифицировать объекты (в том числе, новые) в правильные группы. Если бы непрерывная переменная была одна – one-way ANOVA. Но их много! Вопрос 1 решает MANOVA, Вопрос 2 – дискриминантный анализ.

MANOVA – multivariate ANOVA: новый взгляд Снова мы сравниваем 4 группы тигров, питавшихся разной MANOVA – multivariate ANOVA: новый взгляд Снова мы сравниваем 4 группы тигров, питавшихся разной едой, но зависимых переменных несколько: масса, упитанность, уровень кортикостероидов в крови. Нужно протестировать гипотезу о влиянии группирующей переменной на комбинацию зависимых переменных и сравнить не средние в группах, а центроиды.

MANOVA создаёт новую линейную комбинацию зависимых переменных (одну-единственную!), такую, что для неё отношение межгрупповой MANOVA создаёт новую линейную комбинацию зависимых переменных (одну-единственную!), такую, что для неё отношение межгрупповой и внутригрупповой изменчивостей максимально, т. е. , для неё различия между группами наибольшие. • На основе матриц (SSCP межгрупповых, внутригрупповых и общих) генерируются линейные комбинации исходных переменных, считаются их коэффициенты (eigenvectors) и собственные значения (eigenvalues, в программе - roots); • Выбирают комбинацию с наибольшим собственным значением (для неё различия между группами максимальны). • Переменная называется дискриминантная функция (discriminant function):

MANOVA Этапы MANOVA: 1. Вместо SS (разных) из ANOVA – матрицы SSCP между группами, MANOVA Этапы MANOVA: 1. Вместо SS (разных) из ANOVA – матрицы SSCP между группами, внутри групп и общая; 2. При помощи этих матриц тестируют гипотезу об отсутствии различий между группами, для чего есть несколько статистик : 3. Wilks’s lambda (отношение определителей внутригрупповой 4. 5. SSCP и общей SSCP), чем она меньше, тем больше межгрупповые различия; Hotelling trace (отношение определителей межгрупповой SSCP и внутригрупповой) – чем больше, тем больше различия групп; Pillai trace (сумма элементов главной диагонали – след – матрицы-отношения межгрупповой и общей SSCP), наиболее устойчив к отклонениям от многомерного нормального распределения и нарушениям условия гомогенности дисперсии.

Этапы MANOVA: 1. Все эти статистики преобразуют в величину, аппроксимирующуюся F-распределением (и их сравнивают Этапы MANOVA: 1. Все эти статистики преобразуют в величину, аппроксимирующуюся F-распределением (и их сравнивают с критическим F-значением). 2. Если гипотеза отвергнута, проводят post-hoc тесты 3. Можно провести отдельные univariate ANOVA, чтобы понять, какие переменные имеют значения про разделении групп; 4. А можно проанализировать структуру дискриминантной функции (какие переменные имеют в ней наибольшие коэффициенты и какие сильнее с ней коррелируют, такие и играют наибольшую роль в разделении групп). MANOVA может быть многофакторной, можно проанализировать взаимодействие факторов

Требования к выборкам для MANOVA 1. Многомерное нормальное распределение: довольно устойчива к отклонениям при Требования к выборкам для MANOVA 1. Многомерное нормальное распределение: довольно устойчива к отклонениям при одинаковых размерах групп, желательны одномерные нормальные распределения; 2. Очень чувствительна к аутлаерам 3. Очень чувствительна к гетерогенности дисперсий (достаточно проверить гомогенность для отдельных переменных) 4. Чем больше переменных в анализе, тем чувствительнее модель к нарушениям этих требований; 5. Не должно быть сильно скоррелированных переменных.

Дискриминантный анализ У нас есть зверьки известного возраста, у которых измеряли 20 показателей. Можем Дискриминантный анализ У нас есть зверьки известного возраста, у которых измеряли 20 показателей. Можем ли мы по ним определить возраст для новых зверей? Собирали данные про школьников 11 -го класса (20 разнокачественных переменных); после этого школьники поступили в ВУЗ, колледж или вообще никуда не поступили. Какие показатели лучше всего предсказывают судьбу школьника? Пример про мужчин и женщин, которые высокого и низкого роста

Для решения таких задач создан ДИСКРИМИНАНТНЫЙ АНАЛИЗ (discriminant function analysis) Основная идея: Мы измерили Для решения таких задач создан ДИСКРИМИНАНТНЫЙ АНАЛИЗ (discriminant function analysis) Основная идея: Мы измерили целый набор переменных, и у нас ИЗНАЧАЛЬНО ЕСТЬ ГРУППЫ. Мы хотим понять: 1) чем отличаются между собой эти группы (на основе данных переменных); 2) Насколько успешно на основе этих переменных мы можем классифицировать измерения в группы (скажем, когда мы потом измерим эти переменные у новой особи, мы сможем с известной вероятностью отнести её к той или иной группе).

Дискриминантный анализ Мы изучаем лемуров на Мадагаскаре. У нас 3 вида лемуров, мы поймали Дискриминантный анализ Мы изучаем лемуров на Мадагаскаре. У нас 3 вида лемуров, мы поймали зверьков разных видов, взвесили, померили длину черепа и резцов. Вопрос: на основе каких переменных отличаются виды и можем ли мы классифицировать особей по видам. Нет возможности многофакторного анализа с оценкой взаимодействия факторов

Это аппарат для классификации объектов в группы (они должны быть известны заранее) Начинается как Это аппарат для классификации объектов в группы (они должны быть известны заранее) Начинается как MANOVA, но имеет продолжение. 1. Получаем дискриминантные функции (по первой из них лучше всего разделяются группы; их не больше чем число переменных или число групп -1 (≤p-1 или ≤k-1)) и проводим MANOVA, тестируем гипотезу о различии групп. 2. Если гипотеза отвергнута (различия есть), проверяем, какие переменные дают наибольший вклад в дискриминантные функции (loadings, coefficients) 3. Можно провести пошаговый анализ и исключить не важные переменные 4. Получаем классификационные функции для каждой группы (в них мы будем подставлять наблюдаемые для объектов значения; объект запишем в ту группу, классификационная функция которой даст наибольшее значение)

Дискриминантный анализ Оказалось, что, несмотря на то, что средние значения для каждой переменной у Дискриминантный анализ Оказалось, что, несмотря на то, что средние значения для каждой переменной у разных видов отличаются, их распределения сильно перекрываются и для массы, и для головы, и для зубов! размер головы Y 2 Как же быть? Y 1 масса

Дискриминантный анализ Переменная Z (дискриминантная функция) строится таким образом, чтобы как можно больше зверьков Дискриминантный анализ Переменная Z (дискриминантная функция) строится таким образом, чтобы как можно больше зверьков одного из видов получили высокие значения Z, и как можно больше зверьков другого вида – низкие значения Z. размер головы Y 2 Y 1 Z масса

Дискриминантный анализ Этап 1. Создание дискриминантной функции Из выбранных нами переменных рассчитываем новые переменные Дискриминантный анализ Этап 1. Создание дискриминантной функции Из выбранных нами переменных рассчитываем новые переменные Z (дискриминантные функции) –линейные комбинации исходных переменных, первая из которых наилучшим образом разделит группы (напр. , виды). Если группы две: получается одно уравнение. Когда групп и исходных переменных много, получают несколько дискриминантных функций (всего k-1 или р-1 функций (k – число групп, р – число переменных, выбирают меньшее из этих чисел), «перпендикулярных» другу. Тестируем гипотезу о различии групп

Дискриминантный анализ Этап 2. Интерпретация дискриминантных функций Каждую дискриминантную функцию характеризует eigenvalue = Root Дискриминантный анализ Этап 2. Интерпретация дискриминантных функций Каждую дискриминантную функцию характеризует eigenvalue = Root (собственное значение), и мы можем проверить, сколько функций в нашем анализе действительно помогает различить группы, и какую часть изменчивости они объясняют (и исключить недостоверные). üstandardized b coefficient = элементы eigenvector, bj – позволяют оценить вклад каждой из переменных в данную дискриминантную функцию. üСтруктура факторов (factor structure coefficients = loadings) – позволяет понять, насколько какие переменные коррелируют с дискриминантными функциями. If you want to assign substantive "meaningful" labels to the discriminant functions, then the structure coefficients should be used (interpreted); if you want to learn what is each variable's unique contribution to the discriminant function, use the discriminant function coefficients (weights).

Дискриминантный анализ Этап 3. исключение «недостоверных» переменных пошаговый анализ (необязательно) Переменные добавляются в модель Дискриминантный анализ Этап 3. исключение «недостоверных» переменных пошаговый анализ (необязательно) Переменные добавляются в модель по одной. На каждом шаге (для каждой переменной) считается статистика F, т. е. мы сравниваем группы по всем переменным в модели (MANOVA) F to enter: показывает, насколько хорошо группы отличаются по этой переменной (для Forward stepwise analysis) Можно задать минимальное значение, ниже которого переменная не будет включена в модель (когда анализ дойдёт до соответствующего шага, он остановится). F to remove: то же самое; показывает, насколько «плохо» группы отличаются по этой переменной (для Backward stepwise analysis).

Дискриминантный анализ Этап 4. Классификация Строятся классификационные функции (для каждой группы), и можно для Дискриминантный анализ Этап 4. Классификация Строятся классификационные функции (для каждой группы), и можно для каждой особи посчитать их и отнести в ту или иную группу - предсказать, к какой группе относится особь, и оценить точность предсказания! Можно провести на основе уже посчитанных функций классификацию новых зверьков. Итак: Дискриминантную функцию рассчитывают для объектов, изначально разделённых на группы (т. е. , для особей известного вида). Если у нас есть набор признаков, и мы их на основе хотим создать группы (например, поделить вид на подвиды), это – задача для другого анализа!

Дискриминантный анализ Теперь, когда мы построили такую функцию, мы сможем поймать зверька неизвестного вида, Дискриминантный анализ Теперь, когда мы построили такую функцию, мы сможем поймать зверька неизвестного вида, измерить у него Y 1 , Y 2 , Y 3 , рассчитать значение Z на основе уже посчитанных коэффициентов, и с некоторой точностью причислить его к тому или другом виду.

Discriminant function analysis Discriminant function analysis

создание модели Выберем переменные для анализа. Выберем пошаговый анализ. Критерии, по которым мы будем создание модели Выберем переменные для анализа. Выберем пошаговый анализ. Критерии, по которым мы будем включать переменные для построения дискриминантной функции. Лучше их задавать минимальными. Толерантность – 1 -R 2, где R 2 оценивает корреляцию данной переменной с остальными, т. е. , позволяет исключить избыточные переменные.

Прежде чем приступить к анализу, посмотрим, отличаются ли группы по нашим переменным (MANOVA). Прежде чем приступить к анализу, посмотрим, отличаются ли группы по нашим переменным (MANOVA).

Wilk’s lambda – статистика, оценивает мощность дискриминации модели после введения в неё переменной. Чем Wilk’s lambda – статистика, оценивает мощность дискриминации модели после введения в неё переменной. Чем она меньше – тем больше вклад. F to enter – статистика для оценки достоверности вклада переменной в дискриминацию.

Пройдём Шаг 1 и Шаг 2. Можно посмотреть, какие переменные уже включены в анализ. Пройдём Шаг 1 и Шаг 2. Можно посмотреть, какие переменные уже включены в анализ. Partial lambda - статистика для оценки вклада переменной в дискриминацию между совокупностями. Чем она меньше, тем больше вклад переменной. Переменная Голова лучше помогает различать виды, чем Масса.

Последний Шаг 3: дискриминация между видами значима Partial lambda: Переменная Голова даёт вклад больше Последний Шаг 3: дискриминация между видами значима Partial lambda: Переменная Голова даёт вклад больше всех, а вклад Зуба – недостоверный.

Создание дискриминантной функции Дискриминантных функций у нас 2 Значимой оказалась только первая функция (root) Создание дискриминантной функции Дискриминантных функций у нас 2 Значимой оказалась только первая функция (root)

Посмотрим, какой вклад внесли переменные в различение групп нашими дискриминантными функциями. Standardized coefficients – Посмотрим, какой вклад внесли переменные в различение групп нашими дискриминантными функциями. Standardized coefficients – коэффициенты для сравнения значимости (eigenvector). «Голова» лучше всех позволяет различать группы Первая функция объясняет 99, 4% изменчивости

Структура факторов (дискриминантных функций) Наибольший вклад в первую функцию вносит Голова (она сильнее всего Структура факторов (дискриминантных функций) Наибольший вклад в первую функцию вносит Голова (она сильнее всего коррелирует с ней).

Мы можем посмотреть как располагаются виды в пространстве дискриминантных функций. Кошачий лемур сильно отличается Мы можем посмотреть как располагаются виды в пространстве дискриминантных функций. Кошачий лемур сильно отличается от других видов по значениям первой функции

классификация Функции классификации : мы получаем для них коэффициенты, и можем классифицировать новых лемуров: классификация Функции классификации : мы получаем для них коэффициенты, и можем классифицировать новых лемуров: взять новую особь, посчитать для неё функцию для каждой группы, и отнести её в ту группу, для которой значение будет наибольшим! Значения p – вероятности случайного причисления лемура к той или иной группе, исходя из размеров группы.

Можно посмотреть, сколько лемуров правильно и неправильно причислено к той или иной группе на Можно посмотреть, сколько лемуров правильно и неправильно причислено к той или иной группе на основе функций классификации. Классификационная матрица Теперь можно взять других особей (они должны стоять в той же таблице) и посмотреть процент правильного причисления в группы

На основе дистанций Махаланобиса от каждого измерения до центра группы можно посмотреть, к какому На основе дистанций Махаланобиса от каждого измерения до центра группы можно посмотреть, к какому виду тот или иной лемур причисляется. Неправильные причисления помечены звёздочками

Требования к выборкам для дискриминантного анализа В точности такие же, как для MANOVA 1. Требования к выборкам для дискриминантного анализа В точности такие же, как для MANOVA 1. Многомерное нормальное распределение: довольно устойчив к отклонениям при одинаковых размерах групп, желательны одномерные нормальные распределения; 2. Очень чувствителен к аутлаерам 3. Еще более чувствителен к гетерогенности дисперсий (необходимо проверить гомогенность для отдельных переменных) 4. Чем больше переменных в анализе, тем чувствительнее модель к нарушениям этих требований. 5. Не должно быть чрезмерно коррелирующих друг с другом переменных.