Факторный анализ.ppt
- Количество слайдов: 27
Факторный анализ Солодкова М. Н. ПМ-142
Краткая история Факторный анализ впервые возник в психометрике и в настоящее время широко используется не только в психологии, но и в нейрофизиологии, социологии, политологии, в экономике, статистике и других науках. Основные идеи Факторного анализа были заложены английским психологом Гальтоном Ф. (1822— 1911) Спирмен Ч. (1904, 1927, 1946), Терстоун Л. (1935, 1947, 1951) и Кеттел Р. (1946, 1947, 1951) Пирсона К. , в значительной степени развившего идеи Ф. Гальтона, Хотеллинга Г. , разработавший современный вариант метода главных компонент Айзенк Г. Математически факторный анализ разрабатывался Хотеллингом, Харманом, Кайзером, Терстоуном, Такером и др. Сегодня факторный анализ включён во все пакеты статистической обработки данных — R, SAS, SPSS, Statistica и т. д.
Факторный анализ это процедура, с помощью которой большое число переменных, относящихся к имеющимся наблюдениям, сводит к меньшему количеству независимых влияющих величин, называемых факторами. При этом в один фактор объединяются переменные, сильно коррелирующие между собой. Переменные из разных факторов слабо коррелируют между собой. Таким образом, целью факторного анализа является нахождение таких комплексных факторов, которые как можно более полно объясняют наблюдаемые связи между переменными, имеющимися в наличии.
Главная цель факторного анализа уменьшение размерности исходных данных с целью их экономного описания при условии минимальных потерь исходной информации. И определение структуры взаимосвязей между переменными, т. е. классификация переменных
Результат факторного анализа переход от множества исходных переменный к меньшему числу новых переменных – факторов
Основное назначение факторного анализа – анализ корреляций множества признаков Фактор – причина совместной изменчивости нескольких исходных переменных
Факторный анализ возможен, если выполняются следующие критерии: 1. Нельзя факторизовать качественные данные. (Все признаки должны быть количественными. ) 2. Все переменные должны быть независимые, а их распределение должно приближаться к нормальному. 3. Связи между переменными должны быть приблизительно линейны. 4. В исходной корреляционной матрице должно быть несколько корреляций по модулю выше 0, 3. 5. Выборка испытуемых должна быть достаточно большой и однородной 6. Число признаков должно быть в два раза больше числа переменных.
Сущностью факторного анализа является процедура вращения факторов Вращение бывает ортогональным и косоугольным факторы оказываются независимыми, некоррелированными друг от друга факторы коррелируют друг с другом
Главной проблемой факторного анализа является выделение и интерпретация главных факторов. Существует несколько часто употребляемых критериев определения числа факторов. Некоторые из них являются альтернативными по отношению к другим, а часть этих критериев можно использовать вместе, чтобы один дополнял другой
Критерий Кайзера или критерий собственных чисел. Этот критерий предложен Кайзером, и является, вероятно, наиболее широко используемым. Отбираются только факторы с собственными значениями равными или большими 1. Это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается.
Критерий каменистой осыпи или критерий отсеивания. Собственные значения возможно изобразить в виде простого графика. Кэттел предложил найти такое место на графике, где убывание собственных значений слева направо максимально замедляется. Предполагается, что справа от этой точки находится только «факториальная осыпь» — «осыпь» является геологическим термином, обозначающим обломки горных пород, скапливающиеся в нижней части скалистого склона. Однако этот критерий отличается высокой субъективностью и, в отличие от предыдущего критерия, статистически необоснован. Недостатки обоих критериев заключаются в том, что первый иногда сохраняет слишком много факторов, в то время как второй, напротив, может сохранить слишком мало факторов; однако оба критерия вполне хороши при нормальных условиях, когда имеется относительно небольшое число факторов и много переменных.
Критерий значимости Он особенно эффективен, когда модель генеральной совокупности известна и отсутствуют второстепенные факторы. Но критерий непригоден для поиска изменений в модели и реализуем только в факторном анализе по методу наименьших квадратов или максимального правдоподобия
Критерий доли воспроизводимой дисперсии Факторы ранжируются по доле детерминируемой дисперсии, когда процент дисперсии оказывается несущественным, выделение следует остановить. Желательно, чтобы выделенные факторы объясняли более 80 % разброса. Недостатки критерия: во-первых, субъективность выделения, во-вторых, специфика данных может быть такова, что все главные факторы не смогут совокупно объяснить желательного процента разброса. Поэтому главные факторы должны вместе объяснять не меньше 50, 1 % дисперсии.
Критерий интерпретируемости и инвариантности Данный критерий сочетает статистическую точность с субъективными интересами. Согласно ему, главные факторы можно выделять до тех пор, пока будет возможна их ясная интерпретация. Она, зависит от величины факторных нагрузок, то есть если в факторе есть хотя бы одна сильная нагрузка, он может быть интерпретирован. Возможен и обратный вариант — если сильные нагрузки имеются, однако интерпретация затруднительна, от этой компоненты предпочтительно отказаться.
Практика показывает, что если вращение не произвело существенных изменений в структуре факторного пространства, это свидетельствует о его устойчивости и стабильности данных. Возможны ещё два варианта: 1). сильное перераспределение дисперсии — результат выявления латентного фактора; 2). очень незначительное изменение (десятые, сотые или тысячные доли нагрузки) или его отсутствие вообще, при этом сильные корреляции может иметь только один фактор, — однофакторное распределение
Факторы имеют две характеристики: объём объясняемой дисперсии и нагрузки Объем: фактор, лежащий вдоль оси ОХ, может максимально объяснять 70 % дисперсии (первый главный фактор) фактор, лежащий вдоль оси ОУ, способен детерминировать не более 30 % (второй главный фактор) В обычной ситуации может наблюдаться два или более главных факторов, а также остаётся часть неинтерпретируемой дисперсии (геометрические искажения), исключаемая из анализа по причине незначимости.
Факторы имеют две характеристики: объём объясняемой дисперсии и нагрузки Нагрузки с точки зрения геометрии, есть проекции от точек на оси ОХ и ОУ (при трёх- и более факторной структуре также на ось ОZ). Проекции — это коэффициенты корреляции, точки — наблюдения, таким образом, факторные нагрузки являются мерами связи. Так как сильной считается корреляция с коэффициентом Пирсона R ≥ 0, 7, то в нагрузках нужно уделять внимание только сильным связям. Факторные нагрузки могут обладать свойством биполярности — наличием положительных и отрицательных показателей в одном факторе. Если биполярность присутствует, то показатели, входящие в состав фактора, дихотомичны и находятся в противоположных координатах
Методы факторного анализа метод главных компонент корреляционный анализ метод максимального правдоподобия
Метод главных компонент - один из основных способов уменьшить размерность данных, потеряв наименьшее количество информаци Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных.
Корреляционный анализ — метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными
Ме тод максима льного правдоподо бия — это метод оценивания неизвестного параметра путём максимизации функции правдоподобия. Основан на предположении о том, что вся информация о статистической выборке содержится в функции правдоподобия
Факторный анализ как метод редукции данных Объединение двух переменных в один фактор Зависимость между переменными можно обнаружить с помощью диаграммы рассеяния. Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая переменная будет включить в себя наиболее существенные черты обеих переменных. новый фактор (переменная) в действительности является линейной комбинацией двух исходных переменных.
Факторный анализ как метод редукции данных Анализ главных компонент Пример, в котором две коррелированные переменные объединены в один фактор, показывает главную идею факторного анализа Если пример с двумя переменными распространить на большее число переменных, то вычисления становятся сложнее, однако основной принцип представления двух или более зависимых переменных одним фактором остается в силе
Факторный анализ как метод редукции данных Обобщение на случай многих переменных. Для случая более трех переменных, становится невозможным представить точки на диаграмме рассеяния, однако логика вращения осей с целью максимизации дисперсии нового фактора остается прежней.
Факторный анализ как метод редукции данных Несколько ортогональных факторов. После того, как вы нашли линию, для которой дисперсия максимальна, вокруг нее остается некоторый разброс данных. И процедуру естественно повторить. В анализе главных компонент именно так и делается: после того, как первый фактор выделен, то есть, после того, как первая линия проведена, определяется следующая линия, максимизирующая остаточную вариацию (разброс данных вокруг первой прямой), и т. д. Таким образом, факторы последовательно выделяются один за другим. Так каждый последующий фактор определяется так, чтобы максимизировать изменчивость, оставшуюся от предыдущих, то факторы оказываются независимыми друг от друга. Другими словами, некоррелированными или ортогональными.
Факторный анализ как метод классификации Корреляции между этими двумя типами переменных (переменные, связанные с удовлетворенностью на работе, и переменные, связанные с удовлетворенностью домом) сравнительно малы. Поэтому кажется правдоподобным, что имеются два относительно независимых фактора (два типа факторов), отраженных в корреляционной матрице: один относится к удовлетворенности на работе, а другой к удовлетворенности домашней жизнью.
Факторный анализ как метод классификации Факторные нагрузки По-видимому, первый фактор более коррелирует с переменными, чем второй. Это следовало ожидать, потому что, как было сказано выше, факторы выделяются последовательно и содержат все меньше и меньше общей дисперсии


