ДИСПЕРСИОННЫЙ АНАЛИЗ Понятие назначение дисперсионного анализа Виды дисперсионного

Скачать презентацию ДИСПЕРСИОННЫЙ АНАЛИЗ Понятие назначение дисперсионного анализа Виды дисперсионного

Дисперсионный анализ.ppt

Количество слайдов: 32

ДИСПЕРСИОННЫЙ АНАЛИЗ. Понятие, назначение дисперсионного анализа. Виды дисперсионного анализа.

Дисперсионный анализ (от латинского Dispersio – рассеивание) – статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Метод был разработан биологом Р. Фишером в 1925 году и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.

Задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака выделить три частные вариативности: - Вариативность, обусловленную действием каждой из исследуемых независимых переменных. - Вариативность, обусловленную взаимодействием исследуемых независмых переменных. - Вариативность случайную, обусловленную неучтенными обстоятельствами. всеми Вариативность, обусловленная действием исследуемых переменных и их взаимодействием соотносится со случайной вариативностью. Показателем этого соотношения является F – критерий Фишера.

Основной целью дисперсионного анализа является проверка значимости различия между средними с помощью сравнения дисперсий. Формулировка гипотез в дисперсионном анализе. Нулевая гипотеза: «Средние величины результативного признака во всех условиях действия фактора (или градациях фактора) одинаковы» . Альтернативная гипотеза: «Средние величины результативного признака в разных условиях действия фактора различны» .

Принцип применения метода дисперсионного анализа Сначала формулируется нулевая гипотеза, то есть предполагается, что исследуемые факторы не оказывают никакого влияния на значения результативного признака и полученные различия случайны. Затем определяем, какова вероятность получить наблюдаемые (или более сильные) различия при условии справедливости нулевой гипотезы. Если эта вероятность мала (максимальную приемлемую вероятность отвергнуть верную нулевую гипотезу называют уровнем значимости и обозначают α = 0, 05), то мы отвергаем нулевую гипотезу и заключаем, что результаты исследования статистически значимы. Это еще не означает, что доказано действие именно изучаемых факторов (это вопрос, прежде всего, планирования исследования), но все же маловероятно, что результат обусловлен случайностью.

При выполнении всех условий применения дисперсионного анализа, разложение общей дисперсии математически выглядит следующим образом: Doбщ. = Dфакт + D ост. Doбщ. = Dфакт 1 + Dфакт2 + Dфакт1 и 2 + D ост. Doбщ. - общая дисперсия наблюдаемых значений (вариант), характеризуется разбросом вариант от общего среднего. Измеряет вариацию признака во всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Общее разнообразие складывается из межгруппового и внутригруппового; Dфакт - факторная (межгрупповая) дисперсия, характеризуется различием средних в каждой группе и зависит от влияния исследуемого фактора, по которому дифференцируется каждая группа. Например, в группах различных по этиологическому фактору клинического течения пневмонии средний уровень проведенного койко-дня неодинаков — наблюдается межгрупповое разнообразие.

D ост. - остаточная (внутригрупповая) дисперсия, которая характеризует рассеяние вариант внутри групп. Отражает случайную вариацию, т. е. часть вариации, происходящую под влиянием неуточненных факторов и не зависящую от признака — фактора, положенного в основание группировки. Вариация изучаемого признака зависит от силы влияния каких-то неучтенных случайных факторов, как от организованных (заданных исследователем), так и от случайных (неизвестных) факторов. Поэтому общая вариация (дисперсия) слагается из вариации, вызванной организованными (заданными) факторами, называемыми факториальной вариацией и неорганизованными факторами, т. е. остаточной вариацией (случайной, неизвестной).

Виды дисперсионного анализа. Дисперсионный анализ схематически можно подразделить на несколько категорий. Это деление осуществляется, смотря по тому, сколько, во-первых, факторов принимает участие в рассмотрении, во-вторых, - сколько переменных подвержены действию факторов, и, в-третьих, - по тому, как соотносятся друг с другом выборки значений. При наличии одного фактора, влияние которого исследуется, дисперсионный анализ именуется однофакторным, и распадается на две разновидности:

- Анализ несвязанных (то есть – различных) выборок. Например, одна группа респондентов решает задачу в условиях тишины, вторая – в шумной комнате. (В этом случае, к слову, нулевая гипотеза звучала бы так: «среднее время решения задач такого-то типа будет одинаково в тишине и в шумном помещении» , то есть не зависит от фактора шума. ) - Анализ связанных выборок. То есть: двух замеров, проведенных на одной и той же группе респондентов в разных условиях. Тот же пример: в первый раз задача решалась в тишине, второй – сходная задача – в условиях шумовых помех. (На практике к подобным опытам следует подходить с осторожностью, поскольку в действие может вступить неучтенный фактор «научаемость» , влияние которого исследователь рискует приписать изменению условий, а именно, - шуму. )

В случае, если исследуется одновременное воздействие двух или более факторов, мы имеем дело с многофакторным дисперсионным анализом, который также можно подразделить по типу выборки. Если же воздействию факторов подвержено несколько переменных, - речь идет о многомерном анализе.

Однофакторный дисперсионный. Однофакторный дисперсионный анализ для несвязанных выборок. Назначение метода. Метод однофакторного дисперсионного анализа применяется в тех случаях, когда исследуются изменения результативного признака (зависимой переменной) под влиянием изменяющихся условий или градаций какого-либо фактора. Влиянию каждой из градаций фактора подвержены разные выборки. Должно быть не менее трех градаций фактора и не менее двух наблюдений в каждой градации.

Описание метода. Расчеты начинаются с расстановки всех данных по столбцам, относящимся к каждому из факторов соответственно. Следующим действием будет нахождение сумм значений по столбцам (то есть – градациям) и возведение их в квадрат. Фактически метод состоит в сопоставлении каждой из полученных и возведенных в квадрат сумм с суммой квадратов всех значений, полученных во всем эксперименте.

Алгоритм расчета. Промежуточные величины. Tc суммы индивидуальных значений по каждому из условий Σ(T 2 c) сумма квадратов суммарных значений по каждому из условий с количество условий (градаций фактора) количество значений в каждом n комплексе (испытуемых в каждой группе) общее количество индивидуальных N значений квадрат общей суммы Σxi 2 индивидуальных значений (Σxi)2 Σ(xi)2 / N константа, вычитания квадратов необходимая для из каждой суммы xi Σ(xi)2 каждое индивидуальное значение сумма квадратов индивидуальных значений

Основные вычисления. Подсчитать SSфакт. = 1/n ΣT 2 c – 1/n (Σxi)2 Подсчитать SSобщ. = Σx 2 i – 1/N (Σxi)2 Подсчитать случайную остаточную величину SSсл. = SSобщ. – SSфакт. Определить число степеней свободы dfфакт. = с – 1 dfобщ. = N – 1 dfсл. = dfобщ. – dfфакт. Разделить каждую SS на соответствующее число степеней свободы MSфакт. = SSфакт. / dfфакт. MS сл. = SS сл. / df сл. Подсчитать значение Fэмп. = MSфакт. / MS сл. Определить по таблицам критические значения F и сопоставить с ним полученное эмпирическое значение При Fэмп. >= Fкр. H 0 отклоняется.

Принятые в литературе сокращения: СК или SS – сумма квадратов SSфакт. – вариативность, обусловленная действием исследуемого фактора SSобщ. – общая вариативность SSсл. – случайная вариативность MS – «средний квадрат» (математическое ожидание суммы квадратов, усредненная величина соответствующих SS) df – число степеней свободы.

Однофакторный дисперсионный анализ для связанных выборок. Назначение метода. Метод применяется в тех случаях, когда исследуется влияние разных условий действия фактора (градаций фактора) на одну и ту же выборку. (Одни и те же респонденты в разных условиях. ) Условий (градаций) должно быть не менее трех. Индивидуальных значений по каждому условию должно быть не менее двух.

Описание метода. В этом случае различия могут быть вызваны не только влиянием фактора, но и индивидуальными различиями между испытуемыми. При анализе несвязанных выборок это обстоятельство не оказывало воздействия за счет того, что выборки были различны, и сводилось к случайным причинам различий, - здесь же индивидуальные различия между элементами выборки (респондентами) необходимо особо учитывать. (Индивидуальные различия могут оказаться более значимыми, чем изменение условий действия фактора. ) Исходя из сказанного, в расчеты вводятся дополнительные компоненты – суммы квадратов сумм индивидуальных значений.

Расчет промежуточных величин. Tc Суммы индивидуальных значений по каждому из условий ΣT 2 c Сумма квадратов суммарных значений по каждому из условий с Количество значений у каждого респондента, то есть – количество условий n N Tn Количество респондентов общее количество значений Суммы индивидуальных значений по каждому респонденту ΣT 2 n Сумма квадратов сумм индивидуальных значений по респондентам xi каждое индивидуальное значение Σxi 2 (Σxi)2 квадрат общей суммы индивидуальных значений 1/N(Σxi)2 константа, необходимая для вычитания из каждой суммы квадратов Σ(xi)2 сумма квадратов индивидуальных значений

Основные вычисления. Подсчитать SSфакт. = 1/n ΣT 2 c – 1/n (Σxi)2 Подсчитать SSресп. =1/c ΣT 2 n – 1/N (Σxi)2 Подсчитать SSобщ. = Σx 2 i – 1/N (Σxi)2 Подсчитать случайную остаточную величину SSсл. Определить число степеней свободы Разделить каждую SS на соответствующее число степеней свободы Подсчитать значения F Определить по таблицам критические значения F и сопоставить с ними полученные эмпирические значения SSсл. = SSобщ. – SSфакт. – SSресп. dfфакт. = с – 1 dfресп. = n – 1 dfобщ. = N – 1 dfсл. = dfобщ. – dfфакт. – dfресп. MSфакт. = SSфакт. / dfфакт. MS респ. = SS респ. / df респ. MS сл. = SS сл. / df сл. Fфакт. = MSфакт. / MS сл. Fресп. = MSресп. / MS сл. При Fэмп. >= Fкр. H 0 отклоняется.

Многофакторный дисперсионный анализ. Следует сразу же отметить, что принципиальной разницы между многофакторным и однофакторным дисперсионным анализом нет. Многофакторный анализ не меняет общую логику дисперсионного анализа, а лишь несколько усложняет ее, поскольку, кроме учета влияния на зависимую переменную каждого из факторов по отдельности, следует оценивать и их совместное действие. Таким образом, то новое, что вносит в анализ данных многофакторный дисперсионный анализ, касается в основном возможности оценить межфакторное взаимодействие. Тем не менее, по-прежнему остается возможность оценивать влияние каждого фактора в отдельности. В этом смысле процедура многофакторного дисперсионного анализа (в варианте ее компьютерного использования) несомненно более экономична, поскольку всего за один запуск решает сразу две задачи: оценивается влияние каждого из факторов и их взаимодействие

Двухфакторный дисперсионный анализ – позволяет оценить не только влияние двух факторов, но и влияние их взаимодействия. Одна из переменных знамимо действует на исследуемый признак только при малых или наоборот, при больших значениях других переменных. Двухфакторная дисперсионная модель имеет вид: xijk=μ+Fi+Gj+Iij+εijk где xijk - значение наблюдения в ячейке ij с номером k; μ - общая средняя; Fi -эффект, обусловленный влиянием i-го уровня фактора А;

Gj - эффект, обусловленный влиянием j-го уровня фактора В; Iij - эффект, обусловленный взаимодействием двух факторов, т. е. отклонение от средней по наблюдениям в ячейке ij от суммы первых трех слагаемых в модели; εijk - возмущение, обусловленное вариацией переменной внутри отдельной ячейки.

Оценки по иностранному языку 5 4 Развитие 3 Низкий уровень Средний уровень Высокий уровень кратковременной памяти Оценки по чистописанию 5 4 Развитие 3 Низкий уровень кратковременной Средний уровень Высокий уровень памяти

В примере иллюстрируется исследование зависимости учебной успеваемости школьников от развития кратковременной памяти. В качестве фактора рассматривался уровень развития кратковременной памяти, а в качестве результативных признаков – успеваемость по предмету. Видно, например, что фактор, по-видимому, оказывает существенное влияние при обучении иностранному языку, и незначим для чистописания, что, впрочем, вполне согласуется со здравым смыслом. Приведенный пример обращает внимание также и на то, какими именно должны быть факторы? Здесь фактор имел градации, то есть его величина изменялась при переходе от одной градации к другой. Следует знать, что такое условие отнюдь не обязательно: фактор может иметь градации, никак не связанные между собой количественным отношением, и может быть представлен хоть в номинальной шкале. В общем (и это точнее) говорят не о градациях фактора, а о различных условиях его действия. Возможность количественной градации фактора, таким образом, лишь частный случай. В качестве иллюстрации этого положения скажем, что если отыщется исследователь, желающий определить зависимость яйценоскости от цвета курицы, то ничто не помешает ему применить дисперсионный анализ, и в качестве условий действия фактора «цвет» избрать, скажем, черных, белых и пестрых кур. Формулировка гипотез в дисперсионном анализе. Нулевая гипотеза: «Средние величины результативного признака во всех условиях действия фактора (или градациях фактора) одинаковы» . Альтернативная гипотеза: «Средние величины результативного признака в разных условиях действия фактора различны» .

STATISTICA. Проверка результатов контрольного примера в ANOVA/MANOVA Рассмотрим процедуру решения рассмотренной задачи методом дисперсионного анализа в системе STATISTICA. 1) Запустите пакет STATISTICA. 2)Появится диалоговое окно Statistica Module Switcher (рис. 1. 1).

Рис. 1. 1

3) Выделите модуль ANOVA/MANOVA и нажать кнопку Switch To. 4) Откроется окно GENERAL ANOVA/MANOVA. Если кто-то работал до Вас с этим пакетом, появятся исходные данные предыдущей работы. В любом случае закройте все окна и начните работу сначала. Дайте команду File/New Data. Появится электронная таблица Data: new. sta для ввода исходных данных и их преобразования, размерностью 10 столбцов (Vars – переменных) и 10 строк (Cases – случаи). 5) Введите исходные данные для переменных в столбцы VAR 1 и VAR 2 в следующем виде (придется добавить 5 Cases) (рис. 1. 2).

Рис. 1. 2

6)Нажимая кнопку Vars/Cases удалите лишние переменные from VAR 3 to VAR 10. 7)Щелкая правой клавишей по столбцам VAR 1 и VAR 2, выберите контекстное меню, выделите пункт Variable Specs… и поменяйте имена переменных, если в этом есть необходимость. 8) File/Save As – сохраните полученный файл в нужном директории с именем data 1. sta. 9)Выполните команду Analysis/Resume Analysis. Появится меню General ANOVA/MANOVA (рис. 1. 3).

Рис. 1. 3

10)Нажмите кнопку Variables и определите независимую (VAR 1) и зависимую (VAR 2) переменные. После определения переменных вы вернетесь в меню General ANOVA/MANOVA. Нажмите OK. Появится панель ANOVA Results (рис. 1. 4). Рис. 1. 4

11)Для решения данной задачи достаточно нажать кнопку All effects и на экране появятся результаты общего дисперсионного анализа (рис. 1. 5). Если эти результаты выделены красным цветом – фактор оказывает существенное влияние, что мы и наблюдаем на экране Более точный вывод можно сделать, применив критерий Фишера. рис. 1. 5