Тема Классификация задач и методов их решения Все

Скачать презентацию Тема Классификация задач и методов их решения Все

лекция 5 мат методы.pptx

Количество слайдов: 36

Тема. Классификация задач и методов их решения Все многообразие задач, с которыми приходится сталкиваться экспериментатору при проверке гипотез, можно свести к нескольким группам:

Выявление различий Две независимые выборки в уровне исследуемого Больше двух независимых признака выборок Сравнение групп по уровню выраженности признака 1. Оценка сдвига значений исследуемого признака Н – Краскала. Уолиса Две зависимые выборки Т – Уилкоксона G – знаков Больше двух зависимых выборок χ2 – Фридмана Две независимые выборки Выявление различий в средних значениях исследуемого признака (исследуемый признак является нормально распределенным) Q – Розенбаума U – Манна-Уитни Две зависимые выборки t – Стьюдента для независимых выборок t – Стьюдента для зависимых выборок Больше двух независимых выборок Дисперсионный анализ ANOVA Больше двух независимых выборок ANOVA с повторными измерениями

Под влиянием одного фактора 2. Анализ изменений признака под влиянием контролируемых условий Однофакторный дисперсионный анализ Под влиянием двух и более факторов одновременно Многофакторный дисперсионный анализ Влияние факторов на несколько зависимых переменных Многомерный ANOVA (MANOVA)

Признаки (X, Y) представлены в номинативной шкале 3. Выявление зависимостей между переменными (корреляционный анализ) коэффициент ассоциации Пирсона Признаки (X, Y) представлены в ранговой шкале r-Спирмена t-Кендалла Признаки (X, Y) представлены в метрической шкале r - Пирсона

4. Анализ номинативных данных Признаки (X, Y) представлены в номинативной шкале 2 -Пирсона, Мак-Немара

5. Выявление скрытых закономерностей и выделение новых «обобщенных» переменных Признаки измерены в количественной или ранговой шкале Факторный анализ

Из приведенной таблицы можно видеть, что на выбор методов статистического вывода влияют, прежде всего: • то, в какой шкале измерены или представлены изучаемые признаки; • количество сравниваемых групп (выборок); • зависимость или независимость сравниваемых выборок; • соответствие нормальному распределению.

Зависимые и независимые выборки Когда мы изучаем несколько выборок (две, три и т. д. ) с целью их сравнения. В зависимости от процедуры организации выборок, они могут быть в различных соотношениях. Независимые выборки характеризуются тем, что вероятность отбора любого испытуемого одной выборки не зависит от отбора любого из испытуемых другой выборки. Зависимые выборки – каждому испытуемому в одной выборке соответствует конкретный испытуемый другой выборки, то есть осуществляется попарный отбор в эти выборки.

Первое основание для классификации исследовательских ситуаций – это типы шкал, в которых измерены признаки. Они могут быть представлены либо в количественной шкале (порядковой, метрической), либо в качественной (номинативной) шкале. В зависимости от этого выделяются 3 ситуации. • В первом случае обе переменные представлены в количественной шкале; • во втором случае – качественной шкале (номинативной); • в третьем случае одна переменная в номинативной шкале, а вторая - в количественной.

Методы сравнения выборок по уровню проявления исследуемого признака К методам сравнения выборок относятся способы проверки статистических гипотез о различии выборок по уровню выраженности признака, измеренного в количественной шкале.

Методы сравнения можно классифицировать по трем основаниям: • количество сравниваемых групп (две или более двух); • соотношение сравниваемых групп (зависимые или независимые выборки); • шкала, в которой измерен количественный признак (метрическая, ранговая).

Методы статистического вывода о различии выборок по уровню выраженности количественного признака Количество выборок (градаций X) ранговый метрический Признак Y Соотношение выборок Две выборки независимые Больше двух выборок независимые Параметрические методы сравнения t- Стьюдента для независимых выборок ANOVA однофакторный дисперсионный анализ ANOVA с повторными измерениями Непараметрические методы сравнения U-Манна-Уитни, Т-Вилкоксона, критерий серий Вальда. Вольфовица Н-Краскала-Уоллиса критерий знаков Χ 2 -Фридмана

Из приведенной ниже таблицы можно выделить 8 основных ситуаций применения методов сравнения. Для количественных данных при распределениях, близких к нормальным, используют параметрические методы, основанные на таких показателях, как средняя и стандартное отклонение. В частности, для определения достоверности разницы средних для двух выборок применяют метод Стьюдента, а для того чтобы судить о различиях между тремя или большим числом выборок — дисперсионный анализ (ANOVA). Если же мы имеем дело с неколичественными данными или выборки слишком малы для уверенности в том, что популяции, из которых они взяты, подчиняются нормальному распределению, тогда используют непараметрические аналоги — критерий знаков, Манна. Уитни, Вилкоксона, Краскела-Уоллиса и др.

Параметрические методы сравнения двух выборок t-критерий Стьюдента (t-тест) - это один из наиболее известных параметрических критериев, используемый для проверки гипотез о достоверности разницы средних при анализе количественных данных в популяциях с нормальным распределением и с одинаковой дисперсией.

Автор метода Уи льям Си ли Го ссет- известный учёный-статистик, более известный под своим псевдонимом Стьюдент благодаря своим работам по исследованию т. н. распределения Стьюдента. Госсет практически все свои работы, включая работу «Вероятная ошибка среднего» опубликовал в журнале Пирсона «Биометрика» под псевдонимом Стьюдент. Вопрос аудитории – Почему?

Критерий Стьюдента (t) наиболее часто используется для проверки гипотезы: «Средние двух выборок относятся к одной и той же совокупности» (нулевая гипотеза). Критерий позволяет найти вероятность того, что оба средних относятся к одной и той же совокупности. Если эта вероятность р ниже уровня значимости (р < 0, 05), то принято считать, что выборки относятся к двум разным совокупностям.

Особенности: 1. Может быть использован для установления различий между двумя выборками в уровне исследуемого признака, поскольку в его формулу обязательно входит разность средних арифметических двух выборок; 2. Чем больше разность между средними арифметическими двух выборок, тем больше будет эмпирическое значение tкритерия и тем более вероятно обнаружение различий; 3. Критерий позволяет сформулировать направленные гипотезы; 4. Переменные должны быть измерены в шкалах интервалов или отношений и, по крайней мере, теоретически, подвержены нормальному распределению; 5. Выборки могут быть сколь угодно большими.

Направленная гипотеза указывает направление эффекта: в группе 1 среднее выше, чем в группе 2. Ненаправленная гипотеза указывает только на существование эффекта, не определяя его направления: две группы имеют разные средние.

Ошибки применения метода: Метод Стьюдента слишком часто используют для малых выборок, не убедившись предварительно в том, что данные в соответствующих популяциях подчиняются закону нормального распределения (например, результаты выполнения слишком легкого задания, с которым справились все испытуемые, или же, наоборот, слишком трудного задания не дают нормального распределения).

До тех пор пока выборка достаточно большая (например, 100 или больше наблюдений), можно считать, что выборочное распределение нормально, даже если вы не уверены, что распределение переменной в популяции, действительно, является нормальным. Тем не менее, если выборка очень мала, то критерии, основанные на нормальности, следует использовать только при наличии уверенности, что переменная действительно имеет нормальное распределение.

Критерий Стьюдента для независимых выборок Для сравнения средних арифметических величин двух рядов показателей М 1 и М 2 вычисляется разность между ними: М 1 - М 2. А чтобы доказать, что величина этой разности статистически значима, нужно воспользоваться t–критерием Стьюдента, который вычисляется по формуле:

Формула (1) применяется для близких по численности выборок, а формула (2) для точных расчетов, когда выборки заметно различаются по численности. Проверяемая статистическая гипотеза: H 0: М 1=М 2; при ее отклонении принимается альтернативная гипотеза (H 1: М 1≠М 2)

Ограничения в применении: • распределение изучаемого признака и в той и в другой выборке существенно не отличается от нормального. • в случае разной численности выборок их дисперсии статистически достоверно не различаются (гомогенны). Если эти условия не соблюдаются, то применяются непараметрические аналоги критерию Стьюдента – критерий Манна-Уитни и др.

Чтобы применить t-критерий для независимых выборок, требуется, по крайней мере, одна независимая (группирующая) переменная (например, пол: мужчина/женщина) и одна зависимая переменная (например, тестовое значение некоторого показателя, коэффициент интеллекта, уровень эмоциональности и т. д. ). С помощью специальных значений независимой переменной (эти значения называются кодами, например, мужчина и женщина) данные разбиваются на две группы.

Пример: Исследовался уровень интеллекта с помощью КОТ в контрольной (М 1=21, 6; N 1=30; σ1=3, 15) и экспериментальной группе (М 2=28, 1; N 2=28; σ2=2, 88). Достоверны ли различия в средних значениях в сравниваемых группах? Для подсчета эмпирического значения t-критерия воспользуемся формулой (1) df=28+30 -2=56

Разность средних арифметических величин считается значимой, если tэмп > tкр, где tкр – критическое значение t – критерия Стьюдента из таблицы приложения. В нашем примере tкр = 2, 003 (0, 05); 2, 667 (0, 01); 3, 473 (0, 001). Поскольку tэмп > tкр(0, 001) принимаем Н 1 и отвергаем Н 0. Содержательный вывод: различия в средних значениях IQ в сравниваемых группах статистически значимы.

Критические значения критерия t-Стьюдента (для проверки ненаправленных альтернатив) df p 0, 10 0, 05 0, 01 0, 001 1 6, 314 12, 700 63, 650 636, 61 2 2, 920 4, 303 9, 925 3 2, 353 3, 182 4 2, 132 5 df p 0, 10 0, 05 0, 01 0, 001 46 1, 679 2, 013 2, 687 3, 515 31, 602 47 1, 678 2, 012 2, 685 3, 510 5, 841 12, 923 48 1, 677 2, 011 2, 682 3, 505 2, 776 4, 604 8, 610 49 1, 677 2, 010 2, 680 3, 500 2, 015 2, 571 4, 032 6, 869 50 1, 676 2, 009 2, 678 3, 496 6 1, 943 2, 447 3, 707 5, 959 51 1, 675 2, 008 2, 676 3, 492 7 1, 895 2, 365 3, 499 5, 408 52 1, 675 2, 007 2, 674 3, 488 8 1, 860 2, 306 3, 355 5, 041 53 1, 674 2, 006 2, 672 3, 484 9 1, 833 2, 262 3, 250 4, 781 54 1, 674 2, 005 2, 670 3, 480 10 1, 812 2, 228 3, 169 4, 587 55 1, 673 2, 004 2, 668 3, 476 11 1, 796 2, 201 3, 106 4, 437 56 1, 673 2, 003 2, 667 3, 473 12 1, 782 2, 179 3, 055 4, 318 57 1, 672 2, 002 2, 665 3, 470 13 1, 771 2, 160 3, 012 4, 221 58 1, 672 2, 002 2, 663 3, 466 14 1, 761 2, 145 2, 977 4, 140 59 1, 671 2, 001 2, 662 3, 463 15 1, 753 2, 131 2, 947 4, 073 60 1, 671 2, 000 2, 660 3, 460 16 1, 746 2, 120 2, 921 4, 015 61 1, 670 2, 000 2, 659 3, 457 17 1, 740 2, 110 2, 898 3, 965 62 1, 670 1, 999 2, 657 3, 454 18 1, 734 2, 101 2, 878 3, 922 63 1, 669 1, 998 2, 656 3, 452 19 1, 729 2, 093 2, 861 3, 883 64 1, 669 1, 998 2, 655 3, 449 20 1, 725 2, 086 2, 845 3, 850 65 1, 669 1, 997 2, 654 3, 447 21 1, 721 2, 080 2, 831 3, 819 66 1, 668 1, 997 2, 652 3, 444 22 1, 717 2, 074 2, 819 3, 792 67 1, 668 1, 996 2, 651 3, 442 23 1, 714 2, 069 2, 807 3, 768 68 1, 668 1, 995 2, 650 3, 439 24 1, 711 2, 064 2, 797 3, 745 69 1, 667 1, 995 2, 649 3, 437 25 1, 708 2, 060 2, 787 3, 725 70 1, 667 1, 994 2, 648 3, 435 26 1, 706 2, 056 2, 779 3, 707 71 1, 667 1, 994 2, 647 3, 433 27 1, 703 2, 052 2, 771 3, 690 72 1, 666 1, 993 2, 646 3, 431 28 1, 701 2, 049 2, 763 3, 674 73 1, 666 1, 993 2, 645 3, 429 df p 0, 10 0, 05 0, 01 0, 001 29 1, 699 2, 045 2, 756 3, 659 74 1, 666 1, 993 2, 644 3, 427 30 1, 697 2, 042 2, 750 3, 646 75 1, 665 1, 992 2, 643 3, 425 31 1, 696 2, 040 2, 744 3, 633 76 1, 665 1, 992 2, 642 3, 423 32 1. 694 2, 037 2, 738 3, 622 78 1, 665 1, 991 2, 640 3, 420 33 1, 692 2, 035 2, 733 3, 611 79 1, 664 1, 990 2, 639 3, 418 34 1, 691 2, 032 2, 728 3, 601 80 1, 664 1, 990 2, 639 3, 416 35 1, 690 2, 030 2, 724 3, 591 90 1, 662 1, 987 2, 632 3, 402 36 1, 688 2, 028 2, 719 3, 582 100 1, 660 1, 984 2, 626 3, 390 37 1, 687 2, 026 2, 715 3, 574 110 1, 659 1, 982 2. 621 3, 381 38 1, 686 2, 024 2, 712 3, 566 120 1, 658 1, 980 2, 617 3, 373 39 1, 685 2, 023 2, 708 3, 558 130 1, 657 1, 978 2, 614 3, 367 40 1, 684 2, 021 2, 704 3, 551 140 1, 656 1, 977 2, 611 3, 361 41 1, 683 2, 020 2, 701 3, 544 150 1, 655 1, 976 2, 609 3, 357 42 1, 682 2, 018 2, 698 3, 538 200 1. 653 1, 972 2, 601 3, 340 43 1, 681 2, 017 2, 695 3, 532 250 1, 651 1, 969 2, 596 3, 330 44 1, 680 2, 015 2, 692 3, 526 300 1, 650 1, 968 2, 592 3, 323 45 1, 679 2, 014 2, 690 3, 520 350 1, 649 1, 967 2, 590 3, 319 df 55 p 0, 10 0, 05 0, 01 0, 001 1, 673 2, 004 2, 668 3, 476 56 1, 673 2, 003 2, 667 3, 473 57 1, 672 2, 002 2, 665 3, 470

Критерий Стьюдента для зависимых выборок Метод позволяет проверить гипотезу о том, что средние значения двух генеральных совокупностей, из которых извлечены сравниваемые зависимые выборки, отличаются друг от друга. Чаще всего признак измерен на одной и той же выборке дважды, например, до воздействия и после него. В общем случае две выборки попарно соединены (так, что два ряда значений коррелируют друг с другом).

Проверяемая статистическая гипотеза: H 0: М 1=М 2. При ее отклонении принимается альтернативная гипотеза М 1≠М 2 Ограничения в применении: • каждому представителю одной выборки соответствует представитель другой выборки. • данные двух выборок положительно коррелируют. • распределение в обеих выборках соответствуют нормальному закону.

Если это не выполняется, то можно воспользоваться одним из альтернативных непараметрических критериев. Альтернативы: критерий Т-Вилкоксона, критерий Стьюдента для независимых выборок (если данные для двух выборок не коррелируют положительно).

Формула расчета эмпирического значения критерия t-Стьюдента для зависимых выборок имеет следующий вид: где Md – средняя разность значений, σd – стандартное отклонение разностей.

Пример: Сравнивался уровень депрессии до и после сеанса групповой психотерапии на выборке численностью N=15. Достоверно ли снижение уровня депрессии после проведенного сеанса психотерапии? № 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 До (X 1) 25 26 25 27 21 22 26 25 24 26 28 27 21 29 25 После (X 2) 23 23 21 24 19 23 22 22 20 22 23 25 18 22 21 Среднее 47, 1 41, 0

Алгоритм расчета: Шаг 1. Вычисляем разности di для каждой строки таблицы и среднюю разность Md = 49/15=3, 27. Шаг 2. Вычислим отклонения каждой di от средней разности Md, которую затем возведем в квадрат. Шаг 3. Вычислим стандартное отклонение разностей по формуле для стандартного отклонения:

№ До (X 1) После (X 2) di=X 1 - X 2 1 25 23 2 2 26 23 3 3 25 21 4 4 27 24 3 5 21 19 2 6 22 23 -1 7 26 22 4 8 25 22 3 9 24 20 4 10 26 22 4 11 28 23 5 12 27 25 2 13 21 18 3 14 29 22 7 15 25 21 4 Сумма 377 328 49 di -Md -1, 27 -0, 27 0, 73 -0, 27 -1, 27 -4, 27 0, 73 -0, 27 0, 73 1, 73 -1, 27 -0, 27 3, 73 0, 00 (di -Md)2 1, 604 0, 071 0, 538 0, 071 1, 604 18, 204 0, 538 0, 071 0, 538 3, 004 1, 604 0, 071 13, 938 0, 538 42, 93

Шаг 4. Вычислим эмпирическое значение tкритерия по формуле: df = 15 -1=14 Шаг 5. Определяем по таблице критических значений критерия t-Стьюдента р-уровень значимости. Для df=14 эмпирическое значение (7, 478) больше критических значений для р=0, 01 (2, 977) и р=0, 001 (4, 140). Следовательно, p<0, 01.

Шаг 6. Принимаем статистическое решение и формулируем вывод. Нулевая гипотеза о равенстве средних значений отклоняется. Уровень депрессии после групповой психотерапии значимо снизился (p<0, 001). Примечание: в отношении зависимых выборок вполне допустимо применение критерия t-Стьюдента для независимых выборок, но не наоборот.