
30 октября -2013 -тема 2 - ПСИХОМЕТРИКА.ppt
- Количество слайдов: 71
Электронный курс лекций для специализированного курса «Психодиагностика» Кандидат медицинских наук, доцент Колосницына М. Ю. Тема: ПСИХОМЕТРИЧЕСКИЕ ОСНОВЫ ПСИХОДИАГНОСТИКИ Москва - 2013
Учебные вопросы: 1. 2. 3. 4. 5. Введение в психометрику Психометрические критерии качества Технология создания методик Технология модификации и адаптации методик Требования к психометрической подготовки психолога
Вопрос 1. ВВЕДЕНИЕ В ПСИХОМЕТРИКУ
Психометрика (англ. psychometrics) - это область научных знаний, которая 1) изучает теорию и методологию психологических измерений (например, измерение знаний, способностей, взглядов и качеств личности); 2) разрабатывает математические модели для методов психологического измерения (например, модель Терстоуна, модель многомерного шкалирования, модель латентных черт, факторный анализ); 3) определяет формальные требования для экспериментальной проверки психометрических свойств (валидности, надежности и др. ) разнообразных методов психологического измерения.
Психометрия является разделом прикладной статистики и связана с количественным подходом к анализу тестовых данных. Психометрия обеспечивает исследователей и психологов математическими моделями, используемыми при анализе ответов на отдельные задания или пункты тестов, тесты в целом и наборы тестов.
Области психометрии 1. ДИФФЕРЕНЦИАЛЬНАЯ ПСИХОМЕТРИКА 2. ОЦЕНКА НАДЕЖНОСТИ 3. ОЦЕНКА ВАЛИДНОСТИ 4. ОЦЕКА РЕПРЕЗЕНТАТИВНОСТИ Каждая из областей содержит набор определенных теоретических положений и конкретные процедуры, используемые при оценке качества работы теста в каждом отдельном случае.
Из истории психометрии
Термин «психометрия» впервые появился в XVII веке в трудах Христиана Вольфа. Христиан Вольф был профессором математики и философии в Галле (1706 – 1723, затем с 1740) и в Марбурге (1723 - 1740), где в числе его слушателей был М. В. Ломоносов. Вольф выступил главным образом как популяризатор и систематизатор идей Г. Лейбница, на основе которых стремился разработать единую и всеобъемлющую систему знания. Психологию Вольф делил на эмпирическую и рациональную: первая рассматривает душу со стороны её связи с телом, вторая же занимается неизменной, бессмертной душой. В Санкт-Петербурге в 1765 году было опубликовано его сочинение «Разумные мысли о силах человеческого разума и их исправном употреблении в познании правды» . Христиан Вольф (24. 01. 1679 - 9. 04. 1754), немецкий философ, математик, представитель рационализма.
«Отцом психометрии» считается английский врач, психолог и антрополог Фрэнсис Гальтон
В 1869 году Ф. Гальтон публикует работу «Наследование таланта» , в которой делает вывод о том, что способности значительно зависят от наследственности. Ф. Гальтон с учеником К. Пирсоном доказывают, что не только способности, но и другие свойства личности наследуются и их можно измерить. Для измерения психофизических различий Гальтон изобрел специальные приборы (ультразвуковой свисток, позволяющий измерять слуховую чувствительность, и др. ), разработал приемы определения способностей, послужившие основой созданной потом системы тестов, ввел методы статистической обработки данных, в частности приём определения корреляций между измеряемыми величинами. Ф. Гальтон в 1884 -1885 годах провел серию испытаний, в которых посетители лаборатории в возрасте от 5 до 80 Фрэнсис Гальтон лет могли проверить 17 физиологических и (16. 02. 1822 -17. 01. 1911. ), психологических показателей. Исследование результатов английский психолог, 9337 человек легло в основу дифференциальной антрополог психологии. В работе «Исследования человеческих способностей» (1883) Ф. Гальтон ввел термин «евгеника» , понимая под этим теорию о наследственности и о путях улучшения человеческого рода с помощью контроля наследственных признаков. Основываясь на своих евгенических воззрениях, он создал модель утопического общества и предложил идею улучшения породы человека путем заключения подходящих браков между одаренными людьми.
В. Вундт - профессор физиологии в Гейдельберге (1864— 1874), профессор философии в Лейпциге (с 1875). В первых своих работах выдвинул план разработки физиологической психологии как особой науки, использующей метод лабораторного эксперимента для расчленения сознания на элементы и выяснения закономерной связи между ними. Главная заслуга В. Вундта - внедрение в психологию экспериментального метода, что послужило основанием для ее выделения в самостоятельную науку. Вильгельм Вундт (16. 08. 1832 - 31. 08. 1920), немецкий психолог, физиолог, философ и языковед Созданная им в 1879 первая в мире психологическая лаборатория (преобразованная позднее в институт) стала международным центром, где формировалось целое поколение первых психологов. В лаборатории изучались ощущения, время реакции, ассоциации, внимание, простейшие чувства. В работе «Проблемы психологии народов» (1900 - 1920) Вундт предпринял попытку психологического истолкования культурноисторических явлений (мифа, религии, искусства и т. д. ).
Учителем Дж. Кеттелла был Вильгельм Вундт. Совместно они заложили основы для научного исследования интеллекта. Дж. Кеттелл под руководством своего наставника стал первым американцем, защитившим докторскую диссертацию по психологии ( «Психометрическое исследование» , Psychometric Investigation). Кеттелл ввел термин «интеллектуальный тест» (1890) и предложил в качестве образца 50 тестов, включавших различного рода измерения чувствительности, времени реакции, времени, затрачиваемого на называние цветов, количество звуков, воспроизводимых после однократного прослушивания. Джеймс Маккин Кеттелл (25. 05. 1860 - 20. 01. 1944), американский психолог, специалист по экспериментальной психологии После возвращения из Германии в 1888 г. Кеттелл стал первым в США профессором психологии в Пеннсильванском университете, затем деканом факультета психологии, антропологии и философии Колумбийского университета, а в 1895 г. избран президентом Американской психологической ассоциации.
Эмиль Крепелин известен как автор современной нозологической концепции в психиатрии и классификации психических заболеваний. Создал концепцию «dementia praecox» - прообраза шизофрении; концепцию маниакально-депрессивного психоза и паранойи; внёс огромный вклад в понимание врождённого слабоумия и истерии. Описал и назвал множество психиатрических понятий (шизофазия; словесная окрошка; парафрения; кверулянтский бред; олигофрения и др. ). Эмиль Крепелин (15. 02. 1856 - 07. 10. 1926), немецкий психиатр Разработал на клиническом материале серию испытаний, позволяющих судить о таких процессах, как память, утомление нарушение внимания, по показателям выполнения достаточно простых арифметических действий. Среди трудов по патопсихологии известен метод «Счёт по Крепелину» .
А. Бине - основатель первой во Франции Лаборатории экспериментальной психологии. Стремился утвердить объективный метод исследования в психологии. В 1904 году в связи с введением всеобщего образования Министерство образования Франции поручило А. Бине заняться разработкой методик, с помощью которых можно было бы отделить детей, способных к учению, от детей, страдающих прирожденными дефектами и не способных учиться в нормальной школе. А. Бине в сотрудничестве с Анри Симоном провел серию экспериментов по изучению внимания, памяти, мышления у детей разного возраста. Экспериментальные задания были проверены по статистическим критериям и стали рассматриваться как средство определения интеллектуального уровня. Так в 1905 г. появилась первая шкала (серия тестов) Бине-Симона. В качестве показателя интеллекта был умственный возраст, который мог расходится с хронологическим. Умственный возраст определялся по успешности выполнения тестовых заданий. Альфред Бине (1857 -1911), французский врач, психолог В 1916 г. в Стэнфордском университете (США) шкала Бине-Симона претерпела изменения и получила называние шкалы Стэнфорд-Бине. В качестве показателя по тесту предложен коэффициент интеллектуальности IQ (отношение между умственным и хронологическим возрастом); а также введено понятие статистической нормы. Критерий нормы позволял сравнить индивидуальные тестовые показатели, оценивать их, давать им психологическую интерпретацию.
Шкала Стэнфорд-Бине получила популярность во всем мире, она имела несколько редакций (1937, 1960, 1972, 1986). В последней редакции она применяется и в настоящее время. Шкала Стенфорд-Бине рассчитана на детей в возрасте от 2, 5 до 18 лет. Она представляет собой задания разной трудности, которые сгруппированы по возрастным критериям. Все индивидуальные показатели по тесту, попадавшие в интервал ограниченный числами 84 и 116 считаются нормальными (соответствуют возрастной норме). Если тестовые показатели выше тестовой нормы (более 116), ребенок считается одаренным, а если ниже 84, то умственно отсталым. Показатель IQ, получаемый по шкале Стэнфорд-Бине, на долгие годы стал синонимом интеллекта. Вновь создаваемые тесты интеллекта стали проверяться на валидностъ путем сопоставления с результатами шкалы Стэнфорд-Бине.
Чарльз Спирмен, профессор Лондонского и Честерфилдского университетов, разработчик многочисленных методик математической статистики, создатель двухфакторной теории интеллекта и техники факторного анализа. Ч. Спирмен заметил, что, испытуемые успешно выполняющие «тесты на мышление» , столь же успешно справляются и с другими тестами на прочие познавательные способности, и наоборот. Свои наблюдении он изложил в книге «Cпособности человека, их природа и измерение» Ч. Спирмен предположил, что успех любой интеллектуальной работы определяют: 1) некий общий фактор, общая способность (генеральный G-фактора) ; 2) фактор, специфический для данной деятельности (специальный S-фактора). Разработал метод ранговой корреляции Чарльз Эдвард Спирмен (10. 09. 1863 - 17. 09. 1945), американский психолог Спирмена, который позволяет определить тесноту (силу) и направление корреляционной связи между двумя признаками или двумя профилями (иерархиями) признаков. Предложил коэффициент ранговой корреляции Спирмена - мера линейной связи между случайными величинами.
Карла (Чарлза) Пирсона считают основателем математической статистики, одним из основоположников биометрики. В 1900 г. основал журнал «Biometrika» , посвящённый применению статистических методов в биологии. Опубликовал основополагающие труды по математической статистике (более 600 работ). Разработал теорию корреляции, алгоритмы принятия решений и оценки параметров. С его именем связаны такие широко используемые термины и методы, как: 1) кривые Пирсона 2) распределение Пирсона 3) критерии согласия Пирсона (хи-квадрат) 4) коэффициент корреляции 5) ранговая корреляция Карл Пирсон (27. 03. 1857 – 27. 04. 1936), английский математик, статистик, биолог и философ; 6) множественная регрессия 7) коэффициент вариации 8) нормальное распределение и др.
Луис Терстоун в 1927 г. в Чикагском университете создал психометрическую лабораторию. Он один из основателей Psychometric Society и журнала «Psychometrica» , более 20 лет был издателем «American Council on Educational Psychological Examenations» . Соредактор «Journal of Social Psychology» . Председатель Американской психологической ассоциации (1932), президент Психометрического общества (1936). В 1936 году разработал теоретический подход к измерению, который известен как закон сравнительных суждений, ввел измерительные «терстоуновские шкалы» . Основываясь на работах Ч. Спирмена и Р. Кеттелла предложил свой вариант многомерного факторного анализа. Луис Леон Терстоун (29. 5. 1887 - 29. 9. 1955), американский психолог, психометрист Считал, что интеллект построен из нескольких первичных способностей: вербальной; перцептивной; особой способности восприятия пространства, памяти, рассуждения и беглой речи. Вместе со своими сотрудниками им было создано около 30 шкал для изучения социальных установок.
Отечественная психометрия Развитие отечественной психометрии можно условно разделить на два этапа: 1 этап – с 1910 по 1936 годы 2 этап – с 1969 по настоящее время Первый этап связан с именами А. Н. Бернштейн, Г. И. Россолимо, Ц. Балталон и Т. Ф. Богданов. В 1910 г. они организовали в Москве Общество экспериментальной психологии и разработали первые русские тесты «Экспериментальнопсихологические схемы» (А. Н. Берштейн) и «Психологические профили» (Г. И. Россолимо). Ф. Е. Рыбаков выпустил первый в России «Атлас для экспериментально-психологического исследования личности с подробным описанием и объяснением таблиц, составленных применительно к цели педагогического и врачебно-диагностического исследования» - это сборник психологических методик, куда вошли тесты и методические приемы Ф. Гальтона, Х. Мюнстерберга, А. Бурдона, Г. Эббингауза, А. Бине и В. Анри, Э. Крепелина, А. Н. Бернштейна и др. В 1923 г. появилась шкала исследования моторики детей Н. И. Озерецкого, которая используется до сих пор (Шкала Линкольна-Озерецкого). Объективные ошибки и причины субъективного характера (например, утверждают, что И. В. Сталин был недоволен низким тестовым баллом сына Василия) привели к появлению 4 июля 1936 года постановления ЦККП(б) «О педологических извращениях в системе Наркомпроссов» , на основании которого были прекращены все психодиагностические исследования, закрыты лаборатории по психотехнике и психофизиологии труда.
Отечественная психометрия Второй этап развития связан с именами А. Н. Леонтьева, А. Р. Лурия и А. А. Смирнова, которые высказали положительное мнение о психологическом тестировании в статье «О диагностических методах психологического исследования школьников» в журнале «Советская педагогика» (1969, № 7). В 70 -е годы проводятся первые конференции по психодиагностике в Таллине. В 1982 году в русском переводе вышел учебник Анны Анастази «Психологическое тестирование» . В 1987 году выходит отечественный учебник «Общая психодиагностика» . В 80 -е годы адаптируются западные и создаются отечественные тесты. В последние 20 лет большую работу по созданию психологических методик проводят факультет психологии МГУ и Центра «Гуманитарные технологии» А. Г. Шмелева, психодиагностическая лаборатория Психологического института РАО под руководством М. К. Акимовой, Институт прикладной психологии Л. Н. Собчик, «Когито-центр» при Психологическом институте РАН (г. Москва); Психологическая лаборатория Санкт-Петербургского психоневрологического института им. В. М. Бехтерева, фирма «ИМАТОН» и др.
Основная проблема современной российской психодиагностики - использование психологами в основном зарубежных методик, часто не соответствующих психометрическим требованиям (например, MMPI, 16 -PF и CPI). • Отечественные создатели тестов порой не утруждают себя математическими расчетами. В единичных случаях приводятся психометрические характеристики новых методик. • Интернет кишит «баластными» тестами, которые по своей сути ничего не измеряют.
Психодиагностика в последние годы превратилась в бизнес. Мененджеры по продажам психодиагностического инструментария ориентированы в первую очередь на прибыль, зачастую не заботясь о качестве товара в силу некомпетентности, либо непорядочности. Поэтому сегодня психологические методики являются не столько объектом научных изысканий, а сколько коммерческим продуктом. Популярность того или иного теста скорее обусловлена не его психодиагностической ценностью, а рекламными акциями. Менеджер
И как следствием такого положения дел в российской психодиагностике, являются единичные научные публикации по конструированию, модификации и адаптации психологических методов. Вероятно этим обусловлен тот факт, что большая когорта психологов применяет низкопробные, но ставшие у нас весьма популярными тесты. Оправданием в таком случае у некритически мыслящих специалистов является лишь мнение о том, что «этими тестами все пользуются» . К сожалению, эти же методики укоренились в учебных программах, учебниках, учебных пособиях и практикумах для студентов высших учебных заведений, обучающихся по направлению и специальности «Психология» . Пользователь
В подобных случаях психологическое исследование по своей сути превращается в «гадание на кофейной гуще» .
Зачем психологу нужна психометрика? ü Знание психометрики дает психологу необходимую критичность в понимании ограниченности методик. Любая методика имеет свои границы, которые сводится к той популяции, на которой происходила разработка теста. ü Перенесение теста с одной популяции на другую без проверки может приводить к серьезным диагностическим ошибкам. Для корректного применения теста на новой выборке или в новых целях (от них зависит установка обследуемых) психолог должен провести эксперименты, направленные на перепроверку качества теста в новых условиях. ü Строгое следование требованиям психометрики особенно необходимо при переносе тестов, разработанных за рубежом. Известно, что языковые и социокультурные различия довольно ощутимы, их необходимо учитывать при адаптации методики. Таким образом, прежде чем психодиагностические методики использовать для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффективность. К числу основных критериев оценки психодиагностических методик относят надежность, валидность и репрезентативность.
«Основная проблема профессиональной психологии состоит в установлении ценности определенных тестов для решения определенных задач. Первый шаг состоит в том, чтобы протестировать тесты, а не кандидатов» Генри Линк, 1919 г. Источник: Hale, М. History of employment testing // Ability Testing: Uses, Consequences, and Controversies. Pt. 2: Documentation Section / Eds. A. K. Wigdor, W. R. Gardner. – Washington, DS: National Academy Press, 1982. – р. 3 – 38.
Сегодня в большинстве стран мира разрабатываются стандарты качества психодиагностических методик. Так, например, в 2012 году опубликованы европейские стандарты качества психологических тестов. Источник: Geisinger, K. F. Worldwide test reviewing at the beginning of the twenty first century // Int. J. of Testing, 2012, V. 12, N. 2, р. 103 -107.
Вопрос 2. ПСИХОМЕТРИЧЕСКИЕ КРИТЕРИИ КАЧЕСТВА
Психометрические критерии качества теста: 1. НАДЕЖНОСТЬ 2. ВАЛИДНОСТЬ 3. РЕПРЕЗЕНТАТИВНОСТЬ
ОЦЕНКА НАДЕЖНОСТИ
НАДЕЖНОСТЬ (англ. reliability of measurement) – это характеристика методики, которая отражает: 1) точность психодиагностических измерений, 2) устойчивость результатов теста к действию посторонних случайных факторов, 3) воспроизводимость результатов теста при повторных исследованиях на одних и тех же испытуемых. Таким образом, надежность методики позволяет судить о том, насколько внушают доверие полученные результаты. Показатели надежности Коэффициент константности Коэффициент стабильности
КОЭФФИЦИЕНТЫ НАДЕЖНОСТИ Ø Спирмена Ø Пирсона Ø Гуттмана Ø Спирмена- Брауна Ø Кьюдера-Ричардсона Ø Альфа-Кронбаха
Методы оценки надежности тестов: 1) повторное тестирование 2) параллельное тестирование 3) расщепление
Повторное тестирование или ретестовая надежность – характеристика надежности психодиагностической методики путем повторного обследования испытуемых с помощью одного и того же теста, через временной интервал (обычно не ранее, чем через 3 месяца). Надежность в этом случае вычисляется по соответствию результатов первого и второго обследований или по сохранению ранговых мест испытуемых в выборке при ретесте. Коэффициент надежности соответствует коэффициенту корреляции между результатами таких обследований (применяют расчеты коэффициентов Спирмена или Пирсона).
Распределение оценок испытуемых при выполнении теста в идеальном случае совпадает с нормальным распределением, и дисперсия при этом будет «истинной» (т. е. отражает вариативность только измеряемого признака). Каждый испытуемый по оценкам теста занимает определенное место, и теоретически это место для каждого члена выборки постоянно. Повторное выполнение теста теми же лицами должно давать распределение мест на шкале оценок, идентичное первому. Тогда методика точна и максимально надежна. Нормальное распределение – это вид теоретического распределения измеряемого признака под влиянием множества относительно независимых факторов. Крайние значения в нем встречаются достаточно редко; значения, близкие к средней величине – достаточно часто. Надежность теста тесно связана с ошибкой измерения, которая указывает на вероятные пределы колебаний измеряемой величины под воздействием случайных, постоянных факторов. В реальных ситуациях оценки и ранговые места испытуемых при повторном обследовании изменяются, и их распределение в той или иной степени отличается от исходного. При этом дисперсия нового распределения выше исходного на величину дисперсии ошибки измерения. (Ошибка измерения – это статистический показатель, характеризующий степень точности отдельных измерений).
Факторы, влияющие на результат тестирования: 1) личностные факторы обследуемого (например, состояние здоровья, эмоциональное состояние, утомление, мотивация и др. ) 2) особенности экспериментатора (например, уровень профессионализма, мотивация, соблюдение правил обследования и др. ) 3) физические факторы: (например, освещенность, посторонний шум, температурный режим и др. ) Таким образом, общий разброс (дисперсия) результатов тестирования зависит от влияния двух групп причин: Ø изменчивости, присущей самому измеряемому свойству Ø факторов нестабильности измерительной процедуры.
Таким образом, надежность теста – это характеристика того, в какой степени выявленные у испытуемых различия по тестовым результатам являются отражением действительных различий в измеряемых свойствах и в какой мере они могут быть приписаны случайным ошибкам.
Параллельное тестирование или надежность параллельных форм – характеристика надежности с помощью взаимозаменяемых форм теста. В данном случае одни и те же испытуемые обследуются вначале с использованием основного набора заданий, а через некоторое время (обычно не более недели) с применением аналогичного дополнительного теста. Такая процедура обследования лишена недостатков ретестовой надежности (например, формирование навыка работы, запоминание отдельных решений). Основным показателем является коэффициент корреляции между результатами первичного и повторного обследований, который оценивает временную стабильность теста (собственно надежность) и степень соответствия результатов обеих форм теста применяют расчеты коэффициентов Спирмена или Пирсона).
Расщепление или надежность частей теста – характеристики надежности путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных пунктов (заданий) теста. Обследуемые выполняют все задания теста, которые затем разбиваются на две равноценные половины (например, четные и нечетные с учетом субъективной трудности). Основным показателем при этом является коэффициент корреляции между результатами первой и второй половинами теста (применяют расчеты коэффициентов Гуттмана, Спирмена- Брауна, Кьюдера-Ричардсона). Для того, чтобы узнать насколько хорошо оценивают конкретные пункты один и тот же конструкт применяют метод расчета внутренней согласованности (консистентности, гомогенности) набора пунктов теста. В данном случае определяют степень выраженности интеркорреляционных связей между заданиями составляющими тест (применяют расчеты коэффициента альфа-Кронбаха, а если задания теста являются дихотомического типа, то коэффициента Кьюдера-Ричардсона).
Кэффициент корреляции – нормированный количественный показатель, изменяющийся в пределах от -1, 00 до +1, 00 и оценивающий силу и направление связи между двумя переменными. Отсутствие связи выражается величинами, близкими к нулю. На практике в большинстве применяемых методик редко удается получить значение коэффициентов надежности превышающие 0, 7 -0, 8. Методика признается надежной, когда полученный коэффициент не ниже +0, 75 – +0, 85.
ОЦЕНКА ВАДИДНОСТИ
Валидность (англ. valid – действительный, пригодный, имеющий силу) – это характеристика способности теста измерять действительный уровень психического свойства или качества. Валидность теста показывает в какой мере он измеряет то качество, для оценки которого предназначен. Если высокая надежность теста говорит о том, что тест действительно «что-то» измеряет, то высокая валидность указывает на то, что тест измеряет именно то, что мы хотим. Инвалидные, т. е. не обладающие валидностью, тесты не пригодны для практического использования. Валидность меньше или равна надежности. Валидность не может превышать надежность теста.
Валидизация – это психометрическое исследование, направленное на определение валидности теста или другого измерительного инструмента. Процесс валидизации теста должен представлять собой не сбор доказательств его валидности, а комплекс мер по повышению этой валидности. Кроссвалидизация – процедура дополнительной проверки валидности теста или результатов исследования посредством применения теста на новой выборке или проведения исследования с другими группами испытуемых, а также с применением других методов регистрации зависимых переменных. Статистическим показателем валидности является критерий.
Критерий валидности – это независимый от теста, внешний по отношению к тесту источник информации об измеряемом психическом свойстве. В качестве критерия валидности на практике применяют: 1) объективные социальнодемографические и биографические данные (стаж, образование, профессия, прием и увольнение с работы); 2) показатели успеваемости, чаще всего являющиеся критериальной мерой тестов способностей к обучению, достижений в отдельных дисциплинах, тестов интеллекта; 3) производственные показатели эффективности выполнения отдельных видов профессиональной деятельности, имеющие наибольшее значение при валидизации методик, используемых в профотборе и профориентации; 4) результаты реальной деятельности (рисование, моделирование, музыка, составление рассказа и т. д. ) при испытании тестов общих и специальных способностей, личностных тестов; 5) врачебный диагноз или другие заключения специалистов; 6) контрольные испытания знаний и умений; 7) данные других методик и тестов, валидность которых считается установленной.
Виды валидности: Ø критериальная Ø содержательная Ø конструктная Ø конвергентная Ø дискриминативная Ø очевидная Ø инкрементная Ø достоверность
Критериальная валидность – это комплекс характеристик, отражающий соответствие диагноза и прогноза определенному кругу критериев измеряемой способности. Составными частями критериальной валидности являются текущая и прогностическая валидность. Текущая валидность отражает способность теста различать испытуемых по изучаемому признаку, являющегося объектом исследования в данной методике (например, уровень общих способностей, притязания, вербальный интеллект, тревожность и т. д. ) Анализ текущей валидности имеет отношение к установлению соответствия показателей теста к реальному состоянию психологических особенностей испытуемого в данный момент обследования. Сведения, характеризующие степень обоснованности и статистической надежности развития исследуемой психологической особенности в будущем, составляет прогностическую валидность методики. Заключение об этом типе валидности может быть получено, например, путем сравнения тестовых оценок в одной и той же группе испытуемых спустя определенное время. Основой прогностической валидности является определение того, насколько важен исследуемый признак с точки зрения деятельности испытуемого в будущем с учетом закономерно изменяющихся обстоятельств, перехода на другой уровень развития.
Идея критериальной валидности заключается в определении способности теста служить индикатором или предсказателем строго определенной психической особенности или формы поведения человека. Для измерения этого свойства теста вычисляется коэффициент корреляции тестового результата с внешним критерием. Конкурентная валидность – разновидность критериальной валидности, оценивающей, насколько точно результаты измерения некоторой переменной, полученные с помощью данного теста, соответствуют общепринятому показателю этой переменной, измеряющемуся практически одновременно с применением данного теста в некоей нормативной выборке (например, конкурентная валидность нового теста интеллекта оценивается посредством сравнения с другими авторитетными тестами).
С критериальной связана эмпирическая валидность – совокупность характеристик валидности теста, полученных сравнительно статистическим способом оценивания. Проводится корреляционный или регрессионный анализ связи двух рядов значений – оценок теста и показателей по внешнему параметру изучаемого свойства (или результатов другого теста, валидность которого известна). Корреляционный анализ позволяет выявить степень сходства между экспериментальными показателями. Регрессионный анализ позволяет осуществить прогнозирование динамики развития какого-либо фактора или признака. Итак, критериальная валидность оценивает индивидуальную диагностичность и прогностичность теста.
Содержательная (логическая) валидность характеризует степень репрезентативности (показательности) содержания заданий теста измеряемой области психических свойств. Содержательная валидность означает, что тест является валидным по мнению специалистов. Задания теста оцениваются экспертами по принципу их близости к реальным требованиям. Эксперты выносят суждение о том, охватывает ли тест репрезентативную выборку конкретных навыков и знаний исследуемой области обучения.
Конструктная (концептуальная) валидность - способность результатов теста репрезентировать исследуемое качество. Она устанавливается путем доказательства правильности теоретических концепций, положенных в основу теста. Обращение к концептуальной валидности необходимо в тех случаях, когда результаты тестовых измерений используются не просто для предсказания поведения, а как основа выводов о том, в какой степени испытуемые обладают некоторой определенной психологической характеристикой. Необходимо накапливать информацию об изменчивости оценок, фиксировать и анализировать данные, проливающие свет на отдельные черты и природу изучаемого явления, а также условия, воздействующие на его развитие и проявление.
Важнейшим аспектом концептуальной валидности является внутренняя согласованность, отражающая то, насколько определенные пункты (т. е. задания, вопросы), составляющие материал теста, подчинены основному направлению теста как целого, ориентированы на изучение одного и того же явления. Одним из компонентов концептуальной валидности является валидность по возрастной дифференциации. Она связана с возрастной динамикой исследуемого качества. Особое место в процедуре определения конструктивной валидности занимает факторный анализ, позволяющий строго статистически проанализировать структуру связей показателей исследуемого теста с другими известными и латентными (скрытыми) факторами, выявить общие и специфические для группы сопоставляемых тестов факторы, степень их представленности в результатах, т. е. определить факторный состав и факторные нагрузки результата теста (факторная валидность).
Факторный анализ – комплекс аналитических методов, позволяющий выявить скрытые признаки, а также причины их возникновения и внутренние закономерности их взаимосвязи. Позволяет найти совокупность факторов, наиболее значимых для данных конкретных экспериментальных условий, а также внутренние закономерности их взаимосвязи.
Конвергентная и дискриминативная валидность Конвергентная валидность - степень статистической зависимости (скоррелированности) данного теста с другими тестами (факторами, переменными), с которыми он, согласно теоретическим представлениям, должен быть связан. Дискриминативная валидность - степень статистической независимости данного теста от других тестов (факторов, переменных), с которыми он, согласно теоретическим представлениям, не должен быть связан. Следовательно , отсутствие значимой корреляции с факторами, неизмеряемыми тестом обеспечивает дискриминативную валидность.
Очевидная и инкрементная валидность Инкрементная валидность – практическая ценность методики проведении отбора. Очевидная валидность – представление о тесте, сфере его применения, результативности и прогностической ценности, которая возникает у испытуемого или другого лица, не располагающего специальными сведениями о характере использования и целях методики. Она выступает в качестве фактора, побуждающего испытуемых к обследованию, способствует более серьезному и ответственному отношению к работе по выполнению заданий теста и к заключениям, которое формируют психологи.
Достоверность – это способность теста защищать информацию от мотивационных искажений и есть достоверность теста. Снижение достоверности связано особой установкой обследуемого, отличающийся от той, которая присуща ему в реальном поведении. Типичный прием обеспечения достоверности – это наличие в опросниках шкал лжи. Эти шкалы основываются на феномене социальной желательности – стремлении испытуемых давать в ходе тестирования социально одобряемую информацию. Шкала лжи состоит из вопросов, касающихся незначительных проступков, которые совершаются большинством людей. Если испытуемый набрал по шкале лжи балл выше критического, то его протокол объявляется недостоверным. Достоверность тестирования тесно связана со степенью доверительности общения, которую смог психолог установить с данным испытуемым.
Коэффициент валидности Для вычисления количественного показателя – коэффициента валидности – сопоставляются результаты, полученные применении диагностической методики, с данными, полученными по внешнему критерию у тех же лиц, используются разные виды линейной корреляции (по Спирмену, по Пирсону). Для расчета валидности количество испытуемых должно быть не меньше 50, однако лучше всего более 200. Степень выраженности коэффициента валидности: низким признается коэффициент валидности порядка 0, 20 – 0, 30 средним – 0, 30, - 0, 50 и высоким – свыше 0, 60.
Репрезентативность тестовых норм Любые тестовые заключения при использовании статистических тестовых норм являются относительными. Они зависят от той выборки, на которой производилась стандартизация теста, а также от ситуации обследования. Норма теста – средний диапазон значений на шкале измеряемого свойства характерный для испытуемых определенной группы. Их меняют каждые 5 лет.
Репрезентативность тестовых норм Репрезентативность (от фр. – показательный) тестовых норм – свойство выборочной совокупности представлять генеральную совокупность. Репрезентативность означает, что с некоторой наперед заданной или определенной статистической погрешностью можно считать, что представление в выборочной совокупности распределение изучаемых признаков соответствует их реальному распределению. Ошибка репрезентативности – различие характеристик выборки и генеральной совокупности. Выборка, на которой определяется статистические тестовые нормы, называется выборкой стандартизации. Ее численность, как правило, не меньше 200 человек.
В репрезентативности тестовых норм рассматривают следующие проблемы: 1. Стандартизация шкалы. 2. Статистическая природа тестовых шкал. Как повысить долю постоянного компонента и сократить долю случайного в величине суммарного балла по шкале теста. 3. Проблема меры в психометрике. В дифференциальной психометрике отсутствуют физические эталоны: мы не располагаем индивидами, которые были бы постоянными носителями заданной величины измеряемого свойства. Роль косвенных эталонов в психометрике выполняют сами тесты.
В репрезентативности тестовых норм рассматривают следующие проблемы: 4. Оценка типа распределения тестовых баллов и проверка устойчивости распределения. Используют следующие параметры: среднее арифметическое, среднее квадратическое (стандартное) отклонение, асимметрия, эксцесс, общее неравенство Чебышева, критерий Колмогорова. Общая логика проверки устойчивости распределения основывается на индуктивном рассуждении: если «половинное» (полученное на половине выборки) распределение хорошо моделирует конфигурацию целого распределения, то можно предположить, что это целое распределение будет хорошо моделировать распределение генеральной совокупности. Доказательство устойчивости распределения означает доказательство репрезентативности норм. Традиционный способ доказательства устойчивости сводится к выяснению хорошего приближения эмпирического распределения к какому-либо теоретическому (например, нормальному распределению, хотя может быть и любое другое).
Тестовые эталоны (или тестовые нормы) 1. Сама сырая шкала может иметь практический смысл. 2. Стандартизированные шкалы: Шкала IQ, Т-шкала, шкала стэнай-ов (стандартная девятка), шкала стэнов. З. Процентильная шкала. Процентиль – процент испытуемых из выборки стандартизации, которые получили равный или более низкий балл, чем балл данного испытуемого. Процентили указывают на относительное положение индивида в выборке стандартизации. Их можно рассматривать как ранговые градации, общее число которых равно ста, только (в отличие от ранжирования) отсчет ведется снизу. Поэтому чем ниже процентиль, тем хуже позиция индивида. Процентили отличаются от процентных показателей. Процентные показатели фиксируют качество выполненных заданий. Процентиль – это производный показатель, указывающий на долю от общего числа членов группы. 4. Критериальные нормы. В качестве эталона используется целевой критерий (например, в сфере образования). 5. Социально-психологический норматив. Независим от результатов испытаний и объективно задан. СПН реализуется в совокупности заданий, составляющих тест. Следовательно, сам тест в полном его объеме и является таким нормативом. Для анализа данных относительно их близости к СПН, рассматривается как 100%-ое выполнение теста, испытуемые делятся на 5 подгрупп. Для каждой из подгрупп подсчитывается средний процент правильно выполнивших задания. 10% – наиболее успешные, 20% – близкие к успешным, 40% – средние, 20% – мало успешные, 10% – наименее успешные.
Стандартизация – это единообразие процедуры проведения и оценки выполнения теста. Стандартизация как выработка единых требований к процедуре эксперимента и как определение единого критерия оценки результатов диагностических испытаний. Стандартизация процедуры эксперимента подразумевает регламентацию процедуры, унификацию инструкций, бланков обследования, способов регистрации результатов, условий проведения обследования, характеристика контингентов испытуемых (указывается область применения теста). Благодаря стандартизации методики достигается сопоставимость полученных результатов у разных испытуемых, появляется возможность выражения тестовых оценок в относительных к выборке стандартизации показателях, сопоставления таких оценок в разных тестовых методиках.
Требования, которые необходимо соблюдать при проведении эксперимента: Ø инструкции следует сообщать испытуемым одинаковым образом, как правило, письменно; Ø в случае устных указаний они даются в разных группах одними и теми же словами, понятными для всех, в одинаковой манере; Ø ни одному испытуемому не следует давать никаких преимуществ перед другими; Ø в процессе эксперимента не давать отдельным испытуемым дополнительные пояснения; Ø эксперимент с разными группами следует проводить в одинаковое, по возможности, время дня, в сходных условиях; Ø временные ограничения в выполнении заданий для всех испытуемых должны быть одинаковыми. Обычно авторы методики в руководстве приводят точные и подробные указания по процедуре ее проведения. Формулирование таких указаний составляет основную часть стандартизации новой методики, т. к. только строгое и соблюдение дает возможность сравнить между собой показатели, полученные разными испытуемыми.
Под стандартизацией понимается преобразование нормальной (или искусственно нормализованной) шкалы оценок в новую шкалу, основанную уже не на количественных эмпирических значениях изучаемого показателя, а на оценке его относительного места в распределении результатов в выборке испытуемых. Первоначальный суммарный балл, подсчитанный с помощью ключа, не является показателем, который можно диагностически интерпретировать. Его называют «сырым тестовым баллом» . Для применения тестовых норм необходимо перевести тестовые баллы из «сырой» шкалы в «стандартную» . Эта процедура называется «стандартизация тестового балла» . При простейшей линейной стандартизации сначала высчитывается –Z-показатель (стандартный балл по стандартной шкале Z). X–X* Z = ------ ; Sx где Z (с центром 0 и отклонением 1), Х – сырой балл по тесту, X* – средний балл по выборке стандартизации, Sx – стандартное отклонение по выборке стандартизации. После получения стандартного балла Z можно перевести тестовый балл в любую стандартную тестовую шкалу, принятую в психодиагностике. Например, перевод в шкалу IQ, производится по формуле: X−X IQ = 100 + 15 ⋅ σ В шкале IQ центр равен 100, а отклонение равно 15. Если перевод требуемся в шкалу «стенов» (от англ. «standart ten» – стандартная десятка), то формула пересчета из шкалы Z выглядит так: X−X S = 5, 5 + σ В шкале стенов центр равен 5. 5, а отклонение равно 2. Т-шкала Маккола (MMPI) (центр равен 50, отклонение равно 10): X−X T = 50 + 10 ⋅ σ
Нормирование тестов — составная часть их стандартизации, обычно включает проведение обследования репрезентативной выборки лиц, определение различных уровней выполнения тестов и перевод сырых тестовых оценок в общую систему показателей. Тесты иногда приравнивают, когда существуют различные формы того же самого теста. Приравнивание приводит оценки по всем формам к общей шкале. Существуют 4 основные стратегии приравнивания Первый метод предполагает проведение каждой формы теста на эквивалентной (например, случайной отобранной) группе респондентов, а затем оценки по этим различным формам устанавливаются т. о. , чтобы равные оценки имели равные процентильные ранги (та же самая пропорция респондентов получает ту же или более низкую оценку). При более точном методе все респонденты заполняют все формы теста, и для определения эквивалентности показателей используются уравнения. Третий часто используемый метод связан с проведением общего теста или части теста со всеми респондентами. Эта общая оценочная процедура служит в качестве «связывающего» теста, который позволяет все последующие измерения привязывать к единой шкале. При проведении обследования с использованием различных форм одного и того же теста в каждую включаются несколько «анкерных заданий» , выполняющих функцию такого «связывающего» теста.
Прямо летают только утки, но и те живут недолго…
Пиза н ская башня - колокольная башня, часть ансамбля городского собора Санта. Мария Ассунта в ительянском городе Пиза. Автором проекта - Боннано Пизано. Башня имеет 294 ступеньки. Высота башни составляет 56, 7 м, диаметр основания - 15, 54 м. Текущий наклон составляет 3, 54 градуса. Всемирное наследие ЮНЕСКО, объект № 395 (30 декабря 1986 г. ). Строительство башни продолжалось с 9 августа 1173 по 1360 г. (почти 200 лет). Башня получила прозвище «Падающая башня» и всемирную известность благодаря тому, что она сильно наклонена и как бы «падает» . После строительства третьего этажа (1178) башня наклонилась. Башня проектировалась вертикальной, наклон связан с действием таких факторов, как мягкость почвы, ненадежность или несоразмерность фундамента, размытие грунта под башней в процессе строительства.
БЛАГОДАРЮ ЗА ВНИМАНИЕ
Литература 1. Айзенк Г. , Вильсон Г. Как измерить личность. – М. : Когито-центр, 2000. – 284 с. 2. Анастази А. , Урбина С. Психологическое тестирование. – СПб. : Питер, 2003. – 688 с. 3. Бодалев А. А. , Столин В. В. Общая психодиагностика. – СПб. : Речь, 2006. – 440 с. 4. Бурлачук Л. Ф. , Морозов С. М. Словарь-справочник по психодиагностики. – СПб. : Изд-во «Питер» , 2000. – 528 с. 5. Бурлачук Л. Ф. Психодиагностика: Учебник для вузов. 2 -е изд. / Бурлачук Л. Ф. // СПб: Питер, 2008. - 384 с. 6. Гусев А. Н. , Измайлов Ч. А. , Михалевская М. Б. Измерение в психологии: Общий психологический практикум. М. : УМК «Психология» , 2005. – 320 с. 7. Зоткин Н. В. Основы психодиагностики. – Самара: «Универс-групп» , 2007. – 208 с. 8. Клайн П. Справочное руководство по конструированию тестов. – Киев: ПАН Лтд, 1994. – 288 с. 9. Колосницына М. Ю. Современные психодиагностические методики в практике психологического отбора кадров: Монография/ М. Ю. Колосницына. – М. : «Печатный дом» , 2012. – 286 с. 10. Колосницына М. Ю. Психологическая диагностика типа личности по рисунку: монография/ М. Ю. Колосницына, Алифанова Л. Г. , Лабутина В. Е. – М. : «Печатный дом» , 2012. – 200 с. 11. Носс И. Н. Профессиональная психодиагностика: Психологический отбор персонала. – М. : Ппсихотерапия, 2009. – 464 с. 12. Практикум по общей, экспериментальной и прикладной психологии / Под ред. А. А. Крылова, С. А. Маничева. – СПб. : Питер, 2002. – 560 с. 13. Психометрика: Введение / Р. Майкл Фер, Верн Р. Бфкарак; перевод с англ. Науменко А. С. , Попова А. Ю. ; Под ред. Батурина Н. А. . – Челябинск: ЮУр. ГУ, 2010. – 445 с. 14. Ричи Ш. , Мартин П. Управление мотивацией. 12 факторов. М. : Юнити-Дана, 2008. – 400 с. 15. Сугоняев К. В. О психометрическом качестве тестовых «брендов» . Сборник материалов военно-научной конференции «Развитие теории и практики профессионального психологического отбора в вооруженных силах нового облика» . – М. : Военная академия генерального штаба вооруженных сил Российской Федерации, 2012. – С. 228 – 253. 16. Шмелев А. Г. . Психодиагностика личностных черт. – СПб. : Речь, 2002. – 480 с. 17. Шнейдер Л. Б. Основы психодиагностики. – М. : МОСУ, 1995. – 206 с. 18. Geisinger, K. F. Worldwide test reviewing at the beginning of the twenty first century // Int. J. of Testing, 2012, V. 12, N. 2, р. 103 -107. 19. Hale, М. History of employment testing // Ability Testing: Uses, Consequences, and Controversies. Pt. 2: Documentation Section / Eds. A. K. Wigdor, W. R. Gardner. – Washington, DS: National Academy Press, 1982. – р. 3 – 38.
Список литературы Зароченцев К. Д. , Худяков А. И. Экспериментальная психология: учеб. — М. : Изд-во Проспект, 2005. С. 325 В. С. Ким. «Тестирование учебных достижений» . – Уссурийск: УГПИ, 2007. Рибо Т. Современная германская психология, Спб. , 1895. С. 569 Р. Корсини, А. Ауэрбах. «Психологическая энциклопедия» . М. : Изд-во Просфещение , 2008. С. 758 Морозов А. В. «Психология как наука» учеб. — М. : Изд-во Дело 2009 С. 586 Ждан А. История психологии. От Античности до наших дней. — М. : Изд-во Колос 2006 с. 684 Луи Терстоун (Vectors of Mind: Multiple-factor Analysis for the Isolation of Primary Traits. Chicago, 1935; Primary Mental Abilities. 1938; A factorial study of perception // Psychometric Monogr. 1944, № 7). Вместе со своими сотрудниками им было создано около 30 шкал для изучения социальных установок (The Measurement of Attitude. Chicago, 1929 (совм. с Chave E. J. ); The Measurement of Values. Chicago, 1959).
Большинство процедур анализа заданий предполагают: а) регистрацию числа испытуемых, давших правильный или неправильный ответ на определенное задание; б) корреляцию отдельных заданий с др. переменными; в) проверку заданий на систематическую ошибку (или «необъективность» ). Долю испытуемых, справившихся с заданием теста, наз. , возможно не вполне точно, трудностью задания. Способ улучшить задания — подсчитать процент выбора каждого варианта ответа на задание с множественным выбором; полезно также вычислить средний тестовый показатель испытуемых, выбравших каждый вариант. Эти процедуры позволяют контролировать, чтобы варианты ответов выглядели правдоподобными для неподготовленных испытуемых, но не казались правильными наиболее знающим. Отбор заданий, которые сильно коррелируют с показателем полного теста, максимизирует надежность как внутреннюю согласованность теста, тогда как отбор заданий, которые сильно коррелируют с внешним критерием, максимизирует его прогностическую валидность. Описательная аналоговая модель этих корреляций называется характеристической кривой задания; в типичных случаях — это график зависимости доли испытуемых, правильно отвечающих на вопрос, от их суммарного тестового показателя. Для эффективных заданий эти графики представляют собой положительные восходящие кривые, не снижающиеся по мере прироста способности.