Показатели эффективности тестового инструментария Валидность Надежность

Скачать презентацию Показатели эффективности тестового инструментария Валидность Надежность

Валидность теста.ppt

Количество слайдов: 18

Показатели эффективности тестового инструментария • • Валидность Надежность Дискриминативность Объективность

Валидность теста тест называется валидным, если он измеряет именно то, для измерения чего предназначен

Валидность внешняя – соответствие результатов психодиагностики, проводимой посредством данной методики, независимым от методики внешним признакам, относимым к субъекту обследования Валидность внутренняя соответствие заданий, субтестов, содержащихся в данной методике определению оцениваемого ею психологического свойства

Очевидная валидность - описывает представление о тесте, сложившиеся у испытуемого. Конкурентная валидность оценивается по корреляции разработанного теста с другим тестом, измеряющим то же самое свойство, валидность которого относительно измеряемого параметра установлена.

Прогностическая валидность устанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеряемое свойство, но в более позднее время. • Например, прогностическая валидность теста интеллекта может быть показана корреляцией его показателей, полученных у испытуемого в возрасте 10 лет, с академической успеваемостью в период окончания средней школы.

Содержательная валидность определяется через подтверждение того, что задания теста адекватно отражают аспекты изучаемого психического феномена • для определения содержательной валидности подбираются эксперты, которые оценивают, насколько каждое задание теста соответствует сути измеряемого методикой психологического свойства. В методику включаются только те задания, которые получают высокую (в среднем) оценку экспертов на соответствие диагностируемому параметру.

Конструктная валидность теста демонстрируется полным, насколько это возможно, описанием переменной, для измерения которой предназначается тест (эмпирическим подтверждением того, что в заданных условиях тест дает теоретически ожидаемые результаты)

Понятие конструктной валидности, ввели Кронбах и Мил, пытаясь решить проблему отбора критериев при валидизации теста. Они подчёркивали, что во многих случаях ни один отдельно взятый критерий не может служить для валидизации отдельного теста. При проверке конструктной валидности можно прибегнуть к методу контрастных групп (результаты людей, у которых ожидается высокий уровень выраженности данного свойства и низкий либо средний уровень, должны значимо различаться). Также методом факторного анализа можно подтвердить, что разработанные задания действительно относятся к соответствующим шкалам опросника

• Инкрементная валидность имеет ограниченное значение и относится к случаю, когда один тест из батареи тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батареи.

Надежность теста • Говорит о том, что результаты тестирования неслучайны (потенциально повторяемы): • согласованность результатов, полученных при каждом повторном выполнении теста одним и тем же испытуемым, с результатами его первого тестирования. • Показателем надежности выступает коэффициент корреляции первого и второго тестирования

Методы определения надежности • тест-ретестовая надежность подразумевает повторное выполнение одного и того же теста и корреляционное сравнение полученных результатов. • разделенная надежность определяется при делении теста на две части и сравнение результатов выполнения двух частей по отдельности. • эквивалентная надежность выявляется путем предъявления испытуемому теста и его альтернативного варианта. Полученные результаты также сравниваются между собой.

Метод ретеста • Тестирование проводится на одной и той же выборке два раза через определенный промежуток времени. • «+» : в наибольшей степени соответствует сути понятия «надежность теста» • «-» : 1) требует временных затрат (до полугода); 2) проблема определения адекватного временного промежутка (испытуемые должны забыть свои первые ответы, но психологически не должны измениться); 3) трудно точно воспроизвести ту же самую ситуацию тестирования во второй раз (неизбежны отклонения, что повлияет на показатель надежности)

Метод расщепления (разделенная надежность ) • Содержание теста делится на две части (эквивалентные по объему и содержанию) и поочередно предъявляются испытуемым. Коррелируются результаты первой и второй части. «+» - нет временного промежутка, не надо повторно собирать испытуемых «-» : сложность возникает с соблюдением эквивалентности частей теста

Метод параллельного тестирования (эквивалентная надежность ) • Испытуемым предъявляется два эквивалентных теста и результаты коррелируются «+» - нет временного промежутка, не надо повторно собирать испытуемых, «-» - очень сложно разработать абсолютно эквивалентные варианты, особенно для личностных опросников

Дискриминативность – «чувствительность» теста • 1) показывает, насколько тест позволяет дифференцировать результаты отдельных испытуемых (определяется через показатель «дельта» Фергюсона); • 2) для каждого задания - показывает, насколько задание вносит в дифференциацию испытуемых свой вклад (если все испытуемые отвечают на задание одинаково, оно неэффективно)

Дельта Фергюсона δ = k/(k-1)(1 - Σfi 2/N 2), • к – кол-во градаций значений показателя, • N – объем выборки стандартизации, • fi - частота i-той градации (кол-во испытуемых)

Вариация в ответах испытуемых, характеризующая дискриминативность измерительной процедуры, может обусловливаться тремя факторами: • Индивидуальными различиями в степени выраженности измеряемого показателя • Индивидуальными различиями в понимании значения вопроса, • Индивидуальными различиями в степени трудности (легкости) принятия решения об ответе

Психометрический парадокс При более высоком показателе дискриминативности теста показатель надежности будет более низким: стремясь к дискриминативности, теряем в надежности методики и наоборот