Надежность и валидность методики
Завершая краткое введение психометрических понятий «надежность» и «валидность», подчеркнем, что в практике профотбора очень часто эти понятия и соответствующие процедуры и показатели до сих пор банально просто путают. Проводят гест-ретест процедуру для какой-то методики типа «тест-опросник» и получают коэффициент корреляции порядка 0,7 (вполне обычный для тест-опросников), но интерпретируют этот… Читать ещё >
Надежность и валидность методики (реферат, курсовая, диплом, контрольная)
Итак, введем определения базовых понятий, которые необходимы для построения логически связного контекста научного подхода для измерения эффективности методов профотбора. Это понятия «надежность» и «валидность».
Надежность теста — это устойчивость результатов теста к воздействию со стороны различных случайных факторов-помех, т. е. помехоустойчивость.
Существует великое множество этих неконтролируемых и варьирующих факторов, и они в каждой конкретной ситуации воздействуют в непредсказуемой комбинации, которая приводит к появлению ошибки измерения, или стохастической погрешности истинного значения тестового балла. Надежность измерения — хорошо известное и изученное свойство в рамках физической метрологии. Для простоты поясним «надежность» на примере физического измерения линейных размеров земельных участков. Если мы берем для измерения легкую и растяжимую резинку (вместо более твердой металлической рулетки), то она оказывается в большей степени подверженной воздействию ветра, изгибов поверхности земли, силе натяжения со стороны двух участников, которые держат ее с двух концов, и т. п., т. е. воздействию со стороны множества факторов, которые вносят погрешность в результат измерения. Примеры факторов-помех, которые воздействуют на испытуемого в момент выполнения им тестовых заданий: посторонние отвлекающие звуки речи и шумы, различия в освещенности, мелькание каких-то посторонних предметов в фоновом зрительном поле, вибрация, возможные сбои в электросети — все, что мешает концентрации внимания на задании. От испытуемого к испытуемому и от сеанса к сеансу различаются освещенность, время суток, время, отведенное организатором тестирования для вводной информации (устной части инструкции), интонации, с которыми произносится вводная информация, и множество других случайных факторов, которые также приводят к ошибке измерения, разбросу значений вокруг истинного показателя.
А вот страх перед самой ситуацией тестирования, также затрудняющий концентрацию внимания на смысле задания, — это уже фактор другого типа, который приводит к изменению результатов в определенном направлении, порождая систематический искажающий эффект. Для подобных факторов в тестологии используется другой термин — «валидность»[1].
Парадокс: оценочная процедура может быть надежной, но не имеющей никакого практического смысла, когда она измеряет что-то такое, что не имеет никакого отношения к эффективности деятельности. Например, она надежно измеряет творческий потенциал человека (вообще-то чрезвычайно значимое качество с точки зрения абстрактного гуманизма), но на конкретном производстве этот потенциал не задействован и не влияет никак на производительность труда, а банальная концентрация внимания вкупе с ответственным отношением к делу — вот что определяет качество и количество результатов труда.
Валидность — это мера соответствия результатов методики оценивания заявленной цели оценивания, которая лишь в частном случае сводится к тому свойству (или свойствам), которое оценивается (измеряется). Иными словами, это пригодность методики для достижения цели, которая в общем случае не сводится к измерению свойств (компетенций, или профессионально важных качеств), а состоит в прогнозировании эффективности деятельности обследованных кандидатов.
Причем в этом контексте под оцениванием мы имеем в виду и квалификационное тестирование, и психодиагностическое тестирование, и применение качественных методов психодиагностики, и применение внешних и включенных экспертных оценок — любые оценочные процедуры.
Цель практически-ориентированного оценивания персонала (тестирования, в частности, но в общем случае ЛЮБОЙ оценочной процедуры), как правило, состоит в прогнозе определенного социально значимого поведения, которое называется критериальным поведением", а измеряемое свойство считается причиной критериального поведения. На производстве.
критериальное поведение — это высококачественная, эффективная производственная деятельность работника. Если оценивание не выявляет то профессионально важное качество (компетенцию), которое является причиной критериального поведения (в частности эффективной профессиональной деятельности), то в этом случае говорят, что оценочно-отборочная процедура НЕ обладает валидностью, НЕ способна прогнозировать критериальное поведение.
Основной методический прием для измерения надежности — это повторное проведение тестирования (оценивания) на том же самом контингенте испытуемых с последующим расчетом корреляции результатов между первым и вторым тестированием (тест-ретест устойчивость). Основной статистический прием для измерения валидности, как известно, заключается в расчете коэффициента корреляции (статистической связи) между результатами оценочной процедуры и показателем производительности труда[2]. Автор не будет приводить в этой статье всем известные (и доступные) формулы, в частности формулу линейной корреляции Пирсона (этот коэффициент включен в состав статистических функций сверхпопулярпой программы обработки офисных данных — MS Excel). Более важной представляется другая задача — помочь читателю понять логическую структуру данных, связанных с проверкой валидности и предсказанием эффективности деятельности.
В табл. 7.2 даются приближенные интервальные значения возможных показателей эмпирической валидности для разных оценочных процедур, применяемых для отбора персонала (в этой таблице автор попытался объединить собственный опыт с данными, взятыми из различных литературных источников).
Для валидизации оценочных процедур лучше, если есть такая возможность, построить комплексный критериальный показатель, в котором используется сразу несколько различных показателей KPI (key performance indicators), или по-русски КПЗ (ключевых показателей эффективности).
В табл. 7.2 особого комментария заслуживает категория «квалификационные тесты». В настоящее время это не просто тесты профессиональных знаний с выбором ответа, похожие на образовательные тесты. Под квалификационными тестами мы понимаем такие, которые включают задания, моделирующие профессиональные задачи (кейсы). В зарубежной литературе эти тесты называются «тестами ситуационных суждений» (SJT), а иногда «ситуационно-ролевым тестами»: дается краткое описание какой-то профессиональной проблемной ситуации и варианты возможного поведения (возможных решений). Самый известный пример ситуационных тестовых заданий — это решение «дорожных ситуаций» в тестах на знание правил дорожного движения.
Сравнительные интервальные оценки эмпирической валидности для различных оценочных процедур
Оценочная процедура. | Примерный интервал эмпирической валидности (коэффи I тента коррсляции). |
Интервью (оценки интервьюера без специальной подготовки в области ассессмента). | 0,1−0,2. |
Тест-опросники личностные (характерологические, мотивационные). | 0,2−0,4. |
Проективные методики. | 0,3−0,5. |
Тесты способностей и интеллекта. | 0,4−0,6. |
Оценки включенных наблюдателей («360 градусов»). | 0,3−0,б. |
Анализ документов, но кандидату (данных резюме, квалификационных свидетельств, рекомендаций и т.н.). | 0,3−0,7. |
Тесты квалификационные. | 0,5−0,7. |
Ассессмент (деловые игры, экспертные оценки имитационных упражнений). | 0,4−0,7. |
Производственные (количественные) данные эффективности (отдельные KPI). | 0,6−0,9. |
Завершая краткое введение психометрических понятий «надежность» и «валидность», подчеркнем, что в практике профотбора очень часто эти понятия и соответствующие процедуры и показатели до сих пор банально просто путают. Проводят гест-ретест процедуру для какой-то методики типа «тест-опросник» и получают коэффициент корреляции порядка 0,7 (вполне обычный для тест-опросников), но интерпретируют этот показатель как показатель валидности, в то время как показатель валидности (корреляция результатов тест-опросника с внешним критерием эффективности деятельности) остается вообще не измеренным, а он, если бы его измерили, не превышает 0,25. Кроме того, малоизвестным остается и такой «психометрический нюанс»: рост надежности методики не всегда приводит к росту валидности, напротив, при очень высоких показателях надежности валидность вообще парадоксальным образом снижается. Вот какой-то наивный пользователь (или малоквалифицированный разработчик) хвастается, что получил для своего квалификационного теста надежность на уровне 0,97. Но… опять-таки при этом не производится измерение валидности. А валидность при таком значении надежности, увы, редко превышает 0,4. Почему? Все дело в том, что высокая надежность достигается, как правило, за счет так называемого сужения области валидности — за счет предъявления однотипных, слишком однородных (похожих друг на друга) тестовых заданий, которые не отражают всего разнообразия производственных ситуаций в реальной деятельности работника.
- [1] Для тех, кому плохо дается усвоение этого термина, подсказкой может служить такойобщеизвестный антоним как «инвалид» — человек, непригодный в силу физических недостатков к определенной деятельности. Так и «инвалидный тест» — это тест, непригодныйдля данных целей.
- [2] Во многих современных работах для батареи тестовых показателей рассчитываетсякоэффициент не парной, а множественной корреляции (на базе построения уравнения множественной регрессии), но в данной главе автору не хотелось бы погружать читателя, слабознакомого с математической статистикой, в такие подробности, тем более что и в случаемножественной регрессии моделируется тот же предиктор (предсказуемая переменная) —вероятность попадания работника в группу эффективных.