Надежность и валидность методики

РефератПомощь в написанииУзнать стоимостьмоей работы

Надежность и валидность методики (реферат, курсовая, диплом, контрольная)

Итак, введем определения базовых понятий, которые необходимы для построения логически связного контекста научного подхода для измерения эффективности методов профотбора. Это понятия «надежность» и «валидность».

Надежность теста — это устойчивость результатов теста к воздействию со стороны различных случайных факторов-помех, т. е. помехоустойчивость.

Существует великое множество этих неконтролируемых и варьирующих факторов, и они в каждой конкретной ситуации воздействуют в непредсказуемой комбинации, которая приводит к появлению ошибки измерения, или стохастической погрешности истинного значения тестового балла. Надежность измерения — хорошо известное и изученное свойство в рамках физической метрологии. Для простоты поясним «надежность» на примере физического измерения линейных размеров земельных участков. Если мы берем для измерения легкую и растяжимую резинку (вместо более твердой металлической рулетки), то она оказывается в большей степени подверженной воздействию ветра, изгибов поверхности земли, силе натяжения со стороны двух участников, которые держат ее с двух концов, и т. п., т. е. воздействию со стороны множества факторов, которые вносят погрешность в результат измерения. Примеры факторов-помех, которые воздействуют на испытуемого в момент выполнения им тестовых заданий: посторонние отвлекающие звуки речи и шумы, различия в освещенности, мелькание каких-то посторонних предметов в фоновом зрительном поле, вибрация, возможные сбои в электросети — все, что мешает концентрации внимания на задании. От испытуемого к испытуемому и от сеанса к сеансу различаются освещенность, время суток, время, отведенное организатором тестирования для вводной информации (устной части инструкции), интонации, с которыми произносится вводная информация, и множество других случайных факторов, которые также приводят к ошибке измерения, разбросу значений вокруг истинного показателя.

А вот страх перед самой ситуацией тестирования, также затрудняющий концентрацию внимания на смысле задания, — это уже фактор другого типа, который приводит к изменению результатов в определенном направлении, порождая систематический искажающий эффект. Для подобных факторов в тестологии используется другой термин — «валидность»^[1].

Парадокс: оценочная процедура может быть надежной, но не имеющей никакого практического смысла, когда она измеряет что-то такое, что не имеет никакого отношения к эффективности деятельности. Например, она надежно измеряет творческий потенциал человека (вообще-то чрезвычайно значимое качество с точки зрения абстрактного гуманизма), но на конкретном производстве этот потенциал не задействован и не влияет никак на производительность труда, а банальная концентрация внимания вкупе с ответственным отношением к делу — вот что определяет качество и количество результатов труда.

Валидность — это мера соответствия результатов методики оценивания заявленной цели оценивания, которая лишь в частном случае сводится к тому свойству (или свойствам), которое оценивается (измеряется). Иными словами, это пригодность методики для достижения цели, которая в общем случае не сводится к измерению свойств (компетенций, или профессионально важных качеств), а состоит в прогнозировании эффективности деятельности обследованных кандидатов.

Причем в этом контексте под оцениванием мы имеем в виду и квалификационное тестирование, и психодиагностическое тестирование, и применение качественных методов психодиагностики, и применение внешних и включенных экспертных оценок — любые оценочные процедуры.

Цель практически-ориентированного оценивания персонала (тестирования, в частности, но в общем случае ЛЮБОЙ оценочной процедуры), как правило, состоит в прогнозе определенного социально значимого поведения, которое называется критериальным поведением", а измеряемое свойство считается причиной критериального поведения. На производстве.

критериальное поведение — это высококачественная, эффективная производственная деятельность работника. Если оценивание не выявляет то профессионально важное качество (компетенцию), которое является причиной критериального поведения (в частности эффективной профессиональной деятельности), то в этом случае говорят, что оценочно-отборочная процедура НЕ обладает валидностью, НЕ способна прогнозировать критериальное поведение.

Основной методический прием для измерения надежности — это повторное проведение тестирования (оценивания) на том же самом контингенте испытуемых с последующим расчетом корреляции результатов между первым и вторым тестированием (тест-ретест устойчивость). Основной статистический прием для измерения валидности, как известно, заключается в расчете коэффициента корреляции (статистической связи) между результатами оценочной процедуры и показателем производительности труда^[2]. Автор не будет приводить в этой статье всем известные (и доступные) формулы, в частности формулу линейной корреляции Пирсона (этот коэффициент включен в состав статистических функций сверхпопулярпой программы обработки офисных данных — MS Excel). Более важной представляется другая задача — помочь читателю понять логическую структуру данных, связанных с проверкой валидности и предсказанием эффективности деятельности.

В табл. 7.2 даются приближенные интервальные значения возможных показателей эмпирической валидности для разных оценочных процедур, применяемых для отбора персонала (в этой таблице автор попытался объединить собственный опыт с данными, взятыми из различных литературных источников).

Для валидизации оценочных процедур лучше, если есть такая возможность, построить комплексный критериальный показатель, в котором используется сразу несколько различных показателей KPI (key performance indicators), или по-русски КПЗ (ключевых показателей эффективности).

В табл. 7.2 особого комментария заслуживает категория «квалификационные тесты». В настоящее время это не просто тесты профессиональных знаний с выбором ответа, похожие на образовательные тесты. Под квалификационными тестами мы понимаем такие, которые включают задания, моделирующие профессиональные задачи (кейсы). В зарубежной литературе эти тесты называются «тестами ситуационных суждений» (SJT), а иногда «ситуационно-ролевым тестами»: дается краткое описание какой-то профессиональной проблемной ситуации и варианты возможного поведения (возможных решений). Самый известный пример ситуационных тестовых заданий — это решение «дорожных ситуаций» в тестах на знание правил дорожного движения.

Сравнительные интервальные оценки эмпирической валидности для различных оценочных процедур

Оценочная процедура.	Примерный интервал эмпирической валидности (коэффи I тента коррсляции).
Интервью (оценки интервьюера без специальной подготовки в области ассессмента).	0,1−0,2.
Тест-опросники личностные (характерологические, мотивационные).	0,2−0,4.
Проективные методики.	0,3−0,5.
Тесты способностей и интеллекта.	0,4−0,6.
Оценки включенных наблюдателей («360 градусов»).	0,3−0,б.
Анализ документов, но кандидату (данных резюме, квалификационных свидетельств, рекомендаций и т.н.).	0,3−0,7.
Тесты квалификационные.	0,5−0,7.
Ассессмент (деловые игры, экспертные оценки имитационных упражнений).	0,4−0,7.
Производственные (количественные) данные эффективности (отдельные KPI).	0,6−0,9.

Завершая краткое введение психометрических понятий «надежность» и «валидность», подчеркнем, что в практике профотбора очень часто эти понятия и соответствующие процедуры и показатели до сих пор банально просто путают. Проводят гест-ретест процедуру для какой-то методики типа «тест-опросник» и получают коэффициент корреляции порядка 0,7 (вполне обычный для тест-опросников), но интерпретируют этот показатель как показатель валидности, в то время как показатель валидности (корреляция результатов тест-опросника с внешним критерием эффективности деятельности) остается вообще не измеренным, а он, если бы его измерили, не превышает 0,25. Кроме того, малоизвестным остается и такой «психометрический нюанс»: рост надежности методики не всегда приводит к росту валидности, напротив, при очень высоких показателях надежности валидность вообще парадоксальным образом снижается. Вот какой-то наивный пользователь (или малоквалифицированный разработчик) хвастается, что получил для своего квалификационного теста надежность на уровне 0,97. Но… опять-таки при этом не производится измерение валидности. А валидность при таком значении надежности, увы, редко превышает 0,4. Почему? Все дело в том, что высокая надежность достигается, как правило, за счет так называемого сужения области валидности — за счет предъявления однотипных, слишком однородных (похожих друг на друга) тестовых заданий, которые не отражают всего разнообразия производственных ситуаций в реальной деятельности работника.

[1] Для тех, кому плохо дается усвоение этого термина, подсказкой может служить такойобщеизвестный антоним как «инвалид» — человек, непригодный в силу физических недостатков к определенной деятельности. Так и «инвалидный тест» — это тест, непригодныйдля данных целей.
[2] Во многих современных работах для батареи тестовых показателей рассчитываетсякоэффициент не парной, а множественной корреляции (на базе построения уравнения множественной регрессии), но в данной главе автору не хотелось бы погружать читателя, слабознакомого с математической статистикой, в такие подробности, тем более что и в случаемножественной регрессии моделируется тот же предиктор (предсказуемая переменная) —вероятность попадания работника в группу эффективных.

Показать весь текст

Заполнить форму текущей работой