Точность прогноза.
Психология труда
Как же определить параметры S и F, т. е. не вероятности, а размеры выигрыша и проигрыша в ситуации выбора работника (платежи за соответствующие исходы)? Тут психологу-тестологу (специалисту по профотбору) явно потребуется помощь экономиста, ибо в разных организациях успех и неудача складываются по-разному. Все было бы проще, если бы успех S сводился лишь к доходности операций, выполненных… Читать ещё >
Точность прогноза. Психология труда (реферат, курсовая, диплом, контрольная)
Особый вопрос — измерения точности прогноза на основе методов профотбора. До сих пор даже среди вполне грамотных специалистов, в том числе кандидатов и докторов наук, весьма распространено мнение, что коэффициент валидности (коэффициент корреляции) надо возводить в квадрат, чтобы узнать точность прогноза. При таком подходе коэффициенту корреляции между тестом и критерием в размере 0,3 якобы соответствует 9%-ная точность прогноза. Согласно другому мнению коэффициент валидности буквально соответствует вероятности прогнозируемого события, т. е. коэффициент валидности, равный 0,3, означает ровно 30%-ную точность прогноза[1]. Ниже мы постараемся объяснить с содержательной и формально-математической стороны, почему обе точки зрения неверны и могут повлечь серьезные ошибки в управлении кадрами.
Путаница с возведением в квадрат во многом вызвана смешением тех принципов математической статистики, которые используются для анализа надежности, и несколько иных принципов, пригодных для анализа валидности. Квадрат корреляции — это классическая мера соответствия измеренного и истинного значения тестового балла (см. подробнее об измерении надежности любой учебник по психометрике, в частности [5; 6]). А под истинным баллом чаще всего даже специалисты склонны подразумевать «идеальный показатель валидности». На самом деле практическая валидность — это мера соответствия теста не истинной шкале измеряемого свойства, а шкале принимаемых решений. Эта шкала является, как правило, вовсе не интервальной и даже не порядковой, а номинальной, т. е. различительной только с точностью до категорий принимаемых решений. Рассмотрим ниже ситуацию, когда таких категорий всего две: «выше точки отсечения» {hire) и «ниже точки отсечения» {reject).
В свое время еще в 1939 г. в «Журнале прикладной психологии» вышла статья, которой было суждено стать одной из самых цитируемых статей в мире в области тестологии и индустриальной прикладной психологии 1101. Ее авторы — X. Тейлор и Дж. Рассел — привели убедительные аргументы, раскрывшие ошибочность связывания точности прогноза с корреляционным отношением (квадратом коэффициента корреляции). С тех пор диаграммы и таблицы Тейлора — Рассела опубликованы во множестве учебников и руководств по психологическому и профессиональному тестированию [1; 4; 9].
Рис. 7.1. Диаграммы Тейлора — Рассела (1939), разбивающие эллипсоиды рассеяния на четыре области, соответствующие комбинациям двух бинарных переменных: «нанять —отказать по результатам теста» (hire-reject) и «успех — неудача в профессиональной деятельности» (success-failure)
На более узком эллипсоиде рис. 7.1 (правая диаграмма), соответствующем более плотной корреляции между тестовым баллом и критерием (эффективность деятельности), больше точек попадает в первый и третий квадранты, соответствующие адекватному решению (точному прогнозу) на основе теста: приему на работу (hire) успешных работников (success) и отказу в работе (reject) неуспешным работникам (failure). Также следует предупредить читателя от того, чтобы он не перепутал формальные буквенные обозначения А, В, С, D в этой диаграмме и в табл. 7.1. Здесь они никак не соответствуют градациям в принятии решения, а обозначают возможные четыре комбинации двух бинарных признаков (двух логических переменных). Также следует пояснить, что клеточка С в данном случае соответствует чисто гипотетической возможности установить факт успеха в деятельности тех сотрудников, которые НЕ прошли профотбор (не были наняты). Как мы поясняли выше, это возможно лишь в случае применения четырехступенчатой системы оценивания кандидатов внутри компании. Или в тех случаях, когда применяется чисто исследовательская схема — в течение экспериментального периода принимаются все кандидаты, включая и тех, кому следовало бы отказать (или в рамках более широкого исследования с привлечением данных о производительности тех работников, которые не приняты в одной компании, но зачислены в другую).
Итак, в подавляющем большинстве ситуаций профотбора нам нужно принимать на основе методики (теста) решение, которое трансформирует шкалу тестовых баллов в бинарную переменную (или дихотомическую категорию) — «принять — отказать». Нам важно добиться не количественной точности в прогнозе (какова именно будет производительность каждого принятого работника в параметрах продукции в единицу времени), а лишь качественной точности, что можно сформулировать так: «принятый нами работник оказался успешным» (например, успешно прошел испытательный срок). Доля таких работников (удачно принятых на работу) от всех принятых на работу была названа Тейлором и Расселом термином «коэффициент успеха» (SC — success coefficient). На рис. 7.1 коэффициент успеха, т. е.
Кроме коэффициента корреляции между тестом и критерием, Тейлор и Рассел рассмотрели еще две переменные, от которых зависит коэффициент успеха, — это «базовый уровень» (BR — base rate) и «отношение отбора» (SR — selection ratio), которые могут быть определены через частоты событий в четырехклеточной таблице следующими формулами:
где М = Л+ Б + С + ?) — общее число обследованных.
Содержательно переменная «базовый уровень» (BR) отражает так называемую легкость профессии: чем больше BR, тем выше вероятность (при прочих равных условиях), что любой кандидат добьется успеха при выполнении данной профессиональной работы. BR отражает успешность профессиональной адаптации, которая имеется ДО всякого применения теста как инструмента отбора, сужающего круг кандидатов. Для совсем легких профессий применение тестов не имеет смысла, так как почти все, кто берется за эту работу, справляются. Горизонтальная линия на диаграмме, рассекающая эллипсоид на верхнюю и нижнюю половины, при легкой профессии проходит очень низко, так что область Success начинает доминировать независимо от того, где пройдет «линия отбора» (вертикальная линия). Для очень трудных профессий опять-таки тест не слишком нужен: горизонтальная линия поднимается так высоко, что почти все кандидаты «проваливаются» — увольняются после испытательного срока, так как не демонстрируют требуемых производственных показателей (не дают компании дохода, а приносят больше убытков).
Содержательно переменную «отношение отбора» (SR) было бы правильнее называть «коэффициентом отсева» (величина 1 — SR): чем больше кандидатов отсеивается (чем ниже коэффициент отбора), тем правее оказывается расположенная вертикальная «линия отбора» на рис. 7.1, тем выше доля успешных среди принятых.
На основании связей между VC (коэффициентом валидности), BR (легкостью профессии), SR (отношением отбора) и SC (коэффициентом успеха) Тейлор и Рассел в своей статье поместили громоздкие трехмерные таблицы (они заняли много страниц в журнале), в которых выходной переменной-функцией, зависимой от трех других, оказалась именно переменная SC (коэффициент успеха), значения которой разместились в клеточках таблицы. При этом связь SR с указанными тремя аргументами, включая валидность VC, оказалась нелинейной: авторы стремились рассчитать вероятность критериального события с максимальной точностью и вводили нелинейные поправки, связанные с моделью нормального распределения[2]
двух основных переменных — тестового балла и критерия (производительности труда)[3]. Таблицы оказались настолько громоздкими, что авторы многих учебников приводят эти таблицы либо с большими сокращениями, либо в приложениях [4]. Несмотря на громоздкий результат, Тейлору и Расселу удалось добиться главного — они доказали, что вероятность успеха в прогнозировании SC на основании тестов значительно превышает уровень 0,5 — уровень случайного угадывания бинарной переменной (при BR = 0,5), или, более точно выражаясь, всегда превышает базовый уровень BR, когда коэффициент валидности теста VC оказывается хотя бы незначительно выше нуля. Это превышение точности прогноза над точностью случайного угадывания (или прогноза без применения теста) получило название инкрементной валидности (добавленной валидности).
Пожалуй, первыми, кто решил усомниться в правильности расчетов Тейлора — Рассела, стали Норман Абрахамс и его соавторы [7]. Для расчета валидности они применили не линейный коэффициент Пирсона, а точечно-бисериальный коэффициент, разумно предположив, что по крайней мере одна из двух переменных (критерий) является категориальнобинарной, т. е. принимает значения всего лишь на двух уровнях — «успехнеудача». В результате для многих клеточек таблицы спрогнозированная вероятность успешного прогноза (коэффициент успеха SC) оказалась несколько выше (табл. 7.6).
Таблица 7.6
Сравнительные значения спрогнозированной успешности (полезности) теста (SC) на основе таблиц Тейлора — Рассела, Абрахамса и на основе фи-коэффициента (по формуле (7.9)).
Валидность. | BR =. | 0,4; SR | = 0,4. | BR = | 0,5; SR | = 0,5. | BR =. | 0,6; SR | = 0,6. |
(VC) | Тей; | Абра; | Фи; | Тей; | Абра; | Фи; | Тей; | Абра; | Фи; |
лор | хаме. | корр | лор | хаме. | корр | лор | хаме. | корр | |
0,0. | 0,4. | 0,4. | 0,4. | 0,5. | 0,5. | 0,5. | 0,6. | 0,6. | 0,6. |
0,0. | 0,44. | 0,45. | 0,46. | 0,54. | 0,54. | 0,55. | 0,63. | 0,63. | 0,64. |
0,2. | 0,48. | 0,5. | 0,52. | 0,58. | 0,58. | 0,6. | 0,65. | 0,66. | 0,68. |
0,1. | 0,50. | 0,55. | 0,58. | 0,62. | 0,62. | 0,65. | 0,68. | 0,7. | 0,72. |
0,4. | 0,56. | 0,6. | 0,64. | 0,67. | 0,67. | 0,7. | 0,7. | 0,74. | 0,76. |
0,5. | 0,6. | 0,67. | 0,7. | 0,72. | 0,72. | 0,75. | 0,73. | 0,78. | 0,8. |
0,6. | 0,64. | 0,71. | 0,76. | 0,77. | 0,77. | 0,8. | 0,76. | 0,82. | 0,84. |
0,7. | 0,69. | 0,80. | 0,82. | 0,84. | 0,84. | 0,85. | 0,8. | 0,88. | 0,88. |
0,8. | 0,75. | 0,89. | 0,88. | 0,90. | 0,9. | 0,9. | 0,83. | 0,93. | 0,92. |
0,9. | 0,82. | 0,98. | 0,94. | 0,98. | 0,98. | 0,95. | 0,88. | 0,99. | 0,96. |
Исходя из практики нашей преподавательской работы, мы считаем, что более высокая точность в таблицах Тейлора — Рассела обесценивается.
непрозрачностью расчетов коэффициента успешности SC. В дидактическом плане гораздо эффективнее использовать простую приближенную формулу, которую автор книги вывел самостоятельно и которая основывается на фи-коэффициенте четырехклеточной корреляции, т. е. на огрубленном предположении, что обе связываемые переменные — и тест, и критерий — являются на самом деле бинарными (дихотомическими категориями).
Для сбалансированных (симметричных) строк и столбцов четырехклеточной таблицы, т. е. для значений BR = 0,5, SR = 0,5, рассекающих корреляционное поле пополам и по вертикали, и по горизонтали, формула (7.6) еще более упрощается:
Или в других, возможно, более естественных для читателя обозначениях формула (7.7) будет выглядеть так:
где р — вероятность успешного прогноза; г — корреляционная мера валидности (коэффициента корреляции между тестом и критериальным бинарным событием).
При подстановке в формулу (7.8) знаменитого (можно сказать, пресловутого) значения коэффициента валидности г = 0,3 (известный предел прогностической эффективности для многих тестов, основанных на концепции черт личности), мы получаем точность прогноза р = 0,65, т. е. превышение над уровнем случайного угадывания 0,5 составляет 15%.
Еще раз рассмотрим четырехклеточную таблицу сопряженности в ее самой обычной конфигурации (с точки зрения размещения клеточек А, В, С и D) (табл. 7.7).
Таблица 7.7
Гипотетическая четырехклеточная таблица совместной частотности (сопряженности) двух бинарных переменных — тестовой группы и критериальной группы (по уровню профессиональной успешности).
Тестовая группа. | Профессиональная успешность. | |
Высокая. | Низкая. | |
Высокая. | А = 70. | В = 30. |
Низкая. | С = 30. | D = 70. |
Источник'. [5, с. 261 ].
По широко известной в литературе формуле (7.9) рассчитаем фи-коэффициент корреляции Phi между переменной по столбцам и переменной по строкам в табл. 7.7.[4]
Подставим в формулу (7.9) числовые значения из табл. 7.7.
После этого по упрощенной формуле (7.7) получаем точность прогноза.
Чтобы понять, насколько велика или мала точность прогноза в 70%, давайте вспомним, что такое «конституционное большинство» в парламенте Российской Федерации, позволяющее изменить путем голосования основной закон страны — Конституцию Российской Федерации. Это вовсе не 95% депутатов, а только две трети — примерно 67% депутатов. Таким образом, коэффициент валидности 0,4 для теста, направленного на прогноз итогов голосования в Госдуме по Конституции Российской Федерации, дает нам на самом деле примерно такую же точность прогноза в отношении голосования, какую дает само голосование в плане его репрезентативности (представительности) в отношении населения страны — в районе 70% (ведь примерно треть населения, представленная третью депутатов в Госдуме, оказывается в этом случае против изменений в Конституции).
Соотношение меры корреляции и меры вероятности можно попытаться иллюстрировать на лекциях для студентов-гуманитариев с помощью следующего простейшего графика (рис. 7.2). Опыт показывает, что многие просто «забывают», что корреляция, в отличие от вероятности, изменяется на более широком интервале — от минус единицы, поэтому нулевой корреляции соответствует точность угадывания равновероятной бинарной переменной в 50% (фифти-фифти). Поэтому любая корреляция, значимо отличающаяся от нуля, приводит к значимому приросту над точкой случайного угадывания в 0,5.
Рис. 7.2. Графическая иллюстрация соотношения между мерой корреляции и мерой вероятности.
7.5. Рентабельность методики
Применим для расчета рентабельности методики отбора известную в области экономики и социальной психологии формулу ожидаемой полезности, которая для принятия вероятного решения в мероприятии с двумя возможными исходами имеет следующий вид:
где Е — ожидаемая полезность (экономическая эффективность); р — вероятность предсказанного успеха; S — цена успеха (сумма сделок); q — вероятность НЕпредсказанной неудачи (упрощение q = 1 — р); F — цена неудачи (убыток от неудачи)[5]; С — себестоимость участия.
Эту формулу очень часто применяют ко многим вероятностным решениям, например к принятию решения в азартных играх (играх со случайным исходом) или к лотереям. Согласно формуле (7.10) ожидаемая полезность — это разность между ожидаемым выигрышем р х S и ожидаемым проигрышем q х F, вычисленным по теории вероятности (если не учитывать себестоимость). Но как раз себестоимость проведения теста, как мы увидим, крайне важна для расчета экономической эффективности тестового отбора (да и не только тестового — любой системы отбора по определенному критерию).
Как определить в случае тестирования параметры р и q для подстановки в формулу ожидаемой полезности (7.10)? Понятно, сложнее определить параметры S, F и С. Как мы выяснили только что в предыдущем параграфе, вероятность успеха р — эго как раз показатель SC, или доля тех работников из числа принятых по результатам тестирования (А + В), которые стали успешно справляться (клеточка А в таблице сопряженности). 11о тогда q — это величина, традиционно обратная к р, т. е. q = 1 — р, это доля тех работников из числа принятых по результатам отбора (Л + В), которые не смогли успешно справляться (клеточка В в таблице сопряженности).
Как же определить параметры S и F, т. е. не вероятности, а размеры выигрыша и проигрыша в ситуации выбора работника (платежи за соответствующие исходы)? Тут психологу-тестологу (специалисту по профотбору) явно потребуется помощь экономиста, ибо в разных организациях успех и неудача складываются по-разному. Все было бы проще, если бы успех S сводился лишь к доходности операций, выполненных успешным работником. Но из этого показателя надо вычесть величину затрат на этого работника — его заработную плату, себестоимость поддержания его рабочего места и т. п. Точно так же убыток F оценивается как разность между удачными операциями и прямым убытком (упущенной выгодой) от неудачных операций. У тестолога нет, как правило, достаточно данных, чтобы корректно учесть все составляющие для 5 и F. Тем ие менее простейший шаг в определении величин S и F должен сделать сам тестолог — именно он должен проявить инициативу, вызвав некие ответные уточняющие действия со стороны экономистов. Например, и S, и Ев случае продавцов (или менеджеров по продажам) можно приближенно оценить как суммы средней выручки, которую приносят эффективные продавцы (выполняющие плановый показатель по объему) и неэффективные продавцы (не выполняющие плановые показатели).
Попытаемся с помощью формулы ожидаемой полезности рассчитать экономическую эффективность (рентабельность) от использования недорогого (по затратам на саму методику) теста с достаточно низким показателем эмпирической валидности 0,4 (удвоенная разность между точностью 0,7 и уровнем случайного угадывания 0,5). Если, например, средний эффективный продавец продает в месяц товаров на сумму в 200 тыс. руб., а средний неэффективный — на сумму 50 тыс. руб. (при средней заработной плате любого продавца С = 50 тыс. руб.), то при вероятности успеха SC = 0,7 мы получаем следующую оценку ожидаемой полезности:
Но, тут же задумаемся, является ли эта сумма корректной оценкой рентабельности от внедрения системы тестирования (системы тестового отбора)? Очевидно, нет. Тут не учитываются как минимум две очень важные вещи. Во-первых, в оргзатраты С входит не только заработная плата самого работника, но и затраты W на само проведение тестирования (ведь это дополнительное мероприятие, без которого до его внедрения организация вообще как-то обходилась). Обозначим эту сумму затрат для уточнения формулы (7.10) буквой W и назовем себестоимостью тестирования (проведения методики). Во-вторых, также необходимо вычесть базовую полезность Еь, которая достигалась в организации без всяких тестов, или других методик профотбора (еще до внедрения профотбора). В простейшем случае эта величина связана просто с параметром BR — легкость профессии (см. предыдущий параграф). Если BR = 0,6 без всяких тестов (просто потому, что 60% любых нанятых продавцов достигают успеха), то базовая полезность для нашего примера равняется.
Таким образом, уточненная формула расчета показателя рентабельности тестирования V может выглядеть так:
где п — число работников; Е — ожидаемая полезность в месяц в расчете на одного (среднего) работника, отобранного по тесту; Еь — базовая полезность (ожидаемая польза от работников, не отобранных или попавших[6]
в низкую группу по результатам тестирования); W — себестоимость тестирования.
Что входит в себестоимость обследования (тестирования) W? Это, конечно, не только заработная плата тестолога, но также себестоимость его рабочего места (рассчитанная, в том числе, с помощью учета стоимости квадратных метров арендуемой площади под одного работника офиса, месячной амортизации оборудования, всевозможных платежей за электроэнергию, интернет-трафик и т. д. и т. п.). Допустим, месячная заработная плата специалиста по оценке персонала (тестолога) равняется 60 тыс. руб., а себестоимость его рабочего места в месяц — округленно 10 тыс. руб. Тогда правильнее будет оценить W в пересчете на одного тестируемого: 70 тыс. поделить на п — количество протестированных (обследованных). Себестоимость программно-методических средств на одного тестируемого примем условно за 1 тыс. руб. (пусть стоимость обработки результатов одного профессионально выполненного психометрического теста на удаленном сервере разработчика составляет в среднем примерно 30 условных единиц на 2014 г.). Тогда подставим в формулу (7.11) заданные арифметические значения и вычислим рентабельность на тот случай, если в месяц по тесту отбираются пять сотрудников:
Таким образом, мы подсчитали, что отбор пяти сотрудников в месяц уже через месяц окупает содержание внутри организации одного тестолога и использование им определенной тестовой компьютерной программы (хотя эффекта рентабельности нет, но нет и убытков). Конечно, если не нанимать тестолога в штат, а использовать его по принципу аутсорсинга, т. е. как внештатного сотрудника-совместителя, можно резко сократить величину W. Теперь рассмотрим, как при тех же параметрах — невысокой валидности 0,4 и тех же различиях в доходности от деятельности успешных и неуспешных работников — меняется рентабельность тестирования в зависимости от количества отбираемых кандидатов-соискателей. Рассмотрим случаи отбора трех и десяти работников в месяц.
Как видим, при небольших объемах оценочной работы организации нерентабельно держать в штате отдельного специалиста по оценке (тестолога) — надо брать его даже не на полставки, а на четверть ставки, не больше. Но если масштабы ощутимы (каждый месяц набирается в штат 10 новых работников), то содержание отдельного тестолога оказывается не только доступным, но и дает экономический эффект в размере, достаточном для обеспечения заработной платой новых специалистов (конечно,[7]
если 70 тыс. поделить на 10, то эго будет слишком мало, но одного нового офисного работника, кроме самого тестолога, на этот эффект экономии можно прокормить).
Впрочем, нам здесь важно не добиваться какой-то особой правдоподобности приведенного примера, сколько показать читателю, как можно использовать формулы (7.10) и (7.11), а также показать, что экономического эффекта можно достичь и с помощью низковалидного, вероятностного инструмента оценки. Причем этот эффект можно доказать руководству (заказчику) с помощью вполне доступных вычислений.
В данном случае мы предложили упрощенный подход для расчета рентабельности методик, который логически связан с выделением двух групп — высокопродуктивных и низкопродуктивных работников. Следует сделать важную оговорку, что такой подход является весьма приближенным и уступает по своей точности определенным расчетным моделям, принятым на сегодняшний день в мировой прикладной психологии (см. обзорную статью Хайнца Холдинга в онлайн-журнале Methods of Psychological Research |8|). Однако в книге «Практическая тестология» [6] автор на расчетных примерах показывает, что предлагаемый им упрощенный подход для очень многих условий дает примерно те же результаты, что и формула B-C-G, названная так еще в 1965 г. но имени трех авторов — Brogden — Cronbach — Gleser.
Завершая разговор о рентабельности (экономической эффективности) различных методов профотбора, подчеркнем, что для массовых специальностей может оказаться более рентабельным подход, основанный на использовании недорогой методики с невысоким уровнем валидности, чем высоковалидной методики, но слишком дорогой по затратам. Таким образом, компьютеризированные тестовые методики для измерения профессиональных знаний и умений оказываются более конкурентоспособными в широком классе ситуаций по сравнению с более дорогими методами центра оценки (ассессмента), которые оправдывают себя только в случае более высокой цены единичной ошибки при отборе топ-менеджеров.
- [1] При определенных ограниченных условиях такое представление в отношении инкрементной валидности, как мы покажем в данном параграфе, оказывается вовсе не бессмысленным.
- [2] Надо сказать, что в диаграммах, опубликованных в самой статье Тейлора и Рассела [9], а также в псреопубликованных диаграммах во всех учебниках используется другая буквеннаянумерация квадрантов — по часовой стрелке. Но поскольку эта нумерация расходится с принятой нумерацией клеток четырехклеточной (четырехполыюй) таблицы сопряженности, мыприводим здесь другое буквенное обозначение квадрантов в диаграммах Тейлора — Рассела.
- [3] 2 При этом Тейлор и Рассел взяли за основу таблицы, опубликованные еще в 1931 г. Пирсоном — автором знаменитого коэффициента линейной корреляции.
- [4] По-видимому, одними из первых на простейшую формулу (7.7) обратили вниманиеР. Розенталь и Д. Б. Рубин (Rosental, Rubin, 1982) [цит. по: 5, с. 263].
- [5] Теория ожидаемой полезности возникла как своеобразный побочный продукт в рамкахтеории игр, разработанной Фон Нейманом и Моргенштерном в 40-е rr. XX в.
- [6] Второе слагаемое в формуле в данном случае присутствует с плюсом, потому что низкоэффективные продавцы тоже приносят доход, хотя он и не погашает затрат на их заработную плату и содержание в организации.
- [7] В книге «Практическая тестология» автор дайной главы прилагает Эксель-модель, облегчающую подобные расчеты для любых входных параметров [6].