Критерии качества тестов
Социальная адаптация тестовых методик — данное требование выдвинуто сравнительно недавно. И связано это с необходимостью адаптации тестовых методик, заимствованных из других стран, к новым региональным и социальным условиям. Р. С Немов по этому поводу пишет: «Если, например, созданный в Европе тест интеллекта впервые применяется в стране, где доминирующим в структуре интеллекта является… Читать ещё >
Критерии качества тестов (реферат, курсовая, диплом, контрольная)
К тестам предъявляются определённые требования. Основными из них являются валидность, надёжность, наличие тестовых норм, социальная адаптация тестовых методик.
Определяя одинаковые для всех психологических методов диагностики пригодности критерии, Г. Шанц, например, не выделяет особо тестирование, считая, что оно — по показателям качества — должно вписываться в сравнимыйпятиэлементный — ряд других инструментов отбора:
- — надежность;
- — валидность;
- — объективность;
- — экономичность;
- — полезность [4, с.114].
Валидность (англ. valid — действительный, пригодный, имеющий силу) — один из важнейших критериев качества теста, означающий пригодность теста для измерения того, что он по замыслу должен измерять; или иначе: соответствие тестовой методики измеряемому концепту. Если, например, проводится тестирование испытуемых на определение их интеллектуальных способностей, то вряд ли целесообразно с помощью одного и того же теста оценивать еще и типы их темперамента. Проверка теста на валидность включает ряд процедур, главными из которых являются процедуры валидизации (валидации). Определяется валидация посредством корреляции результатов тестирования с успешностью выполнения соответствующей деятельности. К примеру, если с группой испытуемых проведено тестирование на определение общих способностей, то процесс валидации можно представить как установление корреляционных связей полученных данных тестирования с результатами обследования этих же испытуемых на предмет выявления общих способностей по другим проверенным и надежным методикам. Валидность считается достаточно высокой, если коэффициент корреляции будет более 0,6. При значении коэффициента корреляции 0,45−0,65 валидность считается вполне удовлетворительной [2, с. 54].
Надёжность — один из важных критериев его качества, относящегося к точности психологических измерений. Чем выше надежность теста, тем относительно свободнее он от погрешностей измерений. Надежность теста рассматривается как устойчивость (стабильность) результатов при повторном тестировании на той же выборке испытуемых. Повторное тестирование обычно проводится через две недели после первого тестирования. Считается, что при коэффициенте корреляции более 0,75 уровень надежности теста вполне приемлем.
Каждый тест следует сопровождать сведениями о его надёжности. Сообщаемая мера надёжности характеризует тест только в случае его проведения в стандартных условиях и с людьми, имеющими сходство с теми, кто входил в состав нормативной выработки. Следовательно, при описании теста нужно точно указывать и характеристики этой выборки, вместе с типом измеренной на ней надёжности.
Теоретически, разновидностей тестовой надёжности может быть очень много, однако практическое применение находят лишь несколько типов надёжности. Поскольку все типы надёжности касаются степени согласованности или соответствия между двумя независимо полученными множествами показателей, их все можно выразить в виде коэффициента корреляции, который способствует измерению надёжности теста.
Существуют приёмы проверки надёжности тестов. Они включают повторное тестирование, параллельное тестирование, приём раздельного коррелирования (внутренняя корреляция высказываний), использование дисперсионного анализа, факторный анализ [11, с. 82].
Выделяют следующие типы надёжности:
ретестовая надёжность (самый очевидный и понятный метод определения надёжности результатов теста — его повторное проведение;
надёжность взаимозаменяемых форм (один из способов избежать трудностей, с которыми приходится сталкиваться при определении ретестовой надёжности, — использование взаимозаменяемых форм теста);
надёжность эквивалентных половин теста (меру надёжности можно определить и на основании однократного применения единственной формы теста, пользуясь для этого различными процедурами расщепления теста на две равноценные половины) и др. [1, с. 114].
Надежность (достоверность) тестирования формально выводится из аксиом классической теории тестов. Исходным пунктом является предположение, что дисперсия наблюдаемых значений суммарно составлена из дисперсии истинных значений и дисперсии ошибок:
(2).
Путем ряда преобразований далее показывают, что достоверность теста изображается формулой:
(3).
Достоверность, соответственно, равна доли истинной дисперсии от общей дисперсии. Если общая дисперсия безошибочна, достоверность достигает максимального значения 1. При практическом нахождении достоверности появляется проблема невозможности эмпирически обнаружить оценки, которые встречаются в вышеприведенных равенствах. Для возможности определения величины ошибки и этим — величины истинной оценки как вспомогательная конструкция вводится понятие параллельного, или эквивалентного измерения. Два измерения называются параллельными, если их истинное значение и дисперсия значений ошибок одинаковы, отсюда также следует, что при параллельных измерениях ожидаемые оценки (среднее значение) и дисперсия наблюдаемых оценок одинаковы. С помощью этого предположения можно показать, что соотношение между двумя параллельными измерениями (rx, y) как раз соответствует определению достоверности, а именно равно отношению истинной дисперсии к наблюдаемой:
(4).
Таким образом, достоверность инструмента теста можно определить в обход двух параллельных измерений.
Формулу 3 можно преобразовать:
(5).
Используя формулу (1) получаем:
(6).
Или (7).
Значение, выведенное из равенства достоверности, называется стандартной ошибкой текста. Она выявляет среднее отклонение ошибки от истинного значения [4, с.117].
Проблемы валидности и надежности тесно взаимосвязаны. Однако валидность рассчитывается относительно объекта исследования (применительно к испытуемым), надежность же — относительно предмета психодиагностического исследования (психологических свойств или черт личности).
Надежность не обязательно предполагает валидность. Она является необходимым, но недостаточным условием валидности. Справедливо следующее неравенство: валидность надежность. Это означает, что валидность теста не может превышать его надежность [2, с. 54].
Под объективностью понимается степень, в которой результаты тестирования не зависят от проверяющего. Объективность налицо, если разные исследователи одного проверяемого пришли к идентичным результатам [4, с.114].
Норма теста определяется в результате тестирования большой выборки испытуемых определенного возраста и пола с последующим усреднением полученных oценок и дифференциацией по ряду релевантных показателей. Согласно Р. С Немову, норма теста — это средний уровень развития большой совокупности людей, похожих на данного испытуемого по ряду социально-демографических характеристик.
Понятие «норма теста» связано с понятием «репрезентативность». Репрезентативность (франц. representatif — показательный) — свойство выборочной совокупности представлять характеристики генеральной совокупности. Репрезентативность означает: с некоторой наперёд заданной или определённой статистической погрешностью можно считать, что представляемое в выборочной совокупности распределение изучаемых признаков соответствует их реальному распределению [2, с. 55].
Для установления нормы теста и стандартизации тестовой методики требуется предварительно определить обоснованность выборки и провести статистические расчеты по определению их репрезентативности. Операции по анализу и расчету тестовых норм (а следовательно, и проверке их на репрезентативность) проводятся с использованием математических методов (в основном на компьютере). В случае негативных результатов (отсутствия устойчивых тестовых норм) прибегают к обследованию более широкой выборки или отказываются от плана использования данного теста.
Всякие нормы со временем, как правило, изменяются в соответствии с изменяющимися условиями социально-культурной жизнедеятельности людей. Р. С Немов отмечает, что «нормы интеллектуального развития, установленные в первой четверти нашего века, не подходят для его последней четверти, так как за это время уровень развития мышления людей значительно вырос». В соответствии с установленным среди психологов правилом один раз в пять лет нормы теста, особенно интеллектуального, должны пересматриваться.
Валидность, надежность, соответствие тестовым нормам (репрезентативность) являются основными требованиями психометрии. Их объективный характер, возможность перепроверки результатов тестирования являются гарантией достоверной психологической информации.
Социальная адаптация тестовых методик — данное требование выдвинуто сравнительно недавно. И связано это с необходимостью адаптации тестовых методик, заимствованных из других стран, к новым региональным и социальным условиям. Р. С Немов по этому поводу пишет: «Если, например, созданный в Европе тест интеллекта впервые применяется в стране, где доминирующим в структуре интеллекта является не словесно-логическое, а образное или практическое мышление, то он обязательно должен быть социокультурно адаптирован. В противном случае, применяя его в первоначальном, неадаптированном варианте, мы, скорее всего, получим низкие результаты, которые не будут соответствовать уровню развития мышления у жителей данной страны».
Работа по переоценке тестовых методик по своему объему фактически соответствует конструированию оригинальной методики. «С этой точки зрения заимствование зарубежных общедиагностических тестов способностей, черт характера, интересов и т. п. вовсе не оказывается кратчайшим путем к психодиагностике. Этот путь кажется короче только тем, кто сознательно или по неведению пренебрегает принципами психометрики» [2, с. 56]. Таким образом, применение тестирования в исследовании систем управления является достаточно важным моментом.
Тестирование — исследование высказываний, позволяющих получить объективное отражение свойств и количественных параметров деятельности людей. Тест — система высказываний или оценок по комплексу вопросов, в которых закодирована какая-либо проблема.
В управлении при помощи тестирования можно исследовать проблемы использования ресурсов (в частности, важнейшего из них — времени), уровень квалификации персонала, распределение функций управления, сочетание формального и неформального управления, стиль управления и пр. Тестирование составляет важную часть полной программы управления трудовыми ресурсами. Наиболее полно сущность тестов раскрывается в их классификации. Большую роль в исследовании при помощи тестирования играет конструкция теста. Тест включает набор высказываний и оценок по определённой проблеме или ситуации. При составлении теста необходимо учитывать его основные характеристики: валидность, надежность, соответствие тестовым нормам.
К побочным критериям качества тестов относятся:
— нормируемость;
— сравнимость;
— целесообразность (полезность);
— экономичность.