Актуальность работы. Одной из центральных проблем в сфере ¦ образования является объективная и технологичная оценка качества обученности субъектов в условиях проведения массовых проверок, основанных на процедурах компьютерного тестирования. С этой точки зрения создание качественных тестовых материалов предстает как культурно значимый проект, отраженный в Концепции модернизации Российского образования на период до 2010 года, принятой Минобразованием РФ (приказ МО РФ № 393 от 11.02.02). Ф Для успешного решения данной задачи необходимо объяснить как устроены те «фильтры», которые позволяют субъекту проектировать тестовые утверждения заданного уровня качества, как происходит установление аксиом и выдвижение научных гипотез о закономерных связях процессов мышления в тестологии. До сих пор не так много исследователей подходит вплотную к решению этой задачи. Многие разработчики тестовых материалов до сих пор считают, что эта проблематика не является актуальной, поскольку ее решение будет ограничивать идею формирования ^ личного содержания тестовых утверждений. Однако деятельность при конструировании тестовых утверждений без учета правил — источник создания псевдотестов.
Создание системы методологических правил проектирования гармонично целостных композиций тестовых утверждений способно стимулировать разработку корректных тестовых утверждений, но этого еще не достаточно для того, чтобы применять их в практической деятельности. Необходимо еще установить тестологические характеристики каждой тестовой ситуации. Господствующая ныне в теории тестов логика тождества — в отрыве от логики аналогий — не годится для того, чтобы объяснить и понять механизм оценки качества тестовых заданий как многомерных объектов нечисловой природы. Эта актуальная задача также решается автором в настоящей диссертационной работе.
Целью данной диссертационной работы является разработка концептуальных правил проектирования и методов оценки качества тестовых заданий, с применением правдоподобных рассуждений, статистики качеств и теории информации.
Задачи исследования. В соответствии с поставленной целью необходимо решить следующие задачи:
• провести критический анализ применения в тестологии различных форм мышления;
• разработать систему методологических правил конструирования тестовых заданий;
• создать модели и алгоритмы интегративной оценки качества тестовых утверждений на основе топометрик статистики качеств;
• решить практические задачи проведения апробации тестовых суждений;
Объектом исследования является область теоретической информатики, связанная с культурой семантики логичных и логических рассуждений, зачастую имеющих неформальных вид, и создание аналитических моделей оценки качества тестовых заданий.
Методы исследования. Для решения поставленных задач проводится критический анализ общей семантики форм мышления и используется аппарат как параметрической, так и непараметрической статистики. Разработка программного обеспечения для реализации алгоритмов проведена в среде Visual Basic 6.
Методологической основой исследования являются работы в области теории компьютерного тестирования, посвященные культуре мышления и редуцирования правил проектирования тестовых материалов, а также работы по анализу качества многофакторных объектов произвольной природы труды А. И. Субетто, Ю. А. Петрова, B.C. Аванесова, В. И. Васильева, A.C. Кармина, Д. Пойа и др.).
Верность полученных результатов подтверждается практической реализацией, апробацией и внедрением методологических правил, методов и алгоритмов оценки качества тестовых материалов на уровне Рособрнадзора и высших учебных заведений.
Научная новизна полученных в данной работе результатов состоит в следующем:
1. Проведен критический анализ семантики различных форм мышления в тестологии, на основе которого формулируется нормативная система проектирования тестовых утверждений различного уровня ценности.
2. Показано, что ни чистая логичность, ни аналогичность не являются формализованными понятиямиони не сводимы друг к другу, что не позволяет дать строгое определение логичности в теории тестов, не прибегая к правдоподобным построениям композиций тестовых утверждений.
3. Переключение направленности семантического анализа с проблемы истины на проблему эпистемологических контекстов расширил предмет философской логики, преобразовав ее в теорию аргументации.
4. Методология интегральной оценки качества многофакторных тестовых заданий должна рассматриваться как находящаяся в рамках между логикой аналогий и тем или иным вариантом логики тождества.
5. Благодаря синтезу логико-гносеологического и ценностно-смыслового подходов и топометрикам статистики качеств, автору впервые удалось построить констелляции оценки качества кратких тестовых суждений, исследуемых как многофакторные объекты числовой и нечисловой природы.
Оценка теоретической значимости результатов работы.
Разработанная автором настоящей диссертации система методологических правил проектирования тестовых материалов составляют ядро нормативной системы проектирования тестовых заданий. Полученные модели и алгоритмы являются основой для оценки качества тестовых заданий как многомерных объектов произвольной природы, что является главной задачей при создании банков тестовых заданий с заданными параметрами валидности и надежности.
Практическая ценность работы. Поскольку основные положения данной работы выстраиваются не аксиоматически, а содержательно, то полученные правила и формальные отношения непосредственно реализуют сам действительный мир тестологического познания, когда в метатеории рассматриваются неформальные семантические модели, в качестве которых выступают сущие элементы тестовых утверждений и их интегральные оценки качества. Предложенные модели и алгоритмы положены в основу проведения апробации и экспертизы тестовых заданий испытательной лаборатории по проведению сертификации качества тестовых материалов и технологий компьютерного тестирования (аттестат аккредитации №РОСС RU.0001.21 СП35 от 23.09.03). Результаты работы нашли практическое применение в процессе апробации баз программно-дидактических тестовых заданий (ПДТЗ), используемых во время аттестационных проверок студентов.
На защиту выносятся следующие положения:
• методологические правила проектирования гармонично целостных композиций тестовых утверждений, основанные на культуре правдоподобных рассуждений;
• модель тестового задания как многофакторного объекта разнообразной природы;
• обоснование выбора топометрик для содержательного анализа качества тестовых заданий;
• комплексный и интегративный показатели оценки качества тестового задания и алгоритмы их вычисления;
• модели и алгоритмы апробации тестовых материалов.
Апробация результатов работы. Основные результаты диссертационной работы обсуждены на Всероссийских конференциях «Развитие методов и средств компьютерного тестирования», Москва 2004; «Развитие методов и средств компьютерного тестирования», Москва 2005; «Управление качеством профессионального образования: от проблемы к системе», Казань 2005; «Инновационные методы и средства оценки качества образования», Москва 2006; «Экономико-правовые проблемы и перспективы развития уральского региона», Екатеринбург 2006.
Внедрение результатов. Методологические правила проектирования программно-дидактических тестовых заданий используются при повышении квалификации преподавателей «Методология и концепция компьютерного адаптивного тестирования», проводимого Московским государственным университетом печати. Результаты работы положены в основу отчета при выполнении Государственного контракта № 1070 от 22 ноября 2004 года (Федеральная целевая программа «Развитие единой образовательной среды (2001;2005)»), а также внедрены в ряде ВУЗов РФ.
Публикации. Основные положения диссертации изложены в 14 научных публикациях.
Структура и объем диссертации
Диссертационная работа состоит из введения, 4-х глав, выводов, основных результатов, списка используемой литературы и приложений. Диссертация изложена на 186 страницах, содержит 32 рисунка, 24 таблицы, 5 приложений. Список используемой литературы содержит 36 наименований.
ОБЩИЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ.
В результате выполнения работы были решены научные задачи по разработке методологических правил проектирования и методов оценки качества тестовых заданий.
На основании полученных результатов можно сделать следующие выводы:
1. Проведена стратификация тестовых заданий на основе совокупности наиболее существенных факторов. Выделяются три уровня качественно различных страт ценности композиций ПДТЗ: ТС и КТУ, обеспечивающих сопоставимость результатов оценок уровней учебных достижений тестируемых. Композиции ТС, КТУ, ГЦТУ, принадлежащие конкретной целостности и ценности, рассматриваются как один неразделимый многофакторный объект, которому может быть присуща виртуальная структура, обеспечивающая согласование внешне самостоятельных релевантных признаков без их взаимодействия между собой. Возрастание значимости тестовых утверждений сопряжено с переходом от анализа одного свойства до комплексной оценки качества КТУ и, наконец, до интегральной оценки качества композиции ГЦТУ.
2. Впервые получена система концептуальных правил проектирования содержания композиции программно-дидактических тестовых заданий. Сформулированы принципы композиции — указания по применению в практической деятельности тестологов закономерностей и категорийсистема методологических правил проектирования тестовых суждений, — технология реализации принципов композиции в общезначимых правилах и общепризнанных стандартизированных формах представления ПДТЗ. Степень внедрения — методологические правила проектирования программно-дидактических тестовых заданий используются при повышении квалификации преподавателей «Методология и концепция компьютерного адаптивного тестирования», проводимого Московским государственным университетом печати.
3. Проведен системный анализ и классификация существующих моделей оценивания результатов тестирования, и связанные с этими моделями вопросы оценивания системных параметров ПДТЗ. Особое внимание уделено оценке трудности тестового задания, как основного системообразующего параметра ПДТЗ. Приведена классификация показателей трудности тестового задания и различные подходы к ее определению и оцениванию. В общем случае можно сказать, что определение трудности и методы ее оценки зависят от выбранной модели оценивания уровня учебных достижений.
4. Предложен метод корректировки суммарного балла по тесту с учетом вероятности угадывания, приведены значения вероятностей угадывания для различных видов тестовых заданий. Также предложен критерий целесообразности различения частично верных ответов. Предложена методика ранжирования результатов тестовых испытаний с учетом энтропии заданий.
5. Применительно к семантическим шкалам оценки качества признаков различной природы автором определена процедура шкалирования классификаторов. Предложенная процедура решает вопросы сведения разнородных признаков (классификаторов) ПДТЗ к единому основаниюсинтетической шкале качеств. Шкалирование классификаторов положено в основу комплексной и интегральной оценки качества тестового задания.
6. Определены понятия комплексной и интегральной оценки качества ПДТЗ. Предложена модель и алгоритмы оценивания комплексного и интегративного показателей качества ПДТЗ. На основе декомпозиции качества ПДТЗ в дерево свойств построен комплекс оценочных показателей (классификаторов) качества ПДТЗ. Обоснован выбор основания качества с точки зрения психологии и теории информации, основным выводом чего стало принятие К=9, как верхней границы приемлемого числа уровней интервалов качества. Предложенная система оценивания интегрального качества ПДТЗ позволила отказаться от введения субъективных весовых коэффициентов для классификаторов.
7. В процессе выполнения работ по апробации банков ПДТЗ проводились научные наблюдения и эксперименты по выявлению и выбору существенных атрибутов аттестационно-оценочных материалов, установлению их смыслов, норм, трудности и отклонений, а также выработке рекомендаций по повышению качества ПДТЗ. Построен алгоритм технологического цикла разработки банков ПДТЗ. Разработаны инструментальные средства и отработана процедура апробации, в рамках которой были оценены банки программно-дидактических тестовых ситуаций. Проведена работа по коррекции содержания банков тестовых заданий по 60 учебным дисциплинам на основе полученных, при проведении экспериментов, данных. Результаты апробации были использованы при установлении качественных шкал оценок достижений студентов по 46 учебным дисциплинам. Степень внедрения — банки программно-дидактических тестовых заданий, разработанные с учетом требований, одобренные учебно-методическими объединениями профессионального образования, апробированные и использующиеся в процессе итоговой аттестации студентов. Результаты работы положены в основу отчета при выполнении Государственного контракта № 1070 от 22 ноября 2004 года (Федеральная целевая программа «Развитие единой образовательной среды (2001;2005)»), а также внедрены в 7-ми высших учебных заведениях.
§ 4.4.
Заключение
.
Сформулируем цели и задачи апробации. Апробационные исследования проводятся с целью проверки тестовых заданий на соответствие требованиям, предъявляемым к ПДТЗ и отдельным вариантам программно-дидактического теста (ПДТ).
Апробационные исследования позволяют решить следующие задачи:
• установить статистические характеристики апробируемых заданий (трудность, дифференцирующая способность и др.).
• получить экспертные характеристики апробируемых заданий (корректность формулировок, значимость для итогового контроля, соответствие действующим учебникам и др.).
• установить статистические характеристики апробируемых ПДТ (надежность, распределение трудности заданий, средний первичный балл, корреляционные характеристики и др.).
• получить характеристики апробируемых ПДТ (время выполнения отдельных заданий и теста в целом, качество инструкций, отношение тестируемых к работе и др.).
• получить интегральные оценки качества ПДТЗ.
• выявить проблемные задания, изменить их содержание или нормы трудности.
В процессе выполнения работ по апробации банков ПДТЗ проводились научные наблюдения и эксперименты по выявлению и выбору существенных атрибутов аттестационно-оценочных материалов, установлению их смыслов, норм, трудности и отклонений, а также выработке рекомендаций по повышению качества ПДТЗ. Были разработаны инструментальные средства и отработана процедура апробации, в рамках которой были оценены банки программно-дидактических тестовых ситуаций. Проведена работа по коррекции содержания банков тестовых заданий по 60 учебным дисциплинам на основе полученных, при проведении экспериментов, данных. Результаты апробации были использованы при установлении качественных шкал оценок достижений студентов по 46 учебным дисциплинам.
Степень внедрения — банки программно-дидактических тестовых заданий, разработанные с учетом требований, одобренные учебно-методическими объединениями профессионального образования, апробированные и использующиеся в процессе итоговой аттестации студентов.
Часть работы, представленная в этой главе, отражена в «Отчете по выполнению Государственного контракта № 1070 от 22 ноября 2004 года (Федеральная целевая программа «Развитие единой образовательной среды (2001;2005)»). Тема: «Экспериментальная отработка системы апробации аттестационно-педагогических измерительных материалов для аттестации образовательных учреждений».