Психометрический анализ математического теста ЕГЭ
В столбце 2 таблицы 19 представлена оценка трудности заданий теста для выпускников. Все оценки даны в логитах. В соответствии с используемой моделью измерения каждое задание теста характеризуется одним числом — трудностью д. Максимальное и минимальные значения оценки трудности показывают, что тест содержит как очень трудные задания (максимальная трудность заданий равна 6,12), так и очень легкие… Читать ещё >
Психометрический анализ математического теста ЕГЭ (реферат, курсовая, диплом, контрольная)
Всего в рамках ГИА 11-х классов был разработан 41 вариант для базового и профильного уровня. Для каждого уровняварианты разработаны по единому кодификатору и единой спецификации для каждого уровня, поэтому имеют одинаковую структуру в рамках уровня. Сами задания различаются лишь данными, поэтому было решено выбрать один вариант для анализа. Был выбран вариант 599 профильного уровня. ВКИМ для базового уровня содержатся только задания с кратким ответом, в КИМ для профильного уровня дополнительно присутствуют задания с развернутым ответом, поэтой причине для анализа был выбран именно профильный уровень. Еще одним аргументов является то, что именно по результатам ЕГЭ по математике профильного уровня принимается решение о поступлении в вуз.
Вариант № 599 выполняло 245 выпускников. Тест состоит из 21 задания, где 14 заданий с кратким ответом и 7 заданий с развернутым ответом.
В таблице 18 приведены сводные характеристики анализируемого варианта, а так же значение статистики Separation и количество групп, на которые тест способен продифференцировать выпускников.
Таблица 18 — Сводные характеристики параметров теста.
Параметры. | Значение. |
Общее количество выпускников. | |
Максимальный набранный балл. | |
Минимальный набранный балл. | |
Средние значение набранного балла. | 47,72. |
Стандартное отклонение. | 17,80. |
Средний показатель коэффициента трудности (КТТ*). | 0,44. |
Максимальный показатель коэффициента трудности (КТТ). | 0,99. |
- *здесь и далее КТТ — классическая теория тестирования
- **здесь и далее IRT — современная теория тестирования
Тест обладает достаточной надежностью 0,79, что говорит о высокой согласованности вопросов в тесте. Показатель трудности теста указывает на то, что тест имеет трудность ниже среднего и должен хорошо подходить данной выборке. Дифференцирующая способность теста, оцениваемая по среднему коэффициенту дискриминативности и количеству групп, на которые тест разделяет выборку, указывает на то, что тест хорошо дифференцирует учеников по уровню способностей.
В основном баллы распределились среди значений 18−64. Так как анализируется вариант профильного уровня, то минимальный порог устанавливается в 27 баллов. Данный порог определен распоряжением Рособранадзора, как минимальный для поступления в вуз (Распоряжение Федеральной службы по надзору в сфере образования и науки № 794−10 от 23.03.2015 г). Примерно 11% выпускников не достигли минимального порога (28 выпускников). В целом, можно сказать, что выпускники успешно справились с тестом, но не показали высоких результатов.
Общая характеристика анализа теста.
В таблицах 19 и 20 представлены общие статистические данные по тестовым заданиям и выпускникам, принимавших участие в тестировании. Из теста удалено задание № 19 задание, так как ни один выпускник с ним не справился. Надежность теста является достаточно высокой и равна 0,79.
Таблица 19- Общая статистика по заданиям теста.
Оценка трудности. | Ошибка измерения. | Статистики согласия. | ||||
INFIT. | OUTFIT. | |||||
MNSQ. | ZSTQ. | MNSQ. | ZSTD. | |||
Ср. значение. | 0,00. | 0,22. | 1,13. | 0,10. | 1,19. | 0,40. |
Ср кв.отклонение. | 2,77. | 0,13. | 0,61. | 1,40. | 0,89. | 1,90. |
Макс. значение. | 6,12. | 0,61. | 3,74. | 3,70. | 3,63. | 5,70. |
Мин. значение. | — 5,73. | 0,11. | 0,77. | — 2,00. | 0,22. | — 1,80. |
Таблица 20 -Общая статистика по выпускникам.
Оценка трудности. | Ошибка измерения. | Статистики согласия. | ||||
INFIT. | OUTFIT. | |||||
MNSQ. | ZSTQ. | MNSQ. | ZSTD. | |||
Ср. значение. | — 0,28. | 0,62. | 0,98. | — 0,10. | 0,98. | 0,20. |
Ср кв.отклонение. | 1,48. | 0,08. | 0,53. | 1,00. | 1,28. | 0,80. |
Макс. значение. | 3,85. | 1,28. | 5,98. | 4,40. | 9,90. | 7,30. |
Мин. значение. | — 5,33. | 0,51. | 0,29. | — 2,80. | 0,05. | — 0,80. |
В столбце 2 таблицы 19 представлена оценка трудности заданий теста для выпускников. Все оценки даны в логитах. В соответствии с используемой моделью измерения каждое задание теста характеризуется одним числом — трудностью д. Максимальное и минимальные значения оценки трудности показывают, что тест содержит как очень трудные задания (максимальная трудность заданий равна 6,12), так и очень легкие задания (минимальная трудность -5,73). Средняя оценка подготовленности выпускников равна -0,28. Это означает, что выпускники не очень хорошо справляются с тестом, и он для них достаточно сложен. Средняя ошибка измерения (столбец 3 в таблицах 19 и 20) по заданиям равна 0,62 и по испытуемым 0,22.
В 7-м столбце таблиц 19 и 20 представлены данные о статистиках согласия, характеризующих согласие экспериментальных данных тестирования с используемой моделью измерения. Это — общие статистики согласия MNSQ и их стандартизованные версии ZSTD. В соответствии с моделью математические ожидания значений общих статистик согласия равны 1,13 и 0,98, стандартизованных — примерно 1,19 и 0,98. Из представленных данных видно, что статистики согласия MNSQ выходят за границы допустимых значений (0,8;1,2), что говорит о наличии заданий демонстрирующих несогласие с моделью. Статистики ZSTD так же выходят за границы допустимых значений (-2,00;2,00).
Значение статистики Separation показывает, на сколько групп можно разделить выборку, то есть, как тест дифференцирует испытуемых с учетом ошибки измерения. Количество групп рассчитывается по формуле, приведенной ниже.
Значение strata получилось равным 2,9, таким образом, тест всю выборку делит на 3 группы и в достаточной мере способен продифференцировать испытуемых.
Размерность теста.
Для продолжения работы был проведен анализ размерности теста. Результат представлен в таблице 21, также в таблице приведены результаты по симулированным данным.
Таблица 21 — Процент необъясненной дисперсии.
По тесту. | Симулированные данные. | |
Необъясненная дисперсия по 1 конструкту. | 2,9%. | 10,7%. |
Необъясненная дисперсия по 2 конструкту. | 2,2%. | 8,1%. |
Необъясненная дисперсия по 3 конструкту. | 2,1%. | 7,6%. |
Необъясненная дисперсия по 4 конструкту. | 2,0%. | 7,3%. |
Необъясненная дисперсия по 5 конструкту. | 1,18%. | 6,6%. |
Таким образом, не значительно превышен порог 5% необъясненной дисперсии, что позволяет говорить возможном присутствии второй размерности.
Карта переменных.
Распределение мер испытуемых близко к нормальному, что нельзя сказать о мерах заданий. Задание 2 является очень простым для представленной выборки, все выпускники справились с ним. Значит, оно не несет какой либо информации для оценки способности испытуемых. Такой же вывод можно сделать по заданиям 18 и 20, они являются сложными для выборки и испытуемые не справляются с ними. Исходя из полученной карты переменных, можно сказать, что в тесте присутствует достаточное количество заданий для дифференциации и определения уровня способностей выпускников данной выборке. Задания 19−21 являются самыми сложными и предназначены для отбора выпускников в вузы с повышенными требованиями к математическим навыкам выпускников.
В заданиях 20 и 21 шаги 2−4 находятся на одном уровне сложности, что означает, что если выпускник способен выполнить шаг 2, то он способен выполнить и последующие шаги. Другими словами, начиная с шага 2, задание перестает дифференцировать выпускников и оценивание в 4 шага становится нецелесообразно. В задании 18 по спецификации присутствует вторая категория, но она не представлена на карте переменных. Вероятно, выпускники не смогли выполнить необходимых действий и полностью выполнить корректно задание, для получения второго балла. Данные задания требуют дополнительного внимания, вероятно второй шаг оказался значительно сложнее, чем первый, либо в задании или критериях оценивания присутствует ошибка.
Анализ заданий теста.
В таблице 22 представлены данные по заданиям. Задания, в которых статистики согласия выходят за допустимые значения, выделены цветом. Синим цветом выделены задания демонстрирующие несогласие с моделью и розовым сверх согласие с моделью.
Таблица 22- Анализ заданий.
Номер задания. | Оценка трудности. | Ошибка измерения. | Коэффициент корреляции. | Статистики согласия. | |||
INFIT. | OUTFIT. | ||||||
MNSQ. | ZSTD. | MNSQ. | ZSTD. | ||||
— 2,15. | 0,18. | 1,07. | 1,07. | 0,80. | 1,92. | 3,00. | |
— 5,73. | 0,61. | 1,13. | 1,13. | 0,40. | 3,63. | 2,50. | |
— 2,32. | 0,19. | 1,23. | 1,23. | 2,10. | 3,45. | 5,70. | |
— 3,56. | 0,26. | 0,95. | 0,95. | — 0,20. | 0,69. | — 0,00. | |
— 1,64. | 0,17. | 1,11. | 1,11. | 1,40. | 1,53. | 2,40. | |
— 2,29. | 0,19. | 0,83. | 0,83. | — 1,60. | 0,57. | — 1,80. | |
— 2,22. | 0,18. | 1,00. | 1,00. | 0,00. | 1,11. | 0,50. | |
0,20. | 0,15. | 0,90. | 0,90. | — 1,40. | 0,93. | — 0,40. | |
— 1,32. | 0,16. | 0,91. | 0,91. | — 1,20. | 0,83. | — 1,00. | |
— 1,42. | 0,16. | 0,99. | 0,99. | — 0,10. | 0,86. | — 0,80. | |
— 0,13. | 0,15. | 1,12. | 1,12. | 1,80. | 1,26. | 1,90. | |
1,68. | 0,18. | 1,05. | 1,05. | 0,50. | 1,14. | 0,60. | |
1,18. | 0,17. | 0,96. | 0,96. | — 0,40. | 0,94. | — 0,20. | |
1,09. | 0,17. | 0,84. | 0,84. | — 1,90. | 1,13. | 0,70. | |
1,14. | 0,11. | 0,98. | 0,98. | — 0,10. | 0,66. | — 1,00. | |
1,68. | 0,13. | 0,77. | 0,77. | — 2,00. | 0,62. | — 0,90. | |
1,99. | 0,14. | 1,00. | 1,00. | 0,00. | 0,40. | — 1,50. |
В тесте присутствует7 заданий, демонстрирующих несогласие с моделью (задания № 1, 2, 3, 5, 11, 20, 21) и 7 заданий, демонстрирующих сверхсогласие с моделью (задания № 4, 6, 15, 16, 17, 18, 20). Данные задания подробно будут проанализированы в разделе ниже.
Анализ проблемных заданий.
Ниже представлен анализ проблемных заданий с помощью анализа их характеристических кривых. На графике красным цветом показана модельная характеристическая кривая. Синим цветом — эмпирическая характеристическая кривая задания. Модельная характеристическая кривая показывает вероятность правильного ответа на задание в зависимости от уровня подготовленности испытуемых (красная линия). Число крестики на графике демонстрирует количество групп, на которые была разделена выборка и средние значения по заданию в каждой из них. Также на рисунке показаны границы 95%-ного доверительного интервала для точек эмпирического распределения (черный цвет). Если крестики лежат вне границ доверительного интервала, то различия между модельными ожиданиями и эмпирическими данными являются значимыми.