Обзор литературы.
Оценка валидности Единого государственного экзамена (ЕГЭ) как вступительного экзамена

РефератПомощь в написанииУзнать стоимостьмоей работы

Обзор литературы. Оценка валидности Единого государственного экзамена (ЕГЭ) как вступительного экзамена (реферат, курсовая, диплом, контрольная)

Обзор теоретических и эмпирических исследований по теме Основные задачи ЕГЭ как социальной реформы.

Введение

ЕГЭ было связано с потребностью реформирования системы высшего и школьного образования, сложившегося в стране в 90-е годы. С одной стороны, сложившаяся система выставления школьных оценок сделала практически невозможным сравнение и оценку качества работы школ, поскольку на итоговую оценку выпускников влияли не только его способности и знания, но многие другие внеинтеллектуальные факторы. В связи с этим возникла потребность в формировании стандартизированного и более объективного инструмента для оценки компетенций выпускников школ (Болотов, 2004) С другой стороны, существовавшая до реформы система приема в ВУЗы существенно ограничивала возможности выпускников школ получить доступ к высшему образованию. Завышенная доля специфических требований к знаниям абитуриентов, которые зачастую невозможно было получить без дополнительной подготовки, организуемой самим ВУЗом, существенно ограничивала возможности подготовки к поступлению в ВУЗ, и это являлось особенно сложным препятствием для детей из малообеспеченных семей, жителей отдаленных регионов и сельской местности (Решетникова, Эфендиев, 2004). Разработка ЕГЭ как новой унифицированной формы вступительных экзаменов была нацелена, главным образом, на снижение этих барьеров и обеспечение равных шансов поступления в ВУЗы для всех школьников страны.

С тех пор, как в 2001 году были запущены первые пробные экзамены ЕГЭ, были зафиксированы заметные сдвиги в структуре состава студентов российских университетов. Так, уже в 2003 году было зафиксировано, что после введения ЕГЭ расширился социальный состав студенчества: увеличилась доля студентов из отдаленных регионов, сельской местности, малоресурсных семей. Кроме того, произошло перераспределение студентов с низким социально-экономическим статусом на различных направлениях подготовки: для них стал более свободным доступ к востребованным специальностям (Решетникова, Эфендиев, 2004). На данный момент отмечается, что основная цель, поставленная перед ЕГЭ, была достигнута: фактически, с помощью него высшее образование снова начало выполнять почти утраченную им функцию социального лифта (Болотов и др, 2012).

Тем не менее, на данный момент исследователи констатируют, что пока нельзя утверждать, что введение ЕГЭ позволило полностью обеспечить равный доступ к образованию для всех абитуриентов. Например, Прахов и Юдкевич показали [2012], что доход семьи значимо влияет на успеваемость абитуриентов, особенности подготовки к ЕГЭ и, следовательно, на их возможности поступления в университет. В тоже время, Андрущак и Натхов (2012) отмечают, что введение ЕГЭ позволило изменить стратегии подготовки абитуриентов к поступлению: больше абитуриентов получили возможность самостоятельно готовиться к поступлению, и это особенно сильно отразилось на образовательных стратегиях в семьях с низким уровнем дохода.

Особенности ЕГЭ как стандартизированного экзамена Решение всех поставленных в ходе реформы российского образования задач, основным инструментом которой стал ЕГЭ, требовало, прежде всего, стандартизацию процедур оценки компетенций выпускников и процесса приема в ВУЗы. Таким образом, основное свойство ЕГЭ заключается в том, что он является стандартизированным экзаменом. В мировой практике стандартизированные вступительные экзамены используются очень часто, самые известные из них — SAT и ACT в США и Matura в ряде Европейский стран, также стандартизированные вступительные экзамены используются, например, в Израиле (PET), Иране (Concours), Японии (National Center Test for University Admissions), Китае (NCEE).

Основное отличие ЕГЭ от всех перечисленных экзаменов состоит в том, что он совмещает в себе выпускной и вступительный экзамены (Atkinson, 2009) (Rothstein, 2004). Например, в США для поступления в ВУЗ принимаются два теста: ACT и SAT. Оба теста являются только вступительными экзаменами и сдаются по желанию выпускника школы, в том случае, если он собирается поступать в ВУЗ. В мировой практике все же есть примеры похожих экзаменов, которые совмещают в себе частично функции школьного аттестационного тестирования и экзамена, использующегося для поступления в ВУЗы. Это, например, A-levels, который не является обязательной формой вступительного экзамена, однако, его результаты принимаются многими ВУЗами для зачисления. В основном его сдают в Великобритании, но он также используется в других странах мира, например, на Мальте, в Сингапуре, Вест-Индии. Похожий экзамен существует во Франции (Baccalaurйat).

То, что ЕГЭ совмещает в себе функции выпускного и вступительного экзамена означает, что он должен одновременно оценивать как учеников, не собирающихся продолжать обучение, так и тех, кто собираются поступать в ВУЗы. Совмещение таких разных задач требует разработки особого подхода к формированию структуры экзамена, методов проставления баллов, и может накладывать ограничения на возможности экзамена измерять некоторые виды компетенций выпускников.

Таким образом, специфика ЕГЭ состоит в том, что он призван решать сразу несколько важных задач: во-первых, выполнять функции выпускного экзамена, то есть давать адекватную оценку уровня освоения школьниками образовательной программы; во-вторых, выполнять функции унифицированного вступительного экзамена, то есть служить надежным индикатором способности абитуриента успешно освоить программу выбранного им для поступления образовательного учреждения.

Исследования предсказательной способности ЕГЭ На данный момент можно констатировать, что ЕГЭ хорошо справляется со своей главной социальной функцией: возвращение высшему образованию функции воспроизводства и обновления интеллектуальной элиты путем расширения возможностей доступа к высшему образованию молодым людям из различных социальных слоев (Болотов и др., 2012) (Решетникова, Эфендиев, 2004).

Однако, как уже отмечалось выше, с того момента, как ЕГЭ стал обязательным экзаменом, перед ВУЗами, принимающими решение о зачислении, встает вопрос о том, можно ли доверять результатам этого экзамена при отборе абитуриентов, и действительно ли высокие баллы ЕГЭ говорят о том, что студент будет успешно учиться в ВУЗе. Таким образом, встает вопрос о валидности этого теста как вступительного экзамена.

В теории измерения валидность в широком смысле означает, что используемый метод измерения способен исполнять поставленные перед ним задачи. А основной инструментальной задачей ЕГЭ является корректная оценка компетенций выпускников школ, на основании которой можно эффективно отбирать абитуриентов на конкурсной основе в ВУЗы.

Первым и важным этапом в процессе вадидизации тестов является оценка их предсказательной валидности или предсказательной способности. В целом, процесс оценки предсказательной способности сводится к тому, чтобы сравнить результаты оценки компетенций с помощью экзамена с другим, не зависимым от него, измерением способностей. Чаще всего этой «контрольной» оценкой выступает академическая успеваемость студентов, уже зачисленных на основании экзамена. Иными словами, оценка предсказательной способности — это оценка того, насколько хорошо на основании результатов экзамена можно предсказывать дальнейшую успеваемость студента.

Поскольку ЕГЭ создан относительно недавно — первый экспериментальный экзамен был запущен в 2001 году, и лишь с 2009 года он стал обязательным, российские исследователи на данных момент обладают довольно небольшой эмпирической базой для анализа. Кроме того, анализ результатов затрудняет сложность доступа к имеющимся данным, отсутствие единых баз с данными по ЕГЭ и успеваемости. Тем не менее, на данный момент уже проведен ряд исследований по этой теме. Большинство из них проводятся на данных по отдельным факультетам НИУ ВШЭ. Польдин (2010) (2011), изучает связь между ЕГЭ и успеваемостью на примере студентов факультета экономики НИУ ВШЭ Пересецкий и Давтян (2011) сравнивают эффективность ЕГЭ и олимпиад как инструмента отбора абитуриентов на данных по студентам МИЭФ НИУ ВШЭ, на данных различных факультетов НИУ ВШЭ делали анализ валидности ЕГЭ Деркачев и Суворова (2008), на примере экономического факультета занимается анализом ЕГЭ Замков (2012).

В целом, обобщая результаты их исследований можно сказать, что в среднем R² для регрессионных моделей связи ЕГЭ с показателями общей успеваемости находится в интервале 0,25−0,3. Это значит, что баллы ЕГЭ объясняют 25−30% дисперсии показателей успеваемости. Лучший предиктор успеваемости из всех предметов ЕГЭ — экзамен по математике. ЕГЭ по русскому языку также часто оказывается значимым для предсказания дальнейшей успеваемости студентов.

Также важно отметить, что предсказательную способность моделей значительно улучшает учет того, что некоторые студенты были зачислены как призеры олимпиад: в среднем это улучшает коэффициент детерминации модели на 0,1. Эта переменная является важным фактором и сама по себе, даже без учета результатов ЕГЭ: некоторые показатели успеваемости различаются у призеров олимпиад и остальных студентов.

Если в качестве зависимой переменной выбирать оценки за конкретные, чаще всего профильные, предметы на первом курсе, предсказательная способность моделей с результатами ЕГЭ возрастает: R² увеличивается на 0,05−0,1 по сравнению с моделями, где независимая переменная отражает более общие показатели успеваемости (позицию в рейтинге или среднюю оценку). Значительно увеличивает качество модели для предсказания успеваемости по конкретным предметам в университете учет оценок за другие пройденные предметы, что говорит о том, что оценки за изучаемые в университете предметы сильно коррелируют между собой.

Исследования валидности ЕГЭ проводились и на базе данных других ВУЗов. Гордеева и др. (2011) анализировали связь между баллами ЕГЭ и успеваемостью на первом курсе на Химическом факультете МГУ для когорт поступивших в 2009 и 2010 году. Они показали, что все предметы ЕГЭ: русский язык, математика, физика, химия, значимо связаны с показателями успеваемости. Модель с использованием всех предметов отдельно в качестве предикторов в регрессионной модели объясняет 26% дисперсии оценок за первую сессию. При этом более значимыми оказываются предметы непосредственно по специальности — физика и химия. Результаты же по математике, так же, как по русскому языку, оказались слабыми предикторами, причем ЕГЭ по русскому для некоторых показателей успеваемости оказался более значимым. При этом было установлено, что поступившие по олимпиаде показывают лучшие результаты, чем поступившие по ЕГЭ.

Исследования предсказательной способности других стандартизированных экзаменов: SAT и ACT, США.

SAT существует в США с 1926 года, пережив несколько значительных изменений, затронувших общую концепцию теста. Несколько позже, в 1959 году, во многом как альтернатива SAT, возник экзамен ACT. Он позиционировал себя как тест, измеряющий скорее не общие врожденные интеллектуальные способности школьников, но навык, получаемый в школе, то есть, предполагалось, что его результаты больше зависят от желания и способности школьника учиться. Однако со временем произошла конвергенция SAT и ACT. На данный момент оба экзамена оценивают как предметные знания выпускников, так и общие способности школьников к учебе (Atkinson, 2009), то есть совмещают в себе тесты знаний и тесты способностей (Зелман, 2004) Также по результатам исследований, оказывается, что оба экзамена показывают схожие результаты в способности предсказывать успеваемость выпускника в ВУЗе (Atkinson, 2009).

Очевидно, в США накоплен большой опыт проведения стандартизованных экзаменов, и имеется большое количество исследований валидности стандартизированных экзаменов. По сравнению с другими вступительными экзаменами, использующимися в мировой практике, исследованиям SAT и ACT уделяется самое большое внимание, и результаты этих исследований имеются в большом количестве в открытом доступе. Поэтому мы обратимся к исследованиям SAT и ACT для того, чтобы описать основные приемы в оценке предсказательной силы экзаменов, а также установить некоторые референтные значения, которые служили бы для нас критерием валидности ЕГЭ. Мы предполагаем, что долгая история разработки и апробирования содержания этих тестов, а также большой опыт в оценке их надежности и валидности, может служить гарантией того, что на полученные исследователями показатели качества SAT и ACT можно ориентироваться и при оценке ЕГЭ.

Общая оценка валидности SAT и ACT

Основной подход к анализу валидности SAT и ACT — оценка силы линейной взаимосвязи между результатами тестов и показателями успеваемости студентов в ВУЗе. Чаще всего в качестве показателей используются коэффициенты корреляции Пирсона, а также коэффициенты регрессионных моделей, где зависимая переменная — показатель успеваемости, а предикторы — баллы SAT или ACT.

Можно утверждать, что показатели валидности SAT и ACT очень близки. Средняя оценка коэффициента корреляции между результатами вступительных тестов и оценкой студента за весь период учебы находится между 0.35 и 0.46. Такие результаты дал мета-анализ результатов измерения связи стандартизированных экзаменов c успеваемостью в ВУЗе, проведенный в 2007 году на основании материалов большого количества статей (по некоторым изучаемым показателям количество анализируемых статей превышало одну тысячу, а количество анализируемых студентов в статьях варьировалось от 244 до 259 640 человек) (Kuncel, Hezlett, 2007). Но в различных исследованиях, в зависимости от характеристик выборки и ограничений моделей коэффициенты корреляции иногда превышают 0.5 (Patterson, Mattern, 2012), а в некоторых случаях взаимосвязь между баллами экзаменов и успеваемостью в ВУЗе оказывается вовсе статистически незначимой (Shaw, 2011). Соответственно, коэффициенты детерминации в регрессионных моделях с баллами SAT и ACT в качестве предикторов варьируются в пределах 0,15−0,25 (см., например (Rothstein, 2004)).

Устойчивость предсказаний на основе SAT и ACT

Исследования экзамена SAT, проводимые организацией-разработчиком College Board, по сути являются мониторинговыми, поэтому проводят исследования валидности экзамена из года в год на разных когортах студентов. Все исследования дают одинаковые результаты для разных когорт, что говорит о том, что предсказательная способность экзаменов SAT устойчива (см., например, (Patterson, Mattern, 2007) (Kobrin, Patterson, 2008)).

На основании результатов ACT однотипных, мониторинговых исследований не проводится, однако, в целом, измерения взаимосвязи дают схожие результаты (Radunzel, Noble, 2012) (Allen, Robbins, 2008).

Оценки в школе — лучший предиктор успеваемости в университете Выше были представлены показатели предсказательной валидности исключительно между результатами экзаменов и успеваемостью. Однако часто в исследованиях наряду с результатами вступительных испытаний SAT или ACT в моделях учитывается еще один предиктор — средняя оценка за весь период учебы в школе, HSGPA (High School Grade Point Average). Результаты всех исследований показывают, что средняя школьная оценка является лучшим предиктором успеваемости в ВУЗах, чем вступительные экзамены SAT или ACT, а совместный учет результатов вступительных экзаменов и средней школьной оценки в одной модели заметно улучшает ее предсказательную способность (Rothstein, 2004) (Sawyer, 2010). Так, коэффициенты детерминации регрессионных моделей, при учете HSGPA возрастает в среднем на 0.15 — 0.2 пункта (Rothstein, 2004) (Sawyer, 2010), то есть увеличивает предсказательную способность модели почти в два раза. Рассматривая HSGPA и баллы SAT и ACТ как отдельные предикторы, можно сказать, что HSGPA лучше связана с успеваемостью в ВУЗе, чем вступительные экзамены. (Patterson, Mattern, 2012). На основании этих результатов многие исследователи даже предлагают учитывать среднюю школьную оценку наряду со вступительными экзаменами (Atkinson, 2009).

Предсказания успеваемости на первом году учебы и долгосрочные предсказания Можно предположить, что с каждым новым годом сила связи вступительных тестов с успеваемостью должна ослабевать, но результаты исследований показывают, что коэффициент корреляции связи вступительных тестов с успеваемостью хотя и снижается к четвертому курсу, но не значительно: примерно на 0.1 (Patterson, Mattern, 2011) (Patterson, Mattern, 2012). Можно утверждать, что это свидетельствует о хорошей способности SAT и ACT делать долгосрочные предсказания успеваемости. Но здесь необходимо учитывать, что успеваемость на 1 курсе может самостоятельно оказывать значительное влияние на дальнейшую успеваемость студента: это подтверждается исследованиями, проведенными на примере ACT (Radunzel, Noble, 2012). По результатам анализа связи между показателями успеваемости до колледжа, результатами первого года учебы в колледже и показателей долгосрочной успеваемости исследователи сделали вывод о том, что на показатели долгосрочной успеваемости очень большое влияние оказывают результаты первого года учебы, при этом зависимость показателей долгосрочной успеваемости непосредственно от результатов вступительных экзаменов, хотя и значима статистически, но небольшая.

Зависимость предсказательной силы вступительных экзаменов от характеристик образовательного учреждения.

При анализе связи результатов вступительных экзаменов и успеваемости в колледже важно учитывать характеристики самих образовательных учреждений. Исследования предсказательной способности вступительных экзаменов, дифференцирующие университеты по основным характеристикам, регулярно проводятся исследователями, занимающимися изучением валидности SAT. Обычно для дифференциации колледжей выбираются следующие характеристики: тип ВУЗа (частный / государственный), селективность (доля зачисляемых абитуриентов) и размер (количество студентов).

Результаты исследований (Patterson, Mattern, 2011) (Patterson, Mattern, 2012) показывают, что, во-первых, вступительные экзамены лучше предсказывают успеваемость в частных, чем в государственных ВУЗах; во-вторых, это зависит от селективности университетов: чем выше селективность, то есть чем больше в них конкурс среди абитуриентов, тем лучше вступительные экзамены предсказывают успеваемость студентов; наконец, чем больше размер ВУЗа, то есть чем больше в нем учится студентов, тем лучше вступительные экзамены предсказывают успеваемость. Однако нужно учитывать, что в США все перечисленные характеристики университетов тесно связаны между собой: частные университеты являются, как правило, более селективными.

Показать весь текст

Заполнить форму текущей работой