Описанный здесь подход явился несомненным шагом вперед в плане создания более удобной, более стандартизированной и легкой в использовании шкалы, чем шкалы, применявшиеся ранее в Централизованном тестировании (см. Нейман, Хлебников, 2000). В целом данный подход вполне находится в русле мировых научных тенденций в области педагогических измерений. Наиболее ценным следствием этого подхода для практиков явился тот факт, что определенным отрезкам шкалы тестовых баллов фактически поставлены в соответствие определенные вероятности эмпирической встречаемости учащихся с определенным уровнем подготовки. Это облегчает приемным комиссиям вузов планирование приема по результатам ЕГЭ. Вот как примерно выглядит соответствие между определенными точками на шкале тестовых баллов ЕГЭ и процентильными баллами (процентами от выборки испытуемых, выполнявших тест – см. словарь Балыхина, 2000)
Таблица 1.
Ниже 30 | Ниже 40 | Выше 50 | Выше 60 | Выше 70 |
Менее 10 процентов | Менее 25 процентов | 50 процентов | Менее 25 процентов | Менее 10 процентов |
Теперь посмотрим, как обстоит в этом отношении дело в западных странах с развитыми традициями использования количественных шкал для оценки образовательных достижений.
Самые популярные шкалы оценки образовательных достижений в западных странах отличаются от нашей традиционной пятибалльной шкалы (на самом деле четырехбалльной) наличием двух совмещенных систем – очковой (scores) и отметочной (grades). Очковая система, как правило, выглядит как 100-балльная шкала, а отметочная задается в простейшем случае путем равномерного деления 100-балльной (Gronlund, Linn, 1990):
Taблица 2.
0 – 20 | 21 – 40 | 41 – 60 | 61 – 80 | 81 – 100 |
E | D | C | B | A |
Такой подход позволяет более тонко дифференцировать оценки внутри каждой отметки (категории достижений) – 20 ступенек внутри категории «А», столько же внутри «В» и т.п. Хотя следует отметить, что в чистом виде такой подход скорее применяется лишь для текущего, но не для итогового контроля.
В плане итогового контроля особого внимания заслуживают 2 разные традиции, представленные американской и британской школами. В США педагогические измерения развивались в 20 столетии в большей мере под влиянием психометрики. В США уделялось больше внимания тестам с выбором ответа, так как последние позволяют применять более строгие математико-статистические модели анализа результатов (Standards for educational and psychological tests, 1974). В Великобритании развивалась традиция, придающая большее значение экзаменованию продуктивных умений – способности к выводу теорем, порождению текста, обоснованию ответа и т.п. В этом смысле британская школа ближе к нашей отечественной. Но, как мы увидим ниже, подход к шкалированию результатов ЕГЭ оказался у нас пока ближе к американскому.
Как известно, в США не существует централизованной государственной системы образовательных экзаменов. Но при этом огромной популярностью пользуются тесты, разработанные в ETS (Education Testing Service) - фирмой-лидером в данной области. Миллионы американских выпускников школ, желающих поступить в университеты, выполняют тест SAT (Scholastic Aptitude Test, 1998), разработанный ETS и проходящий ежегодное обновление (каждый год появляются новые варианты SAT – подобно тому, как ежегодно обновляются задания ЕГЭ). Результаты теста SAT выражаются на шкале тестовых баллов с параметрами 500+/-100 (аналогичная шкала применяется в более широко известном в России теста TOEFL, также разработанным фирмой ETS). Применяемая при шкалирования процедура форсированной нормализации (с помощью функции обратного нормального интеграла) дает однозначное соответствие между определенными точками на шкале SAT стандартизированных баллов и процентильными баллами
Таблица 3.
Ниже 300 | Ниже 400 | Выше 500 | Выше 600 | Выше 700 |
Менее 3-х процентов | Менее 16 процентов | 50 процентов | Менее 16 процентов | Менее 3-х процентов |
Следует отметить, что тысячебалльная шкала с параметрами 500+/-100 использовалась нами в России в 1997-2001 гг. для фиксации результатов компьютерной олимпиады «Телетестинг» (см. Шмелев, 2000). Выбор подобной шкалы был продиктован использованием в «Телетестинге» (также как и в тесте SAT) исключительно заданий с выбором ответа.
Сравнивая таблицу 1 и таблицу 3, мы можем, казалось бы, констатировать высокую степень сходства двух подходов - российского и американского. Более того таблица 1 кажется даже более удобной для практического использования. Но тут же стоит зафиксировать 2 существенных различия:
Американская шкала SAT оперирует 1000-балльной, а не 100-балльной системой оценок, что исключает риск неправильных ассоциаций с процентами и подталкивает к явному использованию таблицы.
2) Нынешняя шкала российского ЕГЭ в силу специфики алгоритма шкалирования не всегда подчиняется закономерности, описанной в таблице 1 (об этом мы уже писали выше).
Итак, теперь рассмотрим, как обстоит дело со шкалированием в Великобритании – в стране, в которой первые специализированные организации, занимающиеся разработкой экзаменационных технологий, созданы уже полтора века назад (Экзаменационный синдикат в Кэмбридже, например). В этой стране выпускники основной школы сдают экзамен GCSE – на «общий сертификат о среднем образовании». Эта система экспортируется в десятки стран мира, причем не только те, которые входят в Британское содружество наций (Cambridge International Examination, 2000). По каждому предмету экзамен состоит из частей, в которых собраны задания определенного типа: на выбор ответа, с кратким ответом, структурированные вопросы, с развернутым ответом, эссе, практические работы. На каждую часть экзамена отводится определенное время. За каждую часть присваивается определенное количество очков в процентах к общему баллу. В некоторых случаях балл GCSE набирается по принципу «портфолио» («портфель достижений»), так как включает накопление очков за выполнение практических работ, за получение определенных оценок в школе и т.п. Практически по каждому предмету существует 2 версии экзаменов по уровням: «ядерный» (core) и «расширенный» (extended), что у нас чаще обозначается в терминах курсов или учебных программ - «базовый» и «углубленный». Расширенный вариант, как правило, включает ядерный как подмножество. Достижения по выполнению «ядерного» варианта фиксируются на 100-балльной шкале очков, а по выполнению «расширенного» варианта – на 200-балльной шкале (хотя и не всегда). Причем считается, что учащийся, который сдает экзамен на расширенном уровне набирает больше 100 процентов очков (!). Затем 200-балльная шкала GCSE по каждому предмету разбивается на 8 градаций (grades) по уровням достижений: A+, A, B, C, D, E, F, G. Учащиеся не обязаны выполнять экзамен в «расширенном» варианте, но это ограничивает их достижения. Выполнение экзамена на «ядерном» уровне дает возможность получить градации (отметки) не выше С. Для получения более высоких оценок следует выполнять «расширенный» вариант экзамена.
ЕГЭ стал не только педагогическим, но и социальным экспериментом, затронувшим все слои общества от ученика до маститого профессора. Пока еще рано говорить о том, удачен ли эксперимент в масштабах России или нет.
Декларируемыми целями ЕГЭ являются:
формирование объективной оценки подготовки выпускников общеобразовательных учреждений;
повышение доступности профессионального образования, в первую очередь, для молодежи из малообеспеченных семей и отдаленных от вузовских центров мест проживания;
повышение объективности вступительных испытаний приемы в ВУЗы и СCУЗы;
обеспечение преемственности общего и профессионального образования;
обеспечение государственного контроля и управления качеством образования на основе независимой оценки подготовки выпускников.
Задачу, которую сегодня призван решить ЕГЭ, другими способами решить нельзя. Что такое для нас ЕГЭ? Это, во-первых, внешняя экспертиза по единым правилам, это способ создать определенные тенденции в развитии системы образования, это способ управлять качеством системы, ввести элементы конкуренции в систему образования, это способ анализа эффективности работы системы и учреждений.
Под тестом учителя нередко понимают программированную контрольную работу. В действительности тестированием может быть названа процедура измерения любой характеристики человека, если предварительно она прошла через технологию определения валидности и надежности. При создании тестов кроме функциональной валидности надо обеспечить их соответствие другим требованиям:
содержательной валидности, т.е. соответствия содержанию обучения, отраженного в логической структуре и выраженного вполне определенными учебными элементами;
простоты, означающей, что в одном тесте должна быть представлена одна задача данного уровня;
определенности, что означает необходимость ясного и недвусмысленного формулирования задания теста, обеспечивающего его общепонятность для испытуемых;
однозначности обеспечиваемого конструкцией эталона, в котором должно содержаться полное и правильное решение задачи.