Обратная связь

ТЕСТ ОБЩЕОБРАЗОВАТЕЛЬНЫХ ЗНАНИЙ: КОМПЬЮТЕРНОЕ АДАПТИВНОЕ ТЕСТИРОВАНИЕ

В отличие от предметно ориентированных тестов умственного развития (ТУР), описанных в предыдущей главе, в настоящей главе излагаются принципы создания Теста Общеобразовательных Знаний (ТОЗ). Если в различных вариантах ТУРа шкалы отражают прежде всего уровень сформированности определенных логических операций мышления, реализованных на материале понятий из школьных учебников (аналогии, обобщение и т. п.), то любые версии ТОЗ отражают в показателях по субшкалам достижения ученика по самим пред-

ОСНОВЫ ПСИХОДИАГНОСТИКИ

мотам школьной программы (математика, физика и

т. п.). Моли ТУР......междисциплинарный поихолого-

педагогический инструмент» то ТОЗ чисто педагогический инструмент, то есть педагогический тест достижений. Примеры-образцы отдельных заданий ТОЗ даются в параграфе «4.7.

Разработка ТОЗ для российской школы означает создание российского аналога SAT (Стоифордокий тест достижений или, как позднее его стали называть, — Школьный тест достижений), который, как известно, является в (ЛИЛ определенным стандартом федерального масштаба. Только наличие общефедераль-НОГО стандарта позволит обеспечить в России реальную эквивалентность аттестатов Зрелости, выяснить, в частности, объективную цепу невиданному количеству «медалистов», которые вдруг начинают

появляться в какой-нибудь рядовой и мало чем знаменитой школе где-нибудь в городе N-оке.

Программа создания и распространения российского ТОЗ должна, безусловно, учитывать как мировой опыт, так и специфику современной ситуации в России. Критики справедливо возражают: организационные решения, что стандартны для Запада в России могут не сработать из-за повиданного уровня «групповой сплоченности* (а попросту коррупции), имеющей место во всех слоях общества» в том числе; среди чиновников и учителей, занятых в системе образования.

Но и технологические возможности разработчиков тестовых методик не стоят на месте, Новые возможности, и прежде всего в плане обеспечения

информационной безопасности, дает компьютеризация.

Опишем здесь опыт решения проблемы создания ТОЗ, который накоплен в центре компьютерной психодиагностики «Гуманитарные технологии* при факультете психологии МГУ (руководитель центра —

■

Практический задачи школьной психодиагностики

А. Г. Шмелев). Данный материал поможет читателям не только сориентироваться в самой проблеме создания ТОЗ, но и получить опыт знакомства с кратким и типичным научным отчетом о проведении экспериментальной апробации некоторого теста в процессе его разработки, а также с перспективами использования компьютеров в процессе тестирования.

В отличие от Стэнфордского теста ТОЗ в своих субшкалах буквально повторяет названия учебных предметов и в этом смысле является формализованным компьютеризированным аналогом школьных выпускных и вузовских вступительных экзаменов.

С самого начала ТОЗ разрабатывается как принципиально компьютерный тест. Важнейшие его особенности таковы: наличие очень широкого компьютерного БАНКА ЗАДАНИЙ (длинного перечня) по каждому предмету и наличие особой программы ТЕСТОВОГО ДИАЛОГА, которая позволяет предъявлять каждому испытуемому по сути дела уникальную выборку заданий (вариант) из этого банка заданий. Далее сами авторы ТОЗ не знают, какие именно задания предъявит компьютер данному конкретному испытуемому. Если же кто-то получит доступ к тексту заданий ТОЗ, и расшифрует их кодировку, то для того, чтобы «обмануть» ТОЗ необходимо выучить не только правильные ответы к сотням заданий, но и научиться их отличать от ложных формулировок. Легче выучить стройно и логично написанный учебник, чем заниматься этой работой.

В первую версию ТОЗ, прошедшую апробацию на абитуриентах МГУ в 1995 году, вошло 360 заданий — по 45 заданий на каждый из 8 основных предметов школьной программы. Это математика, русский и литература, физика, химия, биология, история, география и иностранный язык (английский). В каждом задании испытуемому предлагалось 4 вари-

1 I • I

Основы психодиагностики

анта ответов, из которых 1 — правильный. В ра#!Р ботке заданий приняли участие независимые (не 31*** шие друг друга) учителя-предметники из московс*^**"^ школ и преподаватели МГУ, много лет участво***"¹шие в составлении и проверке заданий на встуГ*^и~ тельных экзаменах. Задания проходили анонимйУ¹⁰перекрестную предварительную экспертизу, и за**^вМлучшие из заданий были разбиты на однород*£*^,1еблоки по тематике и уровню сложности. По сод^Р" жанию йадания охватывают всю программу среди:с***⁰образования и ориентированы на выпускников шк^-⁷¹' абитуриентов вузов.

Испытуемый выполняет ТОЗ непосредственно **^акомпьютером. Программа тестирования (ТЕСТАН-^' «Гуманитарные технологии», 1995) последователь-**⁰предъявляет вначале 15 заданий по математике, заТ®^м15 — по русскому и литературе и т. д. — всего 1 320 заданий за 80 минут. Компьютер автоматические** контролирует расход времени на каждый предмет* ** при исчерпании лимита времени по одному предг/г**-ту программа начинает предъявлять задания по следующему предмету, засчитывая «пропуск» испытуемому по всем заданиям, на которые он не усгтол ответить (из предусмотренных 15).

По каждому предмету 15 заданий представляют

пять тематических блоков и 3 уровня сложности -Применяется алгоритм БЛОЧНОЙ РАНДОМИЗАЦИИ, т. е. частично случайного выбора заданий, ограниченного рамками блоков — определенных подмножеств заданий, среди которых каждый р«з производится случайный выбор. Вначале предъявлю!-ются 5 самых легких заданий, затем 5 заданий среднего уровня трудности, затем — 5 самых трудимся заданий. В результате даже плохо подготовленные и испытывающие волнение испытуемые получают возможность с самого начала «зацепиться», справитьо-яс по крайней мере с первыми простыми заданиям:**.

Практический задачи школьной психодиагностики

Сильные испытуемые получают серьезное испытание на последней пятерке заданий. Здесь-то и проявляется различие между настоящими отличниками и «хорошистами». Самые слабые, как правило, просто не успевают приступить к пятерке самых трудных заданий, так как им не хватает времени.

Реальная трудность задания проверялась в пилотажном эксперименте и после этого корректировалась. В число легких попадали задания, с которыми справлялись более 70 процентов испытуемых, в числе трудных — с которыми справлялись менее 30 процентов испытуемых, остальные причислялись к средним по уровню трудности.

Схема начисления очков в ТОЗ-1 при расчете суммарного балла такова:

за правильный ответ — 4 очка,

за пропуск задания — 1 очко,

за ошибочный ответ — 0 очков.

Такая схема вносит необходимую поправку на вероятность случайных правильных ответов, которые по теории вероятности возможны с вероятностью 0,25.

После завершения такого нелегкого испытания испытуемые могли вспомнить только 10, максимум 25 процентов из предъявленных им заданий, но, конечно, не могли пересказать своим друзьям точные формулировки фальш-альтернатив (ложных ответов, или так называемых «дистракторов»). И если теоретическая вероятность повторения одного и того же задания у двух испытуемых равнялась 0,33-15 ~ 5 заданиям, то практически крайне редко два испытуемых могли вспомнить больше одного одинакового задания. Даже после интенсивного обсуждения впечатлений от теста между собой у испытуемых оставалось полное впечатление, что тест включает сотни заданий по одному предмету. Естественно, что при дальнейшем наращивании банка заданий в ТОЗ-2 та-

Основы психодиагностики

кое впечатление будет еще более усиливаться.

ТОЗ-1 имеет ряд модификаций для специальных групп абитуриентов- Например, версия ТОЗ-ПСИ (для абитуриентов психологического факультета) включала по 90 заданий всего по 3 предметам, входящим в состав вступительных экзаменов на факультет психологии МГУ: математика, русский и литература, биология. Каждый абитуриент отвечал за 50 минут на 90 заданий (по 30 на каждый предмет).

На этих абитуриентах факультета психологии проверялась, в частности, прогностическая валидность ТОЗ в отношении успешности сдачи вступительных экзаменов. Общая корреляция суммарного балла ТОЗ с суммарным баллом по вступительным экзаменам оказалась равной 0,61. При этом почти такое же значение достигла эта корреляция для субтеста «математика» (0,57). А вот с оценкой по сочинению балл по субтесту «словесность» коррелировал просто плохо. Сказалось, видимо, два обстоятельства: слабые представления абитуриентов о том, что такое «раскрыть тему», и высокая степень лотерейности в вариантах формулировок этих тем (вполне грамотным и в целом начитанным абитуриентам приходилось писать сочинения по авторам и произведениям, которых они либо никогда не читали, либо забывали и не успели повторить). Таким образом, невысокую суммарную корреляцию можно интерпретировать, в частности, как следствие низкой надежности не столько ТОЗ, сколько самого критерия — ведь элемент случайности на вступительных экзаменах выражен даже сильнее, чем в ТОЗ. За это говорит и факт резкого возрастания корреляции с результатами экзаменов для крайних групп по ТОЗ (самых успешных и самых неуспешных). Так, например, НИ ОДИН испытуемый с баллом ниже 50 процентов правильных ответов по ТОЗ не смог пройти на факультет психологии МГУ по конкурсу (конкурс был, как

ш ш

Практические задачи школьной психодиагностики

всегда, высоким — выше 7 человек на место). А самые лучшие абитуриенты по ТОЗ практически все успешно прошли конкурс.

Таким образом, на шкале ТОЗ можно найти граничные точки для «высшей» и «низшей» группы, позволяющие прогнозировать успешность при сдаче экзаменов с высокой степенью надежности — близкой к 0,95. Можно сказать, что для заведомо сильных и заведомо слабых учащихся будущие экзамены не оказываются «лотереей»: одни надежно их сдают, другие — надежно «проваливают». «Лотереей» с элементом везения-невезения экзамен становится для «середнячков», которые освоили учебную программу выборочно, частично.

Вопрос о «конкурентной валидности» ТОЗ по сравнению с вступительными экзаменами (т. е. позволяет ли ТОЗ лучше или хуже прогнозировать успешность обучения в вузе) может быть разрешен только после многолетнего, так называемого «лонги-тюдного» наблюдения за тем, как будут учиться в вузе студенты, прошедшие ТОЗ в 1995 году.

Конечно, версия ТОЗЛ есть только первый шаг к созданию.эталонной методики такого типа. Она нуждается в существенной модернизации, масштабной апробации и накоплению репрезентативных норм, чтобы занять место федерального стандарта в данной области.

Адаптивное тестирование

Планируемая версия ТОЗ-2 должна включать уже не менее 200—300 заданий по каждому предмету, а также опираться на более совершенный программный алгоритм, использующий принципы так называемого АДАПТИВНОГО ТЕСТИРОВАНИЯ.

Адаптивным тестированием называется такая

Основы психодиагностики

диалоговая тестовая программа, которая изменяет порядок предъявления тестовых заданий в зависимости от результатов выполнения испытуемым уже предъявленных заданий. Когда опытный экзаменатор проводит устный экзамен, он фактически всегда применяет некий упрощенный интуитивный вариант адаптивного тестирования. После первых удачных ответов экзаменующегося экзаменатор старается задать вопрос посложнее, и если учащийся справляется и с этим сложным вопросом, то экзаменатор, вполне,справедливо экономя свое собственное время, ставит учащемуся оценку «5». После первых же ошибочных ответов экзаменатор, наоборот, «снижает планку» — задает самый простой вопрос, и если учащийся не справляется и с этим простейшим вопросом, то экзаменатор ставит учащемуся оценку «2». Таким образом, для выявления крайних случаев требуется гораздо меньше тестовых заданий при обеспечении практически того же уровня надежности. Дольше времени надо потратить и большее количество вопросов задать в случае «середнячков», которые с одними заданиями справляются, а с другими нет, так как освоили учебную программу не полностью. Смысл адаптивности в алгоритме тестирования в том, что тест адаптируется, настраивается на доступный испытуемому уровень сложности и тем самым быстрее локализует его истинный тестовый балл на шкале измеряемого свойства.

Конечно, 15 заданий по одному предмету — это мало, эта выборка заданий не обеспечивает полноценный охват всей учебной программы. Но если эти задания различаются по сложности хотя бы на 3 уровня, то возникает возможность для применения следующего упрощенного (и потому понятного начинающим) адаптивного алгоритма. После первой пятерки самых простых заданий программа сразу же подсчитывает процент правильных ответов. Если

Практические задачи школьной психодиагностики

решены все 5 заданий, то программа сразу переводит испытуемого на самый высокий уровень трудности- Если решены от 2 до 4 заданий, то программа переводит испытуемого на средний уровень трудности. В противном случае испытуемый остается на первом уровне трудности. На втором этапе программа применяет аналогичную логику. С теми, кто справился с 4—5 заданиями высшего уровня трудности, тестирование можно прекращать и ставить балл, учитывающий общий процент решенных задач с учетом их цены (более трудные имеют, конечно, более высокую цену). Если же на высшем уровне трудности испытуемый допустил более одной ошибки, то тестирование продолжается уже на среднем уровне трудности. Те испытуемые, которые долго остаются на среднем уровне, выполняют тест значительно дольше — пока колебания их текущего балла (процента правильных ответов) не стабилизируются в рамках пренебрежимо малого интервала, равного ошибке измерения.

«ТРЕХУРОВНЕВЫЙ АЛГОРИТМ», подобный описанному выше, позволяет при предъявлении в среднем 15 заданий добиваться такой же точности-надежности, как и тест со сплошным предъявлением 45 заданий, не учитывающий уровень трудности заданий. То есть, огрубленно говоря, введение трех уровней трудности и оптимального алгоритма перехода с уровня на уровень позволяет втрое сократить расходы на продолжительность тестирования.

Впрочем, выигрыш от адаптивности состоит не только в экономии времени, но и в информационной безопасности. Чем меньше заданий предъявляется одному испытуемому из банка заданий, тем менее становится «прозрачным», обозримым для испытуемых весь банк заданий.

Постепенное расширение банка заданий и создание специализированных версий ТОЗ для более млад-

Основы психодиагностики

ших классов будет создавать у детей привычку к выполнению таких процедур контроля знаний. Применение тематической блочной структуры в рамках одного предмета, наряду с адаптивными алгоритмами тестирования, не только сэкономит дорогое компьютерное время в компьютерных классах, но и позволит быстро и надежно локализовать «проблемные» зоны — провалы в усвоении материала у данного конкретного ученика.

Если тестовые задания не классифицированы по уровню сложности, то при применении компьютеров возможность для использования адаптивного тестирования в принципе сохраняется. В частности, может быть использован простейший АЛГОРИТМ «СХОДЯЩИХСЯ ПОРОГОВ». После предъявления какого-то начального набора заданий (минимально тематически представительного для данной учебной дисциплины) компьютерная программа начинает постоянно сравнивать (после каждого нового задания) текущий процент правильных ответов, показанный испытуемым, с двумя порогами — высоким порогом «зачета» и низким порога «незачета». Те испытуемые, которые хорошо овладели учебным материалом и достигли за минимальное число тестовых заданий верхнего порога (например, в 90 процентах правильных ответов), быстро получают «зачет» и освобождаются от дальнейшего тестирования. Так же быстро «освобождаются» те испытуемые, которые заведомо на выучили материал, и их ответы мало чем отличаются от случайного гадания (поначалу порог незачета может быть низким — в 40—50 процентов). Остальные испытуемые, попавшие в область неопределенности между двумя порогами, продолжают выполнение теста. С каждым новым заданиям два порога сближаются. Так что при исчерпании всех заданий, предназначенных для одного испытуемого (это не менее 40 за сеанс), каж-

Практические задами школьной психодиагностики

дый испытуемый либо попадает в группу успешных, либо в группы неуспешных (к последней относятся также те, кто не уложился с выполнением теста в отведенный временной лимит). Такая простейшая схема адаптивного тестирования обеспечивает серьезную экономию времени при проведении простейшей недифференцированной оценки уровня знаний («зачет/незачет»). Она может быть полезной и экономичной, например, в ситуации квалификационного отбора (селекции) кандидатов в группы, с которыми в дальнейшем производится более тонкая диагностика или специализированное дорогостоящее и индивидуализированное обучение.

В заключение подчеркнем, что адаптивное тестирование — такой подход к компьютерному тестированию, который фактически позволяет привнести в стандартные групповые тесты элементы индивидуализации, учета индивидуальных особенностей данного испытуемого в процессе тестирования. Границы применения адаптивного тестирования не замыкаются на проверке знаний или способностей. В принципе, подобный подход с определенными модификациями вполне применим и для тестирования сферы интересов, установок и черт личности.

Ключевые термины: тест общеобразовательных знаний (ТОЗ), банк заданий, тестовый диалог, дис-трактор, блочная рандомизация, конкурентная ва-лидность, лонгитюдное исследование, адаптивное тестирование, трехуровневый алгоритм, алгоритм сходящихся порогов.

Основы психодиагностики

Предыдущая 10 11 12 13 14 15 161718 19 20 21 22 23 24 25 Следующая

ТОП 5 статей:

Экономическая сущность инвестиций - Экономическая сущность инвестиций – долгосрочные вложения экономических ресурсов сроком более 1 года для получения прибыли путем...
Тема: Федеральный закон от 26.07.2006 N 135-ФЗ - На основании изучения ФЗ № 135, дайте максимально короткое определение следующих понятий с указанием статей и пунктов закона...
Сущность, функции и виды управления в телекоммуникациях - Цели достигаются с помощью различных принципов, функций и методов социально-экономического менеджмента...
Схема построения базисных индексов - Индекс (лат. INDEX – указатель, показатель) - относительная величина, показывающая, во сколько раз уровень изучаемого явления...
Тема 11. Международное космическое право - Правовой режим космического пространства и небесных тел. Принципы деятельности государств по исследованию...