Стандартизированные шкалы. Шкалирование и интерпретация результатов тестирования

💖 Нравится? Поделись с друзьями ссылкой

Оценка физического развития детей по шкале Z - score

Составной частью любой программы исследования здоровья и питания детей как на популяционном уровне, так и при оценке питания и здоровья индивидуума является отслеживание антропометрических параметров детей в сравнении со стандартными кривыми роста. Всемирная Организация Здравоохранения рекомендует метод оценки состояния питания детей на основе использования показателей тотальных размеров тела (длины и массы тела). Оценка антропометрических данных заключается в расчете числа стандартных отклонений (Со или s), на которое исследуемый показатель массы или длины тела отличается от медианы стандартной популяции (международные стандарты ВОЗ рассчитаны на данных исследования антропометрических параметров детей США и Великобритании). Рассчитанную величину стандартного отклонения называют Z - score или Z-балл.

Антропометрические данные каждого ребенка характеризуются своей величиной Z - score. Если данные антропометрии ребенка меньше медианы стандарта, то Z - score будет иметь отрицательную величину, если показатели выше медианы, то Z - score будет положительным.

Величину Z - score рассчитывают для трех показателей:

1. Масса тела для возраста - Мт/В,

2. Длина тела для возраста - Дт/В,

3. Масса тела для длины тела - Мт/Дт.

Показатель Мт/Дт применяется только в возрасте до 10 лет у девочек и до 11,5 лет у мальчиков.

Для диагностики определены пограничные значения СО, которые позволяют выделить следующие варианты оцениваемых показателей:

— низкие (н), характеризующие недостаточную ДТ и МТ - устанавливаются при значениях СО менее -2;

— высокие (в) , характеризующие избыточную ДТ и МТ - устанавливаются при значениях СО более +2;

— нормальные (нм) - устанавливается при значениях СО в диапазоне от -2 до +2;

Показатель длина тела для возраста характеризует линейный рост и оценивает долгосрочную задержку роста, т.е. Z - score менее -2 может свидетельствовать о хронической недостаточности питания, приведшей к задержке роста.

Z - score масса тела для длины тела отражает пропорции тела или гармоничность развития, и он очень чувствителен к острому недоеданию.

Z - score масса тела для возраста чувствителен к острому нарушению питания и отражает недоедание ребенка в настоящее время или в ближайшем прошлом.

Для обработки антропометрических данных и расчета индексов ВОЗ разработана и распространяется бесплатно специальная компьютерная программа ANTHRO v.1.01, 1990 г. Программа автоматически учитывает возраст ребенка в месяцах. Практически при использовании программы необходима регистрация даты рождения и даты обследования ребенка.

Для группы или популяции детей может быть рассчитана и статистически оценена величина группового Z - score. Величина Z - score в стандартной популяции равна нулю. Чем больше величина Z - score в исследуемой популяции отличается от нуля, тем больше различия исследуемой группы детей от эталонной популяции. Величина группового Z - score может использоваться для сравнительного анализа детских контингентов и в системе мониторинга состояния здоровья.

Лекция 16. Шкалирование результатов тестирования.

1.Задачи шкалирования.

2.Построение шкал.

3.Виды шкал в образовании.

4.Шкалирование результатов тестирования на основе теории IRT .

5.Шкалирование в критериально-ориентированном тестировании.

1. Задачи шкалирования.

Для чего и когда следует использовать процедуру шкалирования. Для обоснованного сопоставления результатов учащихся между собой тестовые баллы в соответствии с рядом критериев и норм (число правильно выпаженных заданий при дихотомической оцен­ке результатов выполнения каждого задания, сумма оценок по отдельным заданиям при политомической, или взвешенной, оцен­ке) переводятся в производные показатели при помощи процеду­ры, которая получила название шкалирования.

Таким образом, процесс шкалирования состоит в преобразо­вании сырых баллов в производные показатели, обеспечивающие адекватную интерпретацию и сравнение результатов выполнения педагогических тестов .

Современная трактовка процесса шкалирования. Процесс шка­лирования включает в себя различные процедуры. В простейшем случае под шкалированием понимается отображение сырых бал­лов на готовую шкалу, производимое по "определенным прави­лам.

Перевод сырых баллов в производные показатели и их разме­щение на готовой шкале не могут повысить надежность и валид ность данных по тесту.

В современной литературе по теории педагогических измере­ний встречается расширенное понимание процедуры шкалирова­ния, в которую включают конструирование шкалы по определен­ным правилам и последующее преобразование исходных эмпири­ческих данных для помещения их на данную шкалу. Таким обра­зом, согласно расширенной трактовке, шкалирование включает ряд последовательных этапов, охватывающих все компоненты пе­дагогических измерений, и имеет связь с качеством результатов.

2. Построения шкал для педагогических измерений

Этапы Шкалирования . При трактовке процесса шкалирования в расширенном варианте можно выделить четыре основных этапа построения измерительных шкал в образовании для ситуации блан­кового тестирования и обобщенного случая измерений:

Этап 1 - определение цели измерения, выбор конструкта, размерности и содержательной области, адекватно описывающей конструкт.

Этап 2- разработка заданий и экспертное обоснование их качества, экспертное оценивание адекватности содержания зада­ний конструкту, определение первоначальной длины теста.

Этап 3 - апробация, эмпирический анализ качества теста, чистка и коррекция измерителя для повышения надежности и валидности шкалы, проверка размерности пространства измерений или доказательство одномерности теста,

Этап 4 - подтверждение качества шкалы и анализ возможно­сти ее использования для представления результатов учащихся по тесту.

Последний этап начинается с построения устойчивой шкалы, выбранной в соответствии с целями измерения и подходом к со­зданию теста. При последующем использовании теста сырые бал­лы учеников отображаются на готовой шкале, Особую важность на данном этапе имеет процедура выравнивания результатов педаго­гических измерений, полученных учащимися по разным вариан­там теста.

Необходимость выравнивания может быть не совсем понятна педагогу-практику, поскольку е школе принято выдавать суще­ственно различающиеся но трудности варианты контрольных ра­бот, а затем присваивать одинаковые оценочные эквиваленты раз­ным, зачастую несопоставимым, результатам учащихся. В практи­ке педагогических измерений утвердилась другая норма сравне­ния и интерпретации результатов испытуемых, основанная на вы­равнивании, которое представляет собой статистический метод преобразования оценок испытуемых по различным вариантам для обеспечения их сопоставимости.

3. Виды шкал в образовании

Общие цели шкалирования. Процесс шкалирования реализует разные цели в зависимости от подхода, выбранного к разработке теста. При нормативно-ориентированном подходе шкалирован­ные показатели позволяют уточнить место, занимаемое резуль­татом испытуемого относительно норм, или сравнить результа­ты испытуемых, установив место результата каждого учащегося по отношению к результатам остальных учащихся, выполняв­ших этот тест

При критериально-ориентированном подходе шкалированный балл показывает процент освоенного содержания и место результата учащегося в сравнении с критериальным баллом. Перечис­ленным целям отвечают разные шкалы, которые можно постро­ить по результатам выполнения теста.

Шкала перцентильных рангов . Перцентильный (процентильный) ранг для каждого балла определяется процентом испытуемых, которые выполнили столько же или меньше заданий теста. На­пример, если 30 % учащихся выполнили верно по 20 заданий те­ста и получили за каждое из них по одному баллу, то сырой балл «20» соответствует 30-му перцентилю. Таким образом, перцентиль показывает относительное положение испытуемого в выборке уча­щихся, которая выполняла тест. Чем ниже перцентильный ранг результата испытуемого, тем хуже его результаты по сравнению с другими тестируемыми группы.

Перцентили выше 50-го представляют результаты выше сред­него по выборке, а перцентили ниже 50-го - ниже среднего, если в качестве средней нормы выступает медиана, которой соот­ветствует 50-й перцентиль. Для 25-го и 75-го перцентилей суще­ствуют специальные названия: 1-й и 3-й квартили соответственно. Они отсекают нижнюю и верхнюю четверть распределения тесто­вых баллов, поэтому их выделение удобно для сравнения резуль­татов данного тестировании с распределениями результатов по другим тестам.

Бели шкала перцентилей построена на выборке стандартиза­ции, то, используя ее, легко определить ранг каждого учащегося, выполнявшего в другое время тот же тест. Для этого достаточно подсчитать его сырой балл и по готовой таблице соответствия найти соответствующий перцентиль. Первичный балл, который ниже любого результата в выборке стандартизации, будет иметь нуле­вой перцентильный ранг. Результат, превышающий любой другой в выборке, получит перцентильный ранг 100. Конечно, оба эти результата не говорят о нулевом или абсолютном результате вы­полнения теста. Перцентили не следует путать с обычными про-< центными показателями, которые при дихотомическом оценива­нии результатов выполнения отдельных заданий представляют собой выраженную в процентах долю правильно выполненных заданий теста. В отличие от обычных процентов перцентиль явля­ется производным показателем, который оценивается в единицах процента испытуемых.

Перцентили имеют несомненные достоинства - они удобны в подсчете и просты в интерпретации. Помимо достоинств перцентильные ранги имеют два существенных недостатка. Во-первых, они являются значениями порядковой шкалы, так как показыва­ют относительное положение каждого индивида в нормативной выборке, а не определяют величину истинного различия между результатами отдельных испытуемых группы. Во-вторых, пер­центили не только не отражают, но даже искажают реальные различия в результатах выполнения теста. Это связано с особеннос­тями распределения перцентилей, имеющего прямоугольный ха­рактер. В этой связи небольшие отклонения от среднего в центре распределения наблюдаемых баллов будут значительно увеличены перцентилями, в то время как относительно большие отклонения на краях кривой нормального распределения будут сжаты.

Стандартные показатели. Z -шкала. При выборе метода шкали­рования часто обращаются к стандартным показателям, указыва­ющим отличие индивидуального результата испытуемого от сред­него балла повыборке в единицах стандартного отклонения. Эти показатели используются для установления места первичного бал­ла каждого испытуемого в сравнении с результатами других на основе подсчета нормированных отклонений и называются z -оценками. Результат отображения z -оценок на числовую ось образует Z -шкалу.

Для перевода в Z -шкалу сырой балл i -го испытуемого преобра­зуется по формуле

где X i - сырой балл i -го испытуемого; X - среднее значение индивидуальных баллов N испытуемых группы; S x - стандартное отклонение. Поскольку среднее значение X вычитается из каж­дого исходного значения X i , то новое среднее в Z -шкале - z - будет равно нулю, а стандартное отклонение благодаря нормиро­ванию будет равно единице.

Если величина разности X i - X , стоящей в числителе дроби, больше 0, то результат i -го испытуемого выше среднего по тесту. В противном случае индивидуальный балл i -го испытуемого ниже среднего. В силу линейного характера преобразований при получе­нии г-оценок все свойства исходного распределения сырых бал­лов переносятся на множество шкалированных баллов.

Использовать Z -шкалу можно для любого распределения ин­дивидуальных баллов. Особенно удобны z -оценки в случае близо­сти распределения первичных баллов к требованиям нормального закона, поскольку можно заранее предсказать процент результа­тов, лежащих в пределах одного и двух стандартных отклонений под кривой нормального распределения. Несомненным достоин­ством Z -шкалы является общая средняя арифметическая и общая мера вариации данных, позволяющие достичь сравнимости ре­зультатов по разным тестам.

Однако помимо явных достоинств есть и недостатки. Отрица­тельные и дробные оценки, которые нередко получаются при вычитаний среднего и деления на стандартное отклонение, мало­пригодны для сообщения результатов тестирования испытуемых группы. Поэтому применяются специальные, методы линейного преобразования z -оценок для перевода их на множество целых положительных чисел.

Шкалы стандартных оценок, полученных на основе линейных преобразований Z - шкалы. Для перевода - оценок в область поло­жительных целых чисел выбираются новые значения среднего арифметического (М) и стандартного отклонения (σ). Они сохраняют все различия между баллами испытуемых, выявленные в Z -шкале, но позволяют избавиться от отрицательных и дробных значений z благодаря умножению каждой z -оценки на одно и то же число, а также прибавлению общей константы и последующему округлению. Для преобразования z -оценок используется формула

z 1 =M + σ z (19)

где М - новое среднее арифметическое; σ - новое стандартное отклонение.

В качестве значений M и σ в формуле (19) можно использовать любые удобные числа. Например, для шкалы IQ эти значения равны 100 и 15. Поэтому z IQ =100+15 z . Другое линейное преобразование c M = 50+10 z переводит значения z в стобалльную T -шкалу по формуле Т = 50 + 1 0 z . Эта шкала позволяет избавиться от дроб­ных и отрицательных значений только в том случае, если значе­ния z лежат в интервале от -5 до +5 и имеют один знак после запя­той. В противном случае, если показатели подсчитаны с точнос­тью до сотых, необходимо последующее округление T -показателей, что может привести к снижению дифференцирующего эф­фекта теста.

Для шкалы СЕЕВ по тестам SAT (Scolastic Aptitude Test ), разра­ботанным Советом по приемным экзаменам в колледжи, z -оценки пересчитывают c я со средним М = 500 и σ = 100 по формуле z CEEB = 500 + 100 z . Значению z = -1 будет соответствовать значение z CEEB = 500 + 100 (-1) = 400. A при z = +1 т- z CEEB = 600. Таким образом, в шкале СЕЕВ все дробные z -оценки превращаются в целые и попадают в интервал (0; 1000) в тех случаях, когда Z лежит в интервале (-5; +5). Так же в тысячебалльную шкалу пере­водятся оценки результатов выполнения таких известных в мире тестов, как GRE (Graduate Record Examination ) и. др.

Сопоставимость и выравнивание. Поскольку обеспечение сопо­ставимости результатов педагогических измерений является од­ной из главных причин перехода от сырых баллов к производным показателям в процессе шкалирования, то возникает вопрос о возможности сравнения z -оценок, полученных на основе различ­ных вариантов тестя. Ответ на этот вопрос на теоретическом уров­не носит, несомненно, положительный характер в тех случаях, когда сравниваются z -оценки по параллельным вариантам одного и того же теста. Однако на практике из-за неизбежных отклоне­ний от требований параллельности и существования ошибок из­мерения для повышения сопоставимости оценок испытуемых обыч­но используют процедуру выравнивания.


Рис. 33. Сопоставление шкал

В отдельных случаях возникает необходимость сравнения отно­сительного положения испытуемых, полученного в различных шкалах и по различным тестам. Если результаты тестирования имеют нормальное распределение, а выстроенные шкалы основа­ны на идентичных выборках испытуемых, такое сравнение можно провести с помощью рис. 33.

Чтобы добиться сопоставимости результатов тестирования в ситуации отличия распределений баллов от нормального закона, необходимо преобразование, изменяющее вид кривой распреде­ления с целью приближения ее к виду нормальной кривой.

Нормализация данных тестирования. Для нормализации данных тестирования используется нелинейное преобразование, позво­ляющее придать эмпирическому распределению желаемую форму нормальной кривой. С этой целью вводятся нормализованные стандартные показатели, соответствующие распределению, преобра­зованному так, что оно аппроксимируется формой нормальной кривой. Их значения могут быть найдены с помощью таблиц, в которых приводится процент случаев различных отклонений в единицах от среднего значения для нормальной кривой.

Преобразование сырых баллов к нормальному распределению осуществляется способом, получившим название пробшп-преобразования . В рамках процедуры преобразования баллов сначала для каждого сырого показателя определяется кумулированная час­тота, которая представляет собой сумму всех частот, лежащих ниже данного сырого показателя. Затем к ней добавляется половина ко­личества испытуемых, имеющих этот сырой балл. По этим данным вычисляется кумулированная доля путем деления полученной сум­мы на общее число испытуемых выборки. Затем по статистическим таблицам, содержащим значения площади под кривой нормально­го распределения, находят значения нормализованных стандарт­ных Показателей для каждой кумулированной доли |63].

Нормализованный стандартный показатель, как и линейно пре­образованный стандартный показатель, имеет среднее значение «О», а стандартное отклонение - «1». Результат учащегося в «-1» балл можно интерпретировать как превосходящий приблизитель­но 16% результатов группы, а в «+1» балл - как превосходящий 84 % всех результатов.

Шкала станайнов, стенов и другие шкалы. Нормализованным стандартным показателям, так же как и линейно преобразован­ным, стараются придать удобную форму, пригодную для сообще­ния испытуемым. Для этого используют шкалы стандартных деся­ти или девяти единиц. Разбиение нормального распределения на девять интервалов приводит к шкале станайнов, имеющей девять стандартных единиц. Название «станайн» связано с тем, что оцен­ки в этой шкале принимают значения от «1» до «9». При оценке результатов испытуемых по тесту 4 % самых худших результатов присваивается станайн 1, а самых лучших - станайн 9. Следую­щим за худшими и лучшими 7 % результатов присваивают ста-найны 2 и 8 соответственно. Далее 12 % результатов - станайны 3 и 7. Следующим 17% присваивают станайны 4 и б и, наконец, 20% средних результатов - станайн 5 (табл. 16). .

Помимо описанной шкалы станайнов существуют еще две шка­лы, имеющие некоторое, преимущество перед девятибалльной в смысле различающей способности. Одна из них - шкала стандарт­ных десяти единиц, называемая также шкалой Кэтгелла, или шка­лой стенов ( sten ). Как следует из названия, весь массив результатов делится на десять частей с интервалом 0,5 стандартного отклоне­ния. В шкале стенов среднее арифметическое принимается равным 5,5, а расстояние между двумя соседними стандартными едини­цами равно 0,5 S x .

Таблица 16

Таблица соответствия процентов и станайнов

Процент

Станайн

Какие шкалы использовать в педагогических измерениях . Многие из шкал, приведенных выше, используются исключительно психо­логами, другие нашли свое применение в образовании. В практике деятельности зарубежных тестовых служб в образований чаще всего обращаются к стобалльной или тысячебалльной шкале, получен­ным на основе преобразования z -оценок. Хотя тысячебалльная шка­ла обладает высокими дифференцирующими возможностями, обычно ее концы оказываются не работающими в силу специаль­ного подбора по трудности заданий теста для приближения час­тотных распределений оценок трудности к виду нормальной кри­вой. Поэтому, как правило, оценки испытуемых распределяются в интервале от 200 до 800 баллов. Но даже использование менее протяженного диапазона оценок, чем тысячебалльная шкала, тре­бует специальных профессиональных навыков по интерпретации баллов учащихся.

Как осмыслить свой результат, если он, например, равен 570 или 650 баллам? Как отнести его к категории плохих или хо­роших результатов на столь широком диапазоне баллов? Другое дело, если результат испытуемого составляет 5 или 6 баллов по девятибалльной шкале. Поэтому к растянутым шкалам обычно обращаются профессиональные тестовые службы для массового тестирования в образовании, когда большое число испытуемых требует повышения дифференцирующей способности шкалы.

В России при шкалировании данных ЕГЭ была выбрана сто­балльная шкала, в которую переводятся оценки выпускников. Ко­нечно, стобалльная шкала - это своего рода компромисс между потребностью в хорошем дифференцирующем эффекте шкалы из-за значительного числа тестируемых во всех регионах и постепен­ным переходом от пятибалльной шкалы, существовавшей на про­тяжении многих лет в России, к более растянутым шкалам.

4. Шкалирование результатов тестирования на основе теории IRT

Построение шкалы с помощью современной теории тестов. Рас­смотренные в предыдущем разделе шкалы позволяют сопоставить результаты тестирования и служат удобной формой их интерпре­тации, но они не повышают уровень измерений в силу того, что используют статистический аппарат классической теории тестов. Порядковая шкала сырых баллов испытуемых переходит в поряд­ковую шкалу производных стандартизированных показателей, не позволяющих интерпретировать разность результатов двух испы­туемых, выполнявших один и тот же тест. Зарубежные исследова­ния конца 80-х гг. XX в. показали возможность построения интер­вальной шкалы результатов педагогических измерений в том слу­чае, если для создания теста и шкалирования результатов его вы­полнения используется теория IRT .

Условно процесс шкалирования в IRT можно подразделить на три этапа. Первый предполагает построение шкалы логитов для латентного параметра подготовленности испытуемых, второй - шкалы логитов для оценок латентного параметра трудности зада­ний. Третий этап позволяет свести две шкалы в общую шкалу стан­дартных оценок для обоих латентных параметров.

Связь шкалы логитов и шкалы Гуттмана. Процедура построения шкалы латентных переменных связана с так называемым шкали­рованием по Гуттману ( Guiiman - type scale ), в которой задания отбираются в порядке нарастания их трудности по определенным, тщательно структурированным элементам содержания дисципли­ны. Отличительной особенностью шкалы Гуттмана является су­ществование стойкого кумулятивного эффекта, означающего, что любой испытуемый с правильной структурой знаний, справив­шийся с j -м заданием, может наверняка успешно выполнить все предыдущие, более легкие задания теста. В понимании Гуттмана совершенная шкала существует в том случае, если по последнему правильному ответу испытуемого можно воспроизвести все его ответы на более легкие задания теста.

Конечно, стойкий кумулятивный эффект наблюдается далеко не всегда. В основном он характерен для заданий, довольно тесно связанных по содержанию. Для иллюстрации идей Гуттмана в ан­глоязычной методической литературе популярен следующий при­мер заданий на умножение:

Он вполне ясно, хотя и довольно упрощенно, показывает, как реализуется эффект кумулятивности на практике. Действительно, если испытуемый умеет умножать на четырехзначное число, то он тем более справится с умножением на трех-, двух- и однозначные числа.

Шкалирование на основе теории IRT в определенной степени преодолевает ограниченность предположении шкалы Гуттмана, поскольку является вероятностной версией и отражает сущность тестовых процессов, неизбежно связанных с ошибками. измерения. Согласно моделям IRT о правильном выполнении любого задания испытуемым, можно прогнозировать успешность лишь в том слунае, если эта вероятность близка к единице.

Преимущества и проблемы шкалирования по теории IRT . Инва­риантность оценок параметров испытуемых относительно трудно­сти заданий теста, достигаемая благодаря, возможностям IRT , позволяет реализовать эффект специфической объективности, который способствует Повышению точности оценок параметра под­готовленности учащихся. Благодаря единой шкале интервального типа в IRT разности оценок латентных параметров испытуемых приобретают вполне интерпретируемый смысл, поскольку их мож­но считать мерой отличия в подготовленности испытуемых по пред­мету. Таким образом, теория IRT повышает возможности педаго­гической интерпретации шкалированных баллов, учащихся. С ее помощью можно сопоставить приращения в обученности учащихся и повысить надежность их оценок по тесту.

Однако реализовать преимущества теории IRT довольно слож­но. Для этого необходимо обеспечить выполнение ряда условий ее применимости, без которых эффект инвариантности не имеет места. В частности нужно обеспечить конструирование теста на основе теории 1 RT , подтвердить соответствие эмпирических данных тес­тирования требованиям моделей измерения или удалить неподхо­дящие данные по результатам выполнения теста. Необходимо так­же обеспечить нормальный характер распределения сырых баллов учащихся, оценок трудности заданий теста, ошибок измерения и реализовать требование локальной независимости отдельных за­даний теста. Немало проблем вызывает расходимость итерацион­ных процессов, работающих в методе максимального правдопо­добия при переходе от начальных оценок к наиболее эффектив­ным оценкам параметров испытуемых и трудности заданий теста. Поэтому теория IRT в шкалировании используется далеко не все­гда, только в случаях массового тестирования для принятия адми­нистративно-управленческих решений в образовании, когда есть смысл тратить силы на разработку и применение теста.

Преобразования шкалы логитов. Поскольку оценки параметров подготовленности учащихся и трудности заданий теста в шкале логитов обычно лежат в интервале (-5; 5) и имеют несколько знаков после запятой, они малопригодны для сообщения испы­туемым без приведения к целому неотрицательному виду. Поэто­му необходимы линейные преобразования оценок в другую, бо­лее удобную для сообщения результатов шкалу подобно тому, как это происходит с z -оценками.

Сначала все значения параметров умножают на один и тот же множитель для перевода результатов в область целых чисел и округляют результат, до целых. Затем переносят все значения па­раметров на множество положительных чисел путем прибавления некоторой константы, определяющей новую точку отсчета на шкале, для того чтобы избавиться от отрицательных оценок пара­метра подготовленности θ. Примеры таких преобразований приве­дены в специальной литературе по шкалированию результатов пе­дагогических измерений.

5. Шкалирование в критериально-ориентированном тестировании

Виды шкал в критериально -ориентированном тестировании . Виды шкал в критериально-ориентированном тестировании выбирают­ся в зависимости от предназначения теста. Если тесты использу­ются для оценки степени освоения содержательной области ( domain - referenced tests ), отображение которой в тесте условно можно принять за 100%, то каждый балл учащегося показывает процент освоенного содержания. Процесс шкалирования осуще­ствляется достаточно просто балл, набранный учащимся, делят на максимально возможный балл по тесту и полученную величи­ну умножают на 100 %. Упорядочение найденных результатов и их нанесение на ось позволяют построить шкалу, каждая точка кото­рой соответствует проценту усвоенного содержания для учащего­ся или группы учеников.

В другом случае, когда критериально-ориентированный тест применяется для деления тестируемых на две или несколько групп с помощью порогового (критериального) балла ( mastery test ), стро­ится номинальная шкала. Например, подобное деление происхо­дит при аттестации: в одну группу попадают аттестованные, а в другую - не аттестованные учащиеся, как не выполнившие запланированный процент заданий теста. Основная трудность при таком шкалировании заключается в установлении порогового бапла для отсечения группы учащихся, не показавшей достаточного вла­дения содержанием теста.

Методы выбора критериального балла. Для установления поро­гового балла используются три метода. В первом случае балл устанавливается экспертным путем, априорно, на основе анализа целостного содержания теста. Во втором случае эксперты выбирают пороговый балл на основе анализа.содержания тесто­вых заданий и присвоения им априорных оценок трудности, с помощью которых выделяется критерий отбора в группу аттесто­ванных учащихся. В третьем случае для определения поро­гового балла анализируются эмпирические данные по результа­там апробации теста на репрезентативной выборке учащихся, и используется метод контрастных групп.

Для получения валидного значения критериального балла тре­тьим методом прежде всего необходимо Провести предварительное тестирование на близком по содержанию входном претесте или отобрать группу экспертов, хорошо представляющих, подго­товленность тестируемой выборки учащихся. По результатам претеста или экспертизы из группы учащихся выделяются две кон­трастные подгруппы: заведомо не готовых к тесту самых слабых - 27 % и 27 % самых сильных, хорошо подготовленных к тестирова­нию. В совокупности получаются две контрастные по подготов­ленности выборки учеников. Затем каждой подгруппе (слабой и сильной) выдается критериально-ориентированный тест, распре­деление баллов по которому строится на одном графике отдельно для слабых и сильных учащихся (сглаженные кривые - рис. 34, экспериментальные кривые - рис. 35).


Рис. .34. Сглаженные частотные распределения баллов по тесту для контра­стных подгрупп


Рис; 35. Эмпирические частотные распределения баллов по тесту для конт­растных подгрупп

После проведения тестирования на репрезентативной выборке учащихся и построения частотных распределений для контрастных групп устанавливается критериальный балл в точке, соответствую­щей на горизонтальной оси пересечению кривых распределения баллов. Эта точка пересечения, спроецированная на рис. 35 на гори­зонтальную ось, наиболее четко разделяет группы не аттестован­ных и аттестованных учащихся, поскольку в ней наблюдается наи­меньший процент ошибочных решений - одновременно миними­зируется число учащихся, обладающих достаточно высокой подго­товкой, но попавших в группу не аттестованных (часть кривой А слева от вертикальной прямой) и число неподготовленных учени­ков, ошибочно отнесенных к категории прошедших за пороговый балл (часть кривой В справа от вертикальной прямой). Полученный пороговый балл обладает наибольшей достоверностью по сравне­нию с его аналогами, определенными экспертными методами.

Уровневые шкалы, совмещающие нормативно-ориентированный и критериально-ориентированный подходы. Для получения надеж­ных и обоснованных результатов итоговой аттестации выпускни­ков учебных заведений тестовый балл иногда дополняют развер­нутой содержательной интерпретацией, описывающей характе­ристики уровня подготовки учащегося в терминах освоенных эле­ментов содержания.

Такие шкалы, позволяющие совмес­тить интерпретацию оценки испытуемо­го по отношению к результатам осталь­ных тестируемых и к уровням освоения содержания, выделенным по критериаль­ному принципу, получили название уровневых. Пример уровневой шкалы приве­ден на рис. 36, на котором диапазоны ты­сячеб a лльной шкалы, выбранные гипо­тетически, соотносятся с уровнями под­готовки.

рис. 36. пример уровневой шкалы

На рисунке выделен базовый и про­межуточный уровни вместе с уровнем высокой компетентности. Для построения уровневой шкалы обычно шкалируют результаты репрезентативной группы уча­щихся в рамках нормативно-ориентиро­ванного подхода и строят стандартизо­ванную шкалу тестовых баллов. Затем на шкале выделяют диапазоны и выявляют совокупности содержательных элементов, освоенных учащимися в каждом диапазоне, дополняя детальным описанием освоенных знаний и умений.

Упрошенная трактовка рейтинговой шкалы. В российской систе­ме высшего и среднего образования нет устоявшихся определе­ний, позволяющих однозначно определить рейтинговый, балл уча­щегося. В основном под ним понимают накопленный балл, полу­ченный в результате простого или взвешенного суммирования оценок в порядковых шкалах, которые строятся на основе субъек­тивного выставления и учета баллов учащегося в соответствии с различными уровнями учебной деятельности, временными про­межутками в обучении или уровнями усвоения. Нередко к сумативным оценкам, характеризующим успеваемость, прибавляют поощрительные баллы за своевременную: сдачу заданий, актив­ность на занятиях, хорошую посещаемость и т.д.

Такая упрощенная трактовка, далекая от педагогических изме­рений, таит в себе, по меньшей мере, две серьезные ошибки: во-первых, операция суммирования является недопустимой на порядковом уровне измерений и, во-вторых, происходит бессмыс­ленное объединение баллов по различным переменным, что ис­ключает возможность какой-либо корректной интерпретации ре­зультатов подобного объединения. Вполне возможна ситуация, когда в. сумме баллов, накопленной учащимся за определенный период обучения, будут доминировать оценки по второстепен­ным переменным, не имеющим заметного отношения к целям образования.

Таким образом, за видимой простотой операции получения рейтингового балла скрывается серьезная опасность: по результа­там обучения могут быть признаны лучшими те учащиеся, кото­рые не обладают творческим мышлением, но вовремя сдают до­машние задания, не пропускают уроков и не нарушают дисцип­лины в классе.

Обращение к рейтинговой шкале в связке с контрольными за­даниями для модулей, построенным на деятельностной основе в русле идей модульного обучения, немного повышает корректность приведенной выше упрощенной трактовки. По крайней мере вы­деление модулей происходит на содержательной основе и по­зволяет накапливать оценки уровней усвоения конкретных пред­метных знаний, что способствует обоснованной интерпретации суммарной оценки.

В целом рейтинговые баллы при корректном подходе к их под­счету и интерпретации могут оказать позитивное влияние на кон­трольно-оценочную систему в образовании. Они способствуют си­стематической работе учащихся, снижают роль случайности при сдаче экзаменов и снимают нервное напряжение во время экза­менов благодаря заблаговременному накоплению оценок резуль­татов обучения.

Корректный подход к построению рейтинговых шкал на основе теорий педагогических измерений. Для корректного построения рейтинговых шкал необходимо выполнять ряд условий. В зарубежной литературе к ним относят:

Концептуальное выделение переменных измерения;

Использование тестов с высокой содержательной и конструктной валидностью для получения баллов учащихся по каждой переменной;

Интеграцию результатов по отдельным шкалам (количествен­ного характера) в единую рейтинговую шкалу с использованием весовых коэффициентов, определенных с помощью регрессион­ного анализа и методов выравнивания шкал для тестов различной длины при последующем объединении взвешенных количествен­ных баллов по отдельным шкалам.

В целом необходимо отметить, что построение рейтинговых шкал требует от учителя определенной методической подготов­ки, наличия тестов и систематической работы по корректному построению отдельных шкал. При этом повышается нагрузка пе­дагога, поэтому обманчивая простота рейтингования на деле при правильном подходе оборачивается значительными трудозатрата­ми: Под вопросом остается общий эффект, поскольку пока неяс­но, оправданны ли такие затраты энергии со стороны педагогов или нет.

Показатели психометрических тестов, применяемых в практической психологии с целью постановки психологического диагноза, переводятся из первичных ("сырых" – не подвергнутых обработке) и полученных испытуемым по данному тесту в стандартные показатели, которые рассчитываются на основе линейного или нелинейного преобразования первичных показателей (при условии их распределения близкого к нормальному закону). При этом исторически сложилось наличие ряда наиболее распространённых стандартных показателей, связанных с особенностями преобразования, и отсюда – наличие "семейства" стандартных шкал, переводимых друг в друга и несводимых к Z-шкале.

Z-шкала образуется в результате центрирования, понимаемого как линейная трансформация величин признака, при которой средняя величина распределения становится равная нулю, и процедуры нормирования посредством среднеквадратических отклонений.

Z-шкала состоит из непрерывного континуума Z-показателей, определяемых в виде разности между индивидуальными первичными результатами и средним значением для генеральной совокупности, делённые на стандартное отклонение распределения.

где X – необработанные, сырые баллы,

– Среднее,

s – стандартное отклонение.

При этом полученная Z-шкала будет иметь среднюю точку M=0 и единицу измерения (масштаб) 1s стандартного (единичного) нормального распределения как показано на рисунке 2.

Z-показатель может принимать как положительные, так и отрицательные значения. Большинство случаев (99,72%) значения показателей уменьшаются в пределах -3+3 и могут принимать любые значения. К достоинствам Z-показателя относится простота интерпретации и сравнения индивидуальных результатов: чем больше показатель, тем дальше от среднего (нормы) он может находиться, при этом знак указывает (+) – выше среднего; (-) – ниже среднего. Но недостатки, особенно в области прикладной (практической) психологии, к которым относят: сложность интерпретации для испытуемого (клиента), крупность масштаба единиц измерения, оперирование отрицательными и положительными величинами, побудили разработчиков тестов использовать нормализованные преобразования по форме: , где Zp – преобразованный стандартный показатель; b – стандартное отклонение преобразованного распределения; Z – Z-показатель; A – среднее значение преобразованного распределения. Такой переход правомерен, так как стандартная шкала представляет собой интервальную шкалу, что позволяет выполнить линейные преобразования, при условии, что константы b и A – действительные числа.

Разберём процедуру получения преобразованных стандартных показателей на ряде примеров:


Было проведено эмпирическое исследование уровня уверенности в себе (опросник Рейзаса – 0-90) на выборке учителей (50 человек) из различных школ г. Н. Новгорода. В результате первичной статистической обработки были получены результаты:

1) Распределение первичных результатов ("сырых баллов") по форме близко к нормальному распределению (после процедур группировки и анализа кривой распределения – полигона частот).

2) Вычислены характеристики для данной выборки –

Предлагается провести линейное преобразование и определить для различных шкал значение одного первичного результата X=45 ("сырой балл" одного из испытуемых).

1) Преобразование в Z-показатель производится по формуле:

где Z – стандартный Z-показатель;

X – первичный результат тестового измерения;

M x – средняя величина результатов выборки (в нашем случае медиана Me);

S x – стандартное отклонение для данной выборки. Найдите полученный показатель на Z-шкале (рисунок 2) и сделайте вывод о проявлении изучаемого признака у данного испытуемого.

2) Преобразование в T-шкалу для опросников Мак-Колла производится по уже известной формуле (Zp=A+bZ), подставляя вместо констант A = M = 50; b = s = 10 – полученные Мак-Коллом в результате нормализации эмпирических распределений собственных опросников, переведём результат испытуемого (X=45) в стандартные T-баллы по формуле:

Таким образом, результат – 25 T-баллов (стандартных баллов).

3) Преобразование в шкалу станайнов Гилфорда (англ. standard nine – стандартная девятка), где оценкам присваивают целые значения от 1 до 9, при M = 5, s = 2 производятся по формуле:

В данном случае результат испытуемого будет 1 станайн (т.к. полученный результат C = 0 попал в интервал 1-го станайна).

Данная C-шкала обладает таким замечательным свойством (см. рисунок 2), что в 1 и 9 станайны попадает по 4% испытуемых всей выборки, во 2 и 8 станайны – по 7%, и т.д. Таким образом, при ранжированном упорядочивании в сторону возрастания первичных тестовых результатов и условии их нормального (или близкому к нормальному) распределения первым 4% данных присваивается 1 станайн, последующим 7% данных – 2-ой станайн, следующим 12% данных – 3-й станайн и т.д., таким образом, данные будут упорядочены в шкалу, соответствующую стандартным частотам распределения результата.

4) Преобразование в шкалу стенов Кэттела (от англ. standard ten – стандартная десятка) для опросника 16PF, где оценкам присваивают целые значения от 1 до 10, при M = 5; s = 2 производят по формуле:

В данном случае результат испытуемого попадает в интервал 1-го стена.

В тестировании интеллекта используются нормализованные шкалы:

5) Шкала Векслера представленная IQ-стандартными баллами:


6) Шкала структуры интеллекта Амтхауэра по формуле:

С целью интерпретации данных для работников образования представляет интерес шкала Линерта:

7) Шкала школьных оценок Линерта:

Рис.2. Нормальная кривая и стандартные показатели.


РАЗДЕЛ 3
Психометрические требования к психодиагностической методике.

Объективность, валидность и надёжность – это психометрические требования, которым должен удовлетворять психодиагностическая методика.

Если объективность психологического теста связана с тем, что первичные показатели по тесту, их оценка и интерпретация не зависят от поведения и субъективных суждений экспериментатора и основана на стандартизации процедуры проведения, обработки и интерпретации психологического теста, то надёжность и валидность тестовой методики это характеристики самого психодиагностического инструмента, отражающие качество и эффективность.

Надёжность и валидность теста тесно связаны между собой, но наиболее часто практикующему психологу необходимо проводить проверку лишь одной составляющей для оценки применимости теста – его надёжности.

Имеется несколько способов выражения тестовых результатов таким образом, чтобы их можно было сравнивать для тестов различной длины, по различным дисциплинам и для разных учебных заведений. Более того эти способы позволяют суммировать тестовые результаты и проводить их накопление, т.е. по сути определять рейтинги испытуемых по всему объему полученных ими знаний. Этим условиям удовлетворяют следующие шкалы оценок тестовых результатов.

Шкала Z

Для определения оценки по результатам тестирования в шкале Z помимо суммарного бала xi i-го испытуемого по j-й дисциплине (тесту, вузу),- необходимо знать среднее арифметическое баллов для всей группы студентов и стандартное отклонение . Тогда оценка Z будет определяться по формуле:

Здесь Zij – стандартный результат, представляющий собой нормированное отклонение балла испытуемого от среднего арифметического по тесту. При подчинении результатов тестирования закону нормального распределения, когда , величина Z непрерывно изменяется от -3 до +3.

При округлении оценок в шкале Z до целых единиц возникает семибалльная шкала: -3, -2, -1, 0, +1, +2, +3. Шкала Z очень неудобна, ибо дробная и имеет отрицательные и положительные значения.

Шкала Т

Для устранения указанных выше недостатков шкалы вводится шкала Tij:

Здесь произведение 10Zij округляют до целых чисел, поэтому шкала Т в 10 раз более дифференцирующая знания, чем шкала Zij. Для сравнения этих шкал приведем пример для семи испытуемых:


Процентная шкала

Процентная шкала рассчитывается для большого массива данных. Для примера рассчитаем процентную шкалу по результатам тестирования 50 студентов, получивших следующие баллы: 4, 15, 6, 14, б, 7, 12, 9, 6, 5, 11, 8, 11, 8, 10, 7, 6, 8, 8, 8, 3, 12, 9, 14, 12, 13, 7, 9, 10, 5, 9., 6, 8, 7, 7, 11, 7, 11, 9, 4, 8, 12, 5, 7, 8, 10, 13, 10 (N=50).

Прежде всего данные группируются и на этой основе определяется характер распределения тестовых баллов. Характер распределения будет приближаться к нормальному, если N>>100. Поэтому приведенные здесь пример далек от нормального распределения.

Группировка данных по так называемым классам выполняется таким образом, чтобы число классов было в пределах от 10 до 15. Для этого определяется размах тестовых результатов (R), который в нашем примере равен R=15-4=11. Таким образом, у нас образуется 11 классов, и в каждый класс, попадает один тестовый балл.

Далее строится вспомогательная табл. 4.1, где в первую колонку помешают тестовые баллы испытуемых от большего значения к меньшему сверху вниз. Вторая колонка представляет собой результат разноски исходных данных по баллам (классам). В третью колонку внесены частоты, с какими встречаются в результатах тестовые баллы. В четвертой колонке показаны кумулированные (накопленные) частоты, представляющие собой сумму частот снизу вверх.

Таблица 4.1. Вспомогательная таблица для расчета процентного ранга


Так как уровень знаний непрерывно изменяется, мы оперируем дискретными значениями баллов, то необходимо ввести понятие "верхняя и нижняя граница” балла (класса). В нашем примере, например, для балла 12 нижняя граница 11,5 (12-0,5, где 0,5-точность измерения балла, поскольку мы измеряемую величину, т.е. уровень знаний, округляем до целого значения балла с точностью до 0,5), верхняя – 12,5. Именно эти понятия используются для построения шкалы процентных рангов, цель которой узнать, сколько процентов испытуемых показывают результаты, равные интересующему нас баллу или меньше него.

Вычислим для примера процентный ранг для тестового балла 5. В пределах от нижней границы балла 4,5 до верхней 5,5 находятся результаты 3 испытуемых. Предполагается, что эти результаты равномерно располагаются в указанном интервале, т.е. от 4,5 до 5,5. Следовательно, в интервале от 4,5 до 5 находится 1,5 долей испытуемых (половина от 3 см предпоследнюю колонку). Таким образом, балл ниже 5 имеют 4,5 (3 + 1,5) долей испытуемых, или 9 %. Балл 3 и ниже имеют 0,5 доли испытуемых, или 1%. Балл 15 имеют 49+0,5=49,5 доли испытуемых, т.е. 99%.

Итак, что значит PR=86% для балла 12. Это значит, что знания испытуемого, получившего 12 баллов, превосходят знания 86% студентов группы и он принадлежит к лучшим 14% студентов. Для сравнения общего результата по нескольким тестам процентные данные каждого студента суммируются и суммы сравниваются.

Приведение шкал стандартных величин к 11-балльной шкале оценок

Существующая в настоящее время пятибалльная шкала оценок (вернее, даже 4 балльная: неудовлетворительно, удовлетворительно, хорошо и отлично) чрезвычайно не дифференцирующая. Она порождает проблему полупроходных баллов на вступительных экзаменах, не позволяет определить самого лучшего из группы лучших и самого худшего из группы худших. Поэтому наблюдается тенденция к расширению шкалы оценок. В разд. 4.1 уже упоминалась 7-балльная шкала, легко перейти к 9-балльной. Мы предлагаем ввести в практику 11-балльную шкалу, хотя рекомендовать можно и 21-балльную, и 41-балльную и т.д. Однако шкалы, содержащие более 11 баллов, в отличие от 11-балльной шкалы, могут оказаться психологически неудобными и искусственно растянутыми. С нашей точки зрения, в настоящей ситуации, в которой находится педагогика, эта шкала является достаточно дифференцирующей, поскольку позволяет идентифицировать целых 11 групп учащихся вместо 5 при нынешней шкале оценок.

11-балльная шкала вытекает из шкалы логитов, получаемых по самой современной технологии обучения, основанной на латентном анализе. Оказалось, что уровень знаний в шкале логитов лежит в интервале от -6 до +6, что легко трансформируется в 11-балльную шкалу, как это представлено в таблице 4.2.

Таблица 4.2. Сравнение различных шкал оценки знаний обучаемых по результатам тестирования


Даже беглого взгляда на табл. 4.2 достаточно, чтобы оценить дифференцирующую способность 11-балльной шкалы по сравнению с ныне существующей 5-балльной, народному образованию, особенно высшей школе, давно пора переходить к более дифференцирующей шкале оценок.

Н.М. Олейник. Фрагмент из учебного пособия по спецкурсу: "Тест как инструмент измерения уровня знаний и трудности заданий в современной технологии обучения. Донецкий государственный университет".


Шкалирование результатов тестирования

Стивенс (1946) определил 4 уровня шкал измерения, отличающиеся по степени, в которой принадлежащие им оценки сохраняют свойства множестве вещественных чисел. Это шкалы:

Номинальная (или номинативная, шкала наименований)

Порядковая

Интервальная

Шкала отношений.

Интерпретация результатов тестирования

В тестах с нормативно-ориентированной интерпретацией главная задача – определение сравнительного места каждого из тестируемых в общей группе испытуемых. Очевидно, что место каждого испытуемого зависит от того, на фоне какой группы его оценивают. Один и тот же результат может быть отнесен к категории довольно высоких, если группа слабая, и к категории довольно низких, если группа – сильная. Именно поэтому необходимо по возможности использовать нормы, отражающие результаты выполнения теста большой репрезентативной выборкой испытуемых.

В тестах с критериально-ориентированной интерпретацией задача - сопоставление учебных достижений каждого ученика с планируемым к усвоению объемом знаний, умений и навыков. В этом случае в качестве интерпретационной системы отсчета используется конкретная область содержания, а не та или иная выборка испытуемых. Основной проблемой является установление проходного балла, отделяющего тех, кто освоил проверяемый материал, от тех, кто не освоил.

Установление норм выполнения теста

Чтобы устранить зависимость интерпретации от результатов других участников тестирования используют специальные нормы выполнения теста, и таким образом, первичный балл отдельного испытуемого сопоставляется с нормами выполнения теста. Нормы – это множество показателей, которые устанавливаются эмпирически по результатам выполнения теста четко определенной выборкой испытуемых. Разработка и процедуры получения этих показателей составляют процесс нормирования (или стандартизации ) теста. Наиболее распространенными нормами являются среднее значение и стандартное отклонение по множеству индивидуальных баллов. Соотнесение первичного балла испытуемого с нормами выполнения позволяет установить место испытуемого в выборке, использованной для стандартизации теста.

Виды шкал, используемых для преобразования первичных баллов

Наиболее известные преобразования первичных баллов:

Процентильный ранг, отражающий процент испытуемых в нормативной группе, результата которых ниже или равен данному значению первичного балла;

Линейная Z -оценка, определяемая как отношение индивидуального отклонения тестового балла к стандартному отклонению по группе испытуемых;

Оценки, которые являются линейным преобразованием z -оценки (Т-шкала, оценки стандартного IQ и т.д.);

Шкалы станайнов и стенов, которые получаются делением шкалы первичных баллов на различные интервалы.

Шкала процентильных рангов

Процентили позволяют установить ранг первичного показателя испытуемого в нормативной группе. Процентильный ранг, соответствующий данному первичному баллу, показывает процент испытуемых в нормативной выборке, результаты которых не выше данного первичного балла.

Процентили не следует смешивать с процентными показателями, представляющими процент правильно выполненных заданий испытуемым группы. В отличие от последнего - первичного - процентиль является производным показателем, указывающим на долю от общего числа испытуемых группы.

Помимо удобств, связанных с простотой интерпретации, процентильные ранги имеют существенные недостатки. Шкала процентильных рангов нелинейна, т.е. в различных областях шкалы первичных баллов увеличение на 1 балл может соответствовать различным увеличениям на шкале процентилей. Поэтому процентили не только не отражают, а даже искажают реальные различия результата выполнения теста.

Поэтому использование процентилей довольно ограничено. В силу удобства и простоты их применяют в основном в нормативно-ориентированных тестах для самооценки знаний учащихся, сообщения результатов самим учащимся и их родителям.

Z-шкала

Осуществляет перевод индивидуальных результатов в стандартную шкалу с общим средним баллом и общей мерой дисперсией. Z- оценку i-го ученика находят по формуле:

Где первичный балл i-го испытуемого; - среднее значение индивидуальных баллов N испытуемых группы (i=1,2,…,N ); -стандартное отклонение по множеству первичных баллов.

Z -шкала является стандартной с нулевым средним значением и единичным стандартным отклонением. С ее помощью можно привести баллы учеников, полученные по различным тестам, к одному удобному для сравнения виду.

Величина Z -оценки равна расстоянию между рассматриваемым первичным баллом и средним значением оценок по группе, выраженному в единицах стандартного отклонения: в пределах скольких стандартных отклонений первичный балл испытуемого находится ниже или выше среднего значения группы.

Z-оценки за редким исключением принимают значения из промежутка (-3,+3). Будучи удобной для научного анализа в процессе разработки новых тестов, Z-шкала является неудобной для практического использования при оценке знаний испытуемых группы. Z-оценки могут принимать дробные и отрицательные значения, с которыми сложно работать при подсчетах и трудно интерпретировать для пользователей тестов. Округление Z-оценок до целых значений не всегда допустимо, т.к. основную цель создания тестов составляет выявление различий в подготовке испытуемых. Отрицательные значения Z-показателя, указывающие на результаты ниже среднего по группе тестируемых учеников, также вызывают определенные неудобства - они вызовут явное неприятие у получивших их учеников. В целом все это делает Z-показатель неудобным для сообщения результатов испытуемым и вынуждает применять специальные методы преобразования для выставления оценок ученикам.

Преобразования Z-оценок

Преобразования Z-оценок имеют целью перевод их в значения, которые легче записывать и объяснять. При этом, используемое преобразование должно быть линейным, чтобы сохранить форму распределения Z-оценок. Общая формула такого преобразования имеет вид

Z 1 =M + ?·Z ,

Где Z 1 – преобразованная оценка, М – новое среднее значение (среднее значение оценок после преобразования), - новое стандартное отклонение. Различные преобразования отличаются значениями М и . Приведем несколько наиболее известных преобразований Z-оценок.

T-шкала (McCall, 1939, для сообщения о результатах выполнения детьми теста ментальных способностей). Выбирается среднее значение М = 50 и стандартное отклонение? = 10. Получим: Z 1 =50 + 10·Z

Шкала СЕЕВ (ETS, для сообщения абитуриентам о результатах приемных экзаменов в колледжи). Выбирается среднее значение М = 500 и стандартное отклонение? = 100. Получим: Z 1 =500 + 100·Z

Шкала IQ (Weshler, 1939, для интерпретации оценок по шкале интеллекта для взрослых). Выбирается среднее значение М = 100 и стандартное отклонение? = 15. Получим: Z 1 =100 + 15·Z

Шкалы станайнов и стенов

Иногда при сообщении результатов используют шкалы, состоящие из отдельных целых чисел, например, от 1 до 9 или от 1 до 10. Это удобно для сообщения тестовых результатов, т.к. такие шкалы обладают очевидной простотой.

Разбиение нормального распределения на 9 интервалов приводит к шкале станайнов, имеющей 9 стандартных единиц. В этой шкале среднее значение равно 5, а стандартное отклонение – примерно 2. При оценке результатов испытуемых по любому тесту с любым числом заданий 4% самых худших результатов присваивается станайн 1, а самых лучших - станайн 9. Следующим за худшими и лучшими 7% результатов присваивают станайны 2 и 8 соответственно. Следующим за ними 12% результатов - станайны 3 и 7. Следующим 17% присваивают станайны 4 и 6 и, наконец, 20% средних результатов соответствует станайн 5.

В шкале стенов, называемой часто шкалой Кэттела, весь массив результатов делится на 10 частей с интервалом 0,5 стандартного отклонения. В шкале стенов среднее арифметическое принимается равным 5,5, а расстояние между двумя соседними стандартными единицами равно 0,5.

Иногда из шкалы станайнов получают одиннадцатибалльную шкалу путем выявления по одному проценту самых сильных и самых слабых испытуемых и присвоения им соответственно максимального и минимального балла.

Установление проходного балла

Известно много методов установления проходного балла при критериально-ориентированном тестировании. Все методы делятся на абсолютные и относительные. Почти все методы вовлекают в процедуру определения проходного балла экспертов. Рассмотрим некоторых из известных методов.

Методы, центрированные на заданиях

Метод Nedelsky (1954) – для закрытых заданий.

Каждый эксперт должен проанализировать все задания и вычеркнуть для каждого задания номера ответов, от которых будет в состоянии отказаться минимально компетентный испытуемый. Для каждого задания эксперт указывает число, обратное числу оставшихся ответов. Например, если в задании с пятью ответами эксперт два вычеркнул, то он укажет число 1/3 для этого задания. Затем все эти обратные величины суммируются. Полученное число может рассматриваться как вероятная оценка минимально компетентного испытуемого этим экспертом. Затем оценки всех экспертов усредняются.

Метод Angoff (1971). Экспертов просят представить себе группу минимально компетентных испытуемых и для каждого задания оценить долю испытуемых этой группы, правильно ответивших на задание. (Это то же самое, как оценить вероятность того, что минимально компетентный испытуемый ответит на задание правильно.) Данные вероятности складываются по каждому эксперту и усредняются по всем экспертам.

Метод Ebel (1972). В этом методе используется двумерная сетка для категоризации каждого задания. Экспертов просят разделить все задания по трудности (предлагается три уровня трудности - задание легкое, средней трудности, трудное) и по релевантности его содержания (предлагается 4 уровня релевантности – существенное, важное, допустимое, спорное). Таким образом, все задания раскладываются по ячейкам этой сетки. Затем эксперты должны оценить, как минимально компетентный испытуемый выполнит задания в каждой ячейке, т.е. указать процент числа заданий в ячейке, на которые он должен ответить правильно.

Методы, центрированные на испытуемых (Nedelsky, 1954; Zieky, Livingston, 1977)

Метод контрастных групп

Эксперты договариваются о том, что является результатом выполнения теста на уровне минимальной компетентности. Затем эксперты делят всех испытуемых на две группы – компетентных и некомпетентных (исключая тех, кто, по их мнению, находится на границе). Далее строятся графики распределения баллов для каждой из группы на одном чертеже. Точка пересечения графиков принимается за проходной балл.

Метод граничных групп

В отличие от предыдущего метода экспертов просят определить испытуемых, кто, по их мнению, находится на границе между двумя контрастными группами, отличающимися по компетентности. Медиана распределения баллов отобранной группы принимается за проходной балл.

Критики данного подхода указывают, что установление проходного балла, основанного на выполнении теста испытуемыми, не соответствует по сути основной цели критериально-ориентированного тестирования, т.к. этот подход не связан с содержанием теста.

Рассказать друзьям