Анастази А. » Психологическое тестирование

скоростью?> Или более специальным языком: <Какую долю в суммар-

ной дисперсии тестовых показателей составляет дисперсия скорости?>

Эту долю можно приблизительно оценить, определяя диспеосию числа

117

НАДЕЖНОСТЬ

Таблица II

Коэффициенты надежности четырех тестов элемен-

тарных умственных способностей для детей 11-17

лет (1-е издание) (A. Anastasi, J. Drake, 1954)

дисперсию тестовых результатов (ст/ст). Для только что приводившего-

ся примера, когда все испытуемые выполнили 40 заданий, числитель

этой дроби равен нулю, поскольку отсутствуют индивидуальные разли-

чия в числе выполненных заданий (с = 0). Таким образом, в тесте воз-

можностей данный индекс будет равен нулю. Напротив, если суммарная

дисперсия теста (of) определяется индивидуальными различиями в ско-

рости, то обе дисперсии будут равны и их отношение обратится в 1. Для

определения этого отношения разработано несколько более совер-

шенных процедур, но их детальное обсуждение выходит за рамки на-

стоящей книги (L.J.Cronbah, W.G.Warrington, 1951; H.Gulliksen,

1950a,b; L. Guttaman, 1955; G.C. Helmstadter, D.H. Ortmeyer, 1953).

Примером влияния скоростного компонента на коэффициент надеж-

ности, определенный при одноразовом предъявлении теста, могут слу-

жить данные исследования первого издания теста элементарных ум-

ственных способностей (A. Anastasi, J. Drake, 1954). В этой работе

надежность каждого теста сначала определялась по методу расщепления

теста на четные и нечетные задания. Полученные значения (см. первую

строку табл. II) оказались весьма близкими к приведенным в руковод-

стве к тексту. Затем коэффи-

циенты надежности были вы-

числены корреляцией показа-

телей, полученных разделе-

нием теста на два субтеста,

для которых были установле-

ны отдельные лимиты време-

ни. Эти коэффициенты соста-

вили вторую строку табл. II.

Вычисление <скоростных ин-

дексов> показало, что в тесте

на понимании слов преобла-

дает компонент возможнос-

тей, тогда как тест на рас-

суждение в большей мере

подвержен влиянию скорос-

ти. Из табл. II видно, что

при учете скоростного ком-

понента надежность теста на

пространственное восприя-

тие составила 0,75, т. е. оказалась значительно ниже значения 0,90, полу-

ченного методом обычного расщепления. Надежность теста на рассужде-

ние упала с 0,96 до 0,87, а числового теста-с 0,92 до 0,83. В то же время

надежность теста на понимание слов, содержавшего лишь минимальный

скоростной компонент, почти не отличалась для обоих методов расчета.

К соображениям самой А. Анастази следует добавить, что в этих случаях решение

о введении <скоростного фактора> принимается чисто эмпирически. Так, в детских тестах

Векслера (WISC, WISC-R) время выполнения вербальных субтестов не ограничивается,

в то время как для субтестов действия указаны временные лимиты. Нельзя не отметить,

что в интеллектуальной деятельности скорость решения задач не говорит еще о пре-

дельных (максимальных) возможностях, о глубине интеллекта. Учет скорости может приве-

сти к тому, что ребенок, который способен справиться со всеми заданиями субтеста, не су-

меет сделать и половину из них в отведенное время и получит более низкий балл, чем его

сверстник, который за это время выполнит на одно задание больше, но это задание

является для него вообще пределом сложности, далее которого он двигаться не может.

(Прим. ред.)

Определение коэффициента надежностиё 1s: я ?18м

Is>.u z ft с,ай

с: аа.С о Вч. U

Методом разделения за-

даний теста по четным

и нечетным номерам 0,94 0,96 0,9 0,92

Методом разделения за-

даний теста по вре-

менным лимитам 0,9

0,87 0,75 0,83

118 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

ЗАВИСИМОСТЬ КОЭФФИЦИЕНТА НАДЕЖНОСТИ

ОТ ТЕСТИРУЕМОЙ ВЫБОРКИ

Гетерогенность. На величину коэффициента надежности серьезное

влияние оказывает состав группы, используемой для определения этого

коэффициента. В первую очередь на любой коэффициент корреляции

влияет диапазон индивидуальных различий в группе. Если, допустим,

грамотность всех членов группы находится примерно на одном уровне,

то для этой группы корреляция грамотности с любыми другими способ-

ностями будет нулевой. Иначе говоря, по показателю грамотности нель-

зя предсказать положение индивида в группе по какому-либо иному

показателю.

Другим, менее контрастным примером может служить корреляция

между двумя тестами способностей-словарного запаса и арифметиче-

ского мышления. Если эти тесты предъявляются в достаточно однород-

ной группе, скажем 300 студентам второго курса, то корреляция между

соответствующими показателями, видимо, окажется близкой к нулю.

Внутри отобранной группы студентов колледжа вряд ли удастся обнару-

жить какую-либо связь между вербальными способностями и способ-

ностью действовать с числами. Но проводя те же тесты на гетерогенной

выборке из 300 испытуемых-от тяжелых олигофренов до выпускников

колледжей, мы, несомненно, получим высокую корреляцию между рас-

сматриваемыми показателями. Умственно отсталые по обоим тестам

получат более низкие показатели, чем лица с высшим образованием.

Связь между обоими показателями будет отмечена и для других под-

групп внутри столь гетерогенной выборки.

На рис. 12 приведена гипотетическая диаграмма рассеяния, являю-

щаяся иллюстрацией зависимости коэффициентов корреляции от диапа-

зона индивидуальных различий внутри группы. Диаграмма отражает вы-

сокую положительную корреляцию по всей гетерогенной группе:

показатели тесно сгруппированы вдоль диагонали, идущей от левого

нижнего к правому верхнему углу. Если теперь рассмотреть только под-

группу, попадающую в небольшой прямоугольник в правой части диа-

граммы, то становится очевидным, что корреляция между двумя пере-

менными в этой подгруппе близка к нулю. Индивиды, попадающие

в выделенную ограниченную область значений обеих переменных, пред-

ставляют собой весьма гомогенную группу, наподобие упомянутой выше

группы второкурсников. Как и все коэффициенты корреляции, коэффи-

циенты надежности зависят от однородности выборки, на которой они

определяются. Следовательно, если коэффициент надежности, приво-

димый в руководстве к тесту, был определен на группе учеников IV-XII

классов, то нельзя считать, что коэффициент надежности будет столь же

высоким, скажем, в выборке восьмиклассников. При использовании теста

для выявления индивидуальных различий в пределах более однородной

выборки, чем нормативная группа, коэффициент надежности для этой

выборки должен быть определен заново. В элементарных учебниках по

статистике приводятся формулы расчета изменения коэффициента на-

дежности при увеличении или уменьшении стандартной групповой дис-

персии. Однако предпочтительней пользоваться коэффициентами надеж-

ности, вычисленными эмпирически на группе, сравнимой с той,

к которой применяется тест. Для тестов с широким возрастным диапазо-

ном и измеряющим различные способности в руководстве должны при-

119

НАДЕЖНОСТЬ

водиться отдельные коэффициенты надежности для относительно одно-

родных подгрупп внутри выборки стандартизации.

Уровень способностей. Коэффициент надежности зависит не

только от степени индивидуальных различий в выборке, но и от среднего

уровня способностей данной группы. Влияние последнего фактора обыч-

но нельзя предсказать или оценить, пользуясь статистическими метода-

ми. Это влияние может быть определено лишь эмпирическим путем,

проведением теста на группах, отличающихся друг от друга по возрасту

или уровню способностей. Разницу в надежности единичного теста мож-

но объяснить тем, что слегка различающиеся сочетания способностей из-

меряются степенью трудности теста, или же тем, что она есть результат

статистических свойств самой шкалы, как это имеет место в случае те-

стов Станфорд-Бине (S.R.Pinneau, 1961, гл. 5). Для различных возра-

стов и уровней IQ, коэффициент надежности тестов Станфорд-Бине ме-

няется от 0,83 до 0,98. Надежность других тестов может быть

относительно низкой для младших и менее способных групп, поскольку

Рис. 12. Влияние ограничения диапазона на коэффициент корреляции

см 1 а> 1 а) //

/////

/////////

///////////

///////////////

//////////////

///////////////

////////////////

//////////////////

//////////////

/////////////////

///////////////

////////////

////////////////

////////////

///////

/////////

///////

//////

///////////

//////////

/////

//////

/////

////

///

120 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

на их показателях сильно сказывается склонность испытуемых к угады-

ванию, в таком случае данный тест вообще не следует применять.

Очевидно, что каждый коэффициент надежности должен дополнять-

ся полным описанием типа группы, на которой он определялся. Особое

внимание следует уделять индивидуальным различиям и уровню способ-

ностей членов выборки. Приводимый коэффициент надежности приме-

ним только к группам, подобным тем, на которых он был определен.

В настоящее время при разработке тестов все чаще применяется разбие-

ние стандартизованной выборки на более однородные подгруппы по

признаку возраста, пола, года обучения, рода занятий и т. п., причем для

каждой такой подгруппы приводятся свои коэффициенты надежности.

В этом случае коэффициент надежности более соответствует тем выбор-

кам, на которых тест применяется на практике.

СТАНДАРТНАЯ ОШИБКА ИЗМЕРЕНИЯ

Интерпретация индивидуальных результатов. Надежность теста

можно выразить в виде стандартной ошибки измерения (ст"), называемой

также стандартной ошибкой показателя. Эта мера особенно удобна для

интерпретации индивидуальных результатов. Следовательно, для целей

тестирования эта мера более полезна, чем коэффициент надежности. Зная

коэффициент надежности теста, стандартную ошибку измерения легко

вычислить по следующей формуле:

0т= i 1/1 -"ii,

где (71- стандартное отклонение результатов теста, а гц-коэффициент

надежности, и оба вычислены для одной и той же группы. Например, ес-

IQ данного теста интеллекта имеет стандартное отклонение 15

;рэффициент надежности 0,89, то (7 для IQ в этом тесте равно

/1 - 0,89 = 151/0,11 х 15 x 0,33 X 5,0.

Чтобы уяснить себе смысл показателя ст, предположим, что в упомя-

нутом тесте интеллекта для мальчика Джима получено 100 значений IQ.

В силу действия различных источников случайных ошибок, уже рассмо-

тренных в данной главе, эти результаты будут весьма различными, обра-

зуя нормальное распределение вокруг истинного показателя Джима.

Среднее значение этого распределения-100 результатов можно принять

за истинный результат, а стандартное отклонение распределения-за ст.

Как и любое стандартное отклонение, стандартную ошибку можно ин-

терпретировать на нормальной кривой распределения частот (см. ри?. 3,

гл. 4). Напомним, что при нормальном распределении на интервал + 1ст

приходится приблизительно 68Їо wex случаев. Следовательно, имеется

примерно два шанса против одного (точнее 68:32), что IQ Джима по

этому тесту будут колебаться между +1 с, или выше, или ниже его ис-

тинного IQ на 5 единиц. Например, при истинном IQ, равным 110, мож-

но ожидать, что 2/3 его результатов распределятся между 105 и 115.

Если хотят сделать более точное предсказание, то выбирают более

высокое соотношение, чем 2:1. Из рис. 3 (гл. 4) видно, что интервал

+ Зст охватывает 99,7Їо случаев. Для нормальной кривой интервалу

+ 2,58(7 соответствует 99Ї() слушев. Иными словами, имеется 99 шансов

против 1 за то, что IQ Джима расположится в пределах 2,58(7, или на

121 НАДЕЖНОСТЬ

2,58 x 5 = 13 единиц по обе стороны от истинного IQ. Таким образом,

можно утверждать с 99Їо-ной уверенностью (один шанс ошибиться про-

тив ста), что IQ Джима при однократном применении теста окажется

в пределах от 97 до 123. Иначе говоря, если бы Джиму предъявили 100

тестов, эквивалентных данному, то его IQ могло бы выйти за пределы

лишь один раз.

На практике, конечно, имеются не истинные результаты, а. резуль-

таты, полученные при единичном предъявлении теста. В этих обстоятель-

ствах мы могли бы воспроизвести приведенные рассуждения в обратном

порядке. Если полученный индивидом результат отклонится от истинно-

го показателя более чем на 2,58ст",, то его истинный показатель должен

находиться в пределах 2,58ст", от полученного результата. Хотя нельзя

установить вероятность справедливости этого утверждения для любого

полученного результата, можно сказать, что оно будет верным в 99Їо

случаев. Следуя этой логике, X. Галликсен (Н. Gulliksen, 1950b, р. 17-20)

предложил использовать стандартную ошибку измерения для того,

чтобы по результату теста определять <разумные пределы> истинного

показателя. Подобные <разумные пределы> принято называть в психоло-

гическом тестировании и в данной книге тоже интерпретацией ошибки

измерения.

Очевидно, что стандартная ошибка измерения и коэффициент надеж-

ности-это взаимозаменяемые способы выражения надежности теста.

В отличие от коэффициента надежности ошибка измерения не зависит от

разнородности группы, на которой она была определена. Будучи выра-

жена в индивидуальных результатах, она остается неизменной, независи-

мо от того, определена ли она на однородной или гетерогенной группе.

Вместе с тем приводимая в единицах показателя ошибка измерения бу-

дет несравнимой для различных тестов. Проблема сравнимости для

ошибки измерения возникает, когда она выражена в таких единицах, как

число арифметических задач, количество слов словарного теста и т.п.

Следовательно, если хотят сравнить надежность различных тестов, луч-

ше пользоваться коэффициентом надежности. Интерпретации же индиви-

дуальных результатов более соответствует стандартная ошибка измере-

ния.

Интерпретация различий между индивидуальными ре-

зультатами. Особенно важно рассмотреть надежность теста и ошибку

измерения применительно к оценке различий между двумя результатами.

Представление результатов теста в виде интервалов значений предотвра-

щает акцентирование внимания на незначительной разнице в результа-

тах, что нежелательно как при сравнении показателей теста у различных

испытуемых, так и при сравнении показателей различных способностей

одного испытуемого. Изменения результатов вследствие обучения или

других причин экспериментального воздействия также необходимо ин-

терпретировать с учетом ошибки измерения.

Часто возникает вопрос об относительном положении показателей

индивида в различных сферах деятельности. Действительно ли у Джейн

вербальные способности более выражены, чем математические? Есть ли

основания считать, что Том обладает большими данными в сфере техни-

ки, нежели в работе со словом? Если в батарее тестов различных способ-

ностей Джейн получила более высокий показатель по вербальному, чем

OT>TJTTr.CT ЛЛUtяaЛЛ Tf>Y-

122 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

утверждать, что они могли бы иметь те же показатели при повторном

тестировании с другой формой батареи? Иными словами, были ли полу-

ченные различия в показателях просто результатом случайного отбора

конкретных заданий в данных субтестах-вербальном, математическом

и механическом?

В связи с растущим интересом к интерпретации профилей показате-

лей издатели тестов разработали формы представления данных, позво-

ляющие оценивать показатели в соответствии с ошибками измерения.

На рис. 13 в качестве примера воспроизведена форма регистрации инди-

видуальных показателей, используемая в тестах различных способностей.

На приведенной форме процентильные показатели по каждому субтесту

батареи изображаются в виде полос длиной в один дюйм, центры ко-

торых находятся против соответствующих процентилей испытуемого.

Каждая такая процентильная полоса соответствует расстоянию приблизи-

тельно 1,5-2 стандартные ошибки по обе стороны от полученного пока-

зателя. Следовательно, предположение, что истинный показатель инди-

вида лежит внутри такой полосы, верно приблизительно в 90Їо случаев.

При интерпретации профилей пользователю теста рекомендуется не при-