Скачать

Тестирование

ТЕСТИРОВАНИЕ


1. Тесты, их классификация.

2. Направления тестирования.


1. Тесты, их классификация.

Тесты – это специализированные методы психологического диагностического исследования, применяя которые можно получить точную количественную или качественную характеристику изучаемого явления.

От других методов исследования тесты отличаются тем, что: 1) предполагают стандартизованную, выверенную процедуру сбора и обработки данных, а также их интерпретации; 2) с помощью тестов можно изучать и сравнивать между собой людей, давать оценки их психологии и поведению.

1. Тест-опросник основан на системе заранее отобранных и проверенных с точки зрения их валидности и надежности вопросов, по ответам испытуемых, на которые определенно можно судить об их психологических качествах.

2. Тест-задание предполагает оценку психологии и поведения человека не на основе того, что он говорит, а на базе того, что он делает. В тестах этого типа человеку дается серия специальных заданий, по итогам, выполнения которых судят об изучаемом качестве.

Тесты-опросники и тесты-задания – применимы к людям разного возраста, принадлежащим к различным культурам, имеющим разный уровень образования, разные профессии и неодинаковый жизненный опыт. Это положительная черта данных тестов.

Недостаток состоит в том, что при использовании их испытуемый при желании может сознательно повлиять на получаемые результаты, особенно если он знает, как устроен тест и каким образом по его результатам будут оценивать его психологию и поведение.

Тесты-опросники и тесты-задания неприменимы в тех случаях, когда изучению подлежат свойства и характеристики, в существовании которых испытуемый не может быть полностью уверен, не осознает или не хочет признавать их наличие у себя. Такими характеристиками являются, например, многие отрицательные качества и мотивы поведения, другие свойства, наличие которых осуждается.

3. Проективные тесты обычно предназначены как раз для изучения тех психологических и поведенческих особенностей человека, которые им слабо осознаются или вызывают к себе с его стороны крайне отрицательное отношение.

В основе проективных тестов лежит механизм проекции, согласно которому не осознаваемые человеком положительные и особенно отрицательные характеристики он склонен приписывать не себе, а другим людям, “проецировать” их на других.

При применении тестов подобного рода об испытуемом судят на основе того, как он оценивает ситуации, других людей, какие свойства им приписывает.

Пользуясь проективными тестами, психологи вводят испытуемых в неопределенную ситуацию, из которой они должны самостоятельно найти выход. Такими ситуациями могут быть: 1) поиск определенного смысла в сюжетно-неопределенных картинах; 2) завершение незаконченных предложений; 3) оценка поведения и поступков незнакомых людей в неясных ситуациях и т.п.

Тесты проективного типа: 1) предъявляют повышенные требования к уровню образованности и интеллектуального развития испытуемых, и в этом заключается их основной недостаток; 2) требуют при их применении высокой профессиональной квалификации психолога и большого опыта работы.

Все рассмотренные методы исследования можно использовать для сбора данных о психологии и поведении людей как в реальной жизни, так и в специальных экспериментальных условиях. В силу множества причин, которые могут оказать влияние на психологию и поведение человека, и того, что в обычных условиях эти причины трудно контролировать, психологи в течение последних 40-50 лет чаще обращались к эксперименту как самому надежному средству получения достоверной информации об изучаемых явлениях.

2. Направления тестирования

Идея квантования как отрезка различения была очень эвристичной. Ее восприняли и стали применять для разработки объективных методов оценки практически во всех направлениях психологии.

В основе метода объективной психологической оценки лежит тест (или проба), который может представлять собой: 1) стимул определенной модальности(2), если это психофизическое исследование; 2) задачи разного уровня сложности, если это педагогическая психология; 3) задания, связанные с исследованием внимания, памяти, сообразительности и т.д. в общей и возрастной психологии.

Для того, чтобы эти тесты (пробы) могли дать объективные и измеримые данные, они предварительно проверяются на большом числе испытуемых. Например, в педагогической психологии – на детях одного возраста или людях одного уровня образования и т.д.

При этом из всех предложенных задач отбираются те, которые успешно решаются значительным числом всех испытуемых (например, двумя третями).

Эта процедура называется нормированием, или определением “нормы”. С ней впоследствии сравниваются решения тех испытуемых, знания, умения и навыки которых измеряются.

Результаты этих измерений оцениваются в условных баллах (или в ранговых оценках), объединенных в шкалу порядка и указывающих, какое место данный испытуемый мог бы занять по отношению к соответствующей группе испытуемых (то есть к “норме”).

Задача психологических тестов, таким образом, – измерить различия между индивидами или между реакциями одного индивида в разных условиях. Решение этой задачи привело к развитию дифференциальной психологии. Велико значение психологических тестов и для других направлений психологии.

Количество и разнообразие различного рода тестов, опросников и шкал в настоящее время огромно. А начиналось тестирование с разработок Ф.Гальтона (1822-1911), который первым их: 1) применил для измерения психических свойств; 2) разработал методы математической статистики для анализа данных по индивидуальным различиям.

В дальнейшем заметный вклад в развитие психологического тестирования внесли работы Джеймса Кеттела (1860-1944) с его “умственными тестами”, которые содержали измерение мышечной силы, скорости движения, чувствительности к боли, остроты зрения и слуха, времени реакции, памяти и т.д.

Измерением памяти у школьников занимался Г.Эббингауз (1897).

Во Франции в 1908 г. свою первую шкалу умственного развития для детей создали А.Бине и Т.Симон.

Когда США вступили в Первую мировую войну, под руководством Р.М. Йеркса (1876-1956) были разработаны армейские так называемые “альфа и бета тесты”, позволяющие отобрать годных к военной службе лиц. Впоследствии эти тесты неоднократно перерабатывались и стали образцом для большинства групповых тестов интеллекта. Тестирование получило мощнейший стимул для своего развития, и вскоре были разработаны групповые тесты интеллекта для всех возрастов и уровней образованности (от дошкольников до аспирантов). Их начали широко использовать в школах, колледжах. Коэффициент интеллекта 10 (см. главу “Способности”) учитывался при приеме в учебные заведения и на работу. Однако вскоре стало ясно, что применяемые тесты являются очень грубым инструментом и область их применения весьма ограничена. Тем не менее они широко распространены, продолжают совершенствоваться и применяться для разных целей.

Наряду с тестами интеллекта в ответ на запросы практики возникли также тесты достижений. Их еще называют тестами объективного контроля успешности: школьной, профессиональной, спортивной и т.п. От разных типов контроля знаний и умений (устных и письменных) эти тесты отличаются своей формой. Учащимся предлагается вопрос, ответ на который в нескольких вариантах представлен на этом же бланке. Один из ответов верный, остальные – нет. Нужно отметить верный ответ. При подготовке тестов достижений практикуется экспертная оценка знаний, которая проводится параллельно с тестированием. Когда тест отработан и стандартизован, необходимость в этом отпадает. К сожалению, применение теста достижений ограничено только той областью знаний, которая поддается формализации.

Применение тестов. Как методический инструмент тесты широко используются в современных исследованиях. Однако прежде чем решить, какой из сотен имеющихся тестов может быть применен для исследования, психолог задается вопросом:

1) какова цель теста?

2) для какой группы лиц он лучше подходит?

3) чем он отличается от других методов изучения индивидуальности человека?

4) насколько ответственно он конструировался?

5) насколько он точен?

6) насколько адекватны и действительны его результаты?

От каждого измерительного инструмента требуется, чтобы он был как можно более точным, чтобы на полученные результаты можно было положиться как на данные, близкие к “настоящей” величине измеряемого признака. Следовательно, точность можно понимать как меру достоверности, с какой тест измеряет ее. Существует ряд источников погрешностей, которые снижают точность тестов и надежность результатов. К ним относятся:

1) неблагоприятные условия тестирования;

2) недостаточное внимание к состоянию испытуемых в момент испытания;

3) неверное поведение экспериментатора;

4) субъективность в истолковании результатов теста.

Кроме учета и устранения источников погрешностей, надежность теста (то есть его согласованность) повышают посредством повторного испытания с последующим вычислением коэффициента корреляции между данными первого и второго тестирования. Подобная тщательная и объективная проверка надежности теста необходима психологам, чтобы знать, для каких целей и в каких пределах его можно применять.

Наряду с надежностью к тесту предъявляется требование валидности, или адекватности. Валидность – это степень, в которой тест является инструментом, измеряющим то, для чего он предназначен.

Для установления валидности обычно требуется независимый внешний критерий по отношению к тому, что тест должен измерить. Например, если тест предназначен для измерения склонности к риску, то он может быть валидизирован проверкой этой склонности в группе мотогонщиков, каскадеров и т.д. Совокупность таких внешних показателей риска будет критерием, с которым следует соотнести исходные тестовые показатели риска. Далее определяется коэффициент валидности с помощью коэффициента корреляции. При конструировании тестов применяется еще целый ряд специальных статистических процедур, позволяющих сделать тест более чувствительным и надежным инструментом.

При работе с тестами следует отметить также и этический аспект. Использование, проведение и интерпретация психологических тестов обязательно должны идти под контролем квалифицированного психолога. В руках недобросовестного или некомпетентного экспериментатора тесты могут принести серьезный вред. Особенно это касается личностных тестов или опросников, в связи с чем важно предотвратить доступность их содержания для любого желающего.

Описанные выше базовые методы исследований, а также методы измерения и тестового оценивания индивидуальных различий лежат в основании многих современных объективных методов эмпирических исследований. К основным из них относятся методы опроса, проективный и отраженной субъективности.

Тема 11. Технология тестирования

1. Достоинства метода тестов.

2. Недостатки тестирования.

3. Надежность тестов.

4. Валидность тестов.

5. Стандартизация тестов.

6. Достоверность теста.

Ключевые термины: оптимальная трудность, надежность теста, ошибка измерения, валидность теста, критерий валидности, прогностическая валидность, стандартизация теста, выборка стандартизации, линейная стандартизация, конверсионная таблица, репрезентативность тестовых норм, рестандартизация, критериальные нормы, достоверность теста, мотивационные искажения, шкала лжи, социальная желательность, ситуация клиента, ситуация экспертизы.

Метод тестов является одним из основных в современной психологии. По уровню популярности в образовательной и профессиональной психодиагностике он прочно удерживает первое место в мировой психодиагностической практике уже фактически в течение столетия.

Договоримся понимать под тестами в этом разделе технологии, которые состоят из серии заданий с выбором из готовых вариантов ответа. При подсчете баллов по тесту выбранные ответы получают однозначную количественную интерпретацию и суммируются. Суммарный балл сравнивается с количественными тестовыми нормами, и после этого сравниваются стандартные диагностические заключения.

1. Достоинства метода тестов

Популярность метода тестов объясняется следующими главными его достоинствами.

1. Стандартизация условий и результатов

Тестовые методики относительно независимы от квалификации пользователя (исполнителя), на роль которого можно подготовить даже лаборанта со средним образованием. Это однако не означает того, что для подготовки комплексного заключения по батарее тестов не надо привлекать квалифицированного специалиста с полноценным высшим психологическим образованием.

2. Оперативность и экономичность

Типичный тест состоит из серии кратких заданий, на выполнение каждого из которых требуется, как правило, не более полуминуты, а весь тест занимает не более часа (в школьной практике это один урок); тестированию одновременно подвергается сразу группа испытуемых, таким образом, происходит значительная экономия времени (человеко-часов) на сбор данных.

3. Количественный дифференцированный характер оценки

Дробность шкалы и стандартизованность теста позволяют рассматривать его как “измерительный инструмент”, дающий количественную оценку измеряемым свойствам (знаниям, умениям в данной области). Хороший тест позволяет различать не только три категории учеников – отличников, “середнячков” и “хвостистов”, но и хорошо дифференцировать испытуемых на полюсах шкалы – отличать просто способных от очень способных и талантливых, а среди отстающих отличать небезнадежных от “безнадежных” (или совершенно неподготовленных). Кроме того, количественный характер тестовых результатов дает возможность применить в случае тестов хорошо разработанный аппарат психометрии, позволяющий оценить, насколько хорошо работает данный тест на данной выборке испытуемых в данных условиях.

4. Оптимальная трудность

Профессионально сделанный тест состоит из заданий оптимальной трудности. При этом средний испытуемый набирает примерно 50 процентов из максимально возможного количества баллов. Это достигается за счет предварительных испытаний – психометрического эксперимента, или пилотажа. Если в ходе пилотажа становится известно, что с заданием справляется примерно половина из обследуемого контингента, то такое задание признается удачным и его оставляют в тесте.

5. Надежность

Это, может быть, самое главное достоинство тестов. “Лотерейный” характер современных экзаменов с вытягиванием “счастливых” или “несчастливых” билетиков давно стал притчей во языцех. Лотерейность для экзаменующегося здесь оборачивается низкой надежностью для экзаменатора – ответ на один фрагмент учебной программы, как правило, не показателен для уровня усвоения всего материала. В отличие от этого любой грамотно построенный тест охватывает основные разделы учебной программы (тестируемой области знаний или проявлений какого-то умения или способности). В результате возможность для “хвостиков” выбиться в отличники, а для отличника вдруг “провалиться” резко сокращается.

Назовем также ряд достоинств, которые в логическом смысле являются следствиями, производными от перечисленных выше, но заслуживают самостоятельного упоминания.

6. Справедливость

Справедливость является важнейшим социальным следствием перечисленных выше достоинств метода тестов. Ее следует понимать как защищенность от предвзятости экзаменатора. Хороший тест ставит всех испытуемых в равные условия. Наиболее сильно субъективизм экзаменаторов проявляется, как известно, не в трактовке уровня решенности задачи (не так просто можно назвать черное белым, решенную задачу – нерешенной), а в тенденциозном подборе заданий: своим – полегче, чужим – труднее. Во введении к настоящему пособию уже говорилось, что именно тесты обеспечивают важнейшую функцию школы как социального фильтра, функцию “социально-профессиональной селекции”. То, насколько справедливой оказывается подобная селекция, имеет гигантское значение для развития общества. Поэтому так важно всем, кто имеет доступ к тестам и их результатам, учиться культуре грамотного и гуманного их применения. Ибо только добросовестное и квалифицированное отношение пользователей к тестам превращает их в инструмент, повышающий, а не понижающий уровень справедливости в обществе.

7. Возможность компьютеризации

В данном случае это не просто дополнительное удобство, сокращающее живой труд квалифицированных исполнителей при массовом обследовании. В результате компьютеризации повышаются все параметры тестирования (например, при адаптивном компьютерном тестировании резко сокращается время тестирования). Специально подчеркнем, что компьютеризация – это мощный инструмент обеспечения информационной безопасности (достовер­ности диагностики).Компьютерная организация тестирования, предполагающая создание мощных информационных “банков тестовых заданий”, позволяет технически предотвратить злоупотребления со стороны недобросовестных экзаменаторов. Выбор заданий, предлагаемых конкурентному испытуемому, может производить из такого банка сама компьютерная программа прямо в ходе тестирования, и предъявление данному испытуемому определенного задания в этом случае является таким же сюрпризом для экзаменатора, как и для испытуемого.

8. Психологическая адекватность

Это важнейшее психологическое следствие оптимальной сложности. Наличие в тесте (по сравнению с традиционными экзаменационными вариантами) большого количества кратких заданий средней трудности дает многим испытуемым (особенно тревожным, не уверенным в себе) шанс “зацепиться”, поверить в себя, активизировать психологически оптимальную установку “на преодоление”. Ведь когда такой испытуемый остается лицом к лицу с одной-двумя очень сложными и большими задачами и не видит, как можно с ними справиться вообще, то он падает духом и не раскрывает всех своих возможностей. А если заданий много и часть из них явно начинает “поддаваться” (испытуемый уверен, что он с ними справится), человек в процессе тестирования ободряется и начинает “бороться” за максимальный результат. Уже упомянутое нами свойство оптимальной сложности важно для теста тем, что оно обеспечивает не только измерительную (различающую) силу тесту, но и оптимальный психологический настрой испытуемых. Человек не является пассивным объектом измерений при тестировании (подобно гире при взвешивании), а он всегда остро эмоционально реагирует на тест. Тестовая ситуация оптимальной сложности является оптимальным возбудителем – люди испытывают нормальный уровень стресса (напряжения), необходимый для того, чтобы показать наивысший результат. Недостаток стресса (в случае легкого теста), а тем более избыток (в случае трудного) искажают результаты измерения. Этого, как правило, совершенно не понимают организаторы наших конкурсных экзаменов, пытающиеся в случае высокого конкурса дать абитуриентам задачки посложнее (“на засыпку”), что создает избыточный стресс, который не дает возможности проявить себя людям, подготовленным хорошо, но обладающим пониженной стрессоустойчивостью.

Во многих странах внедрение методов тестирования (равно как и сопротивление этому внедрению) тесно связано с социально-политическими обстоятельствами. Внедрение технически хорошо оснащенных тестовых служб в образовании – важнейший инструмент в борьбе с коррупцией, поражающей правящую элиту (номен­клатуру) во многих странах. На Западе тестовые службы работают независимо от “выпускающих” (школы) и “принимающих” (вузы) организаций и снабжают абитуриента независимым сертификатом по результатам тестирования, с которым он может отправляться в любое учреждение. Эта независимость службы тестирования от выпускающих и принимающих организаций является дополнительным фактором демократизации процесса селекции профессиональных кадров в обществе, дающая талантливому и просто работоспособному человеку лишний шанс проявить себя.

Однако все перечисленное выше не означает, что метод тестов не обладает некоторыми весьма серьезными недостатками, не позволяющими свести всю диагностику способностей и знаний исключительно к тестированию.

2. Недостатки тестирования

Как всегда, определенные недостатки метода тестов являются продолжением его достоинств.

1. Опасность “слепых” (автоматических) ошибок

Слепая вера низкоквалифицированных исполнителей в то, что тест должен сработать правильно автоматически, порождает иногда тяжелые ошибки и казусы: испытуемый не понял инструкцию и стал отвечать совсем не так, как требует стандартная инструкция, или по каким-то причинам применил искажающую тактику, возник “сдвиг” в приложении трафаретки-ключа к бланку ответов (при ручном, некомпьютерном подсчете баллов) и т.п. Мораль – пользователь не должен подходить к тесту с “магической установкой”, будто этот волшебный “черный ящик” должен всегда работать исправно без всякого контроля со стороны человека.

2. Опасность профанации

Это эффект деятельности “профанов” в буквальном смысле слова. Не секрет, что внешняя легкость проведения тестов прельщает людей, непригодных к квалифицированному труду. Оснастившись тестами, им самим непонятного качества, но с громкими рекламными названиями, профаны от тестирования агрессивно предлагают свои услуги всем и вся. В результате все проблемы предполагается решать с помощью 2-3 тестов – “на все случаи жизни”.

К количественному тестовому баллу приклеивается новый ярлык – заключение, создающее видимость соответствия диагностической задаче. Ходовой пример – повальное использование клинического теста MMPI для отбора кадров в нашей стране. В этом случае высокий балл по восьмой шкале “Шизофрения” интерпретируется как “оригинальность мышления”, по четвертой шкале “Психопатия” – как “импульсивность” и т.п. Мысль о том, что нормальный здоровый испытуемый настораживается при виде многих вопросов MMPI, в которых откровенно называются психиатрические симптомы (“Я часто слышу голоса”) и выдают чисто “защитный” профиль, профанов не тревожит(3).

Еще раз подчеркнем, что недобросовестная профанация и элементарное невежество идут в области тестирования рука об руку.

3. Потеря индивидуального подхода, “стрессогонность”

Тест – самая общая “гребенка”, под которую подгоняют всех людей. Возможность упустить уникальную индивидуальность нестандартного человека (тем более ребенка), к сожалению, довольно вероятна. Это чувствуют сами испытуемые, и это их нервирует – особенно в ситуации аттестационного тестирования.

У людей с пониженной стрессоустойчивостью возникает даже определенное нарушение саморегуляции – они начинают волноваться и ошибаться в элементарных для себя вопросах (просто из-за “мандра­жа”). Вовремя заметить такую реакцию на тест – задача, которая под силу квалифицированному исполнителю.

4. Потеря индивидуального подхода, “репродуктивность”

Тесты знаний апеллируют, прежде всего, к стандартному применению готовых знаний. Отсутствие возможности раскрыть свою индивидуальность при наличии стандартных, заданных ответов – ничем не восполнимый недостаток метода тестов. С точки зрения выявления творческого потенциала большинство тестов весьма ограничены именно тем, что они не апеллируют к творческой, конструктивной деятельности. Во всяком случае, отдельные стандартизированные творческие тесты имеют дело с весьма абстрактным материалом, а тесты достижений (знаний), адаптированные на жизненно важном материале (профессионально релевантном), как правило, выполнены в форме стандартного набора заданий с заданным ответом.

5. Отсутствие доверительной обстановки

Бездушный и формализованный характер процедуры тестирования, конечно, оборачивается тем, что испытуемый лишается ощущения того, что психолог заинтересован в нем лично, в том, чтобы помочь ему. Диалогические методы (беседа, игра и т.п.) в этом плане имеют несомненные преимущества: непосредственно общаясь с испытуемым, квалифицированный психолог может установить доверительный контакт, проявить персональное участие, создать атмосферу, снимающую напряжение и защиту.

6. Потеря индивидуального подхода, неадекватная сложность

Иногда неквалифицированные “тестологи” обрушивают на ребенка тесты слишком трудные, сложные для его возраста. У него еще не сложились необходимые понятия и понятийные навыки, чтобы адекватно осмыслить как общую инструкцию к тесту, так и смысл отдельных вопросов. Мы уже говорили о драматических казусах резкой недооценки умственного развития детей при применении вербальных тестов. Но многие “невербальные” тесты также требуют развития речевого мышления хотя бы для осмысления того, что говорит взрослый в своей инструкции. Альтернатива “взрослому” тестированию в детской психологии – игровой подход к тестированию, когда тест включается в контекст игры, и ребенок выполняет его как бы играя.

Таким образом, тесты нельзя делать единственным исчерпывающим методом любой диагностики (и образовательно-профес­сиональной, и личной). Они требуют параллельного использования свободных письменных работ (в личностной диагностике место сочинений занимают проективные тесты со свободным ответом), а также устного собеседования (интервью). То есть место тестов – дополнять указанные выше традиционные методы. В этом качестве тесты незаменимы, так как не имеют многих недостатков, свойственных традиционным методам.

Спокойное рациональное осознание достоинств и недостатков метода тестирования освобождает всех (исполнителей, заказчиков, испытуемых) как от чрезмерных упований на метод тестов, так и от пренебрежения к нему.

Лучшая гарантия от профанов и профанации – серьезный и квалифицированный интерес к тому, какую экспериментально-научную работу проделали разработчики теста, как полно эта работа и ее результаты отражены в сопутствующей документации. Это прежде всего вопросы надежности, выносливости и репрезентативности.

3. Надежность теста

Надежность – одно из трех главных психометрических свойств любой измерительной психодиагностической методики (теста). Надежность – это помехоустойчивость теста, независимость его результатов от действия всевозможных случайных факторов. К числу таких факторов следует отнести:

разнообразие внешних материальных условий тестирования, меняющихся от одного испытуемого к другому (время суток, освещенность, температура в помещении, наличие посторонних звуков, отвлекающих внимание и т.п.);

динамичные внутренние факторы, по-разному действующие на разных испытуемых в ходе тестирования (время так называемой “вырабатываемости” – выхода на стабильные показатели темпа и точности действий после начала тестирования, скорость утомления и т.п.);

информационно-социальные обстоятельства (различная динамика в установлении контакта с психологом или лаборантом, проводящим тестирование; возможное наличие других людей в помещении; наличие предыдущего опыта знакомства с данным тестом; наличие какого-то знания и отношения к тестам и т.п.).

Разнообразие и изменчивость всех этих факторов так велики, что они обусловливают появление у каждого испытуемого непрогнозируемого по размерам и направлению отклонения – измеренного тестового балла от истинного тестового балла (который можно было бы в принципе получать в идеальных условиях). Средняя относительная величина этого отклонения определяется как “стандартная ошибка измерения” (Se). Величина ошибки измерения указывает на уровень неточности или ненадежности тестовой шкалы (специально подчеркнем, что в психометрической теории надежность и точность оказываются синонимами).

Ошибка измерения (Se) и надежность измерения (R), согласно общепринятой психометрической теории, связаны следующей формулой:

R= 1 – S e2/ S x2, (1)

где Sх – дисперсия тестовых показателей Х.

Формула (1) является чисто теоретической, и на ее основе нельзя определить степень надежности теста, так как величина Se оказывается также неизвестной величиной. Поэтому на практике применяют корреляционные методы. Самый известный из них – метод перетестирования (тест-ретест), или метод измерения ретестовой надежности. На одной и той же выборке испытуемых (не менее 30 человек, участвующих в пилотажном психометрическом экспериментальном исследовании) проводят первое тестирование Х, а затем повторное тестирование Y. Интервал, как правило, – две недели, что гарантирует забывание вопросов теста.

где SX, SY – стандартные отклонения Х и Y;

Cov (х, y) – ковариация двух переменных Х и Y.

В этой книге мы не ставим целью научить студентов-педагогов корреляционным методам и пытаемся изложить лишь принципиальную суть дела. Интересующиеся найдут все необходимые формулы и вычислительные примеры в любом учебнике по статистике, а также в специализированных изданиях по психодиагностике и психометрике (“Общая психодиагностика”, 1987; Клайн, 1994).

Что важно для сути теории надежности тестов, так это возможность определить ошибку измерения после того, как подсчитана корреляция “тест-ретест” по формуле (3), полученной путем простого преобразования формулы (1):

Se = Sх× V1 – R. (3)

Таким образом, если стандартное отклонение в тесте составило 10 очков (среднее отклонение, которое в среднем допускают испытуемые от среднего балла для выборки), а корреляция “тест-ретест” оказалась равной лишь 1,5, то ошибка измерения оказывается очень большой:

Se=10×V1-0,5»7,1. (4)

То есть оказывается, что ошибка измерения перекрывает большую часть разброса тестовых показателей, так как истинный балл по тесту может отклоняться от измеренного балла на целых 7 очков! И если испытуемый набрал на 6 очков больше, чем “средний” испытуемый, мы не можем с достаточной уверенностью (статистической достоверностью) говорить о том, что он значимо превзошел среднего испытуемого, так как это отклонение оказывается в пределах стандартной ошибки измерения.

Таким образом, низкая корреляция результатов теста между первым и повторным тестированием говорит о том, что случайные факторы существенно искажают результаты теста. Это значит, что тест не обладает необходимой помехоустойчивостью и его нельзя использовать как измерительный инструмент.

Показатель надежности R, который принято считать достаточно высоким, равен или превышает 0,95. Хотя в личностных тестах часто пользуются значительно менее надежными тестами с показателями 0,8-0,9.

Метод измерения “ретестовой надежности” пригоден только для психических свойств, стабильных во времени. Надежность тестов на психические состояния и динамичные установки личности нельзя проверить таким образом. В этом случае применяют различные методы “расщепления” теста на отдельные пункты, освещение которых выходит за пределы настоящего пособия

4. Валидность теста

Соответствие теста измеряемому психическому свойству называется валидностью теста. Это, без преувеличения, важнейшее психометрическое свойство теста. Если высокая надежность теста говорит нам о том, что тест действительно “что-то” измеряет, то высокая валидность указывает на то, что тест измеряет именно то, что мы хотим. Конечно, на валидность теста также негативно влияют случайные факторы. Поэтому в психометрике принято следующее основное психометрическое неравенство:

ВАЛИДНОСТЬ< НАДЕЖНОСТЬ,

что означает, что валидность не может превышать надежности теста.

Но в отличие от надежности, помимо случайных факторов, на валидность теста влияют систематические факторы. Они привносят систематические искажения в результаты. Эти факторы есть другие психические свойства, которые мешают проявиться в результатах теста тому свойству, на которое тест направлен.

Например, мы хотим измерять “потенциал обучаемости” (важ­нейший компонент общих интеллектуальных способностей человека), но даем испытуемому тест с жестким ограничением времени исполнения и отсутствием возможности вернуться и исправить допущенную ошибку. Совершенно очевидно, что искомое психическое свойство оказывается смешанным в тесте с ложным психическим свойством – “стрессоустойчивость”: испытуемые с высокими показателями стрессоустойчивости будут лучше выполнять тест. В этом проявится эффект систематического искажения.

В современной психометрике разработаны буквально десятки разнообразных теоретических и экспериментальных методов проверки валидности тестов. Основным элементом практически всех этих методов является так называемый критерий валидности – это независимый от теста, внешний по отношению к тесту источник информации об измеряемом психическом свойстве. Мы не можем судить о валидности теста до тех пор, пока не сравним его результаты с источником истинной (или хотя бы заведомо более валидной) информации об измеряемом свойстве – с критерием.

В научных исследованиях преобладают специальные лабораторные критерии. Например, конструируется компактный тест-опросник на тревожность. А в качестве критерия валидности для него используется специальный трудоемкий объективный лабораторный эксперимент, в котором воспроизводится реальная ситуация тревожности (испытуемым-добровольцам угрожают за ошибочные действия ударами тока и т.п.).

На практике очень часто в качестве критерия валидности используются прагматические критерии – показатели эффективности той деятельности, ради прогнозирования которой предпринимается тестирование. В школе самый типичный критериальный показатель – это успеваемость. Но для социально-психологической адаптации ребенка внешним критериальным показателем может быть уровень популярности в классе.

Очень часто в качестве критерия валидности используется экспертная оценка. Например, мы хотим убедиться, что короткий тест на измерение уровня дисциплинированности валиден. Для этого опрашиваем учителей об уровне дисциплинированности хорошо известных им учеников. И после этого сравниваем (коррелируем) результаты теста и экспертный рейтинг учеников по дисциплинированности.

Остановимся чуть подробнее на этом последнем примере. Здесь мы имеем один из самих простых и популярных методов эмпирического (статистического) измерения валидности. Это метод “известных групп”. К участию в психометрическом эксперименте по проверке валидности теста приглашаются испытуемые, про которых известно, к какой группе по критерию они относятся. В случае с тестом дисциплинированности подбираются ученики, заведомо дисциплинированные, по данным экспертной оценки учителей (“высокая” группа по критерию), и заведомо недисциплинированные (“низкая” группа по критерию). Ученики со средними показателями по критерию в тестировании не участвуют.

После проведения теста мы рассчитываем, например, простейшую четырехклеточную корреляцию между тестом и критерием. Для этого заполняется следующая четерехклеточная таблица.

ВЫС. КРИТ.НИЗ. КРИТ
ВЫС. ТЕСТAB
ВЫС. ТЕСТCD

Элемент “А” в этой табличке – это число испытуемых, попавших в “высокую” группу по тесту и по критерию, элемент В – число испытуемых, попавших в высокую группу по тесту, но в низкую группу по критерию и т.д.

Очевидно, что при полной валидности теста элементы В и С таблички должны быть равны нулю. То есть тест не должен давать ошибок – говорить о том, что ученик низкодисци