Компьютерная обработка психологических тестов: Компьютеризированные и компьютерные тесты

Содержание

Современные компьютерные системы для эффективной оценки персонала

Выявление личностно-профессиональных особенностей является исходным пунктом оценки и аттестации персонала. Для этого компании применяют диагностические средства, позволяющие количественно выражать как внутреннее состояние людей, так и их отношения с окружающим миром. Новые технологии предоставляют качественно новые возможности для проведения диагностики личности и группы. Это можно отнести ко всем этапам процесса диагностики. С помощью компьютеров возможно формирование и предъявление тестируемому гораздо большего количества стимулов, их контекстная коррекция в зависимости от сделанного выбора. Значительно упрощается фиксация и обработка ответов респондента при одновременном снижении вероятности ошибок, которые сложно избежать при ручной обработке.

В разы увеличивается оперативность предоставления заказчику результатов диагностики и возрастает «пропускная способность», что особенно важно при проведении массовых обследований. Существенным плюсом компьютерных средств психологической и профессиональной диагностики является быстрота перевода полученных первичных данных по тестам в стандартные значения и наличие базовых вариантов интерпретации показателей. Таким образом, компьютерные системы диагностики освобождают пользователя от трудоемких рутинных операций и позволяют сосредоточиться на решении содержательных профессиональных задач.

Смотрите также Почувствуй вкус обратной связи. KEY HABITS

Следует подчеркнуть, что использование компьютерной техники дает потенциальную возможность не только «протестировать» сотрудника, но и соотнести полученные результаты с несколькими выборками стандартизации теста (профессиональными, социально-демографическими, должностными и т.д.), обеспечивая более полную оценку кадров.

Для функционирования кадровой службы весьма значима реализуемая в компьютерных системах возможность «сопряжения» диагностического инструментария с накоплением получаемой информации.

Базы данных полезны не только для эффективного поиска информации о конкретном сотруднике, но и для последующей коррекции тестовых методик.

Существует большое количество компьютерных систем психодиагностики. Их можно разделить на несколько групп.

Одномерные системы оценки персонала

На основе первого критерия целесообразно выделять «одномерные» и «многомерные» системы. «Одномерные» системы предназначены для проведения компьютерной психологической диагностики, как правило, по одной тестовой методике. Это тесты MMPI, Кеттела, Люшера, Майерс-Бригс и другие. Ориентированность на оценку только одного класса параметров личности: личностных акцентуаций, черт характера, текущего состояния — является ограничением и не позволяет рассматривать их в качестве эффективного средства оценки персонала.

Многомерные системы оценки персонала

Включают в себя несколько методик и позволяют проводить диагностику как по одной из них, так и по нескольким («тестовой батарее»).

Система «Психологический портрет». Особенностью системы является специальный подбор методик. С одной стороны они прошли строгий контроль на валидность и являются в своем роде классическими. С другой стороны, направленность включенных в систему тестов позволяет составить полное представление о личности человека.

Пакеты психодиагностических методик центра КАТАРСИС (Тест1, Тест2, АРМ психолога профконсультанта). Они содержат достаточно большой набор психодиагностических методик: ММИЛ (MMPI в адаптации Ф.Б. Березина), Шестнадцатифакторный опросник Р. Кэттелла (16PF), Опросник Леонгарда-Шмишека, Опросник Айзенка, Методика УНП, Тест САН, Опросник УСК, Опросник потребности в достижениях, Опросник КОС, Тест Томаса, и другие.

«Многомерные» методики позволяют осуществлять весьма глубокую оценку личностных особенностей. Вместе с тем, возможности проведения тестирования, и обработки полученных результатов в них, как правило, ограничены тем набором, который разработчики системы компьютерной психодиагностики в нее заложили. В таких системах у пользователя отсутствует изменять набор методик, вводить новые, корректировать имеющиеся методики.

Системы-оболочки

Позволяют не только проводить собственно психологическую диагностику, используя все преимущества компьютерного тестирования, но также имеют богатые возможности по доработке имеющихся психодиагностических методик для решения большого круга различных задач и разработке новых тестов. Преимущества таких систем:

— Формирование оптимального набора методик;
— Разработка и корректировка правил обработки и интерпретации результатов;
— Подготовка текстовых вариантов результатов психологической диагностики.

«Открытые» системы являются предпочтительными для оценки и аттестации персонала, хотя работа с ними обусловлена сложностью в работе с ними. Но они открывают уникальные возможности для оценки сотрудников. «Открытость» системы может быть как полной (введение новых тестов и корректировка имеющихся), так и ограниченной (корректировка изначально заложенных тестов).

Смотрите также Продолжение статьи: Системы-оболочки для эффективной оценки персонала

Компьютерная обработка теста «Методика изучения мотивации обучения школьников при переходе из начальных классов в средние по методике М. Р. Гинзбурга «Изучение учебной мотивации» (Личностные УУД)» | Тест по психологии (5 класс) на тему:

Методика изучения мотивации обучения школьников при переходе

из начальных классов в средние по методике М. Р. Гинзбурга «Изучение учебной мотивации»

(Личностные УУД)

Цель: изучение мотивационной сферы учащихся на этапе перехода в среднее звено школы как показателя одной из составляющих личностных УУД.

Регистрация данных: групповая форма проведения.

Необходимые материалы: регистрационный бланк, ручка.

Инструкция: «Внимательно прочитай каждое неоконченное предложение и предложенные варианты ответов к нему. Выбери для окончания предложения 3 варианта из предлагаемых ответов, самые справедливые и действительные по отношению к тебе. Выбранные ответы подчеркни».

Анкета

Дата Ф.И. Класс______

1. Я стараюсь учиться лучше, чтобы…

а) получить хорошую отметку;

б) наш класс был лучшим;

в) принести больше пользы людям;

г) получать впоследствии много денег;

д) меня уважали и хвалили товарищи;

е) меня любила и хвалила учительница;

ж) меня хвалили родители;

з) мне покупали красивые вещи;

и) меня не наказывали;

к) я больше знал и умел.

2. Я не могу учиться лучше, так как…

а) у меня есть более интересные дела;

б) можно учиться плохо, а зарабатывать впоследствии хорошо;

в) мне мешают дома;

г) в школе меня часто ругают;

д) мне просто не хочется учиться;

е) не могу заставить себя делать это;

ж) мне трудно усвоить учебный материал;

з) я не успеваю работать вместе со всеми.

3. Если я получаю хорошую отметку, мне больше всего нравится то, что…

а) я хорошо знаю учебный материал;

б) мои товарищи будут мной довольны;

в) я буду считаться хорошим учеником;

г) мама будет довольна;

д) учительница будет рада;

е) мне купят красивую вещь;

ж) меня не будут наказывать;

з) я не буду тянуть класс назад.

4. Если я получаю плохую отметку, мне больше всего не нравится то, что…

а) я плохо знаю учебный материал;

б) это получилось;

в) я буду считаться плохим учеником;

г) товарищи будут смеяться надо мной;

д) мама будет расстроена;

е) учительница будет недовольна;

ж) я весь класс тяну назад;

з) меня накажут дома;

и) мне не купят красивую вещь.

Обработка результатов

Учащимся предлагается выбрать 3 варианта ответов, чтобы исключить случайность выборов и получить объективные результаты.

Каждый вариант ответов имеет определенное количество баллов в зависимости от того, какой мотив он отражает:

  • Внешний мотив – 0 баллов.
  • Игровой мотив – 1 балл.
  • Получение отметки – 2 балла.
  • Позиционный мотив – 3 балла.
  • Социальный мотив – 4 балла.
  • Учебный мотив – 5 баллов.

Варианты ответов

Количество баллов по номерам предложений

1

2

3

4

а

б

в

г

д

е

ж

з

и

к

2

3

4

4

3

3

3

0

0

5

3

3

0

4

1

3

4

3

5

3

3

3

3

0

0

4

5

2

3

3

3

3

4

0

0

Баллы суммируются, и по оценочной таблице выявляется итоговый уровень мотивации учения.

Уровни мотивации

Сумма баллов итогового уровня мотивации

I

41 — 48

II

33 — 40

III

25 — 32

IV

15 — 24

V

5 — 14

Выделяются итоговые уровни мотивации школьников на момент перехода учащихся из начальных классов в средние:

I – очень высокий уровень мотивации учения;

II – высокий уровень мотивации учения;

III – нормальный (средний) уровень мотивации учения;

IV – сниженный уровень мотивации учения;

V – низкий уровень мотивации учения.

Качественный анализ результатов диагностики направлен на определение преобладающих для данного возраста мотивов. По всей выборке обследуемых учащихся подсчитывается количество выборов ими каждого мотива, а затем определяется процентное соотношение между ними.

Варианты ответов

Количество баллов по номерам предложений

1

2

3

4

а

б

в

г

д

е

ж

з

и

к

О

П

С

С

П

П

П

В

В

У

П

П

В

С

И

П

У

П

У

П

П

П

П

В

В

С

У

О

П

П

П

П

С

В

В

Условные обозначения мотивов:

У – учебный мотив;

С – социальный мотив;

П – позиционный мотив;

О – оценочный мотив;

И – игровой мотив;

В – внешний мотив.

Вывод об успехе и эффективности образовательного процесса возможен в том случае, если в выборах учащихся явно преобладают познавательный и социальный мотивы. Таким образом, оценка эффективности образовательного процесса на данном этапе тестирования осуществляется по следующим групповым показателям:

  • количество учащихся с высоким и очень высоким уровнем развития учебной мотивации, выраженное в процентах от общего числа обследуемых;
  • количество учащихся со средним уровнем учебной мотивации, выраженное в процентах от общего числа обследуемых;
  • количество учащихся с низким уровнем учебной мотивации, выраженное в процентах от общего числа обследуемых.

Компьютеры в клинической оценке: исторические разработки, текущее состояние и будущие задачи

Обзор

. 2004 март; 60 (3): 331-45.

doi: 10.1002/jclp.10267.

Джеймс Н. Батчер 1

, Джулия Перри, Юнгвон Хан

принадлежность

  • 1 Факультет психологии Миннесотского университета, Миннеапоис 55455, США. [email protected]
  • PMID: 14981795
  • DOI: 10.1002/jclp.10267

Обзор

James N Butcher et al. J Clin Psychol. 2004 март

. 2004 март; 60 (3): 331-45.

doi: 10.1002/jclp.10267.

Авторы

Джеймс Н.

Мясник 1 , Джулия Перри, Юнгвон Хан

принадлежность

  • 1 Факультет психологии Миннесотского университета, Миннеапоис 55455, США. [email protected]
  • PMID: 14981795
  • DOI: 10.1002/jclp.10267

Абстрактный

Компьютеризированные методы тестирования долгое время считались потенциально мощным средством предоставления услуг по психологической оценке. С тех пор, как в 1950-х годах компьютеры были впервые представлены и адаптированы к области психологии оценивания, они стали ценным помощником для подсчета баллов, обработки данных и даже интерпретации результатов тестов.

В статье обсуждаются история и статус компьютерных личностных и нейропсихологических тестов. Выделено несколько важных вопросов, связанных с компьютерной интерпретацией тестов. Описаны достижения в использовании компьютерных тестов, таких как компьютеризированное адаптивное тестирование, и отмечены проблемы. Сегодня существует большой интерес к расширению доступности приложений психологической оценки в Интернете. Хотя эти приложения имеют большие перспективы, существует ряд проблем, связанных с предоставлением психологических тестов в Интернете, которые психологи должны решить, прежде чем Интернет сможет стать основным средством предоставления психологических услуг.

Copyright 2004 Wiley Periodicals, Inc. J Clin Psychol.

Похожие статьи

  • Валидность и полезность компьютерной интерпретации тестов.

    Мясник Дж. Н., Перри Дж. Н. , Атлис М. М. Батчер Дж. Н. и соавт. Психологическая оценка. 2000 март; 12(1):6-18. Психологическая оценка. 2000. PMID: 10752359 Обзор.

  • Оценка обсессивно-компульсивных симптомов и познаний в Интернете: доказательства сопоставимости бумажного и интернет-администрирования.

    Коулз М.Э., Кук Л.М., Блейк Т.Р. Коулз М.Е. и соавт. Behav Res Ther. 2007 г., сен; 45 (9): 2232-40. doi: 10.1016/j.brat.2006.12.009. Epub 2007, 12 января. Behav Res Ther. 2007. PMID: 17306222 Клиническое испытание.

  • Источники ошибок компьютеризированной нейропсихологической оценки.

    Цернич А.Н., Бреннана Д.М., Баркер Л.М., Блейберг Дж. Цернич А. Н. и соавт. Арч Клин Нейропсихология. 22 февраля 2007 г. Приложение 1: S39-48. doi: 10.1016/j.acn.2006.10.004. Epub 2006 13 ноября. Арч Клин Нейропсихология. 2007. PMID: 17097851

  • [Использование искусственных нейронных сетей в клинической психологии и психиатрии].

    Старзомская М. Старзомская М. Психиатр Пол. 2003 март-апрель;37(2):349-57. Психиатр Пол. 2003. PMID: 12776663 Обзор. польский.

  • Генограмма АНАМ: исторические перспективы, описание и текущие начинания.

    Ривз Д.Л., Винтер К.П., Блейберг Дж., Кейн Р.Л. Ривз Д.Л. и соавт. Арч Клин Нейропсихология. 22 февраля 2007 г. Приложение 1: S15-37. doi: 10.1016/j.acn.2006.10.013. Epub 2007 2 февраля. Арч Клин Нейропсихология. 2007. PMID: 17276030

Посмотреть все похожие статьи

Цитируется

  • Валидность инструмента скрининга для выявления тонких когнитивных нарушений у людей среднего и пожилого возраста.

    Брюс К.М., Робинсон С.Р., Смит Дж.А., Йелланд Г.В. Брюс К.М. и др. Clin Interv Старение. 2014 12 декабря; 9: 2165-76. DOI: 10.2147/CIA.S68363. Электронная коллекция 2014. Clin Interv Старение. 2014. PMID: 25540581 Бесплатная статья ЧВК.

  • Нейроповеденческая оценка в судебно-медицинской практике.

    Вудс Г.В., Фридман Д., Гринспен С. Вудс Г.В. и др. Международная юридическая психиатрия. 2012 сен-декабрь; 35 (5-6): 432-9. doi: 10.1016/j.ijlp.2012.09.014. Epub 2012 9 октября. Международная юридическая психиатрия. 2012. PMID: 23059206 Бесплатная статья ЧВК.

  • Измерение дисфункциональных установок среди населения в целом: Шкала дисфункциональных установок (форма A) пересмотренная.

    de Graaf LE, Roelofs J, Huibers MJ. де Грааф Л.Е. и др. Когнит Тер Рес. 2009 авг; 33 (4): 345-355. doi: 10.1007/s10608-009-9229-y. Epub 2009 20 января. Когнит Тер Рес. 2009. PMID: 19623267 Бесплатная статья ЧВК.

  • Клиническая и экономическая эффективность компьютеризированной когнитивно-поведенческой терапии депрессии в первичной медико-санитарной помощи: дизайн рандомизированного исследования.

    де Грааф Л.Е., Герхардс С. А., Эверс С.М., Арнц А., Рипер Х., Северенс Дж.Л., Виддерсховен Г., Метсемакерс Дж.Ф., Хюберс М.Дж. де Грааф Л.Е. и др. Общественное здравоохранение BMC. 2008 30 июня; 8:224. дои: 10.1186/1471-2458-8-224. Общественное здравоохранение BMC. 2008. PMID: 18590518 Бесплатная статья ЧВК. Клиническое испытание.

  • Вопросы выбора показателей исхода для оценки функционального восстановления после инсульта.

    Барак С., Дункан П.В. Барак С. и др. НейроРкс. 2006 окт; 3 (4): 505-24. doi: 10.1016/j.nurx.2006.07.009. НейроРкс. 2006. PMID: 17012065 Бесплатная статья ЧВК. Обзор.

Просмотреть все статьи «Цитируется по»

Типы публикаций

термины MeSH

Компьютерное тестирование — IResearchNet

Компьютерное тестирование — это использование компьютеров для поддержки процессов оценки и тестирования. Эта запись посвящена истории, разновидностям и будущим направлениям компьютерного тестирования.

История

Компьютерное тестирование началось в начале 1950-х годов, когда оптические сканеры были адаптированы для считывания специальных бланков ответов и результатов тестов. Это привело к широкому использованию тестов с множественным выбором в различных приложениях для тестирования. По мере того, как мейнфреймы становились все более доступными, использование компьютеров в тестировании расширялось.

Первое расширение было сосредоточено на извлечении дополнительной информации из результатов тестов с несколькими оценками. Таким образом, помимо оценки тестов, компьютеры начали интерпретировать результаты тестов и анализировать данные тестов. Профили оценок по ряду тестов интерпретировались экспертами, и их знания были воплощены в компьютерных интерпретационных отчетах для инструментов, оцениваемых по нескольким шкалам. Известные примеры включают Миннесотский многофазный опросник личности и опросник сильного интереса. Интерпретационные отчеты с годами расширялись и улучшались, и сегодня они широко используются в ряде образовательных и психологических инструментов.

Второе расширение произошло в конце 1960-х. По мере того как компьютеры становились более доступными в сфере образования, мейнфреймы оснащались несколькими терминалами, которые могли отображать информацию на электронно-лучевых терминалах и принимать ответы с клавиатуры. Эти «тупые» терминалы были подключены к мейнфреймам через коммутируемые модемы, которые работали со скоростью от 10 до 30 символов в секунду. Элементарное программное обеспечение «разделения времени» опрашивало терминалы на предмет ответов и передало информацию на терминалы. Эти аппаратные конфигурации привели к первому поколению автоматизированного обучения (CAI).

CAI в 1960-х и 1970-х годах состоял из компьютеров, функционирующих как «переворачивающие страницы» с очень простой логикой ветвления для поддержки учебного процесса. Ученику был представлен экран, ученик дал ответ, и примитивное компьютерное программное обеспечение определило следующий экран, который нужно показать ученику. Компьютерное тестирование с использованием того же метода перелистывания страниц было естественным результатом этого процесса.

Первоначально компьютеры с разделением времени проводили тесты по принципу вопрос за вопросом. Однако связь между терминалами и мейнфреймами была очень медленной. Время отклика систем с разделением времени было непредсказуемым, и иногда между тестовыми вопросами возникала задержка в минуту и ​​более. Эта проблема серьезно повлияла на стандартизацию процесса тестирования и приемлемость CAI. Как следствие, ни CAI, ни компьютерное тестирование в те годы не имели большого успеха.

Разработка мини-компьютера в начале 1970-х годов была основным достижением в области аппаратного обеспечения, позволившим процветать компьютерному тестированию. Миникомпьютеры были небольшими (по сравнению с мэйнфреймами, но большими по сегодняшним меркам) и предоставляли одному пользователю полный доступ к аппаратному и программному обеспечению. Как следствие, программное обеспечение, предназначенное для процесса тестирования, может быть написано и работать независимо от других приложений. Это позволило почти полностью контролировать время отклика системы между тестовыми вопросами и сократить время обработки, что привело к лучшей стандартизации процесса тестирования. Эти возможности были еще более расширены, когда персональные компьютеры (ПК) стали широко доступны в середине 19-го века.80-е годы. Современные ПК, использующие многопоточность и высокоскоростные микрочипы, позволяют компьютерам выполнять обширные вычисления за доли секунды.

Разновидности компьютерного тестирования

Обычное тестирование

Простейшим применением компьютеров при проведении тестов является проведение обычных тестов, в которых все испытуемые получают одни и те же вопросы теста в одном и том же порядке, обычно по одному вопросу за раз. Хотя это кажется тривиальным шагом вперед по сравнению с бумажно-карандашными тестами, у него есть ряд преимуществ. Во-первых, все инструкции представляются компьютером до того, как испытуемый получает вопросы теста, как правило, вместе с некоторыми практическими вопросами. Это гарантирует, что каждый испытуемый прочитал и понял инструкции. Во-вторых, баллы могут быть предоставлены экзаменующемуся или администратору теста сразу после завершения теста. Кроме того, все ответы испытуемых записываются в электронном виде, что устраняет необходимость в оптическом сканировании бланков ответов на тесты. Время, необходимое испытуемому для ответа на каждый вопрос, может быть записано. Эта информация может быть полезна для оценки внимания испытуемого к задаче, а также предоставляет информацию о времени обработки испытуемым, которая может быть полезна для оценки его или ее выполнения. В процессе тестирования не используется бумага, что снижает затраты на воспроизведение тестовых материалов и ведение бумажных протоколов. Наконец, процесс тестирования может быть дополнен звуком, видео и цветом, что позволяет измерять характеристики, которые нелегко измерить при проведении бумажно-карандашных тестов.

Разветвленное тестирование или тестирование, зависящее от ответа

Разветвленное тестирование или тестирование, зависящее от ответа, полезно для измерения переменных, которые можно оценить с помощью сценария решения проблемы или последовательности шагов. При таком подходе испытуемому предлагается проблемная ситуация с рядом альтернатив. Каждая альтернатива «ветвится» к другому второму этапу процесса решения проблемы. Последующие ответвления на каждый последующий вопрос продолжают приводить к различным изменениям ситуации, представляемой испытуемому. Как следствие, каждый испытуемый может следовать своим путем в процессе решения проблемы, некоторые из которых приводят к соответствующему решению проблемы, а другие — нет.

Эти «ситуационные» тесты обычно оцениваются с точки зрения адекватности и эффективности, с которой испытуемый приходит (или не приходит) к решению поставленной проблемы. Пожалуй, наиболее успешное применение компьютеризированных разветвленных тестов приходится на медицинскую подготовку. В этом приложении студентам-медикам представляются гипотетические пациенты вместе с информацией о «пациенте», к которой они могут получить доступ. Студент пытается «вылечить» пациента, заказывая различные медицинские тесты и оценки, делая выводы на основе информации, доступной в интерактивном режиме через тест, и запрашивая дополнительную информацию по мере необходимости. Упражнения различаются по уровню сложности и предоставленной информации, чтобы проверить знания и навыки студента.

Частично адаптивное тестирование

Адаптивные тесты предназначены для адаптации к каждому испытуемому по мере реализации процесса тестирования. Разветвленные тесты или тесты, зависящие от ответа, являются адаптивными в этом смысле, но частично или полностью адаптивные тесты продвигают этот процесс дальше.

Частично адаптивные тесты работают с набором вопросов, структурированных по степени сложности. Самый простой из этих тестов состоит из подмножеств вопросов, сгруппированных в короткие тесты или тестлеты, включающие вопросы разного среднего уровня сложности. Тест средней сложности проводится по одному вопросу за раз и сразу же оценивается. Экзаменуемые, набравшие высокие баллы за тест, затем получают более сложный тест. Тем, кто набрал низкий балл, затем вводят более легкий тест. Если человеку дается только два теста, тест является двухэтапным. Многоэтапный тест включает в себя введение трех или более тестов, при этом сложность каждого последующего теста зависит от оценки испытуемого по предыдущему тесту.

В подходе с тестлетами ветвление основано на баллах экзаменуемого по каждому тестлету. Один из вариантов этого подхода включает ветвление после того, как задан каждый вопрос. Это позволяет испытуемым быстрее переходить к вопросам, соответствующим их уровню способностей. Другие возможные частично адаптивные структуры также были разработаны, но они используются редко, потому что они плохо используют банк вопросов. Исключением являются разветвленные тесты, которые используются для измерения таких навыков, как понимание прочитанного, когда задается ряд вопросов о данном отрывке для чтения.

Полностью адаптивное тестирование

Полностью адаптивное тестирование, основанное на семействе математических моделей, называемых теорией отклика элемента (IRT), в настоящее время является наиболее используемым подходом к адаптивному тестированию. Полностью адаптивный компьютеризированный адаптивный тест (CAT) имеет пять следующих требований и характеристик:

  1. Он использует банк вопросов, в котором все вопросы были откалиброваны с помощью соответствующей модели IRT. Семейство IRT включает модели для вопросов, которые оцениваются по двум категориям (например, множественный выбор оценивается как правильный или неправильный, истинный или неверный, да или нет), и вопросы с рейтинговой шкалой, которые оцениваются по нескольким категориям.
  2. Существующая ранее информация о каждом экзаменуемом (например, его школьная оценка) может использоваться в качестве отправной точки для выбора вопросов.
  3. Вопросы задаются по одному, и оценка экзаменуемого оценивается после ответа на каждый вопрос.
  4. После введения каждого вопроса выполняется поиск по всему банку вопросов, и для администрирования выбирается вопрос, который обеспечит наиболее точное измерение этого экзаменуемого (учитывая балл экзаменуемого на этом этапе теста).
  5. Этот процесс выбора и администрирования вопроса и переоценки повторяется до тех пор, пока не будет достигнут подходящий критерий завершения. Полностью адаптивные CAT могут быть прекращены, когда оценка испытуемого достигает заданного уровня точности, когда в банке больше нет полезных вопросов для оценки данного испытуемого или когда испытуемый был надежно классифицирован по одной или нескольким режущим баллам.

Полностью адаптивные CAT на основе IRT значительно короче, чем обычные тесты, и они сокращают время, необходимое для проведения теста, на 50% до 90%. Они могут измерять людей с гораздо более высоким уровнем точности, чем обычные тесты той же продолжительности. Кроме того, для тестов с вопросами, оцениваемыми в одной из двух категорий (например, правильные или неправильные), большинство испытуемых правильно ответят примерно на 50% вопросов, независимо от того, насколько высок или низок их балл. Экзаменуемые с низкими способностями, скорее всего, сочтут тест «более легким», чем аналогичные тесты, которые они проходили, потому что CAT адаптируется к их уровню способностей, задавая им более простые вопросы. И наоборот, испытуемые с высокими способностями будут воспринимать тест как более сложный, чем многие другие, которые они сдавали. Как следствие, «психологическая среда» теста более уравновешена для всех испытуемых, что приводит к достаточно сложной среде тестирования. Полностью адаптивный CAT был реализован в ряде крупных программ тестирования.

Последовательное тестирование

Многие называют последовательные тесты CAT, но они представляют собой отдельный набор процедур. Последовательные тесты обычно используются для принятия классификационного решения (например, нанимать или не нанимать, заканчивать или не выпускать, находится ли кто-то в депрессии или нет) с использованием одного или нескольких заранее определенных пороговых значений. Как правило, вопросы в тесте ранжируются в порядке точности, с которой они способствуют принятию решения о классификации. Затем вопросы распределяются в ранжированном порядке до тех пор, пока не будет сделана классификация. В отличие от полностью адаптивной CAT, вопросы не выбираются на основе уровня характеристик испытуемого — действительно, последовательные тесты обычно не предназначены для измерения непрерывных характеристик. Однако, поскольку окончание теста индивидуально для последовательного тестирования, последовательные тесты могут различаться по продолжительности среди группы испытуемых.

Текущие проблемы и будущие направления

С момента появления Интернета в конце 1990-х годов значительное количество тестов проводится через Интернет. Хотя 20 лет исследований показали, что тщательно разработанные тесты, управляемые компьютером, были эквивалентны или превосходили бумажно-карандашные тесты, разработчики большинства Интернет- или веб-тестов мало задумывались об эквивалентности (т. тесты не были тщательно разработаны). Следовательно, могут существовать существенные различия между тестами, доставляемыми на ПК, и тестами, доставляемыми через Интернет. Эти различия могут повлиять на стандартизацию и достоверность некоторых тестов. Некоторые из этих факторов включают:

  • Различные браузеры используют разные настройки шрифтов, цветов и других характеристик отображения для проведения веб-тестов. Они потенциально могут по-разному интерпретировать данный вопрос для разных испытуемых. Кроме того, различия в размере экрана и разрешении снижают эквивалентность тестов, доставляемых через Интернет, и тестов, доставляемых на ПК. На ПК программное обеспечение для администрирования тестов стандартизирует отображение для всех испытуемых, а стандартный монитор можно использовать во всей комнате для тестирования.
  • Доступ в Интернет и время ответа сильно различаются от вопроса к вопросу. Некоторые из факторов, влияющих на время ответа, включают скорость соединения испытуемого и объем трафика в Интернете в тот момент, когда испытуемый отвечает и получает новый вопрос. На время отклика дополнительно влияет скорость веб-сервера и другие требования к веб-серверу. Для CAT время вычислительного сервера, необходимое для оценки уровня признака и выбора следующего вопроса, является еще одним фактором, влияющим на время ответа. Напротив, на ПК одновременно тестируется только один человек, а время ответа между вопросами практически мгновенное, что лучше стандартизирует проведение тестов.
  • Когда тесты проводятся в неконтролируемой среде, например, при веб-доставке, переменные среды, присутствующие во время доставки теста, могут повлиять на производительность тестирования отдельных лиц. Основной принцип хорошо стандартизированного тестирования заключается в том, что тесты с бумагой и карандашом должны проводиться в спокойной и комфортной обстановке. По большей части тесты на базе ПК также проводились в тестовых комнатах с тщательно контролируемой средой. Однако, когда тесты доставляются через Интернет, может присутствовать широкий спектр посторонних факторов, которые мешают полученным оценкам и могут сделать их недействительными. Кроме того, когда люди сдают тесты без присмотра, невозможно узнать, кто на самом деле сдает тест, к каким материалам они обращались во время проведения теста и кто помогал им во время тестирования.

Очевидно, что необходимо провести значительное исследование, чтобы оценить сопоставимость тестов, доставляемых через Интернет, с тестами, доставляемыми на ПК, и бумажно-карандашными тестами. Прежде чем можно будет предположить, что веб-тесты заменят другие способы тестирования, необходимо оценить влияние их отсутствия стандартизации и физических условий тестирования на результаты тестов. Кроме того, веб-тесты должны быть доставлены в контролируемых условиях, чтобы гарантировать целостность и достоверность тестов.

Хотя компьютерное тестирование сделало возможным разработку новых видов тестов, которые могут использовать мультимедийные возможности ПК, это обещание еще не реализовано. Очень немногие компьютерные тесты фокусируются на измерении новых способностей, навыков и личных характеристик, которые нельзя измерить с помощью бумажных и карандашных тестов. Нереализованные возможности включают разработку тестов для измерения характеристик личности новыми способами (например, с использованием интерактивных сценариев и видео) и новых подходов к измерению индивидуальных различий в таких чертах, как память, мышление и сложные навыки восприятия. Эти разработки в сочетании с полностью адаптивной CAT помогут компьютерному тестированию полностью реализовать свой потенциал.

Ссылки:

  1. Бартрам, Д., и Хэмблтон, Р. (2005). Компьютерное тестирование и Интернет: проблемы и достижения.