Тест возрастающей трудности дж равена с ответами: Тест возрастающей трудности дж. Равена

Опубликовано 12.02.197011.06.2021 автором alexxlab

Содержание

Тест возрастающей трудности дж. Равена

Испытуемому предъявляются рисунки с фигурами, связанными между собой определенной зависимостью. Одной фигуры не достает, а внизу она дается среди 6-8 других фигур. Задача испытуемого — установить закономерность, связывающую между собой фигуры на рисунке, и на опросном листе указать номер искомой фигуры из предлагаемых вариантов.

Выполнять задание нужно в максимальном темпе. Время решения ограничивается 30 минутами.

Стимульный материал.

Бланк ответов представляет собой лист с фамилией испытуемого и номерами заданий, возле которых он отмечает номер выбранного рисунка.

Ключ.

Номер задания	Номер правильного ответа	Очки за ответ	Номер задания.	Номер правильного ответа	Очки за ответ
1	5	1	16	1	6
2	2	3	17	6	6
3	3	1	18	2	5
4	2	5	19	4	5
5	3	3	20	7	7
6	4	5	21	6	7
7	6	2	22	4	8
8	2	3	23	2	6
9	3	5	24	6	7
10	6	4	25	6	4
11	3	6	26	2	7
12	5	6	27	5	8
13	2	4	28	4	7
14	8	7	29	6	8
15	4	3	30	5	6

После подсчета общего числа правильных ответов их количество суммируется, и при помощи пересчетной таблицы высчитывается количество баллов, набранное испытуемым.

Оценка в баллах	9	8	7	6	5	4	3	2	1
Сумма очков за правильные ответы	143-155	129-142	115-128	101-114	87-100	73-86	59-72	45-58	44

Методика Прогрессивной матрицы ДЖ. Равена для тестирования и развитие уровня интеллекта (стр. 5 из 5)

1-й уровень (результат более 95 %) — особо высокий интеллект
2-й уровень (результат 75-94 %) — интеллект выше среднего
3-й уровень (результат 25-74 %) — средний интеллект
4-й уровень (результат 5-24 %) — интеллект ниже среднего
5-й уровень (результат ниже 5 %) — дефект интеллекта

3.2 Результаты исследования воспитанников колонии.

Этапы подготовки и проведения диагностики интеллекта

Первым этапом любого исследования является определение целей и задач.

Вторым этапом является подбор методик, с помощью которых поставленные цели и задачи будут реализованы наилучшим образом. Для этого психологу необходимо тщательно изучить теорию по данному вопросу (в данном случае это теоретические и методологические аспекты диагностики интеллекта).

Третий этап включает в себя анализ психометрических свойств тестов и, при необходимости, их адаптацию.

Четвертый этап — подготовка бланков, стимульного материала и прочего, необходимого оборудования.

Пятый этап — собственно тестирование. Здесь психологу необходимо знать и соблюдать условия тестирования.

Проведение диагностики интеллекта.

Проведем эксперимент по исследованию уровня интеллектуального развития. В данном исследовании используется методика « Прогрессивные матрицы Дж. Равена» для тестирования и развития уровня интеллекта. Испытуемыми были 22 несовершеннолетних осужденных Калужской воспитательной колонии возрасте от 16 до 18 лет, исследование было проведено в аудиторных условиях. Испытуемым была зачитана следующая инструкция (групповая):

Данный тест предназначен для уточнения логичности Вашего мышления, умения находить существенные связи между предметами и явлениями, для определения уровня умственной работоспособности, умения концентрировать внимание, сообразительности в целом, используется как тест интеллекта или специальных перцептивных способностей.

Пред вами 60 графических рисунков (матриц).На каждой из них в верхней половине листа находится прямоугольник с различными геометрическими фигурами внутри. В правом нижнем углу прямоугольника имеется свободное место. Под прямоугольником находится два ряда форм(шесть или восемь), которые по размерам точно подходят к вырезу прямоугольника в качестве вероятно выбранных вкладок. Каждая из этих вкладок имеет различный рисунок.

Расположение фигур подчинено определенной логической связи. Ее надо определить и дополнить матрицу недостающим элементом, выбрав из приведенных вариантов, т.е. Вшей задачей является найти в ряде вкладок ту, которая точно подходит к свободному месту в прямоугольнике. Предпосылкой правильного решения является логическое рассуждение о том, по какому закону составлен рисунок в прямоугольнике, пустое место в котором Вы должны заполнить.

Номера матриц (например: А1;В6;D12) обозначают степень сложности заданий. От буквы А у букве Е и от номера 1 к 12 номеру трудность задач возрастает. Время на решение 60 заданий ограничено 20 минутами. Не задерживайтесь на первых заданиях теста, так как сложность их все время увеличивается.

В бланке ответов в таблице рядом с соответствующим номером матрицы Вы должны зачеркнуть во второй графе номер правильного, по Вашему мнению, ответа, т.е. правильный номер варианта. Если Вы ошиблись и зачеркнули неверный, по Вашему мнению, ответ, то его обведите кружком и зачеркните правильный ответ.

После подсчета числа правильных ответов их количество суммируется. Далее была составлена следующая таблица:

Результаты теста «Прогрессивные матрицы Дж. Равена» для тестирования и развития уровня интеллекта.

У 18 воспитанников от 1 до 3 стен – низкий уровень развития интеллекта; низкое качество труда.

У 4 воспитанников от 4 до 7стен – средний уровень интеллекта; средней качественный уровень выполнения заданий.

Тестирование проведенное в данной курсовой работе показало, что большинство испытуемых обладает низким уровнем интеллекта; низким качеством труда.

3.3 Рекомендации по совершенствованию развития интеллекта.

Вести работу направлению на их исправление, формированию у них уважительного отношения к человеку, обществу, труду, нормам, правилам и традициям человеческого общения. Повышения их общеобразовательного и культурного уровня, подготовки к самостоятельной право послушной жизни в обществе. Вести работу по пробуждению поддержанию, у несовершеннолетних осужденных, стремление к учебе, повышению образовательного и профессионального уровня. Организовывать различные кружки и клубы, конкурсы, викторины, выпуск стенгазет, изготовление поделок, рисунков. Организовывать встречи с интересными людьми, просмотров видеофильмов, проводить культурно-массовые мероприятия, вести пропаганду книги, занятия в секции атлетической гимнастики. В школе организовывать специальные учебно-консультативные пункты на устранения пробелов в знаниях воспитанников и выработку основных умений: читать, писать, считать. Использовать различные технологии: уровневой дифференциации , по этапного формирования умственных способностей. И другие педагогические технологии или их элементы. Со всеми воспитанниками производить социально-психологическую работу.

Заключение

Подростковый возраст – как переходный период затягивается в основном из-за большого времени требуемого для усвоения «взрослых ролей». Для достижения статуса взрослости подросткам приходится справляться с рядом задач развития возникающих на этом этапе жизненного пути. В процессе выполнения этих задач могут возникать трудности. В силу различных причин в отрочестве и юности часто имеет место девиантное и деликвентное поведение.
Анализируя личность несовершеннолетнего правонарушителя, отмечаем зависимость от:
1. Наследственно-биологических факторов: отрицательно влияют алкоголизм, предрасположенность к нервным или психическим заболеваниям одного из родителей, патологическая беременность, роды.
2. Ближайшего социального окружения подростка: семья, социально- экономический статус родителей, братьев, сестер, особенности воспитания подростков, школа, положение подростка в классе, ценностные ориентации, друзья, статус подростка в группе друзей.
3. Личностные характеристики подростка: особенности характера и темперамента, ценностно-мотивационный блок, мотивация достижения, уровень притязаний, самооценка и возможные конфликты в области самооценки.
4. Правосознание подростка. Таким образом, антисоциальное поведение несовершеннолетнего взаимообусловлено влиянием биологических и социальных факторов, учитывая которые, необходимо строить систему воспитания подростков.

Библиографический список

1. Андреева Г.М. Социальная психология.- М.:ВЛАДОС,2001.-120с.

2. Абрамова Г.С. Практическая психология. Екатеринбург: Деловая Книга, 1999.

3. Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психологической диагностики.- Киев,1989.

4. Дружинин В.Н. Психология общих способностей.СПб.:Питер,1999.

5. Змановска Е.В. Девиантология. Психология отклоняющегося поведения. -М.: Академия, 2004.-288с.

6.Ивакин В.Н., Котов И. М. Использование методики Дж. Равена «Тест возрастающей трудности (Прогрессивные матрицы)» в практической деятельности психолога: Учебное пособие.- Калуга: КФ МГЭИ, 2004.-92с.

7. Калмыкова З.И.Продуктивное мышление как основа обучаемости. -М.: Педагогика, 1981.

8. Романов В.В. Юридическая психология.- М.: 1998.

9. Рубинштейн С.Л. Избранные философско-психологические труды. -М.: Наука, 1997.

10. Развитие и диагностика способностей / Отв.ред. В.Н. Дружинин., В.Д., Шадриков. -М.:1991.

11. Терстоун Л.Л.Характер интеллекта. -М,: Педагогика, 1924.

12. Холодная М.А. Психология интеллекта//Парадоксы исследования.СПб.: Питер, 2002.

13. Хараламов Ю.М. Педагогика: Учебное пособие для вузов.-М.:1999.

Прогрессивные матрицы Дж. Равена. Психология общих способностей

Прогрессивные матрицы Дж. Равена

Дж. Равен был учеником Ч. Спирмена. В 1936 году он совместно с Л. Пенроузом предложил тест Progressive Matrices для измерения уровня развития общего интеллекта. По мнению Спирмена, наилучшим способом определения интеллекта является тест на поиск абстрактных отношений. В основу заданий теста положены теория гештальта и теория интеллекта Спирмена. Предполагается, что испытуемый первоначально воспринимает задание как целое, затем выделяет закономерности изменения элементов образа, после чего выделенные элементы включаются в целостный образ и находится недостающая часть изображения.

В качестве материала были выбраны абстрактные геометрические фигуры с внутренним рисунком, организованным по определенному закону (см. рис. 16).

Были сконструированы три основных варианта теста: 1) более простой цветной тест, предназначенный для детей от 5 до 11 лет, 2) черно-белый вариант для детей и подростков от 8 до 14 лет и взрослых от 20 до 65 лет, 3) вариант теста, сконструированный в 1977 году Дж. Равеном в сотрудничестве с Д. Кортом и предназначенный для лиц с высокими интеллектуальными достижениями. Последний вариант включает в себя не только невербальную, но и вербальную часть.

Тест может проводиться как с ограничением времени выполнения заданий, так и без ограничения (по желанию исследователя).

В цветном варианте теста используются три серии, различающиеся по уровню трудности. В каждой серии – 12 матриц. Второй вариант состоит из 5 серий (А, В, С, D, Е) по 12 заданий, расположенных по возрастанию трудности. Трудность заданий возрастает от серии А к серии Е. Первые 5 заданий серии А испытуемый выполняет с помощью экспериментатора, остальные – самостоятельно. Испытуемый должен выбрать правильный ответ из 6-8 предложенных. Число вариантов ответа увеличивается по мере возрастания трудности серии.

Равен предполагал, что в ходе выполнения теста испытуемый обучается и выполнение предшествующего задания готовит его к выполнению последующего, более трудного.

В серии А испытуемый должен дополнить недостающую часть изображения. Он должен проявить умение дифференцировать элементы и выявлять связи между элементами гештальта, а также дополнять недостающую часть структуры, сличая ее с образцами.

В серии В испытуемый должен найти аналогии между парами фигур, дифференцируя их элементы.

При выполнении серии С нужно решить задачу, определив принцип изменения фигур по вертикали и горизонтали.

В серии D требуется определить закономерность перестановки фигур по горизонтали и вертикали.

Серия Е для своего решения требует анализа фигур основного изображения и составления недостающей фигуры по частям.

За каждое правильное решение присваивается 1 балл, подсчитывается число правильных решений в каждой серии и общее число баллов, которые переводятся либо в стандартные баллы (стэны), либо в стандартный коэффициент IQ. На основе результатов по сериям вычисляют также «индекс вариабельности». Существуют полученные на выборке стандартизации распределения числа правильных решений по сериям, соответствующие общей сумме баллов. Табличное распределение сравнивается с полученным при тестировании испытуемого, а разности ожидаемой и эмпирической оценок суммируются без учета знака. «Индекс вариабельности» характеризует достоверность результатов и направлен на выявление испытуемых, решавших задания путем угадывания или симулирующих низкий результат (не решавших простые задачи).

Нормальное значение индекса равно 0-4, при значении 7 ответы испытуемого считаются недостоверными.

Как уже было отмечено раньше, вряд ли такую интерпретацию можно считать единственно возможной. В наших исследованиях показано, что решение теста Равена имеет вероятностный характер, поскольку отсутствие интереса к простым заданиям, неправильное понимание задачи (провоцируемое самим материалом теста) приводят к тому, что испытуемый, решая сложные задания, может допустить ошибку в простых.

Надежность теста Равена варьирует в пределах от 0,70 до 0,89; средняя трудность заданий теста 0,32; корреляция с успешностью школьного обучения (оценкой успеваемости) – 0,72. Корреляция с IQ по тесту Д. Векслера (WAIS) составляет 0,70-0,74 (взрослые) и 0,91 (дети 9-10 лет), с арифметическими тестами – до 0,87. Наши исследования показали, что тест Равена не является метрологически безупречным.

Задания D12 и Е8 сконструированы настолько неудачно, что вероятность их правильного решения (0,13 и 0,14) не превышает значимой вероятности случайного решения этого задания (р = 0,125). В задания либо заложена неправильная идея, либо форма материала делает вероятным для испытуемого логические построения, не предусмотренные разработчиком.

В задании ЕЮ, помимо правильного варианта ответа (№ 6), есть два (№ 1 и № 2), частота выбора которых испытуемыми статистически значимо превышает вероятность случайного ответа.

Для задания С12 оценка вероятности выбора правильного ответа (№2) превышает границу статистической значимости, но оценка вероятности выбора ложного варианта (№ 4) значимо превосходит вероятность правильного выбора.

То есть сама структура неверно сконструированного задания наводит испытуемого на ложный ответ. Такое положение дел есть следствие конфликта двух теорий, эклектически положенных в основу теста: перцептивной (гештальт-теория) и теории общего интеллекта. Перцептивные характеристики задания мешают испытуемому произвести его последовательный логический анализ. Тем самым не стратегия «от целого к деталям» вступает в конфликт со стратегией «от деталей к целому», а перцептивная закономерность противоречит логической.

Согласно модели Юсупова, число заданий в тесте уровня не должно превышать 7, а в тесте Равена их 60 (в сокращенном варианте – 30). Тест явно информационно избыточен. Базовыми заданиями, достоверно различающимися по уровню сложности, можно считать только: В8, А12, С4 (или D6), D8 (или D10, илиЕ2),С8, Е6, ЕЮ, Е12.

Число легких заданий в тесте Равена чрезмерно велико – на долю их приходится почти половина всех заданий теста. Более того, нет соответствия между эмпирической и стандартной трудностью заданий (n = 0,543).

Для оценки сложности задания нами и был предложен модифицированный показатель сложности:

С = 1 – n/N,

где n – число решивших тестовое задание, N – общий объем выборки стандартизации.

В первом разделе главы уже упоминалось, что предложенный авторами теста вариант подсчета тестового балла не оправдывает себя и должен быть заменен на более достоверный, учитывающий эмпирическую сложность задания.

Успешность выполнения теста, как мы установили, зависит как от уровня развития «скоростного интеллекта», так и от когнитивной способности, обусловливающей решение сложных заданий.

Возможно, в основе второго фактора лежит дифференцированность когнитивного опыта личности, связанная с такими особенностями интеллекта, как когнитивная сложность, сформированность понятий, вербальная компетентность.

Факторизация корреляционной матрицы применения теста Равена, теста на диагностику когнитивной «простоты-сложности» (автор А. Г. Шмелев) и теста «Понятия» (на обобщение понятий) показала, что выделяются два независимых фактора – невербальный и вербальный, имеющие равный вес, но методика на обобщение понятий включена в невербальный фактор.

Факторный анализ матрицы интеркорреляций семи методик (тест когнитивной простоты-сложности, тест Равена, методика «Понятия», тест Айзенка и пр.) выявил 3 равнозначимых фактора: невербальный – перцептивный (максимальная нагрузка на тест Равена), скоростного интеллекта (максимальная нагрузка – тест Айзенка и геометрический тест на обобщение) и фактор вербальной компетентности (положительная нагрузка на тест «Понятия» и показатель когнитивной простоты). Вместе с тем обнаружена отрицательная и значимая нагрузка этого фактора на тест Равена. Следовательно, чем сложнее и дифференцированнее когнитивный опыт испытуемого, тем успешнее он решает тест Равена, требующий аналитической работы, и хуже справляется с заданиями на понятийное обобщение.

Дифференцированность когнитивных структур является одним из главных параметров интеллекта, определяющих успешность решения аналитических мыслительных задач, в том числе – в тесте Равена.

Данный текст является ознакомительным фрагментом.

Продолжение на ЛитРес

Проблема способностей. Основные проблемы психологии способностей

Глава 1. Проблема способностей.

Основные проблемы психологии способностей

Экспериментальная психология, как известно специалистам, родилась в середине ХIХ века. Впрочем, психология была не единственной: ее сверстницами могут считаться генетика и экспериментальная физиология, научная антропология, а старшими сестрами (середина ХVIII века) — научная химия и геология.

Труды методологов: О.Конта, Г.Спенсера, Д.С.Милля — только констатировали начало новой эпохи цивилизации, основанной на достижениях научно — технического прогресса, которые, в свою очередь, немыслимы без человеческого творчества и труда.

О.Конт считал рациональное, «позитивное» поведение признаком современного этапа развития цивилизации, а такие социологи, как В. Парето, полагали что к логико — экспериментальному (целесообразному) поведению даже в конце ХIХ века способно лишь меньшинство, а большинство ведет себя иррационально. Социальная элита Европы воспринимала рациональный подход к действительности как норму поведения.

После великих европейских революций и войн наступила эпоха рационализма (ХIХ век), чтобы завершиться безумием ХХ века.

Однако вернемся к психологии.

Практически все основные отрасли современной фундаментальной психологии возникли в конце ХIХ века: экспериментальная психология познавательных процессов — в работах Г.Фехнера, Г.Гельмгольца, И.Мюллера, дифференциальная психология — в работах Д.Кэттелла, Ф.Гальтона, социальная психология — в работах Э.Дюркгейма, В.Вундта, В.М.Бехтерева и пр. Не была исключением и психология способностей. Продолжая «развернутую метафору», можно сказать, что экспериментальная психология способностей и психодиагностика — близнецы, а их отец — Френсис Гальтон, который, кстати, и предложил близнецовый метод в психогенетических исследованиях.

Поскольку любая наука содержит в себе остатки иррационализма («Сущее не делится на разум без остатка», — сказал Гете), постольку и психология способностей нуждается в изначальном авторитете, «отце — основателе».

На эту роль вправе претендовать Гальтон. Именно он стал основоположником эмпирического подхода к решению проблемы способностей, одаренности, таланта; предложил основные методы и методики, которыми исследователи пользуются и по сей день, но главное — в его работах выкристаллизовались основные исследовательские задачи дифференциальной психологии, психодиагностики и психологии развития, которые и по сей день решаются исследователями.

Сам Френсис Гальтон (точнее Голтон — Goltоn) мог с полным правом претендовать на титул гения. Причем — по наследственному признаку. Он был двоюродным братом Чарльза Дарвина, работы которого его вдохновили. Гальтон получил медицинское и биологическое образование, но первоначально занялся географией и метеорологией. Известность Гальтону принесло открытие антициклона как природного явления и его теоретическое объяснение. Широта научных интересов и способностей были необычны: он занялся криминалистикой и внес вклад в дактилоскопию.

Но с начала 60-х годов прошлого века он увлекся идеей наследственности таланта (не без влияния работы своего кузена «Происхождение видов»). Гальтон провел анкетирование более 300 представителей английской интеллектуальной элиты, изобрел анкету как метод исследования. Он полагал, что талант является наследственной чертой и проявляется в ряде поколений. Соответственно, социальная элита формируется на основе наследуемого таланта.

По ходу дела Гальтон изобрел массу психодиагностических методик и приборов: свисток Гальтона для измерения звуковысотной чувствительности, линейку Гальтона, метод свободных ассоциаций и т.д. Он впервые исследовал личностные особенности человека науки («Англичанин в науке, его природа и воспитание.» 1874г.).

Ф.Гальтон пытался объяснить влиянием наследственности индивидуальные различия между людьми, и не случайно его работы послужили отправным пунктом развития дифференциальной психологии. Два фактора: наследственность и среда влияют на развитие человека. И чтобы выявить относительное влияние наследственности и среды в течение жизни, он в 1876 году предложил использовать методику сравнения испытуемых-близнецов, выросших в одной и разных социальных средах (разлученные близнецы).

Специалисты в области экспериментальной психосемантики признают приоритет Ф. Гальтона в исследованиях обыденных представлений о личностных особенностях людей. Он предположил, что самые основные индивидуальные различия — «базовые измерения» — фиксируются в речи, и анализ словарей может дать информацию о наиболее значимых психологических особенностях людей.

Для обработки экспериментальных результатов Гальтону понадобились новые статистические методы, и совместно со своим кузеном Карлом Пирсоном, известным математиком, он разработал основания корреляционного анализа, который позволяет сделать вывод о величине, а также неслучайности или случайности связи между двумя различными параметрами индивидуальности (например, интеллектом и ростом), измеренными у группы людей.

В конце концов Ф.Гальтон пришел к выводу, что необходимо искусственное поддержание интеллектуального потенциала в человеческом сообществе, и явился основоположником евгеники.

В 1883 году вышел очередной труд Гальтона «Исследование человеческих способностей и их развитие». Полагая, что со времен афинской цивилизации человечество вырождается, он предложил заменить естественный отбор исусственным. Для развития евгеники он в 1904 году принес в дар Университетскому колледжу лабораторию (возглавил ее К. Пирсон).

Надо сказать, что эмпирические результаты исследований Ф.Гальтона не всегда подтверждали его теоретические предположения. Так, например, он был убежден, что представители социальной элиты и биологически, и интеллектуально превосходят представителей социальных низов, а женщины гораздо менее талантливы и умны, чем мужчины. В 1884 году Гальтон организовал на Лондонской Международной выставке здоровья антропометрическую лабораторию, где каждый посетитель, заплатив 3 пенса и заполнив анкету, мог проверить свои способности и определить свою мышечную силу, вес, рост и т.п. Гальтон обследовал свыше десяти тысяч испытуемых. В результате оказалось, что деятели науки ничем особым не отличаются от рядовых («средних») посетителей выставки, а женщины по ряду показателей (в том числе — зрительному различению) превосходили мужчин.

Гальтон пришел к выводу, что измерение в психологии возможно только на основе сопоставления разброса значений измеренных переменных, поскольку у «психологической линейки» нет ни абсолютной единицы измерения, ни нуля. Он сформулировал гипотезу о связи интенсивности психического свойства с вероятностью его проявления и тем самым заложил основы психометрики. Установив, что рост сыновей зависит от роста отца, но рост сыновей теснее группируется около середины распределения, он решил выразить эту связь графически и обнаружил линию регрессии. Собственно, Карл Пирсон только создал аппарат математической теории корреляции и регрессионного анализа. Идея же целиком принадлежит Гальтону.

Подводя итоги трудов сэра Френсиса, можно выделить список проблем и методических подходов, которые стали основой психологии способностей как научной отрасли.

Первая проблема: развитие способностей и их детерминанты. Единственно значимым звеном в детерминационной сети является отношение наследственности и среды.

Вторая проблема: взаимосвязь специальных и общих способностей. Ф.Гальтон полагал, что, измеряя параметры продуктивности простейших психических процессов, можно определить уровень творческой одаренности человека. В дальнейшем оказалось, что связь между творчеством, интеллектом, простейшими познавательными способностями более сложна, чем представлялась поначалу.

С этой проблемой тесно связана третья: создание методов измерения способностей, в более широком смысле — методов измерениия психических свойств индивидуальности.

Психодиагностика способностей, а также психометрика способностей начинается с работ Гальтона и Пирсона.

Как я уже заметил, Гальтон полагал, что тесты сенсорного различения могут служить для измерения интеллекта человека. Он приблизился к представлению о когнитивной сложности интеллекта как одной из основных его характеристик, считая, что поле, на котором действует наш интеллект и рассудок тем обширнее, чем лучше органы чувств улавливают различия внешних событий. Заметив нарушение способности различать тепло, боль, холод при идиотии, он окончательно убедился в том, что по сенсорной различительной чувствительности можно определить интеллектуальную одаренность.

В конце концов проблема структуры способностей и проблема измерения способностей оказались тесно связанными.

Следующая важнейшая проблема: способности и деятельность. К сожалению, сторонники так называемого «деятельностного подхода» (в варианте А.Н.Леонтьева), сводя способности к общим способам деятельности или общечеловеческим «сущностным силам», поддающимся развитию при обучении, игнорируют не только индивидуальные различия, но и отказывают способностям в самостоятельности как психической реальности.

Изоморфизм способности и деятельности, сводящийся к простой формуле: способностей столько же, сколько и видов деятельности, — есть первичное и наивное решение вопроса, восходящее еще к испанскому гуманисту эпохи Возрождения Хуану Уарте.

Другие варианты, в первую очередь, много — многозначное отношение способностей и видов деятельности являются более научно обоснованными, но нуждающимися в истолковании. В первую очередь, из-за расплывчатости термина «деятельность», который был обобщен (благодаря неумелым последователям А.Н.Леонтьева) на все виды человеческой активности. Если говорить о профессиях и занятиях (досуге, хобби и пр.), то отношения между требованиями профессии и способностями весьма сложны.

В меньшей мере Ф.Гальтон обращал внимание на роль социальных условий в развитии способностей. Однако позже этот пробел был восполнен другими исследователями. В частности, А.А.Бодалев считает, что социальная психология способностей является сегодня едва ли не главной проблемной областью психологии способностей в целом.

С его точки зрения, основными проблемами, которые следует решать психологу, специализирующемуся в этом направлении, являются: влияние микро-, мезо- и макрообщностей, в которые включена личность, на развитие ее способностей, установление связи между формированием способностей и сменой социальных ролей (заметим, что есть и обратная связь: способности определяют социальный статус и роль), влияние оценочных нормативов и общественного мнения, а также различных форм поощрения на развитие способностей, изучение престижа способностей, который формируется средствами массовой информации.

Развитие общества связано с изменением отношения к различным способностям.

Пожалуй, наиболее подробная классификация задач социальной психологии способностей приведена тем же А.А.Бодалевым.

Главной задачей социальной психологии, с его точки зрения, является прослеживание взаимосвязей: общественная потребность в определенных способностях — условия для их развития — реальное развитие способностей. Слова «общественная потребность» могут трактоваться либо в качестве метафоры: потребность есть некоторая пристрастность к субъекту, но «общество» — термин, против употребления которого боролся П.Сорокин — слишком неоднородная система. Для личности — это всего лишь условия, к которым она либо адаптируется, т.е. модифицирует себя, либо преобразует эти условия, либо ищет новую среду (другой уголок «общества»).

Вообще, никогда «общественная потребность» не является движущей силой по отношению к способностям человека. Не говоря уже о науке. Признание необходимости психологического тестирования детей, не справляющихся с обучением в обычной школе, и необходимости направлять их в специальные классы Министерством общественного образования Франции — есть результат многолетних усилий Альфреда Бине. Общество (а точнее — его институты) может, в лучшем случае, стать восприимчивым к определенным идеям и планам, но никак не формировать требования, и тем более иметь «общественные потребности».

Даже формулировка проблемы общественного развития — результат активности отдельных творческих личностей. Можно, разумеется, представить чувствительность к тем или иным идеям как проявление наличия у общества «потребности», но лучше тогда трактовать «потребность» как метафору, замену понятия «общественная проблема».

Список проблем, конечно, не исчерпывается вышеприведенными. В предложенной вниманию читателей книге будут рассмотрены лишь проблемы структуры, диагностики и развития общих способностей: интеллекта, креативности и, в меньшей мере, — обучаемости.
1.2. Проблемы общих способностей (интеллект, обучаемость, креативность)
Привычка начинать с дефиниций, внедреннная в нашу психику немецкой научной традицией, ведущей свою родословную через Гегеля от средневековой схоластики, вынуждает в начале изложения давать определения понятиям. Хотя К.Поппер и полагает, что определения понятий суть результаты научного общения, а не его предпосылка, следует остановиться на понятиях.

«Способность» — одно из наиболее общих психологических понятий. В отечественной психологии многие авторы давали ему развернутые определения. В частности, С.Л.Рубинштейн понимал под способностями «…сложное синтетическое образование, которое включает в себя целый ряд данных, без которых человек не был бы способен к какой-либо конкретной деятельности, и свойств, которые лишь в процессе определенным образом организованной деятельности вырабатываются». Аналогичные по содержанию высказывания можно почерпнуть и у других авторов.

Б.М.Теплов предложил три эмпирических по сути признака способностей, которые и легли в основу определения, наиболее часто используемого специалистами: 1) способности — это индивидуально-психологические особенности, отличающие одного человека от другого; 2) только те особенности, которые имеют отношение к успешности выполнения деятельности или нескольких деятельностей; 3) способности не сводимы к знаниям, умениям и навыкам, которые уже выработаны у человека, хотя и обусловливают легкость и быстроту приобретения этих знаний и навыков.

Тем самым область психологии способностей — это раздел психологии индивидуальных различий (дифференциальной психологии).

Естественно, успешность выполнения деятельности определяют и мотивация, и личностные особенности, что и побудило К.К.Платонова отнести к способностям любые свойства психики, в той или иной мере определяющие успех в конкретной деятельности. Однако Б.М.Теплов идет дальше и указывает на то, что помимо успеха в деятельности, способность детерминирует скорость и легкость овладения деятельностью, и это изменяет положение с определением: скорость обучения может зависеть от мотивации, но чувство легкости при обучении (иначе — «субъективная цена», переживание трудности) скорее обратнопропорционально мотивационному напряжению.

Итак, чем больше развита у человека способность, тем успешнее он выполняет деятельность, быстрее ей овладевает, а процесс овладения деятельностью и сама деятельность даются ему субъективно легче, чем обучение или работа в той сфере, в которой он не имеет способности.

Эту метафизическую формулу способности можно выразить в объективной форме:

или же в субъективной форме:

Способному все дается легче, а неспособный проливает больше пота и слез.

Возникает проблема, что же это за психическая сущность — способности? Одного указания на поведенческие и субъективные ее проявления (а определение Б.М.Теплова — по сути — поведенческое) недостаточно.

Наиболее детально этот вопрос рассматривается в работах В.Д.Шадрикова. Он приходит к выводу, что понятие «способность» является психологической конкретизацией категории свойства. Свойством какой «вещи» является способность? По В.Д.Шадрикову, наиболее общим понятием, которое описывает психологическую реальность, является понятие психической функциональной системы, процесс функционирования которой (психический процесс), обеспечивает достижение некоторого полезного человеку результата.

Отсюда «способности можно определить как свойства функциональных систем, реализующих отдельные психические функции, имеющих индивидуальную меру выраженности, проявляющуюся в успешности и качественном своеобразии освоения и реализации отдельных психических функций. При определении индивидуальной меры выраженности способностей целесообразно придерживаться тех же параметров, что и при характеристике любой деятельности: производительности, качества и надежности (в отношении рассматриваемой функции)».

Поскольку психический процесс (в том числе — познавательный) является временной характеристикой функционирования соответствующей системы, то В.Д.Шадриков сводит способности к способностям мыслительным, способностям восприятия, памяти и так далее. Способности, понимаемые по В.Д.Шадрикову, являются общими в смысле отнесенности к конкретным видам деятельности: не существует, с этой точки зрения, «летных», «кулинарных», «музыкальных», «педагогических» и прочих способностей. Но остается неясным, если рассуждать в терминах В.Д.Шадрикова, есть ли функциональные психические системы более общие, чем те психические системы, которые соответствуют отдельным познавательным процессам, описанным в учебниках «Общей психологии»?

Пока мы оставим в стороне вопрос том, является ли любая психическая система функциональной в смысле П.Н.Анохина, то есть системой, обеспечивающей достижение полезного человеку результата.

Правда, В.Д.Шадриков вводит понятие общей одаренности, определяя ее как пригодность к широкому кругу деятельностей или сочетание способностей, от которых зависит успешность разных деятельностей, но и в этом случае общее не предшествует частному, а наоборот есть результат «сборки» отдельных элементов.

Принцип «общее предшествует частному», который является результатом развития общего в процессе дифференцировки, является принципом систем, наиболее освоенных современной психологией.

Различая специальные и общие способности, Д.Н.Завалишина вслед за Б.М.Тепловым связывает общие способности с более общими условиями ведущих форм человеческой деятельности, а специальные — с отдельными видами деятельности. Тем самым вновь проводится линия «деятельностной редукции»: способности конституируются не по видам психической функциональной системы, а по видам деятельности.

Разумнее было бы предположить, что способности связаны с какими-то общими сторонами функционирования психики, которые, конечно, проявляются, но не в конкретных деятельностях или группировках деятельностей, а в общих формах внешней активности (поведения) человека.

Следуя Б.Ф.Ломову, выделявшему три функции психики: коммуникативную, регуляторную и познавательную, можно было бы говорить о коммуникативных, регуляторных и познавательных способностях, но это значило бы свести дело к тем же психическим процессам.

Но, возможно, в каждом психическом процессе есть такие стороны, которые характеризуют его как и другие психические процессы?

Воспользуемся когнитивной парадигмой (как она ни условна) и рассмотрим работу целостной психики как оперирование знаниями.

В этом процессе можно выделить приобретение знаний, применение знаний, преобразование знаний, а также сохранение знаний.

Процессы преобразования знания происходят и при коммуникации, и при регуляции, и при познавательной активности. Абстрагируемся мы лишь от аффективно-волевого процесса, поскольку понятие способности ближе к операционально-когнитивной его стороне.

Есть также основание объединить получение знаний в единый двунаправленный процесс. Тем самым мы имеем следующую схему, где компонентами выступают три перечисленных выше системы.

Эта система имеет один вход и один выход. Способность к применению знания можно было бы отождествлять с интеллектом как способностью решать задачи на основе имеющихся знаний (тестовый интеллект).

Обучаемость характеризует систему приобретения знаний, а креативность (общая творческая способность) — процесс преобразования знаний (с ним связано воображение, фантазии, порождение гипотез и пр.).

Сохранение знаний преимущественно связывается с долговременной памятью, но, поскольку ее содержание не является актуальной психической реальностью (в отличие от содержания кратковременной памяти), есть основания считать этот процесс физиологическим, либо, по крайней мере, — психофизиологическим. Итак, поскольку мы выделили три основных глобальных процесса, стоит остановиться на их характеристиках и описаниях.

Рассмотрение этих отношений предваряет изложение основного материала. Поэтому некоторые высказывания могут звучать как ничем не обоснованные произвольные постулаты.

Предположим, что понятия «общая одаренность», «текучий интеллект», «общий фактор», «умственная энергия» являются тождественными по предметному содержанию и отражают некоторую общую способность, характеризующую по Б.М.Теплову легкость и успешность осуществления любой формы внутренней или внешней активности личности. Предположим также, что понятие «групповые факторы интеллекта» (по Спирмену) по содержанию соответствуют «кристаллизованному интеллекту» как объединению этих факторов (по Р.Кэттеллу). Поскольку групповые факторы характеризуются прежде всего видом материала задачи (вербальный, числовой, изобразительно-пространственный), то разумно полагать, что операции соответствуют знаниям того или иного содержания, которыми овладевает индивид в онтогенезе. С ними сопряжены определенные мотивы и личностные черты.

Предположим и то, что актуальная креативность возникает, как и групповые факторы интеллекта, на базе «общей способности» и, возможно, распадается на вербальную, числовую и изобразительную (невербальную), т.е. структура креативности соответствует структуре групповых факторов интеллекта. Возможно, что существует и «общая креативность» как аналог общего интеллекта.

Каждой общей способности соответствует специфическая мотивация и специфическая форма активности, как-то: креативности — мотивация самоактуализации (по А.Маслоу) и творческая активность, интеллекту («кристаллизованному») — мотивация достижений и адаптивное поведение, а обучаемости — познавательная мотивация.

Частично эти предварительные соображения будут подтверждены, а частично — опровергнуты при изложении и анализе результатов экспериментальных исследований в следующих главах книги.

Глава 2. ОБЩИЕ ИНТЕЛЛЕКТУАЛЬНЫЕ СПОСОБНОСТИ

2.1. Факторные модели интеллекта
Термин «интеллект», помимо своего научного значения (которое у каждого теоретика свое), как старый крейсер ракушками, оброс бесконечным количеством обыденных и популяризаторских истолкований.

Одно перечисление взглядов авторов, которые в той или иной мере касались этого предмета, заполнило бы весь объем книги. Поэтому остановимся на краткой и, на мой взгляд, наиболее приемлемой трактовке понятия интеллект. В качестве критерия используем поведенческий параметр.

Когда говорят об интеллекте как некоторой способности, то, в первую очередь, опираются на его адаптационное значение для человека и высших животных.

Интеллект есть некоторая общая способность приспособления к новым жизненным условиям, как полагал В. Штерн. Приспособительный акт — решение жизненной задачи с помощью интеллекта, осуществляется посредством действия с мысленным («ментальным») эквивалентом объекта, посредством «действия в уме» (или же, по Я.А.Пономареву, «во внутреннем плане действия»). Благодаря этому, решение проблемы может быть осуществлено здесь и теперь без внешних поведенческих проб, правильно и одноразово: пробы, проверка гипотез осуществляется во «внутреннем плане действия».

Согласно Л. Полани, интеллект относится к одному из видов приобретения знаний. Но на взгляд большинства других авторов, приобретение знаний (ассимиляция по Ж. Пиаже) выступает лишь служебным моментом по отношению к применению знаний при решении жизненной задачи. Важно, чтобы задача была действительно новой или, по краней мере, имела компонент новизны. С проблемой интеллектуального поведения тесно связана проблема «трансфера» — переноса «знаний — операций» из одной, уже решенной задачи, на другую (новую).

Достарыңызбен бөлісу:

Прогрессивные матрицы Равена это

(Raven Progressive Matrices) — тест интеллекта. Предназначен для измерения уровня интеллектуального развития. Предложен Л. Пенроу-зом и Дж. Равеном в 1936 г. Р. п. м. разрабатывались в соответствии с традициями английской
школы изучения интеллекта, согласно которым наилучшим способом измерения фактора «g» является выявление отношений между абстрактными фигурами. Наиболее известны два основных варианта Р. п. м.: черно-белые и цветные матрицы.
Черно-белые Р. п. м. предназначены для обследования детей и подростков в возрасте от 8 до 14 лет и взрослых в возрасте от 20 до 65 лет (рис. 38).
Цветной вариант (более простой, чем черно-белый) Р. п. м. предназначен для обследования детей в возрасте от 5 до 11 лет, иногда рекомендуется для лиц старше 65 лет. Материал теста черно-белого варианта состоит из 60 матриц или композиций с пропущенным
элементом. Задания разделены на пять серий (А, В, С, D, Е) по 12 однотипных, но возрастающей сложности матриц в каждой серии. Трудность заданий возрастает и при переходе от серии к серии. Обследуемый должен выбрать недостающий элемент матрицы
среди 6—8 предложенных вариантов. При необходимости первые 5 заданий серии А обследуемый выполняет с помощью экспериментатора. Образцы заданий-матриц из черно-белого варианта Р. п. м. приведены на рис. 38.

При разработке теста была сделана попытка реализовать принцип «прогрессивности», заключающийся в том, что выполнение предшествующих заданий и их серий является как бы подготовкой обследуемого к выполнению последующих. Происходит обучение выполнению
более трудных заданий (Дж. Равен, 1963;Б. Зимин, 1962).
Каждая серия заданий составлена по определенным принципам.
Серия А. От обследуемого требуется дополнение недостающей части изображения. Считается, что при работе с матрицами этой серии реализуются следующие основные мыслительные процессы: а) дифференциация основных элементов структуры и раскрытие связей
между ними; б) идентификация недостающей части структуры и сличение ее с представленными образцами.
Серия В. Сводится к нахождению аналогии между двумя парами фигур. Обследуемый раскрывает этот принцип путем постепенной дифференциации элементов.
Серия С. Задания этой серии содержат сложные изменения фигур в соответствии с принципом их непрерывного развития, обогащения по вертикали и горизонтали.
Серия D. Составлена по принципу перестановки фигур в матрице по горизонтальному и вертикальному направлениям.
Серия Б. Наиболее сложная. Процесс решения заданий этой серии заключается в анализе фигур основного изображения и последующей «сборке» недостающей фигуры по частям (аналитико-синтетическая мыслительная деятельность).
Обработка полученных результатов проста. Каждое верное решение оценивается в 1 балл. Подсчитываются общая сумма полученных баллов, а также число правильных решений в каждой из пяти серий. Первичные оценки по таблицам переводятся в соответствии
с возрастными нормами в процентили или станайны (см. ОЦЕНКИ ШКАЛЬНЫЕ). Предусмотрена возможность перевода полученных результатов в IQ-показатель стандартный.
Существенным этапом количественной обработки результатов обследования с помощью Р. п. м. является вычисление «индекса вариабельности». Индекс определяется исходя из таблиц распределения числа правильных решений в каждой из пяти серий. Варианты
распределений решений в сериях были получены эмпирическим путем при анализе выполнения теста испытуемыми из выборки стандартизации. Варианты распределения по таблице определяются в соответствии с общей суммой баллов во всех сериях. Напр.,
при общей оценке в 26 «сырых» баллов оценки по отдельным сериям распределяются следующим образом: А — 10; В — 7; С — 5; D — 3; Е — 1. Табличное распределение сравнивается с полученным в конкретном случае, разности ожидаемых и наличных оценок
в каждой серии (без учета знака) суммируются. Полученная величина и является «индексом вариабельности». Нормальные значения индекса в пределах 0—4 свидетельствуют о достоверности результата исследования. При увеличении индекса до критических
значений (7 и более) данные теста считаются недостоверными.
Сопоставление реального и ожидаемого распределения числа правильных решений в сериях направлено на выявление испытуемых, выполнявших задание путем угадывания. Значение индекса вариабельности может оказаться значительно выше критического в случае
установки испытуемого симулировать низкий результат по тесту (демонстрация несостоятельности в решении самых простых задач).
Цветной вариант Р. п. м. состоит из трех серий — А, Ав, В по 12 матриц в каждой серии.
Обработка полученных результатов такая же, как в черно-белом варианте Р. п. м. Оба варианта могут быть использованы как в качестве теста скорости (с ограничением времени выполнения заданий), так и теста результативности (без ограничения времени)
(Дж. Равен, 1963).
Р. п. м. основываются на двух теориях, разработанной гештальт-психологией теорией перцепции форм и т. и. «теории неогенеза» Ч. Спирмена. В соответствии с теорией перцепции форм каждое задание может быть рассмотрено как определенное целое, состоящее
из ряда взаимосвязанных друг с другом элементов. Предполагается, что первоначально происходит глобальное оценивание задания-матрицы, а затем — осуществление аналитической перцепции с выделением испытуемым принципа, принятого при разработке
серии. На заключительном этапе выделенные элементы включаются в целостный образ, что и способствует обнаружению недостающей детали изображения. Теория Ч. Спирмена развивает рассмотренные положения теории перцепции форм.
Данные, полученные с помощью Р. п. м., хорошо согласуются с показателями других распространенных тестов общих способностей. Так, коэффициенты корреляции между результатами теста (форма ABCDE) и W1SC-R (см. ВЕКСЛЕ-РА ИНТЕЛЛЕКТА ИЗМЕРЕНИЯ ШКАЛЫ)
составляют 0,70—0,74; для испытуемых в возрасте 9—10 лет —0,91; Станфорд — Вине умственного развития шкалы — 0,66; Выготского — Сахарова теста — 0,54. Наиболее высока корреляция оценок Р. п. м. с группой арифметических тестов (0,74—0,87).
Коэффициент надежности теста, по данным различных исследований, варьирует от 0,70 до 0,89. Средняя трудность заданий теста — 32,12 % . Показатель валидности прогностической теста (по связи с критериями успеваемости) -0,72.
Существуют модификации Р. п. м. Одна из таких модификаций предложена автором (Дж. Равен в сотрудничестве с Д. Кортом, 1977, 1982). Оригинальный материал теста претерпел значительные изменения (усложнение заданий, введение новых серий). Существенной
особенностью является дополнение теста вербальной шкалой (Mill Hill Vocabulary Scales) что, по мнению разработчиков, в немалой мере способствует расширению области применения теста. Интересная модификация Р. п. м., а также процедуры обследования
предложена югославскими психологами (3. Буяс, 1961). В этом случае предусмотрена дифференцированная форма оценки ответов обследуемых. От них требуется указать на три фрагмента из тех, которые предложены для восполнения матрицы: точно подходящий,
подходящий более-менее и совершенно не подходящий. Это дает возможность качественной оценки результатов, отпадает также необходимость в использовании индекса вариабельности. Р. п. м. благодаря простоте применения, валидности и надежности результатов,
возможности группового обследования получили широкое распространение в психодиагностике.
В отечественных исследованиях тест успешно используется при обследовании детей и взрослых (С. М. Морозов, 1979, 1980 и др.).

ПРОЕКТИВНЫЕ МЕТОДИКИ И ПСИХОФИЗИОЛОГИЧЕСКИЕ МЕТОДИКИ). РАЗНОВИДНОСТИ ТЕСТОВ.

Тесты – это стандартизированные и обычно краткие и ограниченные во времени испытания, предназначенные для установления количественных индивидуально-психологических различий между людьми. Их отличительная особенность заключается в том, что они состоят из заданий, на которые от испытуемого нужно получить правильный ответ. Тесты можно классифицировать в зависимости от того, какой признак взят за основание деления. Наиболее значительными представляются классификации тестов по форме и по содержанию. По форме тесты могут быть индивидуальные и групповые; устные и письменные; бланковые, предметные, аппаратурные и компьютерные; вербальные и невербальные (практические). По содержанию тесты обычно делятся на следующие классы, или направления: тесты интеллекта, тесты способностей, тесты личности; особое место в этом делении занимают тесты достижений, непредназначенные для решения собственно психологических проблем.

Опросники — Это такая группа диагностических методов, в которой задания представлены в виде вопросов и утверждений. Они предназначены для получения данных со слов обследуемого. Опросники относятся к числу наиболее распространенных диагностических инструментов и могут быть подразделены на опросники личности и опросники-анкеты. Они лишь отражают отношение человека к тем или иным высказываниям, меру его согласия или несогласия. Личностные опросники могут рассматриваться как стандартизированные самоотчеты, которые по форме бывают групповыми и индивидуальными, чаще всего письменными, бланковыми или компьютерными. По характеру ответов они делятся на опросники с предписанными ответами (закрытые опросники) и со сводными ответами (открытые опросники).

Проективная техника. Это группа методов, предназначенных для диагностики личности. Для них характерен в большей мере глобальный подход к оценке личности, а не выявление отдельных ее черт.Цель проективных методов относительно замаскирована, что уменьшает возможность испытуемого давать такие ответы, которые позволяют произвести желательное о себе впечатление.

Психофизиологические методы диагностируют природные особенности человека, обусловлены основными свойствами его нервной системы. Эти методы имеют ясное теоретическое обоснование – психофизиологическую концепцию индивидуальных различий, свойств нервной системы и их проявлений. Одна из черт психофизиологических методов, диагностирующих индивидуальные различия: они лишены оценочного подхода к индивиду.

34 СОЦИАЛЬНО-ПСИХОЛОГИЧЕСКИЕ МЕТОДЫ ИССЛЕДОВАНИЯ ЛИЧНОСТИ СТУДЕНТА И\ СТУДЕНЧЕСКОЙ ГРУППЫ. МЕТОД СОЦИОМЕТРИИ.

Первый и самый действенный метод – это метод наблюдения: в учебной деятельности, в практической деятельности, в общении и т. д. Наблюдение – это метод исследования объектов, который состоит в восприятии объектов, предметов, феноменов с целью изучения их трансформаций в условиях той или иной среды. Эффективным является метод беседы. Для коррекции поведения эффективно используется метод убеждения и личного примера.1.Для изучения интеллектуальных способностей студента целесообразно использовать тест возрастающей трудности «Методику Дж. Равена».Согласно Равену – это тест испытания способностей воспринимать определённые формы, охватывать их особенности, характер, и взаимные отношения, и ансамбль – совокупность отношений, а поэтому он требует по некоторым задачам методологических рассуждений. При этом следует отметить, что таким образом нельзя производить измерение некоего абсолютного интеллекта, однако результаты тестирования дают возможность понять, что измеренные умения и навыки в определённой мере репрезентируют интеллект.2.Для изучения мотивационной сферы личности наиболее приемлемы в использовании:- методика «Конструктивность мотивации».Методика КМ используется для непосредственного диагностирования индивидуальных различий людей. Несложность, общедоступность содержания методики позволяет применять ее в широких возрастных и социальных диапазонах. методика «Анкета изучения жизненных ценностей». — методика «Мотивация обучения в вузе». Измерение тревожности как свойства личности особенно важно, так как это свойство во многом обуславливает поведение субъекта.Метод социометрии (от лат. «общество» и греч. «измеряю») применяется для диагностики межличностных взаимоотношений в малых контактных группах, существующих не менее шести месяцев.

Позволяет выявить:1. Особенности систем неформальных отношений в группе;2. Степень психологической совместимости конкретных людей;3. Внутригрупповые статусы участников процедуры;4. Качество психологической атмосферы группы в целом.

ПСИХОЛОГИЧЕСКОЕ КОНСУЛЬТИРОВАНИЕ СТУДЕНТОВ И ПРЕПОДАВАТЕЛЕЙ С УЧЕТОМ ПРОФИЛЯ БУДУЩЕЙ ПРОФЕССИОНАЛЬНОЙ ДЕЯТЕЛЬНОСТИ СПЕЦИАЛИСТА. ПСИХОЛОГИЧЕСКАЯ ХАРАКТЕРИСТИКА ПЕДАГОГИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ ПРЕПОДАВАТЕЛЯ ВЫСШЕЙ ШКОЛЫ.

Одной из задач психологического сопровождения на этапе профессионального обучения является подготовка выпускников к трудоустройству и началу работы по специальности. С этой целью разрабатываются и проводятся различные формы тематических занятий, посвященных формированию навыков поведения на рынке труда: поиск вакансий по различным источникам, написание резюме, подготовка к собеседованию с работодателем и т.д. Владение этими навыками является необходимым условием успешности трудоустройства и обязательно должно быть включено в программу психологического сопровождения. Под профессиональным становлением человека понимается процесс формирования, развития и совершенствования его как субъекта труда, включающий в себя формирование специфических видов трудовой активности, его психологических, физиологических, поведенческих характеристик. «Подготовительный» этап, а затем стадии профессионального выбора, профессионального обучения, профессиональной деятельности. В период допрофессионального развития выделяются стадия предыгры, стадия игры, стадия овладения учебной деятельностью; периоду выбора профессии соответствует стадия оптации; в период профессиональной подготовки и дальнейшего становления профессионала выделяются стадия адепта, стадия адаптанта, стадия интернала, стадия мастерства, стадия авторитета, стадия наставника.

36. УПРАВЛЕНИЕ ПРОЦЕССОМ ОБУЧЕНИЯ. УПРАВЛЕНИЕ ПОЗНАВАТЕЛЬНОЙ ДЕЯТЕЛЬНОСТЬЮ В ПРОЦЕССЕ ПРЕПОДАВАНИЯ. Управление процессом обучения предполагает прохождение определенных этапов в соответствии с заданной структурой педагогического процесса и самой педагогической деятельности: планирования, организации, регулирования, контроля, оценки и анализа результатов. Этап планирования в деятельности перподавателя завершается составлением календарно-тематических или поурочных планов в зависимости от того, какие задачи предстоит решать: стратегические, тактические или оперативные. Составлению планов, планов-конспектов или конспектов, что определяется опытностью и уровнем мастерства педагога, предшествует длительная кропотливая работа. Преподавание предполагает регулирование и корригирование процесса обучения на основе непрерывного текущего контроля, т. е. получения информации о ходе научения учащихся и эффективности приемов и методов своей собственной деятельности. Результаты текущего контроля, осуществляемого в форме простого наблюдения, устных и письменных опросов, проверки классных и домашних самостоятельных работ и с помощью других приемов и методов, учитываются учителем как непосредственно на данном занятии, так и в перспективе. Это может быть замедление или ускорение темпов учебной работы, уменьшение или увеличение объема предлагаемых видов работ, внесение изменений в порядок изложения материала, наводящие вопросы и дополнительные разъяснения, предупреждение затруднений и т. п. Особое место на этом этапе деятельности преподавателя занимает стимулирование активности и самостоятельности студентов. Регулирование и корригирование процесса обучения с использованием средств стимулирования обеспечивается не только продуманной системой оценивания, предполагающей подбадривание, воодушевление, вселение уверенности в собственных силах и учебных возможностях, увлечение перспективами, порицание и т. п. Большие стимулирующие возможности заложены и в формах и методах педагогической деятельности (учебные дискуссии, конференции, обсуждения рефератов, парно-групповые способы обучения, взаимопроверки и т.п.). Завершающим этапом обучения, как и педагогического процесса в целом, является анализ результатов решения педагогической задачи. Он осуществляется с позиций достижения в единстве образовательных, воспитательных и развивающих целей, а также способов и условий их достижения. При этом необходимо исходить из требований принципа оптимальности, учитывая, что требуемый результат может достигаться и за счет перегрузки как учащихся, так и учителя. Анализ должен выявить причины недостатков в обучении и основания успехов, наметить пути дальнейшего педагогического взаимодействия в рамках процесса обучения. Познавательная деятельность — это единство чувственного восприятия, теоретического мышления и практической деятельности. Она осуществляется на каждом жизненном шагу, во всех видах деятельности и социальных взаимоотношений учащихся, а также путем выполнения различных предметно-практических действий в учебном процессе. Но только в процессе обучения познание приобретает четкое оформление в особой, присущей только человеку учебно-познавательной деятельности, или учении. Обучение всегда происходит в общении и основывается на вербально-деятельностном подходе.

Ключ для формы В.

Методика № 1: 1 – б; 2 – г; 3 – в; 4 – г; 5 – б; 6 – а; 7 – в; 8 – б; 9 – б; 10 – а; 11 – г; 12 – б; 13 – б; 14 – г; 15 – д; 16 – г.

Методика № 2: 1 – г; 2 – а; 3 – г; 4 – в; 5 – г; 6 – б; 7 – в; 8 – б; 9 – д; 10 – а; 11 – г; 12 – б; 13 – а; 14 – б; 15 – в; 16 – г.

Методика № 3: 1 – в; 2 – а; 3 – б; 4 – а; 5 – г; 6 – г; 7 – в; 8 – а; 9 – в; 10 – г; 11 – г; 12 – а; 13 – а; 14 – а; 15 – б; 16 – б.

Методика № 4: 1 – г; 2 – д; 3 – д; 4 – г; 5 – в; 6 – а; 7 – б; 8 – г; 9 – г; 10 – б; 11 – б; 12 – б; 13 – д; 14 – в; 15 – д; 16 – д.

Методика № 5: 1 – а; 2 – д; 3 – г; 4 – а; 5 – г; 6 – д; 7 – а; 8 – а; 9 – в; 10 – г; 11 – в; 12 – а; 13 – б; 14 – а; 15 – а; 16 – в.

Методика № 6: 1 – б; 2 – г; 3 – а; 4 – а; 5 – г; 6 – в; 7 – в; 8 – в; 9 – а; 10 – г; 11 – а; 12 – в; 13 – б; 14 – а; 15 – в; 16 – д.

Методика № 7: 1 – а; 2 – б; 3 – д; 4 – в; 5 – г; 6– г; 7 – г; 8 – а; 9 – в; 10 – в; 11 – б; 12 – в; 13 – а; 14 – а; 15 – а; 16 – г.

Методика № 8: 1 – в; 2 – д; 3 – в; 4 – в; 5 – г; 6 – б; 7 – а; 8 – б; 9 – б; 10 – а; 11 – а; 12 – а; 13 – г; 14 – д; 15 – г; 16 – а.

Перевод в стандартные баллы суммы «сырых» баллов, полученных по батарее интеллектуальных тестов «КР-3-85».

Стэн	ОИР	Группа пригодности
	53 и менее	IV
	54 – 60
	61 – 67
	68 – 74	III
	75 – 82
	83 – 89	II
	90 – 96
	97 – 103	I
	104 – 110
	111 и более

ТЕСТ ВОЗРАСТАЮЩЕЙ ТРУДНОСТИ ДЖ. РАВЕНА

Выполнять задание нужно в максимальном темпе. Время решения ограничивается 30 минутами.

Стимульный материал.

Ключ.

Номер задания	Номер правильного ответа	Очки за ответ	Номер задания.	Номер правильного ответа	Очки за ответ

Оценка в баллах
Сумма очков за правильные ответы	143-155	129-142	115-128	101-114	87-100	73-86	59-72	45-58

Дата добавления: 2015-10-13; просмотров: 106 | Нарушение авторских прав

mybiblioteka.su — 2015-2021 год. (0.008 сек.)

Написание хороших тестовых вопросов с множественным выбором | Центр обучения

Процитируйте это руководство: Brame, C. (2013) Написание хороших вопросов для теста с несколькими вариантами ответов. Получено [сегодняшняя дата] с https://cft.vanderbilt.edu/guides-sub-pages/writing-good-multiple-choice-test-questions/.

Вопросы теста с несколькими вариантами ответов, также известные как задания, могут быть эффективным и действенным способом оценки результатов обучения.У тестовых заданий с множественным выбором есть несколько потенциальных преимуществ:

Универсальность: Элементы теста с множественным выбором могут быть написаны для оценки различных уровней результатов обучения, от простого отзыва до применения, анализа и оценки. Однако, поскольку учащиеся выбирают из набора возможных ответов, существуют очевидные ограничения на то, что можно проверить с помощью элементов с несколькими вариантами ответов. Например, они не являются эффективным способом проверки способности учащихся организовывать мысли или формулировать объяснения или творческие идеи.

Надежность: Надежность определяется как степень, в которой тест последовательно измеряет результат обучения. Пункты теста с множественным выбором менее подвержены угадыванию, чем вопросы «верно / неверно», что делает их более надежным средством оценки. Надежность повышается, когда увеличивается количество элементов MC, ориентированных на одну цель обучения. Кроме того, объективная оценка, связанная с заданиями теста с множественным выбором, освобождает их от проблем, связанных с несогласованностью оценок, которые могут помешать выставлению оценок за вопросы эссе.

Срок действия: Срок действия — это степень, в которой тест измеряет результаты обучения, которые он призван измерить. Поскольку студенты обычно могут ответить на вопрос с несколькими вариантами ответов гораздо быстрее, чем на вопрос эссе, тесты, основанные на элементах с несколькими вариантами ответов, обычно могут быть сосредоточены на относительно широком представлении материала курса, что повышает достоверность оценки.

Однако ключом к использованию этих сильных сторон является создание хороших предметов с множественным выбором.

Элемент с множественным выбором состоит из проблемы, известной как основа, и списка предлагаемых решений, известных как альтернативы. Альтернативы состоят из одной правильной или лучшей альтернативы, которая является ответом, и неправильных или неполноценных альтернатив, известных как отвлекающие факторы.

Создание эффективного стержня

1. Шток должен быть значимым сам по себе и должен представлять определенную проблему. Стержень, представляющий определенную проблему, позволяет сосредоточиться на результате обучения.Тем не менее, стержень, который не представляет собой явной проблемы, может проверить способность учащихся делать выводы из расплывчатых описаний, а скорее служить более прямым тестом достижения учащимися результатов обучения.

2. Основа не должна содержать нерелевантного материала , который может снизить надежность и достоверность результатов теста (Haldyna and Downing 1989).

3. Основа должна быть выражена отрицательно только тогда, когда этого требуют значительные результаты обучения. Студенты часто испытывают трудности с пониманием заданий с отрицательной формулировкой (Rodriguez 1997). Если значительный результат обучения требует отрицательной формулировки, такой как определение опасной лабораторной или клинической практики, отрицательный элемент следует выделить курсивом или заглавными буквами.

4. Основа должна быть вопросом или частичным предложением. Основа вопроса предпочтительнее, потому что она позволяет студенту сосредоточиться на ответе на вопрос, а не удерживать частичное предложение в рабочей памяти и последовательно завершать его с каждой альтернативой (Statman 1988). Познавательная нагрузка увеличивается, когда ствол строится из исходной или внутренней заготовки, поэтому такой конструкции следует избегать.

Создание эффективных альтернатив

1. Все альтернативы должны быть правдоподобными. Функция неправильных альтернатив состоит в том, чтобы служить отвлекающими факторами, которые должны выбираться учащимися, которые не достигли результатов обучения, но игнорироваться учащимися, которые достигли результатов обучения. Невероятные альтернативы не служат функциональными отвлекающими факторами и поэтому не должны использоваться. Распространенные ошибки учеников — лучший источник отвлекающих факторов.

2. Альтернативы должны быть изложены четко и кратко. Задания, содержащие слишком много слов, оценивают навыки чтения учащихся, а не их достижение цели обучения

3. Альтернативы должны быть взаимоисключающими. Альтернативы с перекрывающимся содержанием могут рассматриваться тестируемыми как «уловки», чрезмерное использование которых может подорвать доверие и уважение к процессу тестирования.

4. Альтернативы должны быть однородными по содержанию. Разнородные по содержанию альтернативы могут подсказать учащемуся правильный ответ.

5. Альтернативы не должны содержать подсказок о том, какой ответ правильный. Сложные тестируемые опасаются непреднамеренных подсказок к правильному ответу, таких различий в грамматике, длине, форматировании и выборе языка в альтернативах. Поэтому важно, чтобы альтернативы

имеют грамматику в соответствии с основанием.
параллельны по форме.
аналогичны по длине.
используют аналогичный язык (например,г., все в отличие от учебного языка или , все как учебный язык).

6. Не следует использовать альтернативы «все вышеперечисленное» и «ничего из вышеперечисленного». Когда в качестве ответа используется «все вышеперечисленное», испытуемые, которые могут идентифицировать более одной альтернативы как правильную, могут выбрать правильный ответ, даже если не уверены в других альтернативах. Когда «ничего из вышеперечисленного» не используется в качестве альтернативы, испытуемые, которые могут исключить один вариант, могут тем самым исключить второй вариант.В любом случае учащиеся могут использовать частичные знания, чтобы прийти к правильному ответу.

7. Альтернативы должны быть представлены в логическом порядке (например, в алфавитном или числовом порядке), чтобы избежать предвзятого отношения к определенным позициям.

8. Количество альтернатив может варьироваться в зависимости от позиции, если все альтернативы правдоподобны. Правдоподобные альтернативы служат функциональными отвлекающими факторами, которые выбираются учащимися, которые не достигли цели, но игнорируются учащимися, достигшими цели.Между заданиями, содержащими два, три и четыре отвлекающих фактора, существует небольшая разница в сложности, различении и надежности результатов теста.

Дополнительные инструкции

1. Избегайте сложных вопросов с множественным выбором , в которых некоторые или все альтернативы состоят из различных комбинаций вариантов. Как и в случае с ответами «все вышеперечисленные», опытный тестируемый может использовать частичные знания, чтобы получить правильный ответ.

2. Держите конкретное содержимое элементов независимо друг от друга. Опытные тестируемые могут использовать информацию в одном вопросе, чтобы ответить на другой вопрос, что снижает достоверность теста.

Дополнительные ресурсы

Бертон, Стивен Дж., Sudweeks, Ричард Р., Меррилл, Пол Ф. и Вуд, Bud. Как подготовить лучшие задания для теста с множественным выбором: Руководство для факультета университета, 1991.
Чунг, Дерек и Букат, Роберт. Как мы можем создавать хорошие предметы с множественным выбором? Представлено на конференции по научно-техническому образованию, Гонконг, 20-21 июня 2002 г.
Haladyna, Thomas M. Разработка и проверка тестовых заданий с множественным выбором, 2 ^nd edition. Lawrence Erlbaum Associates, 1999.
Халадина, Томас М.и Даунинг, С. М. Действительность таксономии правил написания заданий с множественным выбором. Прикладные измерения в образовании , 2 (1), 51-78, 1989.
Моррисон, Сьюзен и Фри, Кэтлин. Написание тестовых заданий с множественным выбором, которые способствуют развитию и измерению критического мышления. Журнал сестринского образования 40: 17-24, 2001.

Это учебное руководство находится под лицензией Creative Commons Attribution-NonCommercial 4.0 International License.

Item Response Theory | Общественное здравоохранение Колумбии

Обзор

Теория отклика элемента (IRT), также известная как теория скрытого отклика, относится к семейству математических моделей, которые пытаются объяснить взаимосвязь между скрытыми чертами (ненаблюдаемыми характеристиками или атрибутами) и их проявлениями (т.е. наблюдаемые результаты, ответы или производительность). Они устанавливают связь между свойствами предметов на инструменте, людьми, реагирующими на эти предметы, и измеряемой основной характеристикой. IRT предполагает, что скрытая конструкция (например, стресс, знания, отношения) и элементы меры организованы в ненаблюдаемый континуум. Следовательно, его основная цель сосредоточена на установлении позиции человека в этом континууме.

Описание

Классическая теория тестов
Классическая теория тестов [Spearman, 1904, Novick, 1966] фокусируется на той же цели и до концептуализации IRT; он использовался (и до сих пор используется) для прогнозирования скрытых черт человека на основе наблюдаемого общего балла по инструменту.В CTT истинная оценка предсказывает уровень скрытой переменной и наблюдаемую оценку. Ошибка обычно распределяется со средним значением 0 и стандартным отклонением 1.

Теория ответов на вопросы против классической теории тестирования

Допущения IRT

1) Монотонность — предположение указывает, что это признак уровень увеличивается, вероятность правильного ответа также увеличивается 2) Одномерность — модель предполагает, что измеряется одна доминирующая скрытая черта, и что эта черта является движущей силой для ответов, наблюдаемых для каждого элемента меры 3) Местная независимость — ответы Отдельные элементы теста являются независимыми друг от друга при определенном уровне способностей.4) Инвариантность — нам разрешено оценивать параметры предмета из любой позиции на кривой отклика предмета. Соответственно, мы можем оценить параметры элемента из любой группы испытуемых, ответивших на этот вопрос.

Если предположения верны, различия в соблюдении правильных ответов между респондентами будут связаны с вариациями их скрытых черт.
Функция ответа элемента и кривая характеристик элемента (ICC)

Модели IRT предсказывают ответы респондентов на вопросы инструмента на основе их положения в континууме скрытых черт и характеристик элементов, также известных как параметры.Эту ассоциацию характеризует функция отклика предмета. Основное предположение состоит в том, что каждый отклик на предмет на инструменте дает некоторую склонность к индивидуальному уровню скрытых черт или способностей. Простыми словами, способность человека (θ) — это вероятность одобрения правильного ответа на этот вопрос. Таким образом, чем выше способности человека, тем выше вероятность правильного ответа. Эту взаимосвязь можно изобразить графически, она известна как кривая характеристик элемента.Как показано на рисунке, кривая имеет S-образную форму (Sigmoid / Ogive). Кроме того, вероятность одобрения правильного ответа монотонно возрастает по мере того, как способности респондента становятся выше. Следует отметить, что теоретически способность (θ) находится в диапазоне от -∞ до + ∞, однако в приложениях она обычно находится в диапазоне от -3 до + 3.

Параметры элемента

Поскольку способности людей меняются, их положение зависит от континуум скрытой конструкции изменяется и определяется выборкой респондентов и параметрами заданий.Вопрос должен быть достаточно чувствительным, чтобы оценивать респондентов в рамках предлагаемого ненаблюдаемого континуума.

Сложность предмета (bi) — это параметр, определяющий поведение предмета по шкале способностей. Он определяется на основе средней вероятности, то есть способности, при которой 50% респондентов подтверждают правильный ответ. На характеристической кривой элемента элементы, которые трудно одобрить, смещены вправо от шкалы, что указывает на более высокую способность респондентов, которые одобряют его правильно, в то время как те, которые являются более легкими, более смещены влево от шкалы способностей. .

Дискриминация предмета (ai) определяет скорость, с которой вероятность одобрения правильного предмета изменяется при заданных уровнях способностей. Этот параметр является обязательным для дифференциации людей, обладающих одинаковыми уровнями латентной конструкции, представляющей интерес. Конечная цель разработки точной меры состоит в том, чтобы включить элементы с высокой степенью различения, чтобы иметь возможность отображать людей по континууму скрытого признака. С другой стороны, исследователи должны проявлять осторожность, если наблюдается отрицательная дискриминация по предмету, потому что вероятность подтверждения правильного ответа не должна уменьшаться по мере увеличения способностей респондента.Следовательно, необходимо провести пересмотр этих пунктов. Шкала различения элементов теоретически колеблется от -∞ до + ∞; и обычно не превышает 2; поэтому реально он колеблется в пределах (0,2)

Угадывание (ci) Угадание предмета — третий параметр, который учитывает угадывание предмета. Это ограничивает вероятность подтверждения правильного ответа, когда способность приближается к -∞.

Инвариантность популяции Проще говоря, параметры элемента ведут себя одинаково в разных популяциях.Это не тот случай, когда при измерении следует CTT. Поскольку единицей анализа является элемент в IRT, расположение элемента (сложность) можно стандартизировать (подвергнуть линейному преобразованию) по совокупности, и, таким образом, элементы можно легко сравнивать. Следует добавить важное замечание: даже после линейного преобразования оценки параметров, полученные из двух выборок, не будут идентичными, инвариантность в названии относится к инвариантности совокупности и поэтому применяется только к параметрам совокупности элементов.

Типы моделей IRT

Одномерные модели Одномерные модели предсказывают способность предметов измерять одну доминирующую скрытую черту.
Дихотомические модели IRT
Дихотомические модели IRT используются, когда ответы на элементы в мере дихотомичны (т.е. 0,1)

Логистическая модель с 1 параметром

Модель представляет собой простейшую форму моделей IRT. Он состоит из одного параметра, который описывает скрытую черту (способность — θ) человека, отвечающего на вопросы, а также другого параметра для элемента (сложность).Следующее уравнение представляет его математическую форму:

Модель представляет функцию ответа элемента для 1-параметрической логистической модели, прогнозирующей вероятность правильного ответа с учетом способностей респондента и сложности задания. В модели 1-PL параметр различения фиксирован для всех предметов, и, соответственно, все кривые характеристик предметов, соответствующие различным предметам в измерении, параллельны по шкале способностей. На рисунке показано 5 предметов, самый дальний справа — самый сложный и, вероятно, будет правильно одобрен теми, у кого более высокие способности.

Информация о тесте Функция

§ Это сумма вероятностей подтверждения правильного ответа по всем пунктам меры и, следовательно, оценка ожидаемого результата теста.
§ На этом рисунке красная линия отображает совокупную вероятность всех 5 элементов (черная)

Функция информации о предмете
Показывает количество информации, которую предоставляет каждый предмет, и рассчитывается путем умножения вероятности подтверждения правильный ответ, умноженный на вероятность неправильного ответа.

Следует отметить, что количество информации на данном уровне способностей является обратной его дисперсией, следовательно, чем больше количество информации, предоставляемой предметом, тем выше точность измерения. Поскольку информация об элементе отображается в зависимости от способностей, раскрывающий график отображает объем информации, предоставляемой этим элементом. Элементы, измеренные с большей точностью, предоставляют больше информации и графически изображаются длиннее и уже по сравнению с их аналогами, которые предоставляют меньше информации.Вершина кривой соответствует значению би — способности в точке средней вероятности. Максимальный объем предоставляемой информации будет предоставлен при равной вероятности правильного или неправильного ответа, т.е. 50%. Вопросы наиболее информативны среди респондентов, представляющих весь скрытый континуум, и особенно среди тех, кто имеет 50% -ный шанс ответить в любом случае.

Оценка способности
Предположение о локальной независимости гласит, что ответы элементов должны быть независимыми и связаны только через способность.Это позволяет нам оценить функцию правдоподобия индивидуального шаблона ответа для меры, применяемой путем умножения вероятностей ответа элемента. Затем посредством итеративного процесса вычисляется оценка максимального правдоподобия способности. Проще говоря, оценка максимального правдоподобия дает нам ожидаемые оценки для каждого человека.

Модель Раша и 1-параметрические логистические модели
Математически модели равны, однако модель Раша ограничивает Дискриминацию предметов (ai) до 1, в то время как 1-параметрическая логистическая модель стремится максимально соответствовать данным. насколько это возможно и не ограничивает коэффициент дискриминации до 1.В модели Раша модель лучше, поскольку она больше связана с разработкой переменной, которая используется для измерения интересующего измерения. Следовательно, при построении фитинга инструмента лучше всего подойдет модель Раша, улучшающая точность элементов.

Двухпараметрическая логистическая модель

Двухпараметрическая логистическая модель предсказывает вероятность успешного ответа с использованием двух параметров (сложность двойного действия и различение ai).
Параметр дискриминации может изменяться для разных элементов. Отныне ICC разных элементов могут пересекаться и иметь разные наклоны. Чем круче наклон, тем выше дискриминация предмета, так как он сможет обнаружить тонкие различия в способностях респондентов.

Функция «Информация об элементе»

Как и в случае с моделью 1-PL, информация рассчитывается как произведение вероятности правильного и неправильного ответа.Однако произведение умножается на квадрат параметра дискриминации. Подразумевается, что чем больше параметр дискриминации, тем больше информации предоставляется элементом. Поскольку различающий фактор может варьироваться между элементами, графики информационных функций элементов также могут выглядеть по-разному.

Оценка способности
В модели 2-PL предположение о местной независимости все еще сохраняется, и используется оценка максимальной вероятности способности.Хотя вероятности шаблонов ответов по-прежнему суммируются, теперь они взвешиваются по коэффициенту различения элементов для каждого ответа. Следовательно, их функции правдоподобия могут отличаться друг от друга и достигать максимума на разных уровнях θ.

Трехпараметрическая логистическая модель

Модель предсказывает вероятность правильного ответа так же, как модель 1-PL и 2 PL-модель, но она ограничена третьим параметром, называемым параметр предположения (также известный как параметр псевдошанса), который ограничивает вероятность подтверждения правильного ответа, когда способность респондента приближается к -∞.Когда респонденты отвечают на элемент, предполагая, объем информации, предоставляемой этим элементом, уменьшается, а функция элемента информации достигает пика на более низком уровне по сравнению с другими функциями. Кроме того, сложность больше не определяется средней вероятностью. Пункты, на которые даны ответы путем предположений, указывают на то, что способности респондента меньше, чем его сложность.

Подгонка модели
Один из способов выбрать подходящую модель — это оценить относительную подгонку модели с помощью информационных критериев.Сравниваются оценки AIC и выбирается модель с более низким AIC. В качестве альтернативы мы можем использовать хи-квадрат (отклонение) и измерить изменение в 2 * логарифмическом отношении правдоподобия. Поскольку оно следует за распределением хи-квадрат, мы можем оценить, отличаются ли две модели статистически друг от друга.

Другие модели IRT

Включите модели, которые обрабатывают политомические данные, такие как модель дифференцированного ответа и модель частичного кредита. Эти модели предсказывают ожидаемую оценку для каждой категории ответов.С другой стороны, другие модели IRT, такие как модели номинального ответа, предсказывают ожидаемые оценки людей, отвечающих на вопросы с неупорядоченными категориями ответов (например, Да, Нет, Возможно). В этом кратком обзоре мы сосредоточились на одномерных IRT-моделях, связанных с измерением одного латентного признака, однако эти модели не подходят для измерения более чем одного латентного конструкта или признака. В последнем случае рекомендуется использовать многомерные модели IRT. Дополнительную информацию об этих моделях см. В приведенном ниже списке ресурсов.

Приложения

Модели IRT могут успешно применяться во многих условиях, в которых применяются оценки (образование, психология, исследование результатов здоровья и т. Д.). Его также можно использовать для разработки и оттачивания шкал / мер, включая элементы с высокой степенью различения, которые повышают точность измерительного инструмента и уменьшают нагрузку на ответы на длинные вопросники. Поскольку единицей анализа модели IRT является элемент, их можно использовать для сравнения элементов из разных показателей при условии, что они измеряют одну и ту же скрытую конструкцию.Более того, их можно использовать в дифференциальном функционировании элементов, чтобы оценить, почему элементы, которые калибруются и тестируются, по-прежнему ведут себя по-разному в группах. Это может привести к исследованию, направленному на выявление причинных факторов, стоящих за различиями в ответах, и привязку их к групповым характеристикам. Наконец, их можно использовать в компьютеризированном адаптивном тестировании.

Литература

Учебники и главы

Hambleton, R. K., & Swaminathan, H. (1985). Принципы и приложения теории отклика предметов.Бостон, Массачусетс: Издательство Kluwer-Nijhoff. Доступно здесь и здесь

Эмбретсон, Сьюзен Э. и Стивен П. Рейз. Теория отклика предмета. Psychology Press, 2013. Доступно здесь

Ван дер Линден, У. Дж., И Хэмблтон, Р. К. (ред.). (1997). Справочник по современной теории ответов на вопросы. Нью-Йорк, штат Нью-Йорк: Спрингер. Доступно здесь

Эти три книги (Принципы и приложения теории отклика предметов, Теория отклика предметов и Справочник по современной теории отклика предметов) знакомят читателя с фундаментальными принципами моделей IRT.Однако они не включают последние обновления и программные пакеты IRT.

На 138 страницах ДеМарсу К. удалось создать краткий, но чрезвычайно информативный ресурс, который не преминет развенчать самые сложные концепции IRT. Книга представляет собой вводную книгу, в которой рассматриваются предположения, параметры и требования IRT, а затем объясняется, как результаты могут быть описаны в отчетах и как исследователи должны учитывать контекст проведения тестирования, совокупность респондентов и эффективное использование оценок.

Аяла RJd. Теория и практика теории ответов на вопросы. (2009). Справочно-исследовательские книжные новости, 24 (2). Доступно здесь

Теория и практика теории ответов на вопросы — это прикладная книга, ориентированная на практиков. Он дает подробное объяснение как однозначных, так и многомерных моделей IRT, подчеркивая концептуальное развитие каждой модели и допущения. Затем он переходит к демонстрации основных принципов модели на ярких примерах.

Книга была разработана для специалистов, занимающихся исследованиями поведения. Он помогает им ориентироваться в статистических методах с использованием R. Глава 8 посвящена теории отклика элемента и предлагает набор примечаний и множество аннотированных примеров.

Как следует из названия, руководство дает визуальное представление основных концепций IRT. Аплеты Java пронизывают текст и упрощают отслеживание, пока объясняются эти базовые концепции. Отличный ресурс, и я бы рекомендовал прочитать его пару раз и потренироваться на апплетах!

Бейкер, Фрэнк (2001).Основы теории ответов на вопросы. Информационный центр ERIC по оценке и оценке, Университет Мэриленда, Колледж-Парк, Мэриленд,

Единственная в своем роде книга, которая фокусируется на том, чтобы предложить читателю удовольствие от получения основ теории IRT, не углубляясь в математические сложности.

Lord, F.M. (1980). Применение теории отклика предмета к задачам практического тестирования. Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум. Доступно здесь

Baker, F.Б. и Ким С. Х. (2004). Теория ответа на вопрос: методы оценки параметров. Нью-Йорк, Нью-Йорк: Марсель Деккер. Доступно здесь и здесь

Методологические статьи

Лорд, Ф. М. (1983). Беспристрастные оценки параметров способностей, их дисперсии и надежности параллельных форм. Psychometrika, 48, 233-245

Грин, Д. Р., Йен, В. М., и Беркет, Г. Р. (1989). Опыт применения теории отклика заданий при построении тестов.Прикладные измерения в образовании, 2 (4), 297-312

Заявочные статьи

Да Роча Н.С., Чахамович Э. Фау — де Алмейда Флек депутат, де Алмейда Флек М.П. Фау — Теннант А, Теннант А: Ан введение в анализ Раша для психиатрической практики и исследований. (1879-1379)
Основная цель статьи — описать современную теорию тестирования (в частности, анализ Раша) применительно к разработке инструментов. Перечень депрессии Бека (BDI) используется в качестве примера, где депрессивные симптомы представляют собой изучаемую скрытую переменную.
Кук К.Ф., О’Мэлли К.Дж., Родди Т.С. Динамическая оценка результатов для здоровья: пора выпустить CAT из мешка? Исследования служб здравоохранения. 2005; 40 (5 Pt 2): 1694-711
Основная цель статьи — познакомить с компьютерным адаптивным тестированием в контексте исследования результатов лечения. Он также предоставляет простой, но эффективный обзор основ моделей IRT.
Эдвардс MC. Введение в теорию ответа на предмет с использованием шкалы потребности в познании.Компас социальной и психологии личности. 2009; 3 (4): 507-29
Основная цель статьи — рассмотреть модель 2-PL и модель дифференцированного ответа. Автор иллюстрирует различные особенности обеих моделей на примерах с использованием шкалы потребности в познании (NCS). Также кратко обсуждаются дифференциальное функционирование элементов (DIF) и компьютеризированное адаптивное тестирование (CAT).
Choi SW, Swartz RJ. Сравнение критериев выбора элементов CAT для политомических элементов. 2009 (0146-6216 (Печать)).
Основная цель статьи — исследовать свойства метода выбора заданий в контексте компьютерного адаптивного тестирования и политомических заданий.
Ризопулос Д. (2006). ltm: пакет R для моделирования скрытых переменных и анализа теории отклика элементов. Журнал статистического программного обеспечения, 17 (5). 1-25
Основная цель статьи — представить пакет «ltm» на языке R, который помогает подбирать модели IRT. Пакет ltm ориентирован как на дихотомические, так и на политомические данные.В документе представлены иллюстрации с использованием реальных примеров данных из вступительного экзамена на юридический факультет (LSAT) и из раздела «Окружающая среда» Британского исследования социальных отношений 1990 года.

Программное обеспечение

Чтобы просмотреть полный список, щелкните следующую ссылку: http://www.umass.edu/remp/software/CEA-652.ZH-IRTSoftware.pdf

Веб-сайты

Youtube обучающие программы (чрезвычайно полезные и информативные)

Курсы

Курсы, предлагаемые в Школе общественного здравоохранения Mailman

Предстоящие онлайн-курсы и семинары

Прошедшие курсы и материалы

Летний семинар ICPSR 9 июля 2012 г. –13 июля 2012 г.Д-р Джонатан Темплин (доцент кафедры психологии и исследований в области образования Канзасского университета)

[файлы в формате PDF удалены]

Стандартизированное тестирование: справедливо или нет?

доктора Джона Поулсена и Куртиса Хьюсона

Аннотация

Стандартизованное тестирование в некоторых кругах демонизируется как самая гнусная форма оценки. Эти люди указывают на множество проблем, связанных с созданием и администрированием этих тестов, а также с использованием результатов.В других кругах стандартизованное тестирование представляет собой истинную оценку, посредством которой отдельные характеристики могут быть значимым образом сопоставлены с другими характеристиками. Таким образом, стандартизованное тестирование рассматривается некоторыми как справедливая форма сравнения; другие нет. Знание того, откуда взялось стандартизованное тестирование и каковы мотивы его роста, может помочь в понимании и, возможно, в возможности использовать результаты стандартизированных тестов для улучшения преподавания и обучения. Эта статья представляет собой обзор истории и текущих реалий стандартизированного тестирования.

Введение

Учитывая ту роль, которую стандартизированное тестирование приобрело в системах образования на международном уровне, можно с уверенностью предположить, что подавляющее большинство канадцев прошли эти тесты еще будучи студентами. Стандартизованное тестирование оказывает влияние на жизнь все большего и большего числа учащихся, поскольку общественное стремление к подотчетности в сфере образования привело к резкому увеличению использования этих оценок в округах и странах (Guskey & Jung, 2013). Их ценность широко обсуждается преподавателями, учеными и политиками, но ясно то, что их использование, похоже, увеличивается, а не уменьшается.Проведение стандартизированных тестов в качестве студентов может дать полезную информацию, однако важно, чтобы преподаватели и студенты имели общее представление об истории стандартизированного тестирования или тестирования с высокими ставками, а также имели общее представление о том, как строятся эти оценки.

В этой статье исследуется история стандартизированного тестирования, последние разработки в области стандартизированного тестирования, создание тестовых вопросов и применимость.

Определение

Стиггинс (2008) утверждает, что

Эти ежегодные тесты вряд ли будут иметь большую ценность для классных учителей, поскольку вы планируете и выполняете повседневные занятия.Это оценки обучения, которые слишком редки, имеют широкую направленность и медленно возвращают результаты, чтобы информировать о текущем массиве повседневных решений. Но это не означает, что эти тесты не имеют цели или ценности. Они могут передавать ценную информацию об успеваемости учащихся другим лицам, принимающим решения (стр. 347-348).

Это относительно рациональное утверждение можно рассматривать как определение боевой линии, проведенной между сторонниками стандартизированных тестов и теми, кто против них.

Цель стандартизированного тестирования — заставить большое количество студентов написать один тест, а затем сравнить любой результат со всеми остальными, чтобы увидеть, как индивидуальный результат сравнивается с большой выборкой. Затем результаты помещаются в колоколообразную кривую, которая указывает, где находится оценка в рамках описательных статистических стандартов. Стандартизированные тесты даются большим группам, насчитывающим как минимум тысячи, а иногда и миллионы. Чтобы результаты были как можно более достоверными и, таким образом, «стандартизировав» администрирование оценки, используются следующие тесты:

написано в одно и то же время и в один и тот же день для всех студентов,
управляется с последовательными инструкциями,
отводили каждому студенту одинаковое количество времени на написание теста, а
набрали аналогичным образом.

Scantron — это распространенный метод пометки пузырьковых листов с вопросами в стиле с несколькими вариантами ответов. Эссе отмечаются специалистами, обученными делать отметки аналогичным образом.

Берк (1999) утверждает, что традиционно «стандартизованный» означает, что тест является стандартным или одинаковым по трем параметрам: (а) формат / вопросы, (б) инструкции и (в) распределение времени. Формат / вопросы означает, что вопросы теста одинаковы для всех студентов, готовящих экзамен. Информация, которую студенты должны показать, что они знают, запрашивается у них в том же формате, который обычно является множественным выбором.Множественный выбор — это формат выбора, потому что, как предполагает Стиггинс (2008), «относительно легко разрабатывать, администрировать и оценивать в больших количествах» (стр. 354). Кроме того, чтобы тест был справедливым в том смысле, что все учащиеся имели одинаковые шансы правильно ответить на каждый вопрос, все вопросы должны быть одинаковыми.

Инструкции должны быть такими же. Они должны быть предоставлены всем учащимся одинаково, чтобы ни один учащийся не был в привилегированном или неблагоприятном положении. Последняя стандартизация — это временные рамки.Всем студентам дается одинаковое количество времени на сдачу экзамена.

Однако стандартизация стандартизированных экзаменов подрывается. Общие изменения стандартизированного тестирования позволяют некоторым студентам иметь больше времени, чем отведено. Некоторым студентам с определенными потребностями в обучении теперь разрешено иметь больше времени, чем другим студентам, для сдачи экзамена. Затем этим ученикам также часто разрешается писать в разных комнатах.

Второе требование стандартизированных тестов также часто адаптируется.Учащиеся с проблемами чтения могут заставить «читателей» прочитать вопросы. Обоснование этого заключается в том, что учебная программа требует, чтобы учащиеся знали определенную информацию. То, знают ли студенты эту информацию, является целью экзамена, а не умеют ли студенты читать. Эти читатели могут адаптировать стандартные инструкции, которые получают учащиеся. Кроме того, чтение вопросов ученикам может дать им преимущество или недостаток, которого нет у других учеников. Следовательно, второе и третье требования стандартизированного тестирования больше не действуют.

Существуют и другие формы стандартизированного тестирования, помимо вопросов с несколькими вариантами ответов, например, написание эссе. Недостаток этой формы тестирования в настоящее время состоит в том, что для оценки сочинений требуются маркеры. Маркеры эссе должны быть обучены, чтобы понимать, каковы стандарты. Затем они должны заняться трудоемким делом по чтению эссе. Даже пройдя обучение, оценщики могут ставить эссе существенно разные оценки.

Сторонники стандартизированного тестирования указывают на широкомасштабное использование тестов, выходящих за рамки отдельного учащегося или даже школы.Стандартизированное тестирование позволяет сравнивать провинциальные системы образования или даже национальные системы образования. Защитники говорят, что стандартизированные тесты беспристрастны и рациональны. Они заявляют, что стандартизированные тесты — недорогой способ проверить, что школы и учителя несут ответственность, что учащиеся и, следовательно, общественность получают образование, за которое платят государственные доллары. Стандартизированные тесты по этому показателю предназначены для проверки всей системы образования, поэтому отдельные баллы могут быть не такими значимыми.

«… стандартизация стандартизированных экзаменов разрушается».

История

История стандартизированного тестирования основана на благородных чувствах. Тестирование можно найти во всех культурах. Оценка понимания того, кто изучает новый навык, характерна для всех обществ. Стандартизованное тестирование в том виде, в каком мы его знаем сегодня, всерьез зародилось в Китае как форма проверки способностей, пытаясь определить, кто лучше всего справится с конкретной работой. Флетчер (2009) утверждает, что «Самые ранние данные о стандартизированных тестах были получены из Китая, где претендентам на работу в правительстве приходилось сдавать экзамены, проверяющие их знания конфуцианской философии и поэзии.«Эти экзамены начались примерно в 100 году нашей эры, но были прочно закреплены во времена династии Суй в 605 году нашей эры. Они пытались предсказать способности, выбирая лучших кандидатов на китайскую госслужбу.

Самым последним импульсом к стандартизированному тестированию стала промышленная революция и движение за расширение школьного образования, когда учащихся переводили с работы в школы. Один из самых простых и, возможно, самый дешевый способ протестировать большое количество таких детей — это стандартный экзамен.

Альфред Бине (1857–1911) и Теодор Саймон (1872–1961) разработали то, что сейчас широко известно как IQ-тест, начиная с конца 1800-х годов и заканчивая шкалой Бине-Саймона в 1905 году. Эти тесты интеллекта были созданы в ответ. правительству Франции, желающему создать классы специального образования для учащихся, не участвующих в недавно учрежденной программе регулярного обязательного образования. Тесты пытались выявить учащихся, которым требовалось целенаправленное образование, чтобы получить максимальное образование.Эти стандартизированные тесты были попыткой упорядочить образование, чтобы общество получило максимальную пользу от каждого гражданина, а это благородное чувство.

Тест содержал задачи, расположенные в порядке сложности по ряду предметов, но в качестве основы использовались элементы, оценивающие понимание, рассуждение и суждение (Reynolds, Livingston, & Willson, 2009). Луис Терман (1877–1956), преподававший в то время в Стэнфордском университете, отметил успех этих экзаменов и их потенциальную применимость в Америке.Он возглавил создание теста Стэнфорда-Бине, который в пятой версии остается самым популярным средством тестирования IQ из существующих.

Флетчер (2009) предполагает, что «… до Первой мировой войны стандартизированное тестирование было стандартной практикой: тесты на способности, называемые армейскими ментальными тестами, проводились для назначения американских военнослужащих на работу во время войны». Роберт Йеркс был одним из ученых, которым было поручено проверить военнослужащих, а затем предложить соответствующее размещение. Это тестирование военнослужащих помогло собрать статистические данные для тестирования IQ.Карл Бригам работал с Йерксом при проверке военнослужащих. После войны он опубликовал книгу «Исследование американской разведки», основанную на результатах Первой мировой войны. На основе этих открытий и анализа в 1926 году он создал тест на схоластические способности (SAT). допускались достойные кандидаты. Тест сразу же стал популярным, и к 1945 году он стал стандартным методом поступления в колледж и университет, опять же благородное дело.

Эверетт Линквист изобрел тест Американского колледжа (ACT) в 1959 году в качестве конкурента SAT.В 2011 году более 3,3 миллиона человек сдали экзамены SAT и ACT. ACT считается скорее тестом накопленных знаний, в то время как SAT предназначен для проверки логики. Другими важными стандартизированными экзаменами являются вступительный тест в медицинский колледж (MCAT) и вступительный тест для выпускников (GMAT).

Эти стандартизированные тесты, которые пытаются предсказать успех или способности, кажутся успешными. Рейнольдс, Ливингстон и Уилсон (2009) заявляют: «Как правило, исследования со значительной последовательностью показывают, что современные тесты интеллекта являются хорошими предикторами академической успешности» (стр.334). Фишман и Пасанелла (1960) проанализировали прогностическую достоверность SAT в 1950-х годах, обнаружив, что медианная корреляция между успехами студентов на первом курсе и оценкой SAT была значимой 0,61. Недавно Кобрин, Паттерсон, Шоу, Маттерн и Барбути (2008) обнаружили корреляцию 0,29, достойную корреляцию между результатами SAT и средним баллом за первый год обучения (FYGPA).

В Альберте стандартизированные испытания начались в 1960-х годах. МакИвен (1995) предполагает, что введение в Альберте проверки достижений для 3, 6 и 9 классов было сделано в ответ на всемирную волну образовательной реформы, которая требовала большей подотчетности в образовании.На уровне 12-го класса экзамены на получение диплома были возобновлены в 1984 году после отмены на несколько лет. МакИвен поясняет причину тестов достижений:

Государственное образование финансируется налогоплательщиками, которые хотят и имеют право знать, получают ли они выгоду от своих инвестиций. Такая подотчетность требует публичной информации. Система показателей — это инструмент, позволяющий сфокусировать реформу и улучшить подотчетность за счет предоставления более точной информации о деятельности системы образования. Цели или предполагаемые преимущества внедрения систем показателей состоят в том, чтобы оценить эффективность и результативность образовательного предприятия, улучшить образование и обеспечить механизм подотчетности (стр.28).

Плюсы и минусы стандартизированного тестирования

Основные загадки стандартизированного тестирования достижений заключаются в достоверности и применимости результатов теста. Валидность связана с тем, насколько точно результаты теста фактически отражают знания учащихся по предмету. В стандартизированных тестах используется минимальное количество вопросов, и даже один или два неправильных ответа по экологическим причинам повлияют на результаты каждого учащегося. Факторы, которые влияют на то, как учащийся понимает правильный или неправильный вопрос, могут быть бесконечными и могут быть разделены на (а) факторы, влияющие на ситуацию / среду, (б) личные / эмоциональные факторы и (в) требования к разнице оценок при стандартизированном тестировании.

Ситуационные / экологические факторы

Несмотря на то, что стандартизированное тестирование пытается свести к минимуму мешающие переменные, требуя от учащихся писать в аналогичных ситуациях, может оказаться, что некоторые учащиеся пишут в ситуациях, которые значительно отличаются от других учащихся, например, это может быть слишком ярким или слишком темным или даже слишком холодно или слишком жарко. Условия тестирования могут привести к плохой успеваемости учащихся, например, когда учащиеся могут пропустить вопросы не потому, что они не знают материала, а из-за чего-то столь же простого, как в центре тестирования было плохое освещение, вызывающее головные боли у учащихся, или из-за слишком холодного помещения для тестирования. и не позволял некоторым студентам сосредоточиться.

Личные / эмоциональные факторы

Учащиеся, которые плохо сдают экзамены из-за нервов, связанных с тестами, могут быть не в состоянии показать, на что они способны, в атмосфере стандартизированного тестирования с высокими ставками. Их тревога становится определяющим фактором того, насколько хорошо они справляются с тестом, а не то, знают ли они материал. Даже учащиеся, которые обычно хорошо сдают экзамены, могут иметь искаженный результат; например, студент, у которого был эмоциональный момент непосредственно перед экзаменом, может быть не в состоянии сосредоточиться и получить результат, не отражающий его или ее способности.

Требование к разбросу по сортам

Возможно, основная проблема стандартизированного тестирования достижений заключается в том, что тестирование должно основываться на результатах учебной программы, утвержденных руководящими органами провинции или штата. Стандартизированные тесты должны составлять универсальный тест, который не подходит для всех, потому что, как говорит Пофэм (1999), «… стандартизированные тесты достижений всегда будут содержать ряд элементов, которые не соответствуют тому, что подчеркивается в конкретной обстановке. »(Стр. 331).Проведенное в 1983 г. исследование согласования содержания учебника и стандартизированного теста показало, что «ни в одном учебнике не было удовлетворительно изложено даже 50 процентов содержания теста» (Попхэм, стр. 331). То есть, была плохая корреляция между тем, что было в тесте, и в учебниках, которые были основным источником для подготовки студентов к тесту.

Создатели тестов ищут разброс оценок в своих вопросах. Они ищут вопросы, на которые слишком много студентов не отвечают правильно. Вопросы, на которые правильно отвечает более 60% студентов, обычно исключаются из теста.Пофэм указывает, что это проблема, потому что «… задания, по которым учащиеся хорошо успевают, часто охватывают содержание, которое учителя подчеркивают в силу своей важности» (стр. 332). Поэтому важный материал, который требуется по учебной программе, часто не проверяется.

Важно, как вопросы определяются как наиболее подходящие для стандартизированного тестирования. Решая, какие вопросы использовать, создатели тестов, по сути, стараются найти вопросы, которые будут правильными только у 50% лучших студентов. Эти типы вопросов популярны в стандартизированном тестировании, потому что они поддерживают общую теорию тестирования, согласно которой учащиеся с наивысшими результатами отвечают на вопросы правильно.Итак, стандартизованные тесты могут быть самоутверждающими. Учащиеся, входящие в лучшие 50% класса, правильно ответили на вопросы, поскольку они входят в лучшие 50% класса.

Кроме того, если концепция преподается всем учащимся в классе и все учащиеся правильно ответят на вопрос, этот вопрос не будет использоваться в будущем, поскольку он не распределяет оценки учащихся, так что точные числа с привязкой к норме могут быть связанным с каждым студентом. То есть, если бы все ученики сдали тест, тогда не было бы кривой колокола и связанной связи с тем, где каждый ученик находится на кривой.Проще говоря, должны быть вопросы, на которые отвечает только около 50% студентов, чтобы можно было проводить сравнения.

Социально-экономический статус учащегося во многом зависит от результатов стандартизированных тестов на успеваемость. Вероятно, это связано с тем, что тесты искажены, чтобы отразить обучение, которое дети получают дома. Снова есть несоответствие учебной программы и тестирования. Например, если в вопросе задается вопрос о «сфере деятельности», такой как право или медицина, учащиеся, родители которых занимаются такими профессиями, могут понять эту концепцию из разговоров дома.Однако студенты, родители которых работают в сфере услуг или работают в местном продуктовом магазине, не могут. Правильный ответ на вопрос может зависеть не от того, что было изучено в школе, а от того, что было изучено вне школы. Противники стандартизированного тестирования достижений предполагают, что было бы несправедливо проверять достижения учащихся, которых нет в учебной программе.

На чем сосредоточены преподаватели или учебники, может не быть отражено в тесте. Требование разброса баллов на экзаменах означает, что вопросы, на которые отвечает большинство студентов, вероятно, будут удалены, поскольку они недостаточно различают.

Заключение

История стандартизированного тестирования предполагает, что импульс к крупномасштабному тестированию был основан на благородных стремлениях, в первую очередь на том, чтобы иметь нужного человека в нужном месте, независимо от того, является ли это место правильной работой в армии или правильной формой образования. . Стандартизированное тестирование имеет большое значение в современном обществе. Тестирование на пригодность для поступления в колледжи и университеты кажется особенно эффективным, поскольку количественные исследования установили связь между таким тестированием и последующим успехом в высших учебных заведениях.

При тестировании достижений есть проблемы, особенно связанные с ситуативными / средовыми факторами, личными / эмоциональными факторами и требованиями к разнице оценок, которые могут затруднить определение применимости. Таким образом, стандартизированное тестирование может быть лучше всего для определения способностей или будущих способностей человека, а также для проверки эффективности школьного округа. Стандартизированные тесты кажутся более слабыми в том, чтобы правильно указать, сколько конкретный ученик усвоил.

>> Вернуться к содержанию

Список литературы

Консорциум оценки Альберты (2012).Новый взгляд на общественное страхование: представление о возможностях для студентов Альберты. Получено с http://www.aac.ab.ca/a-new-look-at-public-assurance-imagining-the-possabilities-for-alberta-students.html

Alberta Education (1997 год). Стандарт качества обучения, применимый к базовому образованию в Альберте. (Приказ Министерства № 016/97). Получено с http://education.alberta.ca/media/6734948/teaching%20quality%20standard%20-%20english.pdf

Бью, лорд П. (2011).Независимая проверка ключевого этапа 2 тестирования, оценки и подотчетности, итоговый отчет, написанный для Министерства образования. Получено с https://www.education.gov.uk/publications/standard/publicationDetail/Page1/DFE-00068-2011

Бордман, А. Г., и Вудрафф, А. Л. (2004). Смена учителя и оценка «по-крупному»: что происходит с профессиональным развитием. Преподавание и педагогическое образование, 20 (6), 545-557.

Booi, L., & Couture, J. C. (2011). Тестирование, тестирование.Что Альберта может узнать из Финляндии о стандартизации и роли учителя. Alberta Views, 7, 28-32.

Брукхарт, С. М. (2001). Исследование «Стандарты» и оценивание в классе. Документ, представленный на ежегодном собрании Американской ассоциации педагогических колледжей, Даллас, Техас. (Номер услуги репродукции документов ERIC ED451189).

Берк, К. (1999). Школа внимательности: как оценить подлинное обучение (3-е изд.). Арлингтон-Хайтс, Иллинойс: Издательство Skylight Publishing.

Фишман, Дж. А., и Пазанелла, А. К. (1960). Отборочные исследования для поступления в колледж. Обзор исследований в области образования, 30 (4), 298-310.

Флетчер, Д. (11 декабря 2009 г.). Стандартизированное тестирование. Время. Получено с http://www.time.com/time/nation/article/0,8599,1947019,00.html

Франклин, К. А., Сноу-Джероно, Дж. Л. (2007). Восприятие обучения в среде стандартизированного тестирования: голоса с мест. Исследователь, 21 (1), 2-21.

Гордон, С.П. и Риз М. (1997). Тестирование с высокими ставками: стоит ли цена? Журнал школьного лидерства, 7, 345-368.

Гронлунд, Н., и Во, К. (2009). Оценка успеваемости учащихся (9-е изд.). Река Аппер Сэдл, Нью-Джерси: Пирсон.

Гуски, Т. Р., и Юнг, Л. А. (2013). Ответы на важные вопросы о стандартах, оценках, выставлении оценок и отчетности. Таузенд-Оукс, Калифорния: Корвин.

Кобрин, Дж., Паттерсон, Б., Шоу, Э., Маттерн, К., и Барбути, С. (2008). Применимость теста SAT для прогнозирования среднего балла за первый год обучения в колледже (отчет No.2008-5). Нью-Йорк, штат Нью-Йорк: Совет колледжей. Получено с http://professionals.collegeboard.com/profdownload/Validity_of_the_SAT_for_Predicting_First_Year_College_Grade_Point_Average.pdf

МакИвен, Н. (1995). Подотчетность в образовании в Канаде. Канадский журнал образования, 20, 1-17.

Педулла, Дж. П. (2003). Государственное тестирование — что думают учителя? Образовательное лидерство, 61 (3), 42-46.

Попхэм, Дж. (2002). Классная оценка: что нужно знать учителям (3-е изд.) Бостон: Аллин и Бэкон.

Попхэм, У. Дж. (1999). Почему стандартизированные тесты не измеряют качество образования. Образовательное лидерство, 56 (6), 8-15.

Рейнольдс К., Ливингстон Р. и Уилсон В. (2009). Измерение и оценка в образовании (2-е изд.). Река Аппер Сэдл, Нью-Джерси: Пирсон.

Стиггинс Р. Дж. (1999). Грамотны ли вы в оценке? Журнал средней школы, 6 (5), 20-23.

Стиггинс Р. Дж. (2008). Введение в оценивание учащихся для обучения (5-е изд.). Колумбус, Огайо: Пирсон Меррил Прентис Холл.

>> Вернуться к содержанию

3 Обзор психологического тестирования | Психологическое тестирование в службе определения инвалидности

В этой главе определены некоторые из основных принципов, лежащих в основе использования психологических тестов, включая основные психометрические принципы и вопросы, касающиеся справедливости тестов. Применение тестов может помочь в установлении инвалидности. Следующие две главы основываются на этом обзоре, исследуя типы психологических тестов, которые могут быть полезны в этом процессе, включая обзор отдельных индивидуальных тестов, которые были разработаны для измерения валидности презентации.Глава 4 посвящена некогнитивным методам самоотчета и тестам на валидность симптомов. Затем в главе 5 рассматриваются когнитивные тесты и связанные с ними тесты на валидность. Предлагаются сильные и слабые стороны различных инструментов, с тем чтобы впоследствии изучить актуальность различных типов тестов для разных утверждений в каждой категории расстройства с акцентом на установление действительности претензии клиента.

ССЫЛКИ

AACN (Американская академия клинической нейропсихологии).2007. Практическое руководство AACN по нейропсихологической оценке и консультированию. Клиническая нейропсихология 21 (2): 209-231.

AERA (Американская ассоциация исследований в области образования), APA (Американская психологическая ассоциация) и NCME (Национальный совет по измерениям в образовании). 2014. Стандарты учебно-психологического тестирования . Вашингтон, округ Колумбия: AERA.

APA. 2010. Этические принципы психологов и кодекс поведения. http: // www.apa.org/ethics/ code (по состоянию на 9 марта 2015 г.).

Брандт, Дж. И В. ван Горп. 1999. Политика Американской академии клинической нейропсихологии в отношении использования персонала без докторской степени для проведения клинических нейропсихологических оценок. Клинический нейропсихолог 13 (4): 385-385.

Buros Центр тестирования. 2015. Обзоры тестов и информация. http://buros.org/test-reviews-information (по состоянию на 19 марта 2015 г.).

Чайтор Н. и М.Шмиттер-Эджкомб. 2003. Экологическая валидность нейропсихологических тестов: обзор литературы по повседневным когнитивным навыкам. Neuropsychology Review 13 (4): 181-197.

Кронбах, Л. Дж. 1949. Основы психологического тестирования . Нью-Йорк: Харпер.

Кронбах, Л. Дж. 1960. Основы психологического тестирования . 2-е изд. Оксфорд, Англия: Харпер.

Де Айяла, Р. Дж. 2009. Теория и практика теории ответов на вопросы .Нью-Йорк: Публикации Гилфорда.

DeMars, C. 2010. Теория ответов на вопросы. Нью-Йорк: издательство Оксфордского университета.

Furr, R.M., and V.R.Bacharach. 2013. Психометрия: введение . Таузенд-Оукс, Калифорния: Sage Publications, Inc.

Гейзингер, К. Ф. 2013. Надежность. В справочнике APA по тестированию и оценке по психологии . Vol. 1, под редакцией К. Ф. Гейзингера (редактор) и Б. А. Бракена, Дж. Ф. Карлсона, Дж. К. Хансена, Н.Р. Кунсел, С. П. Рейз и М. К. Родригес (младшие редакторы). Вашингтон, округ Колумбия: АПА.

Грот-Марнат, Г. 2009. Справочник по психологической оценке . Хобокен, Нью-Джерси: Джон Уайли и сыновья.

Groth-Marnat, G., and M. Teal. 2000. Блочный дизайн как мера повседневных пространственных способностей: исследование экологической значимости. Перцепционные и моторные навыки 90 (2): 522-526.

Hambleton, R. K., and M. J. Pitoniak. 2006. Устанавливая стандарты производительности. Образовательные измерения 4: 433-470.

женщин демонстрируют более стабильную производительность во время сдачи теста, чем мужчины.

Исследование 1: исходные результаты

В исследовании 1 мы используем данные PISA для анализа гендерных различий в способности поддерживать производительность во время теста. PISA — это международный трехгодичный тест, проводимый Организацией экономического сотрудничества и развития (ОЭСР), и он направлен на оценку навыков и знаний 15-летних учащихся в области математики, естественных наук и чтения.Мы объясняем специфику PISA в разделе «Методы». Каждые 3 года тест PISA фокусируется на одной из трех областей. PISA 2009 был посвящен чтению, что, как мы объясним позже, дало тесту сбалансированное распределение между областями, благоприятными для женщин (чтение), и областями, благоприятными для мужчин (математика и естественные науки). Соответственно, мы используем эту волну для документирования наших исходных результатов.

Рисунок 1 иллюстрирует основную идею исследования 1 с акцентом на Ирландию. На этом рисунке показано соотношение правильных ответов к положению вопроса в тесте PISA отдельно для мужчин и женщин.Для обоих полов вопросы имели меньшую вероятность получить правильный ответ, поскольку занимаемая ими позиция смещалась к концу теста. Эта закономерность была названа снижением производительности ¹. Как мы подробно объясняем в разделе «Методы» и в дополнительных таблицах 3 и 4, случайный порядок вопросов среди учащихся гарантирует, что этот образец не обусловлен различиями в сложности вопросов.

Рис. 1

Показатели на протяжении всего теста для мужчин и женщин в Ирландии.Рисунок основан на PISA 2009 и использует сглаживание локально взвешенной диаграммы рассеяния (LOWESS) для визуализации взаимосвязи между вероятностью правильного ответа на вопрос и положением вопроса в тесте. Исходные данные представлены в виде файла исходных данных (исследование 1)

Ключевым выводом рисунка 1 в контексте нашего исследования является то, что у студенток снижение успеваемости слабее. Таким образом, рисунок показывает, что в Ирландии самки смогли лучше поддерживать свои показатели на протяжении всего теста, чем самцы.Доля учащихся мужского и женского пола, правильно ответивших на первый вопрос, была равной, в то время как доля учащихся женского пола правильно ответила на вопросы по мере прохождения теста.

Для результатов, представленных ниже, мы используем обычный метод наименьших квадратов (МНК) для оценки гендерного разрыва в начале теста (разница в успеваемости между учащимися женского и мужского пола в исходной точке на рис. 1) и гендерного разрыва среди учащихся. ‘способность поддерживать успеваемость (то есть разница между учениками и юношами в линейных оценках наклонов на рис.1). Подробную информацию о методологии, которую мы использовали, можно найти в разделе «Методы».

На рисунке 2 показан первый этап исследования 1. На нем представлены оценочные гендерные различия в способности учащихся поддерживать успеваемость в каждой стране и соответствующие им 95% доверительные интервалы. Положительные значения указывают на страны, в которых учащиеся женского пола смогли лучше поддерживать свои результаты во время теста, чем учащиеся мужского пола. На рисунке 2 показано, что это имело место для всех стран-участниц, за исключением Казахстана, Миранды (государство в Венесуэле) и Макао (Китай).Однако ни в одном из этих трех исключений гендерная разница не была статистически значимой. Напротив, менее резкое снижение успеваемости студенток было статистически значимым на уровне 5% в 56 из 74 стран-участниц.

Рис. 2

Гендерные различия в поддержании производительности. На рисунке показана оценка гендерных различий в поддержании успеваемости во время теста для каждой страны, участвующей в PISA 2009. Положительные значения указывают на страны, в которых женщины лучше, чем мужчины, могут поддерживать свои результаты во время теста.Планки погрешностей представляют собой доверительные интервалы 95%. Исходные данные представлены в виде файла исходных данных (исследование 1)

Чтобы проиллюстрировать интерпретацию результатов, точечная оценка 0,05 для Ирландии означает, что, учитывая, что учащиеся мужского и женского пола одинаково справляются с первым вопросом теста, вероятность правильный ответ на последний вопрос на 5 процентных пунктов выше у ирландских студенток. Точные оценки гендерных различий по странам и соответствующие им значения p можно найти в дополнительной таблице 1 (двусторонний тест t ).Дополнительная база данных 1 сообщает точные оценки (с соответствующими стандартными ошибками и статистикой t ) для каждого рисунка и таблицы исследования 1, включая рисунок 2.

Вторым шагом и основной целью исследования 1 был анализ гендерные различия в успеваемости в начале и во время теста, как в области, благоприятной для женщин (чтение), так и в области, благоприятной для мужчин (математика и естественные науки).

Оценки для области чтения отображаются на панели (а) рис.3, а области математики и естествознания показаны на панели (b). Мы нанесли точечные оценки и соответствующие 95% доверительные интервалы для каждой страны. Серые линии (с квадратами, которые представляют точечные оценки) представляют доверительный интервал для разрыва между мужчинами и женщинами в начале теста в каждой стране. Черные линии (с точками, которые представляют точечные оценки) представляют доверительные интервалы для разрыва между мужчинами и женщинами с точки зрения способности поддерживать производительность во время теста, а страны упорядочены в соответствии с размером этого показателя.Положительные значения указывают на то, что женщины показали преимущество в рассматриваемой метрике.

Рис. 3

Гендерные различия в начальной успеваемости и в поддержании успеваемости по темам. На рисунках изображены точечные оценки гендерного разрыва в начальных показателях успеваемости и в поддержании успеваемости во время теста для каждой страны, участвующей в PISA 2009, для a чтения и b математики и естественных наук. Положительные значения указывают на то, что гендерный разрыв в пользу женщин.Планки погрешностей представляют собой доверительные интервалы 95%. Исходные данные представлены в виде файла исходных данных (исследование 1)

Если посмотреть на вопросы для чтения (панель (а) на рис. 3), 64 из 74 серых доверительных интервалов являются строго положительными. В соответствии с предыдущими исследованиями, подтверждающими, что женщины лучше умеют читать, чем мужчины, мы обнаружили, что в начале теста они превосходили мужчин в этой области. В то же время учащиеся женского пола смогли лучше удержать свои успехи в чтении в 68 странах.Эта разница была статистически значимой на уровне 5% в 36 странах. По вопросам чтения женщины показали лучшие результаты как в начале теста, так и в поддержании своих результатов во время теста.

В соответствии с предыдущей литературой по гендерному разрыву в математике и естественных науках, для 58 из 74 стран-участниц серые доверительные интервалы строго отрицательны (панель (b) на рис. 3), что указывает на то, что студенты мужского пола опережают студенток. в начальной успеваемости по математике и естественным наукам.Напротив, в большинстве стран черные доверительные интервалы имеют положительные значения, что означает, что студентки лучше справлялись с успеваемостью по математике и естественным наукам во время теста. Точечные оценки имеют положительное значение в 68 странах и статистически значимы на уровне 5% в 41 из них. Числовые оценки по странам и соответствующие значения p можно найти в дополнительной таблице 2 (двусторонний тест t ).

Несмотря на то, что учащиеся мужского пола имели первоначальное преимущество в математике и естественных науках, не было ни одной страны, в которой они могли бы значительно лучше поддерживать свои результаты во время теста.Этот вывод свидетельствует о том, что более длинные когнитивные тесты усугубляют гендерный разрыв в чтении и сокращают его в математике и естественных науках. В соответствии с литературой о гендерном разрыве в математике и естественных науках, в 58 странах учащиеся в начале теста по математике и естественным наукам набрали более низкую статистически значимую степень. Однако, по нашим оценкам, этот гендерный разрыв был полностью компенсирован или даже обращен вспять в более чем 20% этих стран после 2 часов сдачи тестов. Более чем в 50% этих стран студентки уменьшили свое первоначальное неблагополучное положение как минимум наполовину к концу теста.В дополнительной таблице 5 по странам представлен обзор того момента в тесте, в котором женщины преодолели гендерный разрыв в математике и естественных науках.

Проверки устойчивости для исследования 1 доступны в дополнительных примечаниях 1 и 3, дополнительных рисунках. 1–5 и 9–20, а также дополнительные таблицы 11 и 12. Мы показываем, среди прочего, что наши результаты выдерживают использование различных волн PISA (2006–2015 гг.) И различных методов оценки.

Исследование 1: потенциальные детерминанты гендерных различий

Комбинация двух графиков на рис.3 свидетельствует о том, что способность женщин лучше поддерживать работоспособность не соответствует гендерному разрыву, существующему в оцениваемых областях. Это приводит к тому, что мы игнорируем гендерные различия в когнитивных навыках, специфичных для предметной области, или связанные с ними стереотипные угрозы ^38,39,40,41 в качестве объяснения наших результатов. Учитывая обсуждение литературы во Введении, мы рассматриваем следующие три возможных объяснения наших результатов: (i) гендерные различия в некогнитивных навыках; (ii) гендерные различия в стратегиях сдачи тестов; и (iii) гендерные различия в тестах.Мы обсудим каждое из этих объяснений по очереди.

Некогнитивные навыки часто определяются как относительно устойчивые модели мыслей, чувств и поведения, и эта категория включает «личностные качества, цели, характер, мотивацию и предпочтения, которые ценятся на рынке труда, в школе и во многих других областях. ”⁴².

Преимущество PISA заключается в том, что анкеты учащихся используются для построения проверенных показателей некогнитивных навыков учащихся.В частности, рассматриваемые нами меры PISA состоят как минимум из 4 и максимум из 11 отдельных пунктов. Эти показатели были проверены двумя способами: отдельные элементы, лежащие в основе показателей, имеют альфа Кронбаха, значительно превышающую 0,7, а показатели, которые считаются связанными, показывают сильную корреляцию. В техническом отчете каждой волны PISA подробно описывается, как были построены меры, и документируются результаты двух проверок достоверности, описанных выше (см. Главу 16 в справочниках.^43,44,45).

Каждая волна PISA собирает различный набор некогнитивных навыков. Чтобы предоставить нам широкий спектр показателей, мы извлекли проверенные показатели из волн PISA 2006, 2009 и 2012 годов. В частности, мы получили информацию по следующим номерам:

Заинтересованность студентов в каждой конкретной области, например, науке, чтении и математике, с помощью тестов PISA 2006, PISA 2009 и PISA 2012, соответственно;
Мотивация студентов к естественным наукам и математике с помощью тестов PISA 2006 и PISA 2012, соответственно;
Отношение учащихся к школе и обучению с использованием PISA 2009 и PISA 2012;
самооценка и самооценка учащихся (которая отражает убеждения о знании математики) с помощью PISA 2012;
Намерения студентов относительно своего будущего обучения и карьеры с использованием PISA 2006 и PISA 2012; и
Четыре хорошо известных некогнитивных навыка: сознательность, открытость (в решении проблем), невротизм и локус контроля (в математике), полученные с помощью PISA 2012.

Мы проверили, могут ли проверенные меры смягчить гендерные различия, включив их в нашу модель. Например, поскольку было показано, что у девочек более развитое отношение к обучению, вполне возможно, что контроль за этим отношением будет опосредовать гендерные различия. Более подробную информацию об этой методологии можно найти в дополнительном примечании 2, в котором также представлен подробный обзор всех использованных мер.Страновые оценки для всех анализов некогнитивных навыков доступны в дополнительной базе данных 2.

Дополнительная таблица 6 документов для каждого измерения базовых элементов и средней гендерной разницы во всех странах PISA. Для большинства некогнитивных навыков мы обнаруживаем гендерные различия, которые согласуются с предыдущей литературой. Таким образом, наши данные подтверждают, что большинство из вышеперечисленных мер являются возможными кандидатами на роль посредника в выводе исследования 1. Однако обратите внимание, что показатели добросовестности, открытости и внутреннего локуса контроля в наших данных отдают предпочтение студентам-мужчинам, что снижает их вероятно, что эти три конструкции опосредуют наши выводы.Что касается показателей открытости и локуса контроля, это можно объяснить их ориентацией на область решения проблем и математику соответственно. Однако ниже мы рассматриваем альтернативные меры для этих трех конструкций, где мы обнаружили, что гендерные различия благоприятны для женщин.

Наши результаты показывают, что ни один из проверенных показателей не смог устранить гендерный разрыв в поддержании эффективности. Например, студентки сообщили о более высоком интересе к чтению, а учащиеся с более высоким интересом к чтению также смогли лучше поддерживать свои результаты во время теста в 42 странах (статистически значимо на уровне 5%).Однако мы обнаружили, что после учета этого базовые гендерные различия все еще присутствовали и статистически значимы на уровне 5% в 47 странах.

В тех случаях, когда ни одна из проверенных мер не могла опосредовать гендерные различия, можно было бы возразить, что два соответствующих навыка из таксономии Большой пятерки не контролировались, в частности, в отношении уступчивости и экстраверсии. Чтобы частично решить эту проблему, мы взяли два отдельных элемента для этих оставшихся черт («Я хорошо ладлю с большинством моих учителей» за доброжелательность и «Я легко заводю друзей в школе» за экстраверсию).Эти два пункта не предлагали проверенных показателей, но они были лучшими доступными нам прокси. Кроме того, чтобы дополнить проверенные выше меры, мы собрали информацию из элементов, которые измеряют открытость и локус контроля. Поскольку PISA не использует эти элементы для построения проверенных показателей, мы выполнили анализ главных компонентов и использовали его первый компонент как меру двух навыков. В дополнительной таблице 7 представлен обзор всех этих отдельных элементов и показано их сходство с некоторыми элементами, используемыми в утвержденных шкалах, например, в инвентаризации большой пятерки ⁴⁶.В последнем столбце дополнительной таблицы 7 указано, что студентки сообщают о более высоком уровне согласия, открытости (по одному из трех пунктов) и внутреннего локуса контроля. Точно так же, как и раньше, эти меры не повлияли на гендерные различия. Однако, поскольку эти прокси не подтверждены, мы не исключаем возможность того, что этот вывод был вызван отсутствием надлежащих мер.

Все предыдущие измерения были основаны на самоотчетах. Недавнее исследование предложило и подтвердило критерий добросовестности, не связанный с самооценкой: небрежное поведение при ответах в опросе ^47,48,49.После этого исследования мы вычисляем долю вопросов, на которые учащиеся не ответили в анкете, чтобы построить показатель добросовестности, не связанный с самооценкой. Наши данные показывают, что студентки проявляют более высокий уровень сознательности по этому показателю; доля вопросов, на которые студенты не ответили, была примерно на 0,9 процентных пункта ниже для женщин (значение p = 0,00, двусторонний тест t ).Как и раньше, мы обнаружили, что эта мера не может объяснить гендерные различия, что дополнительно подтверждает выводы, приведенные выше.

Вторым объяснением наших результатов могут быть гендерные различия в стратегиях сдачи тестов. Мы определяем стратегии прохождения теста как любую причину, которая заставляет учащегося отвечать на вопросы в порядке, отличном от порядка, предложенного тестом. Например, некоторые учащиеся могут быть более склонны сначала быстро взглянуть на каждый вопрос теста, а затем ответить на вопросы, которые, по их мнению, просты.Мы повторили базовый анализ с данными последней волны PISA (2015 г.). В этой волне тест проводился на компьютере в 58 странах, и навигация между блоками вопросов была ограничена. Таким образом, мы могли быть уверены, что позиция блока вопроса в тесте была фактической позицией, в которой на блок был дан ответ. Наши результаты показывают, что гендерные различия для этого анализа очень похожи; следовательно, мы можем не учитывать возможность того, что стратегии сдачи тестов являются важным фактором, определяющим гендерные различия.Более подробная информация об этом анализе и его результатах представлена в дополнительном примечании 2 и дополнительном рис. 6.

Мы продолжим анализ роли тестовых усилий и мотивации тестирования в более общем плане. Компьютерный характер PISA 2015 позволил нам проанализировать две прокси для усилий: время, затраченное на вопрос, и количество действий на вопрос. Время, затрачиваемое на вопрос, измеряется в минутах, в то время как количество действий на вопрос представляет собой составную меру количества щелчков, двойных щелчков, нажатий клавиш и событий перетаскивания / перетаскивания.Интерфейс PISA предоставляет некоторые инструменты для генерации ответа, например, калькулятор. Этот факт позволяет нам рассматривать количество действий как показатель усилий по тестированию. В соответствии с тем, что это мера усилий, в 48 из 58 стран мы обнаружили статистически значимую положительную корреляцию между количеством действий и правильным ответом на вопрос. Что касается времени, более способным студентам обычно требуется больше времени для выполнения теста ⁵⁰.

Мы изучаем гендерные различия в эволюции этих входных данных во время теста, чтобы проверить, смогли ли студентки лучше сохранять свои усилия во время теста.Панель (а) на рис. 4 показывает, что время, потраченное на вопрос во время теста, не показало очевидной закономерности между полами. В зависимости от страны студентки или студенты мужского или женского пола быстрее сокращали время, затрачиваемое на ответ, при этом большинство оценок было статистически незначимым. Панель (b) на рис. 4 показывает, что для большинства стран количество действий на вопрос во время теста уменьшалось для женщин быстрее, чем для мужчин. Подобно анализу некогнитивных навыков, описанному выше, дополнительный рис.В 7 документах говорится, что гендерные различия можно было контролировать для этих двух прокси для усилий.

Рис. 4

Гендерные различия в поддержании времени, потраченного на вопрос, и количества действий на вопрос. На рисунках показаны оценки гендерного разрыва в поддержании времени, затраченного на вопрос, и b количества действий на каждый вопрос для каждой страны, участвующей в PISA 2015. Положительные значения указывают на то, что гендерный разрыв в пользу женщин. Планки погрешностей представляют собой доверительные интервалы 95%.Исходные данные представлены в виде файла исходных данных (исследование 1)

В свете этих результатов гендерные различия в способности поддерживать производительность, похоже, не связаны с различиями во входных данных, используемых для предоставления правильных ответов (т. Е. -конкретные когнитивные способности, время, потраченное на вопрос, или действия, предпринятые для ответа на вопрос), а скорее за счет эффективности умственного процесса, который переводит эти входные данные в правильный ответ. Хотя мы не можем эмпирически проверить эту гипотезу с доступными данными, она согласуется с существованием гендерного различия, которое возникает при рассмотрении временного измерения производительности: скука.Было обнаружено, что у мужчин более высокий уровень скуки при длительной деятельности, что может привести к снижению работоспособности через некоторое время после сдачи теста. ^{51,52,53,54,55,56}. Мы уточняем это объяснение в конце Дополнительного примечания 2, где Дополнительный рисунок 8 и Дополнительная таблица 8 документируют некоторые убедительные доказательства в пользу этого объяснения.

В целом, мы не можем предоставить четких данных о важных детерминантах гендерных различий в способности поддерживать производительность.Хотя наши результаты исключают важность стратегий сдачи тестов и многих некогнитивных навыков, возможно, соответствующие навыки не были (должным образом) измерены PISA. Более того, наши данные не позволяют напрямую проверить гипотезу, связанную со скукой. Мы пришли к выводу, что эта тема остается открытой для будущих исследований.

Исследование 2

Результаты исследования 1 предполагают, что более длинные тесты могут уменьшить гендерный разрыв в математике, тогда как более короткие тесты могут его усугубить. Мы проверяем этот вывод, используя существующий набор данных от Lindberg et al.⁹. Они собрали информацию об успеваемости мужчин и женщин на 441 тесте по математике, чтобы провести метаанализ гендерных различий в успеваемости по математике ⁹. Мы смогли собрать количество вопросов для 203 из 441 теста в этом наборе данных, которые мы использовали в качестве прокси для длины теста. Более подробная информация о наборе данных и методологии исследования 2 представлена в разделе «Методы».

Таблица 1 показывает оценки OLS регрессии стандартизированного математического гендерного разрыва на константу и количество вопросов в тесте.Это подтверждает, что более длинные тесты связаны с меньшим гендерным разрывом в математике. Столбец (1) показывает, что самцы выполняют короткие тесты примерно на 0,2 стандартных отклонения лучше, чем самки. Однако женщины равны мужчинам, если в тесте содержится 125 вопросов. Столбец (2) показывает, что этот результат устойчив для исключения экстремального теста с 240 вопросами. Хотя в этих двух столбцах напрямую используются данные исходного исследования ⁹, мы также сами собрали информацию об успеваемости студентов мужского и женского пола на тестах.В столбцах (3) и (4) мы видим, что результаты устойчивы к нашему собственному расчету математического гендерного разрыва и снижению веса до половины для исследований (наблюдений), которые мы закодировали иначе, чем Lindberg et al. . ⁹. Дополнительное примечание 4 и дополнительная таблица 9 свидетельствуют о том, что наши результаты исследования 2 устойчивы к дополнительным проверкам.

Таблица 1 Взаимосвязь между гендерным разрывом в математике и количеством вопросов

То, что более длинные тесты сокращают гендерный разрыв в математике, также можно объяснить гендерными различиями в выполнении тестов в условиях нехватки времени ³⁶.Как показано во введении, изменение времени тестирования в Оксфордском университете было сформулировано в следующих терминах: ³⁷. Однако, в отличие от случая Оксфорда, результаты исследования 2 вряд ли можно объяснить сокращением временных ограничений. Чтобы убедиться в этом, обратите внимание, что прокси, который мы рассматривали для длины теста, был количеством вопросов, и увеличение количества вопросов в тесте не обязательно ослабляет давление времени. Результаты исследования 2 можно отнести к сокращению нехватки времени, если бы увеличение количества вопросов сопровождалось более чем пропорциональным увеличением времени тестирования.Мы также собрали информацию о максимальном времени для завершения теста и обнаружили, что это не относится к нашим данным. Взяв натуральный логарифм и выполнив OLS-регрессию максимального времени завершения теста по количеству вопросов, мы заметим, что увеличение количества вопросов на 1% связано с увеличением времени тестирования на 0,25% ( p значение = 0,03, двусторонний t тест). Это означает, что доступное время тестирования увеличивается меньше, чем пропорционально количеству вопросов.Таким образом, временное давление, вероятно, будет выше на тестах с большим количеством вопросов, что делает более высокую способность женщин поддерживать производительность более вероятным объяснением результатов исследования 2.

Дополнительная поддержка в пользу этого объяснения возникает из сравнения результатов исследования 1 и исследования 2, которые мы документируем в дополнительном примечании 4 и в дополнительной таблице 10. В частности, мы показываем, что взаимосвязь между математическим гендерным разрывом и продолжительностью теста в исследовании 2 сильно присутствует в странах Европы, Австралии и других странах. Ближний Восток и вообще отсутствует в азиатских странах.Затем мы подтверждаем, что гендерные различия в исследовании 1 имитируют эту модель, где гендерные различия меньше в азиатских странах.

Примеры аналитических рассуждений | Приемный совет юридической школы

В этом вопросе вас просят выбрать условие, которое, если оно будет заменено третьим условием в отрывке (повторяется ниже), будет иметь тот же эффект, что и исходное условие.

Третье условие: Уход за мотоциклом должен производиться раньше, чем стирка.

В этом случае вы можете сделать вывод, что правильный вариант ответа (C):

Четвертое условие отрывка говорит вам, что обслуживание мотоцикла должно производиться либо непосредственно до, либо сразу после бега трусцой. То есть M и J должны быть упорядочены как блок, MJ или JM, по отношению к другим четырем действиям. Таким образом, если, как указано в исходном третьем условии, M должен быть раньше, чем L, то мы знаем, что J также должен быть раньше, чем L.И наоборот, если в соответствии с новым условием в выборе ответа (C), J должен быть раньше, чем L, то мы знаем, что M также должен быть раньше, чем L. Короче говоря, третье условие и выбор ответа (C) имеют ровно тот же эффект. Следовательно, вариант ответа (C) правильный.

Другой способ подойти к этому типу вопросов — попытаться исключить все варианты неправильных ответов. При таком подходе вы хотите исключить любой вариант ответа, который имеет одно из следующих значений:

исключает исходы, допускаемые исходным условием
допускает исходы, которые исключает исходное условие

Давайте посмотрим, как этот подход позволит нам исключить варианты ответов (A), (B), (D) и (E).

Рассмотрите условие, представленное в варианте ответа (A):

(A) Стирка должна быть одним из последних трех видов деятельности.

Сначала мы можем спросить, исключает ли это условие результаты, которые допускает исходное третье условие. Чтобы ответить на этот вопрос, мы должны просто определить, есть ли результат, допускаемый исходным третьим условием наряду с другими условиями, в которых стирка является одним из первых трех действий. Вот такой результат:

Поскольку исходное третье условие допускает такой результат, а условие в выборе ответа (A) — нет, вариант ответа (A) не может быть правильным.

Рассмотрите вариант ответа (B):

(B) Стирка должна производиться непосредственно перед или сразу после бега трусцой.

Этот результат, хотя и разрешен исходным третьим условием, будет исключен альтернативным условием, указанным в выборе ответа (B). Таким образом, вариант ответа (B) не может быть правильным.

Далее рассмотрите вариант ответа (D):

(D) Стирка должна быть произведена раньше, чем обрезка живой изгороди.

Опять же, мы хотим сначала определить, исключает ли это новое условие результаты, которые допускает исходное третье условие. Чтобы ответить на этот вопрос, мы должны просто определить, существует ли хотя бы один результат, разрешенный исходным третьим условием, наряду с другими условиями, при которых стирка происходит не раньше, чем обрезка живой изгороди.Один из таких исходов был дан непосредственно выше: поскольку L не раньше, чем H в этом исходе, он будет исключен условием выбора ответа (D). Итак, выбор ответа (D) исключает исход, который позволяет исходное третье условие, и, следовательно, (D) не может быть правильным выбором ответа.

Наконец, рассмотрите вариант ответа (E):

(E) Стирать нужно раньше, чем бег трусцой.

Опять же, мы хотим сначала определить, исключает ли наличие этого нового условия результаты, которые разрешены, когда выполняется исходное третье условие.Чтобы ответить на этот вопрос, мы должны просто определить, существует ли хотя бы один результат, разрешенный исходным третьим условием, наряду с другими условиями, при которых стирка происходит не раньше, чем бег трусцой. Один из таких исходов был приведен выше: поскольку L не раньше, чем J в этом исходе, он будет исключен условием, представленным в выборе ответа (E). Итак, выбор ответа (E) исключает исход, который позволяет исходное третье условие, и, следовательно, (E) не может быть правильным выбором ответа.

В итоге, варианты ответов (A), (B), (D) и (E) могут быть исключены, потому что в каждом случае условие — это такое, которое исключает исходы, которые допускает исходное условие.Для этого конкретного вопроса не было необходимости рассматривать, можно ли исключить какой-либо из вариантов, потому что они допускали результаты, которые исключались исходным условием.

Этот вопрос был средней сложности, исходя из количества испытуемых, которые правильно ответили на него, когда он появился на LSAT. Наиболее часто выбираемыми неправильными вариантами ответов были ответ (A) и ответ (B).

Надежность и действительность

ИЗУЧЕНИЕ НАДЕЖНОСТИ В АКАДЕМИЧЕСКОЙ ОЦЕНКЕ

Авторы Колин Фелан и Джули Рен, помощники выпускников, UNI Office of Academic Assessment (2005-06)

Надежность — это степень, в которой инструмент оценки обеспечивает стабильную и стабильные результаты.

Виды надежности

Надежность повторных испытаний — это мера надежности, полученная путем проведения одного и того же теста дважды в течение период времени для группы лиц. Результаты за время 1 и время 2 затем можно скоррелировать, чтобы оценить тест на стабильность по сравнению с время.

Пример: Тест, предназначенный для оценки успеваемости студентов по психологии, можно сдать группа студентов дважды, вторая администрация, возможно, придет через неделю после первого.Полученный коэффициент корреляции будет указывать на стабильность результатов.

Надежность параллельных форм является мерой надежности, полученной путем администрирования различных версий инструмент оценки (обе версии должны содержать элементы, которые проверяют одинаковые конструкция, навыки, база знаний и т. д.) одной и той же группе лиц. Затем оценки двух версий можно сопоставить, чтобы оценить согласованность результатов в альтернативных версиях.

Пример: Если вы хотите оценить надежность оценки критического мышления, вы можете создать большой набор элементов, относящихся к критическому мышлению и затем случайным образом разделите вопросы на два набора, которые будут представлять параллельные формы.

Надежность между экспертами — это мера надежности, используемая для оценки степени, в которой разные судьи или оценщики соглашаются в своих оценочных решениях.Межэкспертная надежность полезно, потому что наблюдатели не обязательно интерпретируют ответы на так же; оценщики могут не согласиться с тем, насколько хорошо те или иные ответы или материалы продемонстрировать знание оцениваемого конструкта или навыка.

Пример: Надежность между экспертами может использоваться, когда разные судьи оценка степени соответствия художественных портфелей определенным стандартам. Надежность между экспертами особенно полезна, когда можно принимать во внимание суждения. относительно субъективно.Таким образом, использование этого типа надежности, вероятно, быть более вероятным при оценке художественных работ, чем при решении математических задач.

Надежность внутренней согласованности мера надежности, используемая для оценки степени, в которой разные элементы теста, исследующие одну и ту же конструкцию, дают аналогичные результаты.

Среднее межпозиционное корреляция — это подтип надежности внутренней согласованности.это полученный путем взятия всех элементов теста, которые проверяют одно и то же построить (например, понимание прочитанного), определяя корреляцию коэффициент для каждой пары элементов, и, наконец, принимая среднее всех этих коэффициентов корреляции. Этот последний шаг дает среднюю корреляцию между пунктами.

Надежность при разделении половин еще один подтип надежности внутренней согласованности.Процесс получение половинной надежности начинается с разделения пополам всех элементы теста, которые предназначены для изучения той же области знаний (например, Вторая мировая война), чтобы сформировать два набора предметов. Модель весь тест проводится группе лиц, всего вычисляется оценка для каждого набора, и, наконец, надежность разделения половин получается путем определения корреляции между двумя полными наборами оценки.

Срок действия относится к тому, насколько хорошо тест измеряет то, что он должен измерять.

Почему это необходимо?

Хотя надежность необходима, она сама по себе не достаточно. Чтобы тест был надежным, он также должен быть действительным. Для Например, если ваши весы отклонены от нормы на 5 фунтов, ваш вес будет считываться каждый день с помощью превышение 5 фунтов. Шкала надежна, потому что она неизменно показывает одно и то же. веса каждый день, но это недействительно, потому что оно добавляет 5 фунтов к вашему истинному весу. Это неверный показатель вашего веса.

Типы действия

Пример : Если мера искусства признательность создается, все предметы должны быть связаны с разными компоненты и виды искусства.Если вопросы касаются исторического времени периоды, без ссылки на какое-либо художественное движение, заинтересованные стороны не могут быть мотивированы приложить все усилия или инвестировать в эту меру, потому что они Не верю, что это истинная оценка художественной оценки.

2. Срок действия конструкции используется, чтобы гарантировать, что мера действительно измерять то, что он предназначен для измерения (т. е. конструкцию), а не другие переменные. Использование группы экспертов, знакомых с конструкцией, — это способ который может быть оценен этим типом достоверности.Эксперты могут осмотреть предметы и решить, что этот конкретный элемент предназначен для измерения. Студенты могут быть участвуют в этом процессе, чтобы получить их отзывы.

Пример : исследования женщин Программа может разрабатывать кумулятивную оценку обучения по основной специальности. Вопросы написаны со сложной формулировкой и формулировкой. Это может вызвать тест непреднамеренно становится тестом на понимание прочитанного, а не тест женских исследований. Важно, чтобы мера действительно оценивала предполагаемая конструкция, а не посторонний фактор.

3. Срок действия по критерию равен используется для прогнозирования будущих или текущих показателей — коррелирует результаты испытаний с еще один интересующий критерий.

Пример : Если физическая программа разработал меру для оценки совокупного обучения студентов по основной специальности. Новый показатель может быть соотнесен со стандартизированным показателем способностей в эта дисциплина, например полевой тест ETS или предметный тест GRE. Выше соотношение между установленной мерой и новой мерой, тем больше веры заинтересованные стороны могут иметь в новом инструменте оценки.

Пример : При разработке рубрики по истории можно было оценить знания студентов по дисциплине. Если мера может предоставить информацию о том, что учащимся не хватает знаний в определенных области, например Движение за гражданские права, тогда этот инструмент оценки предоставление значимой информации, которая может быть использована для улучшения курса или программные требования.

5. Срок действия выборки (аналогично достоверность содержания) гарантирует, что мера охватывает широкий диапазон областей в рамках исследуемой концепции.Не все можно покрыть, поэтому предметы необходимо быть отобранным со всех доменов. Это может потребоваться выполнить с помощью панели экспертов, чтобы обеспечить адекватную выборку из области содержания. Кроме того, панель может помочь ограничить предвзятость экспертов (т. Е. Тест, отражающий то, что человек лично считает, что это наиболее важные или актуальные области).

Пример : При проектировании оценка успеваемости на театральном факультете, недостаточно покрывают только вопросы, связанные с актерским мастерством.Другие области театра, такие как освещение, звук, должны быть включены все функции режиссеров. Оценка должен полностью отражать область содержимого.

Убедитесь, что ваши цели и задачи четко определены и введены в действие. Ожидания студентов должны быть записанный.
Сопоставьте свою меру оценки с ваши цели и задачи. Кроме того, пусть тест будет рассмотрен преподавателями. в других школах, чтобы получить обратную связь от посторонней стороны, которая вложил в инструмент.
Вовлекайте студентов; иметь учащиеся просматривают экзамен на предмет проблемных формулировок или других трудности.
Если возможно, сравните свои измерения с другими показателями или данными, которые могут быть доступны.

Список литературы

Американские исследования в области образования Ассоциация, Американская психологическая ассоциация, &

Национальный Совет по измерениям в образовании. (1985). Стандарты образовательных и психологическое тестирование . Вашингтон, округ Колумбия: Авторы.

Cozby, P.C. (2001). Измерение Концепции. Методы поведенческих исследований (7 ^{-е изд.}).

Калифорния: Издательская компания Мэйфилд.

Кронбах, Л. Дж. (1971). Проверка теста. В Р. Л. Торндайке (Ред.). Образовательный

Измерение (2-е изд.). Вашингтон, округ Колумбия: Американский совет по образованию.

Москаль Б.М., Лейденс Дж. А.

Тест возрастающей трудности дж. Равена

Методика Прогрессивной матрицы ДЖ. Равена для тестирования и развитие уровня интеллекта (стр. 5 из 5)

Прогрессивные матрицы Дж. Равена. Психология общих способностей

Проблема способностей. Основные проблемы психологии способностей

Прогрессивные матрицы Равена это

ПРОЕКТИВНЫЕ МЕТОДИКИ И ПСИХОФИЗИОЛОГИЧЕСКИЕ МЕТОДИКИ). РАЗНОВИДНОСТИ ТЕСТОВ.

Ключ для формы В.

Написание хороших тестовых вопросов с множественным выбором | Центр обучения

Создание эффективного стержня

Создание эффективных альтернатив

Дополнительные инструкции

Рекомендации по написанию заданий с множественным выбором, которые проверяют мышление высшего порядка

Дополнительные ресурсы

Item Response Theory | Общественное здравоохранение Колумбии

Обзор

Описание

Литература

Учебники и главы

Методологические статьи

Заявочные статьи

Программное обеспечение

Веб-сайты

Курсы

Стандартизированное тестирование: справедливо или нет?

Аннотация

Введение

Определение

История

Плюсы и минусы стандартизированного тестирования

Ситуационные / экологические факторы

Личные / эмоциональные факторы

Требование к разбросу по сортам

Заключение

Список литературы

3 Обзор психологического тестирования | Психологическое тестирование в службе определения инвалидности

женщин демонстрируют более стабильную производительность во время сдачи теста, чем мужчины.

Исследование 1: исходные результаты

Исследование 1: потенциальные детерминанты гендерных различий

Исследование 2

Примеры аналитических рассуждений | Приемный совет юридической школы

Надежность и действительность

Добавить комментарий Отменить ответ

Рубрики