Надежность это в психологии определение: надежность — это… Что такое надежность?

Содержание

Определение надёжности теста

Занятие. Определение надёжности теста
Вводные замечания
Надёжность – это психометрическая характеристика строго-формализованной психодиагностической методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов. Надёжность теста – это характеристика того, в какой степени выявленные у испытуемых различия по тестовым результатам являются отражением действительных различий в измеряемых свойствах и в какой мере они могут быть приписаны случайным ошибкам.

В психометрике термин надёжности имеет два значения: надёжность по внутренней согласованности (надёжность эквивалентных половин теста) и надёжность ретестовая.
1. Надёжность эквивалентных половин теста. Вычисляется корреляция результатов по двум эквивалентным частям теста, полученных после процедуры расщепления (например, на чётные и нечётные задания в тесте Равена).

Этот тип коэффициента надёжности называется коэффициентом внутренней согласованности.
2. Ретестовая надёжность – степень согласованности результатов теста, получаемых при первичном и повторном его применении на одних и тех же испытуемых, при условии, что психологические характеристики испытуемых не изменились (так, если выборка включает студентов, то при определении надёжности теста тревожности оба испытания следует проводить в одинаковых условиях: не допускается, например, проводить одно из испытаний в период экзаменационной сессии). Этот тип надёжности характеризует устойчивость методики. Интервал должен быть не менее месяца. Вычисляется с помощью коэффициента корреляции показателей при первичном и повторном обследовании (ретестовая надёжность считается удовлетворительной при величине коэффициента корреляции не менее 0,7).

 

Порядок работы

  1. В электронных таблицах Excel создать файл под своей фамилией и скопировать в него данные из файла ЛР2. xls.
  2. Определить количество испытуемых, правильно выполнивших каждое задание теста. Для этого выделить ячейку под столбцом с результатом выполнения 1 задания, выбрать формулу СЧЁТЕСЛИ (в разделе Статистические), указать в качестве диапазона первый столбец, а в качестве условия – =1. Если всё выполнено правильно, то результат вычислений (подсчёт количества единиц в столбце) будет равен 25. Протянув за нижний квадратный маркер в ячейке, распространить указанные вычисления на все столбцы.
  3. Вычислить индекс трудности каждого задания по формуле,
    I =1- Т/N , где Т – число испытуемых, правильно выполнивших задание, N – общее число испытуемых. Сделать вывод о работе принципа прогрессивности, заложенного автором теста.
  4. Выделить цветом все чётные столбцы и скопировать полученный результат два раза по горизонтали с интервалом 2 столбца. В полученных копиях удалить чётные (нечётные) столбцы.
  5. Вычислить результативность выполнения испытуемыми каждой половины теста. Для этого в каждой таблице вычислить сумму элементов в строке.
  6. Вычислить дисперсии в множествах результатов выполнения каждой половины теста. Для этого использовать функцию ДИСП. Произвести оценку равенства дисперсий по критерию Фишера:

7. Сопоставить эмпирическое значение критерия Фишера с критическими и сделать вывод о равенстве дисперсий.

8. Если дисперсии обеих частей теста равны, то для вычисления надёжности можно использовать формулу Спирмена-Брауна. Для этого сначала вычислить коэффициент корреляции Пирсона между половинами теста, используя для этого функцию КОРРЕЛ. Полученное значение подставить в формулу

10. В исходной таблице представлены результаты первичного (столбец Σ1) и повторного (столбец Σ2) выполнения школьниками теста Равена. Для определения коэффициента ретестовой надёжности вычислить коэффициент корреляции Спирмена между этими множествами данных.
11. Сделать выводы. В отчёт включить полученное значение коэффициента корреляции.

Источник: Леонова Е. В. Эмпирические методы психологического исследования: Учебное пособие. – М.: НИЯУ МИФИ, 2014. – 324 с.

Надежность теста | Мир Психологии

НАДЕЖНОСТЬ ТЕСТА

Надежность теста (англ. reliability of test) — в статистическом смысле — постоянство, устойчивость результатов, получаемых с его помощью.

Надежность теста определяется путем установления корреляций между результатами первого и повторного применения теста (коэффициент надежности теста) или — сопоставления данных, полученных при проведении теста, с результатами применения эквивалентного теста. См. Надежность измерения, психодиагностика. (В.И. Лубовский)

Психологический словарь. А.В. Петровского М.Г. Ярошевского

Надежность теста — один из критериев качества теста (см. тестирование), относящийся к точности психологических измерений. Чем больше надежность теста, тем относительно свободнее он от погрешностей измерения. При одном из подходов Н. т. рассматривается как устойчивость (стабильность) результатов при повторном тестировании. При другом подходе Надежность теста рассматривается как проявление степени эквивалентности двух одинаковых по форме и цели (параллельных) тестов.

Определение надежность теста может быть связано и с понятием внутренней состоятельности теста. Это выражается в расчленении теста на части с последующим сопоставлением результатов частей. Надежность теста определяется также методами дисперсионного и факторного анализа.

Словарь конфликтолога. Анцупов А.Я., Шипилов А.И.

Надежность теста — один из критериев качества теста, относящийся к точности психологических измерений. Чем больше надежность теста, тем относительно свободнее он от погрешностей измерения. При одном из подходов Н. т. рассматривается как устойчивость (стабильность) результатов при повторном тестировании. При другом подходе Н. т. – проявление степени эквивалентности двух одинаковых по форме и цели (параллельных) тестов.

Определение надежность теста также связано с понятием внутренней состоятельности теста. Это выражается в расчленении теста на части с последующим сопоставлением результатов частей. Надежность теста определяется также методами дисперсионного и факторного анализа. В конфликтологии в основном используются психологические тесты (тест К. Томаса, Т. Лири, модульный социотест и др.). Проблема надежности теста является частью более широкой проблемы – надежности методики. Надежность – это устойчивость методики к погрешностям измерения: конкретной ситуации тестирования, особенностям тестируемых, уровню подготовленности исследователя и т.п.

Неврология. Полный толковый словарь. Никифоров А.С.

нет значения и толкования слова

Оксфордский толковый словарь по психологии

нет значения и толкования слова

предметная область термина

 

назад в раздел : словарь терминов  /  глоссарий  /  таблица

Надежность теста

Надежность теста один из критериев качества теста, относящийся к точности психологических измерений.

Чем больше Надежность теста, тем относительно свободнее он от погрешностей измерения. Надежность теста рассматривается при одном подходе: как устойчивость (стабильность) результатов при повторном тестировании; при другом, как проявление степени эквивалентности двух одинаковых по форме и цели (параллельных) тестов.

Надежность теста

Надежность теста — фундаментальная характеристика теста, которая показывает в какой степени стабильны результаты тестирования при неоднократном обследовании. Надежность теста может определяться путем повторного тестирования (через строго определенный отрезок времени) и вычисления коэффициента корреляции между результатами первого и повторного тестирования. Надежность теста может определяться и путем тестирования с помощью нескольких вариантов одного и того же теста, деления теста на две половины и т.д. Надежность результатов тестирования зависит не только от качества самого теста, но и от процедуры проведения тестирования (она должна быть абсолютно идентичной в первом и во втором случае), социально-психологической однородности выборки (н.

т. будет различной для детей, мужчин, женщин, солдат первого года – службы, старослужащих солдат и т.д.). И может получиться, что будучи надежным для одной группы людей, тест окажется ненадежным для другой, результаты тестирования в последнем случае будут неверны. Таким образом, н.т., выражая степень неточности, возможность ошибки, возникающей неизбежно при любом тестировании, заставляет искать пути уменьшения этой ошибки, более конкретного, целеустремленного применения теста. Надежность лучших тестов составляет 0,8 — 0,9.

Надежность эксперимента

устойчивость результатов эксперимента при его проведении второй, третий, четвертый и т.д. раз.

Добиться объективности психологического теста можно при выполнении следующих условий:

1)         единообразие процедуры проведения теста для полу­чения сравнимых с нормой (см. ниже) результатов;

2)         единообразие оценки выполнения теста;

3)         определение нормы выполнения теста для сопоставления с ними показателей, полученных в результате обработки данных тес­тирования (см. здесь «тре­тий этап стандартизации»).

Эти три условия называют этапами стандартизации психологического теста.

Этапы стандартизации

На этапе разработки теста, а также любого другого метода проводится процедура стандартизации, которая включает три этапа.

Первый этап стандартизации психологического теста состоит в создании единообразной процедуры тестирования. Она включает определение следующих моментов диагностической ситуации:

1)        условия тестирования (помещение, освещение и др. внешние факто­ры). Очевидно, что объем кратковременной памяти  лучше измерять (например, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раз­дра­жителей, таких как посторонние звуки, голоса и т.д.

2)        Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.). Например, в тесте «10 слов» каждое слово должно предъявляться через определенный интервал времени в секундах.

3)        Наличие стандартного стимульного материала. Например, дос­то­верность полученных результатов существенно зависит от того, предлагаются ли респонденту изготовленные самодельные карты Г.Роршаха или стандартные — с определенной цветовой гаммой и цветовыми оттенками.

4)        Временные ограничения выполнения данного теста. Например, для выполнения теста Равена взрослому респонденту дается 20 минут.

5)        Стандартный бланк для выполнения данного теста. Использование стандартного блан­ка облегчает процедуру обработки.

6)        Учет влияния ситуационных переменных на процесс и результат тестирования. Под переменными подразумевается состояние испы­ту­емого (усталость, пере­напряжение и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования.

7)        Учет влияния поведения диагноста на процесс и результат тестирования. Например, одобрительно-поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка «правильного ответа» и др.

8)        Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тес­тирования, преодолел чувство неизвестности и выработал опре­деленное отношение к тестовой ситуации. Например, если респон­дент уже выполнял тест Равена, то, скорее всего, не стоит предла­гать ему его во второй раз.

Второй этап стандартизации психологического теста состоит в соз­дании единообразной оценки выполнения теста: стандартной интер­претации полученных результатов и предварительной стандартной обра­бот­ки. Этот этап предполагает также сравнение полученных пока­зателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д. (см. ниже).

Третий этап стандартизации психологического теста состоит в определении норм выполнения теста.

Нормы разрабатываются для различных возрастов, профессий, полов и др. Вот некоторые из существующих видов норм:

Школьные нормы — разрабатываются на основе тестов школьных достижений или тестов школьных способностей. Они устанавливаются для каждой школьной ступени и действуют на всей территории страны.

Профессиональные нормы  устанавливаются на основе тестов для разных про­фес­сиональных групп (например, механиков разного про­филя, машинисток и др.).

Локальные нормы устанавливаются и применяются для узких кате­го­рий людей, отличающихся наличием общего- признака — возраста, пола, географического рай­о­на, социо-экономического статуса и др. Например, для теста Векслера на интеллект нормы ограничены возрастными рамками.

Национальные нормы разрабатываются для представителей данной народности, нации, страны в целом. Необходи­мость таких норм определяется конкретной куль­турой, моральными требованиями и традициями каждой нации.

Наличие нормативных данных (норм) в стандартизованных методах психодиагностики является их существенной характеристикой.

Качество информации

Вышла книга автора сайта!

Теоретическая валидизация в социологическом исследовании: Методология и методы

Качество получаемой информации: валидность и надежность

Построение выборки >> Качество информации

Для ученого-практика рассуждать о проблемах качества информации — высший пилотаж. Тебе тоже не помешает кое-что знать об этом.

0 Нажми, если пригодилось =ъ

Ссылка на эту страницу для научных и учебных работ

Дембицкий С. Качество получаемой информации: валидность и надежность [Электронный ресурс]. — Режим доступа: http://soc-research.info/principles/7.html

Традиционно «валидность» является одной из ключевых категорий в анализе эмпирических данных как психологических, так и социологических исследований. В дальнейшем под валидностью будет пониматься степень соответствия результатов исследовательского процесса действительности [Johnston, 1980: р.190-191].
В рамках количественных исследований принято выделять конструктную, внешнюю и внутреннюю валидность. Первая связана с обеспечением правильности измерения, вторая и третья – с выявлением причинно следственных связей в рамках экспериментальных исследований [Lahm, 2007: р. 5173-5175]. Несмотря на то, что Дональд Кэмпбелл в свое время уделил немало внимания всем трем типам валидности [Кэмпбелл, 1996; Campbell and Fiske, 1959], сегодня все еще часто встречаются случаи «межурментизации» понятия валидность, во время которых в ранг ключевой возводится конструктная валидность, интегрирующая в себе очевидную, содержательную, внешнюю и другие виды валидности валидности [Messick, 1995: р. 745]. С точки зрения разработки тестов и других измерительных методик это может звучать логично. Однако в более широком контексте эмпирических исследований «межурментизация» является классическим примером косности, догматизма и нежелания признать очевидное. Такая позиция «оставляет за бортом» даже количественную экспериментальную традицию, не говоря уже о широком спектре подходов качественного толка.
Что касается качественных исследований, то проблема валидности не получила здесь однозначного решения. Вместе с тем, ее состояние полностью отвечает принципу пролиферации, предложенному в ранних работах Феерабента – каждый сможет найти то, что будет отвечать его личной методологической позиции.
Наибольшей известностью пользуется концепция Губы и Линкольн, впервые представленная еще в 1985 году [Miles and Hernandez Jozefowicz-Simbeni, 2010: p. 421-422]. В своей работе они говорят даже не о валидности, а о критериях оценки качества или строгости (rigor) качественных исследований. По мнению Губы и Линкольн, в качественных исследованиях необходимо говорить не о внутренней валидности, а о достоверности (credibility), не о внешней валидности, а о переносимости (transferability), не о надежности, а о функциональной надежности (dependability), наконец не об объективности, а о подтверждаемости (confirmability). Все они характеризуют достоверность (trustworthiness) исследования. Правдоподобие основывается на согласии участников исследования с формулировками, интерпретацией и вообще результатами анализа исследователя. Переносимость относится к способности концептов или конструктов, полученных в ходе исследования, быть применимыми к более широкому социальному контексту. Функциональная надежность имеет отношение к тому насколько правильно выбран тип данных и соответствующие методы их сбора в рамках того или иного качественного проекта. Подтверждаемость переносит «бремя» объективности с исследования на данные. Поэтому исследователь должен сделать все возможное для подтверждения полученных данных.
В еще одной известной работе [Patton, 2002: p. 552] интегральной характеристикой является уже достоверность (credibility), основывающаяся на строгости использования методов (rigorous methods), достоверности самого исследователя (credibility of the researcher) и его философских взглядах относительно особенностей качественного исследования (philosophical belief in the value of qualitative inquiry). Строгость использования методов необходима для получения высококачественных данных, открывающих возможность проведения систематического анализа. Достоверность исследователя основывается на его тренировках, опыте, достижениях и самопрезентации. А его философские взгляды должны включать признание натуралистичного исследования, качественных методов, индуктивного анализа, целенаправленной выборки и целостного мышления.

И даже в таких подходах, где одной из центральных категорией остается валидность, она сопоставляется с другими, центральными с точки зрения качественных исследований, понятиями. Так, в своей работе Максвелл [Maxwell, 1992: p. 285-293] указывает на то, что понимание является более важным понятием, чем валидность. Поэтому типы последней выводятся именно из специфики понимания, присущего качественным исследованиям (типы валидности характеризуют типы понимания). При этом он не считает, что качественный и количественный подходы к валидности являются несопоставимыми. Главное же условие соответствующей интеграции – их правильное понимание в их собственных терминах.
Максвелл выделяет три типа валидности – описательную, интерпретативную и теоретическую. Описательная валидность связана с тем правильно ли исследователь излагает в своей работе то, что он увидел и услышал во время исследования. Это первый и важнейший аспект валидности – неправильное описание поступков и слов людей перечеркнет дальнейшие попытки в достижении понимания изучаемого феномена. Вместе с тем, исследователь не только описывает слова и поступки людей, но объясняет их значение – интерпретирует данные. Отсюда понимание исследователем того, что принято называть перспективой участников исследования (особенности их интенции, восприятия, чувств, убеждений, оценок и т.д.), напрямую связано с интерпретативной валидностью. После того как исследователь достиг понимания на описательном и интерпретативном уровне, он готов перейти к построению теории, позволяющей подняться на более высокий уровень абстракции как в смысле выводов, так и в смысле терминологии. Если на предыдущих этапах исследователь фокусируется на понимании, то здесь он переходит к объяснению, являющемуся его завершающей фазой. Теоретическая валидность, имеющая решающее значение на этом этапе, должна давать оценку двум главным составляющим любой теории – используемым понятиям и взаимоотношениям, существующим между ними. В соответствии с этими двумя аспектами теории можно выделить и два аспекта теоретической валидности – валидность используемых понятий и валидность постулируемых взаимосвязей между ними.
Подход Максвелла представляется наиболее приемлемым в решении проблемы совместной валидизации в рамках качественных и количественных исследований. В этом случае в состав валидности входят такие ее типы: теоретическая, конструктная, внешняя, внутренняя и предсказательная. Теоретическая валидность указывает насколько теоретический конструкт, положенный в основу исследования, соответствует реальному социальному феномену. Конструктная валидность демонстрирует насколько измерительная методика и полученные на ее основе результаты соответствуют теоретическому конструкту. Внешняя валидность связана с тем насколько выборочная совокупность может выступать основой для обобщений в отношении других людей, контекстов и периодов. Внутренняя валидность показывает насколько измерения исследования подтверждают существование связей между переменными, а также насколько такие связи могут быть подтверждением причинно-следственной зависимости между ними. Предсказательная валидность связана с тем насколько теоретическая, внешняя и внутренняя валидности обеспечивают предсказательный потенциал исследования [Дембицкий, 2010].
По большей части достижение теоретической валидности является прерогативой качественного исследования, так как теория, построенная на основе тщательного изучения эмпирического мира, будет гораздо обоснованней, чем теория, основывающаяся на изучении литературы и, тем более, на здравом смысле исследователя. После достижения теоретической валидности можно переходить к решению других задач валидизации в рамках количественной парадигмы.

Категория «надежность» имеет отношение к устойчивости и согласованности полученных результатов. Остановимся на трех основных видах надежности:
А. Ретестовая надежность является характеристикой, показывающей, насколько результаты опроса с помощью конкретной методики меняются с течением времени. Определение ретестовой надежности приемлемо в случаях измерения устойчивых свойст, слабо подверженных изменениям в долгосрочной перспективе. Если соответствующая методика является надежной, то результаты первого и второго опросов должны показать устойчивые результаты. Если же первый и второй опрос согласованы слабо, то методика является ненадежной и не может использоваться в исследованиях. Величина ретестовой надежности определяется с помощью коэффициентов корреляции.
Важно помнить, что использование ретестовой надежности не подходит для тех методик, которые предназначены для измерения характеристик, находящихся в постоянном изменении. В данном случае низкая устойчивость укажет не на недостатки опросного инструмента, а на изменение социальной/психологической ситуации.
Б. Внутренняя надежность показывает, насколько согласованны результаты, полученные с помощью разных индикаторов, измеряющих один признак. Таким образом, этот вид надежности подходит для сложных составных шкал, опирающихся на группу показателей. Высокая внутренняя надежность будет продемонстрирована в том случае, когда результаты показателей изменяются в одном направлении. Одним из главных способов определения внутренней надежности является использование коэффициента Альфа Кронбаха.
Проверка внутренней согласованности необходима, прежде всего, для того, чтобы удостовериться измеряют ли индикаторы методики одно и то же свойство.

В. Надежность кодировки определяется в исследованиях с применением контент-анализа или же в других исследованиях, требующих кодировки текстового материала. Этот вид надежности показывает качество инструкций, служащих руководством при кодировке различных частей текста. Высокая согласованность работы различных кодировщиков говорит о том, что соответствующая инструкция составлена правильно.
Коэффициенты, используемые для определения надежности кодировки, зависят от характера свойств, подлежащих кодировки. Если свойство является количественным, можно использовать один из коэффициентов корреляции. Если же свойство является качественным, то подойдет, например, коэффициент Каппа Кохена.
В зависимости от особенностей исследования необходима проверка тех или иных видов валидности и надежности. В противном случае исследователь рискует получить результаты-артефакты, то есть результаты, порожденные особенностями проведения исследования, а не свойствами изучаемых объектов.

Список использованной литературы
  • default_titleJohnston J., Pennypacker H. Strategies and tactics of human behavioral research. – New Jersey: Erlbaum, 1980. – 210 p.
  • default_titleLahm K. Quantitative validity // The Blackwell Encyclopedia of Sociology / ed. by George Ritzer. — Malden, Oxford, Carlton: Blackwell Publishing, 2007. — P. 5173-5175.
  • default_titleКэмпбелл Д. Модели экспериментов в социальной психологии и прикладных исследованиях. – М.: Социально-психологический центр, 1996. – 392 с.
  • default_titleCampbell D., Fiske D. Convergent and Diskriminant Validation by the Multitrait-multimethod Matrix // Psychological Bulletin. – 1959. – № 2. – Р. 81–105.
  • default_titleMessick S. Validity of Psychological Assessment // American Psychologist. — 1995. — №9. — P. 741-749.
  • default_titleMiles B., Hernandez Jozefowicz-Simbeni D. Naturalistic Inuiry // The Handbook of Social Work Research Methods / ed. by B. Thyer. – Los Angeles; London; New Delhi; Singapore; Washington DC: Sage, 2010. — P. 415-424.
  • default_titlePatton M. Qualitative evaluation and research methods. – Thousand Oaks: Sage, 2002.
  • default_titleMaxwell J. Understanding and Validity in Qualitative Research // Harvard Educational Review. — 1992. — №3. — P. 279-300.
  • default_titleДембицкий С. Теоретическая валидность и смещение данных в социологическом исследовании [Электронный ресурс]. – Режим доступа: http://www.ecsocman.edu.ru/soc-ua/msg/337817.html (обновленный вариант статьи)
  • Show More

Надежность и валидность методов исследования

1. Надежность и валидность методов исследования

Критерии и показатели в оценке методов исследования.
Надежность методов психолого-педагогического исследования во многом
зависит от критериев и показателей, по которым происходит изучение
выбранного для исследования образовательного феномена.
Критерий (от греч. kriterion – средство для суждения) – это признак, на
основании которого производится оценка, определение или классификация
чего-либо.
В диагностике критерием является переменная величина, принимающая разные
значения в различных случаях или в разные моменты времени в рамках одного
случая. Критерии дают возможность судить о состоянии объекта исследования.
Показатель (indicator – то, что доступно восприятию, то, что «показывает»
наличие чего-либо) – это некоторая величина или качество переменной
(критерия), которое может проявляться у конкретного объекта, т.е. это мера
проявления критерия, его количественная или качественная характеристика, по
которой судят о различных состояниях объекта; это внешне хорошо
различимый признак измеряемого критерия. Можно сказать, что показатель
выполняет роль эмпирического индикатора критерия.
Принято считать, что количество критериев должно составлять не менее трех, а
по каждому критерию следует выделять как минимум три показателя. Только
тогда можно говорить о полном отображении объекта и предмета диагностики и
проявлении каждого соответствующего критерия

4. Общие требования к методам исследования

каждая методика должна иметь следующие составляющие:
описание, обеспечивающее ее адекватное использование в
точном соответствии со стандартами: предмет диагностики,
сфера применения, контингент испытуемых, процедура
применения;
подробные
сведения о процедуре разработки методики,
полученных при этом данных о надежности и валидности;
однозначное описание выборки стандартизации и характера
диагностической ситуации в обследовании;
процедура подсчета баллов и интерпретации должна быть
описана с однозначной ясностью, позволяющей получить
идентичные
результаты
при
обработке
одинаковых
протоколов разными пользователями руководства.
Под операционализацией понимается требование, согласно которому при
введении новых научных понятий необходимо четко указывать на конкретные
процедуры, приемы и методы, с помощью которых можно практически
удостовериться в том, что явление, описанное в понятии, действительно
существует.
Операционализация предполагает указание на практические действия или
операции, которые может выполнить любой диагност, чтобы убедиться в том,
что определенное в понятии явление обладает именно теми свойствами,
которые ему приписываются.
Требование верификации означает, что всякое новое понятие, вводимое в
научный оборот и претендующее на получение статуса научного, обязательно
должно пройти проверку на наличие методики экспериментальной
диагностики описанного в нем явления. Качество результатов диагностики при
этом принято оценивать по общепринятым критериям объективности,
надежности, валидности и др.
Объективность
характеризуется
корреляцией
(совпадением
или
согласованностью) между результатами, полученными двумя оценивающими
лицами. Необходимо, чтобы коэффициенты корреляции в этом случае были
близки к единице (r = 1).
Стандартизация – это единообразие процедуры проведения и оценки
выполнения диагностического метода. Стандартизированность в диагностике –
это неизменность заданных вопросов и задач, точность соблюдения
испытуемыми инструкции, а диагностами – способов вычисления и
интерпретации полученных показателей.

7. Надежность метода исследования

Надежность – один из критериев качества результата в
диагностике, относящийся к степени точности и устойчивости
показателей диагностируемого признака. Чем больше
надежность методики, тем свободнее она от погрешностей
измерения.
В самом широком смысле надежность – это характеристика
того, в какой степени выявленные у испытуемых различия по
результатам проведения методики являются отражением
действительных различий в измеряемых свойствах и в какой
мере они могут быть приписаны случайным ошибкам.
Приемы для оценки надежности диагностической методики
1. Прием ретеста, или повторной диагностики, позволяет обработать одни и те же
задания, выполненные одними и теми же испытуемыми в разное время, и
просчитать
взаимосвязь
результатов,
выраженную
в
коэффициенте
самокорреляции.
2. Прием деления пополам – подборка однажды выполненных заданий делится
пополам (например, в первый полутест входят задания с нечетным порядковым
номером, а во второй полутест – с четным), затем устанавливаются результаты
каждого испытуемого по обоим полутестам и вычисляется коэффициент
корреляции между полученными результатами.
3. Прием параллельного теста – для измерения одних и тех же знаний
конструируются два различных набора заданий, которые по своему содержанию
напоминают близнецов; оба параллельных набора заданий предлагаются
непосредственно друг за другом или при удобном случае.
Во всех случаях при коэффициенте корреляции методик r > 0,7 методика считается
надежной.
В тестовой методике принято учитывать три коэффициента надежности:
– коэффициент стабильности, или постоянства, – показатель корреляции между
результатами первого и повторного испытаний одним тестом одной и той же
выборки испытуемых;
– коэффициент эквивалентности, или коэффициент корреляции, результатов
тестирования одного и того же контингента испытуемых с помощью вариантов
одного и того же теста либо разными, но эквивалентными по форме и цели,
тестами;
– коэффициент внутреннего постоянства, или внутренней однородности,
который соответствует корреляции результатов частей теста, показанных
одними и теми же испытуемыми.

10. Валидность метода

исследования и диагностики показывает, в
какой мере измеряется то качество (свойство, характеристика),
для оценки которого он предназначен.
Валидность (адекватность) говорит о степени соответствия
метода своему назначению. Чем ближе раскрывается в
диагностике тот признак, для обнаружения и измерения которого
предназначен метод, тем выше его валидность .
Понятие валидности относится не только к методике, но и к
критерию оценки ее качества, критерию валидности.
Такими критериями могут стать следующие:
– поведенческие показатели – реакции, действия и поступки испытуемого в
различных жизненных ситуациях;
– достижения испытуемого в различных видах деятельности – учебной,
трудовой, творческой и др.;
– самоорганизация, данные, свидетельствующие о выполнении различных
контрольных проб и заданий;
– данные, получаемые при помощи других методик, валидность или связь
которых с проверяемой методикой считается достоверно установленной.
Чем выше коэффициент корреляции методики с критерием, тем выше
валидность.
Виды валидности диагностических методик
1. Теоретическая (концептуальная) валидность определяется по соответствию
показателей исследуемого качества, получаемых с помощью данной методики,
показателям, получаемым посредством других методик (с показателями которых
должна существовать теоретически обоснованная зависимость). Теоретическую
валидность проверяют по корреляциям показателей одного и того же свойства,
получаемым при помощи разных методик, связанных с одной и той же теорией.
2. Эмпирическая (прагматическая) валидность проверяется по соответствию
диагностических показателей реальному жизненному поведению, наблюдаемым
действиям и реакциям испытуемого. Если, например, с помощью некой методики
мы оцениваем черты характера у данного испытуемого, то применяемая
методика будет считаться практически или эмпирически валидной тогда, когда
мы установим, что данный человек ведет себя в жизни именно так, как
предсказывает методика, т.е. в соответствии с имеющейся у него чертой
характера
3. Внутренняя валидность означает соответствие содержащихся в методике
заданий, субтестов, суждений и т.п. общей цели и замыслу методики в целом.
Она считается внутренне невалидной или недостаточно внутренне валидной
тогда, когда все или часть включенных в нее вопросов, заданий или субтестов
измеряют не то, что требуется от данной методики.
4. Внешняя валидностъ – это примерно то же самое, что и эмпирическая
валидность, с той лишь разницей, что в данном случае речь идет о связи между
показателями методики и наиболее важными, ключевыми внешними признаками, относящимися к поведению испытуемого.
5. Очевидная валидность описывает представление о методе, сложившееся у
испытуемого, т.е. это валидность с точки зрения испытуемого. Методика должна
восприниматься обследуемым как серьезный инструмент познания его личности,
чем-то схожий с медицинским диагностическим инструментарием.
6. Конкурентная валидность оценивается по корреляции разработанной
методики с другими, валидность которых относительно измеряемого параметра
установлена.
7. Прогностическая валидность устанавливается с помощью корреляции
между показателями методики и некоторым критерием, характеризующим
измеряемое свойство, но в более позднее время.
8. Инкрементная валидность имеет ограниченное значение и относится к
случаю, когда один тест из батареи тестов может иметь низкую корреляцию с
критерием, но не перекрываться другими тестами из этой батареи. В этом
случае данный тест обладает инкрементной валидностью. Это может быть
полезно при проведении профотбора с помощью психологических тестов.
9. Дифференциальная валидностъ может быть проиллюстрирована на
примере тестов интересов. Тесты интересов обычно коррелируют с
академической успеваемостью, но по-разному для разных дисциплин.
Значение дифференциальной валидности, так же как и инкрементной,
ограничено.
10. Содержательная валидность определяется через подтверждение того, что
задания методики отражают все аспекты изучаемой области поведения.
Содержательную валидность часто называют «логической валидностью» или
«валидностью по определению». Она означает, что методика валидна по
мнению специалистов. Обычно она определяется у тестов достижений. На
практике для определения содержательной валидности подбираются эксперты,
которые указывают, какая область (области) поведения наиболее важна.
11. Конструктная валидность демонстрируется полным, насколько это
возможно, описанием переменной, для измерения которой предназначается
методика. Конструктная валидность включает в себя все подходы к
определению валидности, которые были перечислены выше.
Существует прямая связь валидности с надежностью. Методика с низкой
надежностью не может обладать высокой валидностью, поскольку неверен
измерительный инструмент и нестабилен тот признак, который он измеряет.

16. Дополнительные требования к методам исследования

Точность
методики отражает ее способность тонко
реагировать на малейшие изменения оцениваемого свойства,
происходящие в ходе эксперимента.
Однозначность методики характеризуется тем, в какой степени
получаемые с ее помощью данные отражают изменения
именно и только того свойства, для оценивания которого
данная методика применяется.
Репрезентативность означает, что свойства более широкого
множества объектов представлены в свойствах подмножества.
Диагностическая
ценность методики определяется путем
проведения предварительного опыта с так называемой
нейтральной группой, результаты которого в дальнейшей
диагностической работе не используются.

Тема презентации надежность и валидность психодиагностических методик Выполнила

Тема презентации: надежность и валидность психодиагностических методик Выполнила: Сардарбекова А.

Определение психодиагностической методики: Психодиагностические методики — это специфические психологические средства, предназначенные для измерения и оценки индивидуальнопсихологических особенностей людей.

Валидность психодиагностических методик— это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.

Валидность эмпирическая – проверяется по соответствию диагностических показателей реальному поведению, наблюдаемым действиям и реакциям испытуемого. По критерию эмпирической валидности методику проверяют путем сравнения ее показателей с реальным жизненным поведением людей. Валидность внутренняя — означает соответствие содержащихся в методике заданий, субтестов, суждений и т. п. общей цели и замыслу методики в целом. Она считается внутренне не валидной, когда все или часть вопросов, заданий или субтестов измеряют не то, что требуется от данной методики. Валидность внешняя – примерно то же, что и эмпирическая валидность, но тут речь идет о связи между показателями методики и наиболее важными внешними признаками, относящимися к поведению испытуемого. Валидность теоретическая – определяется по соответствию показателей исследуемого качества, получаемых с помощью данной методики, показателям, получаемым с помощью других методик. Теоретическую валидность проверяют по корреляциям показателей одного и того же свойства, получаемым при помощи различных методик, опирающихся или исходящих из одной и той же теории.

Критерии валидности: Поведенческие показатели – реакции, действия и поступки испытуемого в разных жизненных ситуациях. Достижения испытуемого в различных видах деятельности: учебной, трудовой, творческой и др. Данные о выполнении различных контрольных проб и заданий. Данные, полученные от других методик, валидность которых или связь с данной методикой считаются достоверно установленными.

Надёжность методики – это критерий, который говорит о точности психологических измерений, то есть позволяет судить о том, насколько внушают доверие полученные результаты.

Степень надёжности методик зависит от: стойкости самой измеряемой функции или процесса; особенностей методического инструмента; техника проведения испытания;

Для определения надежности применяют корреляционные методы: Ретестовая надежность – повторение тестов спустя какой-то промежуток времени (тесты сенсомоторного развития). Надежность взаимозаменяемых форм – испытуемый тестируется в первый раз с помощью одной формы, второй раз – с помощью сравнительной. Метод расщепления – тест разбивается на две сопоставимые части (четная и нечетная) и каждый испытуемый получает два результата. Методика надежна, если коэффициент не ниже 0, 75 – 0, 85, лучше 0, 90 и выше.

Надежность и позиционный анализ



Надежность и позиционный анализ

Надежность и позиционный анализ



Этот обзор обсуждает понятие надежности измерений, которое используется в социальных науках (но не в исследованиях промышленной статистики или медицины). Термин надежность, используемый в промышленной статистике, обозначает функцию ошибок (как функцию времени). Для обсуждения термина надежность в применении к качеству продукта (т.е. в промышленной статистике) обратитесь к разделу Анализ надежности/времен отказов в главе Анализ процессов (см. также раздел Повторяемость и воспроизводимость в той же главе и главу Анализ выживаемости/времен отказов). Для сравнения этих (очень разных) понятий надежности, см. Надежность.


Основная цель

Во многих областях исследований точное измерение переменных само по себе представляет сложную задачу. Например, в психологии точное измерение личностных характеристик или отношений к чему-либо — необходимый первый шаг, предваряющий всякую теорию. В целом, очевидно, что во всех социальных дисциплинах ненадежные измерения будут препятствовать попытке предсказать поведение людей. В прикладных исследованиях, когда наблюдения над переменными затруднены, также важна точность измерений. Например, надежное измерение производительности служащих, как правило, является сложной задачей. Однако очевидно, что эти измерения необходимы для любой системы оплаты, основанной на производительности труда.

Модуль Надежность и позиционный анализ позволит вам построить надежные шкалы, а также улучшить используемые шкалы. Модуль Надежность и позиционный анализ поможет вам также при конструировании и оценивании суммарных шкал, т.е. шкал, которые используются при многократных индивидуальных измерениях (различные позиции или вопросы, повторяющиеся измерения и т.д.). Программа вычисляет многочисленные статистики, позволяющие оценить надежность шкалы с помощью классической теории тестирования.

Оценивание надежности шкалы основано на корреляциях между индивидуальными позициями или измерениями, составляющими шкалу, и дисперсиями этих позиций. Если вы не знакомы с коэффициентом корреляции или дисперсией, обратитесь к соответствующим разделам главы Основные статистики и таблицы.

Классическая теория тестирования имеет долгую историю, и существует много пособий по этому предмету. Для подробного знакомства можно рекомендовать, например, Carmines and Zeller (1980), De Gruitjer and Van Der Kamp (1976), Kline (1979, 1986) или Thorndyke and Hagen (1977). Широко известной, «классической» монографией является книга Nunally (1970), в которой хорошо освещено тестирование в области психологии и образования.

Проверка гипотез о зависимости позиций. STATISTICA включает в себя процедуру моделирования структурными уравнениями (SEPATH), где можно проверить специальные гипотезы о связи между множествами позиций или различных критериев (например, гипотезу, что два множества позиций измеряют одну и ту же структуру, анализируют матрицы изменчивости используемого метода и т.д.).

Основные идеи

Предположим, вы хотите построить анкету, чтобы измерить степень предубеждения людей против машин иностранного производства. Как это сделать? Вы могли бы начать, например, с формулировки следующих утверждений: «Машинам иностранного производства не хватает индивидуальности», «Машины иностранного производства выглядят одинаково» и т.д. Затем вы можете предложить эти пункты группе субъектов, (например, группе людей, которые никогда не были владельцами машин иностранного производства). Респондентам предлагалось бы указать степень своего согласия с этими утверждениями по 9-балльной шкале, имеющей градации от 1=не согласен до 9=согласен.

Истинные значения и погрешности. Рассмотрим подробнее, что подразумевается под точным измерением в этом примере. Гипотеза состоит в том, что в сознании людей существует такой объект (теоретическая конструкция) как «предубеждение против машин иностранного производства» и каждый пункт анкеты (иными словами, позиция анкеты) в какой-то степени «раскрывает» эту концепцию. Вы можете сказать, что ответ очередного человека на определенную позицию анкеты включает два аспекта: во-первых, отражает предубеждение против машин иностранного производства, во-вторых, отражает некоторый скрытый, неконтролируемый фактор, соответствующий данной позиции. Например, рассмотрим утверждение: «Все машины иностранного производства выглядят одинаково». Согласие или несогласие субъекта с этим утверждением будет частично зависеть от некоторых других аспектов вопроса или самого респондента. Например, у респондента есть друг, который только что купил машину иностранного производства необычного вида и этот фактор влияет на степень согласия с приведенным утверждением.

Проверка гипотез о зависимости между позициями и критериями. Для проверки специальных гипотез о связи между множествами позиций или различных критериев (критерий того, что два множества позиций измеряют одну и ту же структуру, анализируют матрицы изменчивости используемого метода и т.д.) используйте процедуру Моделирования структурными уравненями (SEPATH).

Классическая модель проверки

Каждое измерение (ответ на вопрос) включает в себя как истинное значение (предубеждение против машин иностранного производства), так и частично неконтролируемую, случайную погрешность. Это можно описать следующим классическим уравнением:
X = тау + ошибка
В данном уравнении X выражает соответствующее реальное измерение, т.е. ответ (отклик) субъекта на вопрос анкеты; тау обычно используется для обозначения неизвестного истинного значения или истинной метки, ошибка обозначает погрешность измерения.

Надежность

В этом контексте надежность понимается непосредственно: измерение является надежным, если его основную часть, по отношению к погрешности, составляет истинное значение. Например, позиция анкеты: «Красные машины иностранного производства особенно уродливы», скорее всего, даст ненадежное измерение для предубеждения против иностранных машин. Это происходит потому, что, вероятно, у людей существуют значительные различия, касающиеся цветовых симпатий и антипатий. Таким образом, позиция будет учитывать не только предубеждение против иностранных машин, но также цветовое предпочтение субъектов. Поэтому в ответе на данную позицию доля истинной метки (истинного предубеждения) будет относительно мала (будет большой ошибка).

Меры надежности. Отсюда нетрудно вывести критерий или статистику для описания надежности позиции или шкалы. Именно, можно ввести индекс надежности, как отношение вариации истинной метки (истинного значения), присущей субъектам или респондентам, к общей вариации:

Надежность = 2(истинная метка) / 2(всего наблюдений)

Суммарные шкалы

Зададимся теперь вопросом: что произойдет, если просуммировать несколько более или менее надежных позиций, построенных с целью оценки предубеждения против иностранных машин? Предположим, что вопросы были сформулированы так, чтобы охватить возможно более широкий спектр различных предубеждений против машин иностранного производства. Если ошибочная компонента в ответах респондентов на каждый вопрос действительно случайна, то можно ожидать, что в ответах на различные вопросы случайные компоненты будут взаимно подавлять друг друга. Математическое ожидание суммарной погрешности по совокупности всех вопросов (позиций шкалы) будет равно нулю. Компонента истинной метки остается неизменной при суммировании по всем позициям. Следовательно, чем больше будет добавлено вопросов, тем точнее истинная метка (по отношению к погрешности) будет отражена на суммарной шкале.

Количество позиций и надежность. Это заключение описывает важный принцип построения критерия, а именно: чем больше позиций участвуют в построении шкалы для измерения данной концепции, тем более надежным будет измерение (суммарная шкала). Может быть, следующий пример лучше пояснит это. Предположим, вы хотите измерить рост 10 людей, используя только простую палочку или, например, свой локоть как измерительное устройство. В этом примере нас интересует не абсолютная точность измерений (в дюймах или сантиметрах), а возможность верно различать 10 индивидуумов по результатам измерений. Если, прикладывая палочку, вы измерите каждого человека только один раз, то результат может и не быть очень надежным. Однако если вы измерите каждого субъекта 100 раз и затем возьмете среднее этих 100 измерений как итоговый результат для соответствующего роста участника, то будете в состоянии очень точно и надежно различать людей (основываясь единственно на простой измерительной палочке, а не на линейке).

Теперь обратимся к некоторым статистикам, которые используются для оценивания надежности суммарной шкалы.

Альфа Кронбаха

Вернемся к примеру с предубеждениями. Если есть несколько субъектов, отвечающих на вопросы, то можно вычислить дисперсию для каждого вопроса и суммарной шкалы. Дисперсия для суммарной шкалы будет меньше, чем сумма дисперсий каждого отдельного вопроса в том случае, когда вопрос измеряет (оценивает) одну и ту же изменчивость между субъектами, т.е. если они измеряют некоторую истинную метку. Математически дисперсия суммы двух вопросов равна сумме двух дисперсий минус удвоенная ковариация, т.е. равна величине истинной дисперсии метки, общей для двух вопросов.

Вы можете оценивать долю дисперсии истинной метки, покрываемую вопросами, путем сравнения суммы дисперсий отдельных вопросов с дисперсией суммарной шкалы. Конкретно, вы можете вычислить величину:

= (k/(k-1)) * [1- (s2i)/s2сум]

Это формула для общепринятого индекса надежности, так называемого коэффициента — альфа Кронбаха (). В этой формуле si**2 обозначают дисперсии для k отдельных позиций; sсум**2 — дисперсию для суммы всех позиций. Если не существует истинной метки, а только случайная погрешность в ответах на вопросы (являющаяся неконтролируемой и единственной, а следовательно, некоррелированной между субъектами), то дисперсия суммы будет такой же, как сумма дисперсий отдельных позиций. Поэтому коэффициент альфа будет равен нулю. Если все вопросы совершенно надежны и измеряют один и тот же объект (истинную метку), то коэффициент альфа равен 1. (1-(si**2)/sсум**2 равен (k-1)/k; умножив на k/(k-1), получим 1.)

Альтернативная терминология. Альфа Кронбаха, вычисленная для дихотомий или переменных, принимающих только два значения (например, для ответов истинно/ложно), идентична так называемой формуле Кьюдера-Ричардсона-20 для надежности суммарных шкал. И в том, и в другом случае, поскольку надежность реально вычисляется, исходя из непротиворечивости всех вопросов в суммарной шкале, коэффициент надежности, вычисленный таким образом, также относится к внутренне непротиворечивой надежности.

Split-half надежность

Другим способом вычисления надежности суммарной шкалы является разбиение суммарной шкалы случайным образом на две половины [этот прием, называемый по-английски split-half, часто используется в медицине и биологии для оценки надежности результатов; разбиение производится случайным образом, что позволяет избежать искусственных эффектов]. Если суммарная шкала совершенно надежна, то следует ожидать, что обе части абсолютно коррелированы (т.е. r = 1.0). Если суммарная шкала не является абсолютно надежной, то коэффициент корреляции будет меньше 1. Можно оценить надежность суммарной шкалы посредством split-half коэффициента Спирмена-Брауна:

rсб = 2rxy /(1+rxy)

В этой формуле rсб — это коэффициент split-half надежности, а rxy является корреляцией между двумя половинами шкалы.

Поправка на затухание

Рассмотрим теперь некоторые последствия, к которым приводит не абсолютная надежность. Предположим, что вы измеряете предубеждения против машин иностранного производства для прогнозирования каких-либо других показателей таких, например, будущего спроса на эти машины. Если ваша шкала коррелирует с таким показателем, то этот факт повысит вашу уверенность в достоверности шкалы, т.е. в том, что она действительно измеряет предубеждение против иномарок, а не что-нибудь вовсе другое. Построение достоверной выборки — это продолжительный процесс, при котором исследователь изменяет шкалу в соответствии с различными внешними критериями, теоретически связанными с той концепцией, для подтверждения которой строится шкала.

Как будет влиять на достоверность шкалы тот факт, что шкала не абсолютно надежна? Маловероятно, чтобы часть шкалы, включающая случайную ошибку, коррелировала с некоторым внешним показателем. Поэтому, если пропорция истинной метки (истинного значения) в шкале равна 60% (т.е. надежность равна лишь 0,60), то корреляция между шкалой и внешним показателем будет затухать; т.е. будет ослаблена. Это означает, что она будет меньше, чем фактическая корреляция между двумя истинными метками (т.е. между показателем, измеряемым шкалой, и другим, внешним по отношению к шкале показателем). Фактически достоверность шкалы всегда ограничивается ее надежностью.

При заданной надежности двух, связанных между собой измерений (т.е. шкалы и другого исследуемого показателя), можно оценить корреляцию между истинными значениями при обоих измерениях. Иными словами, вы можете изменить корреляцию следующим образом — ввести так называемую поправку на затухание:

rxy,коррект = rxy /(rxx*ryy)

В этой формуле rxy,коррект обозначает скорректированный или поправленный коэффициент корреляции. Иными словами, это оценка корреляции между истинными метками при двух измерениях x и y. Коэффициент rxy обозначает непоправленную корреляцию, а rxx и ryy обозначают надежности измерений (шкал) x и y. Модуль Надежность и позиционный анализ предоставляет опцию для вычисления корреляции с поправкой на «затухание». Это изменение корреляции обусловлено либо значениями, задаваемыми пользователем, либо реальными исходными данными (в последнем случае надежности двух измерений оцениваются, исходя из данных).

Построение надежной шкалы

После нашего обсуждения, по-видимому, понятно, что шкала тем лучше (т.е. тем достоверней), чем она надежнее. Как отмечалось ранее, один из способов сделать шкалу более достоверной — просто добавить в нее новые позиции. Модуль Надежность и позиционный анализ включает в себя опцию, позволяющую вычислить, сколько еще позиций (вопросов) необходимо добавить, чтобы получить заданную надежность, или как изменится надежность шкалы при добавлении некоторого количества новых позиций. Однако на практике количество позиций в шкале ограничивается различными факторами (например, респонденты устали и просто не будут отвечать на большое число вопросов, полное пространство ограничено и т.д.). Теперь, возвращаясь к примеру с предубеждениями, перечислим шаги, которые в общем случае нужны для построения надежной шкалы:

Шаг 1: Формулирование вопросов. Первый шаг - написать вопросы. Это исключительно творческий процесс, когда исследователь создает как можно больше вопросов, которые, как ему кажется, всесторонне описывают предубеждение против машин иностранного производства. Теоретически следует выбирать вопросы, связанные с определяемой концепцией. На практике, например, в маркетинговых исследованиях, часто используют фокусные группы для того, чтобы осветить столь много аспектов, сколь это возможно. Например, можно попросить небольшую группу активно заинтересованных американских автомобильных потребителей выразить свое отношение к машинам иностранного производства. В области образовательного и психологического тестирования на этой стадии конструирования шкалы обычно обращают внимание на аналогичные анкеты для того, чтобы получить максимально полное представление концепции.

Шаг 2: Выбор вопросов оптимальной трудности. В первый вариант вашего вопросника о «предпочтениях» включайте как можно больше вопросов. Теперь предложите эту анкету начальной выборке типичных респондентов и проанализируйте результаты по каждому пункту. Во-первых, вы увидите различные характеристики вопросов и выделите эффект пол-потолок. Если все согласны или не согласны с вопросом, то он, очевидно, не поможет провести различия между респондентами и окажется бесполезным для построения надежной шкалы. В конструкции теста долю респондентов, которые согласны или не согласны с вопросом, или долю тех, кто «верно» отвечают на вопросы (т.е. угадывают реально существующую тенденцию) называют трудностью вопроса. В сущности, вы могли бы посмотреть на выборочные средние и стандартные отклонения для вопросов и удалить те из них, которые дают резко выделяющиеся средние и нулевые или близкие к нулю дисперсии.

Шаг 3: Выбор внутренне непротиворечивых вопросов. Напомним, что надежная шкала состоит из вопросов (позиций), которые пропорционально измеряют истинную метку; в нашем примере нам желательно отобрать вопросы, которые главным образом измеряют предубеждение против иностранных машин, при этом накладываются некоторые скрытые факторы, являющиеся случайными погрешностями. Для иллюстрации посмотрим на таблицу:

STATISTICA
АНАЛИЗ
НАДЕЖНОСТИ

Итоги для шкалы: Среднее=46.1100 Ст.откл.=8.26444 N набл:100
Альфа Кронбаха: .794313 Стандартизованная альфа: .800491
Средняя межпозиционная корреляция: .297818

 
Переменная

Среднее
при удал.
Дисперсия
при удал.
Ст.откл.
при удал.
Общ-поз.
коррел.
Квадрат
мн. регр.

Альфа
при удал.

ITEM1
ITEM2
ITEM3
ITEM4
ITEM5
ITEM6
ITEM7
ITEM8
ITEM9
ITEM10

41.61000
41.37000
41.41000
41.63000
41.52000
41.56000
41.46000
41.33000
41.44000
41.66000
51.93790
53.79310
54.86190
56.57310
64.16961
62.68640
54.02840
53.32110
55.06640
53.78440
7.206795
7.334378
7.406882
7.521509
8.010593
7.917474
7.350401
7.302130
7.420674
7.333785
.656298
.666111
.549226
.470852
.054609
.118561
.587637
.609204
.502529
.572875
.507160
.533015
.363895
.305573
.057399
.045653
.443563
.446298
.328149
.410561
.752243
.754692
.766778
.776015
.824907
.817907
.762033
.758992
.772013
.763314

В ней приведены 10 вопросов. Наибольший интерес представляют три крайних правых столбца таблицы. Они показывают корреляцию между соответствующим вопросом и общей суммарной шкалой (без соответствующего вопроса), квадрат корреляции между соответствующим вопросом и другими вопросами и внутреннюю непротиворечивость шкалы (коэффициент альфа), если соответствующий вопрос будет удален. Очевидно, вопросы 5 и 6 резко выделяются в силу того, что они не согласуются с остальной частью шкалы. Их корреляции с суммарной шкалой равны 0.05 и 0.1 соответственно, в то время как все другие коррелируют с показателем 0.45 или лучше. В крайнем правом столбце можно увидеть, что надежность шкалы будет около 0.82, если удалить любой из этих двух вопросов. Очевидно, эти два вопроса следует убрать из шкалы.

Шаг 4: Возвращаемся к шагу 1. После удаления всех вопросов, которые не согласуются со шкалой, вы можете остаться без достаточного количества вопросов для того, чтобы создать полностью надежную шкалу (напомним, что чем меньше вопросов, тем менее надежная шкала). На практике исследователь часто несколько раз проходит через этапы создания и удаления вопросов до тех пор, пока не придет к окончательному набору вопросов, образующих надежную шкалу.

Тетрахорическая корреляция. В образовательных и психологических тестах обычно используют вопросы с ответами типа да/нет. В этом случае альтернативой к обычному коэффициенту корреляции является коэффициент тетрахорической корреляции. Обычно коэффициент тетрахорической корреляции больше, чем стандартный коэффициент корреляции; поэтому Nunally (1970, стр. 102) не рекомендует его использовать при оценивании надежности. Однако до сих пор этот коэффициент используется на практике (например, при математическом моделировании).


Все права на материалы электронного учебника принадлежат компании StatSoft


Что такое психология надежности | BetterHelp

Автор: Никола Киркпатрик

Обновлено 12 февраля 2020 г.

Медицинское освидетельствование: Эрика Шад, LCP, CWLC

Источник: rawpixel.com

Надежность определение психология относится к в способность из а исследовать учиться или тестовое задание к предоставлять в тем же полученные результаты после существование выполненный на более чем один повод.В Другие слова если в Выводы из а тестовое задание или учиться доказывать время а также опять таки к быть в тем же, или близко к в тем же, Oни находятся считается надежный. Если в тем же тестовое задание было предложил к в тем же участник на два другой случаи а также в полученные результаты повернулся из другой, Это бы быть жесткий к доверять что тестовое задание. Что тестовое задание бы быть объявлен в качестве ненадежный.

Из курс, каждый учиться является другой потому что Это вовлекает люди, ситуации, а также предметы что находятся все другой на ан индивидуальный основа но если в полученные результаты находятся близко, в тестовое задание является сказал к быть надежный.

Для пример, если а общий симптом среди 500 участники в а исследовать учиться о агорафобия повороты из к быть беспокойство, Это жестяная банка быть надежно заключил что там является а сильный корреляция между фобии а также беспокойство. Возможно из из те 500 люди, 470 отчет беспокойство но 30 делать нет. Там находятся достаточно экземпляры из беспокойство сообщил среди самый из в тестовое задание предметы что в учиться является сказал к имеют произвел а надежный результат.

Тем не мение, потому что а тестовое задание является надежный, это делает нет гарантия что Это является эффективный в измерение какие Это является предполагаемый к мера.Некоторые тесты жестяная банка быть полагался на к предоставлять неточный полученные результаты. Эти тесты жестяная банка быть полезный в их способ к доказывая что Oни недостаток в качественный к Продолжить существование управляемый потому что Oни находятся нет получение в полученные результаты в исследователи находятся смотрящий для. В это кейс, в исследователи знать к идти назад к в рисунок доска а также прийти вверх с участием другой аспекты к тестовое задание, или другой способы из тестирование в тем же аспекты.

Источник: rawpixel.com

С использованием В Корреляция Коэффициент К Определять Надежность

Надежность в в поле из психология относится к в данные собраны из в администрация из тесты нравиться интеллект тесты а также поведенческий оценки.Любой время а Исследователь является заинтересованный в сбор данные или спрашивая участники а круглый из вопросов, она должен быть Конечно что в инструменты она является с использованием к захватывать что данные находятся надежный. Иначе, в учиться является ничего такого более чем а трата из каждый время.

В надежность из а тестовое задание является определенный к расчет какие является известный в качестве в «корреляция коэффициент» между оценка оценки собраны из в повторяется администрация из а тестовое задание. А корреляция коэффициент работает нравиться а процент. Если в корреляция коэффициент из а тестовое задание является.80 или более, в тестовое задание жестяная банка быть считается надежный. Этот является нравиться говоря что если в наименее 80 процентов из в данные собраны доказывает что а корреляция существуют между в концепции существование измеренный, тогда в тестовое задание имеет доказано к быть надежный.

Это является интересно что а тестовое задание делает нет имеют к Получать а идеально 1.0 корреляция коэффициент (или, положил Другая способ, 100 процентов) к быть считается надежный. Этот является потому что даже в самый осторожно разработан тесты жестяная банка никогда быть идеально. Факторы нравиться плохой вопросов а также бедных форматирование жестяная банка оказывать воздействие в оценки на а тестовое задание а также уменьшать в тест корреляция коэффициент.Дальше, неоднократно разоблачение тестовое задание предметы к в тем же вопросов жестяная банка оказывать воздействие их ответы а также в конечном счете перекос в полученные результаты из в тестовое задание.

Внутренний А также Внешний Надежность

А надежность психология определение жестяная банка быть сломанный вниз в два типы из надежность: внутренний надежность а также внешний надежность. Внутренний надежность относится к в последовательность из полученные результаты через несколько экземпляры в в тем же тестовое задание, такой в качестве в фобии а также беспокойство пример представлен выше.Внешний надежность, на в Другие рука, относится к как хорошо в полученные результаты отличаться под похожий но отдельный обстоятельства.

Источник: rawpixel.com

Какие следует находятся некоторые Примеры из тесты что находятся управляемый на Другие тесты к определять ли в полученные результаты из те тесты мог быть считается надежный.

В Тест-повторный тест Метод

В тест-ретест метод является использовал к определять внешний надежность к создание ли а тестовое задание останки надежный над время.Тесты из это иже включают анкеты а также психометрический тесты.

Обычно в тест-ретест метод бы быть проведенный к первый давая участники в тем же тестовое задание на два другой поводов. Если в тем же полученные результаты находятся полученный из оба попытки или в наименее близко достаточно попытки в любом случае, тогда в тестовое задание жестяная банка быть сказал к имеют внешний надежность. В обратная сторона является что, потому что ты необходимость к гарантировать что достаточно время проходит между в два тестирование сеансы, Это берет дольше чем обычный к получать в полученные результаты.

Inter-Rater Надежность

Интер-оценщик надежность является использовал к гарантировать что исследователи изготовление субъективный оценки находятся все на в тем же страница. Все имеет другой стандарты когда изготовление их измерения. В ключ является к учреждать а уровень из консенсус среди те исследователи к Создайте а необходимо степень из беспристрастность. К создание ли в исследователи дать согласие с участием каждый Другие, Oни жестяная банка тогда прибыть в а более определенный заключение когда обзор их накоплен данные.

Интер-оценщик надежность является измеренный к два методы: Спирмена Ро а также Коэна Каппа. Коэна Каппа меры как хорошо в исследователи дать согласие с участием каждый Другие на полученные результаты что делать нет зависеть на а специфический порядок, против как Oни бы дать согласие если Oни мы оценка данные в случайный. Спирмена Ро является использовал в учеба в которой в исследователи зависеть на непрерывный Информация в а серии или установленный порядок, такой в качестве в решение к темп факторы на а шкала из 1-10. Спирмена Ро проясняет а потенциал корреляция среди в оценки данный к в исследователи.

В Сплит-Половина Метод

В половинка метод меры как хорошо каждый часть из а тестовое задание способствует к это общий весь постольку в качестве измерение ан пример из надежность. Это является называется «половина пополам» потому что в полученные результаты один половина из а тестовое задание находятся в сравнении к в полученные результаты из в Другие половина.

Тесты жестяная банка быть расколоть в много способами. Исследователи жестяная банка исследовать в первый половина в сравнении к в второй половина, или даже мера сходство среди в странный или четный вопросов.Если оба половинки из в тестовое задание предложение похожий полученные результаты, тогда в тестовое задание является сказал к имеют внутренний надежность. Следовательно, в половинка метод жестяная банка быть использовал к улучшать в надежность из а тестовое задание.

Тем не мение, в половинка метод жестяная банка Только быть реализовано в тесты состоящий из длительный анкеты в которой все в вопросов находятся измерение аспекты из в тем же концепция. Если в тестовое задание является измерение другой концепции тогда в половинка метод бы нет быть действительный постольку в качестве определение ли в тестовое задание одержимый внутренний надежность.

Для пример, предполагать а анкета было предоставлена к 100 предметы к определять который симптомы находятся самый обычно связанный с участием депрессия. В половинка метод мог тогда быть применяемый к это тестовое задание к определять это надежность потому что Это меры Только один концепция: депрессия.

На в Другие рука, а тестовое задание использовал к сравнивать симптомы из депрессия с участием в предметы’ финансовый фоны бы быть фокусировка на приносящий вместе два полностью другой концепции. Следовательно, в половинка метод бы нет быть ан подходящее метод из тестирование это исследования надежность.

В Важность Из Создание Надежность

Создание надежность в психологический тестирование является ключевой. Этот является потому что, без Это, народ условия мая нет быть точно поставлен диагноз а также, в качестве а результат, Oни буду нет быть предоставлена с участием в подходящее лечение.

В время из в тестовое задание жестяная банка также оказывать воздействие это надежность, особенно когда реализация в тест-ретест метод. Если в исследователи не ждать длинный достаточно между тесты тогда в участники мая помнить Информация из в первый тестовое задание что жестяная банка предвзятость их ответы к в второй.Наоборот, если в время между тесты является тоже длинный, в участников ситуации мая имеют измененный к в степень что Это жестяная банка предвзятость в полученные результаты.

Источник: rawpixel.com

Для пример, если в тема существование проверено является депрессия а также это эффекты, некоторые участники мая имеют началось лечение их состояние с участием медикамент в между в первый а также второй тесты. Такой а лечение жестяная банка перекос в полученные результаты из в второй тестовое задание если в участники отчет а снижение в симптомы ведущий к в облегчение из их депрессия.Если в симптомы не там больше к учиться, тогда в полученные результаты из в тестовое задание имеют был скомпрометирован.

Улучшение А Тесты Надежность

Иногда, несмотря с использованием в тест-ретест метод или в половинка метод а тестовое задание или учиться доказывает просто к быть ненадежный. Там находятся способы к устранять неполадки какие пошел неправильный к улучшать в надежность из в тестовое задание. Для один вещь, в исследователи жестяная банка двойная проверка что в категории существование проверено имеют был определенный.

Для пример, если в исследователи находятся наблюдение а возможный корреляция между депрессия а также жестокий поведение, каждый Исследователь мая имеют его или ее идея из какие составляет жестокий поведение.В исследователи бы, следовательно, неудача к категоризировать поведенческий черты сходным образом, а также в тестовое задание бы быть считается ненадежный. Тем не мение, создание Чисто категории Правильно из в начало, такой в качестве классифицирующий а толкать или а пинать в качестве жестокий поведение, обеспечивает что все буду быть запись данные в в тем же способ а также что в тестовое задание буду доказывать к быть надежный.

Если в тестовое задание является вне экономия тогда шаги жестяная банка быть взятый к гарантировать что будущее тестирование является проведенный более эффективно. Для пример, в исследователи должен учреждать а также объяснить их техники для сбор данные а также гарантировать что все соглашается с участием те техники до собирается из в в поле а также проведение его или ее тесты.

Заинтересованы В Став А Участник В А Исследовать Учиться?

Если ты бы нравиться к стали а участник в а исследовать учиться, ты мая хотеть к рассмотреть возможность достигая из к один из наш советники в BetterHelp.com. В добавление к предоставление терапевтический служба поддержки к пациенты по всему миру, мы жестяная банка также найти а также соединять ты к в учеба в который ты бы быть самый заинтересованный в участие.

Источники:

https://www.simplypsychology.org/reliability.html

https://study.com/academy/lesson/reliability-in-psychology-definition-lesson-quiz.html

https://study.com/academy/lesson/inter-rater-reliability-in-psychology-definition-formula-quiz.html

4.2 Надежность и достоверность измерения — методы исследования в психологии

Цели обучения

  1. Определите надежность, включая различные типы и способы их оценки.
  2. Определите срок действия, включая различные типы и способы их оценки.
  3. Опишите виды доказательств, которые могут иметь отношение к оценке надежности и действительности той или иной меры.

Опять же, измерение включает в себя присвоение баллов отдельным лицам, чтобы они отражали некоторые характеристики людей. Но как исследователи узнают, что оценки на самом деле представляют характеристику, особенно если это такие конструкты, как интеллект, самооценка, депрессия или объем рабочей памяти? Ответ заключается в том, что они проводят исследование, используя эту меру, чтобы подтвердить, что оценки имеют смысл, исходя из их понимания измеряемой конструкции.Это очень важный момент. Психологи не просто предполагают , что их меры работают. Вместо этого они собирают данные, чтобы продемонстрировать , что они работают. Если их исследование не демонстрирует, что мера работает, они прекращают ее использовать.

В качестве неформального примера представьте, что вы сидите на диете в течение месяца. Ваша одежда кажется более свободной, и несколько друзей спросили, похудели ли вы. Если в этот момент ваши весы для ванной показывают, что вы потеряли 10 фунтов, это имело бы смысл, и вы продолжили бы пользоваться весами.Но если бы это указывало на то, что вы набрали 10 фунтов, вы бы справедливо пришли к выводу, что он сломан, и либо почините его, либо избавьтесь от него. Оценивая метод измерения, психологи принимают во внимание два основных аспекта: надежность и валидность.

Надежность

Надежность означает постоянство меры. Психологи рассматривают три типа согласованности: во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между разными исследователями (надежность между экспертами).

Проверка-повторная проверка надежности

Когда исследователи измеряют конструкт, который, по их мнению, является непротиворечивым во времени, полученные ими оценки также должны быть согласованными во времени. Надежность повторных испытаний — это степень, в которой это действительно так. Например, обычно считается, что интеллект постоянен во времени. Человек, который сегодня очень умный, на следующей неделе станет очень умным. Это означает, что любой хороший показатель интеллекта должен дать этому человеку примерно такие же оценки на следующей неделе, что и сегодня.Ясно, что мера, которая дает очень непоследовательные оценки с течением времени, не может быть очень хорошей мерой конструкции, которая должна быть согласованной.

Оценка надежности повторного тестирования требует одновременного использования этого показателя на группе людей, его повторного использования на той же группе людей в более позднее время, а затем анализа корреляции повторного тестирования между двумя наборами критериев. оценки. Обычно это делается путем построения графика данных в виде диаграммы рассеяния и вычисления коэффициента корреляции.На рис. 4.2 показана корреляция между двумя наборами оценок нескольких студентов университетов по шкале самооценки Розенберга, введенной два раза с интервалом в неделю. Коэффициент корреляции для этих данных составляет +,95. Обычно считается, что корреляция между тестами и повторными тестами +80 или выше указывает на хорошую надежность.

Рис. 4.2 Корреляция между тестами и повторными тестами между двумя наборами оценок нескольких студентов колледжа по шкале самооценки Розенберга, полученных два раза в неделю с интервалом

Опять же, высокая корреляция между тестами и ретестами имеет смысл, когда предполагается, что измеряемый конструкт остается неизменным во времени, что имеет место в случае интеллекта, самооценки и параметров личности Большой пятерки.Но другие конструкции не считаются стабильными с течением времени. Например, сама природа настроения такова, что оно меняется. Таким образом, показатель настроения, который дает низкую корреляцию между тестами и повторными тестами в течение месяца, не будет поводом для беспокойства.

Внутренняя согласованность

Другой вид надежности — это внутренняя согласованность , которая представляет собой согласованность ответов людей по всем пунктам при измерении нескольких пунктов. В целом предполагается, что все элементы таких показателей отражают одну и ту же основную конструкцию, поэтому оценки людей по этим вопросам должны коррелировать друг с другом.По шкале самооценки Розенберга люди, которые согласны с тем, что они достойные люди, должны соглашаться с тем, что у них есть ряд хороших качеств. Если ответы людей на разные вопросы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же основную конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самооценки. Например, люди могут сделать серию ставок в имитируемой игре в рулетку, чтобы измерить свой уровень стремления к риску.Этот показатель будет внутренне согласованным в той степени, в которой ставки отдельных участников будут постоянно высокими или низкими в ходе испытаний.

Как и надежность повторного тестирования, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов — посмотреть на корреляцию разделенных половин . Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четным и нечетным номерами. Затем для каждого набора элементов вычисляется оценка и исследуется взаимосвязь между двумя наборами оценок.Например, на рис. 4.3 показана корреляция между двумя частицами между оценками нескольких студентов университетов по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга. Коэффициент корреляции для этих данных равен +,88. Корреляция разделенных половин, равная +80 или больше, обычно считается хорошей внутренней согласованностью.

Рисунок 4.3 Распределенная корреляция между результатами нескольких студентов колледжа по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга

Пожалуй, наиболее распространенным показателем внутренней согласованности, используемым исследователями в области психологии, является статистика под названием α Кронбаха (греческая буква альфа).Концептуально α — это среднее значение всех возможных корреляций разделенных половин для набора элементов. Например, существует 252 способа разделить набор из 10 элементов на два набора по пять. Α Кронбаха будет средним из 252 корреляций разделенных половин. Обратите внимание, что на самом деле α вычисляется не так, но это правильный способ интерпретации значения этой статистики. Опять же, обычно используется значение +80 или больше, чтобы указать на хорошую внутреннюю согласованность.

Надежность Interrater

Многие поведенческие меры требуют значительного суждения со стороны наблюдателя или оценщика. Надежность между экспертами — это степень, в которой разные наблюдатели едины в своих суждениях. Например, если вы заинтересованы в измерении социальных навыков студентов университета, вы можете сделать видеозаписи их взаимодействия с другим студентом, с которым они встречаются впервые. Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той степени, в которой каждый участник действительно обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом.Надежность между экспертами также могла быть измерена в исследовании куклы Бобо Бандуры. В этом случае оценки наблюдателей того, сколько актов агрессии совершил конкретный ребенок во время игры с куклой Бобо, должны были иметь очень положительную корреляцию. Надежность между экспертами часто оценивается с помощью α Кронбаха, когда суждения являются количественными, или аналогичной статистики, называемой κ Коэна (греческая буква каппа), когда они категоричны.

Срок действия

Действительность — это степень, в которой баллы из меры представляют переменную, для которой они предназначены.Но как исследователи делают такое суждение? Мы уже учли один фактор, который они учитывают, — надежность. Если показатель имеет хорошую надежность повторного тестирования и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки соответствуют тому, что им положено. Однако здесь должно быть что-то еще, потому что мера может быть чрезвычайно надежной, но совершенно бесполезной. В качестве абсурдного примера представьте человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам людей.Хотя эта мера имела бы чрезвычайно хорошую надежность повторного тестирования, она не имела бы абсолютно никакой ценности. Тот факт, что указательный палец одного человека на сантиметр длиннее, чем у другого, ничего не говорит о том, у кого из них более высокая самооценка.

Обсуждения валидности обычно делят его на несколько различных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды свидетельств, помимо надежности, которые следует принимать во внимание при оценке достоверности меры.Здесь мы рассматриваем три основных типа: валидность лица, валидность содержания и валидность критерия.

Лицевая действительность

Лицевая достоверность — это степень, в которой метод измерения проявляется «на поверхности» для измерения интересующей конструкции. Большинство людей ожидают, что в анкету для самооценки будут включены вопросы о том, считают ли они себя достойным человеком и обладают ли они хорошими качествами. Таким образом, анкета, включающая такие вопросы, будет иметь хорошую внешнюю валидность.С другой стороны, метод измерения самооценки длиной пальца, похоже, не имеет ничего общего с самооценкой и, следовательно, имеет низкую достоверность. Хотя фактическая валидность может быть оценена количественно — например, с помощью большой выборки людей, оценивающих меру с точки зрения того, действительно ли она измеряет то, для чего она предназначена, — она ​​обычно оценивается неформально.

Фактическая достоверность — в лучшем случае очень слабое свидетельство того, что метод измерения измеряет то, что он должен.Одна из причин заключается в том, что это основано на интуиции людей о человеческом поведении, которые часто ошибочны. Также верно и то, что многие общепринятые меры в психологии работают достаточно хорошо, несмотря на недостаточную достоверность. Миннесотский многофазный опросник личности-2 (MMPI-2) измеряет многие личностные характеристики и расстройства, предлагая людям решить, применимо ли к ним каждое из более чем 567 различных утверждений, при этом многие из утверждений не имеют очевидного отношения к конструкции, которую они измеряют. .Например, пункты «Мне нравятся детективы или детективы» и «Вид крови не пугает меня и не вызывает тошноту», оба измеряют подавление агрессии. В данном случае интерес представляют не дословные ответы участников на эти вопросы, а, скорее, то, соответствует ли характер ответов участников на серию вопросов ответам людей, которые склонны подавлять свою агрессию.

Срок действия содержимого

Достоверность содержания — это степень, в которой мера «покрывает» интересующий конструкт.Например, если исследователь концептуально определяет тестовую тревогу как связанную как с активацией симпатической нервной системы (ведущей к нервным переживаниям), так и с негативными мыслями, то его мера тестовой тревожности должна включать вопросы как о нервных переживаниях, так и о негативных мыслях. Или подумайте, что отношения обычно определяются как связанные с мыслями, чувствами и действиями по отношению к чему-либо. Согласно этому концептуальному определению, человек положительно относится к упражнениям в той мере, в какой он или она думает о тренировках положительно, чувствует себя хорошо во время тренировок и фактически занимается спортом.Таким образом, чтобы иметь хорошую достоверность содержания, показатель отношения людей к упражнениям должен отражать все три этих аспекта. Как и фактическая достоверность, достоверность содержания обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.

Срок действия критерия

Достоверность критерия — это степень, в которой оценки людей по показателю коррелируют с другими переменными (известными как критерии ), с которыми можно было бы ожидать их корреляции.Например, оценки людей по новому критерию тревожности при тестировании должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что оценки людей на самом деле отрицательно коррелировали с их успеваемостью на экзамене, то это было бы доказательством того, что эти оценки действительно отражают тревогу людей перед тестированием. Но если бы выяснилось, что люди одинаково хорошо сдавали экзамен, независимо от их тестовой тревожности, это поставило бы под сомнение достоверность этой меры.

Критерием может быть любая переменная, которая, как есть основания полагать, должна коррелировать с измеряемым конструктом, и обычно их много. Например, можно было бы ожидать, что результаты теста на тревожность будут отрицательно коррелировать с успеваемостью на экзамене и оценками по курсу и положительно коррелировать с общим беспокойством и артериальным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру принятия физического риска. Баллы людей по этому показателю должны соотноситься с их участием в «экстремальных» видах деятельности, таких как сноуборд и скалолазание, количеством полученных штрафов за превышение скорости и даже количеством переломов костей, которые они получили за эти годы.Когда критерий измеряется одновременно с построением, достоверность критерия упоминается как одновременная достоверность ; однако, когда критерий измеряется в какой-то момент в будущем (после того, как конструкция была измерена), он упоминается как предсказательная достоверность (поскольку оценки по этому показателю «предсказали» будущий результат).

Критерии могут также включать другие меры той же конструкции. Например, можно было бы ожидать, что новые меры тестовой тревожности или принятия физического риска будут положительно коррелированы с существующими установленными показателями тех же конструктов.Это известно как конвергентная достоверность .

Оценка конвергентной достоверности требует сбора данных с помощью меры. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свою шкалу самоотчета «Потребность в познании», чтобы измерить, насколько люди ценят и вовлечены в мышление (Cacioppo & Petty, 1982). В серии исследований они показали, что оценки людей положительно коррелировали с их оценками по стандартизированному тесту академических достижений, и что их оценки отрицательно коррелировали с их оценками по показателю догматизма (который представляет собой тенденцию к послушанию).За годы, прошедшие с момента создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с широким спектром других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и МакКаслин, 2009 г.).

Дискриминантная валидность

Дискриминантная валидность , с другой стороны, — это степень, в которой оценки по показателю , а не коррелируют с мерами переменных, которые концептуально различны.Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, которое бывает хорошим или плохим в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новый показатель самооценки сильно коррелировал с показателем настроения, можно было бы утверждать, что новый показатель на самом деле не измеряет самооценку; вместо этого он измеряет настроение.

При создании шкалы потребности в познании Качиоппо и Петти также предоставили доказательства дискриминантной валидности, показав, что оценки людей не коррелировали с некоторыми другими переменными.Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части, или целостным образом в терминах «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их склонностью реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличную конструкцию.

Основные выводы

  • Психологические исследователи не просто предполагают, что их меры работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что работают, они прекращают их использовать.
  • Есть два различных критерия, по которым исследователи оценивают свои измерения: надежность и валидность. Надежность — это постоянство во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между исследователями (надежность между экспертами).Достоверность — это степень, в которой оценки фактически представляют переменную, для которой они предназначены.
  • Действительность — это решение, основанное на различных типах доказательств. Соответствующее свидетельство включает надежность меры, то, покрывает ли она интересующий конструкт и коррелируют ли полученные оценки с другими переменными, с которыми они, как ожидается, коррелируют, а не коррелируют ли с переменными, которые концептуально различны.
  • Надежность и валидность меры устанавливаются не одним исследованием, а результатами нескольких исследований.Оценка надежности и достоверности — непрерывный процесс.

Упражнения

  1. Практика: попросите нескольких друзей заполнить шкалу самооценки Розенберга. Затем оцените его внутреннюю согласованность, построив диаграмму рассеяния, чтобы показать корреляцию разделенных половин (элементы с четным и нечетным номерами). Вычислите также коэффициент корреляции , если знаете как.
  2. Обсуждение: Вспомните последний экзамен в колледже, который вы сдавали, и думайте об этом как о психологической мере.Как вы думаете, для измерения какой конструкции она предназначалась? Прокомментируйте его лицо и достоверность содержания. Какие данные вы могли бы собрать для оценки их надежности и критериальной валидности?

Что такое надежность в психологии и почему это важно?

Исследователи используют множество методов для оценки и повышения надежности своей работы, и они постоянно пересматривают свои процессы, чтобы гарантировать эффективность. Надежность в психологии помогает исследователям последовательно проводить тесты и исследования.Если вы хотите, чтобы результаты ваших исследований и психологического тестирования были более надежными, возможно, вы захотите узнать больше о надежности в психологии. В этой статье мы обсудим, что такое надежность в психологии, почему это важно, методы, которые используют исследователи для оценки надежности тестов и исследований, а также советы по повышению надежности в вашей собственной работе.

Связанный: 22 Различные типы психологии

Что такое надежность в психологии?

Надежность в психологии — это последовательность выводов или результатов психологического исследования.Если результаты или результаты остаются одинаковыми или похожими после нескольких попыток, исследователь часто считает это надежным. Поскольку обстоятельства и участники могут измениться в ходе исследования, исследователи обычно рассматривают корреляцию, а не точность при выполнении оценок. Они определяют тест или исследование как надежные, если замечают высокую положительную корреляцию между результатами и выводами.

Надежность отличается от действительности, аналогичная концепция часто сочетается с надежностью, когда исследователи оценивают свою работу.В то время как надежность относится к способности повторять тест или исследование и каждый раз достигать почти одинаковых результатов, валидность заключается в том, насколько хорошо метод исследования измеряет поведение, которое, по утверждениям исследователя, он делает. Надежность и достоверность играют важную и взаимосвязанную роль в получении точных ресурсов, но они требуют отдельных оценок, поскольку одно может быть очевидным без другого.

Пример: Доктор Джонс оценил тест, который он разработал, проведя его новой группе участников.Он отметил высокую положительную корреляцию между результатами первой тестовой группы и результатами второй, поэтому пришел к выводу, что тест надежен. Он также точно измерил, как поведенческая психология влияет на людей на рабочем месте, как он и предполагал при ее создании. Это также делает тест действительным.

Связано: 10 вариантов карьеры в поведенческой психологии

Почему надежность важна в психологии?

Надежность важна, потому что она определяет ценность психологического теста или исследования.Если результаты тестов остаются неизменными, когда исследователи проводят исследование, их надежность обеспечивает ценность для области психологии и других областей, в которых оно имеет значение, таких как образование или бизнес. Низкая надежность предупреждает исследователей о том, что им следует изменить определенные аспекты текущего теста или исследования или провести новый, чтобы повысить его ценность.

Связано: 8 Карьер, которые следует рассмотреть для психологов-исследователей

Способы оценки надежности психологических исследований и тестирования

Вот несколько методов, которые исследователи используют для оценки надежности своих исследований и тестов:

Внутренняя надежность

Внутренняя надежность означает, насколько хорошо ресурс поддерживает согласованность внутри себя.Для измерения внутренней надежности, которая применяется конкретно к тестам, исследователи часто используют метод разделения половин. Этот процесс включает в себя разделение теста пополам перед проведением его участнику и сравнение результатов каждой половины. Если исследователь обнаруживает, что каждая часть теста дает одинаковые результаты, тогда тест имеет внутреннюю надежность. Исследователи могут разделить тест пополам, используя несколько методов, таких как разделение первой и второй половин, группирование случайных вопросов или разделение вопросов с четными и нечетными номерами.

Пример: Доктор Смит разработал экзамен по определенной психологической концепции для своих студентов. Тест содержал 100 вопросов на одну и ту же тему. Чтобы оценить надежность теста, он разделил его на две части и дал половине студентов первую половину теста, а другой половине студентов — вторую половину теста. Обе группы студентов показали одинаковые результаты, что подтверждает надежность экзамена.

Внешняя надежность

Внешняя надежность — это способность теста давать одинаковые результаты как с течением времени, так и у каждого, кто его проходит.Он включает в себя два метода: тест-ретест и межрейтерский. Повторный тест определяет, насколько тест остается стабильным после многократного использования. Если тест остается стабильным, он сохраняет свою надежность. Межэкспертная надежность, известная как межэкспертная надежность при измерении надежности научных исследований, проверяет, записывают ли разные оценщики или наблюдатели одни и те же данные на основе протокола определенного теста или исследования.

Пример: Бетти, Рон и Джейн — судьи по гимнастике. Поскольку мнения о выступлениях гимнасток различаются, они используют стандартизированную систему подсчета очков, чтобы гарантировать, что они определяют результаты, используя один и тот же протокол.Если система показывает, что судьи используют и интерпретируют данные одинаково, система подсчета очков имеет межэкспертную надежность.

Связано: 8 лучших личностных тестов, используемых в психологии (и работодателями)

Советы по повышению надежности психологических исследований и тестирования

Исследователи используют результаты оценок для повышения надежности своих тестов и исследования. Вот несколько советов, которые вы можете использовать для повышения надежности ваших собственных психологических ресурсов:

Выберите метод измерения

Тест требует определенной методики измерения, чтобы оценить его надежность.При выборе типа измерения вы можете рассмотреть существующие методы или создать свои собственные. Исследователи часто выбирают существующие методы, которые использовали другие исследователи, потому что это экономит им время и усилия, затрачиваемые на разработку их собственных. Другие, однако, предпочитают создавать свои собственные методы измерения, которые более точно отражают цель и задачи их работы, или тестировать новый процесс. Например, определите, хотите ли вы использовать такие методы, как межэкспертный, тест-ретест или другие методы.

Постоянно измеряйте свое исследование

Исследователи-психологи, которые вносят постоянный вклад в эту область, часто разрабатывают исследования и процедуры тестирования, которые проходят строгую и последовательную оценку, прежде чем их коллеги признают их ценными. Подумайте о том, чтобы установить процедуру оценки надежности ваших ресурсов. Например, оценка вашего исследования после каждого использования в различных средах может помочь вам найти любые потенциальные недостатки и быстро устранить их, чтобы повысить надежность.

Будьте внимательны к среде тестирования

Внешние факторы, такие как среда тестирования или исследования, могут повлиять на результаты, что также может повлиять на надежность. Например, работа или тестирование в местах с отвлекающими факторами, а также с высокими или низкими температурами могут повлиять на способность человека концентрироваться и использовать учебные ресурсы по назначению. Стрессовые ситуации также могут исказить данные. Отмечая эти обстоятельства, вы можете определить, как они влияют на надежность вашего психологического теста или исследования.

Объяснение надежности измерений простым языком

Те из нас, кто занимается психологическими измерениями, часто используют термины надежность, и достоверность, . Вы, наверное, видели эти термины на веб-сайте Psychology Today (они встречаются тысячи раз) и в других местах. У вас может быть некоторое представление о том, что значит психологический тест, чтобы быть надежным или действительным. Вы, вероятно, предположили, что хороший тест должен быть одновременно надежным и действительным (и вы были бы правы в этом).

Но что такое надежность и валидность, как мы оцениваем надежность и валидность и почему эти свойства психологических тестов так важны? В этом и следующем сообщении в блоге я надеюсь ответить на эти вопросы совершенно нетехническим образом, избегая статистического языка, насколько это возможно. Если мне это удастся, вы поймете, почему понимание надежности и валидности измерений так важно для оценки полезности IQ или личностного теста. Многие психологические «викторины» в Интернете не имеют абсолютно никаких доказательств надежности или достоверности, поэтому не стоит воспринимать их всерьез.Иногда даже утверждения о надежности или достоверности профессионально разработанных тестов преувеличены. Ваше понимание надежности и обоснованности этого сообщения в блоге может помочь вам распознать, когда это происходит, и проявить осторожность, прежде чем принимать результаты, основанные на завышенных утверждениях.

Предупреждение: несмотря на то, что я пишу о надежности и валидности в нетехнической манере, два моих сообщения в блоге представляют собой глубокие и интенсивные трактовки этих тем. В результате они длиннее, чем типичный пост в блоге PT.Так что, если вы ищете пустяк и развлечение о личности, эти посты не для вас. Если вы серьезно относитесь к пониманию надежности и обоснованности психологических измерений, добро пожаловать на борт.

Чтобы избежать тотальной информационной перегрузки, я решил написать о надежности и валидности в двух разных постах. В первой части я расскажу о надежности измерений, потому что это свойство является более простым. Возможно получение надежных измерений, которые не имеют достоверности. Однако ненадежные измерения никогда не могут быть достоверными.Итак, начнем с надежности.

Психолог Эдвард Торндайк (1918, стр. 16) написал знаменитую фразу: «Все, что вообще существует, существует в некотором количестве. Чтобы знать это полностью, необходимо знать как количество, так и качество». Измерение величин — это основная деятельность любой науки, говорим ли мы об измерении размера, массы, температуры и скорости физических объектов или интеллектуальных и личностных качеств людей. А измерение в любой науке предполагает, что наши попытки измерить фактическое количество вещей или людей неизбежно будут включать некоторую ошибку измерения.Поскольку мы стремимся определить фактические количества с помощью наших измерительных устройств, измерения, которые мы регистрируем, будут иногда слишком высокими, иногда слишком низкими, а иногда и точными.

Надежность измерения означает, насколько точно процедура измерения приближает нас к фактической величине, которую мы пытаемся измерить. Иными словами, надежность — это отсутствие ошибки измерения. Чем ближе процедура измерения может подойти к фактическому количеству чего-либо, тем меньше будет ошибка измерения и тем надежнее будет процедура измерения.Но как мы можем узнать надежность любой процедуры измерения?

Давайте сначала рассмотрим этот вопрос на примере физического измерения. Предположим, у нас есть кусок дерева, длина которого, как мы знаем, составляет ровно три фута (или 36 дюймов). (Мы пока не будем обращать внимание на то, откуда мы это знаем.) У нас есть две рулетки: одна из тканевой ткани, а другая — из стали. Чтобы увидеть, насколько точно эти две рулетки соответствуют реальной длине досок, мы опробуем их на трехфутовой доске.Чтобы повысить нашу уверенность в нашем небольшом эксперименте, мы измеряем доску 200 раз — 100 раз тканевой рулеткой и 100 раз стальной рулеткой, каждый раз записывая свои показания.

Источник: CC0 Creative Commons

Источник: CC0 Creative Commons

И вот, мы обнаруживаем, что тканевая рулетка имела тенденцию давать несколько противоречивые результаты. Примерно в 70% случаев это действительно указывало на то, что доска была ровно 36 дюймов в длину, но примерно в 5% случаев измерения были слишком большими, например, 36 1/16 дюйма или даже 36 1/8 дюйма.И в 25% случаев он занижал истинную длину доски с такими измерениями, как 35 15/16 дюймов. Можно сказать, что тканевая лента имеет некоторую надежность, но, возможно, недостаточно, чтобы доверять ей при работе с деревом.

Напротив, мы обнаружили, что стальная лента показывала ровно 36 дюймов в 98% случаев. Один раз (то есть в 1% случаев) он показал значение 35 15/16 дюйма, а один раз (1% испытаний) он дал значение 36 1/16 дюйма. Эти результаты говорят о том, что стальная рулетка достаточно надежна для использования в ваших деревообрабатывающих проектах.

Личность Essential Читает

Теперь давайте посмотрим, как некоторые вопросы, касающиеся надежности тканевых и стальных рулеток, применимы к надежности тестов интеллекта или опросников личности

Стандарты для измерений

Во-первых, даже несмотря на то, что стальная рулетка дала нам гораздо более стабильные результаты, чем тканевая рулетка и, следовательно, могла быть названа более надежной, мы должны помнить, что мы просто притворялись, что знаем заранее, что доска, которую мы измеряем. был ровно 36 дюймов в длину.В большинстве реальных жизненных ситуаций мы не знаем наверняка реальное, фактическое количество чего-либо, что мы измеряем, прежде чем измерить его. Так как же мы можем увидеть, насколько близко измерительный прибор подходит к фактическому количеству чего-либо, если мы не знаем фактическое количество заранее?

Что касается физических свойств, эта проблема была успешно решена путем простого определения трех основных единиц измерения (длины, массы и времени) в соответствии с согласованными стандартами. Эти стандарты изменили историю измерений.Например, в 1120 году нашей эры король Англии объявил, что эталон длины будет называться ярдом, определяемым расстоянием от кончика его носа до конца протянутой руки. Современная физика зависела от различных стандартов расстояния, определяя метр в 1960 году как расстояние между двумя концами конкретного платино-иридиевого слитка, хранящегося в контролируемых условиях, а в 1983 году как расстояние, пройденное светом в вакууме за 1/299 792 458 долей. Второй. По мере того, как физики разрабатывали более надежные методы измерения, мы смогли повысить точность и точность измерений, чтобы обеспечить выдающиеся технологические достижения, от производства ядерной энергии до подключения мира через Интернет до безопасного полета более 8 миллионов человек по небу каждый день. .

В психологии нам еще предстоит установить такие стандарты для измерения интеллектуальных и личностных качеств. Не существует платино-иридиевого IQ или личностного теста. Отчасти проблема в том, что, в отличие от физики, мы все еще спорим о том, какова именно природа психологических характеристик, которые мы пытаемся измерить. Трудно остановиться на единице интеллекта или личности, когда мы не согласны с определением интеллекта или личности. Тем не менее, со временем сообщество психологических исследователей, как правило, сплотилось вокруг предпочтительных мер.Например, опросник личности NEO так часто использовался для измерения пяти основных факторов личности, что его назвали «золотым стандартом» для измерения этих факторов (Muck, Hell, & Gosling, 2007).

Оценка надежности с помощью повторных измерений

В нашем примере с рулеткой мы обнаружили, что 98 из 100 измерений со стальной лентой дали тот же результат, в то время как только 70 из 100 измерений с тканевой лентой дали такой же результат. Даже не зная фактической длины доски, мы можем сказать, что стальная лента дает более точные измерения и в этом смысле более надежна.Но, не зная фактическую длину доски, мы бы не знали наверняка, являются ли эти 98 измерений ровно 36 дюймов правильными, стабильно высокими или стабильно низкими. Если бы у вас не было возможности позаимствовать платино-иридиевый слиток для измерения древесины или найти способ отсчитать доли секунды, которые потребовались бы свету, чтобы пройти от одного конца куска дерева к другому, вы бы не знали, действительно ли 98 измерений вашей стальной ленты (36 дюймов) точно соответствуют отметке.

В психологии, где у нас даже нет платино-иридиевого слитка, мы решили принимать одно и то же измерение снова и снова как достаточное доказательство надежности психологического теста или анкеты.Это может показаться немного сумасшедшим, потому что вы можете подумать, что постоянная оценка может быть либо последовательной переоценкой, либо недооценкой чьего-либо интеллекта или добросовестности. Но использование согласованности оценок для оценки надежности в психологии не так безумно, как может показаться, как я объясню.

Источник: CC0 Creative Commons

В отличие от физических измерений, большинство психологических измерений интерпретируются относительно, сравнивая их с оценками других людей (например,(g., эта женщина более сознательна, чем 80% женщин). Это неверно для физических измерений, где измерение, скажем, доски показывает, насколько длиннее доска от нуля, а не то, короче она или длиннее, чем другие доски.

Без объективной нулевой точки для интеллекта (что бы означало иметь нулевой интеллект?) Невозможно описать реальный уровень интеллекта человека в объективных единицах выше нуля. И поскольку мы не можем описать фактический уровень интеллекта человека как «X единиц выше нуля», мы не можем определить надежность с точки зрения того, насколько близка оценка к фактическому уровню, X.

Вместо этого, «фактический интеллект» в конечном итоге определяется как то, насколько ваш результат выше или ниже среднего значения вашей контрольной группы. А надежность описывается группами людей, которые получают одинаковый балл при повторном измерении. Если все получат одинаковые баллы в нескольких разных тестах, то баллы любого человека будут постоянно выше, ниже или точно соответствуют среднему баллу группы.

Повторное измерение предполагает непротиворечивость измеряемой вами собственности

Когда мы 100 раз измерили трехфутовую доску двумя рулетками, мы ожидали, что каждый раз получим одно и то же измерение, потому что мы предположили, что длина доски не меняется между измерениями.И это, вероятно, было правдой, если бы мы проводили измерения одно за другим. Но что, если мы подождем две недели между измерениями? Изменения температуры и влажности могут вызвать небольшую усадку или удлинение доски. Надежная стальная рулетка покажет разную длину доски за эти периоды времени, создавая впечатление, что рулетка менее надежна, чем она есть на самом деле.

В психологии одним из давних методов оценки надежности является метод повторного тестирования.Если тест абсолютно надежен, каждый человек получит одинаковую оценку как при первом тестировании, так и при повторном тестировании (что часто происходит через одну или две недели, хотя можно использовать любой временной интервал), но только если уровень фактического интеллекта каждого человека или личность не меняется с течением времени. По большинству определений интеллект и личность не меняются в течение коротких периодов времени, поэтому, если результаты повторного тестирования отличаются от результатов первого тестирования, это указывает на несовершенную надежность.

В психологическом измерении нам нравится определять степень надежности теста с помощью статистики, называемой коэффициентом корреляции Пирсона.Здесь нет необходимости объяснять, как это вычисляется; Вы можете посмотреть это, если хотите. Достаточно знать, что коэффициенты корреляции Пирсона почти всегда находятся в диапазоне от 0 до 1,00. (Можно найти отрицательные значения для корреляций надежности, но когда это происходит, что-то серьезно, серьезно неправильно.) Не существует единого стандарта приемлемой надежности, но 0,70 часто предлагается в качестве минимального уровня приемлемой надежности. Хорошие личностные тесты обычно показывают вышеупомянутую надежность.80, в то время как хорошие показатели интеллекта и когнитивных способностей часто показывают надежность выше 0,90. Можно сделать предварительные выводы о связи между психологическими переменными, когда тесты показывают надежность ниже 0,70. Но никогда не следует делать однозначных выводов или принимать важные решения в отношении людей с тестами, не соответствующими стандарту .70.

Тест-ретест — не единственный метод оценки надежности психологического измерения. Если вы хотите оценить надежность всего за один тест, вы можете использовать метод разделения половин.В этом методе вы даете каждому человеку две оценки, каждая на основе половины заданий теста. Обычно мы вычисляем одну оценку на основе элементов с нечетными номерами, а другую — на основе элементов с четными номерами, хотя есть много способов сгруппировать элементы для формирования двух оценок (например, суммирование элементов 1,2,5,6,9,10 поставьте один балл и, суммируя пункты 3,4,7,8,11,12, получите второй балл). Мы вычисляем коэффициент корреляции Пирсона между двумя оценками, а затем слегка корректируем его в сторону увеличения с помощью так называемой формулы Спирмена – Брауна, потому что мы знаем, что тесты с меньшим количеством элементов менее надежны, чем тесты с большим количеством элементов.

Метод разделения половин раньше был очень популярен, но был заменен его логическим расширением, получившим название коэффициента альфа Кронбаха. Опять же, нет необходимости возиться с математикой; мы можем думать о коэффициенте Альфа Кронбаха как о среднем значении всех надежностей, полученных в результате разделения половин, которые мы могли бы вычислить всеми возможными способами разделения элементов на две группы. Коэффициент альфа Кронбаха стал самым популярным способом оценки надежности психологических показателей.Опять же, альфа 0,70 обычно считается минимальным уровнем приемлемой надежности.

Источник: CC0 Creative Commons

Анкеты самооценки — не единственный способ измерения личности. Мы также часто просим знакомых судить о личности человека, выставляя рейтинговые шкалы, сортируя описательные утверждения или заполняя анкеты, написанные от третьего лица. Поскольку эти методы содержат несколько элементов, мы можем вычислить альфа-коэффициент коэффициента Кронбаха так же, как и для самоотчетов.Но здесь есть и другой аспект, потому что у нас есть несколько человек (иногда до 6 или 10), которые выносят суждения. Степень согласия между судьями может быть определена количественно с помощью еще одного варианта корреляции, называемого межклассовой корреляцией или ICC. ICC — это заслуживающая внимания форма надежности измерения, потому что она показывает согласованность измерений разными судьями, а не просто согласованность оценок, выставленных отдельными людьми.

Источники ошибок, снижающие надежность

Во всех формах измерения есть некоторая погрешность измерения.Чем больше ошибка, тем ниже надежность измерения. Даже простые задачи физического измерения связаны с ошибкой измерения либо из-за самого измерительного инструмента, либо из-за того, как его использует человек, выполняющий измерения. В нашем примере измерительная лента для ткани дала ряд показаний, которые были либо больше, либо меньше фактической длины доски. Возможно, 25 показаний, которые были слишком низкими, были результатом неправильного натяжения ленты. И 5 показаний, которые были завышены? Возможно, лента сбилась, когда ее положили на доску.Некоторые из ошибочных показаний могли быть вызваны скорее человеческой небрежностью, чем физическими свойствами ленты. Даже с очень надежной стальной лентой одно показание было слишком низким, а другое — слишком высоким. Мы не всегда можем сказать, какая часть несовершенной надежности связана с самим измерительным прибором, а какая — с тем, как его использует человек, который измеряет.

То же самое и с психологическими тестами. Я думаю, что психологи склонны рассматривать надежность как «свойство» теста или анкеты.Но каждый раз, когда проводятся тесты, на результаты может повлиять поведение человека, проводящего тест — тон голоса и язык тела, даже если соблюдаются стандартные инструкции. И когда тесты проводятся в Интернете, кто знает, как условия в непосредственном окружении человека (уровень шума, отвлечение от других людей) и его собственное состояние (будь то внимательные, сонливые или пьяные) влияют на надежность тест.

Как психологи создают надежность с помощью повторных измерений

Возможно, вам знакома старая поговорка плотника: «Отмерь дважды, отрежь один раз».«На самом деле, первоначальная пословица, на которой основано это высказывание, приписывается Джованни Флорио, 1591:« Алвайс измеряет мани, прежде чем разрезать ани »(Розенбаум, Воган и Уайбл, 2015, стр. 10). — это признание ошибки измерения. В столярных работах разумно измерить кусок дерева несколько раз, прежде чем разрезать его, чтобы не разрезать доску слишком коротко и не тратить древесину. Повторное измерение повышает надежность.

Точно так же в психологии мы можем повысить надежность измерений, выполнив несколько измерений любого рода (будь то самооценка, оценка знакомых или лабораторные измерения).Как я отмечал ранее, когда у нас есть несколько знакомых, которые оценивают личность одного и того же человека, мы можем оценить надежность по степени согласия между судьями. Если это согласие достаточно велико, мы можем принять среднее суждение всех судей как самую надежную и точную оценку личности человека. Такое усредненное, составное суждение о личности будет более надежным, чем суждение одного оценщика, и будет более точным для предсказания дополнительных суждений о личности или будущем поведении (Hofstee, 1994).Теория, лежащая в основе этого, заключается в том, что любой отдельный судья может иметь некоторые уникальные, идиосинкразические предубеждения и ошибки в своих суждениях. Хороший друг может переоценить добросовестность человека, а критически настроенный руководитель — недооценить. Но когда вы усредняете суждения большого набора судей, эти уникальные предубеждения и ошибки нейтрализуют друг друга, оставляя более точную и надежную оценку личности.

Для самооценки у нас есть только одно «я», поэтому невозможно усреднить информацию, полученную от нескольких судей.Однако суммирование ответов на разные вопросы для измерения одного и того же признака достигает цели. Обычно мы думаем о добавлении пунктов из анкеты о самооценке личности как о показателе степени или уровня какой-либо черты. Например, если у нас есть вопросник о тревожности из десяти пунктов, тот, кто отвечает на все десять вопросов таким образом, который указывает на тревогу, будет иметь высокий уровень тревожности, а кто-то, ответивший таким образом только на половину вопросов, будет отвечать у кого-то есть умеренное беспокойство, а у кого-то, кто ответил таким образом только на один или два вопроса, низкий уровень беспокойства.Но Пол Э. Мил, которого называют самым умным психологом нашего времени, сказал, что подсчет ответов на вопросы не похож на накопление сантиметров в физических измерениях. Скорее, чрезвычайно высокие или низкие оценки просто представляют собой повышенную вероятность или уверенность в правильном принятии решения. Для нашей шкалы тревожности по шкале от 9 до 10 мы можем с уверенностью решить, что человек тревожится, по шкале от 1 до 2, что человек спокоен, и по средней оценке, мы не можем решить что-либо по поводу того, что происходит. человек с уверенностью.

С этой точки зрения, каждый пункт шкалы тревожности в основном спрашивает: «Этот человек тревожится или спокоен?» По десятибалльной шкале вы задаете этот вопрос десять раз. Если ответ каждый раз один и тот же (либо 10 тревожных ответов, либо 10 спокойных ответов), это указывает на надежное измерение, точно так же, как обнаружение доски длиной 36 дюймов каждый раз, когда мы ее измеряем.

Таким образом, суммирование ответов 10 пунктов по шкале личности можно рассматривать как аналогию усреднения суждений 10 знакомых о тревожности оцениваемого человека.(Разделите ли вы сумму на количество элементов, чтобы получить среднее значение, неважно; суммы и средние значения предоставляют одинаковую информацию, потому что они различаются только на константу.)

Такой взгляд на надежность имеет интересные последствия для обратной связи с людьми, заполняющими анкеты личности. Поскольку наша уверенность в результатах анкетирования высока только для относительно высоких или низких оценок, вероятно, будет разумным возвращать только три категории отзывов: одну для относительно высоких оценок, одну для относительно низких оценок и одну для средних оценок.Это именно то, что рекомендовал Хофсти (1994), учитывая типичную надежность личностных тестов. Любая схема обратной связи, пытающаяся использовать более трех категорий (например, очень низкая, умеренно низкая, средняя, ​​умеренно высокая, очень высокая), вероятно, даст противоречивые результаты, потому что вы пытаетесь принимать решения, которые более детализированы, чем надежность анкета поддерживает.

Конечно, существуют практические пределы повышения надежности за счет использования все большего количества пунктов в анкете для измерения признака.Личностный тест из десяти пунктов почти наверняка будет более надежным и полезным, чем личностный тест из одного пункта. Это особенно верно для оценки общих черт, таких как Большая пятерка (экстраверсия, уступчивость, сознательность, эмоциональная стабильность и интеллект / воображение). А мера из 20 пунктов должна быть более надежной, чем мера из 10 пунктов. Но будет ли мера из 50 пунктов лучше, чем мера из 20? Проблема с очень длинными анкетами заключается в том, что респонденты могут скучать, утомляться и иногда даже подозревать («Почему они продолжают задавать мне один и тот же вопрос по-разному? Если я отвечу непоследовательно, меня накажут?»).Если вы хотите измерить множество различных характеристик с помощью одной анкеты, анкета может содержать 200, 300 или 400 пунктов. Анкеты такой длины успешно использовались. Но оптимальная надежность требует баланса между использованием нескольких измерений и ограничением продолжительности измерений, чтобы респонденты были вовлечены.

Применение того, что вы узнали о надежности, в реальном мире

Я пишу сюда как профессионал по оценке личности.Хотя я сделал ряд технических замечаний относительно надежности измерений, я надеюсь, что то, что я написал, было понятно. Вопреки моему совету относительно длинных анкет, я, вероятно, занимался этими вопросами дольше, чем следовало бы. Я хотел бы закончить некоторыми практическими моментами о том, как вы можете применить информацию, которую я здесь представил, к вашему взаимодействию с психологическими мерами.

Источник: CC0 Creative Commons

Во-первых, надежность большинства так называемых «викторин» в Интернете, вероятно, даже не исследовалась, а тем более не сообщалась.Вперед, продолжать; найдите психологический тест на Facebook, пройдите его и посмотрите, сообщат ли вам оценку надежности альфа коэффициента Кронбаха для данного показателя. Неизвестная надежность этих неформальных опросов означает, что вы не знаете, какой ошибки измерения можно ожидать от викторины. Однако вы можете пройти тест несколько раз, чтобы каждый раз проверять, дает ли он одинаковый результат. В противном случае тест ненадежен (по крайней мере, для вас) и в основном бесполезен для вас.

Профессионалы намного лучше, когда дело доходит до надежности отчетов, потому что рецензенты и редакторы требуют, чтобы исследователи сообщали эту информацию для психологических тестов и анкет, чтобы результаты исследования были опубликованы в профессиональных журналах.Однако, когда профессионал пишет в сети более неформально для широкой аудитории, он может опустить эту информацию. Если вы не можете получить от них информацию о надежности, вам нужно относиться к тому, что они говорят, с недоверием.

Есть одна группа профессиональных исследователей, которая часто освобождается (хотя и не должна) от отчетности о надежности измерений: экспериментаторы, которые предъявляют стимулы участникам исследования (либо в лаборатории, либо в реальных ситуациях) и измеряют их реакции.Например, в известном исследовании Хартсхорна и Мэя изучалась последовательность честности у школьников, давая им возможность лгать или жульничать в различных школьных ситуациях. Их типичная корреляция между любыми двумя такими ситуациями была всего 0,23, что привело многих к выводу, что честность / нечестность не является постоянной чертой. Проблема с этим выводом состоит в том, что каждую из тестовых ситуаций Хартшорна и Мэя можно рассматривать как тест с одним элементом с неизвестной (но, вероятно, низкой, потому что это только один элемент) надежности.Фактически, объединение их тестов по одному пункту в меры по нескольким пунктам дает оценки надежности в пределах 0,70 или 0,80 (Эпштейн и О’Брайен, 1985). Итак, в следующий раз, когда экспериментатор (или кто-то другой, если на то пошло) попытается сказать вам, что несогласованное поведение в двух экспериментальных ситуациях доказывает отсутствие согласованности личности, помните, что поведенческие меры, состоящие из одного пункта, в этих двух ситуациях могут имеют низкую надежность и скептически относятся к этим выводам.

Наконец, важно помнить, что надежность — это не действительность.Надежность указывает на точность измерения, что отражается в многократном проведении аналогичных измерений. С другой стороны, валидность относится к тому, действительно ли процедура измерения измеряет то, что она должна измерять. Кто-то может сказать вам, что определенная викторина покажет вам, какой у вас уровень социального интеллекта. Кроме того, викторина продемонстрировала надежность: корреляция между тестами и повторными тестами за двухнедельный период составляет 0,90, а альфа Кронбаха 0,85 была вычислена для исследовательской выборки.Но как мы узнаем, что эта викторина на самом деле измеряет социальный интеллект, а не что-то еще? Как мы узнаем, что он не просто надежен, но и действителен? Объяснение обоснованности — тема моего следующего сообщения в блоге.

Интерактивная психология образования: надежность и валидность

Интерактивная психология образования: надежность и валидность

Надежность и валидность

Образец цитирования: Huitt, W. (1999, октябрь). Надежность и срок действия. Педагогическая психология Интерактивный .Валдоста, Джорджия: Штат Валдоста Университет. Получено [дата], из http://www.edpsycinteractive.org/topics/intro/relvalid.html


Сбор количественных данных (измерение) и проведение исследований всегда повышает вопросы надежности и обоснованности. Вопрос надежности по сути тот же для как измерения, так и дизайн исследования. Надежность пытается ответить на наши опасения по поводу согласованность собранной информации (т.е. можем ли мы зависеть от данных или выводы?), в то время как достоверность фокусируется на точности.Взаимосвязь между надежностью и валидность может сбивать с толку, потому что измерения (например, тесты) и исследования могут быть надежными не являются действительными, но они не могут быть действительными, если не являются надежными. Это просто означает что для того, чтобы тест или исследование были валидными, они должны последовательно (надежность) делать то, что они претендует на выполнение (действительность). Чтобы измерение (например, результат теста) считалось надежным, необходимо должен давать стабильную оценку; чтобы исследование считалось надежным, каждый при воспроизведении он тоже должен дать аналогичные результаты.

Словарные определения терминов, используемых в измерениях, часто дают только одну часть рисунок. Например, валидность дается как наречие «валидный», что означает «сильный.» К сожалению, этот тип определения недостаточно конкретен, когда термин используется в определенных контекстах, таких как тестирование или исследование. Дополнительно образование и Психология использует валидность по-разному, каждый из которых имеет несколько разновидностей.

В области тестирования (включая стандартные тесты и тесты, проводимые учителями), преподаватели и психологи озабочены содержанием, связанная с критерием (прогнозирующая) и построенная валидность.Дисциплины, которые проводят исследования связаны с другими типами валидности: внутренней и внешней. Проблемы обоснованность исследования обсуждается с общей перспектива Кэмпбелла и Стэнли (1966).

Ссылки:

  • Кэмпбелл Д. Т. и Стэнли Дж. К. (1966). Экспериментальные и квазиэкспериментальные проекты для исследований. Чикаго: Рэнд МакНалли.

Вернуться на:

Все материалы на сайте [http: //www.edpsycinteractive.org], если не указано иное, являются собственностью Уильям Г. Хайтт. Авторские права и другие законы об интеллектуальной собственности защищают эти материалы. Воспроизведение или ретрансляция материалов, полностью или частично, любым способом, без предварительного письменного согласия правообладателя, является нарушение закона об авторском праве.

Валидность, надежность и сомнительная роль психометрии в пластической хирургии

Plast Reconstr Surg Glob Open. 2014 июн; 2 (6): e161.

Из центра Swanson, Leawood, Kans.

Автор, ответственный за переписку.

Поступило 3 февраля 2014 г .; Принято 3 апреля 2014 г.

Copyright © 2014 Авторы. Опубликовано Lippincott Williams & Wilkins от имени Американского общества пластических хирургов. PRS Global Open — это издание Американского общества пластических хирургов.

Это статья в открытом доступе, распространяемая в соответствии с условиями лицензии Creative Commons Attribution-NonCommercial-NoDerivatives 3.0 License, где разрешено скачивать и публиковать работу при условии правильного цитирования.Произведение не может быть изменено или использовано в коммерческих целях.

Эта статья цитируется в других статьях в PMC.

Abstract

Summary:

В этом отчете исследуются значение достоверности и надежности, а также роль психометрии в пластической хирургии. В названиях исследований все чаще встречается слово «действительный» для подтверждения утверждений авторов. Исследования других исследователей могут быть помечены как «непроверенные». Достоверность означает просто способность устройства измерять то, что оно намеревается измерять.Валидность не является внутренним свойством теста. Это относительный термин, наиболее достоверно присвоенный независимым пользователем. Точно так же толкованию подлежит слово «надежный». В психометрии его значение синонимично слову «воспроизводимый». Определения действительного и надежного аналогичны точности и точности. Надежность (как достоверность данных, так и последовательность измерений) является предпосылкой достоверности. В пластической хирургии результаты оцениваются как исследования, а не тесты.Роль психометрического моделирования в пластической хирургии неясна, и эта дисциплина вводит сложный жаргон, который может отпугнуть исследователей. Достаточно стандартных статистических тестов. Однозначный термин «воспроизводимый» предпочтительнее при обсуждении согласованности данных. Дизайн и методология исследования являются важными факторами при оценке достоверности исследования.

Исследователи все чаще используют термин «валидация» для обозначения своих исследований. 1–14 Прежде чем мы выносим суждение об исследовании или тесте и называем его «подтвержденным» или «не подтвержденным», нам необходимо знать значение слова «подтверждено».Согласно словарю, 15 проверять означает «поддерживать или подтверждать на надежной основе». Доказательная медицина изучает надежность исследования с использованием таких критериев качества, как рандомизация, перспективный дизайн исследования и использование средств контроля. 16 Он представляет собой лучшую существующую структуру, по которой можно судить об обоснованности исследования. Подчеркивается важность методологических соображений. 16 В этом отчете исследуется значение валидности и надежности, а также роль психометрии в пластической хирургии.

ДЕЙСТВИТЕЛЬНОСТЬ

В общем смысле «действительный» означает хорошо обоснованный или оправданный, одновременно актуальный и значимый. 17 Статистически его значение более конкретное. Статистика начинается с цифр. Эта дисциплина не обязательно связана с тем, как они возникли. (Отсюда старое выражение «Есть ложь, проклятая ложь и статистика».) 18 Действительный тест — это просто тест, который измеряет то, что он намеревается измерить. 19–21 В этом смысле достоверность аналогична точности — термину, который также имеет более ограниченное статистическое значение.Срок действия не абсолютен 19 ; немногие тесты либо совершенно действительны, либо полностью недействительны. Например, шкала Каприни, вероятно, имеет некоторую степень достоверности при выявлении пациентов с повышенным риском тромбоэмболии, хотя, возможно, недостаточная достоверность, чтобы оправдать их использование в качестве меры скрининга для назначения антикоагулянтов. 22

Важно отметить, что достоверность не является внутренним свойством теста. 19 Проверка не является подтверждением подлинности, полученным в конце длительного пошагового процесса, аналогичного тестированию на наркотики для утверждения Управлением по санитарному надзору за качеством пищевых продуктов и медикаментов.Поскольку валидность не является неотъемлемым свойством теста, она не подлежит передаче. Например, шкала качества жизни, которая оказалась полезной при лечении остеопороза, не может считаться пригодной для оценки пациентов с уменьшением груди. 23 Анкета, разработанная для пациентов с уменьшением груди, не может считаться валидированной для оценки других типов операций на груди. 24 Достоверность — качество, наиболее достоверно присваиваемое независимыми исследователями. Теория относительности Эйнштейна была проверена и признана действительной независимыми астрономами, а не Эйнштейном. 25 Он не озаглавил свою знаменитую публикацию «Общая теория относительности: достоверная теория».

Путаница усугубляется тем, что было описано множество подтипов валидности. 19 — содержание, конструкция, критерий, конвергенция и внешняя валидность, и это лишь некоторые из них. По иронии судьбы, чем больше определяется достоверность, тем менее ясен ее смысл. Исследователи часто используют термины «валидность» и «надежность» как синонимы, когда ссылаются на свою шкалу. 6,9,12 Исследователи могут претендовать на достоверность только на основании воспроизводимости. 6,9,12 Корреляция между вопросами опроса, которые, как ожидается, будут иметь аналогичные ответы (например, в случае FACE-Q пациенты, которые считают, что они выглядят моложе, также оценивают свою внешность выше) 14 может быть предложена как доказательство действительности. Такое сравнение, конечно, делается на усмотрение следователя. Срок действия не поддается количественной оценке; он не выражается в единицах. Когда исследователь прикрепляет единицы измерения, указывается показатель воспроизводимости (т. Е. Повторяемость повторного тестирования или внутренняя согласованность), а не достоверность как таковая.

Строгая методология помогает обеспечить научную обоснованность и, следовательно, достоверность. 16 Существенные соображения включают последовательных пациентов, адекватный уровень включения и разумные критерии приемлемости, а также усилия по контролю или устранению сомнительных факторов. 16 Удивительно, но многие исследования, претендующие на валидность, не сообщают о последовательных пациентах, 1–6,8–12 коэффициентах включения, 1,3,4,6,8–12 или критериях отбора. 1,3,6,9–12 Вопреки предположению некоторых исследователей, 26 строгая методология не признает интервью с пациентами, фокус-группы, обширные полевые испытания или экспертные группы как критерии качества сами по себе.Доказательная медицина не очень уважает мнение экспертов. 16 Экспертные группы предполагают влияние общепринятых взглядов, которые, как известно, ненадежны.

НАДЕЖНОСТЬ И ВОСПРОИЗВОДИМОСТЬ

Что можно сказать о значении «надежность»? Согласно словарю, 27 надежный означает надежный и заслуживающий доверия. Отсюда следует, что надежные данные — это данные, которые были собраны научно обоснованным образом, что очень похоже на достоверность. В психометрии, однако, определение надежности несколько иное (что отражает досадную ошибку в номенклатуре в прошлом).Надежность означает последовательность — способность предоставлять воспроизводимые оценки. 19,21 В этом контексте надежность аналогична точности. Тест может быть точным (результаты согласованы), но неточным (средний результат не является истинным средним). Эта концепция проиллюстрирована с помощью мишеней и пулевых отверстий на рисунке. При рассмотрении исследования важно знать, используют ли исследователи слово «надежный» в значении «непротиворечивый» или в качестве синонима достоверности. Примечательно, что Международный словарь метрологии 20 не определяет надежность как параметр измерения.Вместо этого используется «воспроизводимость», и это измеримая величина. 20

Иллюстрации мишени и пулевых отверстий. Стрелок может стрелять в правильном направлении, но не всегда точно в цель (A). Статистически такого стрелка можно было бы назвать точным, но не точным. Обычно этот стрелок не является ни тем, ни другим. Стрелок может стрелять плотной группой, которая не находится по центру — точно, но неточно (B). Опытный снайпер хорошо прицеливается и постоянно стреляет в цель, точно и точно.Воспроизводимость продемонстрирована для целей B и C, но достоверность представлена ​​только для цели C.

Используя метрологические определения точности и прецизионности (также называемые «точность измерения» и «точность измерения»), 20 тест может быть точным но не совсем точно. Такое утверждение давно сбивает с толку студентов-статистиков, потому что оно противоречит здравому смыслу. С точки зрения статистики, «точный» тест может дать правильный средний результат, даже если некоторые точки данных существенно отличаются от истинного значения.(Третий термин, «правильность», определяется аналогичным образом.) 20 В общем случае, однако, никто не назовет стрелка точным (или истинным), если его или ее пули широко разбросаны, даже если пулевые отверстия с центром в яблочко (рис.). Как это обсуждение относится к достоверности и надежности? Воспроизводимость (или надежность в психометрическом понимании) является предпосылкой для достоверности теста, который последовательно дает истинные измерения, 19 , точно так же как точность является предпосылкой для действительно точного стрелка, который постоянно попадает в яблочко.Измерительный прибор не может быть непоследовательным и все еще действующим. Валидность — это окончательная оценка полезности теста.

ДЕЙСТВИТЕЛЬНОСТЬ ТРЕБУЕТ НАДЕЖНЫХ ДАННЫХ

Независимо от воспроизводимости результатов, действительный тест не может быть основан на недостоверных данных. 16 Этот факт интуитивно понятен и верен. Все мы знакомы с простой поговоркой: «Мусор на входе, мусор на выходе». Никакие статистические маневры не могут компенсировать некачественные данные. 16 Хотя это наблюдение может показаться очевидным, даже опытные исследователи могут увлечься психометрическими тестами и упустить из виду методологические гарантии, которые в первую очередь гарантируют достоверность данных. 28 Даже с достоверными данными их достоверность может быть поставлена ​​под угрозу, если в ходе опроса запрашивается информация, которая отличается от той, которую он намеревается измерить. 28

ПСИХОМЕТРИКА И ПЛАСТИЧЕСКАЯ ХИРУРГИЯ

Психометрия относится к разработке тестов, которые стремятся количественно оценить абстрактные качества, такие как интеллект, школьные способности и личность. 19 Истинная ценность неизвестна, а итоговые оценки могут иметь серьезные последствия, например, будет ли кандидат принят в колледж. 19 Следовательно, необходимо соблюдать дисциплину, чтобы постараться сделать вопросы как можно более справедливыми. Потребности в пластической хирургии совершенно разные. Наши анкеты предназначены для опроса, а не для тестирования. 28 Мы стремимся оценить удовлетворенность пациентов и улучшение качества жизни, которые являются наиболее важными факторами успеха хирургического вмешательства. 4,8,16 Пациенты оценивают наши достижения в достижении этих целей, 29 не наоборот. Опросы пациентов служат в качестве карточек успеваемости.Многие вопросы практичны и поддаются количественной оценке, например, будет ли пациент повторять операцию (просто да или нет) или время восстановления (измеряется в днях). 29 Совокупный балл, смешивающий ответы на опрос, 4,14 , согласно психометрическим шкалам, не является клинически полезным. 28

Действительно, актуальность психометрии для пластической хирургии остается под вопросом. Психометрия вводит жаргон, непонятный пластическим хирургам (например, конструкции, модель Раша, соответствие предмета, допущения масштабирования, таргетинг и эффекты пола / потолка).Читателя можно простить за то, что он подумал, что случайно открыл психометрический журнал. Пластические хирурги могут посчитать невозможным критически оценить такое исследование и просто отказаться от него. 30 Они, вероятно, потеряют энтузиазм по поводу любых попыток оценить своих пациентов, используя показатели результатов, сообщаемые пациентами.

КЛИНИЧЕСКАЯ АКТУАЛЬНОСТЬ

Правильная терминология — это не только академический вопрос. Если наши слова не подбираются тщательно, их значение теряется, и наша способность оценивать исследования (и должным образом лечить пациентов) оказывается под угрозой.Проблема настолько серьезна, что существует международный орган только для того, чтобы давать определения. 20 Ничто из этого не означает, что интервью с пациентами, которые могут занимать много времени, бесполезны при разработке вопросов исследования («достоверность содержания»). Стандартных статистических тестов (например, t тестов, хи-квадрат и корреляции Пирсона), хорошо известных пластическим хирургам, достаточно для анализа данных. 29 Нет необходимости в более сложном психометрическом моделировании.

Что, собственно говоря, оставляет нам это обсуждение? Оба термина «действительный» и «надежный» стали взаимозаменяемыми в обычном употреблении.Возможно, нам следует использовать более конкретные термины «воспроизводимый», «повторяемый» или «согласованный» при обсуждении степени вариации данных. При обсуждении валидности исследования мы должны ссылаться на научную достоверность данных и измерительного устройства с использованием хорошо известных критериев качества, связанных с дизайном и методологией исследования. 16 Нам следует проявлять осторожность, называя один показатель или исследование «подтвержденным», а другой «не подтвержденным». Это беспокойство распространяется на все исследования, а не только на те, которые используют психометрию.Нам следует быть особенно осмотрительными, когда мы называем наши собственные исследования подтвержденными. Практика включения слова «действительный» в название исследования стала настолько распространенной, что некоторые исследователи могут посчитать его включение обязательным, и если они не упомянут его, их исследованию может быть нанесен ущерб. По правде говоря, это корыстное обозначение ничего не добавляет к названию. Оставьте справедливость на усмотрение читателя или независимого исследователя.

ВЫВОДЫ

Практикующие пластические хирурги могут утешиться тем фактом, что авторы исследования не могут навязать им презумпцию достоверности.Это определение также не может быть передано на аутсорсинг. 16 Даже в культуре интеллектуального подавления («общепринятое мнение о стероидах») Галилей смог определить для себя, что более тяжелые предметы не падают на землю быстрее. Четыреста лет спустя нам все еще нужно признать догмы и бросить им вызов. Научный метод, вдохновленный Галилеем, — это все, что нам нужно, чтобы держать нас на истинном пути к знанию и пониманию.

Жаргон — это частично церемониальное одеяние, частично накладная борода.—Мейсон Кули

БЛАГОДАРНОСТЬ

Автор благодарит Гвендолин Годфри за иллюстрацию.

Сноски

Раскрытие информации: у автора нет финансовых интересов, которые он мог бы заявить в отношении содержания этой статьи. Стоимость обработки статьи оплачена автором.

СПИСОК ЛИТЕРАТУРЫ

1. Андерсон Р.К., Каннингем Б., Тафесс Э. и др. Проверка анкеты для оценки груди для использования с пациентами, перенесшими операцию на груди. Plast Reconstr Surg.2006. 118: 597–602. [PubMed] [Google Scholar] 2. Певица AJ, Arora B, Dagum A и др. Разработка и проверка новой шкалы оценки рубцов. Plast Reconstr Surg. 2007; 120: 1892–1897. [PubMed] [Google Scholar] 3. Томсон Дж. Г., Лю Ю. Дж., Рестифо Р. Дж. И др. Измерение площади поверхности женской груди: этап I. Валидация новой оптической техники. Plast Reconstr Surg. 2009; 123: 1588–1596. [PubMed] [Google Scholar] 4. Пусик А.Л., Классен А.Ф., Скотт А.М. и др. Разработка нового метода оценки результатов операции на груди, сообщаемого пациентами: BREAST-Q.Plast Reconstr Surg. 2009. 124: 345–353. [PubMed] [Google Scholar] 5. Браун BC, Маккенна С.П., Соломон М. и др. Оценка воздействия рубцов на пациента: развитие и подтверждение. Plast Reconstr Surg. 2010; 125: 1439–1449. [PubMed] [Google Scholar] 6. Бюхнер Л., Вамвакиас Г., Ром Д. Валидация фотонной шкалы оценки морщин для оценки морщин носогубной складки. Plast Reconstr Surg. 2010; 126: 596–601. [PubMed] [Google Scholar] 7. Creasman CN, Mordaunt D, Liolios T и др. Четырехмерная визуализация груди, часть II: клиническое внедрение и проверка системы компьютерной визуализации для планирования увеличения груди.Эстет Сург Дж. 2011; 31: 925–938. [PubMed] [Google Scholar] 8. Кано С.Дж., Классен А.Ф., Скотт А.М. и др. BREAST-Q: дальнейшая проверка на независимых клинических образцах. Plast Reconstr Surg. 2012; 129: 293–302. [PubMed] [Google Scholar] 9. Кейн М.А., Лоренц З.П., Лин Х и др. Валидация шкалы полноты губ для оценки увеличения губ. Plast Reconstr Surg. 2012; 129: 822e – 828e. [PubMed] [Google Scholar] 10. Штеффен А., Магриц Р., Френзель Х. и др. Психометрическая валидация анкеты по качеству жизни молодости и различий в лицах у пациентов после реконструкции уха с реберным хрящом при микротии.Plast Reconstr Surg. 2012; 129: 184e – 186e. [PubMed] [Google Scholar] 11. Кейн М.А., Блитцер А., Брандт Ф.С. и др. Разработка и проверка новой клинически значимой рейтинговой шкалы для измерения степени тяжести боковой кантальной линии. Эстет Сург Дж. 2012; 32: 275–285. [PubMed] [Google Scholar] 12. Лоренц З.П., Банк D, Кейн М. и др. Валидация четырехбалльной фотографической шкалы для оценки потери объема средней зоны лица и / или дефекта контура. Plast Reconstr Surg. 2012; 130: 1330–1336. [PubMed] [Google Scholar] 13.Kececi Y, Sir E, Zengel B. Проверка турецкой версии Шкалы оценки степени тяжести уменьшения груди. Эстет Сург Дж. 2013; 33: 66–74. [PubMed] [Google Scholar] 14. Классен А.Ф., Кано С.Дж., Скотт А.М. и др. Измерение результатов, которые важны для пациентов с подтяжкой лица: разработка и проверка шкалы оценки внешнего вида FACE-Q и контрольный список побочных эффектов для нижней части лица и шеи. Plast Reconstr Surg. 2014; 133: 21–30. [PubMed] [Google Scholar] 16. Свонсон Э. Уровни доказательности в косметической хирургии: анализ и рекомендации с использованием новой классификации CLEAR.Plast Reconstr Surg Glob Open. 2013; 1 [Бесплатная статья PMC] [PubMed] [Google Scholar] 19. Мерфи KR, Davidshofer CO. Психологическое тестирование: принципы и применение. 6-е изд. Верхняя Сэдл-Ривер, штат Нью-Джерси :: Пирсон / Прентис-холл; 2005. [Google Scholar] 20. Объединенный комитет руководств по метрологии, рабочая группа 2. Международный словарь метрологии: основные и общие понятия и связанные с ними термины. ISO / IEC Guide 99. 2007: 1–92. [Google Scholar] 21. Пусик А.Л., Лемейн В., Классен А.Ф. и др. Показатели исходов в пластической хирургии, сообщаемые пациентами: использование и интерпретация в доказательной медицине.Plast Reconstr Surg. 2011; 127: 1361–1367. [PubMed] [Google Scholar] 22. Swanson E. Химиопрофилактика для профилактики венозной тромбоэмболии: проблемы, связанные с эффективностью и этичностью. Plast Reconstr Surg Glob Open. 2013; 1 [Бесплатная статья PMC] [PubMed] [Google Scholar] 23. Swanson E. Рандомизированное контролируемое исследование, сравнивающее качество жизни, связанное со здоровьем, у пациентов, перенесших вертикальный рубец, и уменьшающую маммопластику в виде перевернутой Т-образной формы. Plast Reconstr Surg. 2014; 133: 59e – 60e. [PubMed] [Google Scholar] 24. Свонсон Э.Анализ результатов пациентов, перенесших аутоаугментацию после удаления грудного имплантата. Plast Reconstr Surg. 2014; 133: 216e – 218e. [PubMed] [Google Scholar] 25. Исааксон В. Эйнштейн: его жизнь и Вселенная. Нью-Йорк :: Саймон и Шустер; 2007. [Google Scholar] 26. Уорд Дж. А., Поттер С., Блейзби Дж. М. Руководящий комитет исследования BRAVO. BREAST-Q: дальнейшая проверка на независимых клинических образцах. Plast Reconstr Surg. 2012; 130: 616e – 618e. [PubMed] [Google Scholar] 28. Свонсон Э. The FACE-Q: Важность полного раскрытия информации и надежной методологии в исследованиях результатов.Эстет Сург Дж. 2014; 34: 626–627. [PubMed] [Google Scholar] 29. Swanson E. Проспективное исследование результатов 225 случаев увеличения груди. Plast Reconstr Surg. 2013; 131: 1158–1166; обсуждение 1167–1168. [PubMed] [Google Scholar] 30. Хаммонд, округ Колумбия. Обсуждение. BREAST-Q: дальнейшая проверка на независимых клинических образцах. Plast Reconstr Surg. 2012; 129: 303–304. [PubMed] [Google Scholar]

Надежность — IResearchNet

Надежность можно определить как степень, в которой оценки меры не подвержены влиянию ошибки измерения.Ошибка измерения отражается в случайных отклонениях баллов, наблюдаемых при измерении, от истинных баллов респондентов, которые представляют собой ожидаемые значения баллов респондентов, если они выполнили измерение бесконечное количество раз. Математически надежность определяется как отношение истинной дисперсии оценки к наблюдаемой дисперсии оценки или, что то же самое, квадрат корреляции между истинной оценкой и наблюдаемой оценкой. На основе этих индексов надежность может варьироваться от нуля (нет истинной дисперсии оценки) до единицы (нет ошибки измерения).

Надежность важна как для практических, так и для теоретических целей. Практически он позволяет оценить стандартную ошибку измерения, показатель точности результатов теста человека. Теоретически надежность способствует развитию теории, позволяя исследователям корректировать искажающий эффект ошибки измерения на наблюдаемые корреляции между показателями психологических конструктов и предоставляя исследователям оценку того, нуждается ли их процесс измерения в улучшении (например,г., если надежность невысока).

Источники ошибок измерения

Множественные источники ошибок измерения могут повлиять на наблюдаемую человеком оценку. Следующие источники являются общими в психологических мерах.

Ошибка случайного ответа

Ошибка случайного ответа вызвана кратковременным изменением внимания, умственной работоспособности или отвлечением в данном случае. Это характерно для момента, когда человек реагирует на элемент меры. Например, человек может по-разному ответить на один и тот же элемент в разных местах меры.

Временная ошибка

В то время как ошибка случайного ответа возникает в одном случае, временная ошибка возникает во всех случаях. Временные ошибки возникают из-за временных изменений настроения и чувств респондентов в зависимости от ситуации. Например, любой респондент может по-разному набрать баллы по методу, применяемому в двух случаях. Теоретически такие временные различия являются случайными и, следовательно, не являются частью истинной оценки человека, потому что они не коррелируют с оценками из измерения, выполненного в других случаях (т.е., они зависят от случая).

Ошибка конкретного фактора

Удельная факторная ошибка отражает идиосинкразические реакции на некоторый элемент ситуации измерения. Например, отвечая на вопросы теста, респонденты могут по-разному интерпретировать формулировку элемента. Теоретически конкретные факторы не являются частью истинной оценки человека, потому что они не коррелируют с оценками по другим элементам (например, пунктам) меры.

Ошибка рейтера

Ошибка оценщика возникает только тогда, когда наблюдаемая оценка человека (рейтинг) получена от другого человека или группы лиц (оценщиков).Ошибка оценщика возникает из-за идиосинкразических представлений оценщика о том, какое место он занимает на интересующей конструкции. Теоретически идиосинкразические факторы рейтинга не являются частью истинной оценки человека, потому что они не коррелируют с оценками, предоставленными другими оценщиками (т. Е. Они зависят от конкретного оценщика).

Типы коэффициентов надежности

Надежность индексируется с помощью коэффициента надежности. Есть несколько типов коэффициентов надежности, и они различаются в зависимости от источников наблюдаемой дисперсии оценки, которую они рассматривают как истинную оценку и дисперсию ошибок.Источники дисперсии, которые рассматриваются как дисперсия ошибок в одном типе коэффициентов, могут рассматриваться как истинная дисперсия оценок в других типах.

Внутренняя согласованность

Этот тип коэффициента надежности чаще всего встречается в психологических исследованиях (например, альфа Кронбаха, разделенная половина). Коэффициенты надежности внутренней согласованности, также известные как коэффициенты эквивалентности, требуют только одного применения меры и индексируют влияние конкретной факторной ошибки и ошибки случайного ответа на наблюдаемые баллы.Они отражают степень согласованности между оценками на уровне заданий по мере. Поскольку все элементы данного показателя вводятся в одно и то же время, они имеют общий источник дисперсии (т. Е. Временную ошибку), которая может не иметь отношения к интересующей целевой конструкции, но, тем не менее, вносит свой вклад в истинную дисперсию оценок в этих коэффициентах (поскольку это общий источник расхождения между элементами).

Тест-повторный тест

Коэффициенты надежности повторного тестирования, также известные как коэффициенты стабильности, индексируют влияние ошибки случайного ответа и временной ошибки на наблюдаемые баллы.Коэффициенты повторного тестирования отражают степень стабильности результатов теста в разных случаях и могут рассматриваться как корреляция между одним и тем же тестом, проведенным в разных случаях. Поскольку один и тот же тест проводится в каждом случае, оценки в каждом случае имеют общий источник дисперсии (т. Е. Конкретную факторную ошибку), которая может не иметь отношения к интересующей целевой конструкции, но, тем не менее, вносит свой вклад в истинную дисперсию оценок в этих коэффициентах (поскольку она является общим источником расхождений в разных случаях).

Коэффициенты эквивалентности и устойчивости

Коэффициенты эквивалентности и индекса стабильности — влияние конкретной факторной ошибки, временной ошибки и ошибки случайного ответа на наблюдаемые баллы. Эти коэффициенты отражают согласованность оценок по пунктам теста и стабильность оценок в разных случаях; их можно рассматривать как корреляцию между двумя параллельными формами меры, применяемой в разных случаях. Использование различных форм позволяет оценить конкретную факторную ошибку и ошибку случайного ответа, а администрирование в разных случаях позволяет оценить временную ошибку и ошибку случайного ответа.Следовательно, этот коэффициент можно рассматривать как комбинацию коэффициента эквивалентности и коэффициента устойчивости. Следовательно, коэффициент эквивалентности и стабильности является рекомендуемой оценкой надежности для большинства самоотчетов, поскольку он надлежащим образом учитывает все три источника ошибок измерения, не оставляя ни один из этих источников дисперсии для оценки истинной дисперсии оценок.

Внутриоперационная надежность

Коэффициенты внутренней надежности — тип коэффициента внутренней согласованности, который характерен для показателей, основанных на рейтингах — индексирует влияние конкретной факторной ошибки и ошибки случайного ответа на наблюдаемую дисперсию оценок.Эти коэффициенты отражают степень соответствия между пунктами, оцененными данным оценщиком в одном случае. Поскольку элементы оцениваются одним и тем же оценщиком (внутренним оценщиком) в одном и том же случае, у них есть два общих источника дисперсии (т. Е. Ошибка оценщика и временная ошибка), которые могут не иметь отношения к интересующей конструкции, но тем не менее вносят вклад в истинную дисперсию оценок в них. коэффициенты (поскольку они являются общими источниками дисперсии по элементам).

Надежность между экспертами

Как и коэффициенты внутриэкспертной надежности, межэкспертные коэффициенты также специфичны для оценок, основанных на оценках.Тем не менее, коэффициенты межэкспертной надежности индексируют влияние ошибки оценщика и ошибки случайного ответа на наблюдаемую дисперсию оценок. Они отражают степень согласованности оценок, выставленных разными оценщиками, и могут рассматриваться как корреляция между оценками от разных оценщиков, использующих единую меру в одном случае. Поскольку одна и та же мера рейтингов применяется к разным оценщикам (интероценкам) в одном и том же случае, рейтинги имеют два общих источника дисперсии (т.е. конкретная факторная ошибка и временная ошибка), которые могут не иметь отношения к интересующей целевой конструкции, но, тем не менее, вносить свой вклад в истинное значение. оценка дисперсии этих коэффициентов (поскольку они являются общим источником дисперсии для разных оценщиков).

Оценка коэффициентов надежности

Методы оценки только что описанных коэффициентов обеспечиваются двумя психометрическими теориями: классической теорией тестирования и теорией обобщаемости (G). Исследователи, которые применяют подход классической теории тестирования к оценке коэффициентов, часто вычисляют корреляции Пирсона между элементами меры (например, элементами, оценщиками и случаями), а затем используют формулу пророчества Спирмена-Брауна для корректировки оценки количества элементов. , оценщики или случаи, когда были собраны наблюдения по данному показателю.И наоборот, исследователи, которые применяют подход G-теории, сначала сосредотачиваются на оценке компонентов коэффициентов надежности (т. Е. Истинной дисперсии оценки или дисперсии универсальной оценки в терминах G-теории и дисперсии ошибок), а затем формируют соотношение с этими оценками, чтобы получить при оценочном коэффициенте надежности (коэффициент обобщаемости в терминах G-теории).

Факторы, влияющие на оценку надежности

Несколько факторов могут повлиять на величину коэффициентов надежности, которые исследователи сообщают для меры.Их потенциальное влияние на любую данную оценку должно быть рассмотрено, чтобы сделать соответствующую интерпретацию оценки.

Ограничения проектирования измерений

Величина коэффициента надежности частично зависит от источников отклонения, которые рассматриваются как ошибки. К сожалению, не все схемы измерения позволяют оценить все типы коэффициентов надежности. Таким образом, даже если исследователь может пожелать рассматривать источник отклонений в своей оценке как ошибку, не всегда возможно учесть ее в плане измерения.Например, исследователи не могут индексировать величину временной дисперсии ошибок в наблюдаемых оценках, если мера (или, по крайней мере, ее часть) не применялась несколько раз. В таком случае исследователю, возможно, придется сообщить коэффициент надежности, который переоценивает истинную надежность меры.

Измеряемые конструкции

Элементы, измеряющие различные конструкции, могут быть по-разному восприимчивы к источникам ошибок измерения. Например, предметы для более широких построений (например,g., добросовестность), скорее всего, будет сильнее зависеть от конкретной факторной ошибки, чем элементы для более узких конструкций (например, упорядоченность). Точно так же элементы, измеряющие устойчивые конструкты личности (например, Большая пятерка), могут быть менее подвержены временным ошибкам, чем элементы, измеряющие конструкции, связанные с аффектами.

Неоднородность образца

Хорошо известно, что ограничение диапазона ослабляет корреляцию между переменными. Поскольку коэффициенты надежности можно интерпретировать как квадрат корреляции между наблюдаемыми и истинными оценками, они также подлежат ограничению диапазона.Оценки надежности обычно выше, если они получены из выборки людей, которые сильно различаются по измеряемому конструкту, и ниже, если люди в выборке не сильно различаются по конструкту.

Длина теста

Баллы по мере обычно формируются путем суммирования или усреднения ответов по элементам. Поскольку конкретные факторные ошибки, связанные с элементами, не связаны с корреляцией, их вклад в наблюдаемую дисперсию оценок при суммировании или усреднении уменьшается пропорционально количеству элементов, включенных в меру.Значит, при прочих равных, чем больше на мерке позиций, тем выше ее надежность.

Ссылки:

  1. Feldt, L. S., & Brennan, R. L. (1989). Надежность. В Р. Л. Линн (ред.), Образовательное измерение (3-е изд., Стр. 105-146). Нью-Йорк: Американский совет по образованию.
  2. Nunnally, J.C. & Bernstein, I.H. (1994). Психометрическая теория (3-е изд.). Нью-Йорк: Макгроу-Хилл.
  3. Schmidt, F. L., & Hunter, J. E. (1996). Ошибка измерения в психологическом исследовании: уроки из 26 сценариев исследования.Психологические методы, 1, 199–223.
  4. Schmidt, F. L., Le, H., & Ilies, R. (2003). За пределами альфы: эмпирическое исследование влияния различных источников погрешности измерения на оценки надежности мер индивидуальных конструктов различий.