М. дослідження
Покажчик змісту
Вступ
У будь-якому дослідженні ключовим питанням є надійність використовуваних процедур вимірювання. Як зазначає Флейс у контексті клінічних досліджень, навіть найелегантніші конструкції не зможуть пом'якшити шкоду, заподіяну ненадійною системою вимірювання.
Важливим джерелом похибки вимірювання традиційно визнається мінливість між спостерігачами. Отже, однією з цілей досліджень надійності має бути оцінка ступеня такої мінливості.
У цьому сенсі два різні аспекти зазвичай складають частину дослідження надійності: з одного боку, упередженість між спостерігачами –Встановлене менш суворо, тенденція одного спостерігача постійно надавати вищі значення, ніж іншого–, а іншого, домовленість між спостерігачами –Тобто, наскільки спостерігачі погоджуються у своїх вимірах–.
Дотримуючись цього другого аспекту, конкретний спосіб вирішення проблеми тісно залежить від характеру даних: якщо вони постійні, використання оцінювачів коефіцієнта кореляції внутрішньокласового зв’язку є загальним, тоді як при роботі з категоріальними даними найбільш часто використовується статистика індекс каппа, якому ми присвячуємо решту цієї статті.
Індекс Каппи
Припустимо, що два різні спостерігачі незалежно класифікують вибірку з n предметів в одному наборі іменних категорій C. Результати цієї класифікації можуть бути зведені в таблицю, таку як таблиця 1, в якій кожне значення xij представляє кількість предметів, класифікованих спостерігачем 1 у категорії i та спостерігачем 2 у категорії j.
Наприклад, ми можемо подумати про двох рентгенологів, котрі стикалися із завданням класифікувати зразок рентгенограм за шкалою: «ненормальний, сумнівний, нормальний». У таблиці 2 наведено гіпотетичний набір даних для цього прикладу, розміщений за схемою в таблиця 1.
З типово статистичної точки зору, доцільніше звільнитися від конкретної вибірки (n елементів, класифікованих двома спостерігачами) і думати категоріями сукупності, з якої передбачається взяти вибірку. Практичним наслідком цієї зміни кадру є те, що ми повинні змінити схему таблиці 1, щоб замінити значення xij кожної комірки на спільні ймовірності, які ми позначимо by ij (таблиця 3).
З типом схематизації, який ми запропонували в таблицях 1 або 3, очевидно, що відповіді, що вказують на згоду, є тими, які розташовані на головній діагоналі. Дійсно, якщо фрагмент даних знаходиться на зазначеній діагоналі, це означає, що обидва спостерігачі класифікували об'єкт в одній категорії класифікаційної системи. З цього спостереження природно випливає найпростіший із заходів згоди, який ми розглянемо: сума ймовірностей по головній діагоналі. Якщо в символах позначити цю міру через Π 0, це буде
де індекси підсумовування переходять від i = 1 до i = C. |
Очевидно, що це правда | |
значення 0, що відповідає мінімально можливому узгодженню та 1 - максимальному. |
Незважаючи на те, що цей простий покажчик пропонується іноді як міру згоди на вибір, його тлумачення не позбавлене проблем. Таблиця 4 ілюструє тип труднощів, які можуть виникнути. У випадку A, Π 0 = 0,2, тому згода набагато менше, ніж у випадку B, де Π 0 = 0,8. Однак, обумовлюючи граничні розподіли, спостерігається, що у випадку А конкордація є максимально можливою, тоді як у випадку В вона є мінімальною.
Отже, очевидно, що пошук повинен бути спрямований на нові заходи згоди, які враховують граничний розподіл, щоб розрізнити два різні аспекти угоди, які ми могли б неофіційно називати абсолютними або відносними згодами. Індекс каппа представляє внесок у цьому напрямку, в основному шляхом включення у свою формулу виправлення, що виключає згоду виключно завдяки випадковості - виправлення, яке, як ми побачимо, пов'язане з граничними розподілами.
З позначеннями, вже використаними в таблиці 3, індекс каппа, Κ, визначається як
[1] | |
де індекси підсумовування переходять від i = 1 до i = C. |
Повчальним є аналіз попереднього виразу. Спочатку зауважимо, що якщо ми припускаємо незалежність випадкових величин, що представляють класифікацію одного і того ж елемента двома спостерігачами, то ймовірність того, що елемент класифікується обома в одній категорії i, є Π i.Π .i. Отже, якщо ми поширимо підсумовування на всі категорії, ∑ Π i.Π .i - це саме ймовірність згоди обох спостерігачів з причин, що пов’язані виключно з випадковістю. Отже, значення Κ - це просто відношення між спостережуваною згодою перевищення, що перевищує приписану випадковості (∑ Π ii - ∑ Π i.Π .i) та максимально можливим перевищенням (1 - ∑ Π i.Π. i) .
Максимально можлива узгодженість відповідає Κ = 1. Значення Κ = 0 отримується, коли спостерігається згода - саме те, що очікується лише завдяки випадковості. Якщо згода більша, ніж очікувалося, просто через випадковість, Κ> 0, тоді як якщо вона менша, див. Вище). Для розуміння таких парадоксальних результатів варто пам’ятати коментарі, які ми зробили вище щодо обмежень індексу the 0.
При інтерпретації значення Κ корисно мати такий масштаб, як показано нижче, незважаючи на його довільність:
Перевірка гіпотез та довірчі інтервали
Отримання простої точкової оцінки значення Κ не дає нам жодних свідчень про точність цієї оцінки. З точки зору довідкової статистики, важливо знати мінливість оцінювачів та використовувати ці знання при формулюванні тестів гіпотез та побудові довірчих інтервалів.
Флейс, Коен та Еверіт дають вираз асимптотичної дисперсії - тобто для нескінченно великих вибірок - оцінювача k, коли справжнє значення Κ дорівнює нулю:
[3] |
Замінивши теоретичні ймовірності, яких ми не знаємо, пропорціями вибірки, отримаємо оцінку ∑ 0 2 (k), яку позначимо s0 2 (k):
[4] |
Ми можемо використати цей результат для перевірки нульової гіпотези, що Κ дорівнює нулю проти альтернативи, яка не є, використовуючи коефіцієнт як статистичну перевірку
[5] |
(| k | позначає абсолютне значення k) та порівняння його значення з квантилями стандартного нормального розподілу. З даних таблиці 2, k = 0,6600 і s0 2 (k) = 0,0738, тоді | k |/s0 (k) = 8,9441 і оскільки z 0,975 = 1,96, ми робимо висновок, що на рівні значущості Δ = 0,05 значення k є значущим і призводить до того, що Κ дорівнює нулю.
Корисність попередньої перевірки гіпотези є дискусійною, оскільки, як правило, доцільно очікувати певної міри згоди поза випадковістю, ми тривіально знайдемо значний результат. Для проведення більш цікавих перевірок гіпотез необхідно знати вираз асимптотичної дисперсії, коли Κ не приймається рівним нулю. Вираз значно складніший, ніж [3]:
[6] |
де: | T1 = ∑ π ii, T2 = ∑ π i.π .i, T3 = ∑ π ii (π i. + Π .i), T4 = ∑ ∑ π ij (π j. + Π .i) 2 . |
Можна показати, що коли Κ дорівнює нулю, вираз [6] зводиться до [3]. Щоб перевірити нульову гіпотезу про те, що Κ дорівнює заданому значенню Κ0 щодо двосторонньої альтернативи, ми продовжуємо, як у випадку Κ = 0, лише використовуючи як тестову статистику:
[7] |
де s (k) тепер квадратний корінь s 2 (k), оцінювач ∑ 2 (k), отриманий шляхом підстановки в [6] ймовірностей пропорцій вибірки. Очевидно, що випадок Κ = 0, який ми пояснили раніше, є не що інше, як окремий випадок цього тесту, з кращою оцінкою стандартної помилки.
- Методологія; до інветигаці; n Систематичні огляди та мета-аналіз (II)
- Методологія; до інветигаці; n Параметричні методи порівняння двох засобів
- Методологія; до інветигаці; n Шукайте Medline за допомогою посібника користувача Pubmed іспанською мовою
- Додаткові заходи для лікування кишкових паразитів - Краще зі здоров’ям
- Заходи профілактики та догляду за лімфедемою в м