Коли мої результати не є значущими, насправді немає ефекту чи це те, що дослідження не змогло його виявити?
Або, навпаки, коли я маю значні результати, вони насправді є настільки позитивними чи експеримент переоцінює ефекти лікування?
І нарешті, як нам потрібно спланувати наше дослідження, щоб отримати більше шансів виявити значні ефекти?.
Напевно в якийсь момент ви натрапили на ці питання. Хто не! Усі вони пов'язані зі статистичною потужністю, яку сьогодні я спробую пояснити вам у цій публікації.
Опишіть ймовірність того, що тест правильно визначить справжній, реальний ефект. Простіше кажучи, це можливість відрізнити сигнал від шуму. Сигналом, який ми шукаємо, є вплив лікування на якийсь результат, який нас цікавить.
Уявіть, що ви хочете вивчити ефективність нового препарату від грипу. Ми прагнемо перевірити його ефективність (сигнал). Шум, який стосується нас, походить від складності даних (наскільки вони змінюються). Наприклад, в результатах буде шум, якщо ефективність препарату сильно залежить від віку людини або її статі.
Дійсно немає ефекту чи дослідження не змогло його виявити? Чи насправді результати є настільки позитивними чи експеримент переоцінює ефекти лікування? якщо ваш аналіз має низьку статистичну потужність, результати часто важко інтерпретувати.
Ми повинні планувати свої експерименти таким чином, щоб отримати велику силу контрасту, і таким чином бути впевненими, що ми зможемо продемонструвати вивчений ефект.
Як правило, значення Допустима потужність 0,80 і може використовуватися як еталон. Зазвичай дослідники розробляйте свої експерименти таким чином, щоб ваші результати мали значуще значення у 80% випадків.
Лікування (експериментальні або приладові проблеми) та фонові (сильно варіативні реакції) шуми неможливо контролювати, але ми можемо правильно розробити наш експеримент таким чином, щоб ми отримали високу потужність.
Потужність статистичного тесту пов'язана з:
- Розмір вибірки «n»: кількість випадків або суб'єктів, які беруть участь у дослідженні.
- "Альфа" рівень значущості: ймовірність відхилення нульової гіпотези, коли вона відповідає дійсності (помилка типу I або помилково позитивна). Зазвичай передбачається 5% або, що те саме, рівень довіри 95% (1-альфа).
- Розмір ефекту "d" або "r": є мірою зміни у відповіді. Спростивши трохи, ми можемо розрахувати міри, що відображають різницю середніх значень між групами (різниця середніх значень, поділена на стандартне відхилення), або міри, що вказують на зв'язок між змінними (коефіцієнт кореляції), відповідно до нашої мети.
Низька потужність може вказувати на невеликий розмір вибірки, менший альфа-ефект або невеликий розмір ефекту, а навпаки - на велику потужність.
Ми можемо підійти до проблеми статистичної потужності двома альтернативними способами:
- Апріорний підхід. Ми припускаємо рівень значущості (наприклад, 5%), значення для бажаної потужності (наприклад, 80%), і ми знаємо оцінки величини ефекту, який слід виявити з попередніх досліджень. Тому, мета - визначити, скільки предметів ми повинні враховувати під час дослідження, щоб відповідати цим критеріям.
- Апостеріорний підхід. Ми припускаємо рівень значущості (наприклад, 5%), маємо вибірку певного розміру (те, що ми змогли зробити) і обчислюємо розмір ефекту, який спостерігався в нашому дослідженні. Ми хочемо знати, наскільки потужним був наш аналіз для виявлення такого ефекту в проведеному нами дослідженні.
ПРИКЛАДИ: РОЗРАХУНКИ ПРІОРІ І ПОСТЕРІОРІ
Наступний приклад адаптований із книги Роберта Кабакоффа "R in Action" (2011).
Уявіть, що ми вимірюємо час реакції людей на зміни, що відбуваються в тренажері. У нас є дві групи випробовуваних, одна, в якій випробувані розмовляють по телефону, а інші - ні.
- Апріорі. Ми хочемо порівняти середній час реакції учасників обох груп.
З літератури ми знаємо, що час реакції має стандартне відхилення (SD) 1,25 секунди і що різниця в 1 секунду в часі реакції вважається важливою різницею (розмір ефекту буде d = 1/1,25 = 0,8 - різниця засобів, поділена на SD-). Для 90% потужності та 95% рівня впевненості, Скільки учасників нам потрібно у нашому дослідженні?
Якщо ми проводимо обчислення, наприклад, за допомогою пакета "pwr" від R, то отримуємо:
34 суб'єкти в кожній групі (загалом 68 суб'єктів) для виявлення ефекту розміром 0,8 з потужністю 90% та рівнем довіри 95%.
- A posteriori. Тепер припустимо, що ми вважаємо, що виявлення ефекту 0,5 у різниці між засобами популяції є достатнім, що ми можемо включити до дослідження лише 40 учасників і що ми будемо використовувати рівень довіри 99%. Яка ймовірність виявлення відмінностей між популяцією означає?
Припускаючи однакову кількість учасників у кожній умові:
Ми маємо менше 14% ймовірності знайти відмінності 0,625 секунди або менше (d = 0,5 = 0,625/1,25) з 20 учасниками у кожній групі та рівень значущості 0,01. Тобто ми маємо 86% ймовірності не виявити ефект, який ми шукаємо. Це змушує нас переосмислити час і зусилля нашого дослідження, як пропонується.
Статистична потужність дозволяє нам переосмислити час і зусилля наших досліджень.
Як вибрати відповідний розмір ефекту?
Визначення розміру ефекту є найскладнішим етапом в аналізі потужності та розміру вибірки.
Ідеальним є використання досвіду у досліджуваній темі.
Однак у деяких ситуаціях дослідження є абсолютно новим, і ми не маємо даних попередніх досліджень.
У цих випадках Коен (1988) пропонує певні правила для встановлення того, що ми будемо називати ефектами малих, середніх та довгих розмірів для статистичних тестів.
Однак будьте обережні, оскільки це асортимент, створений для соціальних досліджень, і може не застосовуватися у вашій галузі досліджень.
Альтернативою є варіювання параметрів та спостереження впливу цих полів на обсяг вибірки та статистичну потужність.
ПРИКЛАДИ: НОВІ СИТУАЦІЇ
- Ми хочемо порівняти 5 груп із 25 випробуваними на групу для рівня значущості 5%.
Розраховуємо потужність тесту для різних значень ефекту (f):
Потужність складе 11,8% для виявлення малого ефекту, 57,4% для виявлення помірного ефекту та 95,7% для виявлення великого ефекту.
Враховуючи обмежені розміри вибірки, ми можемо лише спробувати знайти великий ефект.
- Побачимо тепер чутливість наших параметрів.
Давайте обчислимо розміри вибірки, необхідні для виявлення діапазону розміру ефекту.
Цей графік дозволяє оцінити вплив зміни умов нашої експериментальної конструкції.
Ми бачимо, що в цьому випадку для 5 експериментальних груп вкладати гроші у збільшення обсягу вибірки понад 200 спостережень на групу не є корисним.
Статистична потужність дозволяє оцінити наслідки зміни умов нашої експериментальної конструкції.
Представляють статистичну потужність
ПРИКЛАД: Обсяг вибірки
- Ми використаємо приклад для побудуйте графік розміру вибірки, який нам потрібно було б використовувати у дослідженні, відповідно до значень ефекту (в даному випадку вимірюється коефіцієнтом кореляції) та передбачуваною статистичною потужністю.
Тобто, ми хочемо визначити розмір вибірки, необхідний для вирішення, чи є коефіцієнт кореляції статистично значущим, відповідно до діапазону величини ефекту та статистичних значень потужності:
Ми спостерігаємо, що нам потрібен розмір вибірки приблизно 75, щоб виявити кореляцію 0,20 з 40% впевненістю.
Нам також потрібно ще 185 спостережень (n = 260), щоб виявити ту саму кореляцію з 90% впевненістю.
Цей графік також може бути використаний для інших типів статистичних тестів, просто змініть кілька кроків.
Статистична потужність дозволяє нам визначити розмір зразків, необхідний для нашого експерименту.
Чи знайшов ви допис корисним? Чи знали ви значення статистичної сили? Як ви розраховуєте обсяг вибірки для вашого дослідження? Залиште свій коментар!
Цікаві посилання
* Коен, Яків (1988). "Статистичний аналіз потужності для поведінкових наук" (2-е видання). Хіллсдейл, Нью-Джерсі: Лоуренс Ерлбаум, асоційовані.
- Навчальна мережа Планування навчання з громадянської та етики 2 клас
- Використання фітотерапії для схуднення - навчальний блог CIM
- Об'єм або розмір втрачаються після збільшення грудей через спучування
- Зменште розмір ваших зображень та файлів без втрат за допомогою Leanify
- Яку потужність повинен мати електричний радіатор, щоб правильно нагрівати