Ми хочемо перевірити ефективність спеціальної дієти за допомогою самоконтрольованого експерименту. Вагу тіла кожного суб'єкта вимірювали до і після дієти. Результат гіпотетичного експерименту з 10 експериментальними суб'єктами наведено на рисунку 8.1. показано в таблиці.

біостатистика

8.1. Таблиця - Дані експерименту з дієтою

Тест: вага тіла до дієти; вага тіла після дієти - різниця1,8586-1
2.95905
3.75723
4.11010010
5.81756
6.92884
7.83830
8.94931
9.88826
10.105996
Середній90,886,84
SD10,799.253 333

Параметричний метод - парний t-тест

Параметричні методи припускають, що наші дані надходять із нормально розподіленої сукупності. Порівняння двох нормальних розподілів означає порівняння їх середніх значень та стандартних відхилень, для тих самих стандартних відхилень потрібно порівнювати лише середні значення. Параметричні тести, що порівнюють дві групи (t-тести), досліджують середню зміну, їх нульовою гіпотезою є те, що середнє значення двох досліджуваних популяцій однакове (1 = 2). У разі самоконтрольованих експериментів, беручи різницю пар даних, ми отримуємо єдиний набір даних, до цього набору різниць даних застосовується умова нормальності. Метод називається попарним t-тестом або, більш відомим як t-тест на вибірку для різниці. Метод був детально описаний у попередньому розділі, тут ми лише коротко його підсумуємо.

Відповідно до нульової гіпотези середнє значення сукупності різниці дорівнює нулю (? Різниця = 0), згідно з альтернативною гіпотезою воно відрізняється від нуля (? Різниця0). Тест можна виконати, використовуючи заданий довірчий інтервал для середнього значення різниці: якщо 0 потрапляє в довірчий інтервал, відхилення є незначним на даному рівні, якщо за межами, відхилення є значним. Однак визначення статистичної значущості найчастіше досліджують, використовуючи величину, позначену t, сформовану із середнього значення різниці вибірки, яка навіть залежить від кількості елементів та стандартного відхилення різниці:

середнє значення відмінностей, sd - стандартне відхилення відмінностей.

Можна показати, що якщо виконується умова нормальності і нульова гіпотеза відповідає дійсності, то зазначена вище величина відповідає розподілу Стьюдента з n -1 ступенями свободи. Якщо дійсно немає різниці між двома групами для порівняння, то a

і тому t також буде малим, близьким до нуля. Окрім рівня значущості та ступеня свободи, наведених з таблиці t-розподілу, можна визначити межу, до якої t -значення є “прийнятно малим”, так званий критичне t -значення (t, n-1). Якщо абсолютне значення t-значення, яке ми обчислюємо, перевищує критичне значення,

, тоді ми приймаємо рішення про альтернативну гіпотезу, тобто ми відкидаємо нульову гіпотезу і говоримо, що різниця знаходиться на значному рівні, позначеному напр. Якщо

, тоді ми приймаємо рішення про нульову гіпотезу і кажемо, що різниця несуттєва, стор.

Сьогодні, замість отримання критичних значень з таблиці, т. Зв p -значення використовується для прийняття рішення, оскільки воно обчислюється більшістю статистичних систем. Потім ми вирішуємо, порівнюючи p -значення з. P -значення - це ймовірність того, що якщо нульова гіпотеза відповідає дійсності, то ми отримаємо принаймні значення t з отриманим абсолютним значенням або навіть більшим.

Парний t-тест для однобічної альтернативної гіпотези. Якщо, на відміну від нульової гіпотези, ми лише досліджуємо, чи є зміна позитивною (або, у випадку іншої проблеми, негативною), тоді критичне значення шукається на одному краю розподілу t, тому, якщо необхідно, значення потрібно шукати у 2 "стовпцях". (t2, n-1), і значення p буде вдвічі менше двостороннього p-значення. Ми рідко використовуємо односторонній тест, оскільки гіпотези формулюються до проведення експерименту, коли більшу частину часу ми не знаємо напрямку змін.

Вирішення прикладу задачі за допомогою парного t-тесту

H0: = 0 (середня різниця сукупності 0)

Якщо: 0 (середня різниця сукупності відрізняється від 0, двостороння альтернативна гіпотеза)

, ступінь свободи df = 10-1 = 9, критичне значення t0.05.9 = 2.262. Починаючи з 3795 г 2262, ми відкидаємо нульову гіпотезу і говоримо, що різниця значна на рівні 5%.

Використовуючи статистичну програму для 9-го ступеня свободи, двостороннє значення p для t = 3,795 дорівнює p = 0,00425, значно менше 0,05, тому різниця настільки ж значна. THE

8.1. На рисунку 1 показано t-розподіл, критичне значення і p -значення (чорна область), що відповідає даним у прикладі.

У випадку односторонньої альтернативної гіпотези ми лише досліджуємо, чи зменшилася маса тіла, тобто чи є середньою різницею, що вказує на зміну, позитивна популяція. Тоді при рівні значущості 5% критичним значенням t є t0,1,9 = 1,66, і порівняно з 3,795, ми отримуємо, що ефект є значним. Одностороннє значення p дорівнює p = 0,002125. На малюнку двостороння величина p - це розмір двох маленьких чорних областей разом на двох краях розподілу.

Двосторонній тест також можна провести на основі 95% довірчого інтервалу. Для обчислення інтервалу використовуйте однакове критичне значення t у таблиці, тобто додайте та відніміть значення

кількість. Дві кінцеві точки інтервалу складають 4 2384, отже 95% довірчий інтервал для середнього значення різниці (1616, 6,384). Ймовірність того, що середня популяційна характеристика середньої втрати ваги потрапляє в цей діапазон, становить 95%. Однак інтервал не включає середнє значення "0" відповідно до нульової гіпотези. Тому ми вирішили, що відхилення є значним на рівні 5%. Зауважте, що довірчий інтервал, крім того, що використовується для прийняття рішень, в основному використовується для оцінки величини “ефекту”.

Непараметричні методи, тест на знаки, тест на рейтинг знаків Вілкоксона

У разі непараметричних методів розподіл різниці пар даних не вважається нормальністю розподілу, оскільки або ми не можемо це перевірити, або немає сенсу перевіряти, наприклад очевидно перекошений або для невеликої кількості зразків, або для порядкових даних.

У цьому розділі ми представляємо непараметричні методи, засновані на перерахуванні, у випадку самоконтрольованого експерименту таким тестом є тест на знаки та тест на рейтинг знаків Вілкоксона. Нульовою гіпотезою обох є те, що розподіл двох популяцій однаковий.

Щоб виконати перевірку знаків (див. Попередній розділ), ми спочатку формуємо різницю між двома зразками, а потім підраховуємо кількість негативних та позитивних різниць (опускаючи нулі). Якщо вихідні дві змінні мають однаковий розподіл, ми отримуємо приблизно однакову кількість негативних і позитивних відмінностей. Для тесту існує статистична таблиця, в якій ви можете знайти кількість елементів вибірки та скільки відмінностей можна вважати значущими (це обчислюється на основі біноміального розподілу). У випадку великої кількості елементів вибірки (g30) може бути використана формула, для якої таблиця нормального розподілу вже може бути використана для пошуку p -значення. Завдяки своїй простоті, тест на знаки зазвичай використовується для швидкого ознайомлення.

Тест підписаного рангу Вілкоксона враховує не тільки знаки, а й порядки відмінностей, тому він є більш потужним, ніж тест на знаки. На відміну від тесту на знаки, умовою цього тесту є симетричність розподілу різниці. Його реалізація полягає в наступному: відмінності між елементами вибірки класифікуються незалежно від знаків, будь-які нулі пропускаються.

Класифікація здійснюється наступним чином: ряди даних сортуються за розміром, а найнижчий - 1, наступний - 2 і так далі. Загалом ми присвоюємо n звань. Навіть у випадку рівних даних ми даємо зростаючий ранг, і тоді ранги, що належать до рівних даних, згодом коригуються із середнім показником відповідних рангів (виправлені звання називаються зв'язаними рангами). Правильність ранжування можна перевірити, додавши отримані рейтинги, ця сума повинна дорівнювати n (n + 1)/2 (сума першого цілого числа "n").

Потім під час тестування ми додаємо рейтинги позитивних чи негативних відмінностей окремо (насправді достатньо лише одного). Якщо нульова гіпотеза відповідає дійсності і дві сукупності розподіляються однаково, тоді суми позитивних позитивних та негативних різниць будуть приблизно однаковими. Чим більша різниця між однією з двох сукупностей, тим більша різниця між двома ранговими сумами. Яку різницю ми все ще можемо вважати випадковою? Для невеликої кількості вибіркових позицій (nl30 або nl50) доступні таблиці, що дають інтервал, для якого сума рангу все ще може вважатися випадковим відхиленням. У випадку великої кількості вибіркових одиниць або якщо існує велика кількість зв'язаних рангів, значимість можна дослідити на основі нормального розподілу, використовуючи приблизно нормально розподілену статистику:

Тут чисельник містить суму всіх підписаних рейтингів, а знаменник - квадратний корінь з їх суми квадратів. Комп’ютерні програмні системи зазвичай обчислюють це р-значення з нормального наближення навіть для невеликої кількості зразків, коли наближення не дуже добре.

Оцініть приклад завдання за допомогою підписаного рангового тесту

Ранжування відмінностей проводиться за абсолютним значенням відмінностей (тобто незалежно від знака). Найменше число - 1, воно отримує ранг 1. Оскільки серед різниць є дві одиниці, ми першій 1 присвоюємо рейтинг 2, а потім коригуємо її у стовпці «пов’язані ранги», присвоюючи обом рейтинг 1,5 (в середньому 1 та 2). Ми робимо те ж саме з трьома 6.

8.2. Таблиця 8.1 - Виконайте підписаний ранговий тест за даними таблиці 8.1.

Піддослідний Різниця у вазі тіла Рейтинги незалежно від знака Зв’язані чини Підписані чини Підписані квадрати рангів1.-111,5-1,52,25
2.555525
3.33339
4.1099981
5.667749
6.444416
7.0 0
8.121.51.52.25
9.677749
10.687749
Сума 42282,5

Ряди знака рівності додаються. Сума позитивних рангів є R + = 43,5, а сума негативних рангів R- = 1,5. У таблиці для p = 0,05 та n = 9 суми ранжування від 5 до 40 можна вважати випадковими. Обидва рангові суми виходять за межі цього інтервалу, тому ми отримуємо значну різницю на рівні 5%. Кількість елементів зараз невелика, і є лише 1 зв’язаний ранг, проте обчисліть значення z за формулою (8.2): z = 42/282,5 = 2499. Відповідне значення p від стандартного нормального розподілу дорівнює p = 0,012. Таким чином, зміна також є значною на рівні 5% на основі непараметричного методу.