Статистичний аналіз

Кілька днів тому симпатична студентка-психолог попросила мене про допомогу щодо якоїсь теми, і після того, як ми її обговорили, вона припустила, що тут буде інша тема, яка потребує допомоги від її команди. Хоча я спочатку не хотів цим займатися, я думав, що спробую допомогти команді підготуватися до наступного ZH. Проблема, яку він порушив, була узагальнена у таблиці:

студентів

Тобто питання полягало в тому, який тип тестів гіпотез можна використовувати для вивчення середніх значень наборів даних, які мають невелику кількість елементів, але зазвичай не розподіляються. Більш конкретно, питання полягало в тому, що «секретні кодові імена» позначено у кришці стовпця «Тому що». Я вже мав справу з t-тестом з одним зразком (пивовар, який здійснив революцію у статистиці та як це зробити за допомогою Minitab - t-тест з одним зразком), але ще не брав непараметричні тести. До того ж, інші імена в колонці мені теж не багато говорять (припустимо, я цим не пишаюся). Але я вирішив надіти рукавички і вистояти перед викликом. Я не обіцяв виходити в чергу, тому зараз я збираюся запровадити метод під назвою «Тест з підписаним рейтингом Вілкоксона для медіани» - це ім’я, яке він каже мені абсолютно нісенітницею. Угорська назва ще більш нудна, і навіть не випадково виявляється, для чого вона потрібна. Раніше я отруївся і намагався описати зрозумілою для земних смертних, як я, мовою, що це насправді.

Цей тест був винайдений джентльменом на ім'я Френк Уілкоксон у 1945 році і був одним із перших непараметричних тестів в історії статистики, а це означає, що немає особливих обмежень щодо розподілу досліджуваного набору даних. Існує лише дві умови використання тесту:

  • Досліджувана змінна повинна бути безперервною
  • Функція щільності розподілу набору даних повинна бути симетричною

Мета тесту - визначити, чи дорівнює медіана досліджуваної випадкової вибірки припущеній медіані популяції. Виходячи з цього, передбачувана нульова гіпотеза така:

Відповідно, зустрічна гіпотеза

або у випадку односторонньої контргіпотези

Але чому ми беремо медіану за основу, а чому не середню? Коли мова зайшла про середні міри ряду даних (міри середніх значень наборів даних), я згадав, що середнє дуже чутливе до відсутніх значень, але медіана не має цієї властивості. Поки досліджуваний набір даних нормально розподіляється, насправді неважливо, чи будемо ми обчислювати із середнім значенням або медіаною, але якщо розподіл набору даних є косим або асиметричним, тоді медіана дає кращу оцінку середнього значення набір даних, ніж середнє значення або режим.

У цьому прикладі ми досліджуємо довжину випадково відібраних особин чорного карликового окуня (див. Зображення вище). Розміри вибраної риби такі:

5,0; 3,9; 5,2; 5,5; 2,8; 6.1; 6.4; 2.6; 1,7; 4.3

Питання в тому, чи медіана довжини карликового судака суттєво відрізняється від 3,7?

Щоб вирішити це питання, нам потрібно створити таблицю. Перший стовпець таблиці буде мати порядковий номер, а у другий стовпець я ввів вищезазначені дані.

На першому кроці нам потрібно розрахувати для кожного значення, наскільки вони віддалені від даної медіани ‘m0’. Це знайома історія, на початку блогу, коли описували розкид рядів даних (Розсіяння елементів наборів даних - Стандартне відхилення та дисперсія), те саме відбувалося лише тоді, коли за середнє приймали значення середнє значення ряду даних.

Однак і тут проблема полягає в тому, що деякі відхилення більші за нуль, а інші менші. Для того, щоб відсортувати елементи ряду даних відповідно до їх відстані від медіани, візьмемо абсолютне значення цих відстаней:

Гаразд, тоді ми відсортуємо абсолютні значення різниць між «Довжиною» та «m0» у порядку зростання та напишемо біля кожного фрагмента даних, скільки він чи вона в рейтингу. Наприклад, у четвертому стовпці 1,3 - це п'ята найменша відстань від медіани, тому він отримує число п’ять, а 0,2 - найменша відстань, отже, він отримує одиницю. Я не надто ускладнював це, переставив таблицю за зростанням на основі четвертої колонки, заповнив поле ‘Rank (Ri)’ порядковими номерами, а потім переставив всю таблицю за зростанням відповідно до першої колонки.

Це має сенс у тому, що до кінця тесту ми будемо продовжувати працювати лише з рангами, для яких відстань від „Довжина” до медіани є позитивним значенням. Думаю, саме тому розподіл даних повинен бути симетричним, оскільки тест враховує лише стандартні відхилення. В іншому випадку цього можна досягти іншим способом, визначивши змінну ‘Zi’, значення якої дорівнює 0, якщо відстань ‘Довжина’ від медіани від’ємне та 1, якщо ця відстань позитивна. Потім продукт "RiZi" можна підсумувати, щоб отримати значення W.

Отже, ми отримали статистику судового розгляду. Тепер ми повинні визначити межу, за допомогою якої ми можемо вирішити, чи може медіана ряду даних дорівнювати передбачуваному значенню ‘m0’, тобто 3,7. Однак для цього нам потрібно було б знати, як розподіляється W!

Щоб зрозуміти розподіл статистики тесту W, нам потрібно зробити невеликий обхід. Оскільки можливі значення W будуть дискретними даними через логіку визначення рангу, визначення межі W також буде дещо іншим, ніж звичайне. По-перше, давайте розглянемо, яке може бути найменше можливе значення, яке може прийняти W. Завдяки визначенню W, це буде нулем, оскільки якщо всі елементи вибірки менше медіани значення 'm0', заданої нами (пам'ятайте, що m0 - це не медіана вибірки, а значення, яке ми даємо), тоді різниця всіх елементів буде від’ємною, тому жоден не буде врахований при обчисленні W.

І яке найбільше значення може прийняти W? Це може статися, якщо всі елементи у вибірці перевищують зазначену межу «m0». Тоді відстань усіх елементів даних є додатною і, таким чином, враховується при обчисленні W.

Оскільки ми додаємо порядковий номер даних при обчисленні W (а ‘Zi’ завжди буде 1), отримуємо W таким чином:

Якщо взяти ці натуральні числа і з’єднати їх наступним чином, ми отримаємо це

Тобто для парної кількості елементів значення кожної пари буде 7, тобто n + 1, і ми отримаємо n/2 таких пар. Для непарних чисел логіка подібна, давайте подивимось:

Тут також сума пар буде n + 1, але сформується n/2-1 пар. Однак є зайва «половина пари», значення якої дорівнює рівно (n + 1)/2. Ось як змінюється сума:

Тобто, якщо ми маємо n-1 n + 1 суми в лічильнику і знову додамо n + 1 до нього, ми матимемо n n + 1 суми, тобто ми отримаємо вищезгадане відношення так само красиво. Виходячи з них, можна сказати, що W є дискретною випадковою величиною, значення якої можуть коливатися від 0 до n (n + 1)/2.

Підемо на крок далі. Припустимо, що n = 2, тобто наш набір даних складається з двох елементів, 1 і 2. Тоді які значення може приймати W залежно від того, чи має 1 або 2 позитивний чи негативний знак?

Як бачите, значення W може з рівною ймовірністю приймати 0, 1, 2 або 3. Тобто для достатньо великої кількості зразків ймовірність того, що буде взято будь-яке з цих чисел, однакова, зокрема 1/4, або 0,25.

Що відбувається, коли наш зразок має три елементи?

Тоді ми маємо 8 різних комбінацій, результати яких можуть приймати значення від 0 до 6. Як бачите, 3 може вийти двома шляхами, тому ймовірність появи 3 може бути 2/8 для досить великої кількості експериментів, тоді як усі інші числа можуть вийти з 1/8 ймовірністю.

І якщо ми маємо зразок з 4 предметів?

Ось скільки разів виходять різні значення?

Як бачите, 0, 1 і два, а також 8, 9 і 10 трапляються лише один раз, але 3, 4, 5, 6 і 7 можуть вийти двома способами. Потім тепер збільште кількість елементів у вибірці ще на один:

Повторне вивчення частоти кожного значення W дає подібний результат. Тут також можна помітити, що екстремальні значення з’являються рідше, а середні - частіше. це пов’язано з тим, що значення в середині можуть виводитися у декількох комбінаціях.

Гей, це звідкись знайоме! Я вже робив подібний експеримент із кубиками (Чому нормальний розподіл так часто трапляється в природі?) Де були отримані дуже схожі результати. Тобто, можна припустити, що для досить великого n частоти W йдуть за нормальним розподілом. Якщо значення n мало, ми не повинні боятися виконувати вищевказану серію вправ у будь-якому випадку, на щастя, хтось від 4 до 12 вже зробив невеличку роботу за нас і склав таблицю ймовірностей, які ми шукаємо:

Як користуватися таблицею вище? Значення n у лівій частині таблиці, а потім наступні два стовпці є крайніми діапазонами значень W для цього n, тобто стовпець 'w1 *' містить ймовірності, якщо W мало, а стовпець 'w2 * 'містить, коли W велике. Третій стовпець показує значення P. Якщо ми шукаємо розраховане значення W у таблиці для даного n, відповідне значення P дає ймовірність того, що W прийме це або більше екстремальне значення. Це значення P буде порівняно з межею довіри, обраною під час тесту (0,05 або 0,01). Якщо значення Р більше межі довіри, нульова гіпотеза приймається, якщо менша - відхиляється. Ми повинні звернути увагу на одне: Оскільки ми спостерігаємо лише позитивну сторону розподілу вибірки під час тесту, але тест гіпотези є двостороннім, ми завжди повинні приймати подвійне значення Р.

Давайте розглянемо це в нашому прикладі вище:

Оскільки доступні дані про 10 чорних карликових окунів, ми будемо працювати з n = 10, тобто з цією частиною таблиці. Тут ми маємо знайти значення W = 40, отримане вище. Ми також виявили відповідну ймовірність 0,116. Ми все ще повинні помножити це на два, тому 2 x 0,116 = 0,232 виходить для P. Це набагато більше початково обраної 0,05, тому ми приймаємо нульову гіпотезу, тобто медіана сукупності, представлена ​​вибіркою, може становити 3,7.

Для достатньо великої кількості вибірок (я думаю, це означає більше 30 значень, оскільки цей метод базується на теоремі про центральний граничний розподіл) нам потрібно підійти до історії іншим методом. Тоді W 'можна обчислити за такою формулою:

Якщо W обчислюється за цією формулою, то W1 дотримується стандартного нормального розподілу (Перший серед рівних - Стандартний нормальний розподіл). Ура, тоді в цьому випадку ми можемо використовувати як критерій прийнятності межі достовірності стандартного нормального розподілу, відомі під час Z-тесту одного зразка (Z як Z-тест - Один зразок):

Короткий зміст: Спочатку значення назви тесту було мені не обов’язково зрозумілим, але під час детальної обробки я трохи “просвітився”. Індикатор “рейтинг”, очевидно, вказує на те, що під час тесту він сортує елементи вибірки на основі їхнього “рейтингу” і використовує ці ранги для обчислення статистики тесту. Розрахунок межі W, мабуть, трохи громіздкіший, ніж звичайне, але не неможливе завдання. На жаль, додана таблиця містить лише шукані ймовірності до n = 12, тоді як формула W ’може (на мій погляд) застосовуватися лише до зразків понад 30 штук. Що можна зробити із зразками з кількістю предметів від 13 до 29? Хм, мабуть, немає іншого шляху, як пройти можливі комбінації та обчислити частоти, як описано вище ...