Таблиці на випадок непередбачених ситуацій
Сенс і розташування столу. Непередбачений випадок або перехресна таблиця - це комбінація двох (або більше) таблиць частот, так що кожна внутрішня комірка представляє унікальну комбінацію конкретних значень (також званих категоріями) перехресних табличних змінних. Таким чином, це дозволяє визначити частоту, кількість респондентів, які потрапляють у певну категорію для більш ніж однієї змінної. Дослідження цих частот дає змогу визначити взаємозв'язок, взаємозв'язок між перехресними табличними змінними. Таблиця непередбачених ситуацій підходить лише для номінальних змінних чи числових змінних, що досягають відносно невеликої кількості можливих значень. Якщо необхідно використовувати числову змінну з більшою кількістю отриманих значень, необхідно перекодувати її спочатку, де значення змінної будуть однозначно віднесені до категорії (наприклад, низька, середня, висока).
2х2 стіл. Найпростішою формою таблиці на випадок надзвичайних ситуацій є таблиця 2x2, де обидві змінні є двійковими, набуваючи лише двох можливих значень. Наприклад, для визначення взаємозв'язку між статтю та популярністю певного напою від виробника A чи B ми використовуємо такі дані:
Отримана таблиця надзвичайних ситуацій може виглядати як наступним чином:
Кожна комірка таблиці представляє унікальну комбінацію значень двох перехресних таблиць змінних. Число в комірці - це кількість респондентів, які в заголовку рядка та стовпця отримують значення змінних. Ця таблиця показує, що більше жінок, ніж чоловіків, обирають виробника A, і більше чоловіків, ніж жінок виробника B. Таким чином, стать та виробник можуть перебувати у стосунках, які потрібно довести або спростувати.
Граничні числа. Граничні чи іншим чином граничні числа знаходяться у правому стовпці та нижньому рядку таблиці і ідентичні таблицям частоти досліджуваних змінних, які описані в описовій статистиці. Граничні числа корисні для оцінки того, чи існує взаємозв'язок між досліджуваними змінними. Оскільки співвідношення чоловіків і жінок у виробника А дорівнює 40:60, якби однакове співвідношення було у всій групі, ми могли б зробити висновок, що популярність виробника А не пов’язана із статтю. У цьому випадку коефіцієнт у колонці для виробника А відображав би лише загальне співвідношення чоловіків та жінок.
Рядок, стовпець і загальний відсоток. Попередній приклад показав, що для оцінки взаємозв'язку між перехресними табличними змінними корисно порівнювати значення у внутрішніх комірках з граничними. Для простоти зручніше працювати з частотами, вираженими у відсотках.
Графічне представлення таблиць непередбачених ситуацій. Можна представити рядки та стовпці таблиці як стовпчасті графіки, або всю таблицю з одним графіком, тривимірною гістограмою. Інший варіант - використовувати категоризовану гістограму, де одна змінна представлена окремими гістограмами для кожного значення іншої.
Стіл-стійка. Якщо у перехресній таблиці потрібно обчислити лише дві змінні, ми говоримо про двосторонню таблицю. Однак, якщо доступно більше змінних, і двосторонні таблиці кількох пар цих змінних цікаві, можливо відобразити їх у стислій формі в одну, так звану таблиці із заглушками та банерами.
Багатосторонні таблиці з керуючою змінною. Якщо необхідно оцінити зв'язок між більш ніж двома категоріальними змінними, ми говоримо про багатосторонню таблицю. Теоретично кількість змінних у багатосторонній таблиці необмежена, але практичний результат вже дуже важко прочитати для кількості змінних 5. Для аналізу взаємозв’язків у таких таблицях добре використовувати модельні методи, такі як лінійно-лінійний аналіз або аналіз відповідності.
Статистика в таблицях непередбачених ситуацій. Наступна таблиця показує дуже сильний зв’язок між віком (дорослим чи дитиною) респондентів та популярністю певного виду десерту (А чи Б).
Загалом дорослі віддають перевагу десерту А, тоді як діти віддають перевагу десерту В. Немає сумнівів у взаємозв'язку між досліджуваними змінними. Однак на практиці сесія не така сильна, і питання полягає в тому, як оцінити її надійність, тобто статистичну значимість. Наступний огляд охоплює найбільш загальні міри взаємозв'язку між двома категоріальними змінними. Отже, це статистичний аналіз двосторонніх таблиць.
Тест хі-квадрат Пірсона. Цей показник надійності взаємозв'язку між двома категоріальними змінними є найбільш часто використовуваним. Тест заснований на вимірюванні різниці фактичних частот у комірках таблиці непередбачених ситуацій, на відміну від очікуваних, де очікувана частота комірок обчислюється як відношення добутку граничної частоти відповідного рядка та стовпця та загальна кількість. Значимість тесту хі-квадрат зростає із збільшенням виміряних різниць. Відповідно до вступу, значення тесту хі-квадрат та його значимість також залежать від загальної кількості респондентів. За їх великої кількості навіть незначні відмінності в набутих частотах порівняно з очікуваними можуть призвести до статистичної значущості.
Єдиною передумовою використання тесту хі-квадрат (крім правил щодо вибірки) є правило, згідно з яким очікувані частоти не повинні бути дуже малими, менше 5.
Тест на хі-квадрат максимальної ймовірності. Цей тест перевіряє ту саму гіпотезу, що і попередню, але базується на теорії максимальної ймовірності. На практиці результат дуже близький до тесту хі-квадрат Пірсона.
Корекція Йейтса. Це вдосконалений тест хі-квадрат для таблиць типів 2x2. Це підходить, якщо таблиця містить невеликі фактичні частоти, так що очікувані частоти також будуть менше 10.
Точний тест Фішера. Він застосовується лише до таблиць 2x2 при малом н. Він базується на цьому принципі: граничні частоти в таблиці наведені, і припустимо, що для всієї сукупності вірно, що дві змінні, розглянуті в таблиці, не співвідносяться. Яка ймовірність того, що за цих припущень ми отримаємо частоти комірок, нерівні чи гірші, ніж ті, які ми маємо? Для малого n цю імовірність можна точно визначити, проаналізувавши всі можливі таблиці на основі заданих граничних частот.
Тест хі-квадрат Макнемарова. Тест застосовний до 2x2 таблиці та незалежні вимірювання. Наприклад, вимірювання до і після експерименту, де ми вимірюємо кількість студентів, які не склали тест на початку та в кінці семестру. Отримуємо два тести хі-квадрат. Тест A/D перевіряє гіпотезу про те, що кількість клітин A (верхній лівий) та D (нижній правий) однакові. B/C перевіряє гіпотезу про те, що кількість клітинок B (вгорі праворуч) і C (внизу ліворуч) однакова.
Коефіцієнт Phi. Це міра кореляції між двома категоріальними змінними для 2x2 таблиці. Значення коефіцієнта phi може становити від -1 до 1, 0 означає, що змінні не корелюють, -1 або 1, що вони повністю залежать.
Тетрахорична кореляція. Ця статистика застосовується лише до 2x2 таблиці, де обидві змінні були створені шляхом штучної категоризації спочатку неперервних змінних.
Непередбачені обставини коефіцієнт - С . Це міра відношення двох змінних на основі тесту хі-квадрат Пірсона. Порівняно з початковим хі-квадратом, його легше інтерпретувати, оскільки його значення виходять за межі діапазону, 0 означає абсолютну незалежність. Недоліком цієї статистики є той факт, що С може досягти верхньої межі 1 лише в тому випадку, якщо кількість категорій необмежена. Цей ступінь взаємозв'язку, як правило, не є настільки прийнятним через не дуже чітке тлумачення з точки зору ймовірності, як r Пірсона.
Статистика на основі рейтингу. У багатьох випадках категорії змінних зведеної таблиці мають порядок (наприклад, дуже слабкі, слабкі, середні, сильні, дуже сильні). Отже, змінні є порядковими. Поки кодування категорій дотримується логічного порядку, для вираження взаємозв'язку між змінними можна використовувати таку статистику:
Сперманово Р . R Спірмена можна розглядати як коефіцієнт співвідношення продукту Пірсона (r Пірсона), тобто з точки зору частки мінливості, за винятком того, що Спірмен розраховується за замовленням. Отже, змінні повинні бути вимірюваними принаймні за порядковою шкалою.
Тау Кендалла . Тау Кендалла ідентичний Р. Спірмена. Однак обчислення та результат різні, як і інтерпретація. Діє: -1
D Соммера: d (X | Y), d (Y | X). (Siegel, Castellan, 1988, стор. 303-310)
Гамма. Статистика гамми корисна для використання, якщо дані містять багато зв’язаних вимірювань. З точки зору припущень, гамма-статистика еквівалентна тау R або Кендалла Спірмена, з точки зору інтерпретації вона подібна тау Кендалла.
Коефіцієнти невизначеності . Це показники стохастичної залежності. S (Y, X) відноситься до симетричної залежності, S (X | Y), S (Y | X) до асиметричної.