Статистика - основні поняття

взаємозв язки

Що таке змінні. Змінні, або іншим чином, статистичні символи, вектори - це речі, які ми вимірюємо, контролюємо або маніпулюємо ними під час дослідження. Вони відрізняються роллю, яку вони відіграють у наших дослідженнях, і способом вимірювання.

Яке населення. Сукупність, інакше базовий набір, - це сукупність усіх можливих елементів, респондентів, придатних для явища, яке нас цікавить. Наприклад, усі виборці на президентських виборах. Або всі хворі на лейкемію, якщо ми шукаємо ліки від цієї хвороби. Або всі вони є можливими полями, якщо предметом є обстеження ґрунту.

Що таке зразок. Вибірка, або вибір, або іншим чином дані, набір даних, є підмножиною всієї сукупності. Дослідник аналізує вибірку та намагається узагальнити результати, знайдені на ній, для всієї сукупності. У файлі даних один респондент представляє один рядок, а змінні - стовпці. Отже, це матриця, яка має стільки рядків, скільки респондентів у вибірці, і стільки стовпців, скільки відстежуваних змінних. Об’єднавши всі можливі вибірки, ми отримуємо всю сукупність.

Кореляція та експериментальні дослідження. У кореляційному дослідженні ми досліджуємо взаємозв'язки між змінними, хоча не впливаючи на змінні, ми лише вимірюємо їх і шукаємо взаємозв'язки, напр. яка залежність між часом, досягнутим при перетині 100-метрового басейну, і кількістю пострілів. В експериментальних дослідженнях ми маніпулюємо деякими змінними, а потім вимірюємо вплив цієї маніпуляції на інші змінні. Наприклад, ми навчаємо респондентів деякий час плавати, а потім вимірюємо вищезазначену залежність. Тільки експериментальні дослідження дадуть нам повне підтвердження причинно-наслідкового зв’язку. В експериментальному дослідженні ми маємо можливість з’ясувати, що зміна змінної A спричинила зміну змінної B. Тоді як кореляційне дослідження говорить лише про залежність, але не дає переконливих доказів причини.

Зв'язки між змінними. Змінні, незалежно від їх типу, знаходяться у взаємозв'язку, іншими словами, між ними існує взаємозв'язок, залежність, якщо їх значення у вибірці респондентів систематично відповідають одне одному. Для прикладу візьмемо вибірку респондентів, для яких ми вимірюємо зріст і вагу. Як правило, вищі, як правило, важчі, тому ми можемо розраховувати, що ці дві змінні мають відношення, іншими словами - незалежні.

Дві основні ознаки кожного відношення між змінними. Вони є розміром і надійністю, тобто надійністю.
Розмір сеансу у вибірці легко виміряти. Наприклад, величина взаємозв’язку між ожирінням та рівнем холестерину в крові є високою. Принаймні на конкретній вибірці досліджень ми можемо передбачити, що перше є причиною другого.
Надійність менш інтуїтивна, ніж розмір, але вона дуже важлива. Він говорить про репрезентативність результату, отриманого з конкретної вибірки. Це говорить про ймовірність того, що якщо ми відберемо інших респондентів з тієї ж сукупності, ми можемо очікувати подібного результату, як для вихідної вибірки. Як правило, досліднику потрібно узагальнити результат, отриманий з вибірки, на всю сукупність. Надійність можна оцінити кількісно, ​​і в наступному тексті ми зустрінемо її як значення р або рівень значущості.

Який рівень значущості (р-значення). Рівень значущості отриманого результату з вибірки - це ймовірність того, що спостерігається залежність, відповідно. різниця між змінними у вибірці респондентів є суто випадковою, і ця залежність у всій сукупності, з якої була обрана вибірка, відповідно. різниці немає. Чим вище рівень значущості, тим менше можна очікувати спостережуваної залежності, отриманої від вибірки досліджень респондентів, для всієї сукупності.
Наприклад, рівень значущості 0,05 вказує на те, що існує не більше 5% ймовірності того, що зв’язок між змінними, знайденими у вибірці, є чисто випадковим. Іншими словами, р-значення - це ймовірність помилки, спричиненої прийняттям результату залежності, отриманої з вибірки, як дійсний для всієї сукупності. Отже, якщо припустити, що такого співвідношення в популяції немає, то при р-значенні 0,05 для кожних 20 повторень експерименту цей взаємозв’язок може з’являтися в одній вибірці. Але якщо в популяції дійсно існують такі взаємозв'язки, то ймовірність того, що цей факт підтвердиться при повторенні експерименту, називається силою тесту, і будьте обережні, це не 1-p.
Для справді суттєвої залежності, відп. різниця, такий результат враховується, якщо р-значення менше 0,05. У деяких дослідницьких завданнях використовується більш суворий критерій, с

Ступінь залежності та її інтерпретація. Метою статистичного тестування є оцінка взаємозв'язку між змінними, тобто відношення пояснюваної варіації однієї змінної іншою до загальної варіації цієї змінної. Таким чином, настільки, що, виражене у відсотках, зміна першої змінної може пояснюватися зміною другої та навпаки.

Вплив недотримання презумпції нормальності. Більшість наведених тверджень математично доведено, але деякі з них базуються лише емпірично, шляхом так званих експериментів Монте-Карло. Таким чином, оскільки тести на основі норм чутливі до недотримання припущення про нормальний розподіл. Висновок цих досліджень полягав у тому, що наслідок такої невідповідності є менш серйозним, ніж вважалося спочатку. Отже, використання тестів розподілу в усіх видах досліджень в даний час зростає в популярності.

Перекладені частини з:
StatSoft, Inc. (1999). Електронний підручник статистики. Талса, ОК: StatSoft. WEB: http://www.statsoft.com/textbook/stathome.html