5. Вивчення зв'язку між змінними

вивчення

Зміст Двовимірна вибірка (діаграма розсіювання) Аналіз тенденцій, лінійна регресія Коефіцієнт детермінації Значення коефіцієнта кореляції Z-перетворення Фішера Модель часткової кореляції Стохастична монотонність

Час, витрачений на навчання (години/дні) Двовимірний зразок Студент Час, витрачений на навчання (години/дні) Середнє значення дослідження: 2 3,0 2 4 4,0 3 4 5 1 3,5 6 ​​3 2,5 7 5 8 5,0

Розсіяний сюжет (двовимірний) 5 4 Середнє навчання 3 2 1 2 3 4 5 Скільки годин ви навчаєтесь на день?

Позитивні лінійні відносини (I) 55 50 Довжина народження (см) 45 40 35 1 2 3 4 5 Вага народження (кг)

Позитивний лінійний зв'язок (II) 145 140 135 Ядро тіла. У віці 10 130 125 120 115 20 25 30 35 40 45 Вага тіла у віці 10 років (кг)

Нелінійне (П-подібне) з'єднання Y X -3 3

Незалежність 1 80 Y Y 0,5 50 20 X 0,5 X 1 20 50 80

Взаємозв'язок, взаємозв'язок між двома змінними (X та Y) Співпраця, спільне переміщення, спільна зміна значень X та Y-значень за деяким правилом

Яке правило стосовно наступних двох змінних? 55 50 Довжина народження (см) 45 40 35 1 2 3 4 5 Вага народження (кг)

Яка користь від розкриття такого правила? Ми щось розуміємо (теоретичний аспект) Ви можете використовувати це для висновків (практичний аспект). Наприклад, якщо X стільки, то Y?

Прогнозування за допомогою рядка: якщо X = 2, Y =? 55 50 Довжина народження (см) 45 40 35 1 2 3 4 X 5 Вага народження (кг)

Проблема регресії Щоб з’ясувати правило взаємозв’язку між змінною X та Y: як Y “залежить” від X? Залежність не є обов'язково причинною (наприклад, її можна зробити висновком від дитини до батьків). Тип наркоманії може бути декількох типів: напр. лінійні або різноманітні нелінійні (П-подібні, експоненційні тощо)

Основні поняття прогнозування Прогнозована (залежна) змінна: Y Прогнозована (предиктор, незалежна) змінна: X Лінійний прогноз (прогноз): Ŷ = a + bX Справжнє значення Y для x: y Прогноз для x: ŷ = a + bx

Параметри прямої y = a + bx 320 240  160 a 80 1 2 3 4 5 X ‘a’: переріз осі Y ‘b’: коефіцієнт нахилу: b = tg (

Характеристика лінійного співвідношення Не завжди прямолінійна пропорційність Однаковий обсяг зміни X завжди супроводжується однаковим обсягом зміни Y.

Приклад змінних лінійної регресії: X: ThengthBirth, Y: Thength10 років Рівняння регресії: Ŷ = 96,88 + 0,83X Висновок (прогноз регресії): Наприклад, для X = 45 см: Ŷ = 96,88 + 0,83 · 45 = 134, 23 (см) FAQ

Похибка оцінки регресії для однієї людини Якщо передбачуваний (прогнозований) зріст тіла людини у віці 10 років становить 151 см (Ŷ), а справжнє значення - 146 см (Y), то помилка: Абсолютне відхилення: | 151-146 | = 5 см Квадратне відхилення: (151-146) 2 = 52 = 25 см2

Середня похибка оцінки регресії: стандартна помилка Середня стандартна девіація = дисперсія помилки = Res Помилка стандартне відхилення = корінь (дисперсія помилки) = стандартна помилка (SH)

Var (Y) та Res середнє значення Var (Y): середнє квадратичне відхилення від середнього = дисперсія похибки середньої оцінки. (.) SH2 = Res: дисперсія похибки оцінки регресії. Чим нижче значення Var (Y) Res, тим краща оцінка регресії Зменшення помилок: Var (Y) - Res Відносне зменшення помилок: (Var (Y) - Res)/Var (Y)

Приклади FAQ Змінна середня дисперсія Res SH RHCS X: ThosszBirth 50,2 6,4 Y: Thossz10 138,7 41,5 37,09 6,1 0,107 X: Материнське тіло 161,1 38,3 Y: Thossz10 138,7 41, Δ 36,02 6,0 0,132 X: Apatesth 173,4 46,0 Y: Thossz10 138,7 41,5 35,96 X: Вага10 33,2 46,4 Y: Thossz10 138,7 41, 5 23,33 4,8 0,438 Поширені запитання

Коефіцієнт детермінації Відносне зменшення похибки = коефіцієнт детермінації Пояснення коефіцієнта дисперсії Позначення: Det (X, Y)

Коефіцієнт кореляції Абсолютним значенням коефіцієнта кореляції є квадратний корінь коефіцієнта детермінації: Знак коефіцієнта кореляції дорівнює знаку коефіцієнта регресії нахилу (b): Позитивна тенденція: +, негативна тенденція: -

Позначення коефіцієнта кореляції Позначення популяційного (теоретичного) коефіцієнта кореляції: ρ (вимовляється: Ró), ρxy, ρ (x, y) Позначення коефіцієнта кореляції у вибірці (Пірсона): r, rxy, r (x, у)

Матриця кореляції (n = 500) Змінна вага0 Вага10 Тмаг0 Тмаг10 1 0,16 0,79 0,24 0,23 0,66 0,33

Деякі типові кореляції Змінні (X та Y) Співвідношення IQ та університетський прогрес 0,3–0,5 IQ однояйцевих близнюків 0,86 IQ братів і сестер, вирощених разом 0,47 IQ братів і сестер, вирощених окремо 0,24 CPI Шкала добробуту та задоволеність шлюбом 0,25–0,35 практика та віра в Бога 0,68 Знання релігійної практики та релігійної культури 0,03 Вага чоловіка та дружини 0,22

Характеристики коефіцієнта кореляції Якщо X і Y незалежні, то  (X, Y) = 0. Якщо  (X, Y) = 0, тобто якщо X і Y некорельовані, вони не обов'язково незалежні, але існують між ними не існує лінійного типу. відношення (звичайно, це можуть бути U або перевернуті U-подібні відношення). Якщо комбінований розподіл X і Y є нормальним, тобто для будь-якого фіксованого X = x, Y є нормальним, то незалежність і некореляція еквівалентні.

Вплив лінійного перетворення на коефіцієнт кореляції Лінійні перетворення: Додавання числа до змінної: Y = X + 100 Помноження змінної на число: Y = 10X Поєднання цих: Y = 50 + 3X Абсолютне значення ρ і r робить не змінюється, щонайбільше його знак

Вивчення значущості коефіцієнта кореляції Нульова гіпотеза: H0: ρ = 0 Основа рішення: коефіцієнт кореляції, розрахований у вибірці з n-елементів (r) Що визначає відхилення H0? Величина коефіцієнта r Величина ступеня свободи f (f = n - 2)

Співвідношення між чоловіком та дружиною однакові характеристики Шкала ІСЦ Погана h. (n = 10) Середній (n = 14) Хороший дім. (n = 13) Домінування -0,362 0,273 0,406 Соціальна присутність -0,145 0,398 0,627 * Самоприйняття -0,719 * -0,061 0,278 Тривога -0,588 -0,534 * 0,259 Відповідальність 0,637 * 0,541 * -0,102 Толерантність -0,308 0,364 0,43

Матриця кореляції зі значимістю Дівчата (n = 256) Вага Народження Вага 10 МамаВага 0,289 *** 0,201 ** ПапаВага 0,097 0,282 *** MamaTmag 0,213 *** 0,121+ PapaTmag 0,126 * 0,140 * (f = 254; +: p 0, потім три можливі випадки: X позитивно впливає на Y Y позитивно впливає на X Деякі фонові змінні Z одночасно діють на X та Y

Коефіцієнт часткової кореляції - Z

Дивовижні співвідношення Який взаємозв'язок між словниковим запасом та розміром стопи у вибірці всіх учнів початкових класів?

Логіка часткового коефіцієнта кореляції X

Значення коефіцієнта часткової кореляції Якою була б кореляція між X та Y, якби ефект змінної Z був усунутий, підтримуючи її значення постійним (умовна кореляція)? Умови використання: X, Y та Z слід розподіляти окремо разом та разом.

Роздільна здатність X та Y Xmar X змінна Ymar Y змінна Z-незалежна частина Z-залежна частина Z-незалежна частина Z-залежна частина Y змінна

З лінійною регресією X = Xz + Xmar Y = Yz + Ymar rXY.Z = r (Xmar, Ymar)

Часткова кореляція rXY.Z - це плавна кореляція між X та Y, "очищена" від лінійного ефекту Z

Цікавий приклад - 0,64 X

Y 0,80 0,80 Z rxy.z = 0

Інший цікавий приклад - 0,10 X

Y -0,60 0,60 Z rxy.z = 0,72

Приклад Роршаха (n = 359 нормальної людини) r (Isk, Eye) = 0,32 ** r (Isk, Landscape) = 0,26 ** r (Isk, Eye) = 0,18 **

Співвідношення зі школою відповідей Роршаха. Плаття Пейзажне око FSZ 0,38 ** 0,57 ** 0,29 ** 0,41 **

Кореляції та часткові кореляції з освітою X = школа Y = сукня Y = пейзаж Y = вік очей (запит, Y) 0,32 ** 0,26 ** 0,18 ** пар. вип. (RIsk, Y.FSZ) 0,13 * 0,17 ** 0,03 БЕЗКОШТОВНО

Що станеться, якщо порушується умова нормальності часткової кореляції? У цьому випадку між змінними можуть виникати не тільки лінійні взаємозв'язки. Фільтруючи лінійний зв'язок, ми не відфільтровуємо повний ефект фонової змінної. Часткова кореляція не обов'язково відповідає умовній кореляції. Можливість неправильної інтерпретації.

Що нам робити, якщо наші змінні зазвичай не розподіляються? Надійна кореляція Вількокса (rpb) Кореляція рангу між мінімальними порядковими змінними (показники монотонності) Кореляція рангу Спірмена: Кореляція Пірсона між рейтингами Кореляція рангу Кендалла: різниця між співвідношенням позитивного та негативного співвідношення

Стохастичний монотонний зв’язок двох змінних, X та Y

Якщо X - жінка, то Y - теж жінка. Детермінований монотонний ріст Y X 16 12 8 4 1 2 3 4 X

Стохастичне монотонне зростання 16 * Якщо X зросте, то, ймовірно, зросте і Y. * * 12 * * * Y 8 * * 4 * * * * * * * * * 1 2 3 4 X

Приклад Ksz. X Y 1. 1 35 2. 1,5 34 3. 2 36 4. 3 37 5. 7 38 6. 10 39

Ми класифікуємося за змінною Ksz. X ранг Y ранг 1. 1 1 35 2 2. 1,5 2 34 1 3. 2 3 36 3 4. 3 4 37 4 5. 7 5 38 5 6. 10 6 39 6

Кореляція рангу Спірмена (rS): кореляція між рейтингами

Узгодженість та розбіжність Y B + C A - X D

Пара, що узгоджується: маленький X з малим Y, великий X з великим Y (позитивне співіснування) Пара суперечливий: маленький X з великим Y, великий X з малим Y (негативне співіснування)

t = p + - p- монотонність Кендалла, е. p +: Частка збіжних пар у сукупності p-: Невідповідні пари t = p + - p-

Характеристики t Кендалла Якщо X і Y незалежні: t = 0 t = 0: немає стоха. монотонність t = -1: чисто монотонне спадне відношення t = +1: чисте монотонне збільшення відносин

Що робити, якщо X та/або Y не є безперервними? Односторонні монотонні метрики (Сомерс DYX та DXY) Геометричне середнє одностороннього показника: тау-b Кендалла У разі суворого розсуду: гама Кендалла

Відносна перевага позитивних відносин. Рекомендовано для дискретних X та Y. Коефіцієнт гамма-монотонності Кендалла Відносна перевага позитивних відносин. Рекомендовано для дискретних X та Y.

Характеристики G Кендалла Якщо X та Y незалежні: G = 0 Якщо G = 0: немає стоха. моно. Якщо G = -1: p + = 0 Якщо G = +1: p- = 0

Вивчення гіпотези H0: t = 0 Зразок тау: коефіцієнт рангової кореляції Кендалла (rt) Тестування стохастичної монотонності: перевірка значущості rt H0: Відсутність монотонних зв'язків

Розрахунок rt у зразку Y B E = n + = 4 F = n- = 2 rt = (4-2)/6 = 2/6 = 0,33 + + C C + + A - - D X

rt = (E - F)/T, G = (E - F)/(E + F) Коли rt = G задовольняється? Формули Rt і G E = кількість узгоджень F = кількість розбіжностей T = загальна кількість пар = n (n-1)/2 rt = (E - F)/T, G = (E - F)/(E + F) Коли він вважає, що rt = G?