25.4. 2008 14:51 Огляд книги Стівена Т. Зіліака та Дейрдре Н. Макклоскі: Культ статистичної значущості

перехід

Уявіть собі два препарати для схуднення, які мають однакові побічні ефекти і такі ж дорогі. Для одного середня втрата ваги становить 20 кілограмів за півроку, із середнім відхиленням 10 кілограмів. У другому середня втрата становить п’ять кілограмів за півроку, а середнє відхилення - один кілограм. Таким чином, ви можете розраховувати втратити щось від 10 до 30 кілограмів з першою таблеткою, тоді як з другою ви втратите від чотирьох до шести фунтів.

Яка таблетка краще? Людина, яка хоче схуднути, безумовно, вибрала б першу. Академік-економіст сказав би, що друга таблетка є "статистично більш значущою". У більшості ситуацій наголос на точності, а не на величині загального ефекту забезпечує спотворене уявлення про реальність. Стівен Зіліак та Дірдре Макклоскі стверджують, що цей невиправданий акцент є головним недоліком сучасних емпіричних методів у соціальних науках.

Статистичне значення

Джерело: Проголосуйте за цю статтю на vybrali.sme.sk

Стівен Т. Зіляк та Дірдре Н. Макклоскі: Культ статистичної значущості. Як стандартна помилка коштує нам роботи, справедливості та життя. Енн Арбор: Університет Мічиганської преси (2008), 320 с.

Статистична значимість - це термін, який позначає регресійний аналіз. У ньому дослідники намагаються пояснити залежну змінну (наприклад, економічне зростання) за допомогою комбінації інших змінних (таких як інтенсивність наукових досліджень, грамотність населення чи якість установ). Таким чином, регресійний аналіз дає набір оцінок, за якими можна визначити вплив досліджень, грамотності чи інституцій на економічне зростання.

Традиційною роботою тих, хто працює з регресійним аналізом, є перевірка статистичної значущості - чи не можна пояснити оцінку ефекту, скажімо, наукових досліджень лише наслідком випадковості. Якщо таку гіпотезу неможливо відкинути, змінна вважається статистично незначущою. Якщо таку гіпотезу можна відкинути, тоді вплив досліджень на економічне зростання вважається більше, ніж просто випадковістю.

Але механічне тестування статистичної значущості може приховати реальне, "суттєве" значення. Як і в прикладі таблеток для схуднення, в емпіричній економіці може бути ситуація, коли потенційно великий ефект видається нам статистично незначним. Наприклад, тому що відповідна змінна вимірюється дуже неточно.

Здоровий глузд говорить, що величина ефекту важливіша за його статистичну значимість. Фізики це дуже добре розуміють, і їх перший рефлекс завжди полягає в тому, що вони запитують про величину впливу, що вивчається. У фізиці багато статистично значущих взаємозв’язків вважаються незначними, якщо величина ефектів занадто мала. Навпаки, в економічній науці багато малих та незначних наслідків розглядаються як статистично значущі взаємозв'язки. І занадто часто потенційно суттєві ефекти, які демонструють велику неточність, ігноруються. Дуже важливо усвідомити, що статистична значимість сама по собі не є ні необхідною, ні достатньою умовою реальної значимості спостережуваної змінної.

Шкільна помилка

Крім того, бездумне тестування статистичної значущості приховує підводну камеру у вигляді шкільної помилки - плутанини двох різних типів умовної ймовірності. Яка ймовірність того, що випадково обрану мертву людину повісили? Розумно припустити, що він буде відносно невеликим. І навпаки, яка ймовірність того, що випадково вибраний повішений помер? Ця ймовірність буде дуже близькою до визначеності.

Це може бути, здавалося б, дріб’язковою та легко викривальною помилкою. Однак читач економічних журналів може легко зіткнутися з його "більш науковою" формою - неправильно застосованим або інтерпретованим t-критерієм Стьюдента. За цією назвою криється математичний інструмент для перевірки гіпотези про статистичну значимість даних, виміряних для обраної вибірки. На практиці його використовують, наприклад, для порівняння того, чи відрізняються результати вимірювань відібраної вибірки статистично суттєво від контрольної вибірки.

Математик сказав би, що t-тест перевіряє, чи можна виключити гіпотезу про те, що фактичний ефект дорівнює нулю, на основі даних, виміряних на вибраній вибірці. Великою помилкою плутати це зі спрощеним твердженням, що перевіряється, чи величина досліджуваного ефекту дорівнює нулю. Якщо ми не можемо відкинути так звану нульову гіпотезу, це все одно не дає нам права однозначно стверджувати, що реальний ефект дорівнює нулю. Або людською мовою: це схоже на ситуацію, коли ми не можемо відкинути гіпотезу про те, що випадково вибраний повішений мертвий. Однак занадто багато соціологів роблять цю помилку.

Оманливий і шкідливий

На думку Зіліака та Макклоскі, наголос на статистичній значущості є оманливим та шкідливим. На їх думку, статистична значимість навіть не є корисним інструментом для первинної перевірки даних, оскільки занадто часто це може призвести до абсолютно помилкових висновків. Парадоксально, наскільки важливе значення надається емпіричним дослідженням, що демонструють "значущі" результати. Одне з перших висновків, яке прищеплюється у свідомості кожного студента-економетрика, полягає в тому, що його результати мають бути статистично значущими.

Економетричні підручники були створені на основі t-критерію та одновідсоткового рівня значущості ідола, який некритично схиляється майже до всієї економічної професії. Зіліак і Макклоскі слідували емпіричним статтям в American Economic Review, найпрестижнішому журналі в економічній професії, і виявили, що наголос на статистичній значущості штовхає інші, набагато важливіші міркування. Лише мінімум статей також показав силу відповідного тесту. Багато статей не обговорювали величину виявлених ефектів та їх порівняння з тим, що автори очікували від моделей.

Це правда, що ситуація дещо покращилася порівняно з 1980-ми. Але все ще домінує підхід до використання методів, який бездумно застосовує принцип статистичної значущості та ігнорує величину вивчених ефектів. Цій тенденції не уникають навіть великі імена сучасної економіки. Автори із задоволенням згадують роботи Гері Беккера, Бена Бернанке, Пола Кругмана чи Девіда Карда та Алана Крюгера, які механічно та бездумно використовують концепцію статистичної значущості як нібито доказ реальної важливості ефектів, які вони вивчали.

Поширене захворювання

Регресійний аналіз використовується не тільки в економіці. Це поширений інструмент у психологічних та медичних дослідженнях. На думку авторів, сьогоднішня психологія краща за економічну, оскільки наукові журнали висувають жорсткіші вимоги до фактичної, а не лише статистичної значимості результатів. У медицині клінічні випробування ліків покладаються на статистичну значимість. І це може бути буквально фатальним.

Vioxx, знеболюючий засіб, розроблений Merck, був поширений у більш ніж 80 країнах між 1999 і 2003 роками. Після того, як сімдесят трирічна жінка, яка приймала Vioxx за рецептом, померла від серцевого нападу, були переглянуті клінічні випробування його наслідків. Очікуючи позову, Мерк вилучив препарат із продажу. Як це пов’язано зі статистичною значимістю?

П'ять пацієнтів, які приймали Vioxx, перенесли інфаркт під час клінічних випробувань. У той же період лише один пацієнт контрольної групи, який приймав інший препарат, переніс інфаркт. Ця різниця не досягла 5% межі статистичної значущості. Тому Мерк стверджував, що не було різниці у впливі цих двох препаратів на систему кровообігу, незважаючи на очевидне співвідношення п'ять до одного на шкоду Vioxx. Що ще гірше, пізніше було встановлено, що ще три пацієнти, які або постраждали, або померли від серцевого нападу, були виключені із зразка під час тестування. Зрештою, це було не співвідношення п’ять до одного, а вісім до одного (що вже було б статистично значущим).

Зрозуміло, чесний економетр вважав би маніпулювання даними неприйнятним. Але головна проблема полягає в тому, що основний акцент на маніпуляціях робився на статистичній значущості як єдиному показнику ризику. Його механічне застосування створює ідеальну мотивацію для частого проведення маніпуляцій. Тому, якщо ми хочемо досягти більш високого рівня прозорості наукових досліджень, ми повинні наполягати на тому, що тести статистичної значущості не є наріжним каменем роботи з даними.

Історія статистики

Історія з t-тестом Стьюдента, про яку Зіліак та Макклоскі розповідають в останній третині книги, також захоплює. Студент, який публікував теорії з біометрії, насправді називався Вільям С. Госсет і працював на пивоварні Гіннеса в Дубліні. Роботодавець не дозволив йому публікувати під своїм справжнім ім'ям. Цей метод, який він використовував головним чином для порівняння технологічних процесів приготування пива або порівняння якості сортів хмелю, потрапив до рук Рональда А. Фішера, амбіційного статистика, який згодом став професором євгеніки в Університетському коледжі Лондона.

Госсет попередив не робити t-тест механічним інструментом для оцінки значущості пояснювальних змінних у статистичній регресії, ігноруючи при цьому величину ефекту. Однак недобросовісний Фішер, який свідомо применшив значення Студента для власних досліджень, перетворив тест статистичної значущості на кумира сучасної статистики.

Вплив Р. А. Фішера та оригінальна привабливість простих, автоматично застосовуваних правил лежать в основі того, що прикладна економіка, психологія та клінічна медицина роблять надмірний акцент на t-тесті. Розширення комп’ютерних технологій, що дозволяє негайно перевірити статистичну значимість, також зіграло свою роль.

Якщо витрати на використання тесту статистичної значущості фактично дорівнюють нулю, тоді економіка прогнозує, що в довгостроковій перспективі прибуток від цих тестів також буде нульовим. І це, здається, точно описує ситуацію в сучасних емпіричних дисциплінах. Статистичне значення - це повсякденне явище, яке приносить дуже мало користі для реальних знань.

Зіліак і Макклоскі закликають до радикальної зміни парадигми. Вони закликають вчених-соціологів не застосовувати t-тест як рецепт з кулінарної книги, а навпаки, оцінювати значення різних ефектів. І вони зіткнулися з нею з тим, що передбачають їх теорії, з розумно встановленими параметрами. Така зміна поставить більші вимоги до якості та допоможе соціальним наукам бути більш чесними та говорити про реальність більше, ніж вони кажуть зараз.

    Стівен Т. Зіляк є професором економіки в Університеті Рузвельта в Чикаго. Окрім економічної історії, він зосереджується на методології та історії математичної статистики.

Дейрдре Н. Макклоскі (нар. Дональд Н. Макклоскі) - професор економіки, історії, англійської мови та комунікацій в Університеті Іллінойсу в Чикаго. Він є одним із засновників кліометрії - кількісного дослідження економічної історії. На додаток до важливих внесків у цій галузі, Макклоскі прославився головним чином дослідженням значення риторики в економіці та соціології економічної професії.

Автор огляду - аспірант Університету Джорджа Мейсона.