оцінка

Предмети

  • Публікація
  • Дані досліджень
  • статистичні методи
  • Виправлення помилки цієї статті було опубліковано 29 вересня 2016 року.

Ця стаття оновлена

Важливо розуміти як те, що виражає показник рейтингу, так і те, що він приховує.

Минулого місяця ми дослідили використання логістичної регресії для класифікації, в якій прогнозується клас точки даних, враховуючи дані тренінгу 1. Цього місяця ми обговорили, як оцінити ефективність класифікатора за набором тестів - даних, які не використовувались для навчання та для яких відома справжня класифікація. Класифікатори зазвичай оцінюються за допомогою числових показників, таких як точність, або графічного представлення продуктивності, наприклад, кривої робочої характеристики приймача (ROC). Ми розглянемо деякі загальні метрики класифікатора та обговоримо підводні камені покладання на одну метрику.

Метрики допомагають нам зрозуміти, як працює класифікатор; багато доступні, деякі з численними регульованими параметрами. Розуміння метрик також має вирішальне значення для оцінки звітів інших: якщо дослідження представляє лише одну метрику, можна поставити під сумнів ефективність класифікатора, коли він оцінюється за допомогою інших метрик. Для ілюстрації процесу вибору метрики ми змоделюємо гіпотетичний діагностичний тест. Цей тест класифікує пацієнта із летальним захворюванням або без нього на основі багатьох клінічних факторів. Оцінюючи класифікатор, ми враховуємо лише результати випробувань; ні основний механізм класифікації, ні основні клінічні фактори не мають значення.

Показники ранжирування обчислюються на основі справжніх позитивних результатів (TP), помилкових позитивних результатів (FP), помилкових негативних негативних наслідків (FN) та справжніх негативних результатів (TN), які всі внесені в таблицю в так званій матриці плутанини (рис. 1). Актуальність кожної з цих чотирьох величин буде залежати від призначення класифікатора і буде мотивувати вибір метрики. Для медичного тесту, який визначає, чи отримують пацієнти дешеве, безпечне та ефективне лікування, ФП не будуть настільки важливими, як ФН, що представляють пацієнтів, які можуть страждати без належного лікування. На відміну від цього, якби лікування було експериментальним препаратом, для уникнення тестування препарату на осіб, які не постраждали, було б потрібно дуже консервативне дослідження з невеликою кількістю ФП.

Сині та сірі кола позначають випадки, відомі як позитивні (TP + FN) та негативні (FP + TN) відповідно, а синій та сірий фон/квадрати представляють випадки, передбачені як позитивні (TP + FP) та негативні (FN + TN)., відповідно. Рівняння для обчислення кожної метрики кодуються графічно через величини в матриці плутанини. FDR, коефіцієнт помилкового виявлення.

Повнорозмірне зображення

( a - d ) Кожна панель відображає три різні сценарії класифікації з таблицею відповідних значень точності (змінного струму), чутливості (sn), точності (pr), оцінки F 1 (F 1) та коефіцієнта кореляції Метьюса (MCC). Сценарії в групі мають однакове значення (0,8) для показника, виділеного жирним шрифтом у кожній таблиці: ( до ) точність, ( b ) чутливість (відновлення), ( c ) точність і ( d ) F бал 1. На кожній панелі спостереження, які не вносять відповідних показників, викреслюються червоною лінією. Кольорове кодування таке ж, як на малюнку 1; наприклад, сині кола (випадки, які, як відомо, позитивні) на сірому фоні (які передбачаються негативними) - це FN.

Повнорозмірне зображення

В ідеалі, медичний тест повинен мати дуже низьку кількість FN та FP. Людям, які не хворіють на захворювання, не слід надавати непотрібне лікування або обтяжуватись стресом позитивного результату тесту, а тим, хто хворіє на це захворювання, не слід давати помилковий оптимізм щодо того, щоб не хворіти. Для оцінки рейтингу було запропоновано кілька агрегованих показників, які більш повно узагальнюють матрицю плутанини. Найпопулярнішим є показник F β, який використовує параметр β для контролю балансу між відкликанням та точністю і визначається як F β = (1 + β 2) (Precision × Recovery)/(β 2 × Precision + Recovery). Коли β зменшується, точність набуває більшої ваги. При β = 1 ми маємо загальновживану оцінку F 1, яка однаково балансує відкликання та точність і зводить до простішого рівняння 2TP/(2TP + FP + FN).

Оцінка Fβ не охоплює матрицю повної плутанини, оскільки вона базується на відкликанні та точності, жодна з яких не використовує TN, що може бути важливим для тестування на дуже поширені захворювання. Одним із підходів, який може захопити всі дані в матриці плутанини, є коефіцієнт кореляції Метьюса (МСС), який коливається від -1 (коли рейтинг завжди неправильний) до 0 (коли не кращий, ніж випадковий) до 1 (коли завжди правильно) Слід зазначити, що при порівнянні результатів двох класифікаторів один може мати вищий бал F 1, тоді як інший має вищий MCC. Жодна метрика не може розрізнити всі сильні та слабкі сторони класифікатора.

Важливим фактором інтерпретації результатів класифікації є збалансованість класів, що є поширеністю захворювання серед загальної сукупності. Дисбаланс робить розуміння FP та FN більш важливим. Щодо рідкісного захворювання, яким страждають лише 2 із 1000 людей, кожна ФП має набагато більший вплив на частку помилкових діагнозів, ніж для більш поширеного захворювання, яке вражає 200 із 1000 людей. Будемо вважати, що поширеність захворювання серед загальної сукупності відображається в даних навчання та тестування. Якщо це не так, для інтерпретації результатів потрібна додаткова обережність.

Уявіть собі діагностичний тест на захворювання, який дає числовий бал для людини, яка хворіє на це захворювання. Замість простого позитивного чи негативного результату оцінка дає рівень впевненості: люди з вищим показником частіше хворіють на захворювання. Насправді, майже всі класифікатори генерують позитивні чи негативні прогнози, застосовуючи поріг до оцінки. Як ми обговорювали минулого місяця, вищий поріг знизить рівень ПП (у нашому прикладі це представляє здорових осіб, які отримують непотрібне лікування), а нижчий поріг знизить рівень ПН (хворих, які не отримують лікування).

Можливо, ви захочете оцінити класифікатор без необхідності вибирати певний поріг. Для цього розглянемо перелік осіб з відомим станом захворювання, упорядкований за зменшенням діагностичного балу. Цей список можна візуалізувати за допомогою кривої ROC (рис. 3а). Створюючи криву ROC, ми починаємо з нижнього лівого кута та у верхній частині нашого списку оцінок прогнозу. По мірі того, як ми спускаємось по списку, якщо відомо, що дані є позитивними (людина, що страждає на захворювання), лінія рухається вгору; інакше рухається вправо. Хороший класифікатор повинен намагатися наблизитися до верхнього лівого кута, наскільки це можливо. Альтернативним відображенням є крива точності відновлення (PR) (рис. 3b). Їх інтерпретація дещо інша, оскільки найкращий класифікатор буде знаходитись якомога ближче до правого верхнього кута, отримуючи найкраще відновлення та компенсацію точності. На відміну від кривої ROC, крива PR не є монотонною.

( а, б ) Висновки, отримані за допомогою ( до ) ROC, який відображає справжній позитивний показник (TPR) проти хибнопозитивного (FPR), і ( b ) Криві PR. На обох панелях криві представляють класифікатори, які (A) хороші, (B) подібні до випадкової класифікації та (C) гірші, ніж випадкові. Очікувана ефективність випадкового класифікатора відображається пунктиром у до . Еквівалент для кривої PR залежить від балансу класу і не відображається.

Повнорозмірне зображення

Дисбаланс класів може призвести до того, що криві ROC погано відображають ефективність класифікатора. Наприклад, якщо захворювання мають лише 5 із 100 осіб, то ми очікували б, що п’ять позитивних випадків потраплять у верхній частині нашого списку. Якщо наш класифікатор генерує оцінки, які класифікують ці 5 випадків як рівномірно розподілені в перших 15, графік ROC буде виглядати добре (рис. 4а). Однак, якби ми використовували такий поріг, для якого, як прогнозують, верні 15, 10 з них були б FP, що не відображається на кривій ROC. Однак ця низька ефективність відображається на кривій PR. Порівняйте це із ситуацією з 50 хворими особами зі 100. Класифікатор, який забезпечує еквівалентну криву ROC (рис. 4b), тепер матиме сприятливу криву PR. З цих причин криві PR рекомендуються для наборів даних з великими дисбалансами класу. Також використовуються зведені метрики з цих двох графіків: площа під кривою (AUC) для кривої ROC та площа під кривою PR (AUPRC). Обидва показники мають ті самі обмеження, що й будь-яка інша окрема метрика.

( а, б ) Криві ROC та PR для двох наборів даних із дуже різними залишками класів: ( до ) 5% позитивних спостережень та ( b ) 50% позитивних відгуків. Для кожної панелі спостереження відображаються вертикальними лініями (вгорі), з яких 5% або 50% є позитивними (сині).

Повнорозмірне зображення

Розуміння передбачуваного використання класифікатора є ключем до вибору відповідних показників для оцінки. Використання метрики, навіть загальної, такої як оцінка F1, небезпечно без належної перевірки основних результатів. Крім того, завжди слід стежити за дисбалансом класів, що є спонукачем, який може спотворити різні показники.