Розглянемо наступний сценарій.

дурним

Ви записалися на масовий відкритий онлайн-курс (MOOC), який пропонує всесвітньо відомий університет.

Після чотирьох тижнів сумлінної роботи ви закінчили свою першу роботу і сідаєте, щоб подати есе. У другому з рефератів, який подається для класифікації, ваш результат, здається, свідчить про те, що ваше есе менше, ніж зоряні зусилля.

Але есе, можливо, не бачили люди, а натомість воно оцінювалось виключно комп’ютерною системою, порівнюючи есе з зразком есе в базі даних.

EdX, некомерційний постачальник MOOC, заснований Гарвардським університетом та Массачусетським технологічним інститутом, на початку цього року представив можливість автоматизованої класифікації есе в оновленнях програмного забезпечення.

Але чи слід використовувати для есе автоматизовані класифікаційні системи? І наскільки добре працюють ці системи?

Явища MOOC

Ряс навколо MOOC досягнув гарячки минулого року. Спочатку MOOC були доставлені до нас престижними американськими університетами - вони пропонують той самий вміст, за який платили студенти, безкоштовно для всіх.

Невдовзі австралійські університети скочили на борт і швидко пішли за вітчизняними платформами MOOC.

Австралійські школи та університети впродовж багатьох років використовують автоматизовані системи оцінювання для кількох і справжніх тестів.

Але edX зробив крок далі за допомогою технології штучного інтелекту до класних есе - суперечливий крок, враховуючи, що такий підхід ще не зроблений.

Президент EdX Анант Агарвал цього місяця сказав New York Times, що «програмне забезпечення для миттєвого оцінювання буде корисним педагогічним інструментом, який дозволить студентам знову і знову складати тести та писати реферати та покращувати якість своїх відповідей. Технології штучного інтелекту для оцінювання рефератів мали "різні переваги перед традиційною системою класів, коли студенти часто чекають днів чи тижнів на оцінки".

Роботи нівеліри

Автоматизовані класифікаційні системи, що оцінюють письмові відповіді, існують з 1960-х років, коли були представлені перші комп'ютери мейнфреймів.

The New York Times повідомляє, що чотири штати США (Луїзіана, Північна Дакота, Юта та Західна Вірджинія) зараз використовують автоматизовані системи оцінювання есе в середніх школах, а в деяких ситуаціях програмне забезпечення використовується як резервна копія для забезпечення контролю над оцінювачами.

Автоматизоване оцінювання рефератів базується на системі, яка навчається із набором прикладів есе, які були оцінені вручну. Потім вони вивчатимуть приклади рефератів та результати, надані для інших есе студентів, і включатимуть аналіз показників фраз, ключових слів, речень та побудови абзаців.

Автоматизовані системи класифікації аналізів можуть бути доопрацьовані, щоб змусити людей оцінювати підмножину поданих есе. Однак це обмежує можливості автоматизованої системи класифікації надавати негайні результати та зворотний зв'язок.

Тоді технологія штучного інтелекту може ввійти в процес, щоб зробити процес більш досконалим, використовуючи знання, отримані з есе, позначених людьми.

Чи може комп’ютер реально оцінити есе?

Застосування технологій штучного інтелекту в автоматизованих системах класифікації загалом не прийнято. І нещодавні кроки організацій, що займаються освітою в Інтернеті, щодо використання технологій штучного інтелекту для тестування високих ставок викликали занепокоєння серед науковців.

Цей інтерес завершився онлайн-петицією проти машинного оцінювання есе, розпочатою цього року групою зацікавлених науковців та дослідників. На сьогодні зібрано понад 3600 підписів, у тому числі від високопоставлених інтелектуалів, таких як Ноам Хомський.

У заяві на веб-сайті петиції йдеться, що "комп’ютери не можуть читати". Вони не можуть виміряти основи ефективного письмового спілкування: точність, міркування, достатність доказів, здоровий глузд, етичне ставлення, переконливий аргумент, значуща організація, ясність та правдивість, серед іншого.

Лес Перелман, дослідник з Массачусетського технологічного інституту, дуже критично ставиться до автоматизованих систем класифікації та критикує найсучасніші технології, що використовують технологію штучного інтелекту в автоматизованих системах класифікації аналізів.

Перелман стверджує, що „порівняння результатів роботи грейдерів, які співпадають між собою, з машинами, що відповідають диференційованим балам, все ще свідчить про те, що люди, які оцінюють людей, можуть бути значно надійнішими, ніж машини.

У червні 2012 року Перелман подав безглузде есе до Служби тестування освіти США (ETS) під назвою e-Rater і отримав найвищу можливу оцінку.

ETS використовує програмне забезпечення e-Rater у співпраці з оцінювачами прав людини для класифікації випускних іспитів (GRE) та тестів з англійської мови (TOEFL) для практичних тестів.

Обидва ці тести є високими - перший приймає рішення про вступ до американських аспірантур, а другий - про долю тих, хто не володіє англійською мовою, які хочуть навчатися в американських університетах.

Час випробувань

Австралійські університети можуть поспішити прийняти MOOC, щоб пропустити важливі дискусії щодо того, які форми оцінювання є прийнятними та як забезпечити дійсність результатів навчання.

Центральним значенням цінностей МООК як педагогічного інструменту є метод, що використовується для оцінки учасників курсу.

Технології штучного інтелекту швидко розвиваються, але досягли точки, коли автоматизовані системи оцінювання можуть замінити академічних викладачів?

Розкажіть, будь ласка, що ви думаєте - чи потрібні нам справжні живі люди, щоб оцінювати есе, чи вважаєте, що комп’ютери можуть так само добре виконувати свою роботу? Залиште свої думки в коментарях нижче.