Метод навчальних алгоритмів, який називається глибоким підкріпленням, який використовує винагороди для мотивації штучного інтелекту для досягнення мети, виявляється дуже перспективним у галузі комп’ютерної навігації.

Дослідники з Університету Колорадо нещодавно продемонстрували система, що дозволить роботам знаходити напрямок на пішохідних стежках відповідно до записів камери. Знову вчені з ETH Цюріх у своєму документі описав основу машинного навчання, яка допоможе чотириногим роботам піднятися з землі, коли вони зустрінуться і впадуть.

В документи нещодавно опублікований на додрукарському сервері Arxiv, наукова група пропонує "гібридний" алгоритм глибокого підкріплення, який поєднує дані цифрового моделювання та реального світу і дозволяє квадрокоптеру переміщатися коридорами в будівлі.

"У цій роботі ми хочемо розробити алгоритм навчання передачі, коли робот набуває фізичної поведінки", - написали автори публікації. "Реальний досвід в основному використовується для того, щоб навчитися літати, тоді як імітований досвід використовується для узагальнення".

Навіщо використовувати імітовані дані? Як зазначають дослідники, узагальнення сильно залежить від розміру та різноманітності набору даних. Це правда, що чим більше і більше різноманітних даних доступно, тим кращі показники. Але отримання реальних даних трудомістке і дороге. Однак є одна серйозна проблема із змодельованими даними - дані про польоти є менш якісними, і складна фізика, і повітряні потоки часто моделюються неправильно.

dron

Тому дослідники використовували реальні дані для тренування динаміки системи та імітовані дані для оволодіння процесом узагальнення сприйняття. Їх архітектура машинного навчання складалася з двох частин: підсистеми сприйняття, яка передавала візуальні елементи від моделювання, та підсистеми управління, яка отримувала реальні дані.

Команда використовувала для навчання симулятор Гібсона, що належить Стенфордському університету, який містить велику кількість 3D-сканованих середовищ. Вони змоделювали віртуальний квадрокоптер з камерами таким чином, що дії безпосередньо контролювалися положенням камери. В результаті моделювання було отримано 17 мільйонів точок даних, які вчені поєднали з 14 000 точками даних, захопленими після запуску процедури, вивченої під час моделювання коридору в одному з корпусів Каліфорнійського університету, Берклі.

Використовуючи лише одну годину реальних даних, система інтерфейсу користувача в демонстрації змогла керувати 27-грамовим квадрокоптером Crazyflie 2.0 у новому середовищі з освітленням та конфігурацією, яких раніше не зустрічалося, і уникнути зіткнень. Його єдиним вікном у реальний світ була монокулярна камера; система спілкувалася із сусіднім ноутбуком через пристрій радіо-USB.

Дослідники зазначили, що моделі, навчені уникати перешкод та навігації, передавались краще, ніж процедури з невідомим завданням, які тренувались іншим методом, наприклад, наприклад навчання без нагляду. Крім того, якщо система UI виходила з ладу, це часто було "виправдано" - наприклад, у 30% випробувань у зігнутих коридорах квадрокоптер потрапляв у скляні двері.

"Головною перевагою нашої роботи є метод комбінування великої кількості змодельованих даних з невеликим обсягом реального досвіду для підготовки процедури уникнення зіткнень в автономному польоті шляхом глибокого підкріплення навчанням", - написали автори статті.