Фантасти давно вже «розробили» взаємодія з машинами за допомогою природної мови. Кіношники не відстають – термінатор, роботи Вертер і Бендер, а також багато інші сприймають звичайний мову. Але в реальності це поки майже недосяжно.

Звичайно, є спеціальні роботи з учнями нейромереж і іншим, але це далеко не те. І ось студенти Стенфордського університету навчили нейромережа поганому проходити одну з найскладніших ігор для відеоприставки Atari 2600 – «Помста Монтесуми». При цьому, для навчання використовувалися прості команди англійською мовою. Такі як «спустися по сходах», «візьми ключ» і так далі.

Більшість систем штучного інтелекту, призначених для проходження відеоігор, використовують навчання з підкріпленням – метод, при якому система отримує оцінку своїх дій від середовища, в даному випадку гри, — наприклад, заробляє очки проходження. Вона здійснює випадкові дії до отримання нагороди, а потім намагається повторити свої дії в майбутньому. У даному ж випадку ШІ сприймає поради і діє з ним.

Приклад послідовності команд для отримання ключа. 1: спустися по сходах; 2: стрибни на мотузку; 3: спрыгни в праву частину кімнати; 4: спустися по сходах; 5: пройди в ліву частину кімнати; 6: підніміться по сходах; 7: візьми ключ.

Це дозволяє прискорити навчання нейромережі в цілому. Спочатку їй «згодували» команди на природному мовою, а для навчання використовували дані у вигляді пар команда/скріншот дії героя. Після цього нейромережі дали можливість попрактикуватися. На відео нижче показано проходження однієї з ігрових кімнат.

Цікаво, що автори дали ІІ пройти кімнату з набором команд, як «підніміться по сходах» без накопичених даних про попередніх тренуваннях. Простіше кажучи, без досвіду. І нейромережа змогла це зробити. Більш того, в деяких випадках система ігнорувала команди людини, якщо знаходила більш оптимальне рішення.

Інженери оцінили ефективність їх підходу з допомогою OpenAI Gym – платформи для розробки і порівняння алгоритмів навчання з підкріпленням. Їх алгоритм набрав 3500 очок, проти 2500 у найуспішнішого конкурента. На даний момент тільки алгоритм Google DeepMind набрав більше – 6600 очок, однак його тренування зайняла в два рази більше часу. Надалі дослідники планують зменшити кількість інструкцій, щоб зробити алгоритм більш незалежним.

Що це дасть в перспективі? Цілком можливо, що повноцінний людино-машинний інтерфейс з підтримкою природної мови і самонавчанням.

Якщо ви знайшли помилку, будь ласка, виділіть фрагмент тексту і натисніть Ctrl + Enter .