Фантасты давно уже «разработали» взаимодействие с машинами с помощью естественного языка. Киношники не отстают – терминатор, роботы Вертер и Бендер, а также многие другие воспринимают обычный язык. Но в реальности это пока почти недостижимо.

Конечно, есть специальные роботы с обучаемыми нейросетями и прочим, но это пока далеко не то. И вот студенты Стэнфордского университета научили нейросеть плохому проходить одну из самых сложных игр для видеоприставки Atari 2600 – «Месть Монтесумы». При этом, для обучения использовались простые команды на английском языке. Такие как «спустись по лестнице», «возьми ключ» и так далее.

Большинство систем искусственного интеллекта, предназначенных для прохождения видеоигр, используют обучение с подкреплением – метод, при котором система получает оценку своих действий от среды, в данном случае игры, — к примеру, зарабатывает очки прохождения. Она совершает случайные действия до получения награды, а затем пытается повторить свои действия в будущем. В данном же случае ИИ воспринимает советы и действует по ним.

Пример последовательности команд для получения ключа. 1: спустись по лестнице; 2: прыгни на веревку; 3: спрыгни в правую часть комнаты; 4: спустись по лестнице; 5: пройди в левую часть комнаты; 6: поднимись по лестнице; 7: возьми ключ.

Это позволяет ускорить обучение нейросети в целом. Сначала ей «скормили» команды на естественном языке, а для обучения использовали данные в виде пар команда/скриншот действия героя. После этого нейросети дали возможность попрактиковаться. На видео ниже показано прохождение одной из игровых комнат.

Интересно, что авторы дали ИИ пройти комнату с набором команд вроде «поднимись по лестнице» без накопленных данных о предыдущих тренировках. Проще говоря, без опыта. И нейросеть смогла это сделать. Более того, в некоторых случаях система игнорировала команды человека, если находила более оптимальное решение.

Инженеры оценили эффективность их подхода с помощью OpenAI Gym – платформы для разработки и сравнения алгоритмов обучения с подкреплением. Их алгоритм набрал 3500 очков, против 2500 у самого успешного конкурента. На данный момент только алгоритм Google DeepMind набрал больше – 6600 очков, однако его тренировка заняла в два раза больше времени. В дальнейшем исследователи планируют уменьшить количество инструкций, чтобы сделать алгоритм более независимым.

Что это даст в перспективе? Вполне возможно, что полноценный человеко-машинный интерфейс с поддержкой естественного языка и самообучением.