Компьютеру простым языком объяснили прохождение игры на Atari

Студенты из Стэнфордского университета с помощью команд на простом английском научили нейросеть проходить одну из самых сложных игр для видеоприставки Atari 2600. Препринт исследования опубликован на сайте .


Большинство систем искусственного интеллекта, предназначенных для прохождения видеоигр, используют обучение с подкреплением – метод, при котором система получает оценку своих действий от среды, в данном случае игры, — к примеру, зарабатывает очки прохождения. Она совершает случайные действия до получения награды, а затем пытается повторить свои действия в будущем. В качестве среды студенты решили использовать игру «Месть Монтесумы», в которой герой перемещается по подземелью, собирая сокровища. Эта игра не первый раз используется для тренировки искусственного интеллекта из-за особенностей геймплея. Дело в том, что в игре редко встречаются «награды», необходимые для успешного прохождения, такие, как ключ для открытия двери в следующую комнату, из-за чего искусственному интеллекту сложно понять, какие действия ведут к победе.


Разработчики придумали другой подход. Чтобы ускорить процесс обучения, они решили сначала научить нейросеть понимать команды, написанные естественным языком, а для обучения использовали данные в виде пар команда/скриншот действия героя. Затем авторы дали ИИ набор команд для успешного прохождения каждой комнаты в игре и дали ей попрактиковаться. Чтобы доказать, что ИИ действительно научился понимать команды, авторы дали ему пройти комнату с набором команд вроде «поднимись по лестнице» без накопленных данных о предыдущих тренировках. Таким образом, имитировалась ситуация, при которой он видел эту комнату впервые. Тем не менее, ИИ смог правильно интерпретировать команды человека и пройти уровень. Более того, он стал игнорировать команды, если находил более оптимальную стратегию для прохождения.

Инженеры оценили эффективность их подхода с помощью OpenAI Gym – платформы для разработки и сравнения алгоритмов обучения с подкреплением. Их алгоритм набрал 3500 очков, против 2500 у самого успешного конкурента. На данный момент только алгоритм Google DeepMind набрал больше – 6600 очков, однако его тренировка заняла в два раза больше времени. В дальнейшем исследователи планируют уменьшить количество инструкций, чтобы сделать алгоритм более независимым.

В 2016 году Google научил искусственный интеллект проходить трехмерный лабиринт, а также играть в футбол с помощью виртуального муравья. Кроме того, в 2015 году ученые из Высшей нормальной школы (École normale supérieure, Франция) создали программу, которая умеет учиться по видеоинструкциям с YouTube.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND