Бот может побеждать людей в многопользовательских скрытых ролевых играх

24 марта, 2020 In Uncategorized

Исследователи Массачусетского технологического института разработали бота, оснащенного искусственным интеллектом, который может побеждать игроков-людей в хитрых многопользовательских онлайн-играх, где роли и мотивы игроков держатся в секрете.

Многие игровые боты были созданы, чтобы не отставать от людей-игроков. Ранее в этом году команда из Университета Карнеги-Меллона разработала первого в мире бота, способного победить профессионалов в многопользовательском покере. AlphaGo DeepMind в 2016 году попал в заголовки лучших игроков в покер. Также было создано несколько ботов, чтобы победить профессиональных шахматистов или объединить усилия в совместных играх, таких как захват флага в режиме онлайн. Однако в этих играх бот знает своих противников и товарищей по команде с самого начала.

На конференции по системам обработки нейронной информации, которая состоится в следующем месяце, исследователи представят DeepRole, первого игрового бота, который сможет выигрывать многопользовательские онлайн-игры, в которых преданность команды участников изначально неясна. Бот разработан с новым «дедуктивным мышлением», добавленным в алгоритм ИИ, обычно используемый для игры в покер. Это помогает рассуждать о частично наблюдаемых действиях, чтобы определить вероятность того, что данный игрок является товарищем по команде или противником. При этом он быстро узнает, с кем вступать в союз и какие действия предпринять, чтобы обеспечить победу своей команды.

Исследователи настроили DeepRole против игроков-людей в более чем 4000 раундов онлайн-игры «The Resistance: Avalon». В этой игре игроки пытаются определить секретные роли своих сверстников по ходу игры, одновременно скрывая свои роли. Как партнер по команде, так и противник, DeepRole неизменно превосходил игроков-людей.

«Если вы замените товарища по команде на бота, вы можете ожидать более высокий процент выигрышей для вашей команды. Боты — лучшие партнеры», — говорит первый автор Джек Серрино, 18 лет специализирующийся в области электротехники и компьютерных наук в Массачусетском технологическом институте и заядлый онлайн-игрок «Avalon».

Работа является частью более широкого проекта, чтобы лучше моделировать, как люди принимают социально обоснованные решения. Это может помочь создать роботов, которые будут лучше понимать людей, учиться у них и работать с ними.

«Люди учатся у других и сотрудничают с ними, и это позволяет нам вместе достигать того, чего никто из нас не может достичь в одиночку», — говорит соавтор Макс Клейман-Вейнер, постдоктор в Департаменте когнитивных наук в Массачусетском технологическом институте и в Гарвардском университете. «Игры такого типа лучше имитируют динамические социальные условия, которые люди испытывают в повседневной жизни. Вы должны выяснить, кто в вашей команде и будет работать с вами, будь то ваш первый день в детском саду или новом офисе».

К статье Серрино и Клеймана-Вейнера присоединяются Дэвид С. Паркс из Гарварда и Джошуа Б. Тененбаум, профессор вычислительной когнитивной науки и сотрудник Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института и Центра мозга, разума и машин.

Дедуктивный бот

В «Авалоне» три игрока случайным образом тайно назначаются в команду «сопротивления», а два игрока — в команду «шпиона». Оба шпионских игрока знают роли всех игроков. В течение каждого раунда один игрок предлагает подмножество из двух или трех игроков для выполнения миссии. Все игроки одновременно и публично голосуют, чтобы одобрить или не одобрить подмножество. Если большинство одобряет, подмножество тайно определяет, будет ли миссия успешной или неудачной. Если выбраны два «успеха», миссия завершается успешно; если выбран один «провал», миссия провалена. Игроки сопротивления всегда должны выбирать, чтобы преуспеть, но игроки-шпионы могут выбрать любой результат. Команда сопротивления побеждает после трех успешных миссий; Шпионская команда побеждает после трех неудачных миссий.

Победа в игре в основном сводится к тому, чтобы определить, кто является сопротивлением или шпионом, и голосовать за ваших соавторов. Но это на самом деле сложнее в вычислительном отношении, чем игра в шахматы и покер. «Это игра с несовершенной информацией», — говорит Клейман-Вейнер. «Вы даже не уверены, с кем вы выступаете, когда начинаете, так что есть дополнительная фаза открытия, чтобы найти, с кем сотрудничать».

DeepRole использует алгоритм планирования игры под названием «минимизация контрафактного сожаления» (CFR) — который учится играть в игру, многократно играя против себя — дополненный дедуктивным мышлением. На каждом этапе игры CFR смотрит вперед, чтобы создать «игровое дерево» решений из линий и узлов, описывающих потенциальные будущие действия каждого игрока. Деревья игры представляют все возможные действия (линии), которые каждый игрок может предпринять в каждый момент принятия решения. Разыгрывая потенциально миллиарды игровых симуляций, CFR отмечает, какие действия увеличили или уменьшили свои шансы на победу, и итеративно пересматривает свою стратегию, чтобы включить больше хороших решений. В конце концов, он планирует оптимальную стратегию, которая в худшем случае связывает против любого противника.

CFR хорошо работает для таких игр, как покер, с публичными действиями, такими как ставки на деньги и сброс фишек, но он борется, когда действия являются секретными. CFR исследователей объединяет публичные действия и последствия частных действий, чтобы определить, являются ли игроки сопротивлением или шпионом.

Бот обучается, играя против самого себя, как игрока сопротивления и шпиона. Играя в онлайн-игру, он использует свое игровое дерево, чтобы оценить, что собирается делать каждый игрок. Дерево игры представляет собой стратегию, которая дает каждому игроку наибольшую вероятность выиграть в качестве назначенной роли. Узлы дерева содержат «контрфактуальные значения», которые в основном являются оценками выигрыша, который игрок получает, если он играет в данной стратегии.

В каждой миссии бот смотрит, как играет каждый человек, по сравнению с деревом игры. Если на протяжении всей игры игрок принимает достаточно решений, которые не соответствуют ожиданиям бота, то игрок, вероятно, играет другую роль. В конце концов, бот назначает высокую вероятность для каждой роли игрока. Эти вероятности используются для обновления стратегии бота, чтобы увеличить его шансы на победу.

Одновременно он использует эту же технику для оценки того, как наблюдатель от третьего лица может интерпретировать свои собственные действия. Это помогает ему оценить, как другие игроки могут реагировать, помогая принимать более разумные решения. «Если это на миссии с двумя игроками, которая терпит неудачу, другие игроки знают, что один игрок — шпион. Бот, вероятно, не предложит ту же команду в будущих миссиях, поскольку знает, что другие игроки считают, что это плохо », — говорит Серрино.

Речь: следующий рубеж

Интересно, что бот не должен был общаться с другими игроками, что обычно является ключевым компонентом игры. «Авалон» позволяет игрокам общаться в текстовом модуле во время игры. 

«Но оказывается, что наш бот смог хорошо работать с командой других людей, наблюдая только за действиями игроков», — говорит Клейман-Вейнер. «Это интересно, потому что можно подумать, что такие игры требуют сложных коммуникационных стратегий».

«Я был рад увидеть эту статью, когда она вышла», — говорит Майкл Боулинг, профессор Университета Альберты, чьи исследования частично сосредоточены на обучении компьютеров игре в игры. «Действительно интересно увидеть идеи DeepStack в более широком приложении за пределами покера. [DeepStack] был настолько важен для ИИ в шахматах и ​​переходил к ситуациям с несовершенной информацией. Но я все еще не ожидал, что он так быстро распространится на ситуацию скрытой ролевой игры, как Авалон. Способность ориентироваться в сценарии социальных дедукций, который кажется настолько типичным для человека, является действительно важным шагом. Еще предстоит проделать большую работу, особенно когда социальное взаимодействие является более открытым, но мы продолжаем видеть, что многие из фундаментальных алгоритмов ИИ с самообучающимся обучением могут иметь большое значение ».

Затем исследователи могут позволить боту общаться во время игр с простым текстом, например, говоря, игрок хороший или плохой. Это будет связано с присвоением текста соотнесенной вероятности того, что игрок является сопротивлением или шпионом, который бот уже использует для принятия своих решений. Кроме того, будущий бот может быть оснащен более сложными коммуникационными возможностями, позволяющими ему играть в игры с социальными дедукциями, такими как популярная игра «Оборотень», которые требуют нескольких минут для споров и убеждения других игроков о том, кто находится на хорошие и плохие команды.

«Речь определенно является следующим рубежом, — говорит Серрино. «Но в тех играх, где общение играет ключевую роль, есть много проблем».

Leave a comment

Your email address will not be published. Required fields are marked *