AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α

  • 日期:02-01
  • 点击:(1672)


对于人工智能来说,《荣耀之海》在环境复杂性和人工智能拟人化方面对代理的设计提出了巨大的挑战。

就环境复杂性而言,人工智能征服的大多数游戏现在都在2D太空运行。甚至DeepMind雷声公司在3D空间的哈默3人工智能也是基于上一代的游戏内核,拥有简单的地图和很少的代理。相比之下,《荣耀之海》的3D环境更为复杂,地图更大,玩家也更多。

就人工智能拟人化而言,从开发者和玩家的角度来看,人工智能不仅越强越好,而且要求越多的人越好。作为一个吃鸡肉游戏的人工智能,猎户座α必须足够人性化以激发玩家的兴趣。

猎户座α表现如何?

在这个阶段,超参数团队的研究集中在230米*230米岛上的一个迷你游戏(mini game)上,在6分钟内组成一个2V2团队,幸存的团队获胜。除了这些限制,其他游戏元素与整个游戏完全相同。

研究人员发现,在这场迷你比赛中,猎户座α逐渐从头开始学习在3D环境中生存所需的全方位能力。

1)人工智能学会了通过收集材料和运行药物来照顾好自己:

人工智能出生后会迅速收集材料。当观察到毒环外有高级材料时,它会选择迅速出去取它们,并尽快返回安全区。

人工智能具有避障和导航能力,可以通过翻窗快速进出房屋收集材料。

2)人工智能还学会了通过寻找掩体、灵活移动、使用武器和其他认知能力以及记忆来提高自己在竞争对抗中的生存能力:

人工智能将在战斗中合理使用掩体,并保持灵活移动以避免攻击。

进入近战后,人工智能将切换到近战武器,并在距离后切换回远程武器。

3)人工智能还学会了充分发挥团队的合作,与队友互相掩护,在不同的战斗环境中采取有针对性的战略战术,最大限度地发挥自己的优势:

当人工智能被击倒时,他的队友会立即营救他,并在救了他一命后帮助他观察风向和其他队友给药。

在团队战斗中,人工智能分散它的位置,划出它的枪线,集中火力先消灭一个敌人。

在摧毁敌人并获得数量优势后,人工智能发起猛烈攻击,依次通过楼梯进入房间并杀死剩余的敌人。

在人工智能的训练过程中,研究人员还观察到了与人类生存和进化的许多相似之处。

在进化的过程中,人类首先学会了收集食物来补充能量和应对恶劣天气,然后学会了使用各种工具和掌握记忆等高级认知能力,然后学会了与族群中的同龄人一起工作和与其他族群竞争。人工智能还通过多智能体的自我训练显示了类似的进化现象。随着训练次数的增加,人工智能逐渐出现了诸如材料收集、材料使用、空间感知、认知能力和复杂策略等智能行为。

AI

AI的演变过程哪里难玩鸡游戏?

《荣耀之海》作为3D游戏,已经达到了比一般2D游戏更高的复杂程度,而超大地图的鸡肉游戏和100名玩家的同一个游戏则进一步增加了技术难度。

一般来说,猎户座α在《荣耀之海》面临的挑战包括以下几个方面:

实时和长期

玩家不仅要做出实时的运营决策,还要做出长期的规划决策,平衡两者。具体来说,《荣耀之海》,为了赢得最终的游戏,整个游戏通常需要30分钟以上,相应的决策步骤数超过7000个。

不完全信息

象棋游戏如围棋也很难,但玩家可以看到完整的游戏并获得决策所需的完美信息。然而,在这个多人竞争的不完全信息游戏中,玩家只能看到一定视角范围内的信息,看不到被障碍物阻挡的部分。因此,玩家需要有效地探索无形的信息,并具有记忆能力。

Complex State Space

《荣耀之海》 3D环境包含比2D环境更多的信息,例如具有深度的复杂空间结构、巨大的地图(10km * 10km)、众多的玩家(100人)和丰富的元素(大量的建筑物、障碍物、材料、

为了玩这个吃鸡游戏,猎户座α需要同时操作一系列操作,如移动方向、视角方向、攻击、姿势(站立、蹲下、俯卧、跳跃)、互动(捡、配药、换炸弹)等,以产生一个复杂的组合动作空间。据估计,离散化后的可行动作数可达10 7个。

策略与战术

玩家需要对迅速变化的环境和形势做出快速准确的判断,并采取丰富的策略与战术,如火力掩护、拔枪线、抢夺、挡毒圈、封烟救援等。“多人游戏”玩家不仅需要与队友密切合作和沟通,还需要在资源收集和武装交火中与其他团队对抗。与两人游戏相比,多人游戏的情况更加复杂多变。

猎户座α是如何做到的?

不要使用人类玩家数据,完全自学。

Orion α使用深度强化学习方法,通过与环境的互动和反复试验,从零开始学习观察世界、执行行动、合作和竞争。人工智能不使用任何人类玩家的战斗数据,它是基于自我游戏。

使用不完美信息观察到的状态信息

人工智能包括玩家/材料的实体信息、深度图、雷达图、迷你图和宏标量信息。像人类一样,人工智能观察到不完美状态,也就是说,它只能看到一定视角范围内的信息,而看不到视野之外或被障碍物阻挡的信息。

与直接使用RGB图像作为特征相比,研究人员采用的方法省略了图像目标检测和识别的过程,而侧重于人工智能的决策过程。此外,雷达地图和小地图相当于自动驾驶中的高精度地图,深度地图相当于深度相机捕获的信息。

限制人工智能手速

人工智能的动作输出被分为移动方向、水平/俯仰方向、身体姿势、材料拾取/使用、武器切换、攻击等任务。多个任务可以同时执行,形成一个巨大的复合动作空间。

当人类玩家操作时,会有一个反应时间限制,APM(每分钟操作次数)也会有一个上限。为了与人类保持一致,研究人员还对人工智能施加了相应的限制。

考虑到网络传输、特征提取和模型预测的延迟,人工智能从“观察到1帧状态”到“生成1个动作”需要120毫秒的延迟。在此基础上,他们增加了额外的100毫秒延迟。同时,人工智能每秒最多执行4个动作,每次最多包含3个动作。

多个深度模型一起合作

每个代理是一个深度神经网络模型,它输入状态信息并输出预测的动作指令。研究人员使用变压器模型(Transformer model)处理球员和材料等实体信息,使用雷斯网(ResNet)处理深度图、雷达图和小地图等图像信息,使用MLP模型处理宏观标量信息,使用LSTM模型实现记忆能力。

为了实现多代理协作,Orion α采用分布式策略网络和中心价值网络,并引入策略网络之间的通信机制。

人工智能模型结构图

自主开发的通用分布式强化学习引擎德尔塔

猎户座α”训练是在超参数自主开发的通用分布式强化学习引擎德尔塔上进行的。该引擎通过大量弹性CPU资源生成训练数据,通过GPU资源更新神经网络模型参数,并通过监控组件监控人工智能的训练过程。在这个项目中,“猎户座α”训练相当于人类玩家在一天内玩了10万年。该引擎可以部署在任何公共云上,目前支持许多游戏的人工智能训练。

分布式强化学习引擎的Delta架构图

应该指出的是,虽然Orion α已经取得了一些进展,但是目前的方案仍然有许多局限性和需要解决的问题。例如,人工智能只能在一个岛上进行海战。人工智能只在两个队之间玩游戏;人工智能的材料和武器仍然有限。

研究人员表示,他们将逐步克服上述困难,最终让人工智能在完整的地图上展开一场100人的吃鸡之战。

超级参数技术是什么样的公司?

Parameterized Technology是一家专门从事游戏人工智能探索的初创公司,专注于机器学习、强化学习、大型sc

公司创始人刘永生是腾讯人工智能实验室前总经理和T4技术专家。同时,他也是腾讯围棋艾未未“绝艺”的负责人和艾未未国王“绝武”队的荣耀。“绝艺”在今年8月获得了世界智能围棋公开赛冠军,而“绝武”也在今年8月吉隆坡最高标准的王者荣耀电子竞赛KPL世界锦标赛半决赛中击败了职业选手联袂上阵,提升了王者荣耀电子竞赛的职业水平。

刘永生,超级参数技术的创始人。

除了创始人之外,ParameterTech的其他团队成员还拥有来自腾讯人工智能实验室和IEG游戏的多名人工智能科学家、来自国内外顶尖大学的技术骨干和精英合作伙伴。

该公司坚信,AGI的产生来自对生物智能进化过程的模拟,而不是横向复制。为了更现实地实现这种模拟,他们选择了电子游戏作为实验环境,并在此过程中反馈游戏本身。

他们致力于将人工智能能力与游戏场景深度结合,为游戏公司提供人工智能解决方案,帮助游戏制造商提高开发效率,开拓新的游戏方式,并在游戏设计、开发和运营的许多方面创造价值。回到搜狐看更多