本技术介绍一种多玩家适配型游戏AI训练技术及系统,涵盖以下步骤:首先,基于对手类型M,构建AI的策略采样策略π<sub>s</sub>和奖励模型;其次,AI利用π<sub>s</sub>与对手互动,收集各类对手数据;然后,基于互动数据,计算M个对手的奖励模型,每个模型对应一类对手;最后,通过极大极小Q学习算法、游戏模型和奖励模型,学习每类对手的纳什均衡策略,形成应对策略,并重复此过程以掌握所有对手类型的策略。该技术旨在提升游戏AI对不同玩家类型的适应性,增强玩家满意度。
背景技术
近年来,由于人工智能技术的充分发展,人机交互博弈问题引起了人们广泛的关注和研究。其中,电子游戏(如星际争霸、王者荣耀等)作为一种经典的人机交互博弈形式,成为了人们重点研究的对象。然而,之前的研究主要聚焦于如何求解一个博弈的最优解或纳什均衡解,忽视了现实生活中的电子游戏还存在另一个问题——玩家的类型有多种且未知,例如在许多游戏中,玩家可以粗略分为多种类型:竞技型、娱乐型、混合型等多个大类,并且各大类也可以根据不同的特性再细分为若干小类。玩家类型决定了他们对游戏AI表现出的智能具有不同的期望,适合的AI智能能够有效提高玩家的满意度。站在游戏厂商的立场,开发的游戏AI应当让所有玩家的满意度均达到最高。然而,如果游戏AI只使用一种对战策略,必然难以满足所有类型的玩家。因此需要训练AI使得它可以分辨出对战玩家的类型,并采取使得玩家满意度最高的策略。
实现思路