【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及一种ai模型学习方法、服务器及计算机可读存储介质。
技术介绍
1、随着人工智能(artificial intelligence,ai)技术的快速发展,人工智能技术被广泛应用于3d游戏、虚拟交通、自动驾驶仿真、机器人轨迹规划等各个领域,在3d虚拟空间中进行ai仿真具有非常大的商业价值。以3d游戏为例,通常,3d游戏大多是多个ai可以同时与环境进行交互,一个ai对环境做的动作而产生的状态也会影响另一个ai,因此,如何同时训练多个ai成为了一个问题。目前,业界常用的方法是自对弈(self-play),通过不断的学习,ai在不同的状态下产生不同的动作。只是,由于ai在学习的时候只学习过自己的数据,训练获得的ai模型存在多样性不足的问题。
2、因此,如何提高ai模型的多样性成为亟需解决的问题。
技术实现思路
1、本申请实施例提供一种ai模型学习方法、服务器及计算机可读存储介质,可以实现提高ai模型的多样性。
2、第一方面,本申请实施例提供了一种ai
...【技术保护点】
1.一种人工智能AI模型学习方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述平均熵信息对应熵值越大,所述AI模型的多样性越强;反之,所述平均熵信息对应熵值越小,所述AI模型的多样性越弱。
3.根据权利要求1所述的方法,其特征在于,所述根据每个所述trajectory中各个所述memory对应的所述熵信息,确定每个所述trajectory对应的平均熵信息之后,包括:
4.根据权利要求3所述的方法,其特征在于,每个所述memory对应的所述熵信息包括熵entropyi和最大熵max_entropyi;每个所述tr
...【技术特征摘要】
1.一种人工智能ai模型学习方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述平均熵信息对应熵值越大,所述ai模型的多样性越强;反之,所述平均熵信息对应熵值越小,所述ai模型的多样性越弱。
3.根据权利要求1所述的方法,其特征在于,所述根据每个所述trajectory中各个所述memory对应的所述熵信息,确定每个所述trajectory对应的平均熵信息之后,包括:
4.根据权利要求3所述的方法,其特征在于,每个所述memory对应的所述熵信息包括熵entropyi和最大熵max_entropyi;每个所述trajectory对应的所述平均熵信息包括平均熵entropy和平均最大熵max_entropy;所述全局熵信息包括全局熵global_entropy和全局最大熵global_max_entropy。
5.根据权利要求4所述的方法,其特征在于,所述确定智能体的活动时间序列episode中每个序列元素memory对应的熵信息,包括:<...
【专利技术属性】
技术研发人员:杨培,许壮,李子康,司徒慧翔,梁泽年,陈家涛,
申请(专利权)人:深圳海普参数科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。