AI模型学习方法、服务器及计算机可读存储介质技术

技术编号:40082243 阅读:21 留言:0更新日期:2024-01-23 14:54
本申请公开了一种AI模型学习方法、服务器及计算机可读存储介质,该方法包括:确定智能体的活动时间序列episode中每个序列元素memory对应的熵信息;其中,所述episode被划分为多个序列段trajectory,每个所述trajectory中包含多个所述memory;根据每个所述trajectory中各个所述memory对应的所述熵信息,确定每个所述trajectory对应的平均熵信息;根据所述平均熵信息,对所述智能体对应AI模型的当前学习进行奖励,以提升所述AI模型的多样性。本申请实施例实现了提高AI模型的多样性。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种ai模型学习方法、服务器及计算机可读存储介质。


技术介绍

1、随着人工智能(artificial intelligence,ai)技术的快速发展,人工智能技术被广泛应用于3d游戏、虚拟交通、自动驾驶仿真、机器人轨迹规划等各个领域,在3d虚拟空间中进行ai仿真具有非常大的商业价值。以3d游戏为例,通常,3d游戏大多是多个ai可以同时与环境进行交互,一个ai对环境做的动作而产生的状态也会影响另一个ai,因此,如何同时训练多个ai成为了一个问题。目前,业界常用的方法是自对弈(self-play),通过不断的学习,ai在不同的状态下产生不同的动作。只是,由于ai在学习的时候只学习过自己的数据,训练获得的ai模型存在多样性不足的问题。

2、因此,如何提高ai模型的多样性成为亟需解决的问题。


技术实现思路

1、本申请实施例提供一种ai模型学习方法、服务器及计算机可读存储介质,可以实现提高ai模型的多样性。

2、第一方面,本申请实施例提供了一种ai模型学习方法,包括:本文档来自技高网...

【技术保护点】

1.一种人工智能AI模型学习方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述平均熵信息对应熵值越大,所述AI模型的多样性越强;反之,所述平均熵信息对应熵值越小,所述AI模型的多样性越弱。

3.根据权利要求1所述的方法,其特征在于,所述根据每个所述trajectory中各个所述memory对应的所述熵信息,确定每个所述trajectory对应的平均熵信息之后,包括:

4.根据权利要求3所述的方法,其特征在于,每个所述memory对应的所述熵信息包括熵entropyi和最大熵max_entropyi;每个所述trajectory对应...

【技术特征摘要】

1.一种人工智能ai模型学习方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述平均熵信息对应熵值越大,所述ai模型的多样性越强;反之,所述平均熵信息对应熵值越小,所述ai模型的多样性越弱。

3.根据权利要求1所述的方法,其特征在于,所述根据每个所述trajectory中各个所述memory对应的所述熵信息,确定每个所述trajectory对应的平均熵信息之后,包括:

4.根据权利要求3所述的方法,其特征在于,每个所述memory对应的所述熵信息包括熵entropyi和最大熵max_entropyi;每个所述trajectory对应的所述平均熵信息包括平均熵entropy和平均最大熵max_entropy;所述全局熵信息包括全局熵global_entropy和全局最大熵global_max_entropy。

5.根据权利要求4所述的方法,其特征在于,所述确定智能体的活动时间序列episode中每个序列元素memory对应的熵信息,包括:<...

【专利技术属性】
技术研发人员:杨培许壮李子康司徒慧翔梁泽年陈家涛
申请(专利权)人:深圳海普参数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1