System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() AI模型学习方法、服务器及计算机可读存储介质技术_技高网

AI模型学习方法、服务器及计算机可读存储介质技术

技术编号:40082243 阅读:5 留言:0更新日期:2024-01-23 14:54
本申请公开了一种AI模型学习方法、服务器及计算机可读存储介质,该方法包括:确定智能体的活动时间序列episode中每个序列元素memory对应的熵信息;其中,所述episode被划分为多个序列段trajectory,每个所述trajectory中包含多个所述memory;根据每个所述trajectory中各个所述memory对应的所述熵信息,确定每个所述trajectory对应的平均熵信息;根据所述平均熵信息,对所述智能体对应AI模型的当前学习进行奖励,以提升所述AI模型的多样性。本申请实施例实现了提高AI模型的多样性。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种ai模型学习方法、服务器及计算机可读存储介质。


技术介绍

1、随着人工智能(artificial intelligence,ai)技术的快速发展,人工智能技术被广泛应用于3d游戏、虚拟交通、自动驾驶仿真、机器人轨迹规划等各个领域,在3d虚拟空间中进行ai仿真具有非常大的商业价值。以3d游戏为例,通常,3d游戏大多是多个ai可以同时与环境进行交互,一个ai对环境做的动作而产生的状态也会影响另一个ai,因此,如何同时训练多个ai成为了一个问题。目前,业界常用的方法是自对弈(self-play),通过不断的学习,ai在不同的状态下产生不同的动作。只是,由于ai在学习的时候只学习过自己的数据,训练获得的ai模型存在多样性不足的问题。

2、因此,如何提高ai模型的多样性成为亟需解决的问题。


技术实现思路

1、本申请实施例提供一种ai模型学习方法、服务器及计算机可读存储介质,可以实现提高ai模型的多样性。

2、第一方面,本申请实施例提供了一种ai模型学习方法,包括:

3、确定智能体的活动时间序列episode中每个序列元素memory对应的熵信息;其中,所述episode被划分为多个序列段trajectory,每个所述trajectory中包含多个所述memory;

4、根据每个所述trajectory中各个所述memory对应的所述熵信息,确定每个所述trajectory对应的平均熵信息;

5、根据所述平均熵信息,对所述智能体对应ai模型的当前学习进行奖励,以提升所述ai模型的多样性。

6、第二方面,本申请实施例还提供了一种服务器,其特征在于,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的ai模型学习方法。

7、第三方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器执行时使所述处理器实现上述的ai模型学习方法。

8、本申请实施例提供了一种ai模型学习方法、服务器及计算机可读存储介质,通过确定智能体的活动时间序列episode中每个序列元素memory对应的熵信息;其中,episode被划分为多个序列段trajectory,每个trajectory中包含多个memory,根据每个trajectory中各个memory对应的熵信息,确定每个trajectory对应的平均熵信息,平均熵信息衡量智能体对应ai模型的多样性,基于平均熵信息对ai模型的当前学习进行奖励,从而实现提高ai模型的多样性。

本文档来自技高网...

【技术保护点】

1.一种人工智能AI模型学习方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述平均熵信息对应熵值越大,所述AI模型的多样性越强;反之,所述平均熵信息对应熵值越小,所述AI模型的多样性越弱。

3.根据权利要求1所述的方法,其特征在于,所述根据每个所述trajectory中各个所述memory对应的所述熵信息,确定每个所述trajectory对应的平均熵信息之后,包括:

4.根据权利要求3所述的方法,其特征在于,每个所述memory对应的所述熵信息包括熵entropyi和最大熵max_entropyi;每个所述trajectory对应的所述平均熵信息包括平均熵entropy和平均最大熵max_entropy;所述全局熵信息包括全局熵global_entropy和全局最大熵global_max_entropy。

5.根据权利要求4所述的方法,其特征在于,所述确定智能体的活动时间序列episode中每个序列元素memory对应的熵信息,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述状态信息,确定所述memory对应的所述entropyi和所述max_entropyi,包括:

7.根据权利要求4所述的方法,其特征在于,所述基于所述数据缓存池,确定对应的全局熵信息,包括:

8.根据权利要求4所述的方法,其特征在于,所述基于所述平均熵信息和所述全局熵信息,对所述AI模型的当前学习进行奖励,包括:

9.根据权利要求8所述的方法,其特征在于,所述平均熵信息和所述全局熵信息满足预设条件包括:

10.一种服务器,其特征在于,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至9中任一项所述的AI模型学习方法。

11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至9中任一项所述的AI模型学习方法。

...

【技术特征摘要】

1.一种人工智能ai模型学习方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述平均熵信息对应熵值越大,所述ai模型的多样性越强;反之,所述平均熵信息对应熵值越小,所述ai模型的多样性越弱。

3.根据权利要求1所述的方法,其特征在于,所述根据每个所述trajectory中各个所述memory对应的所述熵信息,确定每个所述trajectory对应的平均熵信息之后,包括:

4.根据权利要求3所述的方法,其特征在于,每个所述memory对应的所述熵信息包括熵entropyi和最大熵max_entropyi;每个所述trajectory对应的所述平均熵信息包括平均熵entropy和平均最大熵max_entropy;所述全局熵信息包括全局熵global_entropy和全局最大熵global_max_entropy。

5.根据权利要求4所述的方法,其特征在于,所述确定智能体的活动时间序列episode中每个序列元素memory对应的熵信息,包括:<...

【专利技术属性】
技术研发人员:杨培许壮李子康司徒慧翔梁泽年陈家涛
申请(专利权)人:深圳海普参数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1