System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及一种ai模型学习方法、服务器及计算机可读存储介质。
技术介绍
1、随着人工智能(artificial intelligence,ai)技术的快速发展,人工智能技术被广泛应用于3d游戏、虚拟交通、自动驾驶仿真、机器人轨迹规划等各个领域,在3d虚拟空间中进行ai仿真具有非常大的商业价值。以3d游戏为例,通常,3d游戏大多是多个ai可以同时与环境进行交互,一个ai对环境做的动作而产生的状态也会影响另一个ai,因此,如何同时训练多个ai成为了一个问题。目前,业界常用的方法是自对弈(self-play),通过不断的学习,ai在不同的状态下产生不同的动作。只是,由于ai在学习的时候只学习过自己的数据,训练获得的ai模型存在多样性不足的问题。
2、因此,如何提高ai模型的多样性成为亟需解决的问题。
技术实现思路
1、本申请实施例提供一种ai模型学习方法、服务器及计算机可读存储介质,可以实现提高ai模型的多样性。
2、第一方面,本申请实施例提供了一种ai模型学习方法,包括:
3、确定智能体的活动时间序列episode中每个序列元素memory对应的熵信息;其中,所述episode被划分为多个序列段trajectory,每个所述trajectory中包含多个所述memory;
4、根据每个所述trajectory中各个所述memory对应的所述熵信息,确定每个所述trajectory对应的平均熵信息;
5、根据所
6、第二方面,本申请实施例还提供了一种服务器,其特征在于,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的ai模型学习方法。
7、第三方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器执行时使所述处理器实现上述的ai模型学习方法。
8、本申请实施例提供了一种ai模型学习方法、服务器及计算机可读存储介质,通过确定智能体的活动时间序列episode中每个序列元素memory对应的熵信息;其中,episode被划分为多个序列段trajectory,每个trajectory中包含多个memory,根据每个trajectory中各个memory对应的熵信息,确定每个trajectory对应的平均熵信息,平均熵信息衡量智能体对应ai模型的多样性,基于平均熵信息对ai模型的当前学习进行奖励,从而实现提高ai模型的多样性。
本文档来自技高网...【技术保护点】
1.一种人工智能AI模型学习方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述平均熵信息对应熵值越大,所述AI模型的多样性越强;反之,所述平均熵信息对应熵值越小,所述AI模型的多样性越弱。
3.根据权利要求1所述的方法,其特征在于,所述根据每个所述trajectory中各个所述memory对应的所述熵信息,确定每个所述trajectory对应的平均熵信息之后,包括:
4.根据权利要求3所述的方法,其特征在于,每个所述memory对应的所述熵信息包括熵entropyi和最大熵max_entropyi;每个所述trajectory对应的所述平均熵信息包括平均熵entropy和平均最大熵max_entropy;所述全局熵信息包括全局熵global_entropy和全局最大熵global_max_entropy。
5.根据权利要求4所述的方法,其特征在于,所述确定智能体的活动时间序列episode中每个序列元素memory对应的熵信息,包括:
6.根据权利要求5所述的方法,其特征在于,所述根据所述状态信息,
7.根据权利要求4所述的方法,其特征在于,所述基于所述数据缓存池,确定对应的全局熵信息,包括:
8.根据权利要求4所述的方法,其特征在于,所述基于所述平均熵信息和所述全局熵信息,对所述AI模型的当前学习进行奖励,包括:
9.根据权利要求8所述的方法,其特征在于,所述平均熵信息和所述全局熵信息满足预设条件包括:
10.一种服务器,其特征在于,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至9中任一项所述的AI模型学习方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至9中任一项所述的AI模型学习方法。
...【技术特征摘要】
1.一种人工智能ai模型学习方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述平均熵信息对应熵值越大,所述ai模型的多样性越强;反之,所述平均熵信息对应熵值越小,所述ai模型的多样性越弱。
3.根据权利要求1所述的方法,其特征在于,所述根据每个所述trajectory中各个所述memory对应的所述熵信息,确定每个所述trajectory对应的平均熵信息之后,包括:
4.根据权利要求3所述的方法,其特征在于,每个所述memory对应的所述熵信息包括熵entropyi和最大熵max_entropyi;每个所述trajectory对应的所述平均熵信息包括平均熵entropy和平均最大熵max_entropy;所述全局熵信息包括全局熵global_entropy和全局最大熵global_max_entropy。
5.根据权利要求4所述的方法,其特征在于,所述确定智能体的活动时间序列episode中每个序列元素memory对应的熵信息,包括:<...
【专利技术属性】
技术研发人员:杨培,许壮,李子康,司徒慧翔,梁泽年,陈家涛,
申请(专利权)人:深圳海普参数科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。