一种资源分配方法、装置及设备制造方法及图纸

技术编号:34079399 阅读:68 留言:0更新日期:2022-07-11 18:29
本发明专利技术公开了一种资源分配方法、装置及设备,涉及人工智能技术领域,其中,所述方法包括:获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息;根据所述态势信息,创建至少两个分配节点,所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量;在所述至少两个分配节点中,逐一对所述至少两个虚拟对象进行资源分配,直到所述至少两个虚拟对象资源分配完成,得到联合分配动作;将所述联合分配动作输入到环境中,得到资源分配结果。通过上述方式,本发明专利技术实现了虚拟对象间无协商无通信的情况下完成资源的最优分配。分配。分配。

【技术实现步骤摘要】
一种资源分配方法、装置及设备
[0001]

[0002]本专利技术涉及人工智能
,具体涉及一种资源分配方法、装置及设备。
[0003]
技术介绍

[0004]静态多资源多目标分配问题属于单次决策组合优化问题,直接采用经典的端到端的深度强化学习方法难以奏效,因为此方法主要用于解决序列决策的优化问题。此外,深度强化学习方法是基于数据驱动的优化方法,能够实现解空间的大范围覆盖和探索,但是当实际问题中的解空间比较窄或存在很多次优解时,很难探索到最优的解。且深度强化学习方法高度依赖高质量的大数据,但是由于实际条件的约束,高质量的数据较难获取。
[0005]综上所述,面对单次决策组合优化、虚拟对象间无协商无通信等实际问题,直接采用传统的优化方法和经典的强化学习算法是比较难解决的。
[0006]基于此,如何解决在多资源多目标分配场景中,虚拟对象间无协商无通信以及单次决策组合优化问题(即在虚拟对象间无协商无通信的情况下完成资源的最优分配)是本领域人员亟待解决的问题。
[0007]
技术实现思路

[0008]为解决上述问题,提出了本专利技术实施例的资源分配方法、装置及设备。
[0009]根据本专利技术实施例的一个方面,提供了一种资源分配方法,包括:获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息;根据所述态势信息,创建至少两个分配节点,所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量;在所述至少两个分配节点中,逐一对所述至少两个虚拟对象进行资源分配,直到所述至少两个虚拟对象资源分配完成,得到联合分配动作;将所述联合分配动作输入到环境中,得到资源分配结果。
[0010]可选的,所述态势信息包括以下至少一种:共享态势信息和局部态势信息。
[0011]可选的,对所述至少两个虚拟对象进行资源分配,包括:通过算法,对所述至少两个虚拟对象进行资源分配,其中,a是指所述至少两个虚拟对象中每个虚拟对象分配的结果,s是指态势信息,是指最大值自变量点集函数,是指动作值,是指置信值。
[0012]可选的,将所述联合分配动作输入到环境中,得到资源分配结果,包括:将所述联合分配动作输入到环境中,得到环境验证结果;若所述环境验证结果满足相应条件,得到所述资源分配结果;若所述环境验证结果不满足相应条件,得到环境反馈信息;根据所述环境反馈信息,更新所述至少两个分配节点,得到更新后的至少两个分配节点;在所述更新后的至少两个分配节点中,重复执行逐一对所述至少两个虚拟对象进行资源分配,直到所述至少两个虚拟对象资源分配完成,得到联合分配动作,将所述联合分配动作输入到环境中,得到环境验证结果的步骤。
[0013]可选的,在获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息之后,还包括:将所述至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息输入到训练得到的神经网络中;在将所述联合分配动作输入到环境中,得到资源分配结果之后,还包括:将所述资源分配结果的过程所产生的运行数据储存到记忆库中。
[0014]可选的,当所述记忆库中的所述运行数据达到上限时,对所述神经网络进行训练,所述神经网络通过以下方法训练得到:将预存储的运行数据作为训练样本;提取所述训练样本中至少两个训练虚拟对象以及所述至少两个训练虚拟对象分别对应的训练态势信息;根据所述训练态势信息,在优化待优化神经网络过程中创建至少两个训练分配节点,所述至少两个训练分配节点的数量大于或等于所述至少两个训练虚拟对象的数量;在所述至少两个训练分配节点中,逐一对所述至少两个训练虚拟对象进行资源分配,直到所述至少两个训练虚拟对象资源分配完成,得到训练联合分配动作;将所述训练联合分配动作输入到训练环境中,得到训练环境反馈信息,所述训练环境反馈信息用于表征相应训练联合分配动作的有效程度;根据所述训练环境反馈信息调整所述待优化神经网络的参数,得到所述神经网络。
[0015]可选的,在优化待优化神经网络过程中创建至少两个训练分配节点之后,还包括:对所述至少两个训练分配节点中每一个训练分配节点进行第一判断,所述第一判断是指判断所述训练分配节点中是否包含所有合规动作的子节点;若所述训练分配节点包含所有合规动作的子节点,则在所述训练分配节点中选择所述合规动作的子节点;若所述训练分配节点未包含所有合规动作的子节点,则根据所述训练分配节点对应的动作空间进行扩展子节点。
[0016]根据本专利技术实施例的另一方面,提供了一种资源分配装置,所述装置包括:获取模块,用于获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息;处理模块,用于根据所述态势信息,创建至少两个分配节点,所述至少两个分配节
点的数量大于或等于所述至少两个虚拟对象的数量;在所述至少两个分配节点中,逐一对所述至少两个虚拟对象进行资源分配,直到所述至少两个虚拟对象资源分配完成,得到联合分配动作;输出模块,用于将所述联合分配动作输入到环境中,得到资源分配结果。
[0017]根据本专利技术实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述资源分配方法对应的操作。
[0018]根据本专利技术实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述资源分配方法对应的操作。
[0019]根据本专利技术上述实施例提供的方案,通过获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息;根据所述态势信息,创建至少两个分配节点,所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量;在所述至少两个分配节点中,逐一对所述至少两个虚拟对象进行资源分配,直到所述至少两个虚拟对象资源分配完成,得到联合分配动作;将所述联合分配动作输入到环境中,得到资源分配结果,实现了虚拟对象间无协商无通信的情况下完成资源的最优分配。
[0020]上述说明仅是本专利技术实施例技术方案的概述,为了能够更清楚了解本专利技术实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术实施例的具体实施方式。
[0021]附图说明
[0022]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的资源分配方法流程图;图2示出了本专利技术实施例提供的一种具体的即时策略类场景示意图;图3示出了本专利技术实施例提供的一种具体的树搜索流程图;图4示出了本专利技术实施例提供的神经网络训练方法流程图;图5示出了本专利技术实施例提供的一种具体的策略网络结构示意图;图6示出了本专利技术实施例提供的一种具体的基于树搜索和强化学习的多目标多资源分配方法流本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种资源分配方法,其特征在于,所述方法包括:获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息;根据所述态势信息,创建至少两个分配节点,所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量;在所述至少两个分配节点中,逐一对所述至少两个虚拟对象进行资源分配,直到所述至少两个虚拟对象资源分配完成,得到联合分配动作;将所述联合分配动作输入到环境中,得到资源分配结果。2.根据权利要求1所述的资源分配方法,其特征在于,所述态势信息包括以下至少一种:共享态势信息和局部态势信息。3.根据权利要求1所述的资源分配方法,其特征在于,对所述至少两个虚拟对象进行资源分配,包括:通过算法,对所述至少两个虚拟对象进行资源分配,其中,a是指所述至少两个虚拟对象中每个虚拟对象分配的结果,s是指态势信息,是指最大值自变量点集函数,是指动作值,是指置信值。4.根据权利要求1所述的资源分配方法,其特征在于,将所述联合分配动作输入到环境中,得到资源分配结果,包括:将所述联合分配动作输入到环境中,得到环境验证结果;若所述环境验证结果满足相应条件,得到所述资源分配结果;若所述环境验证结果不满足相应条件,得到环境反馈信息;根据所述环境反馈信息,更新所述至少两个分配节点,得到更新后的至少两个分配节点;在所述更新后的至少两个分配节点中,重复执行逐一对所述至少两个虚拟对象进行资源分配,直到所述至少两个虚拟对象资源分配完成,得到联合分配动作,将所述联合分配动作输入到环境中,得到环境验证结果的步骤。5.根据权利要求1所述的资源分配方法,其特征在于,在获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息之后,还包括:将所述至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息输入到训练得到的神经网络中;在将所述联合分配动作输入到环境中,得到资源分配结果之后,还包括:将所述资源分配结果的过程所产生的运行数据储存到记忆库中。6.根据权利要求5所述的资源分配方法,其特征在于,当所述记忆库中的所述运行数据达到上限时,对所述神经网络进行训练,所述神经网络通过以下方法训练得到:将预存储的运行数据作为训练样本;提取所述训练样本中至少两个训练虚拟对象以及所述至...

【专利技术属性】
技术研发人员:徐波成芳娟徐博
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1