一种资源分配方法、装置及设备制造方法及图纸

技术编号:34079399 阅读:73 留言:0更新日期:2022-07-11 18:29
本发明专利技术公开了一种资源分配方法、装置及设备,涉及人工智能技术领域,其中,所述方法包括:获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息;根据所述态势信息,创建至少两个分配节点,所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量;在所述至少两个分配节点中,逐一对所述至少两个虚拟对象进行资源分配,直到所述至少两个虚拟对象资源分配完成,得到联合分配动作;将所述联合分配动作输入到环境中,得到资源分配结果。通过上述方式,本发明专利技术实现了虚拟对象间无协商无通信的情况下完成资源的最优分配。分配。分配。

【技术实现步骤摘要】
一种资源分配方法、装置及设备
[0001]

[0002]本专利技术涉及人工智能
,具体涉及一种资源分配方法、装置及设备。
[0003]
技术介绍

[0004]静态多资源多目标分配问题属于单次决策组合优化问题,直接采用经典的端到端的深度强化学习方法难以奏效,因为此方法主要用于解决序列决策的优化问题。此外,深度强化学习方法是基于数据驱动的优化方法,能够实现解空间的大范围覆盖和探索,但是当实际问题中的解空间比较窄或存在很多次优解时,很难探索到最优的解。且深度强化学习方法高度依赖高质量的大数据,但是由于实际条件的约束,高质量的数据较难获取。
[0005]综上所述,面对单次决策组合优化、虚拟对象间无协商无通信等实际问题,直接采用传统的优化方法和经典的强化学习算法是比较难解决的。
[0006]基于此,如何解决在多资源多目标分配场景中,虚拟对象间无协商无通信以及单次决策组合优化问题(即在虚拟对象间无协商无通信的情况下完成资源的最优分配)是本领域人员亟待解决的问题。
[0007]
技术实现思路

[0008]为解决上述问题,提出了本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种资源分配方法,其特征在于,所述方法包括:获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息;根据所述态势信息,创建至少两个分配节点,所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量;在所述至少两个分配节点中,逐一对所述至少两个虚拟对象进行资源分配,直到所述至少两个虚拟对象资源分配完成,得到联合分配动作;将所述联合分配动作输入到环境中,得到资源分配结果。2.根据权利要求1所述的资源分配方法,其特征在于,所述态势信息包括以下至少一种:共享态势信息和局部态势信息。3.根据权利要求1所述的资源分配方法,其特征在于,对所述至少两个虚拟对象进行资源分配,包括:通过算法,对所述至少两个虚拟对象进行资源分配,其中,a是指所述至少两个虚拟对象中每个虚拟对象分配的结果,s是指态势信息,是指最大值自变量点集函数,是指动作值,是指置信值。4.根据权利要求1所述的资源分配方法,其特征在于,将所述联合分配动作输入到环境中,得到资源分配结果,包括:将所述联合分配动作输入到环境中,得到环境验证结果;若所述环境验证结果满足相应条件,得到所述资源分配结果;若所述环境验证结果不满足相应条件,得到环境反馈信息;根据所述环境反馈信息,更新所述至少两个分配节点,得到更新后的至少两个分配节点;在所述更新后的至少两个分配节点中,重复执行逐一对所述至少两个虚拟对象进行资源分配,直到所述至少两个虚拟对象资源分配完成,得到联合分配动作,将所述联合分配动作输入到环境中,得到环境验证结果的步骤。5.根据权利要求1所述的资源分配方法,其特征在于,在获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息之后,还包括:将所述至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息输入到训练得到的神经网络中;在将所述联合分配动作输入到环境中,得到资源分配结果之后,还包括:将所述资源分配结果的过程所产生的运行数据储存到记忆库中。6.根据权利要求5所述的资源分配方法,其特征在于,当所述记忆库中的所述运行数据达到上限时,对所述神经网络进行训练,所述神经网络通过以下方法训练得到:将预存储的运行数据作为训练样本;提取所述训练样本中至少两个训练虚拟对象以及所述至...

【专利技术属性】
技术研发人员:徐波成芳娟徐博
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1