对象选择模型的训练方法、对象选择方法及装置制造方法及图纸

技术编号:35576689 阅读:16 留言:0更新日期:2022-11-12 16:01
本公开提供了一种对象选择模型的训练方法、对象选择方法及装置,涉及人工智能技术领域,尤其涉及强化学习技术领域。实现方案为:获取多种候选对象的属性信息和多种选择策略,其中,多种候选对象被配置为利用目标资源,多种选择策略中的每种选择策略用于对多种候选对象进行选择;将属性信息和训练状态信息输入对象选择模型,以得到对象选择模型输出的目标选择策略,其中,训练状态信息指示对象选择模型在历史迭代轮次中输出的历史目标选择策略对多种候选对象的选择情况;基于属性信息、训练状态信息和目标选择策略,确定基于目标选择策略所得到的对象选择结果对目标资源的利用效果;以及基于利用效果,调整对象选择模型的参数。数。数。

【技术实现步骤摘要】
对象选择模型的训练方法、对象选择方法及装置


[0001]本公开涉及人工智能
,尤其涉及强化学习
,具体涉及一种对象选择模型的训练方法及装置、对象选择方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]实践中,常常需要将待处理对象(例如,待运输或者待存储的货物)安排给用于处理对象的资源(例如,货车或仓库的存储空间)进行处理,不同种类的待处理对象具有不同的价值(例如,价格、重要性等)。
[0003]在一些情况中,待处理对象的种类和数量较多,而可利用的资源有限,无法对所有的待处理对象进行处理。在这种情况下,需要从多个待处理对象中选择出一部分价值较高的对象,交由资源进行处理,以使资源处理这些对象所得到的收益最大,实现有限资源的最优化利用。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种对象选择模型的训练方法及装置、对象选择方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面,提供了一种对象选择模型的训练方法,包括:获取多种候选对象的属性信息和多种选择策略,其中,所述多种候选对象被配置为利用目标资源,所述多种选择策略中的每种选择策略用于对所述多种候选对象进行选择;将所述属性信息和训练状态信息输入对象选择模型,以得到所述对象选择模型输出的目标选择策略,其中,所述训练状态信息指示所述对象选择模型在历史迭代轮次中输出的历史目标选择策略对所述多种候选对象的选择情况;基于所述属性信息、所述训练状态信息和所述目标选择策略,确定基于所述目标选择策略所得到的对象选择结果对所述目标资源的利用效果;以及基于所述利用效果,调整所述对象选择模型的参数。
[0007]根据本公开的一方面,提供了一种对象选择方法,包括:获取多种候选对象的属性信息和多种选择策略,其中,所述多种候选对象被配置为利用目标资源,所述多种选择策略中的每种选择策略用于对所述多种候选对象进行选择;将所述属性信息输入对象选择模型,以得到所述对象选择模型输出的目标选择策略,其中,所述对象选择模型是基于上述对象选择模型的训练方法训练得到的;以及基于所述目标选择策略对所述多种候选对象进行选择,以得到被所述目标资源处理的至少一个目标对象。
[0008]根据本公开的一方面,提供了一种对象选择模型的训练装置,包括:获取模块,被配置为获取多种候选对象的属性信息和多种选择策略,其中,所述多种候选对象被配置为
利用目标资源,所述多种选择策略中的每种选择策略用于对所述多种候选对象进行选择;决策模块,被配置为将所述属性信息和训练状态信息输入对象选择模型,以得到所述对象选择模型输出的目标选择策略,其中,所述训练状态信息指示所述对象选择模型在历史迭代轮次中输出的历史目标选择策略对所述多种候选对象的选择情况;第一确定模块,被配置为基于所述属性信息、所述训练状态信息和所述目标选择策略,确定基于所述目标选择策略所得到的对象选择结果对所述目标资源的利用效果;以及第一调整模块,被配置为基于所述利用效果,调整所述对象选择模型的参数。
[0009]根据本公开的一方面,提供了一种对象选择装置,包括:获取模块,被配置为获取多种候选对象的属性信息和多种选择策略,其中,所述多种候选对象被配置为利用目标资源,所述多种选择策略中的每种选择策略用于对所述多种候选对象进行选择;决策模块,被配置为将所述属性信息输入对象选择模型,以得到所述对象选择模型输出的目标选择策略,其中,所述对象选择模型是基于上述对象选择模型的训练装置训练得到的;以及选择模块,被配置为基于所述目标选择策略对所述多种候选对象进行选择,以得到被所述目标资源处理的至少一个目标对象。
[0010]根据本公开的一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一方面的方法。
[0011]根据本公开的一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行上述任一方面的方法。
[0012]根据本公开的一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述任一方面的方法。
[0013]根据本公开的一个或多个实施例,能够提高对象选择的效果,实现有限资源的最优化利用。
[0014]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0015]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0016]图1示出了根据本公开的实施例的对象选择模型的训练方法的流程图;
[0017]图2示出了根据本公开的实施例的对象选择模型的训练过程的示意图;
[0018]图3示出了根据本公开的实施例的对象选择方法的流程图;
[0019]图4示出了根据本公开的实施例的对象选择模型的训练装置的结构框图;
[0020]图5示出了根据本公开的实施例的对象选择装置的结构框图;以及
[0021]图6示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0022]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0023]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个要素与另一要素区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0024]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
[0025]本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对象选择模型的训练方法,包括:获取多种候选对象的属性信息和多种选择策略,其中,所述多种候选对象被配置为利用目标资源,所述多种选择策略中的每种选择策略用于对所述多种候选对象进行选择;将所述属性信息和训练状态信息输入对象选择模型,以得到所述对象选择模型输出的目标选择策略,其中,所述训练状态信息指示所述对象选择模型在历史迭代轮次中输出的历史目标选择策略对所述多种候选对象的选择情况;基于所述属性信息、所述训练状态信息和所述目标选择策略,确定基于所述目标选择策略所得到的对象选择结果对所述目标资源的利用效果;以及基于所述利用效果,调整所述对象选择模型的参数。2.根据权利要求1所述的方法,其中,所述属性信息包括所述多种候选对象的数量取值类型的分布情况和所述多种候选对象的约束类型的分布情况。3.根据权利要求1或2所述的方法,其中,所述训练状态信息包括以下各项中的至少一项:所述多种选择策略中的每种选择策略被确定为历史目标选择策略的次数;所述多种候选对象中的每种候选对象在最近的至少一个对象选择结果中的出现次数最多的数量的出现次数比,其中,所述最近的至少一个对象选择结果是分别基于最近的至少一个历史目标选择策略对所述多种候选对象进行选择而产生的;所述多种候选对象中的每种候选对象在所述至少一个对象选择结果中的数量是否发生变化。4.根据权利要求1

3中任一项所述的方法,其中,所述基于所述属性信息、所述训练状态信息和所述目标选择策略,确定基于所述目标选择策略所得到的对象选择结果对所述目标资源的利用效果包括:将所述属性信息、所述训练状态信息和所述目标选择策略输入评价模型,以得到所述评价模型输出的所述利用效果。5.根据权利要求4所述的方法,还包括:基于所述目标选择策略对所述多种候选对象进行选择,以得到当前的对象选择结果;基于所述当前的对象选择结果,确定所述目标选择策略的利用效果增益;以及基于所述利用效果增益和所述利用效果,调整所述评价模型的参数。6.根据权利要求5所述的方法,其中,所述利用效果增益是基于第一评价指标相对于第二评价指标的变化率确定的,所述第一评价指标为所述当前的对象选择结果的评价指标,所述第二评价指标为上一轮迭代的对象选择结果的评价指标。7.根据权利要求1

6中任一项所述的方法,还包括:将所述训练状态信息初始化为预设值。8.一种对象选择方法,包括:获取多种候选对象的属性信息和多种选择策略,其中,所述多种候选对象被配置为利用目标资源,所述多种选择策略中的每种选择策略用于对所述多种候选对象进行选择;将所述属性信息输入对象选择模型,以得到所述对象选择模型输出的目标选择策略,其中,所述对象选择模型是基于权利要求1

7中任一项所述的方法训练得到的;以及基于所述目标选择策略对所述多种候选对象进行选择,以得到被所述目标资源处理的
至少一个目标对象。9.一种对象选择模型的训练装置,包括:获取模块,被配置为获取多种候选对象的属性信息和多种选择策略,其中,所述多种候选对象被配置为利用目标资源,所述多种选择策略中的每种选择策略用于对所述多种候选对象进行选择;决策模块,被配置为将所述属性信息和训练状态信息输入对象选择模型,以得到所述对象选择模型输出的目标选择策略,其中,所述训练状态信息指示所述对象选择模型在历史...

【专利技术属性】
技术研发人员:丁建辉曹宜超陈珍
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1