对象选择模型的训练方法、对象选择方法及装置制造方法及图纸

技术编号：35576689 阅读：16 留言：0更新日期：2022-11-12 16:01

本公开提供了一种对象选择模型的训练方法、对象选择方法及装置，涉及人工智能技术领域，尤其涉及强化学习技术领域。实现方案为：获取多种候选对象的属性信息和多种选择策略，其中，多种候选对象被配置为利用目标资源，多种选择策略中的每种选择策略用于对多种候选对象进行选择；将属性信息和训练状态信息输入对象选择模型，以得到对象选择模型输出的目标选择策略，其中，训练状态信息指示对象选择模型在历史迭代轮次中输出的历史目标选择策略对多种候选对象的选择情况；基于属性信息、训练状态信息和目标选择策略，确定基于目标选择策略所得到的对象选择结果对目标资源的利用效果；以及基于利用效果，调整对象选择模型的参数。数。数。

全部详细技术资料下载

【技术实现步骤摘要】
对象选择模型的训练方法、对象选择方法及装置

[0001]本公开涉及人工智能
，尤其涉及强化学习
，具体涉及一种对象选择模型的训练方法及装置、对象选择方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]实践中，常常需要将待处理对象(例如，待运输或者待存储的货物)安排给用于处理对象的资源(例如，货车或仓库的存储空间)进行处理，不同种类的待处理对象具有不同的价值(例如，价格、重要性等)。
[0003]在一些情况中，待处理对象的种类和数量较多，而可利用的资源有限，无法对所有的待处理对象进行处理。在这种情况下，需要从多个待处理对象中选择出一部分价值较高的对象，交由资源进行处理，以使资源处理这些对象所得到的收益最大，实现有限资源的最优化利用。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种对象选择模型的训练方法及装置、对象选择方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面，提供了一种对象选择模型的训练方法，包括：获取多种候选对象的属性信息和多种选择策略，其中，所述多种候选对象被配置为利用目标资源，所述多种选择策略中的每种选择策略用于对所述多种候选对象进行选择；将所述属性信息和训...

【技术保护点】

【技术特征摘要】
1.一种对象选择模型的训练方法，包括：获取多种候选对象的属性信息和多种选择策略，其中，所述多种候选对象被配置为利用目标资源，所述多种选择策略中的每种选择策略用于对所述多种候选对象进行选择；将所述属性信息和训练状态信息输入对象选择模型，以得到所述对象选择模型输出的目标选择策略，其中，所述训练状态信息指示所述对象选择模型在历史迭代轮次中输出的历史目标选择策略对所述多种候选对象的选择情况；基于所述属性信息、所述训练状态信息和所述目标选择策略，确定基于所述目标选择策略所得到的对象选择结果对所述目标资源的利用效果；以及基于所述利用效果，调整所述对象选择模型的参数。2.根据权利要求1所述的方法，其中，所述属性信息包括所述多种候选对象的数量取值类型的分布情况和所述多种候选对象的约束类型的分布情况。3.根据权利要求1或2所述的方法，其中，所述训练状态信息包括以下各项中的至少一项：所述多种选择策略中的每种选择策略被确定为历史目标选择策略的次数；所述多种候选对象中的每种候选对象在最近的至少一个对象选择结果中的出现次数最多的数量的出现次数比，其中，所述最近的至少一个对象选择结果是分别基于最近的至少一个历史目标选择策略对所述多种候选对象进行选择而产生的；所述多种候选对象中的每种候选对象在所述至少一个对象选择结果中的数量是否发生变化。4.根据权利要求1
‑
3中任一项所述的方法，其中，所述基于所述属性信息、所述训练状态信息和所述目标选择策略，确定基于所述目标选择策略所得到的对象选择结果对所述目标资源的利用效果包括：将所述属性信息、所述训练状态信息和所述目标选择策略输入评价模型，以得到所述评价模型输出的所述利用效果。5.根据权利要求4所述的方法，还包括：基于所述目标选择策略对所述多种候选对象进行选择，以得到当前的对象选择结果；基于所述当前的对象选择结果，确定所述目标选择策略的利用效果增益；以及基于所述利用效果增益和所述利用效果，调整所述评价模型的参数。6.根据权利要求5所述的方法，其中，所述利用效果增益是基于第一评价指标相对于第二评价指标的变化率确定的，所述第一评价指标为所述当前的对象选择结果的评价指标，所述第二评价指标为上一轮迭代的对象选择结果的评价指标。7.根据权利要求1
‑
6中任一项所述的方法，还包括：将所述训练状态信息初始化为预设值。8.一种对象选择方法，包括：获取多种候选对象的属性信息和多种选择策略，其中，所述多种候选对象被配置为利用目标资源，所述多种选择策略中的每种选择策略用于对所述多种候选对象进行选择；将所述属性信息输入对象选择模型，以得到所述对象选择模型输出的目标选择策略，其中，所述对象选择模型是基于权利要求1
‑
7中任一项所述的方法训练得到的；以及基于所述目标选择策略对所述多种候选对象进行选择，以得到被所述目标资源处理的
至少一个目标对象。9.一种对象选择模型的训练装置，包括：获取模块，被配置为获取多种候选对象的属性信息和多种选择策略，其中，所述多种候选对象被配置为利用目标资源，所述多种选择策略中的每种选择策略用于对所述多种候选对象进行选择；决策模块，被配置为将所述属性信息和训练状态信息输入对象选择模型，以得到所述对象选择模型输出的目标选择策略，其中，所述训练状态信息指示所述对象选择模型在历史...

【专利技术属性】
技术研发人员：丁建辉，曹宜超，陈珍，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人