【技术实现步骤摘要】
模型部署方法、装置、设备及存储介质
[0001]本申请实施例涉及人工智能
,尤其涉及一种模型部署方法、装置、设备及存储介质。
技术介绍
[0002]近些年来,强化学习算法在各种各样的场景中被广泛应用。其中,离线强化学习算法使用已有的数据集来训练模型,而不需要与环境交互,因此受到广泛关注。而随着离线强化学习模型训练的迭代轮数不同,会产生不同的离线强化学习模型。
[0003]如何将训练好的不同的离线强化学习模型部署在线上(如终端设备)使用,相关技术中,采用免超参数调优的策略筛选算法来部署,该算法使用离线数据集来预测不同离线强化学习模型的性能,筛选出预测性能最好的离线强化学习模型部署。
[0004]然而,上述算法受限于离线数据集的覆盖度和离线数据集的样本多样性,如果离线数据集质量比较差,会导致筛选出的离线强化学习模型在线上使用阶段的性能较差。
技术实现思路
[0005]本申请实施例提供一种模型部署方法、装置、设备及存储介质,可以提升离线强化学习模型在线上使用阶段的性能。
[0006]第 ...
【技术保护点】
【技术特征摘要】
1.一种模型部署方法,其特征在于,包括:获取N个离线强化学习模型,所述N为正整数;针对所述N个离线强化学习模型中的每个离线强化学习模型,获取目标对象在目标环境中的第一状态信息,将所述第一状态信息输入所述离线强化学习模型,输出所述第一状态信息对应的动作策略,采用所述第一状态信息对应的动作策略控制所述目标对象进行动作,反馈所述第一状态信息对应的奖励,并输出所述第一状态信息对应的预期动作策略;根据所述第一状态信息对应的奖励、所述第一状态信息对应的动作策略和所述第一状态信息对应的预期动作策略,得到所述第一状态信息对应的评估参数;根据所述第一状态信息对应的评估参数,确定所述离线强化学习模型的线上评估信息;根据所述每个离线强化学习模型的累计线上评估信息和累计被部署的次数,确定所述N个离线强化学习模型中目标参数满足预设条件的目标离线强化学习模型,部署所述目标离线强化学习模型,所述目标参数用于表征所述离线强化学习模型的性能。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述目标对象在所述目标环境中的第二状态信息,将所述第二状态信息输入所述目标离线强化学习模型,输出所述第二状态信息对应的动作策略,采用所述第二状态信息对应的动作策略控制所述目标对象进行动作,反馈所述第二状态信息对应的奖励,并输出所述第二状态信息对应的预期动作策略;根据所述第二状态信息对应的奖励、所述第二状态信息对应的动作策略和所述第二状态信息对应的预期动作策略,得到所述第二状态信息对应的评估参数;根据所述第二状态信息对应的评估参数,确定所述目标离线强化学习模型的线上评估信息。3.根据权利要求1所述的方法,其特征在于,所述根据所述第一状态信息对应的评估参数,确定所述离线强化学习模型的线上评估信息,包括:根据所述第一状态信息对应的评估参数、第一权重系数和第二权重系数,确定所述离线强化学习模型的线上评估信息。4.根据权利要求3所述的方法,其特征在于,所述线上评估信息为线上评估值,所述根据所述第一状态信息对应的评估参数、第一权重系数和第二权重系数,确定所述离线强化学习模型的线上评估信息,包括:计算预设权重参数、所述第一状态信息对应的奖励以及所述第一权重系数的乘积,得到第一数值;根据示例函数、所述第一状态信息对应的动作策略、所述第一状态信息对应的预期动作策略以及用于表征预期动作容忍程度的参数,计算得到所述第一状态信息的示例函数值,计算所述第一状态信息的示例函数值与所述第二权重系数的乘积,得到第二数值;将第一数值减去第二数值的差确定为所述离线强化学习模型的线上评估值。5.根据权利要求4所述的方法,其特征在于,所述第一状态信息对应的预期动作策略为以所述第一状态信息为输入的决策函数的输出。6.根据权利要求1所述的方法,其特征在于,所述目标参数为离线强化学习模型的上置信区间参数值,所述根据所述每个离线强化学习模型的累计线上评估信息和累计被部署的
次数,确定所述N个离线强化学习模型中目标参数...
【专利技术属性】
技术研发人员:李子牛,赵沛霖,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。