【技术实现步骤摘要】
资源生成模型的训练与服务资源的生成方法、装置
[0001]本公开涉及计算机
,尤其涉及自然语言处理、深度学习等人工智能
提供了一种资源生成模型的训练与服务资源的生成方法、装置、电子设备和可读存储介质。
技术介绍
[0002]现有技术在生成用于提升用户使用应用时的反馈率的服务资源时,通常是对一个神经网络模型进行训练之后,再结合整数规划来得到服务资源。现有技术在生成服务资源时具有一定的局限性,且在生成服务资源时的效率较低,所生成的服务资源对于反馈率的提升较为有限。
技术实现思路
[0003]根据本公开的第一方面,提供了一种资源生成模型的训练方法,包括:获取训练数据,所述训练数据中包含多个状态特征与多个状态特征的反馈标签;使用多个状态特征与多个状态特征的反馈标签对第一神经网络模型进行训练,得到环境模型;根据多个状态特征与所述环境模型,通过强化学习的方式对第二神经网络模型进行训练,得到资源生成模型。
[0004]根据本公开的第二方面,提供了一种服务资源的生成方法,包括:获取待处理状态特征;将所述 ...
【技术保护点】
【技术特征摘要】
1.一种资源生成模型的训练方法,包括:获取训练数据,所述训练数据中包含多个状态特征与多个状态特征的反馈标签;使用多个状态特征与多个状态特征的反馈标签对第一神经网络模型进行训练,得到环境模型;根据多个状态特征与所述环境模型,通过强化学习的方式对第二神经网络模型进行训练,得到资源生成模型。2.根据权利要求1所述的方法,其中,所述使用多个状态特征与多个状态特征的反馈标签对第一神经网络模型进行训练,得到环境模型包括:对每个状态特征中的预设特征进行调整,得到对应每个状态特征的第一调整特征与第二调整特征;使用多个状态特征、多个状态特征的第一调整特征、多个状态特征的第二调整特征与多个状态特征的反馈标签对所述第一神经网络模型进行训练,得到所述环境模型。3.根据权利要求2所述的方法,其中,所述使用多个状态特征、多个状态特征的第一调整特征、多个状态特征的第二调整特征与多个状态特征的反馈标签对所述第一神经网络模型进行训练,得到所述环境模型包括:针对每个状态特征,将该状态特征、该状态特征的第一调整特征与第二调整特征分别输入所述第一神经网络模型,得到所述第一神经网络模型输出的反馈结果、第一反馈结果与第二反馈结果;根据每个状态特征的反馈结果、每个状态特征的第一调整特征的第一反馈结果、每个状态特征的第二调整特征的第二反馈结果与状态特征的反馈标签,计算损失函数值;根据计算得到的损失函数值调整第一神经网络模型中的参数,直至所述第一神经网络模型收敛,得到所述环境模型。4.根据权利要求1所述的方法,其中,所述根据多个状态特征与所述环境模型,通过强化学习的方式对第二神经网络模型进行训练,得到资源生成模型包括:将当前状态特征输入所述第二神经网络模型,得到所述第二神经网络模型输出的服务资源结果;将当前状态特征与当前状态特征的服务资源结果输入所述环境模型,得到所述环境模型输出的第一反馈结果;使用所述第一反馈结果更新奖励值,根据更新后的奖励值调整所述第二神经网络模型的参数;返回执行将当前状态特征输入所述第二神经网络模型的操作,直至所述第二神经网络模型的奖励值满足预设条件。5.根据权利要求4所述的方法,其中,所述使用所述第一反馈结果更新奖励值包括:将当前状态特征与预设服务资源结果输入所述环境模型,得到所述环境模型输出的第二反馈结果;根据所述第一反馈结果与所述第二反馈结果更新奖励值。6.一种服务资源的生成方法,包括:获取待处理状态特征;将所述待处理状态特征输入资源生成模型,将所述资源生成模型的输出结果,作为对
应所述待处理状态特征的服务资源;其中,所述资源生成模型是根据权利要求1
‑
5中任一项方法预先训练得到的。7.一种资源生成模型的训练装置,包括:第一获取单元,用于获取训练数据,所述训练数据中包含多个状态特征与多个状态特征的反馈标签;处理单元,用于使用多个状态特征与多个状态特征的反馈标签对第一神经网络模型进行训练,得到环境模型;训练单元,用于根据多个状态特征与所述环境模型,通过强化学习的方式对第二神经网络模型进行训练,得到资源生成模型。8.根据权利要求7所述的装置,其中,...
【专利技术属性】
技术研发人员:李科浇,周波,王凡,陈永锋,何径舟,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。