【技术实现步骤摘要】
奖励数据的确定方法、装置和服务器
本说明书属于互联网
,尤其涉及奖励数据的确定方法、装置和服务器。
技术介绍
在许多场景(例如,APP的客服答复场景)中,为了提高用户的使用体验,常常会利用预先训练建立的模型来根据所采集的用户的行为数据(例如用户针对所展示的多组标签的点击操作),自动预测出用户想要提问的具体问题。再针对该问题,及时地搜索并向该用户反馈相应的答案。其中,上述模型通常需要通过强化学习才能获得。在通过强化学习训练相关模型的过程中,具体又需要使用合适的奖励数据反馈给模型,以便可以利用奖励数据不断地引导模型找到较优的处理策略,来预测用户想要提问的目标问题。因此,亟需一种能够获取用于强化学习的奖励数据的方法。
技术实现思路
本说明书提供了一种奖励数据的确定方法、装置和服务器,以快速、准确地获取用于强化学习的奖励数据。本说明书提供的一种奖励数据的确定方法、装置和服务器是这样实现的:一种奖励数据的确定方法,包括:获取第一样本用户针对当前标签的点击状态数据,以及预设的提问 ...
【技术保护点】
1.一种奖励数据的确定方法,包括:/n获取第一样本用户针对当前标签的点击状态数据,以及预设的提问模型根据所述第一样本用户针对当前标签的点击状态数据所确定出的当前动作策略数据,其中,所述当前动作策略数据包括:第一样本用户针对下一组标签的点击操作,或者,第一样本用户提出目标问题;/n调用预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据,以及所述当前动作策略数据,确定出反馈给预设的提问模型的奖励数据。/n
【技术特征摘要】
1.一种奖励数据的确定方法,包括:
获取第一样本用户针对当前标签的点击状态数据,以及预设的提问模型根据所述第一样本用户针对当前标签的点击状态数据所确定出的当前动作策略数据,其中,所述当前动作策略数据包括:第一样本用户针对下一组标签的点击操作,或者,第一样本用户提出目标问题;
调用预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据,以及所述当前动作策略数据,确定出反馈给预设的提问模型的奖励数据。
2.根据权利要求1所述的方法,在调用预设的奖励模型根据所述第一样本用户针对当前标签的点击状态数据,以及所述当前动作策略数据,确定出反馈给预设的提问模型的奖励数据后,所述方法还包括:
根据所述奖励数据,对所述预设的提问模型进行强化学习,以得到符合要求的预设的提问模型,其中,所述符合要求的预设的提问模型用于根据用户针对多组标签的点击操作数据来预测用户的目标问题。
3.根据权利要求1所述的方法,所述预设的奖励模型按照以下方式获取:
获取第二样本用户针对多组标签的点击操作数据,以及第二样本用户的目标问题作为样本数据;
学习所述样本数据,以获取预设的奖励模型。
4.根据权利要求3所述的方法,学习所述样本数据,以获取预设的奖励模型,包括:
根据所述样本数据,确定出针对基于预设的提问模型所确定的多个动作策略数据的多个奖励参数;
根据所述多个奖励参数,确定累积奖励;
根据所述累积奖励,构建目标损失函数;
根据所述目标损失函数,建立所述预设的奖励模型。
5.根据权利要求1所述的方法,所述标签包括:业务的名称标签、业务中操作的名称标签、业务中操作执行对象的名称标签。
6.根据权利要求3所述的方法,通过学习所述样本数据,获取预设的奖励模型,还包括:
建立初始的奖励模型;
根据所述样本数据和预设的奖励规则,确定出针对基于预设的提问模型所确定的多个动作策略数据的多个第一奖励参数;
根据所述初始的奖励模型,确定出针对基于预设的提问模型所确定的多个动作策略数据的多个第二奖励参数;
根据所述多个第一奖励参数和所述多个第二奖励参数,调整所述初始的奖励模型,以得到所述预设的奖励模型。
7.一种奖励数据的确定方法,包括:
获取当前状态数据,以及预设的处理模型根据所述当前状态数据所确定的当前动作策略数据;
调用预设的奖励模型根据所述当前状态数据,以及所述当前动作策略数据,确定出反馈给预设的处理模型的奖励数据。
8.根据权利要求7所述的方法,在调用预设的奖励模型根据所述当前状态数据,以及所述当前动作策略数据,确定出反馈给...
【专利技术属性】
技术研发人员:张琳,梁忠平,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。