基于强化学习的推荐方法、装置、终端以及存储介质制造方法及图纸

技术编号:26171350 阅读:29 留言:0更新日期:2020-10-31 13:43
本发明专利技术公开了一种基于强化学习的推荐方法及装置,包括:利用双核心Q‑learning强化学习模型更新在线Q值表的上一次推荐动作对应的累积收益值,其中,双核心Q‑learning强化学习模型包括在线Q值表和探索Q值表;判断上一次推荐意图的推荐类型是否为探索动作推荐类型;若是,则利用双核心Q‑learning强化学习模型更新探索Q值表的累积收益值;根据更新后的在线Q值表及预设规则得到本次推荐意图,并将本次推荐意图进行推荐,通过上述步骤,本发明专利技术提供的推荐方法能在不依赖用户个性化特征的情况下,作为智能推荐应用的兜底方案或平台型推荐服务的启动方案。

Recommendation method, device, terminal and storage medium based on Reinforcement Learning

【技术实现步骤摘要】
基于强化学习的推荐方法、装置、终端以及存储介质
本专利技术涉及人工智能领域,尤其涉及基于强化学习的推荐方法、装置、终端以及存储介质。
技术介绍
推荐系统是智能问答系统的主要组成部分之一,通过问题推荐可以减少用户输入这一过程,提高用户体验,推荐同时也可以引导用户进入正常的问题处理流程,减少话题分散。强化学习是人工智能领域的热点领域,相对于传统的监督机器学习来说,它具有更强的适应性、鲁棒性和可解释性;在工业应用时也可以降低对大规模标注语料、频繁的模型更新的依赖,降低实施成本;但是强化学习的实施难度更大,建模对场景的拟合性要求更高。现有的基于强化学习的推荐系统只能应用于部分服务场景,对敏感应用领域如:金融、保险和证券等用户个性化特征不明显的领域,和接入行业较多的平台型的智能问答解决工具中,无法一开始就得到足够多的个性特征来达到很好的推荐效果。
技术实现思路
本专利技术主要解决的技术问题是提供了基于强化学习的推荐方法、装置、终端以及存储介质,以适用于多种不同的服务场景,并达到较好的推荐效果。>为解决上述技术问题本文档来自技高网...

【技术保护点】
1.一种基于强化学习的推荐方法,其特征在于,包括:/n利用双核心Q-learning强化学习模型更新在线Q值表的上一次推荐动作对应的累积收益值,其中,所述双核心Q-learning强化学习模型包括所述在线Q值表和探索Q值表;/n判断所述上一次推荐意图的推荐类型是否为探索动作推荐类型;/n若是,则利用所述双核心Q-learning强化学习模型更新所述探索Q值表的累积收益值;/n根据更新后的在线Q值表及预设规则得到所述本次推荐意图,并将所述本次推荐意图进行推荐。/n

【技术特征摘要】
1.一种基于强化学习的推荐方法,其特征在于,包括:
利用双核心Q-learning强化学习模型更新在线Q值表的上一次推荐动作对应的累积收益值,其中,所述双核心Q-learning强化学习模型包括所述在线Q值表和探索Q值表;
判断所述上一次推荐意图的推荐类型是否为探索动作推荐类型;
若是,则利用所述双核心Q-learning强化学习模型更新所述探索Q值表的累积收益值;
根据更新后的在线Q值表及预设规则得到所述本次推荐意图,并将所述本次推荐意图进行推荐。


2.根据权利要求1所述的基于强化学习的推荐方法,其特征在于,所述利用所述双核心Q-learning强化学习模型更新所述探索Q值表的累积收益值的步骤包括:
基于所述推荐类型将所述上一次推荐前的状态、上一次推荐动作,以及对应的用户动作输入所述双核心Q-learning强化学习模型进行计算,并根据计算结果对所述探索Q值表进行更新。


3.根据权利要求2所述的基于强化学习的推荐方法,其特征在于,所述利用双核心Q-learning强化学习模型更新上一次推荐动作对应的在线Q值表的累积收益值的步骤包括:
获取上一次推荐前的状态、所述上一次推荐动作以及所述上一次推荐动作对应的用户动作;其中,所述上一次推荐动作包括上一次推荐意图,所述用户动作包括点击动作,或者所述用户动作包括输入动作及所述输入动作的意图;
将所述上一次推荐前的状态、上一次推荐动作以及上一次推荐动作对应的用户动作输入双核心Q-learning强化学习模型,计算得到上一次推荐状态在所述推荐动作下的所述累积收益值,并更新到所述在线Q值表中。


4.根据权利要求2所述的基于强化学习的推荐方法,其特征在于,所述根据更新后的在线Q值表及预设规则得到所述本次推荐意图的步骤之前还包括:
判断所述更新后的探索Q值表是否满足预设条件;
若是,通过所述探索Q值表替换所述在线Q值表,得到新的在线Q值表,并将所述探索Q值表初始化;
根据更新后的在线Q值表及预设规则得到所述本次推荐意图包括:
根据所述新的在线Q值表及预设规则得到所述本次推荐意图。


5.根据权利要求4所述的基于强化学习的推荐方法,其特征在于,所述判断所述更新后的探索Q值表是否满足预设条件的步骤包括:
判断更新后的所述探索Q值表的推荐结果对应的点击率是否大于在线Q值表生成的推荐结果对应的点击率;
若是,判断距离上一次所述探索Q值表替换所述在线Q值表是否超过预设推荐次数;
若是,则满足预设条件。


6.根据权利要求4所述的基于强化学习的推...

【专利技术属性】
技术研发人员:乔宏利高砚权圣
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1