基于强化学习的推荐方法、装置、终端以及存储介质制造方法及图纸

技术编号:26171350 阅读:22 留言:0更新日期:2020-10-31 13:43
本发明专利技术公开了一种基于强化学习的推荐方法及装置,包括:利用双核心Q‑learning强化学习模型更新在线Q值表的上一次推荐动作对应的累积收益值,其中,双核心Q‑learning强化学习模型包括在线Q值表和探索Q值表;判断上一次推荐意图的推荐类型是否为探索动作推荐类型;若是,则利用双核心Q‑learning强化学习模型更新探索Q值表的累积收益值;根据更新后的在线Q值表及预设规则得到本次推荐意图,并将本次推荐意图进行推荐,通过上述步骤,本发明专利技术提供的推荐方法能在不依赖用户个性化特征的情况下,作为智能推荐应用的兜底方案或平台型推荐服务的启动方案。

Recommendation method, device, terminal and storage medium based on Reinforcement Learning

【技术实现步骤摘要】
基于强化学习的推荐方法、装置、终端以及存储介质
本专利技术涉及人工智能领域,尤其涉及基于强化学习的推荐方法、装置、终端以及存储介质。
技术介绍
推荐系统是智能问答系统的主要组成部分之一,通过问题推荐可以减少用户输入这一过程,提高用户体验,推荐同时也可以引导用户进入正常的问题处理流程,减少话题分散。强化学习是人工智能领域的热点领域,相对于传统的监督机器学习来说,它具有更强的适应性、鲁棒性和可解释性;在工业应用时也可以降低对大规模标注语料、频繁的模型更新的依赖,降低实施成本;但是强化学习的实施难度更大,建模对场景的拟合性要求更高。现有的基于强化学习的推荐系统只能应用于部分服务场景,对敏感应用领域如:金融、保险和证券等用户个性化特征不明显的领域,和接入行业较多的平台型的智能问答解决工具中,无法一开始就得到足够多的个性特征来达到很好的推荐效果。
技术实现思路
本专利技术主要解决的技术问题是提供了基于强化学习的推荐方法、装置、终端以及存储介质,以适用于多种不同的服务场景,并达到较好的推荐效果。为解决上述技术问题,本专利技术提供了一种技术方案:利用双核心Q-learning强化学习模型更新在线Q值表的上一次推荐动作对应的累积收益值,其中,双核心Q-learning强化学习模型包括在线Q值表和探索Q值表;判断上一次推荐意图的推荐类型是否为探索动作推荐类型;若是,则利用双核心Q-learning强化学习模型更新探索Q值表的累积收益值;根据更新后的在线Q值表及预设规则得到本次推荐意图,并将本次推荐意图进行推荐。其中,利用双核心Q-learning强化学习模型更新探索Q值表的累积收益值的步骤包括:基于推荐类型将上一次推荐前的状态、上一次推荐动作,以及对应的用户动作输入双核心Q-learning强化学习模型进行计算,并根据计算结果对探索Q值表进行更新。其中,利用双核心Q-learning强化学习模型更新上一次推荐动作对应的在线Q值表的累积收益值的步骤包括:获取上一次推荐前的状态、上一次推荐动作以及上一次推荐动作对应的用户动作;其中,上一次推荐动作包括上一次推荐意图,用户动作包括点击动作,或者用户动作包括输入动作及输入动作的意图;将上一次推荐前的状态、上一次推荐动作以及上一次推荐动作对应的用户动作输入双核心Q-learning强化学习模型,计算得到上一次推荐状态在推荐动作下的累积收益值,并更新到在线Q值表中。其中,根据更新后的在线Q值表及预设规则得到本次推荐意图的步骤之前还包括:判断更新后的探索Q值表是否满足预设条件;若是,通过探索Q值表替换在线Q值表,得到新的在线Q值表,并将探索Q值表初始化;根据更新后的在线Q值表及预设规则得到本次推荐意图包括:根据新的在线Q值表及预设规则得到本次推荐意图。其中,判断更新后的探索Q值表是否满足预设条件的步骤包括:判断更新后的探索Q值表的推荐结果对应的点击率是否大于在线Q值表生成的推荐结果对应的点击率;若是,判断距离上一次探索Q值表替换在线Q值表是否超过预设推荐次数;若是,则满足预设条件。其中,根据更新后的Q值表及预设规则得到本次推荐意图的步骤具体包括:随机产生一个在[0,1]之间的小数;当小数落到[0,ε]区间范围内时,将在线Q值表中Q值最大的推荐动作对应的推荐意图确定为推荐意图;当小数落到[ε,1]区间范围时,依据探索动作的收敛策略随机挑选出推荐动作对应的推荐意图确定为推荐意图。其中,基于强化学习的推荐方法还包括:根据上一次推荐动作以及对应的用户动作的动作意图,得到上一次推荐动作的奖励值;并基于奖励值通过Q-learning强化学习模型计算得到上一次推荐状态下,上一次推荐动作的累积收益值,并更新上次推荐动作对应的Q值表。其中,将推荐意图推荐给用户的步骤之后还包括:当用户动作为输入动作时,确定本次推荐动作推荐失败,并统计进历史失败次数中;获取输入动作对应的动作意图,并判断输入动作对应的动作意图与推荐意图是否相同;如果相同,将本次推荐动作的推荐意图确定为意图模糊,并统计进意图模糊次数中;通过意图模糊次数与历史失败次数的比值获取本次推荐动作的意图模糊概率;判断意图模糊概率是否大于预设阈值,若大于,则将本次推荐动作的推荐意图确定为模糊意图。为解决上述技术问题,本专利技术还提出了一种基于强化学习的推荐装置:推荐装置包括处理模块、判断模块以及推荐模块,处理模块用于利用双核心Q-learning强化学习模型更新在线Q值表的上一次推荐动作对应的累积收益值,其中,双核心Q-learning强化学习模型包括在线Q值表和探索Q值表;判断模块用于判断上一次推荐意图的推荐类型是否为探索动作推荐类型;若是,则处理模块还用于利用双核心Q-learning强化学习模型更新探索Q值表的累积收益值;推荐模块用于根据更新后的在线Q值表及预设规则得到本次推荐意图,并将本次推荐意图进行推荐。为解决上述技术问题,本专利技术还提出了一种基于强化学习的推荐终端,基于强化学习的推荐终端包括:处理器和存储器,存储器中存储程序数据,处理器用于执行程序数据以实现如上述技术方案的推荐方法。为解决上述技术问题,本专利技术还提出了一种存储介质,存储介质存储有程序数据,程序数据能够被执行以实现如上述的推荐方法。本专利技术的有益效果是:区别于现有技术,本专利技术的一种基于强化学习的推荐方法,通过获取上一次推荐动作的推荐意图以及对应的用户动作;其中,用户动作包括点击动作或输入动作;将上一次的推荐意图以及对应的用户动作输入双核心Q-learning强化学习模型,计算得到本次推荐动作的推荐意图;将推荐意图推荐给用户。利用强化学习模型来进行意图的推荐,可以在不依赖于用户个性化特征的情况下,作为智能推荐应用的兜底方案,或平台型推荐服务的启动方案。附图说明图1是本专利技术提供的基于强化学习的推荐方法一实施例的流程示意图;图2是本专利技术提供的一实施例中双Q值表数据更新的流程示意图;图3是本专利技术提供的基于强化学习的推荐方法另一实施例的流程示意图;图4是本专利技术提供的基于强化学习的推荐装置一实施例的结构示意图;图5是本专利技术提供的基于强化学习的推荐终端一实施例的结构示意图;图6是本专利技术提供的存储介质一实施例的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。强化学习是一种算法,是让计算机实现从一开始完全随机的进行操作,通过不断地尝试,从错误中学习,最后找到规律,学会了达到目的的一种法,是一个完整的强化学习过程,让计算机在不断的尝试中更新自己的行为并找到规律,从而一步步学习如何使自己的行为得到奖励。它主要包含四个元素:Agent、环境状态、行动和奖励,强化学习的目标就是获得最多的累计奖励,而在本专利技术本文档来自技高网...

【技术保护点】
1.一种基于强化学习的推荐方法,其特征在于,包括:/n利用双核心Q-learning强化学习模型更新在线Q值表的上一次推荐动作对应的累积收益值,其中,所述双核心Q-learning强化学习模型包括所述在线Q值表和探索Q值表;/n判断所述上一次推荐意图的推荐类型是否为探索动作推荐类型;/n若是,则利用所述双核心Q-learning强化学习模型更新所述探索Q值表的累积收益值;/n根据更新后的在线Q值表及预设规则得到所述本次推荐意图,并将所述本次推荐意图进行推荐。/n

【技术特征摘要】
1.一种基于强化学习的推荐方法,其特征在于,包括:
利用双核心Q-learning强化学习模型更新在线Q值表的上一次推荐动作对应的累积收益值,其中,所述双核心Q-learning强化学习模型包括所述在线Q值表和探索Q值表;
判断所述上一次推荐意图的推荐类型是否为探索动作推荐类型;
若是,则利用所述双核心Q-learning强化学习模型更新所述探索Q值表的累积收益值;
根据更新后的在线Q值表及预设规则得到所述本次推荐意图,并将所述本次推荐意图进行推荐。


2.根据权利要求1所述的基于强化学习的推荐方法,其特征在于,所述利用所述双核心Q-learning强化学习模型更新所述探索Q值表的累积收益值的步骤包括:
基于所述推荐类型将所述上一次推荐前的状态、上一次推荐动作,以及对应的用户动作输入所述双核心Q-learning强化学习模型进行计算,并根据计算结果对所述探索Q值表进行更新。


3.根据权利要求2所述的基于强化学习的推荐方法,其特征在于,所述利用双核心Q-learning强化学习模型更新上一次推荐动作对应的在线Q值表的累积收益值的步骤包括:
获取上一次推荐前的状态、所述上一次推荐动作以及所述上一次推荐动作对应的用户动作;其中,所述上一次推荐动作包括上一次推荐意图,所述用户动作包括点击动作,或者所述用户动作包括输入动作及所述输入动作的意图;
将所述上一次推荐前的状态、上一次推荐动作以及上一次推荐动作对应的用户动作输入双核心Q-learning强化学习模型,计算得到上一次推荐状态在所述推荐动作下的所述累积收益值,并更新到所述在线Q值表中。


4.根据权利要求2所述的基于强化学习的推荐方法,其特征在于,所述根据更新后的在线Q值表及预设规则得到所述本次推荐意图的步骤之前还包括:
判断所述更新后的探索Q值表是否满足预设条件;
若是,通过所述探索Q值表替换所述在线Q值表,得到新的在线Q值表,并将所述探索Q值表初始化;
根据更新后的在线Q值表及预设规则得到所述本次推荐意图包括:
根据所述新的在线Q值表及预设规则得到所述本次推荐意图。


5.根据权利要求4所述的基于强化学习的推荐方法,其特征在于,所述判断所述更新后的探索Q值表是否满足预设条件的步骤包括:
判断更新后的所述探索Q值表的推荐结果对应的点击率是否大于在线Q值表生成的推荐结果对应的点击率;
若是,判断距离上一次所述探索Q值表替换所述在线Q值表是否超过预设推荐次数;
若是,则满足预设条件。


6.根据权利要求4所述的基于强化学习的推...

【专利技术属性】
技术研发人员:乔宏利高砚权圣
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1