【技术实现步骤摘要】
基于强化学习的推荐方法、装置、终端以及存储介质
本专利技术涉及人工智能领域,尤其涉及基于强化学习的推荐方法、装置、终端以及存储介质。
技术介绍
推荐系统是智能问答系统的主要组成部分之一,通过问题推荐可以减少用户输入这一过程,提高用户体验,推荐同时也可以引导用户进入正常的问题处理流程,减少话题分散。强化学习是人工智能领域的热点领域,相对于传统的监督机器学习来说,它具有更强的适应性、鲁棒性和可解释性;在工业应用时也可以降低对大规模标注语料、频繁的模型更新的依赖,降低实施成本;但是强化学习的实施难度更大,建模对场景的拟合性要求更高。现有的基于强化学习的推荐系统只能应用于部分服务场景,对敏感应用领域如:金融、保险和证券等用户个性化特征不明显的领域,和接入行业较多的平台型的智能问答解决工具中,无法一开始就得到足够多的个性特征来达到很好的推荐效果。
技术实现思路
本专利技术主要解决的技术问题是提供了基于强化学习的推荐方法、装置、终端以及存储介质,以适用于多种不同的服务场景,并达到较好的推荐效果。 >为解决上述技术问题本文档来自技高网...
【技术保护点】
1.一种基于强化学习的推荐方法,其特征在于,包括:/n利用双核心Q-learning强化学习模型更新在线Q值表的上一次推荐动作对应的累积收益值,其中,所述双核心Q-learning强化学习模型包括所述在线Q值表和探索Q值表;/n判断所述上一次推荐意图的推荐类型是否为探索动作推荐类型;/n若是,则利用所述双核心Q-learning强化学习模型更新所述探索Q值表的累积收益值;/n根据更新后的在线Q值表及预设规则得到所述本次推荐意图,并将所述本次推荐意图进行推荐。/n
【技术特征摘要】
1.一种基于强化学习的推荐方法,其特征在于,包括:
利用双核心Q-learning强化学习模型更新在线Q值表的上一次推荐动作对应的累积收益值,其中,所述双核心Q-learning强化学习模型包括所述在线Q值表和探索Q值表;
判断所述上一次推荐意图的推荐类型是否为探索动作推荐类型;
若是,则利用所述双核心Q-learning强化学习模型更新所述探索Q值表的累积收益值;
根据更新后的在线Q值表及预设规则得到所述本次推荐意图,并将所述本次推荐意图进行推荐。
2.根据权利要求1所述的基于强化学习的推荐方法,其特征在于,所述利用所述双核心Q-learning强化学习模型更新所述探索Q值表的累积收益值的步骤包括:
基于所述推荐类型将所述上一次推荐前的状态、上一次推荐动作,以及对应的用户动作输入所述双核心Q-learning强化学习模型进行计算,并根据计算结果对所述探索Q值表进行更新。
3.根据权利要求2所述的基于强化学习的推荐方法,其特征在于,所述利用双核心Q-learning强化学习模型更新上一次推荐动作对应的在线Q值表的累积收益值的步骤包括:
获取上一次推荐前的状态、所述上一次推荐动作以及所述上一次推荐动作对应的用户动作;其中,所述上一次推荐动作包括上一次推荐意图,所述用户动作包括点击动作,或者所述用户动作包括输入动作及所述输入动作的意图;
将所述上一次推荐前的状态、上一次推荐动作以及上一次推荐动作对应的用户动作输入双核心Q-learning强化学习模型,计算得到上一次推荐状态在所述推荐动作下的所述累积收益值,并更新到所述在线Q值表中。
4.根据权利要求2所述的基于强化学习的推荐方法,其特征在于,所述根据更新后的在线Q值表及预设规则得到所述本次推荐意图的步骤之前还包括:
判断所述更新后的探索Q值表是否满足预设条件;
若是,通过所述探索Q值表替换所述在线Q值表,得到新的在线Q值表,并将所述探索Q值表初始化;
根据更新后的在线Q值表及预设规则得到所述本次推荐意图包括:
根据所述新的在线Q值表及预设规则得到所述本次推荐意图。
5.根据权利要求4所述的基于强化学习的推荐方法,其特征在于,所述判断所述更新后的探索Q值表是否满足预设条件的步骤包括:
判断更新后的所述探索Q值表的推荐结果对应的点击率是否大于在线Q值表生成的推荐结果对应的点击率;
若是,判断距离上一次所述探索Q值表替换所述在线Q值表是否超过预设推荐次数;
若是,则满足预设条件。
6.根据权利要求4所述的基于强化学习的推...
【专利技术属性】
技术研发人员:乔宏利,高砚,权圣,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。