当前位置: 首页 > 专利查询>山东大学专利>正文

基于DoubleDQN算法的产品推荐方法及装置制造方法及图纸

技术编号:29307358 阅读:47 留言:0更新日期:2021-07-17 01:57
本发明专利技术公开了基于Double DQN算法的产品推荐方法及系统,包括:获取目标用户的基本信息;将目标用户的基本信息,输入到训练后的Double DQN算法中,Double DQN算法输出每个产品的预测满意度;按照预测满意度由大到小的顺序对产品进行排序,将排序后的产品推荐给目标用户。不仅分析了用户个人的信息,如个人风险偏好、收入情况等,而且充分分析了产品本身的信息,比如产品的历史购买数据、产品的购买满意度等信息,从而向该用户推荐最合适的产品。从而向该用户推荐最合适的产品。从而向该用户推荐最合适的产品。

Product recommendation method and device based on double dqn algorithm

【技术实现步骤摘要】
基于Double DQN算法的产品推荐方法及装置


[0001]本专利技术涉及产品推荐
,特别是涉及基于Double DQN算法的产品推荐方法及装置。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]近年来,随着互联网技术的快速发展,产品推荐系统迅速的发展,目前已经广泛应用于电子商务服务、理财产品推荐服务等各种服务之中。
[0004]目前的产品的推荐方法一般是基于用户信息的推荐方法,这些方法分析用户的风险偏好等数据来获得用户和产品的相似度,从而根据相似度进行相应的产品推荐。然而现存的产品推荐方法并没有充分分析用户购买过的产品本身的信息,比如产品的历史购买数据及产品的价格变化情况等,没有实现产品的精准推荐,导致产品没有被精准推荐给需要的客户。
[0005]因此在现有技术中,产品的推荐方式及装置未能进行良好的设计,无法满足用户的需求,无法提供用户满意的体验。

技术实现思路

[0006]为了解决现有技术的不足,本专利技术提供了基于Double DQN算法的产品推荐方法及装置。
[0007]第一方面,本专利技术提供了基于Double DQN算法的产品推荐方法;
[0008]基于Double DQN算法的产品推荐方法,包括:
[0009]获取目标用户的基本信息;
[0010]对目标用户的基本信息进行处理,提取其特征;
[0011]将代表目标用户基本信息的特征,输入到训练后的深度强化学习模型中,得到每个产品的预测满意度;
[0012]按照预测满意度由大到小的顺序对产品进行排序,将排序后的产品推荐给目标用户;
[0013]其中,深度强化学习模型,是指Double DQN算法。
[0014]第二方面,本专利技术提供了基于Double DQN算法的产品推荐装置;
[0015]基于Double DQN算法的产品推荐装置,包括:
[0016]获取模块,其被配置为:获取目标用户的基本信息;
[0017]特征提取模块,其被配置为:对目标用户的基本信息进行处理,提取其特征;
[0018]预测模块,其被配置为:将代表目标用户基本信息的特征,输入到训练后的深度强化学习模型中,得到每个产品的预测满意度;
[0019]推荐模块,其被配置为:按照预测满意度由大到小的顺序对产品进行排序,将排序后的产品推荐给目标用户;
[0020]其中,深度强化学习模型,是指Double DQN算法。
[0021]第三方面,本专利技术还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
[0022]第四方面,本专利技术还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
[0023]与现有技术相比,本专利技术的有益效果是:不仅利用了用户个人的信息,如个人风险偏好、收入情况等,而且充分利用了产品本身的信息,比如产品的历史购买数据、产品的购买满意度等信息,从而向该用户推荐最合适的产品。
[0024]本专利技术将深度强化学习中双Q学习算法(Double DQN算法)应用于产品推荐当中,利用该算法充分对产品本身的数据进行分析,从而推荐出用户满意度更高的产品。
[0025]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0026]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0027]图1为本专利技术提供的基于Double DQN算法的产品推荐方法的实现流程图;
[0028]图2为本专利技术的一个实施例的强化学习框架图。
具体实施方式
[0029]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0030]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0031]在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0032]如图1所示,基于Double DQN算法的产品推荐方法,包括:
[0033]S101:获取目标用户的基本信息;
[0034]S102:对目标用户的基本信息进行处理,提取其特征;
[0035]S103:将代表目标用户基本信息的特征,输入到训练后的深度强化学习模型中,得到每个产品的预测满意度;
[0036]S104:按照预测满意度由大到小的顺序对产品进行排序,将排序后的产品推荐给目标用户;
[0037]其中,深度强化学习模型,是指Double DQN算法。
[0038]进一步地,所述S101:获取目标用户的基本信息;具体包括:
[0039]获取目标用户的月平均收入、历史产品购买次数、历史产品购买频率、历史购买产品的风险等级和历史购买产品的价格波动数据。
[0040]进一步地,所述S102:对目标用户的基本信息进行处理,提取其特征;具体包括:
[0041]通过卷积神经网络进行特征提取。
[0042]进一步地,所述S103:将代表目标用户基本信息的特征,输入到训练后的深度强化学习模型中,得到每个产品的预测满意度;训练步骤包括:
[0043]构建训练集,所述训练集为已知产品历史购买满意度的用户基本信息;
[0044]将训练集中用户基本信息进行预处理,将预处理后得到的用户基本信息状态特征和已知产品历史购买满意度作为深度强化学习模型的输入值;对该模型进行训练,得到训练后的深度强化学习模型。
[0045]进一步地,所述将训练集中用户基本信息进行预处理,具体包括:
[0046]将训练集中用户的月平均收入、历史产品购买次数、历史产品购买频率、历史购买产品的风险等级和价格波动数据,均以N个时间单位进行分割,得到分割后的若干个数据s
t
,其中时间单位可根据数据的时间维度进行划分,例如设定一个时间单位为一个月,下标t表示时间点,以此来记录该状态表示的数据的时间区间;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Double DQN算法的产品推荐方法,其特征是,包括:获取目标用户的基本信息;对目标用户的基本信息进行处理,提取其特征;将代表目标用户基本信息的特征,输入到训练后的深度强化学习模型中,得到每个产品的预测满意度;按照预测满意度由大到小的顺序对产品进行排序,将排序后的产品推荐给目标用户;其中,深度强化学习模型,是指Double DQN算法。2.如权利要求1所述的基于Double DQN算法的产品推荐方法,其特征是,获取目标用户的基本信息;具体包括:获取目标用户的月平均收入、历史产品购买次数、历史产品购买频率、历史购买产品的风险等级和历史购买产品的价格波动数据。3.如权利要求1所述的基于Double DQN算法的产品推荐方法,其特征是,对目标用户的基本信息进行处理,提取其特征;具体包括:通过卷积神经网络进行特征提取。4.如权利要求1所述的基于Double DQN算法的产品推荐方法,其特征是,将代表目标用户基本信息的特征,输入到训练后的深度强化学习模型中,得到每个产品的预测满意度;训练步骤包括:构建训练集,所述训练集为已知产品历史购买满意度的用户基本信息;将训练集中用户基本信息进行预处理,将预处理后得到的用户基本信息状态特征和已知产品历史购买满意度作为深度强化学习模型的输入值,对该模型进行训练,得到训练后的深度强化学习模型。5.如权利要求1所述的基于Double DQN算法的产品推荐方法,其特征是,所述将训练集中用户基本信息进行预处理,具体包括:将训练集中用户的月平均收入、历史产品购买次数、历史产品购买频率、历史购买产品的风险等级和价格波动数据,均以N个时间单位进行分割,得到分割后的若干个数据s
t
,下标t表示时间点,以此来记录该状态表示的数据的时间区间;将分割后的同一个时间单位下的所有数据,均通过卷积神经网络CNN来进行特征提取,得到月平均收入特征、历史产品购买次数特征、历史产品购买频率特征、历史购买产品的风险等级特征和价格波动数据特征;将月平均收入特征、历史产品购买次数特征、历史产品购买频率特征、历史购买产品的风险等级特征和价格波动数据特征进行串联拼接,得到同一个时间单位对应的状态特征χ(s
t
),同理,得到所有时间单位下的状态特征。6.如权利要求1所述的基于Double DQN算法的产品推荐方法...

【专利技术属性】
技术研发人员:王光臣张衡张盼盼王宇潘宇光
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1