基于生成对抗网络模型及深度强化学习的物品推荐方法、电子设备及介质技术

技术编号:32734439 阅读:25 留言:0更新日期:2022-03-20 08:40
本发明专利技术提供了一种基于生成对抗网络模型及深度强化学习的物品推荐方法、电子设备及介质,其中的物品推荐方法包括:建立生成对抗网络模型,所述生成对抗网络模型包括一个生成网络和一个判别网络,其中,所述生成网络采用深度强化学习算法;将待推荐物品信息和用户历史状态信息输入至所述生成网络,所述生成网络基于所述待推荐物品信息和所述用户历史状态信息生成推荐物品信息;将所述推荐物品信息和用户当前状态信息输入至所述判别网络,所述判别网络基于所述推荐物品信息和所述用户当前状态信息模拟出用户评价;根据所述用户评价优化所述生成网络。本发明专利技术引入生成对抗网络模型,从而使得深度强化学习网络加速收敛,并保证较好的推荐效果。好的推荐效果。好的推荐效果。

【技术实现步骤摘要】
基于生成对抗网络模型及深度强化学习的物品推荐方法、电子设备及介质


[0001]本专利技术涉及大数据领域,具体而言,本申请涉及一种基于生成对抗网络模型及深度强化学习的物品推荐方法、电子设备及方法。

技术介绍

[0002]随着互联网及数据科学的发展,数据的收集及存储能力进行指数增长,对每个互联网用户来说海量信息中高效筛选信息的能力需要与时俱进,对公司机构来说,信息与用户的精准匹配也是公司面临的巨大挑战。在目前的互联网公司中,购物平台、新闻媒体平台、第三方服务平台等都在着力解决信息过载下匹配的问题,在此背景下,推荐系统着力解决信息匹配和过滤的问题,在洞察用户历史数据的背景下进行发现用户需求并进行合理推荐。
[0003]当信息严重过载时,存在大量同质化的内容,用户自身的选择偏好也处于一种被动接受和被引导的状态,再此背景下,推荐系统的作用显示的非常重要,不仅仅可以提高用户的满意度,提升商家的点击量,还可以引导用户兴趣向优质内容转移。推荐系统在目前的社会发展中已经占据了中流砥柱的作用,合理高效的将信息主动的展现到用户面前,在用户没有明确的检索内容时将信息呈现到用户面面前,来减少用户决策时间、增加用户满意度。推荐系统的主要原理是找到用户和物品的某一些维度的相似性,相似用户具有相同的浏览偏好,相似物品具有相同的浏览用户,随着深度学习的普及,推荐系统可以利用的数据形式也大幅增加,用户个人资料、商品信息、用户浏览、购买、点赞、收藏记录等也是关键信息。推荐模型的诞生使得“千人千面”成为了现实,国内外主流媒体、社交、购物网站都纷纷入局并对推荐系统进行实践和探索,并取得了巨大的成功,抖音、快手为主的短视频流平台更是如此,大幅降低了用户检索的主动搜索行为,信息呈现主要依靠被动形式,这更加要求推荐模型的准确性及推荐模型的效率。
[0004]近年来,在游戏领域对深度强化学习的大量应用使得越来越多的研究人员将目光转向强化学习。作为一种弱监督的学习模型,强化学习可以在不具有明确目标及监督指标时对策略进行学习和探究,强化学习也有较为完备的理论基础,以马尔科夫决策为理论,推演出基于模型的强化学习模型和免模型的强化学习模型。而推荐系统与强化学习在一定程度上又很匹配,都是通过用户反馈作为标签,来增强客户满意度,提高信息检索效率的办法,近年来也有很多学者将强化学习应用于推荐系统,实现了对用户的个性化推荐,在学术领域也引起了较大的反馈,强化学习与推荐系统的结合相比于其他深度学习的方法来说有两个显著的优点:1)基于强化学习的推荐系统可以迅速感知用户兴趣的变化,且推荐策略可以快速发生更新,2)基于强化学习的推荐系统目标更加多元和灵活,使得推荐系统目标不仅仅局限于当前物品的推荐,还可以加入用户长期的效用及用户对系统的粘性等多种指标。
[0005]推荐系统在目前信息社会中的重要程度不言而喻,合理的推荐模型有利于快速筛
选无效消息,提高用户与数据的交流效率。在传统的推荐模型中,用户及信息的表征能力较弱,模型的记忆性及泛化性也较弱,推荐效果不是很理想,随着深度学习的出现,模型表达能力有了很大的增强,深度网络与激活函数的结合使得模型预测能力有了很大提升,而且面对数据微小的波动,深度学习为主的推荐算法可以表现更加鲁邦,深度学习为主的推荐模型已经成为了业内主流,强化学习与推荐系统的结合任然处于探索阶段。
[0006]根据目前已有的强化学习与推荐系统的结合研究来看,强化学习的训练需要依靠大量的互动轨迹,但是在推荐问题中,通过用户的实际互动来更新策略意味着较差的用户体验和较高的成本,在实际应用中是很难实现的。

技术实现思路

[0007]为了解决现有的基于强化学习的推荐系统存在的上述技术问题,本专利技术第一方面提供了一种基于生成对抗网络模型及深度强化学习的物品推荐方法,其详细技术方法如下:
[0008]一种基于生成对抗网络模型及深度强化学习的物品推荐方法,其包括:
[0009]建立生成对抗网络模型,所述生成对抗网络模型包括一个生成网络和一个判别网络,其中,所述生成网络采用深度强化学习算法;
[0010]将所述待推荐物品信息和所述用户历史状态信息输入至所述生成网络,所述生成网络基于所述待推荐物品信息和所述用户历史状态信息生成推荐物品信息;
[0011]将所述推荐物品信息和采集到的用户当前状态信息输入至所述判别网络,所述判别网络基于所述推荐物品信息和所述用户当前状态信息模拟出用户评价;
[0012]根据所述用户评价优化所述生成网络。
[0013]本专利技术第二方面提供了一种电子设备,包括存储器、处理器及存储在存储器内并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本专利技术第一方面提供的所述的物品推荐方法。
[0014]本专利技术第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本专利技术第一方面提供的所述物品推荐方法。
[0015]本专利技术提供的基于生成对抗网络模型及深度强化学习的物品推荐方法具有如下优势:
[0016]深度强化学习符合推荐系统,但是需要及时对推荐结果进行反馈。本专利技术引入生成对抗网络模型,其中的生成网络采用深度强化学习网络实施物品推荐,其中的判别网络模拟出对推荐结果的反馈,从而使得深度强化学习网络加速收敛,并保证较好的推荐效果。
附图说明
[0017]图1为本专利技术的强化学习的推荐框架;
[0018]图2为本专利技术第一实施例提供的推荐方法的模型网络结构图;
[0019]图3为本专利技术第二实施例提供的推荐方法的模型网络结构图;
[0020]图4为本专利技术第二实施例中的注意力机制结构示意图;
[0021]图5为本专利技术第二实施例提供的推荐方法中的SDM编码

解码策略的网络结构图;
[0022]图6为本专利技术提供的电子设备的结构框图。
具体实施方式
[0023]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。
[0024]本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0025]在对本方专利技术的具体实施例进行描述之前,首先对本专利技术实施例所涉及的相关理论背景进行介绍,当然,本领域技术人员在实施本专利技术时也可以从人工智能、机器学习领域的现有技术文件中获取到这些知识。
[0026]1、推荐系统
[0027]推荐系统的起本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生成对抗网络模型及深度强化学习的物品推荐方法,其特征在于,其包括:建立生成对抗网络模型,所述生成对抗网络模型包括一个生成网络和一个判别网络,其中,所述生成网络采用深度强化学习算法;将待推荐物品信息和用户历史状态信息输入至所述生成网络,所述生成网络基于所述待推荐物品信息和所述用户历史状态信息生成推荐物品信息;将所述推荐物品信息和用户当前状态信息输入至所述判别网络,所述判别网络基于所述推荐物品信息和所述用户当前状态信息模拟出用户评价;根据所述用户评价优化所述生成网络。2.如权利要求1所述的物品推荐方法,其特征在于,所述生成网络包括第一编码网络和第一深度神经网络,所述生成网络基于所述待推荐物品信息和所述用户历史状态信息生成推荐物品信息包括:所述第一编码网络将所述待推荐物品信息编码成待推荐物品特征向量,以及将所述用户历史状态信息编码成用户历史状态特征向量,并将所述待推荐物品特征向量和所述用户历史状态特征向量输出至所述第一深度神经网络中;所述第一深度神经网络基于所述待推荐物品特征向量和所述用户历史状态特征向量生成所述推荐物品信息。3.如权利要求2所述的物品推荐方法,其特征在于:所述第一编码网络将所述待推荐物品信息码编成待推荐物品特征向量包括:从所述待推荐物品信息中抽取出待推荐物品的结构化特征、文本特征及图片特征;将抽取出的待推荐物品的结构化特征、文本特征及图片特征拼接成所述待推荐物品特征向量;所述第一编码网络将所述所述用户历史状态信息编码成用户历史状态特征向量包括:从所述用户历史状态信息中抽取出用户历史状态的结构化特征、文本特征及图片特征;采用GRU、Transformer或SDM编码

解码策略将抽取出的用户历史状态的结构化特征、文本特征及图片特征处理成所述用户历史状态特征向量。4.如权利要求2所述的物品推荐方法,其特征在于:所述第一深度神经网络由多层全连接神经元节点构成,所述第一深度神经网络按如下公式生成所述推荐物品信息:y1=σ(W1·
[PE,IE]+b1);y2=σ(W2·
y1+b2);
……
Q(s
t
,a
i
)=σ(W
i
·
y
i
‑1+b
i
);其中,PE为用户历史状态特征向量,IE为待推荐物品特征向量,y1,y2…
y
i
‑1代表第一深度神经网络的中间层节点,i的为第一深度神经网络的深度,W1,W2…
W
i
,b1,b2…
b
i
均为第一深度神经网络的参数;所述第一深度神经网络选取n个Q值较大的推荐动作来生成所述推荐物品信息:a=max
n
(Q(s
t
,a
i
))。5.如权利要求2所述的物品...

【专利技术属性】
技术研发人员:张军欢徐云庆
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1