基于生成对抗网络模型及深度强化学习的物品推荐方法、电子设备及介质技术

技术编号：32734439 阅读：25 留言：0更新日期：2022-03-20 08:40

本发明专利技术提供了一种基于生成对抗网络模型及深度强化学习的物品推荐方法、电子设备及介质，其中的物品推荐方法包括：建立生成对抗网络模型，所述生成对抗网络模型包括一个生成网络和一个判别网络，其中，所述生成网络采用深度强化学习算法；将待推荐物品信息和用户历史状态信息输入至所述生成网络，所述生成网络基于所述待推荐物品信息和所述用户历史状态信息生成推荐物品信息；将所述推荐物品信息和用户当前状态信息输入至所述判别网络，所述判别网络基于所述推荐物品信息和所述用户当前状态信息模拟出用户评价；根据所述用户评价优化所述生成网络。本发明专利技术引入生成对抗网络模型，从而使得深度强化学习网络加速收敛，并保证较好的推荐效果。好的推荐效果。好的推荐效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于生成对抗网络模型及深度强化学习的物品推荐方法、电子设备及介质

[0001]本专利技术涉及大数据领域，具体而言，本申请涉及一种基于生成对抗网络模型及深度强化学习的物品推荐方法、电子设备及方法。

技术介绍

[0002]随着互联网及数据科学的发展，数据的收集及存储能力进行指数增长，对每个互联网用户来说海量信息中高效筛选信息的能力需要与时俱进，对公司机构来说，信息与用户的精准匹配也是公司面临的巨大挑战。在目前的互联网公司中，购物平台、新闻媒体平台、第三方服务平台等都在着力解决信息过载下匹配的问题，在此背景下，推荐系统着力解决信息匹配和过滤的问题，在洞察用户历史数据的背景下进行发现用户需求并进行合理推荐。
[0003]当信息严重过载时，存在大量同质化的内容，用户自身的选择偏好也处于一种被动接受和被引导的状态，再此背景下，推荐系统的作用显示的非常重要，不仅仅可以提高用户的满意度，提升商家的点击量，还可以引导用户兴趣向优质内容转移。推荐系统在目前的社会发展中已经占据了中流砥柱的作用，合理高效的将信息主动的展现到用户面前，在用户没有明确的检索内容时将信息呈现到用户面面前，来减少用户决策时间、增加用户满意度。推荐系统的主要原理是找到用户和物品的某一些维度的相似性，相似用户具有相同的浏览偏好，相似物品具有相同的浏览用户，随着深度学习的普及，推荐系统可以利用的数据形式也大幅增加，用户个人资料、商品信息、用户浏览、购买、点赞、收藏记录等也是关键信息。推荐模型的诞生使得“千人千面”成为了现实，国内外主流媒体、社交、购物网站都纷纷入...

【技术保护点】

【技术特征摘要】
1.一种基于生成对抗网络模型及深度强化学习的物品推荐方法，其特征在于，其包括：建立生成对抗网络模型，所述生成对抗网络模型包括一个生成网络和一个判别网络，其中，所述生成网络采用深度强化学习算法；将待推荐物品信息和用户历史状态信息输入至所述生成网络，所述生成网络基于所述待推荐物品信息和所述用户历史状态信息生成推荐物品信息；将所述推荐物品信息和用户当前状态信息输入至所述判别网络，所述判别网络基于所述推荐物品信息和所述用户当前状态信息模拟出用户评价；根据所述用户评价优化所述生成网络。2.如权利要求1所述的物品推荐方法，其特征在于，所述生成网络包括第一编码网络和第一深度神经网络，所述生成网络基于所述待推荐物品信息和所述用户历史状态信息生成推荐物品信息包括：所述第一编码网络将所述待推荐物品信息编码成待推荐物品特征向量，以及将所述用户历史状态信息编码成用户历史状态特征向量，并将所述待推荐物品特征向量和所述用户历史状态特征向量输出至所述第一深度神经网络中；所述第一深度神经网络基于所述待推荐物品特征向量和所述用户历史状态特征向量生成所述推荐物品信息。3.如权利要求2所述的物品推荐方法，其特征在于：所述第一编码网络将所述待推荐物品信息码编成待推荐物品特征向量包括：从所述待推荐物品信息中抽取出待推荐物品的结构化特征、文本特征及图片特征；将抽取出的待推荐物品的结构化特征、文本特征及图片特征拼接成所述待推荐物品特征向量；所述第一编码网络将所述所述用户历史状态信息编码成用户历史状态特征向量包括：从所述用户历史状态信息中抽取出用户历史状态的结构化特征、文本特征及图片特征；采用GRU、Transformer或SDM编码
‑
解码策略将抽取出的用户历史状态的结构化特征、文本特征及图片特征处理成所述用户历史状态特征向量。4.如权利要求2所述的物品推荐方法，其特征在于：所述第一深度神经网络由多层全连接神经元节点构成，所述第一深度神经网络按如下公式生成所述推荐物品信息：y1＝σ(W1·
[PE,IE]+b1)；y2＝σ(W2·
y1+b2)；
……
Q(s
t
,a
i
)＝σ(W
i
·
y
i
‑1+b
i
)；其中，PE为用户历史状态特征向量，IE为待推荐物品特征向量，y1,y2…
y
i
‑1代表第一深度神经网络的中间层节点，i的为第一深度神经网络的深度，W1,W2…
W
i
，b1,b2…
b
i
均为第一深度神经网络的参数；所述第一深度神经网络选取n个Q值较大的推荐动作来生成所述推荐物品信息：a＝max
n
(Q(s
t
,a
i
))。5.如权利要求2所述的物品...

【专利技术属性】
技术研发人员：张军欢，徐云庆，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人