当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于深度强化学习的兴趣点推荐方法及系统技术方案

技术编号:33912525 阅读:14 留言:0更新日期:2022-06-25 19:42
本发明专利技术提供一种基于深度强化学习的兴趣点推荐方法,融合用户连续签到行为序列上下文特征属性实现兴趣点推荐,实现过程包括获取用户历史签到数据,进行预处理,得到用户集合和兴趣点POI集合;排序得到用户连续签到行为序列数据,构建POI

【技术实现步骤摘要】
一种基于深度强化学习的兴趣点推荐方法及系统


[0001]本专利技术涉及用户兴趣点自动推荐的电子信息
,尤其涉及一种基于深度强化学习的兴趣点推荐方法。

技术介绍

[0002]随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载的时代。在这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战:信息消费者,从大量信息中找到自己感兴趣的信息是一件非常困难的事情;对于信息生产者,让自己生产的信息脱颖而出,受到广大用户的关注,也是一件非常困难的事情。而用户在日常出行中,也会遇到“信息过载”问题——选择哪家餐厅、哪个商场等。这些问题与网上购物时遇到的商品选择信息过载问题类似。在电子商务领域,为解决用户的信息过载问题,推荐系统应运而生,它通过用户的兴趣偏好等信息,将用户可能感兴趣的内容推荐给用户。而面对出行时遇到的信息过载问题,亦有越来越多的兴趣点推荐系统的研究。兴趣点推荐系统可被描述为:利用人们的历史出行记录,为人们的未来出行提供建议的个性化信息推荐系统。
[0003]POI推荐可以帮助用户探索特定场景下的生活服务,也可以为商家吸引顾客带来可观的经济效益。不同于传统的显示反馈推荐系统(如推荐新闻、电影、商品等线上物品),可以利用用户对物品的评分直接表达用户的兴趣偏好,隐式反馈通过用户的历史POI访问轨迹记录挖掘其潜在偏好,这增加了推荐的复杂性。
[0004]POI推荐主要存在以下问题:1)相比于海量的线上点击和评分数据,POI推荐面临着更为严峻的数据稀疏性问题;2)推荐系统任务中会普遍遇到的冷启动问题,在室内POI推荐任务中主要为两类:从未被访问过的位置称为冷启动POI,从未访问过任何位置的用户被称为冷启动用户。3)用户动态偏好问题,即用户偏好会随着时间推移和所处环境的改变发生变化,另外由于时空异质性,POI推荐算法要适应不同的场景以及不同文化、教育、社会经济背景的用户。因此,有必要考虑包括时空约束、时空近邻等在内的多种影响因素,以提高该任务的推荐性能。

技术实现思路

[0005]为了解决上述现有技术中存在的不足,本专利技术提出了一种基于深度强化学习的兴趣点推荐方法。
[0006]为了实现上述目的,本专利技术技术方案提供一种基于深度强化学习的兴趣点推荐方法,融合用户连续签到行为序列上下文特征属性实现兴趣点推荐,实现过程包括以下步骤,
[0007]S1,获取用户历史签到数据,每条签到记录包含用户ID、用户评分和评论、兴趣点ID、签到时间、兴趣点种类和兴趣点地理位置;对数据集进行预处理,得到用户集合和兴趣点POI集合;
[0008]S2,将S1预处理后的每个用户的历史签到记录按照访问时间的先后顺序分别排序,得到用户连续签到行为序列数据;
[0009]S3,根据处理后的用户历史签到数据构建3个二部图,分别是POI

POI图G
VV
、POI

功能区图G
VZ
和POI

时间段图G
VT

[0010]S4,将S2得到的用户连续签到行为序列通过嵌入层转换为用户特征向量;将G
VV
、G
VZ
和G
VT
通过联合图嵌入学习嵌入到同一潜在空间中,得到POI、功能区和时间段在共享低维空间中的特征向量;串联用户特征向量及POI、功能区、时间段特征向量;
[0011]S5,将串联后的特征向量输入基于注意力机制的门控循环单元,生成用户近期的兴趣偏好特征向量;
[0012]S6,将用户兴趣特征向量输入至基于深度强化学习Actor

Critic框架的推荐模型中,得到Top

k有序兴趣点推荐列表。
[0013]而且,步骤S1中进行数据清洗,包括删除其中签到次数少于a次的用户和被签到次数少于b次的兴趣点,得到新的数据集,参数a和b预先设置。
[0014]而且,步骤S3的实现过程如下,
[0015]S31、构建POI

POI图G
VV
=(V∪V,ε
vv
),其中V为POI的集合,ε
vv
是POI间边的集合;
[0016]S32、构建POI

功能区图G
VZ
=(V∪Z,ε
vz
),其中V为POI的集合,Z为功能区的集合,ε
vz
为POI与功能区之间边的集合;POI

功能区图用于处理POI与地区之间的地理及语义关系,按照各地区所具有的、代表该地区的核心功能对城市进行划分,得到功能区集合;根据POI v的地理位置找到与之对应的功能区z,将v和z间连上边ε
vz
,并设置该边权重为1;
[0017]S33、构建POI

时间段图G
VT
=(V∪T,ε
vt
),其中V为POI的集合,T为时间段的集合,ε
vt
为POI与时间段之间边的集合;根据用户历史签到数据,若一个POI v在一个时间段t内被访问,则将v和t间连上边,并设置该边权重为访问频率。
[0018]而且,步骤S4的联合图嵌入学习实现如下,
[0019]给定一个二部图G
VV
=(V
A
∪V
B
),V
A
和V
B
是两个互不相交的顶点集,使用负采样的方式计算图中每个顶点在潜空间的嵌入向量O,
[0020][0021][0022]其中,ε为边的合集,w
ij
为边e
ij
的权重,log p(v
j
|v
i
)是与v
i
关联的v
j
出现的概率,n为负采样从V
B
得到的顶点标记,P
n
(v)为负采样的概率;v
i
和v
j
是边e
ij
的两个端点,v
i
属于V
A
,v
j
属于V
B
,v
n
是通过负采样从V
B
得到的顶点,和分别是其对应顶点的嵌入向量;σ()是Sigmoid函数,是期望函数,K是每次采样时选取负采样的边的数目,且d
v
是顶点v的出度;通过联合训练的方式得到POI、地区和时间段在共享低维空间的表述向量和
[0023]而且,步骤S5包括以下子步骤,
[0024]S51、将连续签到序列特征及<评论特征、时空特征、POI特征>作为用户的整体历史行为特征信息输入门控循环单元模型进行融合;
[0025]S52、采用注意力机制对融合信息特征进行选取,得到用户近期的兴趣偏好特征向量。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的兴趣点推荐方法,其特征在于:融合用户连续签到行为序列上下文特征属性实现兴趣点推荐,实现过程包括以下步骤,S1,获取用户历史签到数据,每条签到记录包含用户ID、用户评分和评论、兴趣点ID、签到时间、兴趣点种类和兴趣点地理位置;对数据集进行预处理,得到用户集合和兴趣点POI集合;S2,将S1预处理后的每个用户的历史签到记录按照访问时间的先后顺序分别排序,得到用户连续签到行为序列数据;S3,根据处理后的用户历史签到数据构建3个二部图,分别是POI

POI图G
VV
、POI

功能区图G
VZ
和POI

时间段图G
VT
;S4,将S2得到的用户连续签到行为序列通过嵌入层转换为用户特征向量;将G
VV
、G
VZ
和G
VT
通过联合图嵌入学习嵌入到同一潜在空间中,得到POI、功能区和时间段在共享低维空间中的特征向量;串联用户特征向量及POI、功能区、时间段特征向量;S5,将串联后的特征向量输入基于注意力机制的门控循环单元,生成用户近期的兴趣偏好特征向量;S6,将用户兴趣特征向量输入至基于深度强化学习Actor

Critic框架的推荐模型中,得到Top

k有序兴趣点推荐列表。2.根据权利要求1所述的基于深度强化学习的兴趣点推荐方法,其特征在于:步骤S1中进行数据清洗,包括删除其中签到次数少于a次的用户和被签到次数少于b次的兴趣点,得到新的数据集,参数a和b预先设置。3.根据权利要求1所述的基于深度强化学习的兴趣点推荐方法,其特征在于:步骤S3的实现过程如下,S31、构建POI

POI图G
VV
=(V∪V,ε
vv
),其中V为POI的集合,ε
vv
是POI间边的集合;S32、构建POI

功能区图G
VZ
=(V∪Z,ε
vz
),其中V为POI的集合,Z为功能区的集合,ε
vz
为POI与功能区之间边的集合;POI

功能区图用于处理POI与地区之间的地理及语义关系,按照各地区所具有的、代表该地区的核心功能对城市进行划分,得到功能区集合;根据POI v的地理位置找到与之对应的功能区z,将v和z间连上边ε
vz
,并设置该边权重为1;S33、构建POI

时间段图G
VT
=(V∪T,ε
vt
),其中V为POI的集合,T为时间段的集合,ε
vt
为POI与时间段之间边的集合;根据用户历史签到数据,若一个POIv在一个时间段t内被访问,则将v和t间连上边,并设置该边权重为访问频率。4.根据权利要求1所述的基于深度强化学习的兴趣点推荐方法,其特征在于:步骤S4的联合图嵌入学习实现如下,给定一个二部图G
VV
=(V
A
∪V
B
),V
A
和V
B
是两个互不相交的顶点集,使用负采样的方式计算图中每个顶点在潜空间的嵌入向量O,个顶点在潜空间的嵌入向量O,
其中,ε为边的合集,w
ij
为边e
ij
的权重,logp(v
j
|v
i
)是与v
i
关联的v...

【专利技术属性】
技术研发人员:黄靖张彤
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1