一种基于知识图谱的多元环境感知推荐方法及系统技术方案

技术编号:33388196 阅读:17 留言:0更新日期:2022-05-11 23:03
本发明专利技术提出了一种基于知识图谱的多元环境感知推荐方法及系统,首先设计了面向推荐场景的基于知识图谱的规则提取方法,其主要使用知识图谱中用户与项目之间的连接路径,来提取指定推荐场景中最能代表用户兴趣偏好及项目属性特征的规则。继而采用Bi

【技术实现步骤摘要】
一种基于知识图谱的多元环境感知推荐方法及系统


[0001]本专利技术属于人工智能
,更具体地,涉及一种基于知识图谱的多元环境感知推荐方法及系统。

技术介绍

[0002]推荐系统在现代社会中起着重要作用,其已被广泛应用于在线学习平台、新闻网站,社交媒体、在线购物等平台上。其核心是根据用户在平台上的点击、浏览、观看、评论等历史交互信息来评估用户的兴趣偏好,并为之推荐其可能感兴趣的知识、项目或内容。在所有推荐方法中,最为经典的是协同过滤算法(Collaborative Filtering,CF),其主要通过用户(user)间的行为来找到用户之间的相似性或者项目(item)之间的相似性,并通过该相似性来为用户做出决策。协同过滤算法因其通用、易理解等优势已成为推荐系统中使用最为广泛的算法之一。然而,由于该类算法没有考虑到用户环境的差异,并且存在较为严重的数据稀疏性及“冷启动”问题,算法性能还有较大提升空间。
[0003]如今,互联网及各平台存在丰富的用户或项目信息供使用。研究者开始考虑引入外部知识当作辅助信息,来增强推荐时用户与项目的特征表示,以改善推荐算法的性能。在所有的辅助信息中,以知识图谱为代表结构化知识库最受研究者关注。知识图谱不仅包含有大量高质量的结构化数据,可方便计算机读取;并且知识图谱中实体间丰富的语义关联可增强推荐场景中用户与项目之间的联系,有利于挖掘用户与项目间更深层次的偏好关系。
[0004]由于知识图谱天然的高维性与异构性,如何有效地将知识图谱这类基于图的结构化信息融入用户或项目的表征中,是基于知识图谱的推荐系统需要解决的核心问题。针对该问题,现有的解决方案主要可分为3种类型:基于嵌入(Embedding

based)的方法、基于路径(Path

based)的方法、基于传播(Propagation

based)的方法。
[0005]基于嵌入的方法:该类方法主要是使用知识图谱嵌入算法进行预处理,形成实体和关系的低维向量表示,然后将学习好的实体向量融合到推荐系统中。虽然基于知识图谱嵌入的方法在推荐系统中得到了一定的应用,然而,现有的知识图谱嵌入方法,包括翻译距离模型和语义匹配模型都侧重于对知识图谱中实体的语义关联进行建模,更适合于知识图谱补全和链路预测等任务,其所学习的嵌入特征表示应用于推荐系统时表现较差。并且,知识图谱嵌入方法主要用于静态图的嵌入表示,其对知识图谱的建模和特征表示与下游任务是独立的,当推荐系统中加入了新的用户或项目时,需要调用知识图谱嵌入算法重新学习整个图的特征表示。
[0006]基于路径的方法:该方法也称为基于HIN(Heterogeneous Information Networks)的方法,其通过构建用户

项目图,然后利用图中实体间的路径连接进行项目的推荐。传统的基于路径的方法通常将HIN中抽取的路径与MF(Matrix Factorization)方法相结合,并利用用户和/或项目的连接相似性来增强推荐。基于路径的方法较之于基于嵌入的方法在推荐准确度和可解释性上都有较大提升,但是该类方法严重依赖于所采用的元路
径(Meta Path)的质量,在实践中很难优化路径的选择。另外,现有方法元路径的设计主要采用手动的方式,不适用于知识图谱实体数量较多、关系类型较为复杂的情况。
[0007]基于传播的方法:该方法主要综合了基于嵌入的方法中的实体和关系的语义表示、以及基于路径的方法中的语义连接来进行推荐。其通过实体的嵌入表示在知识图谱上进行嵌入传播这一机制,来聚合实体的多跳邻域信息,从而丰富用户与项目的偏好和特征表示,提升推荐效果。基于传播的方法虽然取得了较好的推荐性能,但该类方法也存在一些问题,突出地体现在:1)该类方法很难区分邻域实体在表示用户与项目时的正确性及有效性,容易引入噪音信息;2)该类方法不能像基于路径的方法那样明确地体现用户与其偏好间的连接模式,使得该类方法缺少可解释性;3)以图神经网络为代表的传播学习方法其所能学习到邻域深度通常小于或等于3,无法获取用户与项目之间的更深层次的连接信息。

技术实现思路

[0008]针对现有技术的缺陷,本专利技术的目的在于提供一种基于知识图谱的多元环境感知推荐方法及系统,旨在解决针对由于知识图谱实体及关系数量较多、类型较为复杂而导致很难手动创建出合理的元路径的问题。
[0009]为实现上述目的,第一方面,本专利技术提供了一种基于知识图谱的多元环境感知推荐方法,包括如下步骤:
[0010]根据用户与多个项目之间产生的交互记录确定用户与每个项目之间的路径;根据所述多个项目之间的关联,从所述路径中提取用户与项目之间产生路径的规则;所述项目为知识图谱中的实体;所述路径用于解释用户如何与项目产生交互,所述规则用于反映用户对实体的兴趣偏好;
[0011]根据被所述规则连接正确和错误路径的数量,以及未被所述规则连接正确和错误路径的数量,基于卡方分布对所述规则进行过滤,保留高质量的规则;
[0012]基于所述高质量的规则确定用户与项目之间所有的路径,并基于各个路径的权重将所述所有路径中的噪音路径消除,得到用户与项目之间的路径样本;
[0013]利用双向长短期记忆网络学习所述路径样本中各路径的低维嵌入表示,并将各规则对应路径的低维嵌入表示进行聚合,以获取基于全局环境的用户与项目之间长距离多元语义连接信息;
[0014]基于图注意力网络学习用户的多个邻域实体和项目的多个邻域实体的不同注意力分数,以通过不同的注意力分数聚合对应的邻域实体,以分别获取基于局部环境的用户和项目的近距离邻域信息;
[0015]将用户与项目之间长距离多元语义连接信息、用户的近距离邻域信息以及项目的近距离邻域信息聚合,得到用户和项目的综合表征向量;
[0016]将所述用户和项目的综合表征向量输入到多层感知机中,得到用户与项目之间的预测评分,并基于所述预测评分为用户推荐对应的项目。
[0017]可选地,根据用户与多个项目之间产生的交互记录,采用双向路径搜寻策略分别从用户和项目开始执行广度优先搜索策略确定用户与项目之间的所有连接路径,并将每条路径的连接关系作为一条规则;
[0018]给定一条规则,令表示知识图谱中所有被交互关系连接的用户

项目对,u表
示用户,v表示项目;表示知识图谱中所有被规则生成的路径连接的用户

项目对;则:
[0019]表示被规则连接的正确的用户

项目对的数量;
[0020]表示没有被规则连接的正确的用户

项目对的数量;
[0021]表示被规则连接的错误的用户

项目对的数量;
[0022]tn
num
=m*n

tp
num

fp
num

fn
num
表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的多元环境感知推荐方法,其特征在于,包括如下步骤:根据用户与多个项目之间产生的交互记录确定用户与每个项目之间的路径;根据所述多个项目之间的关联,从所述路径中提取用户与项目之间产生路径的规则;所述项目为知识图谱中的实体;所述路径用于解释用户如何与项目产生交互,所述规则用于反映用户对实体的兴趣偏好;根据被所述规则连接正确和错误路径的数量,以及未被所述规则连接正确和错误路径的数量,基于卡方分布对所述规则进行过滤,保留高质量的规则;基于所述高质量的规则确定用户与项目之间所有的路径,并基于各个路径的权重将所述所有路径中的噪音路径消除,得到用户与项目之间的路径样本;利用双向长短期记忆网络学习所述路径样本中各路径的低维嵌入表示,并将各规则对应路径的低维嵌入表示进行聚合,以获取基于全局环境的用户与项目之间长距离多元语义连接信息;基于图注意力网络学习用户的多个邻域实体和项目的多个邻域实体的不同注意力分数,以通过不同的注意力分数聚合对应的邻域实体,以分别获取基于局部环境的用户和项目的近距离邻域信息;将用户与项目之间长距离多元语义连接信息、用户的近距离邻域信息以及项目的近距离邻域信息聚合,得到用户和项目的综合表征向量;将所述用户和项目的综合表征向量输入到多层感知机中,得到用户与项目之间的预测评分,并基于所述预测评分为用户推荐对应的项目。2.根据权利要求1所述的方法,其特征在于,根据用户与多个项目之间产生的交互记录,采用双向路径搜寻策略分别从用户和项目开始执行广度优先搜索策略确定用户与项目之间的所有连接路径,并将每条路径的连接关系作为一条规则;给定一条规则,令表示知识图谱中所有被交互关系连接的用户

项目对,u表示用户,v表示项目;表示知识图谱中所有被规则生成的路径连接的用户

项目对;则:表示被规则连接的正确的用户

项目对的数量;表示没有被规则连接的正确的用户

项目对的数量;表示被规则连接的错误的用户

项目对的数量;tn
num
=m*n

tp
num

fp
num

fn
num
表示没有被规则连接的错误的用户

项目对的数量;m表示用户总数,n表示项目总数;将得到的tp
num
、fp
num
、fn
num
、tn
num
构成列联表[(tp
num
,fp
num
),(fn
num
,tn
num
)],进而采用卡方检测法对该列联表进行统计,得到统计值;如果所述统计值小于设定的阈值,则表明该条规则的质量较高,该条规则被保留;否则,该条规则被移除。3.根据权利要求1所述的方法,其特征在于,采用因子分解方法学习知识图谱中各节点的嵌入特征表示;基于各节点的嵌入特征表示采用余弦相似度计算各规则生成的路径中相邻两节点间的相似度;再将各路径中相邻两节点间的相似度的得分求平均值,并以此作为该条路径的优先级得分;最后,对各条规则,选择优先级最高的k条路径来表示用户和项目之间关于该规则的路径样本。
4.根据权利要求1至3任一项所述的方法,其特征在于,给定一个长度为s的路径的嵌入表示p={e
u
,e
w1
,e
w2
,...,e
v
},使用Bi

LSTM学习路径上各个实体的前向隐藏状态序列以及反向隐藏状态序列以学习节点与前向邻居和后向邻居的交互信息;e
u
和e
v
分别表示路径上的用户和项目,e
w1
、e
w2
...表示路径上的其他实体;对双向长短期记忆网络(Bi

LSTM)中的任意单元,将其前向和反向状态的输出进行连接,以作为路径中的实体e
j
经Bi

LSTM处理后的最终输出h
j
;其中,e
j
∈e
u
、e
w1
、e
w2
、...、e
v
;对于长度为s的路径p,其经过Bi

LSTM后的输出为各实体的输出状态所组成的矩阵[h
u
,h
w1
,h
w2
,...,h
v
];采用池化方法将所述矩阵合并,得到最终的路径嵌入表示e
p
;将路径嵌入表示e
p
分别与用户和项目节点经Bi

LSTM处理后的输出h
u
、h
v
进行连接,得到用户和项目两个节点在该路径上的表示e
up
和e
vp
;通过池化方法聚合各规则包含的所有基于路径的用户和项目表示,得到基于规则的用户和项目嵌入向量表示e
ur
和e
vr
;令表示基于规则的用户嵌入向量表示[e
ur1
,e
ur2
,...,e
url
]构成的二维矩阵,其中l为推荐场景中设定规则的数量,e
urj
为基于规则j的用户嵌入向量表示,d为每一个规则向量表示的长度;通过以下公式得到规则的注意力系数score
ur
:score
ur
=LeakyReLU(W1E
ur
);其中,是第一线性变换权重矩阵;LeakyReLU是激活函数;利用softmax函数对所有规则的上述注意力系数进行归一化,得到各规则的最终注意力权重向量:atten
ur
=softmax(W2score
ur
);其中,);其中,表示第二线性变换权重矩阵;atten
ur
表示注意力权重向量;最后,用户u基于规则的嵌入表示e
ur

为:e
ur

=atten
ur
E
ur
;同样,可以得到项目v基于规则的嵌入表示e
vr

。5.根据权利要求4所述的方法,其特征在于,令表示用户u的局部邻域;对于用户u,分别计算用户u与其邻域间的相似度系数:式中,W3是第三线性变换的权重矩阵,W4是第四线性变换的权重矩阵,[
·
||
·
]表示对用户u及项目v
i
线性变换后的特征进行拼接,a(
·
)函数将拼接后的高维特征映射到一个实数上;采用softmax函数对注意力系数进行归一化,得到归一化后的注意力系数采用softmax函数对注意力系数进行归一化,得到归一化后的注意力系数根据归一化后的注意力系数将邻域的特征加权求和,得到聚合了局部邻域特征的用户u的表征e
ut
:W5是第五线性变换的权重矩阵;令表示项目v的局部邻域,与对用户u的处理一样,同样可使用图注意力机制得到聚合了局部邻域特征的项目v的表征e
vt
。6.根据权利要求5所述的方法,其特征在于,采用联接聚合方式将用户与项目之间长距
离多元语义连接信息e
ur

和e
vr

、用户的近距离邻域信息e
ut
以及项目的近距离邻域信息e
vt
聚合,得到联接聚合向量agg
concat
:agg
concat
=σ(W8(e
...

【专利技术属性】
技术研发人员:陈矛刘三女牙杨宗凯吴超
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1