一种基于双塔模型的知识图谱用户偏好实体召回方法技术

技术编号:33651304 阅读:24 留言:0更新日期:2022-06-02 20:29
本发明专利技术公开了一种基于双塔模型的知识图谱用户偏好实体召回方法,在传统的双塔模型中添加了优化方法,用于更好的学习用户与物品之间的交互,已训练的双塔模型能用于召回在知识图谱上与用户偏好相关的实体。首先将用户历史记录的物品在知识图谱对应的实体作为起点,沿着边检索到所有的邻居实体。然后通过已经训练好的优化双塔模型对召回到的实体进行筛选。最后以召回到的实体作为新的起点,重复上述操作。最终构成了能够表示用户偏好和潜在偏好的知识图谱。知识图谱。

【技术实现步骤摘要】
一种基于双塔模型的知识图谱用户偏好实体召回方法


[0001]本专利技术涉及知识图谱和深度学习
,具体涉及一种基于双塔模型的知识图谱用户偏好实体召回方法。

技术介绍

[0002]知识图谱是谷歌在2012年提出的概念,是谷歌用于增强其搜索引擎功能的知识库。本质上,知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语意网络图,节点表示实体或概念,边则由属性或关系构成。每条知识的表示为三元组(h,r,t)的形式,其中h表示头实体,t表示尾实体,r表示头、尾实体之间的关系。知识图谱以强大的语义处理能力和开放组织能力,在推荐系统、智能问答和信息检索等领域发挥着重要的作用,为互联网时代的知识组织和智能应用奠定了基础。
[0003]传统的推荐系统使用显式或隐式信息作为输入来进行预测,存在两个主要问题。一是稀疏性问题,实际场景中,用户和物品的交互信息往往是非常稀疏的,使用如此少的观测数据来预测大量的未知信息,会极大增加过拟合的风险。二是冷启动问题,对于新加入的用户或者物品,其没有对应的历史信息,因此难以进行准确地建模和推荐。
[0004]知识图谱包含了实体之间丰富的语义关联,为推荐系统提供了潜在的辅助信息来源。知识图谱为物品引入更多的语义关系,可以深层地发现用户兴趣。通过知识图谱中不同的关系链接种类,有利于推荐结果的发散。知识图谱可以连接用户的历史记录和推荐结果,从而提高用户对推荐结果的满意度和接受度,增强用户对系统的信任。
[0005]现有的知识图谱推荐应用的方法主要有两类。一类是基于向量嵌入方法(embedding

based methods),通过知识图谱向量嵌入算法,去学习知识图谱中的实体和关系,并得到实体和关系的向量表示,再把实体和关系的向量引入到推荐系统框架中。比如,基于卷积神经网络的DKN框架(Deep Knowledge

aware Network),基于协同知识库嵌入的CKE框架(Collaborative Knowledge base Embedding)。虽然基于向量嵌入的知识图谱推荐方法具有很强的灵活性,但这类方法通常适用于图形内链路预测应用,而推荐场景更需要的是去挖掘用户的潜在兴趣。另一类是基于路径方法(path

based methods),探索知识图谱中各个实体之间的各种联系,为推荐系统提供额外的指导。比如,基于个性化实体的推荐方法(Personalized Entity Recommendation),基于元图的推荐方法(Meta

Graph Based Recommendation)。虽然基于路径的知识图谱推荐方法能够以更自然和更直观的方式使用知识图谱,但是它们严重依赖于手动设计的元路径,这在实践中很难优化。

技术实现思路

[0006]针对现有技术中存在的问题,本专利技术提供了一种基于双塔模型的知识图谱用户偏好实体召回方法。在传统的双塔模型中添加了优化方法,用于更好的学习用户与物品之间的交互;已训练的双塔模型能用于召回在知识图谱上与用户偏好相关的实体;首先将用户历史记录的物品在知识图谱对应的实体作为起点,沿着边检索到所有的邻居实体;然后通
过已经训练好的优化双塔模型对召回到的实体进行筛选。最后以召回到的实体作为新的起点,重复上述操作;最终构成了能够表示用户偏好和潜在偏好的知识图谱。
[0007]本专利技术所采用的技术方案如下:
[0008]一种基于双塔模型的知识图谱用户偏好实体召回方法,包括如下步骤:
[0009]1、定义用户特征向量和物品特征向量,作为双塔模型的输入;
[0010]2、训练双塔模型,结合in

batch softmax损失函数与基于哈希序列的频率估计方法对双塔模型进行优化;
[0011]3、定义用户历史交互矩阵与知识图谱的实体映射关系;
[0012]4、通过偏好实体传播的方式,将每次传播召回到的实体与用户特征输入到优化的双塔模型户偏得出预测概率,筛选概率高的实体,最终得到表示用户偏好和潜在偏好的知识图谱。
[0013]所述步骤1的过程如下:
[0014]1.1、用户特征指的是用户对物品的交互行为,包括点击记录,搜索记录,社交数据,个人数据和样本年龄,用户特征向量是将上述交互数据转化为向量并做拼接(concatenate)。其中将原始数据转化为向量的方式称为向量嵌入(embedding),向量嵌入(embedding)是机器学习中常用的表示数据特征的方法,目的是将原始数据提取出特征,也就是通过神经网络映射之后的低维向量;
[0015]更进一步,所述1.1的流程如下:
[0016]1.1.1、用户点击记录的embedding,是所有点击物品的id类embedding的加权平均,其中id类embedding是将物品唯一标识符映射到同一维度的向量,其权重与浏览物品时间成正比。其用户点击记录的embedding计算公式如下:
[0017][0018]其中v
click
表示用户点击记录的embedding,表示第i个权重,v
click,i
表示点击记录中第i个物品的id类embedding,n表示embedding的个数;其中,可通过如下公式计算:
[0019][0020]其中表示用户对物品i浏览的时间,N表示样本总数,k表示正例总数;
[0021]1.1.2、用户搜索记录的embedding是历史搜索的关键词进行分词得到词条。分词的过程是通过Word2vec模型得到对应词条的embedding,然后将用户搜索记录的embedding进行加权平均。
[0022]其中分词是搜索引擎针对用户提交搜索的关键词串进行切分成不同词条token的技术。
[0023]Word2vec模型将文本中的内容词汇通过转换处理,化简为空间向量,词向量的数值受上下文的影响,蕴含了词与词之间相互的关联性。
[0024]其用户搜索记录的embedding的计算公式如下:
[0025][0026]其中v
search
表示用户搜索记录的embedding,表示第i个权重,v
search,i
表示搜索记录中第i个词条的embedding,n表示embedding的个数;
[0027]搜索记录的embedding的权重计算:
[0028][0029]其中搜索的有效性判断为用户是否在搜索后点击物品;
[0030]1.1.3、用户的社交数据包括收藏、点赞和订阅数据对应的embedding加权平均。其中收藏和点赞数据对应的embedding指的是用户收藏和点赞的物品id类的embedding;订阅数据对应的embedding指的是用户订阅物品对应的负责人的id类的embedding。
[0031]其用户社交数据的embedding的计算公式如下:
[0032][00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双塔模型的知识图谱用户偏好实体召回方法,其特征在于,包括如下步骤:1)定义用户特征向量和物品特征向量,作为双塔模型的输入;2)训练双塔模型,结合in

batch softmax损失函数与基于哈希序列的频率估计方法对双塔模型进行优化;3)定义用户历史交互矩阵与知识图谱的实体映射关系;4)通过偏好实体传播的方式,将每次传播召回到的实体与用户特征输入到优化的双塔模型户偏得出预测概率,根据预测概率筛选实体,最终得到表示用户偏好和潜在偏好的知识图谱。2.根据权利要求1所述的一种基于双塔模型的知识图谱用户偏好实体召回方法,其特征在于,所述步骤1)具体过程如下:1.1)用户特征指的是用户对物品的交互行为,包括点击记录,搜索记录,社交数据,个人数据和样本年龄,用户特征向量是将上述交互数据转化为向量并做拼接concatenate;其中将原始数据转化为向量的方式称为向量嵌入embedding;1.1.1)用户点击记录的embedding,是所有点击物品的id类embedding的加权平均,其中id类embedding是将物品唯一标识符映射到同一维度的向量,其权重与浏览物品时间成正比;其用户点击记录的embedding计算公式如下:其中v
click
表示用户点击记录的embedding,表示第i个权重,v
click,i
表示点击记录中第i个物品的id类embedding,n表示embedding的个数;其中,可通过如下公式计算:其中表示用户对物品i浏览的时间,N表示样本总数,k表示正例总数;1.1.2)用户搜索记录的embedding是历史搜索的关键词进行分词得到词条;分词的过程是通过Word2vec模型得到对应词条的embedding,然后将用户搜索记录的embedding进行加权平均;其用户搜索记录的embedding的计算公式如下:其中v
search
表示用户搜索记录的embedding,表示第i个权重,v
search,i
表示搜索记录中第i个词条的embedding,n表示embedding的个数;搜索记录的embedding的权重计算:其中搜索的有效性判断为用户是否在搜索后点击物品;1.1.3)用户的社交数据包括收藏、点赞和订阅数据对应的embedding加权平均;其中收
藏和点赞数据对应的embedding指的是用户收藏和点赞的物品id类的embedding;订阅数据对应的embedding指的是用户订阅物品对应的负责人的id类的embedding;其用户社交数据的embedding的计算公式如下:其中v
social
表示用户搜索记录的embedding,表示第i个权重,v
social,i
表示搜索记录中第i个社交数据的embedding;对于收藏和点赞的embedding的权重计算:其中表示用户对物品i浏览的时间,N表示样本总数,k表示正例总数;对于订阅的embedding权重计算:其中示被订阅者第i个物品的浏览时间,N表示样本总数,k表示正例总数;1.1.4)用户的个人数据包括用户的性别、年龄和地域;其中性别是简单的二元特征,年龄和地域属于连续型特征,将其归一化为[0,1]区间上的实数值;用户个人数据的embedding,是将处理过的性别、年龄和地域的值做拼接操作后得到的向量;1.1.4.1)计算用户性别的二元表示,其公式如下:1.1.4.2)计算用户的年龄和地域的归一化实数值,其归一化公式如下:其中X表示样本数值,μ为所有样本数据的均值,σ为所有样本数据的标准差;1.1.4.3)将步骤1.1.4)所述的性别二元值,年龄和地域归一化实数值做拼接操作得到一个向量,这个向量拼接操作公式如下:v
personal
=[gender,z
age
,z
region
]其中v
personal
表示用户特征向量,gender表示用户性别,z
age
和z
region
分别表示用户的年龄和地域的归一化值;1.1.5)将步骤1.1)流程所述的用户点击记录的embedding,用户搜索记录的embedding,用户交互数据的embedding,用户个人数据的embedding做concatenate连接操作得到用户特征向量,其公式如下:v
user
=concatenate(v
click
,v
search
,v
social
,v
personal
)=[v
click
[1],v
click
[2],

,v
search
[1],v
search
[2],

,v
social
[1],v
social
[2],

,v
personal
[1],v
personal
[2],

]其中v
user
表示用户特征向量,v
click
[i]表示用户点击embedding的第i个分量,v
search
[i]表示用户搜索记录embedding的第i个分量,v
social
[i]表示用户社交数据embedding的第i个
分量,v
personal
[i]表示用户个人数据embedding的第i个分量;1.2)物品特征包括物品的id及其上下文信息,物品特征向量由物品的id类embedding于其上下文信息的embedding拼接而成;1.2.1)给出物品的id类embedding,是将物品唯一标识符映射到同一维度的向量;1.2.2)给出物品的上下文信息embedding,是将上下文信息通过Word2vec得到的向量;1.2.3)将步骤1.2)所述的id类embedding和上下文信息embedding做concatenate连接操作得到物品特征向量,其公式如下:v
item
=concatenate(v
id
,v
context
)=[v
id
[1],v
id
[2],

,v
context
[1],v
context
[2],

]其中v
item
表示物品特征向量,v
id
表示物品的id类embedding,v
context
表示物品上下文信息的embedding,v
id
[i]表示物品的id类embedding的第i个分量,v
context
[i]表示物品上下文信息的embedding的第i个分量。3.根据权...

【专利技术属性】
技术研发人员:陆佳炜吴俚达程振波韦航俊朱昊天方静雯徐俊肖刚
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1