【技术实现步骤摘要】
一种基于双塔模型的知识图谱用户偏好实体召回方法
[0001]本专利技术涉及知识图谱和深度学习
,具体涉及一种基于双塔模型的知识图谱用户偏好实体召回方法。
技术介绍
[0002]知识图谱是谷歌在2012年提出的概念,是谷歌用于增强其搜索引擎功能的知识库。本质上,知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语意网络图,节点表示实体或概念,边则由属性或关系构成。每条知识的表示为三元组(h,r,t)的形式,其中h表示头实体,t表示尾实体,r表示头、尾实体之间的关系。知识图谱以强大的语义处理能力和开放组织能力,在推荐系统、智能问答和信息检索等领域发挥着重要的作用,为互联网时代的知识组织和智能应用奠定了基础。
[0003]传统的推荐系统使用显式或隐式信息作为输入来进行预测,存在两个主要问题。一是稀疏性问题,实际场景中,用户和物品的交互信息往往是非常稀疏的,使用如此少的观测数据来预测大量的未知信息,会极大增加过拟合的风险。二是冷启动问题,对于新加入的用户或者物品,其没有对应的历史信息,因此难以进行准确地建模和推荐。
[0004]知识图谱包含了实体之间丰富的语义关联,为推荐系统提供了潜在的辅助信息来源。知识图谱为物品引入更多的语义关系,可以深层地发现用户兴趣。通过知识图谱中不同的关系链接种类,有利于推荐结果的发散。知识图谱可以连接用户的历史记录和推荐结果,从而提高用户对推荐结果的满意度和接受度,增强用户对系统的信任。
[0005]现有的知识图谱推荐应用的方法主要有两类。一类是 ...
【技术保护点】
【技术特征摘要】
1.一种基于双塔模型的知识图谱用户偏好实体召回方法,其特征在于,包括如下步骤:1)定义用户特征向量和物品特征向量,作为双塔模型的输入;2)训练双塔模型,结合in
‑
batch softmax损失函数与基于哈希序列的频率估计方法对双塔模型进行优化;3)定义用户历史交互矩阵与知识图谱的实体映射关系;4)通过偏好实体传播的方式,将每次传播召回到的实体与用户特征输入到优化的双塔模型户偏得出预测概率,根据预测概率筛选实体,最终得到表示用户偏好和潜在偏好的知识图谱。2.根据权利要求1所述的一种基于双塔模型的知识图谱用户偏好实体召回方法,其特征在于,所述步骤1)具体过程如下:1.1)用户特征指的是用户对物品的交互行为,包括点击记录,搜索记录,社交数据,个人数据和样本年龄,用户特征向量是将上述交互数据转化为向量并做拼接concatenate;其中将原始数据转化为向量的方式称为向量嵌入embedding;1.1.1)用户点击记录的embedding,是所有点击物品的id类embedding的加权平均,其中id类embedding是将物品唯一标识符映射到同一维度的向量,其权重与浏览物品时间成正比;其用户点击记录的embedding计算公式如下:其中v
click
表示用户点击记录的embedding,表示第i个权重,v
click,i
表示点击记录中第i个物品的id类embedding,n表示embedding的个数;其中,可通过如下公式计算:其中表示用户对物品i浏览的时间,N表示样本总数,k表示正例总数;1.1.2)用户搜索记录的embedding是历史搜索的关键词进行分词得到词条;分词的过程是通过Word2vec模型得到对应词条的embedding,然后将用户搜索记录的embedding进行加权平均;其用户搜索记录的embedding的计算公式如下:其中v
search
表示用户搜索记录的embedding,表示第i个权重,v
search,i
表示搜索记录中第i个词条的embedding,n表示embedding的个数;搜索记录的embedding的权重计算:其中搜索的有效性判断为用户是否在搜索后点击物品;1.1.3)用户的社交数据包括收藏、点赞和订阅数据对应的embedding加权平均;其中收
藏和点赞数据对应的embedding指的是用户收藏和点赞的物品id类的embedding;订阅数据对应的embedding指的是用户订阅物品对应的负责人的id类的embedding;其用户社交数据的embedding的计算公式如下:其中v
social
表示用户搜索记录的embedding,表示第i个权重,v
social,i
表示搜索记录中第i个社交数据的embedding;对于收藏和点赞的embedding的权重计算:其中表示用户对物品i浏览的时间,N表示样本总数,k表示正例总数;对于订阅的embedding权重计算:其中示被订阅者第i个物品的浏览时间,N表示样本总数,k表示正例总数;1.1.4)用户的个人数据包括用户的性别、年龄和地域;其中性别是简单的二元特征,年龄和地域属于连续型特征,将其归一化为[0,1]区间上的实数值;用户个人数据的embedding,是将处理过的性别、年龄和地域的值做拼接操作后得到的向量;1.1.4.1)计算用户性别的二元表示,其公式如下:1.1.4.2)计算用户的年龄和地域的归一化实数值,其归一化公式如下:其中X表示样本数值,μ为所有样本数据的均值,σ为所有样本数据的标准差;1.1.4.3)将步骤1.1.4)所述的性别二元值,年龄和地域归一化实数值做拼接操作得到一个向量,这个向量拼接操作公式如下:v
personal
=[gender,z
age
,z
region
]其中v
personal
表示用户特征向量,gender表示用户性别,z
age
和z
region
分别表示用户的年龄和地域的归一化值;1.1.5)将步骤1.1)流程所述的用户点击记录的embedding,用户搜索记录的embedding,用户交互数据的embedding,用户个人数据的embedding做concatenate连接操作得到用户特征向量,其公式如下:v
user
=concatenate(v
click
,v
search
,v
social
,v
personal
)=[v
click
[1],v
click
[2],
…
,v
search
[1],v
search
[2],
…
,v
social
[1],v
social
[2],
…
,v
personal
[1],v
personal
[2],
…
]其中v
user
表示用户特征向量,v
click
[i]表示用户点击embedding的第i个分量,v
search
[i]表示用户搜索记录embedding的第i个分量,v
social
[i]表示用户社交数据embedding的第i个
分量,v
personal
[i]表示用户个人数据embedding的第i个分量;1.2)物品特征包括物品的id及其上下文信息,物品特征向量由物品的id类embedding于其上下文信息的embedding拼接而成;1.2.1)给出物品的id类embedding,是将物品唯一标识符映射到同一维度的向量;1.2.2)给出物品的上下文信息embedding,是将上下文信息通过Word2vec得到的向量;1.2.3)将步骤1.2)所述的id类embedding和上下文信息embedding做concatenate连接操作得到物品特征向量,其公式如下:v
item
=concatenate(v
id
,v
context
)=[v
id
[1],v
id
[2],
…
,v
context
[1],v
context
[2],
…
]其中v
item
表示物品特征向量,v
id
表示物品的id类embedding,v
context
表示物品上下文信息的embedding,v
id
[i]表示物品的id类embedding的第i个分量,v
context
[i]表示物品上下文信息的embedding的第i个分量。3.根据权...
【专利技术属性】
技术研发人员:陆佳炜,吴俚达,程振波,韦航俊,朱昊天,方静雯,徐俊,肖刚,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。