当前位置: 首页 > 专利查询>东北大学专利>正文

语义增强的异构信息网络上Top-k相似度搜索方法技术

技术编号:24353836 阅读:53 留言:0更新日期:2020-06-03 02:08
本发明专利技术属于大数据信息检索技术领域,涉及语义增强的异构信息网络上Top‑k相似度搜索方法,包括如下步骤:步骤1:节点表示。使用预训练方法生成异构信息网络数据集中所有节点的内容和结构表示。步骤2:路径表示。步骤3:设计注意力层以结合两个卷积神经网络通道训练得到的内容和结构信息,步骤4:通过将以上综合表示CS输入MLP中,步骤5:使用对数损失函数训练模型。本发明专利技术模型利用卷积神经网络的两个通道同时分别训练内容信息和结构信息,并且采用了两种注意力机制,用于动态的区分不同元路径的语义差异性以及结合对象的内容和结构信息进行模型的综合训练。

Semantic enhanced Top-k similarity search on heterogeneous information networks

【技术实现步骤摘要】
语义增强的异构信息网络上Top-k相似度搜索方法
本专利技术属于大数据信息检索
,涉及语义增强的异构信息网络上Top-k相似度搜索方法,具体为一种异构信息网络下支持相似性搜索的神经网络模型设计方法,以应对大数据信息检索的挑战。
技术介绍
异构信息网络是包含多种类型节点和节点之间关系边的逻辑网络,定义在其上的元路径包含了丰富的语义信息。近几年,异构信息网络上的数据挖掘任务引起了工业界和学术界的广泛关注,其中网络上对象的相似性搜索是一个关键技术。异构信息网络上的Top-k相似性搜索侧重于通过评估这些节点之间的相似度来获得一组相关节点。当前已有大量的相关研究:在异构信息网络上对对象节点进行表示学习,通过计算向量距离计算节点相似度。YuxiaoDong等在KDD2017发表了论文《metapath2vec:ScalableRepresentationLearningforHeterogeneousNetworks》,提出模型对同构网络表示学习方法DeepWalk改进,通过随机游走实现了异构信息网络上的节点嵌入方法。王等在WWW20本文档来自技高网...

【技术保护点】
1.语义增强的异构信息网络上Top-k相似度搜索方法,包括如下步骤:/n步骤1:使用预训练方法生成异构信息网络数据集中所有节点的内容和结构表示,具体操作包括以下两部分:/n1-1)使用自然语言处理领域的模型预训练得到节点的内容表示

【技术特征摘要】
1.语义增强的异构信息网络上Top-k相似度搜索方法,包括如下步骤:
步骤1:使用预训练方法生成异构信息网络数据集中所有节点的内容和结构表示,具体操作包括以下两部分:
1-1)使用自然语言处理领域的模型预训练得到节点的内容表示其中|A|是A类型节点的数目,d1是节点的内容嵌入维度;
1-2)在指定不同语义的r条元路径下分别使用基于异构网络的网络表示学习训练模型,最后得到节点的结构表示其中d2为节点结构嵌入维数;是对应元路径pi下的嵌入结果,i∈{1,…,r};
步骤2:路径表示,具体步骤如下:
2-1)对节点进行内容和结构的集成嵌入;将节点在r条元路径下的嵌入表示输入全连接神经网络层,分别得到节点的结构表示βs,内容表示βc以及综合表示βs+c;
2-2)为了捕获两个节点之间元路径蕴含的丰富的语义信息,模型以路径实例作为输入,以度量相似度的节点a1和a2为端点,在指定的元路径上对路径进行采样,得到路径实例pi,j,其中i指元路径编号,j指路径实例编号;
2-3)将路径实例pi,j上的节点用αc和αs进行表示,分别通过卷积层进行嵌入得到路径实例的内容表示和结构表示其中i∈{1,…,r},j∈{1,…,t}代表元路径和路径实例的编号;之后,通过池化层获得每个元路径的内容表示和结构表示
2-4)为了同时整合多条元路径所蕴含的语义信息并动态调整不同元路径的重要程度,设计元路径间的注意力机制,对于目标节点am,元路径pi对于它的重要程度得分为:



其中W1,W2是模型参数,是元路径pi的内容表示和结构表示;
将计算得到的不同元路径对于节点am的重要程度得分score(am,pi)输入softmax层进行归一化处理,得到元路径pi的注意力权重;计算方法为:



其中am和an是待度量相似度的两个对象节点;
根据注意力权重计算两个节点之间的综合语义表示:



其中,包含了两个节点间的内容综合表示和结构综合表示;
步骤3:设计注意力层以结合两个卷积神经网络通道训练得...

【专利技术属性】
技术研发人员:张昀于明鹤孙劲桐于戈
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1