当前位置: 首页 > 专利查询>南开大学专利>正文

基于节点签名的保留标签信息的异质网络嵌入方法技术

技术编号:22783804 阅读:52 留言:0更新日期:2019-12-11 04:14
一种基于节点签名的保留标签信息的异质网络嵌入方法。网络嵌入是将高维的图数据映射到低维向量,以解决高维图数据无法有效利用机器学习算法进行数据分析的一种方法。本发明专利技术方法具体包括:对网络中所有标签类型进行质数字典映射;提取网络节点的邻域标签集;构建节点签名向量;构建网络节点表示。本发明专利技术旨在综合利用异质图的网络结构、语义和标签信息,以数字签名的思想和质数的特性,构建异质图的网络表示学习框架,实现异质图上网络节点和边标签信息的保留,并根据学习到的异质网络节点表示进行后续节点聚类、分类、链路预测等机器学习任务,能够普适性地对现有同质及异质网络嵌入方法进行扩展和提升。

Heterogeneous network embedding method based on node signature with label information preserved

A heterogeneous network embedding method based on node signature to retain label information. Network embedding is a method of mapping high-dimensional graph data to low-dimensional vector to solve the problem that high-dimensional graph data can not effectively use machine learning algorithm for data analysis. The method of the invention specifically includes: mapping prime number dictionary to all label types in the network; extracting neighborhood label set of network nodes; constructing node signature vector; constructing network node representation. The invention aims to construct a network representation learning framework of heterogeneous graph by comprehensively utilizing the network structure, semantics and label information of heterogeneous graph, the idea of digital signature and the characteristics of prime number, realize the retention of network nodes and edge label information on heterogeneous graph, and carry out subsequent machine learning tasks such as node clustering, classification and link prediction according to the learned heterogeneous network node representation It can extend and improve the existing homogeneous and heterogeneous network embedding methods.

【技术实现步骤摘要】
基于节点签名的保留标签信息的异质网络嵌入方法
本专利技术属于图数据处理的

技术介绍
在当今信息时代,数据在各类应用中常以网络图模型进行表示。有效分析图数据中的结构信息和标签信息有助于发现复杂网络数据的内在关系,进而有助于对图数据中隐含的信息加以有效利用,包括但不限于科学搜索、个性化推荐等。随着人工智能技术的发展,机器学习算法为数据分析和预测提供了通用且有效的手段。由于图数据具有的特性,在原始图上直接进行数据分析是困难的。一方面,图数据传统的以邻接矩阵存储的方式难以直接作为机器学习算法的输入进行数据的分析和预测;另一方面,由于维度高、体量大,图数据分析的计算复杂度高。因此,网络嵌入技术,这种在保留原始图信息、获得良好推断能力的基础上,将高维图数据降维映射到适用于机器学习的低维向量空间的方法,成为图数据处理领域中一个重要的研究方向。异质网络在同质网络的基础上包含节点和边标签信息,在现实中广泛存在。很多大型应用场景,如社交媒体用户关系、学术研究论文引用关系、电子商务用户兴趣网络、生物基因演化关系等,都可以用异质网络结构来进行表示。这些标签信息直接表明了节点和边在语义上的类型,对于网络中节点和边的相似性具有非常重要的作用。近些年来,同质网络嵌入方法已经得到较充分的发展,但现有的异质网络嵌入方法在标签信息的保留上仍具有一定的局限性。一方面,现有的主流异质网络嵌入方法利用节点标签引导随机游走,游走规则的选择依赖数据本身的领域先验知识,并且不同游走策略的选择可能生成具有较大差异的结果;另一方面,现有的异质网络嵌入方法基于边标签依赖节点标签的假设,关注的主要是节点标签,缺乏对边标签独立性的考虑,对下游任务准确度造成影响。为解决上述问题,满足在下游机器学习任务中提升推断准确性的需求,保留异质网络标签信息的网络嵌入技术成为一项具有重要意义的研究问题。
技术实现思路
本专利技术的目的是解决现有的异质网络嵌入方法对于网络数据的专业领域知识依赖、随机游走策略选择的依赖和标签信息独立性考虑不足的问题,并满足提升下游机器学习任务准确度的需求,提出一种基于节点签名的保留标签信息的异质网络嵌入方法。本专利技术通过对图数据不同标签类型的质数表示以及节点邻域签名的计算,将异质网络数据的拓扑结构信息和标签信息分别压缩在节点基础向量和节点的数字签名向量中,保留了网络结构和标签信息,使得到的节点表示能够支持下游的各项推断预测任务。本专利技术的技术方案基于节点签名的保留标签信息的异质网络嵌入方法,以数字签名思想为基础,构建出的节点签名向量可以在使用现有同质或异质网络嵌入方法保留图拓扑结构信息的基础上进行普适性地扩展和提升,保留原始图上点和边的标签信息,达到提升下游各项通用机器学习任务的准确度的目的;同时,由于边标签质数的独立指派,使节点向量可以保留独立的边标签信息,提升异质网络嵌入中边标签的灵活度,同时能够适应边标签分类的特殊需求;具体步骤如下:第1、对网络中所有的标签类型进行质数字典映射指派标签质数的目的是为了对节点标签和边标签信息进行编码表示。本专利技术利用质数的特性来区别不同类型的标签信息。一方面,使得边标签可以在不依赖节点标签语义的基础上,保留独立的语义信息;另一方面,使得在保留多个标签信息时能够对标签的内容进行区分。因此,在构建节点签名向量之前,需要针对网络中出现的所有节点标签和边标签类型统一进行质数映射。具体方法如下:第1.1、确定网络中所有的节点标签和边标签类型已知给定输入数据图中的节点标签类型总数为nv,边标签类型总数为ne,标签类型可表示为[l1,l2,…,lnv,lnv+1,lnv+2,…,lnv+ne]。对于未知标签类型信息的网络,可以通过对数据进行统计,得出网络中全部的不同标签类型。第1.2、根据标签类型建立质数映射字典在确定了网络中的标签类型信息后,将不同类型的标签类型一一对应地映射到生成的自小到大的nv+ne个质数上,采用字典结构f(l)保留标签和质数的映射关系。第2、提取网络节点的邻域标签集在建立了标签类型的质数表示后,需要提取不同节点的邻域标签信息。确定节点邻域的目的是为了保留不同节点的邻域标签信息的相似性,具有相似的邻域标签集的节点应当具有相似的语义信息,在网络中距离较近,即表现为具有相似的向量表示。对比传统的异质网络嵌入方法来说,传统方法考虑指定元路径上的标签语义,而元路径需要基于不同网络数据的专业领域知识进行合理的选择,本专利技术通过提取邻域标签集能对各类网络的标签语义信息进行统一的考虑。因此,在构建节点签名向量之前,需要提取网络中节点的邻域标签集。具体分为两种情况,分别是提取网络节点的直连邻域标签集和提取网络节点的自我中心网络标签集,具体方法如下:(1)提取网络节点的直连邻域标签集节点的直连邻域是指,当前节点和与当前节点连接的所有边,以及与当前节点直接相连的所有节点。节点的直连邻域标签集即为节点直连邻域中所有节点和边上的标签信息。针对不同领域的异质网络数据,考虑节点直连邻域中的标签信息包含了与当前节点相关的节点标签语义及其之间关系类型的语义,能够对各类网络语义相似性进行通用的考虑。第2.1、确定节点的邻域集合给定输入数据图的边集为E,点集为V,e(i,j)表示节点i与节点j之间的边。当前节点v的直连邻域节点集表示为邻域边集表示为则:v的直连邻域表示为N1(v),则:第2.2、根据质数映射字典确定节点的邻域标签集合对得到的节点邻域集合中的每个节点或边x上的标签l(x),根据第1步中得到的质数映射字典f(l)进行节点标签和边标签的质数转化,从而得到直连邻域的标签集合P1(v),则:P1(v)={p|p=f(l(x)),x∈N1(v)};(2)提取网络节点的自我中心网络标签集节点的自我中心网络是指,当前节点、当前节点上所有的边和与当前节点直接相连的所有节点,以及这些节点之间互相连接的边。节点的自我中心网络标签集即为节点自我中心网络中所有节点和边上的标签信息。相比于直连邻域,考虑节点的自我中心网络包含了与当前节点相关的节点标签语义和自我中心网络内所有节点之间的关系类型的语义,能够保存更多的节点邻域标签语义信息。第2.1、确定节点的邻域集合给定输入数据图的边集为E,点集为V,e(i,j)表示节点i与节点j之间的边。当前节点v的邻域节点集表示为邻域边集表示为则:v的自我中心网络表示为N2(v),则:第2.2、根据质数映射字典确定节点的邻域标签集合对得到的节点邻域集合中的每个节点或边x上的标签l(x),根据第1步中得到的质数映射字典f(l)进行节点标签和边标签的质数转化,从而得到节点的自我中心网络的标签集合P2(v),则:P2(v)={p|p=f(l(x)),x∈N2(v)};第3、构建节点签名向量在得到节点邻域标签集后,本专利技术利用数字签名的思想,本文档来自技高网
...

【技术保护点】
1.一种基于节点签名的保留标签信息的异质网络嵌入方法,该方法以数字签名的思想为基础,构建出的节点签名向量可以在使用现有同质或异质网络嵌入方法保留图拓扑结构信息的基础上进行普适性地扩展和提升,保留原始图上点和边的标签信息,达到提升下游各项通用机器学习任务的准确度的目的,同时对独立边标签信息的保留提升了异质网络嵌入中边标签的灵活度,能够适应边标签分类的特殊需求;具体步骤如下:/n第1、对网络中所有的标签类型进行质数字典映射;/n第1.1、确定网络中所有的节点标签和边标签类型;/n第1.2、根据标签类型建立质数映射字典;/n第2、提取网络节点的邻域标签集;/n第2.1、确定节点的邻域集合;/n第2.2、根据质数映射字典确定节点的邻域标签集合;/n第3、构建节点签名向量;/n第3.1、根据节点的邻域标签集计算节点签名;/n第3.2、根据单维签名上限对溢出部分进行维度划分;/n第3.3、根据最长维度对多维节点签名进行维度补齐;/n第3.4、根据签名维度要求进行签名向量降维;/n第3.5、对降维后的签名向量进行标准化处理;/n第4、根据维度要求和选定基础方法构建网络节点最终向量表示;/n第4.1、根据节点表示的总维度和签名占比要求生成指定维度的节点基础向量;/n第4.2、融合基础向量和签名向量构建网络节点最终向量表示。/n...

【技术特征摘要】
1.一种基于节点签名的保留标签信息的异质网络嵌入方法,该方法以数字签名的思想为基础,构建出的节点签名向量可以在使用现有同质或异质网络嵌入方法保留图拓扑结构信息的基础上进行普适性地扩展和提升,保留原始图上点和边的标签信息,达到提升下游各项通用机器学习任务的准确度的目的,同时对独立边标签信息的保留提升了异质网络嵌入中边标签的灵活度,能够适应边标签分类的特殊需求;具体步骤如下:
第1、对网络中所有的标签类型进行质数字典映射;
第1.1、确定网络中所有的节点标签和边标签类型;
第1.2、根据标签类型建立质数映射字典;
第2、提取网络节点的邻域标签集;
第2.1、确定节点的邻域集合;
第2.2、根据质数映射字典确定节点的邻域标签集合;
第3、构建节点签名向量;
第3.1、根据节点的邻域标签集计算节点签名;
第3.2、根据单维签名上限对溢出部分进行维度划分;
第3.3、根据最长维度对多维节点签名进行维度补齐;
第3.4、根据签名维度要求进行签名向量降维;
第3.5、对降维后的签名向量进行标准化处理;
第4、根据维度要求和选定基础方法构建网络节点最终向量表示;
第4.1、根据节点表示的总维度和签名占比要求生成指定维度的节点基础向量;
第4.2、融合基础向量和签名向量构建网络节点最终向量表示。


2.根据权利要求1所述的方法,其特征在于第1步所述的对标签类型进行质数字典映射的方法是:
利用质数的特性来区别不同类型的标签信息,使得边标签在不依赖节点标签语义的基础上,保留独立的语义信息,并在保留多个标签信息时对标签的内容进行区分;
第1.1、确定网络中所有的节点标签和边标签类型;
给定输入数据图中的节点标签类型总数为nv,边标签类型总数为ne,标签类型表示为[l1,l2,…,lnv,lnv+1,lnv+2,…,lnv+ne];对于未知标签类型信息的网络,通过对数据进行统计,得出网络中全部的不同标签类型;
第1.2、根据标签类型建立质数映射字典;
将不同类型的标签类型一一对应地映射到生成的自小到大的nv+ne个质数上,采用字典结构f(l)保留标签和质数的映射关系。


3.根据权利要求2所述的方法,其特征在于第2步所述的提取网络节点的邻域标签集分为两种情况,分别是提取网络节点的直连邻域标签集和提取网络节点的自我中心网络标签集,具体方法如下:
(1)提取网络节点的直连邻域标签集
节点的直连邻域是指,当前节点和与当前节点连接的所有边,以及与当前节点直接相连的所有节点;节点的直连邻域标签集即为节点直连邻域中所有节点和边上的标签信息;针对不同领域的异质网络数据,考虑节点直连邻域中的标签信息包含了与当前节点相关的节点标签语义及其之间关系类型的语义,能够对各类网络语义相似性进行通用的考虑;
给定输入数据图的边集为E,点集为V,e(i,j)表示节点i与节点j之间的边,当前节点v的直连邻域节点集表示为邻域边集表示为则:






v的直连邻域表示为N1(v),则:



对得到的节点邻域集合中的每个节点或边x上的标签l(x),根据权利要求1中确定的质数映射字典f(l)进行节点标签和边...

【专利技术属性】
技术研发人员:宋春瑶郭佳雯袁晓洁
申请(专利权)人:南开大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1