A heterogeneous network embedding method based on node signature to retain label information. Network embedding is a method of mapping high-dimensional graph data to low-dimensional vector to solve the problem that high-dimensional graph data can not effectively use machine learning algorithm for data analysis. The method of the invention specifically includes: mapping prime number dictionary to all label types in the network; extracting neighborhood label set of network nodes; constructing node signature vector; constructing network node representation. The invention aims to construct a network representation learning framework of heterogeneous graph by comprehensively utilizing the network structure, semantics and label information of heterogeneous graph, the idea of digital signature and the characteristics of prime number, realize the retention of network nodes and edge label information on heterogeneous graph, and carry out subsequent machine learning tasks such as node clustering, classification and link prediction according to the learned heterogeneous network node representation It can extend and improve the existing homogeneous and heterogeneous network embedding methods.
【技术实现步骤摘要】
基于节点签名的保留标签信息的异质网络嵌入方法
本专利技术属于图数据处理的
技术介绍
在当今信息时代,数据在各类应用中常以网络图模型进行表示。有效分析图数据中的结构信息和标签信息有助于发现复杂网络数据的内在关系,进而有助于对图数据中隐含的信息加以有效利用,包括但不限于科学搜索、个性化推荐等。随着人工智能技术的发展,机器学习算法为数据分析和预测提供了通用且有效的手段。由于图数据具有的特性,在原始图上直接进行数据分析是困难的。一方面,图数据传统的以邻接矩阵存储的方式难以直接作为机器学习算法的输入进行数据的分析和预测;另一方面,由于维度高、体量大,图数据分析的计算复杂度高。因此,网络嵌入技术,这种在保留原始图信息、获得良好推断能力的基础上,将高维图数据降维映射到适用于机器学习的低维向量空间的方法,成为图数据处理领域中一个重要的研究方向。异质网络在同质网络的基础上包含节点和边标签信息,在现实中广泛存在。很多大型应用场景,如社交媒体用户关系、学术研究论文引用关系、电子商务用户兴趣网络、生物基因演化关系等,都可以用异质网络结构来进行表示。这些标签信息直接表明了节点和边在语义上的类型,对于网络中节点和边的相似性具有非常重要的作用。近些年来,同质网络嵌入方法已经得到较充分的发展,但现有的异质网络嵌入方法在标签信息的保留上仍具有一定的局限性。一方面,现有的主流异质网络嵌入方法利用节点标签引导随机游走,游走规则的选择依赖数据本身的领域先验知识,并且不同游走策略的选择可能生成具有较大差异的结果;另一方面,现 ...
【技术保护点】
1.一种基于节点签名的保留标签信息的异质网络嵌入方法,该方法以数字签名的思想为基础,构建出的节点签名向量可以在使用现有同质或异质网络嵌入方法保留图拓扑结构信息的基础上进行普适性地扩展和提升,保留原始图上点和边的标签信息,达到提升下游各项通用机器学习任务的准确度的目的,同时对独立边标签信息的保留提升了异质网络嵌入中边标签的灵活度,能够适应边标签分类的特殊需求;具体步骤如下:/n第1、对网络中所有的标签类型进行质数字典映射;/n第1.1、确定网络中所有的节点标签和边标签类型;/n第1.2、根据标签类型建立质数映射字典;/n第2、提取网络节点的邻域标签集;/n第2.1、确定节点的邻域集合;/n第2.2、根据质数映射字典确定节点的邻域标签集合;/n第3、构建节点签名向量;/n第3.1、根据节点的邻域标签集计算节点签名;/n第3.2、根据单维签名上限对溢出部分进行维度划分;/n第3.3、根据最长维度对多维节点签名进行维度补齐;/n第3.4、根据签名维度要求进行签名向量降维;/n第3.5、对降维后的签名向量进行标准化处理;/n第4、根据维度要求和选定基础方法构建网络节点最终向量表示;/n第4.1、 ...
【技术特征摘要】
1.一种基于节点签名的保留标签信息的异质网络嵌入方法,该方法以数字签名的思想为基础,构建出的节点签名向量可以在使用现有同质或异质网络嵌入方法保留图拓扑结构信息的基础上进行普适性地扩展和提升,保留原始图上点和边的标签信息,达到提升下游各项通用机器学习任务的准确度的目的,同时对独立边标签信息的保留提升了异质网络嵌入中边标签的灵活度,能够适应边标签分类的特殊需求;具体步骤如下:
第1、对网络中所有的标签类型进行质数字典映射;
第1.1、确定网络中所有的节点标签和边标签类型;
第1.2、根据标签类型建立质数映射字典;
第2、提取网络节点的邻域标签集;
第2.1、确定节点的邻域集合;
第2.2、根据质数映射字典确定节点的邻域标签集合;
第3、构建节点签名向量;
第3.1、根据节点的邻域标签集计算节点签名;
第3.2、根据单维签名上限对溢出部分进行维度划分;
第3.3、根据最长维度对多维节点签名进行维度补齐;
第3.4、根据签名维度要求进行签名向量降维;
第3.5、对降维后的签名向量进行标准化处理;
第4、根据维度要求和选定基础方法构建网络节点最终向量表示;
第4.1、根据节点表示的总维度和签名占比要求生成指定维度的节点基础向量;
第4.2、融合基础向量和签名向量构建网络节点最终向量表示。
2.根据权利要求1所述的方法,其特征在于第1步所述的对标签类型进行质数字典映射的方法是:
利用质数的特性来区别不同类型的标签信息,使得边标签在不依赖节点标签语义的基础上,保留独立的语义信息,并在保留多个标签信息时对标签的内容进行区分;
第1.1、确定网络中所有的节点标签和边标签类型;
给定输入数据图中的节点标签类型总数为nv,边标签类型总数为ne,标签类型表示为[l1,l2,…,lnv,lnv+1,lnv+2,…,lnv+ne];对于未知标签类型信息的网络,通过对数据进行统计,得出网络中全部的不同标签类型;
第1.2、根据标签类型建立质数映射字典;
将不同类型的标签类型一一对应地映射到生成的自小到大的nv+ne个质数上,采用字典结构f(l)保留标签和质数的映射关系。
3.根据权利要求2所述的方法,其特征在于第2步所述的提取网络节点的邻域标签集分为两种情况,分别是提取网络节点的直连邻域标签集和提取网络节点的自我中心网络标签集,具体方法如下:
(1)提取网络节点的直连邻域标签集
节点的直连邻域是指,当前节点和与当前节点连接的所有边,以及与当前节点直接相连的所有节点;节点的直连邻域标签集即为节点直连邻域中所有节点和边上的标签信息;针对不同领域的异质网络数据,考虑节点直连邻域中的标签信息包含了与当前节点相关的节点标签语义及其之间关系类型的语义,能够对各类网络语义相似性进行通用的考虑;
给定输入数据图的边集为E,点集为V,e(i,j)表示节点i与节点j之间的边,当前节点v的直连邻域节点集表示为邻域边集表示为则:
v的直连邻域表示为N1(v),则:
对得到的节点邻域集合中的每个节点或边x上的标签l(x),根据权利要求1中确定的质数映射字典f(l)进行节点标签和边...
【专利技术属性】
技术研发人员:宋春瑶,郭佳雯,袁晓洁,
申请(专利权)人:南开大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。