本发明专利技术公开了一种基于双曲几何的有向网络空间嵌入方法,通过有向网络的二分结构,多路复用节点信息以及有向网络的形成机制为嵌入基础,定义并量化了网络中有向边的链接可能性与节点相似性测度,并基于此计算节点空间坐标。与现有方法相比,这个一方法可以将大量高维的有向网络大数据在双曲空间中进行降维映射,最终给出具有能够从多尺度解释网络形成机制的空间坐标,并对研究具有不对称性特征的网络大数据有效距离测度、网络形成机制以及可视化等领域的研究有着重要的现实意义。此外,本发明专利技术能够对具有无标度性质的有向网络的量化分析、链路预测、节点分类等问题上有着广阔的应用前景。
An embedding method of directed network space based on hyperbolic geometry
【技术实现步骤摘要】
一种基于双曲几何的有向网络空间嵌入方法
本专利技术属于计算机与系统科学的交叉学科领域研究,通过网络大数据特征提取,目的在于基于双曲几何空间性质实现对非对称网络(有向网络)数据降维存储和表征学习的方法。并在此基础上,量化了有向网络的节点距离和相似性,以更好地展示有向网络的可视化呈现以及协助相关领域的应用。本专利技术在技术上涉及图网络空间嵌入理论,双曲几何理论和复杂网络分析方法。
技术介绍
复杂的网络可以大大简化实际系统并保留交互结构的基本信息,并成为研究复杂系统的理想工具。但复杂网络是非几何属性模型,使其无法在复杂网络的研究中运用几何理论框架,工具与方法。机器学习技术作为数据挖掘领域的热点方向,擅长处理结构化的矢量数据。随着机器学习与深度学习的研究兴趣,使得网络嵌入成为当前网络科学中的一个前沿话题,它旨在将观察到大多数实际的复杂系统根据网络拓扑信息和隐藏度量空间中的连接规则映射到潜在(即隐变量,高斯潜在变量等)或低维度量空间(即欧几里得空间或双曲线空间)。传统基于机器学习方法的网络嵌入主要思路是通过随机游走,deepwalk,词向量等方法将复杂网络嵌入到欧式空间,使其从一个n×n的矩阵降维到m×n。但是其嵌入后的空间坐标不具有实际含义且无法识别节点的结构特征。网络几何学最新进展指出,在无标度网络中观察到的结构特性可以作为双曲空间中的几何特性出现。双曲几何是非欧几里德几何的一个分支,在实际工程技术中有许多应用。真实复杂网络节点度分布服从幂律分布,双曲空间表征无标度网络的能力已在理论上获得证明并在一些应用中以及证明是成功的,这包括脑科学,国际贸易,Internet路由和蛋白质形成机理等领域的研究。更重要的是随机几何模型和增长双曲嵌入模型不仅可以解释无标度网络的层级性,异质性和高聚类等特性,还能够给节点的空间坐标赋予清晰的实际含义。此研究框架的提出引起了广泛关注,进而开发了一系列模型和算法将复杂网络嵌入双曲空间。这些模型在研究网络的潜在几何结构方面具有突出的表现。其中经典的复杂网络双曲空间嵌入方法是流行度-相似度优化法,这是通过统计推断来估计节点的空间坐标,即耦合了节点在双曲几何空间中的两个维度信息定义节点间链接的可能性:由径向坐标抽象的节点流行度和由角坐标距离表示的相似度之间的权衡。然而,已有的模型不能完整地嵌入真实复杂系统,其最大的缺点是它忽略链接的方向。在大多数实际网络中,节点之间的关系可能不相等,这种关系的不对等体现在节点间连边的方向性,也被称为链路的不对称性。尽管网络中的不对称性可能给潜在空间中的检测到的链路预测带来许多挑战,但是忽略有向网络空间映射将丢失大量重要信息,并且不能完全代表真实系统的结构和功能。因此,考虑有向网络的双曲空间嵌入是值得关注且重要的研究议题。本专利技术提出了有向网络的双曲空间嵌入方法,即非对称的流行度-相似度有向网络双曲空间嵌入优化算法。与以往研究不同,这是将考虑了复杂网络中关系不对称性的一种嵌入,从而弥补了原有理论与算法的不足。首先,探索了有向链路与网络拓扑之间的内在联系。复杂网络中连边的不对称性隐藏地反映在拓扑结构信息中,并在系统的功能和演化中发挥重要作用,即有向网络存在隐藏的二分结构。我们检查了各种有向网络都具有这种结构,这种现象是定向网络的普遍规律。其次,我们将识别有向网络的二分结构和节点信息复用作为嵌入有向网络的基础,并为降低有向网络数据的维数提供了新思路。具体来说,有向网络的双曲空间嵌入基础是四个方面权衡的结果,即出度和入度方向的相似性和流行性:向度较高的流行度和相似性较高的节点应倾向于与指向度较高的节点连接,进而完整地刻画了一个有向网络双曲空间嵌入的过程。此外,由于相似性坐标不存在解析解,我们耦合了极大似然估计算法和采样方法对节点相似性坐标进行参数估计。最后,基于节点的空间坐标,本专利技术还给出了一种可视化有向网络的技术和节点相似性的度量方案。一方面,可视化方法能够更加直观地展示节点重要性以及网络宏观的结构与功能;另一方面,节点相似性测度可用于实际系统中节点间有效距离的研究。非对称的流行度-相似度有向网络双曲空间嵌入优化方法相对于传统的嵌入方法,通过考虑节点的全局信息与局域信息,能够更好地刻画有向边的连接概率,并赋予了节点空间坐标的网络含义,仅仅通过对网络大数据的挖掘与分析就可以找到相应的测度和可视化技术,这一点也对现有的技术方法进行了创新。
技术实现思路
专利技术目的:本专利技术研究了有向网络的空间嵌入问题,发现相关研究较少关注有向网络的空间降维及其空间坐标如何从多尺度揭示网络形成机制。因此,基于双曲几何学和复杂网络分析方法,本专利技术提出了一种有向网络进行空间嵌入的方法。本方法可以找到非对称网络(有向网络)和低维空间的映射关系,实现对有向网络大数据的降维存储、可视化方案以及明晰降维后空间坐标的含义,进而实现有向网络的节点分类、节点重要性评价与链路预测。基于上述思路,本专利技术解决了链接方向性的空间嵌入问题以及赋予了节点空间坐标的实际含义,极大地提高了有向网络数据空间嵌入的可行性与准确性,并给了一种基于几何空间的节点相似性度量方法与有向网络可视化技术。具体而言,我们将具有非对称性质的节点关系建模为一个有向网络,节点A和节点B中存在某种关系,则节点A和节点B之间存在一条有向边。例如在国际贸易有向网络中,节点表示国家,若国家A出口产品到国家B(即存在进口或出口关系),则国家A有一条指向国家B的有向边。本专利技术首先识别了有向网络中的二分拓扑结构,并从有向网络形成机制出发建立非对称网络空间嵌入降维方法。其技术方案是通过识别有向网络的结构定义了非对称的节点连接可能性表达式和通过双曲几何理论和有向网络网络拓扑性质估计了节点的空间坐标,由此获得量化有向网络距离测度和可视化方法。在定义非对称的节点链接可能性上,我们采用节点复用的方式,将节点划分为两个性质不同的子集-A集合和B集合,子集内部不存在连边,子集间存在连边且表示有向网络中节点对之间真实存在的链路。对于国际贸易网络来说,这两个子集分别代表的是出口国(A集合)和进口国(B集合),从A集合到B集合的边表示属于A集合的i国家出口产品到属于B集合的j国家。进一步,在估计节点空间坐标的过程中,我们结合双曲几何理论和极大似然估计算法,开发了一种非对称的相似性(径向坐标)-流行性(角度坐标)算法和理论推导耦合嵌入方法。本专利技术提出一种基于双曲几何的有向网络空间嵌入方法,包括以下步骤:1.根据有向网络的二分结构检验双曲空间嵌入基础,步骤1包括:1-1)基于节点复用获得二分结构性质后(图2所示),获得网络节点的出度序列和入度序列,进而在双曲对数坐标下获得这些度分布的幂指数γ。1-2)基于双曲理论知识,双曲空间网络嵌入适应于上述度分布的幂指数γ>2.1。大多数网络是异构的(即节点度和权重),这些异构性可用于过滤稀疏子网络,若不满足则可采用提取骨架网络的方法获得网络的关键链路后再进行嵌入。2、根据有向网络的二分结构构建模型,步骤2包括:2-1)基于有向网络形成机制构建了有向网络嵌入模型,即定义非对称链路本文档来自技高网...
【技术保护点】
1.一种基于双曲几何的有向网络空间嵌入方法,其特征在于,步骤如下:/n步骤1.根据有向网络的二分结构检验双曲空间嵌入基础:/n1-1)依据双曲几何理论,一个复杂网络用矩阵表示为A={a
【技术特征摘要】
1.一种基于双曲几何的有向网络空间嵌入方法,其特征在于,步骤如下:
步骤1.根据有向网络的二分结构检验双曲空间嵌入基础:
1-1)依据双曲几何理论,一个复杂网络用矩阵表示为A={aij}n×n,其几何描述其度分布的幂率指数需要满足条件,即p(k)~k-γ,γ>2.1,其中,k表示网络中节点的度节点度概率分布函数为p(k),度分布的幂指数γ;
1-2)若网络度分布不满足幂律分布,则需要采用网络骨架提取的方法,识别网络中的关键连接关系;根据连边权重大小进行降序排序,从后往前依次删去权重小的连边且保证网络没有孤立点的存在;重复上述结果,并每一步记录下当前边数(LB)与原始边数(L0)的比值:(LB/L0)和当前节点数(LB)与原始节点数L0的比值:NB/N0,并将其为坐标轴绘制散点图;
步骤2.根据有向网络的二分结构构建模型
2-1)构建网络模型:在双曲空间中,节点有四个坐标rai,rbj,θai,θbj分别表示出方向和入方向的流行性r和相似性θ,基于有向网络形成机制,出方向和入方向的相似性和流行性越大,有向边越容易形成连边;由此,模型由公式(1)给出:
f(xai,bj)=(1+xai,bjβ)-1(1)
有向边的相异权重:xai,bj=rai+rbj+2dai,bj(2)
有向边的角相似性:dai,bj=min(|π-|θai-θbj||)(3)
其中,β是控制网络集聚性的参数,公式中的下标ai表示的是点集A的i节点,在具体系统中,有向边的相异权重表示的是节点间的空间拓扑距离,而角相似性则反映了节点间相似性的一种度量方式;
2-1)根据隐藏空间和双曲空间的同构性质,节点的流行性坐标r有节点期望度κai和κbi表征,即:
rai=R-ln(κai/κa0)(4)
最小的期望度:
其中,R为双曲庞加莱圆盘半径,和γi分别表示i节点的平均出度或平均入度,出度或入度分布的幂律关系指数,即p(k)~k-γ,结果在双对数坐标下拟合;
步骤3.使用最大期望算法进行参数估计:<...
【专利技术属性】
技术研发人员:吴宗柠,狄增如,樊瑛,
申请(专利权)人:北京师范大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。