基于布尔矩阵分解的图数据压缩方法技术

技术编号:34325276 阅读:33 留言:0更新日期:2022-07-31 01:00
本发明专利技术公开了一种基于布尔矩阵分解的图数据压缩方法,具体包括:对原始图数据进行拆分,使用自我中心网络表示,并进行重排序;使用邻接矩阵对排序后的自我中心网络集合进行表示,生成采样矩阵;将采样矩阵分解成字典矩阵与稀疏码矩阵的乘积;布尔原子挖掘;原子进行线性组合,得到采样恢复矩阵,然后根据采样阶段获得的采样节点集合,将各个节点之间的连边关系按照采样恢复矩阵进行恢复,得到恢复的图数据。本发明专利技术的方法通过使用布尔矩阵分解的方式,对矩阵分解得到的字典矩阵与稀疏码矩阵进行约束,使得字典矩阵和稀疏码矩阵都是布尔型矩阵,可以降低图数据表征的误差率,同时提高表征得到的原子的准确率,实现对图数据的压缩。缩。缩。

Graph data compression method based on Boolean matrix decomposition

【技术实现步骤摘要】
indexes with recursive graph bisection[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2016:1535

1544”扩展了Chierichetti等人提出的MLOGGAPA,提出了基于递归二分法的BP节点排序算法,对图和倒排索引的压缩提出了统一的压缩模型。
[0008]文献“Besta M,Stanojevic D,Zivic T,et al.Log(graph)a near

optimal high

performance graph representation[C]//Proceedings of the 27th international conference on parallel architectures and compilation techniques.2018:1

13”提出的图压缩算法编码方式相对简单,整体的运行效率较高,将图进行对数化编码,从而加速图算法的运行,将间隙码的固定大小特性融入进来,从而提高压缩率。
[0009]可以看出,现有的图数据压缩方法都是在编码方向努力,希望借助编码将图数据中的冗余信息剔除,从而达到压缩的目的,它们都没有考虑到图的组成以及图数据的基本结构。
[0010]基于网络稀疏表征的图数据压缩能够对同质图进行压缩。其将图结构数据进行分解,得到图结构的基本结构原子以及原子如何构建原始图结构数据的组合方式,对图结构数据实现表征以及存储压缩。在网络稀疏表征中,使用到了自我中心网络这样的概念,当不再关注图结构数据的整体,而是侧重于研究单个节点的性质时,就会用到自我中心网络,网络节点由唯一的一个中心节点,以及这个节点的邻居组成,边只包括中心节点与邻居之间,以及邻居与邻居之间的边。自我中心网络能够表示一个节点的结构信息,从而同时,网络稀疏表征技术使用K

SVD来进行矩阵分解,将采样矩阵进行浮点数矩阵分解,从而生成字典矩阵与稀疏码矩阵。
[0011]网络稀疏表征的主要问题在于K

SVD这种浮点数矩阵分解。输入的采样矩阵是布尔矩阵,而输出的字典矩阵和稀疏码矩阵都是正负未定的浮点数。首先,对于浮点数,很难去判断其物理意义,例如对于字典矩阵中的0.5,判断其是否有连边都不合适;其次,对于矩阵中出现的负数,例如

1.5,其本不应该存在,只是为了拟合矩阵的误差而被迫出现,实际上我们并不希望见到它。网络稀疏表征会通过字典矩阵来生成原子,负数以及浮点数都无法正确的判断其在真实图结构数据中是否存在。由于上述问题,导致网络稀疏表征并不能准确的进行表征。

技术实现思路

[0012]为解决现有技术存在的上述问题,本专利技术提出了一种基于布尔矩阵分解的图数据压缩方法
[0013]本专利技术的具体技术方案为:一种基于布尔矩阵分解的图数据压缩方法,包括如下步骤:
[0014]步骤S1.对原始图结构数据进行采样,具体的,对原始图结构数据进行拆分,使用自我中心网络表示,并进行重排序;
[0015]步骤S2.矩阵表示,使用邻接矩阵对排序后的自我中心网络集合进行表示,生成采样矩阵;
[0016]步骤S3.布尔矩阵分解,将采样矩阵分解成字典矩阵与稀疏码矩阵的乘积;
[0017]步骤S4.布尔原子挖掘,对布尔矩阵分解得到的字典矩阵进行处理,将矩阵拆分成多个列向量,对每个列向量,将其还原成邻接矩阵,将所述邻接矩阵分别恢复成图结构数据,同时去除其中同构图,最终得到的就是原子;
[0018]步骤S5.在稀疏码矩阵的指导下,对原子进行线性组合,即可得到采样恢复矩阵,然后根据采样阶段获得的采样节点集合,将各个节点之间的连边关系按照采样恢复矩阵进行恢复,即可得到恢复的图结构数据。
[0019]本专利技术的有益效果:本专利技术的方法通过使用布尔矩阵分解的方式,对矩阵分解得到的字典矩阵与稀疏码矩阵进行约束,使得字典矩阵和稀疏码矩阵都是布尔型矩阵,可以降低图结构数据表征的误差率,同时提高表征得到的原子的准确率,实现对图数据的压缩。
附图说明
[0020]图1为本专利技术实施例的基于布尔矩阵分解的图数据压缩方法的流程示意图。
具体实施方式
[0021]下面结合附图对本专利技术的实施例做进一步的说明。
[0022]针对网络稀疏表征技术存在的问题,本专利技术提出布尔矩阵的矩阵分解方法,在此基础上,进行图数据压缩,从而给生成的字典矩阵与稀疏码矩阵加上布尔的约束,从而解决上述问题;同时通过降低布尔矩阵分解本身存在的大误差,使得本专利技术的最终表征效果优于基于网络稀疏表征的图数据压缩方法。具体流程如图1所示,包括如下步骤:
[0023]步骤S1.对原始图结构数据进行采样,具体的,对原始图结构数据进行拆分,使用自我中心网络表示,并进行重排序;
[0024]步骤S2.矩阵表示,使用邻接矩阵对排序后的自我中心网络集合进行表示,生成采样矩阵;
[0025]步骤S3.布尔矩阵分解,将采样矩阵分解成字典矩阵与稀疏码矩阵的乘积;
[0026]步骤S4.布尔原子挖掘,对布尔矩阵分解得到的字典矩阵进行处理,将矩阵拆分成多个列向量,对每个列向量,将其还原成邻接矩阵,将所述邻接矩阵分别恢复成图结构数据,同时去除其中同构图,最终得到的就是原子;
[0027]步骤S5.在稀疏码矩阵的指导下,对原子进行线性组合,即可得到采样恢复矩阵,然后根据采样阶段获得的采样节点集合,将各个节点之间的连边关系按照采样恢复矩阵进行恢复,最终即可得到恢复的图结构数据。
[0028]在步骤S1中,首先对原始图结构数据进行采样。本阶段主要目的是将原始图结构数据分解成自我中心网络集合。由于原始图结构数据规模太大,无法进行处理,从而将图结构数据拆分成多个自我中心网络,分别进行处理。具体分步骤如下:
[0029]步骤S11.设定采样得到的自我中心网络节点规模大小s;
[0030]步骤S12.访问某个节点i,创建当前节点i的自我中心网络g
i

[0031]步骤S13.将节点i加入自我中心网络g
i
的节点集合,同时将节点i的一阶邻居加入集合;若当前图结构节点数未超过s,则继续添加节点i的二阶邻居;若此时节点数未超过s,则补充虚拟节点到集合;若超过,则剔除多余节点;
[0032]步骤S14.对节点集合中的节点进行排序,排序规则为:一阶邻居、二阶邻居均按照
自我中心网络g
i
中的度从大到小排序;
[0033]步骤S15.将节点集合中所有存在的连边加入自我中心网络g
i

[0034]步骤S16.遍历图结构数据中的每个节点,重复步骤S12

S15,得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于布尔矩阵分解的图数据压缩方法,包括如下步骤:步骤S1.对原始图结构数据进行采样,具体的,对原始图结构数据进行拆分,使用自我中心网络表示,并进行重排序;步骤S2.矩阵表示,使用邻接矩阵对排序后的自我中心网络集合进行表示,生成采样矩阵;步骤S3.布尔矩阵分解,将采样矩阵分解成字典矩阵与稀疏码矩阵的乘积;步骤S4.布尔原子挖掘,对布尔矩阵分解得到的字典矩阵进行处理,将矩阵拆分成多个列向量,对每个列向量,将其还原成邻接矩阵,将所述邻接矩阵分别恢复成图结构数据,同时去除其中同构图,最终得到的就是原子;步骤S5.在稀疏码矩阵的指导下,对原子进行线性组合,即可得到采样恢复矩阵,然后根据采样阶段获得的采样节点集合,将各个节点之间的连边关系按照采样恢复矩阵进行恢复,即可得到恢复的图结构数据。2.根据权利要求1所述的一种基于布尔矩阵分解的图数据压缩方法,其特征在于,步骤S1具体分步骤如下:步骤S11.设定采样得到的自我中心网络节点规模大小s;步骤S12.访问某个节点i,创建当前节点i的自我中心网络g
i
;步骤S13.将节点i加入自我中心网络g
i
的节点集合,同时将节点i的一阶邻居加入集合;若当前图结构数据节点数未超过s,则继续添加节点i的二阶邻居;若此时节点数未超过s,则补充虚拟节点到集合;若超过,则剔除多余节点;步骤S14.对节点集合中的节点进行排序,排序规则为:一阶邻居、二阶邻居均按照自我中心网络g
i
中的度从大到小排序;步骤S15.将节点集合中所有存在的连边加入自我中心网络g
i
;步骤S16.遍历图结构数据中的每个节点,重复步骤S12
...

【专利技术属性】
技术研发人员:翟学萌潘梦阳李烁胡光岷
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1