一种web图的索引数据压缩方法技术

技术编号:20177024 阅读:97 留言:0更新日期:2019-01-23 00:28
本发明专利技术公开了一种web图的索引数据压缩方法,通过索引数据分块,将索引数据(度数和位移)分成包含数百到数千个节点的块之后,则大部分块中只包含低度数节点,此时这些块中的度数和位移差值通常都可以用一到两个字节存放,也就可以达到50%以上的索引数据压缩率(由之前的4个字节压缩到一到两个字节)提高了可压缩性;通过度数和位移的码字交叉存放,这种交叉存放使得同一个节点的度数和位移的码字以很高的概率位于在同一个高速缓存行里面,因此可以大大提高高速缓存命中率;通过定长编码实现真正的随机访问,定长编码使得节点的压缩后的索引数据的下标可以通过计算得出,并根据下标进行真正的随机访问,提高了解压速度。

A Compression Method for Index Data of Web Graph

The present invention discloses an index data compression method for web graphs. After dividing index data (degree and displacement) into blocks containing hundreds to thousands of nodes by dividing index data into blocks, most of the blocks contain only low degree nodes. At this time, the degree and displacement differences in these blocks can usually be stored in one or two bytes, and the index data pressure can reach more than 50%. Compressibility is improved by scaling (from the previous four bytes to one or two bytes). By crossing the codewords of degrees and displacements, the codewords of degrees and displacements of the same node are located in the same cache line with a high probability, so the cache hit rate can be greatly improved. True random access can be achieved by fixed-length encoding. Fixed length coding makes the subscripts of compressed index data of nodes can be calculated, and real random access based on the subscripts can improve the decompression speed.

【技术实现步骤摘要】
一种web图的索引数据压缩方法
本专利技术属于大数据处理领域,更具体地,涉及一种web图的索引数据压缩方法。
技术介绍
web图是由web页面及它们之间的超链接组成的大规模图,它描述了万维网网页之间的链接关系,其具有如下几个特点:首先,web图的规模很大。万维网上每个可以抓取到的网页都可能是web图中的一个节点,而每个网页上的每个超链接都可能是web图中的一条边。由此可以想象web图的规模非常大;其次,web图很稀疏,也就是web图中的节点的平均度数比较低;最后,web图的度数呈幂律分布。一方面,单机内存空间有限,而且web图的规模增长很快,这限制了单机内存web图处理的使用范围;另一方面,CPU的处理速度大大超过内存提供数据的速度,利用CPU富余的计算能力来缓解内存带宽问题就是个合理的选择,这一点应用于web图处理,就是选用轻量级的压缩算法对web图进行压缩后再进行内存处理。目前尚未发现针对内存web图处理场景下的索引压缩方法。因为web图通常很稀疏,所以web图处理中的索引的比例往往相当大。对于比较稀疏的web图,索引的比例可能高达80%以上。所以迫切需要在并行内存web图处理场本文档来自技高网...

【技术保护点】
1.一种web图的索引数据压缩方法,其特征在于,该方法包括以下步骤:S1.将邻接列表数组压缩后的web图的待压缩的索引数据划分为等长索引数据块;S2.对于当前索引数据块,将压缩索引数组的当前下标放入块索引数组中起始下标域内,将第一个初始位移的码字放入块索引的参考位移域内;S3.对于当前索引数据块,基于当前索引数据块的初始度数最大值确定当前索引数据块度数的码字长度;S4.将当前索引数据块度数的码字长度放入块索引的度数码字长度域内,将第一个初始度数的码字存入压缩索引数组中;S5.对于当前索引数据块,计算剩余的初始位移和参考位移的差值,基于位移差值最大值确定当前索引数据块的位移差值的码字长度;S6....

【技术特征摘要】
1.一种web图的索引数据压缩方法,其特征在于,该方法包括以下步骤:S1.将邻接列表数组压缩后的web图的待压缩的索引数据划分为等长索引数据块;S2.对于当前索引数据块,将压缩索引数组的当前下标放入块索引数组中起始下标域内,将第一个初始位移的码字放入块索引的参考位移域内;S3.对于当前索引数据块,基于当前索引数据块的初始度数最大值确定当前索引数据块度数的码字长度;S4.将当前索引数据块度数的码字长度放入块索引的度数码字长度域内,将第一个初始度数的码字存入压缩索引数组中;S5.对于当前索引数据块,计算剩余的初始位移和参考位移的差值,基于位移差值最大值确定当前索引数据块的位移差值的码字长度;S6.将当前索引数据块的位移差值的码字长度放入块索引的位移差值码字长度域内,将当前索引数据块剩下的度数码字和位移差值码字交叉放入压缩索引数组中;S7.重复步骤S...

【专利技术属性】
技术研发人员:王芳冯丹张永选
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1