The present invention discloses an index data compression method for web graphs. After dividing index data (degree and displacement) into blocks containing hundreds to thousands of nodes by dividing index data into blocks, most of the blocks contain only low degree nodes. At this time, the degree and displacement differences in these blocks can usually be stored in one or two bytes, and the index data pressure can reach more than 50%. Compressibility is improved by scaling (from the previous four bytes to one or two bytes). By crossing the codewords of degrees and displacements, the codewords of degrees and displacements of the same node are located in the same cache line with a high probability, so the cache hit rate can be greatly improved. True random access can be achieved by fixed-length encoding. Fixed length coding makes the subscripts of compressed index data of nodes can be calculated, and real random access based on the subscripts can improve the decompression speed.
【技术实现步骤摘要】
一种web图的索引数据压缩方法
本专利技术属于大数据处理领域,更具体地,涉及一种web图的索引数据压缩方法。
技术介绍
web图是由web页面及它们之间的超链接组成的大规模图,它描述了万维网网页之间的链接关系,其具有如下几个特点:首先,web图的规模很大。万维网上每个可以抓取到的网页都可能是web图中的一个节点,而每个网页上的每个超链接都可能是web图中的一条边。由此可以想象web图的规模非常大;其次,web图很稀疏,也就是web图中的节点的平均度数比较低;最后,web图的度数呈幂律分布。一方面,单机内存空间有限,而且web图的规模增长很快,这限制了单机内存web图处理的使用范围;另一方面,CPU的处理速度大大超过内存提供数据的速度,利用CPU富余的计算能力来缓解内存带宽问题就是个合理的选择,这一点应用于web图处理,就是选用轻量级的压缩算法对web图进行压缩后再进行内存处理。目前尚未发现针对内存web图处理场景下的索引压缩方法。因为web图通常很稀疏,所以web图处理中的索引的比例往往相当大。对于比较稀疏的web图,索引的比例可能高达80%以上。所以迫切需要在并 ...
【技术保护点】
1.一种web图的索引数据压缩方法,其特征在于,该方法包括以下步骤:S1.将邻接列表数组压缩后的web图的待压缩的索引数据划分为等长索引数据块;S2.对于当前索引数据块,将压缩索引数组的当前下标放入块索引数组中起始下标域内,将第一个初始位移的码字放入块索引的参考位移域内;S3.对于当前索引数据块,基于当前索引数据块的初始度数最大值确定当前索引数据块度数的码字长度;S4.将当前索引数据块度数的码字长度放入块索引的度数码字长度域内,将第一个初始度数的码字存入压缩索引数组中;S5.对于当前索引数据块,计算剩余的初始位移和参考位移的差值,基于位移差值最大值确定当前索引数据块的位移差 ...
【技术特征摘要】
1.一种web图的索引数据压缩方法,其特征在于,该方法包括以下步骤:S1.将邻接列表数组压缩后的web图的待压缩的索引数据划分为等长索引数据块;S2.对于当前索引数据块,将压缩索引数组的当前下标放入块索引数组中起始下标域内,将第一个初始位移的码字放入块索引的参考位移域内;S3.对于当前索引数据块,基于当前索引数据块的初始度数最大值确定当前索引数据块度数的码字长度;S4.将当前索引数据块度数的码字长度放入块索引的度数码字长度域内,将第一个初始度数的码字存入压缩索引数组中;S5.对于当前索引数据块,计算剩余的初始位移和参考位移的差值,基于位移差值最大值确定当前索引数据块的位移差值的码字长度;S6.将当前索引数据块的位移差值的码字长度放入块索引的位移差值码字长度域内,将当前索引数据块剩下的度数码字和位移差值码字交叉放入压缩索引数组中;S7.重复步骤S...
【专利技术属性】
技术研发人员:王芳,冯丹,张永选,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。