超大规模RDF图数据的划分与并行分布处理方法技术

技术编号：11793785 阅读：133 留言：0更新日期：2015-07-29 20:14

本发明专利技术公开了一种超大规模RDF图数据的划分与并行分布处理方法，包括：对原始的RDF图数据进行预处理，生成对应的哈希字典文件和整形三列表数据，并将整形三列表数据转换成关联矩阵M；建立关联矩阵M的超图模型，在该超图模型中，M的主语、谓词和宾语即为超边，与超边相关的数据即为超边数据；判断该RDF图数据是连通图还是非连通图，如果是非连通图，则将该非连通图划分为多个连通图；基于超图模型，并发的广度遍历并等分放置路径上的超边数据，将超边数据进行分类排序并等分成K份放入K个从节点上，同时建立超边数据与从节点的映射关系。本发明专利技术的划分速度快，划分质量高，数据和任务负载均衡，查询处理的并行度高、速度快。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于大数据处理领域，更具体地，涉及一种超大规模RDF图数据的划分与并行分布处理方法。
技术介绍
资源描述框架（Resource Description Framework，简称RDF)是整个语义网系统结构中的核心，它被广泛用来描述互联网上存在的各种信息资源。随着RDF数据的不断增长，在单机上处理已经显得力不从心了，所以必须将RDF数据划分到多机上进行处理。对超大规模RDF图数据的划分，常用的方法有启发式划分和并行层次划分。对于启发式方法，一般是提供一个目标函数，然后划分围绕着这个函数的最优化方向展开，但是目标函数的选取比较困难。对于并行层次划分，则包含三个划分阶段：粗化阶段 (Coarsen)、初始化阶段（Initial)和细化提纯阶段（Uncoarsen refinement)，粗化阶段则把大图收缩为小图，初始化阶段则对小图进行划分，细化提纯阶段则将小图还原回大图，最终完成划分。这两种方法普遍存在划分时间过长、划分质量不高和任务负载不均衡的问题，最终导致数据的查询处理性能低效。另外，还有采用Metis划分工具将RDF数据的顶点划分成两两不相交的部分，然后以每个顶点为中心向外延伸n跳，最后使用Hadoop处理节点之间的数据传输和结果收集，它的缺点主要是数据冗余度太大，数据处理速度比较慢。目前，对超大规模图数据的划分和并行分布处理还处于发展阶段，现有的解决方案存在一些技术问题：图数据的划分速度慢，划分质量差；此外，其无法有效地保证数据间关系的完整性、节点数据分布的均匀性和任务负载的均衡性。
技术实现思路
...
<a href="http://www.xjishu.com/zhuanli/55/CN104809168.html" title="超大规模RDF图数据的划分与并行分布处理方法原文来自X技术">超大规模RDF图数据的划分与并行分布处理方法</a>

【技术保护点】
一种超大规模RDF图数据的划分与并行分布处理方法，其特征在于，包括以下步骤：(1)对原始的RDF图数据进行预处理，生成对应的哈希字典文件和整形三列表数据，并将整形三列表数据转换成关联矩阵M；(2)建立关联矩阵M的超图模型，在该超图模型中，M的主语、谓词和宾语即为超边，与超边相关的数据即为超边数据；(3)判断该RDF图数据是连通图还是非连通图，如果是连通图则转入步骤(4)，如果是非连通图，则将该非连通图划分为多个连通图，并对每一个连通图执行步骤(4)；(4)基于超图模型，并发的广度遍历并等分放置路径上的超边数据，并将超边数据进行分类排序并等分成K份放入K个从节点上，其中K为正整数，同时建立超边数据与从节点的映射关系；(5)对划分到每个从节点上的数据进行后续处理，去除冗余数据，生成相应的关联矩阵、统计信息和索引文件；(6)各个从节点加载相应的关联矩阵、统计信息和索引文件到内存中，并等待主节点发送来的查询任务；(7)主节点接收用户提交的查询任务，并将其分解为子查询任务，将子查询任务分发到对应的从节点上进行处理，最终生成投影变量数据；(8)各从节点采用位块的方式对投影变量数据进行封装和压缩，并...

【技术特征摘要】

【专利技术属性】
技术研发人员：袁平鹏，金海，谢昌凤，罗毅，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人