基于Datalog的分布式环境下大图数据查询方法技术

技术编号：8022427 阅读：196 留言：0更新日期：2012-11-29 04:39

本发明专利技术涉及一种基于Datalog的分布式环境下大图数据查询方法，其步骤包括：1）对用户输入的基于Datalog规则集合的大图查询指令进行语法分析，产生对应的语法树；2）根据语法树，构建以Datalog规则为单位的执行计划。针对每个Datalog规则，构造对应的Map和Reduce执行函数。3）利用等价规则和统计数据，实现规则间优化、规则内优化、操作函数的优化，提高大图查询执行计划的效率。本发明专利技术为了简化最终用户编写图查询脚本的代价，提出了扩展的递归DataLog查询，支持用户使用简单的描述性语言来表达对应大图查询。本发明专利技术还提出了递归Datalog查询的MapReduce环境执行计划的构建方法，使得Datalog图查询能够在MapReduce框架下执行。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术具体涉及分布式环境下进行大图数据的查询，具体涉及了一种，属于信息

技术介绍
现代社会中，图的应用越来越广泛。社交网络、生物信息、交通导航等领域技术的迅猛发展产生了规模庞大的图数据。如何有效的管理这些大图数据面临着许多挑战首先是传统的单机计算模式很难支持大图数据的管理，单机的存储能力有限，很难将整个大图数据都加载到内存中，同时单机的处理能力也不足，很难有效支持大图数据上各种复杂的操作；其次是大图数据上的应用需求日益复杂，大图上的操作不仅仅局限于检索结点和边这样简单的操作，同时还包括各种复杂的查询，比如最短路径查询、子图模式匹配等。这些操作往往需要循环迭代，涉及很大的搜索空间和执行代价。因此，利用分布式环境来对大图数据进行管理成为发展的必然趋势。目前出现了一些基于分布式环境的大图数据管理系统，其中具有代表性的系统包括 Google 的 Pregel 系统，可具体参考I (Grzegorz Malewicz, Matthew H. Austern, AartJ. C.Bikj James C.Dehnert，Ilan Horn, Naty Leiser,Grzegorz Czajkowski:Pregel: asystem for large-scale graph processing. SIGMOD 2010:135-146)以及 Microsoft 的Trinity系统，这两个系统都不是开源的，主要是针对图数据管理的特点，专门开发的大图数据分布式管理框架，需要用户自己使用高级编程语言来实现查询，对用户的专业知识要求较高。目前还出现了...

【技术保护点】
一种基于Datalog的分布式环境下大图数据查询方法，其步骤包括：1）对用户输入的大图查询指令进行语法分析，产生对应的语法树；所述查询指令基于Datalog规则；2）根据所述语法树，建立Datalog查询规则的执行操作，基于每个Datalog规则将查询转换为Map和Reduce函数中对应的执行操作；2？1）在语法树中基于当前的图结点集合和边集合，导出新的结点集合；2？2）对所述新结点进行递归操作，所述递归Datalog规则设定查询时递归操作终止条件，所述Datalog规则支持聚集函数；3）根据MapReduce中的等价规则和查询统计数据，执行Map和Reduce函数中操作指令，完成查询，将查询得到的结果回传至用户。

【技术特征摘要】

【专利技术属性】
技术研发人员：高军，周家帅，王腾蛟，杨冬青，唐世渭，
申请(专利权)人：北京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人