基于Hadoop的知识图谱关系表存储的缓存方法及系统技术方案

技术编号:37703996 阅读:20 留言:0更新日期:2023-06-01 23:51
基于Hadoop的知识图谱关系表存储的缓存方法及系统,涉及数据库技术领域,针对现有技术中把热点查询涉及到的连接结果,或连接中间结果,以物化视图的方式存储在额外的表中,导致多表连接的响应速度慢的问题,本申请提出了一种缓存式框架,利用Hadoop的高效并行处理能力,将连接结果或中间结果缓存在文件系统中,降低数据库的处理和维护压力,从而加速多表连接的响应速度。本申请将属性表的查询执行结果或中间结果以文件块的方式缓存在HDFS文件系统中,这样避免了直接将结果以物化视图的方式存储在数据库中,降低了数据库存储负担,并且利用了Hadoop的并行处理能力,降低了属性表的连接负担,进而加速多表连接的响应速度。进而加速多表连接的响应速度。进而加速多表连接的响应速度。

【技术实现步骤摘要】
基于Hadoop的知识图谱关系表存储的缓存方法及系统


[0001]本专利技术涉及数据库
,具体为基于Hadoop的知识图谱关系表存储的缓存方法及系统。

技术介绍

[0002]目前,在知识图谱的存储方案中,关系型存储由于其发展较早,较为成熟,在大数据领域稳定性较好,被广泛应用于学术界的知识图谱存储研究。针对知识图谱的关系型存储方案,现主要有六种——三元组表、水平表、属性表、垂直划分、六重索引、DB2RDF。其中,属性表是对水平表的进一步优化,它继承了水平表的优点,克服了三元组的自连接问题,解决了水平表中空值过多的问题,此外,直观上来说,属性表较好地以关系模式体现了知识图谱的有向图结构,也被广泛应用于学术界和工业界的生产系统中。但是,属性表目前仍存在一些问题,比如,当查询涉及4个表以上的连接时,会涉及到大量的连接开销,大幅降低属性表的查询响应性能。
[0003]对此,目前一个通用的解决方案,是把热点查询涉及到的连接结果,或连接中间结果,以物化视图的方式存储在额外的表中,但这带来的缺点是,给关系型数据库增加了大量的维护负担,进而降低了多本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于Hadoop的知识图谱关系表存储的缓存方法,其特征在于包括以下步骤:步骤一:数据库接收用户查询请求,并利用语法分析和词法分析对用户查询请求进行处理,生成抽象语法树AST;步骤二:数据库对抽象语法树AST进行查询优化,生成查询计划;步骤三:数据库调用物化推荐器模块对查询计划进行解析和分段,得到所有查询计划段的中间结果是否缓存的建议,以及基于此中间结果的剩余查询计划,其中,所有查询计划段的中间结果是否缓存的建议,即为查询计划段,此时数据库处于同步等待;然后将查询计划段以及剩余查询计划发送到Hadoop缓存池中;步骤四:在Hadoop缓存池中判断缓存是否命中,若缓存未命中,Hadoop返回缓存未命中的消息给数据库;若缓存命中,数据库收到Hadoop缓存返回或处理后的中间结果,然后继续执行剩余的查询计划,直到输出最终结果;缓存命中或缓存未命中都会中断数据库的同步等待;步骤五:将最终结果,返回给用户。2.根据权利要求1所述的基于Hadoop的知识图谱关系表存储的缓存方法,其特征在于所述步骤二中数据库调用查询优化模块对抽象语法树AST进行查询优化,生成查询计划。3.根据权利要求2所述的基于Hadoop的知识图谱关系表存储的缓存方法,其特征在于所述步骤三的具体步骤为:数据库调用物化推荐器模块对查询计划进行解析和分段,得到所有查询计划段的中间结果是否缓存的建议,以及基于此中间结果的剩余查询计划,其中,所有查询计划段的中间结果是否缓存的建议,即为查询计划段;然后判断查询计划段是否存在于物化推荐器模块的输出结果集中,若存在,则选择所有存在于该输出结果集中,最接近计划树根节点的计划段子树作为缓存的查询计划段;否则不缓存,生成一个空的查询计划段;对于缓存的查询计划段,输出基于此查询计划段的剩余查询计划;将缓存的查询计划段或空的查询计划段以及基于此查询计划段的剩余查询计划发送到Hadoop缓存池中;此时数据库处于同步等待。4.根据权利要求3所述的基于Hadoop的知识图谱关系表存储的缓存方法,其特征在于所述步骤四的具体步骤为:在Hadoop缓存池中判断缓存是否命中,若缓存命中,则判断剩余查询计划是否需要其他表数据,若不需要,则将剩余查询计划在Hadoop中继续执行,然后将Hadoop中运行得到的最终结果以及剩余查询计划的执行程度返回给数据库,若需要,则将剩余查询计划的执行程度返回给数据库,若缓存未命中,Hadoop返回缓存未命中的消息给数据库。5.根据权利要求4所述的基于Hadoop的知识图谱关系表存储的缓存方法,其特征在于所述步骤四中若缓存未命中,则执行如下步骤:Hadoop返回缓存未命中的消息以及未命中计划段子树的消息给数据库,然后数据库继续执行步骤二中得到的查询计划,同时将没有命中的计划段子树对应的中间结果发送给
Hadoop,并将其缓存。6.根据权利要求4所述的基于Hadoop的知识图谱关系表存储的缓存方法,其特征在于所述剩余查询计划在H...

【专利技术属性】
技术研发人员:王宏志沈子鸣
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1