一种通道信息可感知的数据库存储内并行处理方法技术

技术编号:29671901 阅读:51 留言:0更新日期:2021-08-13 21:53
本发明专利技术公开一种通道信息可感知的数据库存储内并行处理方法,包括:将SSD的多个并行资源中的存储单元页进行逻辑上的组合,形成多个逻辑页面;对RDF图数据切分后将相关联顶点的数据分别存放到所述逻辑页面的不同存储单元页中且分处于能并行存储的页面以能实现并行处理。本发明专利技术提出的该并行化方法通过将多个并行资源中的flash页面组合成逻辑上较大的页面,使发送到SSD的请求满足并行条件。当I/O控制处理请求时,可以更方便地处理这些请求。

【技术实现步骤摘要】
一种通道信息可感知的数据库存储内并行处理方法
本专利技术涉及RDF数据处理
,特别是涉及一种通道信息可感知的数据库存储内并行处理方法。
技术介绍
RDF(资源描述框架)是一个网络资源对象和其间关系的数据模型,提供一个通用的数据模型来支持对网络资源的描述,RDF使用三元组(主语、谓语和宾语)来描述网络上的各种资源和他们之间的关系。从图的角度分析,该模型是由节点和节点之间的边构成,节点表示主语和宾语,边表示谓语,如此可以用节点表示资源,边表示资源的属性。一些技术已经实现实现通道级并行和芯片级并行。通道级并行是闪存主控和闪存封装之间的通信通过数个通道。这些通道可以独立或者同时访问。每个独立通道有数个封装共享。芯片级并行是一个封装包含两个或者更多的芯片,芯片可以并行独立访问。这些并行性可以通过使用各种控制命令来改进SSD(固态硬盘)的性能。但对于存储RDF图数据的SSD磁盘阵列,上述的并行化方法存在以下两种问题。一方面这些技术没有充分的考虑到,由于RDF图数据和SSD内部结构之间存在巨大的语义鸿沟,不加处理直接将RDF数据存储到SSD阵列中试图研究其数据读写的并行性势必会导致效果不好。另一方面,通道级的并行和芯片级的并行性在调度的尺度上过于宏大,在考虑SSD内部结构的基础上可以实现规模更小的页面级并行。
技术实现思路
本专利技术的目的是针对现有技术中存在的技术缺陷,而提供一种通道信息可感知的数据库存储内并行处理方法,涉及到RDF图数据划分以及基于RDF图结构特点提出的一种页面级别的并行化方法,所提出的并行化方法将多个并行资源中的flash页面组合成逻辑上较大的页面,并通过对较大逻辑页面的调度来提高存储系统的运行效率。为实现本专利技术的目的所采用的技术方案是:一种通道信息可感知的数据库存储内并行处理方法,包括:将SSD的多个并行资源中的存储单元页进行逻辑上的组合,形成多个逻辑页面;对RDF图数据切分后将相关联顶点的数据分别存放到所述逻辑页面的不同存储单元页中且分处于能并行存储的页面以能实现并行处理。其中,所述逻辑页面的大小=总线通道的数量×通道中闪存芯片的数量×闪存芯片中内部通道的数量×管芯中的平面数量×页面大小。其中,在RDF图被分割后,在存储数据之前先对存储单元页进行判断,选择不在同一信道能能并行存储的页面进行相关联顶点数据的存储。本专利技术提出的该并行化方法通过将多个并行资源中的flash页面组合成逻辑上较大的页面,使发送到SSD的请求满足并行条件。当I/0控制处理请求时,可以更方便地处理这些请求。附图说明图1为本专利技术的并行化方法的示意图;图2为图数据划分的示意图;图3为全局图数据划分的示意图;图4为本专利技术的通道信息可感知的数据库存储内并行处理方法的流程图。具体实施方式以下结合附图和具体实施例对本专利技术作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。术语说明:SSD硬盘使用内部闪存颗粒存储数据,闪存颗粒是闪存芯片chip封装之后的样子,它的内部是一到多个FlashDie,每个Die的内部又可包含1到多个Plane。在Plane之下又分成多个Block(块),每个Block又包含若干个Page(页)。对于闪存来说,能够读取和写入的最小单位是Page(页)。闪存不能覆盖写入,必须先擦除才能进行新的写入,而擦除的最小单位则是Block(块)。固态硬盘可利用多个通道channel并发读写。在SSD存储系统中能够进行读写操作的最小单元是页,一次读出或写入小于一页是不可能的。当然系统可以只请求一个字节,但SSD中会取回整个页,强制读取比所需多的多的数据。另一方面,RDF图结构的特点决定所需的图数据会被存放到不同的页面中。因为取出整个页面操作本身就是耗时的,为了减少读写操作的时间,一次调入多个页面来获取到足够的图数据是必要的。因此,提出了本专利技术的存储系统的并行处理方法,涉及RDF图的数据存储。如图1所示,本专利技术所提出的通道信息可感知的数据库存储内并行处理方法,首先是将SSD中最基本的存储单元页(page)进行逻辑上的组合,然后对RDF图数据进行切分将之存放到不同的存储单元页(page)中。将多个并行资源中的flash页面组合成逻辑上较大的逻辑页面page0,如图1所示所的虚线所标示框选部分。上述的形成的逻辑页面的大小=总线通道的数量×通道中闪存芯片的数量(即封装的数量)×闪存芯片中内部通道的数量(即管芯的数量)×管芯中的平面数量×页面大小。这样的逻辑页面可以存储更多的顶点,还可以减少图的划分数量,减少冗余。在图被分割后,在存储数据之前对页面进行判断,并倾向于选择可以并行存储的页面。使用逻辑页并不意味着每次都需要读取所有页,因为一个逻辑大页将存储多个关联子图的数据,并且每次读取也是根据需要读取的,即读取的数据仍然是根据索引读取的。使用逻辑页的目的是使发送到SSD的请求满足并行条件,当I/0控制处理请求时,以更方便地处理这些请求。如果RDF图数据中,两组数据的顶点存在关联,将这两组数据放到逻辑页(Logicpage)的不同位置,如图2所示,在没有执行划分策略的情况下,如果访问F、H、J或F、J、K数据,则需要读取两个逻辑页中的数据,并读取两次闪存,因为两次读取操作在同一通道中,无法实现并行。如果将顶点J、K放置在与顶点F、H不在同一信道中的逻辑页的其他位置,则可以同时读取FH和JK所在的物理页,从而减少读取次数。如图3所示,在执行了本专利技术的划分策略之后,将相关顶点放在相邻的逻辑页的不同物理页上,这样就可以同时读取F、G、H、I、J、K的数据。本专利技术提出的该并行化方法通过将多个并行资源中的flash页面组合成逻辑上较大的页面,使发送到SSD的请求满足并行条件。当I/O控制处理请求时,可以更方便地处理这些请求。因此,本专利技术基于SSD组成的RDF存储系统提出了一种新颖的、高效的并行化方法,能使得各SSD负载更加均衡,SSD中各页面的调度更加灵活、快速。实验结果表明,本专利技术可以有效的、全面的提升RDF存储系统的运行效率。本专利技术的应用可以在硬件层面上解决如何存储大规模RDF的问题,为机器理解互联网上海量的信息资源提供支持。以上所述仅是本专利技术的优选实施方式,应当指出的是,对于本
的普通技术人员来说,在不脱离本专利技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本专利技术的保护范围。本文档来自技高网
...

【技术保护点】
1.一种通道信息可感知的数据库存储内并行处理方法,其特征在于,包括步骤:/n将SSD的多个并行资源中的存储单元页进行逻辑上的组合,形成多个逻辑页面;/n对RDF图数据切分后将相关联顶点的数据分别存放到所述逻辑页面的不同存储单元页中且分处于能并行存储的页面以能实现并行处理。/n

【技术特征摘要】
1.一种通道信息可感知的数据库存储内并行处理方法,其特征在于,包括步骤:
将SSD的多个并行资源中的存储单元页进行逻辑上的组合,形成多个逻辑页面;
对RDF图数据切分后将相关联顶点的数据分别存放到所述逻辑页面的不同存储单元页中且分处于能并行存储的页面以能实现并行处理。


2.根据权利要求1所述通道信息可感知的数据库存储内...

【专利技术属性】
技术研发人员:陈仁海郭天泽冯志勇
申请(专利权)人:天津大学深圳研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1