一种非结构化数据的海量存储方法及存储系统技术方案

技术编号:24251540 阅读:39 留言:0更新日期:2020-05-22 23:34
本发明专利技术实施例公开了一种非结构化数据的海量存储方法及存储系统,包括如下步骤:将云存储空间划分为若干个用于存储不同文件类型的分布式存储模块;利用空间模拟法将分布式存储模块划分为若干个子存储集群,设定数据流在子存储集群和网格存储位置中的存储方式;在相邻两个子存储集群之间设置虚拟通道,架设前端数据源头与子存储集群之间匹配对应的传输通信链路;将若干个相邻子存储集群组成一个存储实现单元,利用同一个存储实现单元的虚拟通道实现快速存储;采用增设存储单元之间的虚拟通道将多个待存储单元作为入库缓冲池,提升了数据库的数据有效存储率,同时监控每个子存储集群顺次完全利用。

A mass storage method and storage system for unstructured data

【技术实现步骤摘要】
一种非结构化数据的海量存储方法及存储系统
本专利技术实施例涉及海量存储
,具体涉及一种非结构化数据的海量存储方法及存储系统。
技术介绍
计算机信息化系统中的数据分为结构化数据和非结构化数据,其中非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML,HTML、各类报表、图像和音频/视频信息等等,因此非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。将非结构化数据进行海量存储时,由于数据爆炸性导致数据在入库存储时的速度慢,严重影响数据存储的及时性,容易出现数据丢失的情况,同时由于海量存储的空间大,合理全面的利用难度大,容易出现空间利用率低的问题。
技术实现思路
为此,本专利技术实施例提供一种非结构化数据的海量存储方法及存储系统,采用增设存储单元之间的虚拟通道将多个待存储单元作为入库缓冲池,提升了数据库的数据有效存储率,同时监控每个子存储集群顺次完全利用,以解决现有技术中避免数据入库拥堵而造成数据丢失以及海量存储利用率低的问题。为了实现上述目的,本专利技术的实施方式提供如下技术方案:一种非结构化数据的海量存储方法及存储系统,包括如下步骤:步骤100、将云存储空间划分为若干个用于存储不同文件类型的分布式存储模块;步骤200、利用空间模拟法将所述分布式存储模块划分为若干个子存储集群,设定数据流在所述子存储集群中的存储方式;步骤300、在相邻两个所述子存储集群之间设置虚拟通道,架设前端数据源头与所述子存储集群之间匹配对应的传输通信链路;步骤400、将若干个相邻所述子存储集群组成一个存储实现单元,利用同一个存储实现单元的所述虚拟通道实现快速存储。作为本专利技术的一种优选方案,在步骤200中,所述空间模拟法将所述分布式存储模块按照三维矩阵划分为若干个立体分布的所述子存储集群,同一个类型的数据流按序存储在不同立体位置的所述子存储集群内。作为本专利技术的一种优选方案,在步骤200中,根据所述子存储集群分布特征,设定数据流在所述子存储集群的存储方式的具体实现步骤为:沿着立体分布的所述子存储集群的三个直角相交的棱边构建三维直角坐标系;标记每个所述子存储集群在所述三维直角坐标系内的三维坐标;具体设定数据流先顺次按照上下层的方式存储,然后在每层子存储集群按照先行后列的方式保存。作为本专利技术的一种优选方案,在步骤300中,所述虚拟通道设置在所述三维坐标系中同一层的所述子存储集群之间以及相邻的两层所述子存储集群之间,所述子存储集群整体通过所述虚拟通道实现数据贯通存储,所述虚拟通道将数据流在所述子存储集群沿着“S”形依次顺序保存。作为本专利技术的一种优选方案,在步骤400中,所述存储实现单元以其中一个所述子存储集群作为主存储对象,并将其他的所述子存储集群作为缓冲池。作为本专利技术的一种优选方案,在步骤400中,在同一个所述存储实现单元通过所述虚拟通道实现快速存储的具体实现步骤为:步骤401、将一个所述存储实现单元内的主存储对象的导入端口与所述传输通信链路连接导通,将前端数据通过所述主存储对象的导入端口存储在所述主存储对象内;步骤402、实时监测所述传输通信链路的滞留数据大小,根据滞留数据大小,依次打开同一个存储实现单元的其他作为缓冲池的所述子存储集群;步骤403、所述前端数据通过虚拟通道导入主存储对象内;步骤404、利用内存监测器实时监控所述存储实现单元的所述主存储对象的剩余容量,根据所述主存储对象的剩余容量调整到下一个所述存储实现单元的所述主存储对象进行数据存储。作为本专利技术的一种优选方案,上一个所述存储实现单元内作为缓冲池的子存储集群是下一个所述存储实现单元的主存储对象。作为本专利技术的一种优选方案,在步骤402中,所述传输通信链路与所述存储实现单元的连接端设有若干个分段链路末梢,所述分段链路末梢上均设有与所述存储实现单元内的子存储集群一一对应的入库端口,按照与主存储对象的距离从近到远的顺序将分段链路末梢与作为缓冲池连通,并按照与主存储对象的距离从远到近的顺序将分段链路末梢与作为缓冲池的子存储集群断开。另外,本专利技术还提供了一种非结构化数据的海量存储系统,其特征在于,包括:云存储空间分化模块,用于将云存储空间划分为若干个分别存储不同文件类型的分布式存储模块;存储模块拆分单元,用于将分布式存储模块拆分为三维立体矩阵分布的子存储集群;虚拟通道单元,用于将两个相邻的子存储集群进行数据互通;存储实现单元,用于将若干个子存储集群组合分为一个主存储对象和其他多个缓冲池。作为本专利技术的一种优选方案,所述虚拟通道单元为每个子存储集群增设用于降低数据入库压力的数据缓冲区,所述数据流从相邻的子存储集群转移到正在存储数据的子存储集群内。本专利技术的实施方式具有如下优点:(1)本专利技术在将海量数据存储的过程中,为了避免数据入库压力大入库速度慢,采用异步存储的方式,将所有的子存储集群利用虚拟通道贯通连接,将多个待存储单元作为入库缓冲池,提升了数据库的数据有效存储率,避免数据入库拥堵而造成数据丢失的情况。(2)本专利技术监控每个子存储集群顺次完全利用,所有子存储集群按需顺次实用,避免出现存储空间浪费的情况。附图说明为了更清楚地说明本专利技术的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。图1为本专利技术实施方式中海量存储系统的结构框图;图2为本专利技术实施方式中数据传输交互系统的结构框图;图3为本专利技术实施方式中海量存储方法的流程示意图;图4为本专利技术实施方式中数据传输交互方法的流程示意图。图中:1-云存储空间分化模块;2-存储模块拆分单元;3-虚拟通道单元;4-存储实现单元;5-交互记录单元;6-交互通信链路单元;7-数据传输链路单元。具体实施方式以下由特定的具体实施例说明本专利技术的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本专利技术的其他优点及功效,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1如图1所示,本专利技术提供了一种非结构化数据的海量存储方法及存储系统,本专利技术先将用于存储海量数据的云存储空间按照非结构化数据的多种类型划分成多个分布式存储模块,再将分布式存储模块划分为若干个立体三维分布的子存储集群,从而本文档来自技高网...

【技术保护点】
1.一种非结构化数据的海量存储方法及存储系统,其特征在于,包括如下步骤:/n步骤100、将云存储空间划分为若干个用于存储不同文件类型的分布式存储模块;/n步骤200、利用空间模拟法将所述分布式存储模块划分为若干个子存储集群,设定数据流在所述子存储集群和网格存储位置中的存储方式;/n步骤300、在相邻两个所述子存储集群之间设置虚拟通道,架设前端数据源头与所述子存储集群之间匹配对应的传输通信链路;/n步骤400、将若干个相邻所述子存储集群组成一个存储实现单元,利用同一个存储实现单元的所述虚拟通道实现快速存储。/n

【技术特征摘要】
1.一种非结构化数据的海量存储方法及存储系统,其特征在于,包括如下步骤:
步骤100、将云存储空间划分为若干个用于存储不同文件类型的分布式存储模块;
步骤200、利用空间模拟法将所述分布式存储模块划分为若干个子存储集群,设定数据流在所述子存储集群和网格存储位置中的存储方式;
步骤300、在相邻两个所述子存储集群之间设置虚拟通道,架设前端数据源头与所述子存储集群之间匹配对应的传输通信链路;
步骤400、将若干个相邻所述子存储集群组成一个存储实现单元,利用同一个存储实现单元的所述虚拟通道实现快速存储。


2.根据权利要求1所述的一种非结构化数据的海量存储方法,其特征在于,在步骤200中,所述空间模拟法将所述分布式存储模块按照三维矩阵划分为若干个立体分布的所述子存储集群,同一个类型的数据流按序存储在不同立体位置的所述子存储集群内。


3.根据权利要求2所述的一种非结构化数据的海量存储方法,其特征在于,在步骤200中,根据所述子存储集群分布特征,设定数据流在所述子存储集群的存储方式的具体实现步骤为:
沿着立体分布的所述子存储集群的三个直角相交的棱边构建三维直角坐标系;
标记每个所述子存储集群在所述三维直角坐标系内的三维坐标;
具体设定数据流先顺次按照上下层的方式存储,然后在每层子存储集群按照先行后列的方式保存。


4.根据权利要求1所述的一种非结构化数据的海量存储方法,其特征在于,在步骤300中,所述虚拟通道设置在所述三维坐标系中同一层的所述子存储集群之间以及相邻的两层所述子存储集群之间,所述子存储集群整体通过所述虚拟通道实现数据贯通存储,所述虚拟通道将数据流在所述子存储集群沿着“S”形依次顺序保存。


5.根据权利要求1所述的一种非结构化数据的海量存储方法,其特征在于,在步骤400中,所述存储实现单元以其中一个所述子存储集群作为主存储对象,并将其他的所述子存储集群作为缓冲池。


6.根据权利要求5所述的一种非结构化数据的海量存储方法,其特征在于,在步骤400中,在同一个所述存储...

【专利技术属性】
技术研发人员:陈书平于长琦王绪繁陶俭陈竞翔姜志山王灿王玉宝
申请(专利权)人:华能集团技术创新中心有限公司华能信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1