基于大数据的数据入库方法、装置、存储介质和处理器制造方法及图纸

技术编号:24168634 阅读:21 留言:0更新日期:2020-05-16 02:14
本申请提供了一种基于大数据的数据入库方法、装置、存储介质和处理器,该方法包括:采用分布式列存储数据库与分布式检索引擎建立基础存储数据库,分布式列存储数据库用于存储原始数据,分布式检索引擎用于存储原始数据的索引信息;根据基础存储数据库中的数据存储结构和数据存储格式,构建数据表;使用配置库的方式动态管理数据表;基于数据表进行数据入库。该方法通过采用分布式列存储数据库与分布式检索引擎建立基础存储数据库,实现了数据的快速检索和较大的数据吞吐量,使用规范的数据存储结构和数据存储格式构建数据表,进而通过配置库的方式管理动态管理数据表,实现数据的快速入库。

【技术实现步骤摘要】
基于大数据的数据入库方法、装置、存储介质和处理器
本申请涉及大数据领域,具体而言,涉及一种基于大数据的数据入库方法、装置、存储介质和处理器。
技术介绍
现有的大数据环境下的分布式列存储数据库(Hbase)和分布式数据检索引擎(ElasticSearch)对数据表结构没有限制,导致无法规范化数据存储结构,且自动识别生成的数据类型不够准确,基本无法使用动态生成的存储表,二者协调工作时,数据在搜索引擎以及数据库中存在多份,浪费存储资源。在
技术介绍
部分中公开的以上信息只是用来加强对本文所描述技术的
技术介绍
的理解,因此,
技术介绍
中可能包含某些信息,这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。
技术实现思路
本申请的主要目的在于提供一种基于大数据的数据入库方法、装置、存储介质和处理器,以解决现有技术中数据入库效率较低的问题。为了实现上述目的,根据本申请的一个方面,提供了一种基于大数据的数据入库方法,包括:采用分布式列存储数据库与分布式检索引擎建立基础存储数据库,所述分布式列存储数据库用于存储原始数据,所述分布式检索引擎用于存储原始数据的索引信息;根据所述基础存储数据库中的数据存储结构和数据存储格式,构建数据表;使用配置库的方式动态管理所述数据表;基于所述数据表进行数据入库。进一步地,根据所述基础存储数据库中的数据存储结构和数据存储方式,构建数据表,包括:将所述基础存储数据库中的数据存储格式调整为预定数据存储格式;根据所述预定数据存储格式将所述基础存储数据库中的所述数据存储结构调整为预定数据存储结构;根据所述预定数据存储结构和所述预定数据存储格式,构建所述数据表。进一步地,根据所述预定数据存储格式将所述基础存储数据库中的所述数据存储结构调整为预定数据存储结构之前,根据所述基础存储数据库中的数据存储结构和数据存储方式,构建数据表,还包括:自动识别所述基础存储数据库中的所述预定数据存储格式。进一步地,使用配置库的方式动态管理所述数据表,包括:采用所述配置库的xml的插件化功能,动态管理所述数据表。进一步地,所述索引信息为所述原始数据的主键,所述主键是所述原始数据的唯一标识,所述主键由所述原始数据的生成日期、所述原始数据的编码值和所述原始数据的哈希值组成。进一步地,所述预定数据存储格式包括至少以下之一:时间格式、年龄格式、姓名格式。进一步地,所述数据存储结构包括至少以下之一:第一数据存储结构和第二数据存储结构,其中,所述第一数据存储结构为人的信息所对应的所述数据存储结构,所述第一数据存储结构由姓名信息、年龄信息以及籍贯信息组成,所述第二数据存储结构为公司的信息所对应的所述数据存储结构,所述第二数据存储结构由法人信息、公司位置信息以及公司年收入信息组成。根据本申请的另一方面,提供了一种基于大数据的数据入库装置,包括:建立单元,用于采用分布式列存储数据库与分布式检索引擎建立基础存储数据库,所述分布式列存储数据库用于存储原始数据,所述分布式检索引擎用于存储原始数据的索引信息;优化单元,用于根据所述基础存储数据库中的数据存储结构和数据存储格式,构建数据表;管理单元,用于使用配置库的方式动态管理所述数据表;入库单元,用于基于所述数据表进行数据入库。根据本申请的再一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行任意一种所述的入库方法。根据本申请的又一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任意一种所述的入库方法。应用本申请的技术方案,上述方法中,通过采用分布式列存储数据库与分布式检索引擎建立基础存储数据库,实现了数据的快速检索和较大的数据吞吐量,基础存储数据库中的数据存储结构和数据存储格式是在原有的数据存储结构和数据存储格式的基础上进行优化得到的,优化后的数据存储结构和数据存储格式更加规范,使用规范的数据存储结构和数据存储格式构建数据表,进而通过配置库的方式管理动态管理数据表,实现数据的快速入库。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1示出了根据本申请的一种实施例的基于大数据的数据入库方法的流程图;以及图2示出了根据本申请的一种实施例的基于大数据的数据入库装置的示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。应该理解的是,当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时,该元件可直接在该另一元件上,或者也可存在中间元件。而且,在说明书以及权利要求书中,当描述有元件“连接”至另一元件时,该元件可“直接连接”至该另一元件,或者通过第三元件“连接”至该另一元件。为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:Hbase:分布式列存储数据库,是一种分布式、面向列的开源数据库,Hbase不同于一般的数据库,它是一个适合于非结构化数据存储的数据库。ElasticSearch:分布式数据检索引擎,是一种基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,是一种流行的企业级搜索引擎。数据库主键:指的是一个列或多列的组合,其值能唯一地标识表中的每一行,通过它可强制表的实体完整性,主键主要是用与其他表的外键关联,以及本记录的修改和删除。数据表结构:数据表是由表名、表中的字段和表的记录三个部分组成的,设计数据表结构就是定义数据表文件名,确定数据表包含哪些字段,各字段的字段名、字段类型、及宽度,并将这些数据输入到计算机中。配置库:用于存放配置项并记录与配置项相关的所有信息,是配置管理的有力工具,利用库中的信息可回答许多配置管理的问题。根据本申请的实施例,提供了一种基于大数据的数据入库方法。图1是根据本申请的一种实施例的基于大数据的数据入库方法的流程图。如图1所示,该本文档来自技高网
...

【技术保护点】
1.一种基于大数据的数据入库方法,其特征在于,包括:/n采用分布式列存储数据库与分布式检索引擎建立基础存储数据库,所述分布式列存储数据库用于存储原始数据,所述分布式检索引擎用于存储原始数据的索引信息;/n根据所述基础存储数据库中的数据存储结构和数据存储格式,构建数据表;/n使用配置库的方式动态管理所述数据表;/n基于所述数据表进行数据入库。/n

【技术特征摘要】
1.一种基于大数据的数据入库方法,其特征在于,包括:
采用分布式列存储数据库与分布式检索引擎建立基础存储数据库,所述分布式列存储数据库用于存储原始数据,所述分布式检索引擎用于存储原始数据的索引信息;
根据所述基础存储数据库中的数据存储结构和数据存储格式,构建数据表;
使用配置库的方式动态管理所述数据表;
基于所述数据表进行数据入库。


2.根据权利要求1所述的入库方法,其特征在于,根据所述基础存储数据库中的数据存储结构和数据存储方式,构建数据表,包括:
将所述基础存储数据库中的数据存储格式调整为预定数据存储格式;
根据所述预定数据存储格式将所述基础存储数据库中的所述数据存储结构调整为预定数据存储结构;
根据所述预定数据存储结构和所述预定数据存储格式,构建所述数据表。


3.根据权利要求2所述的入库方法,其特征在于,根据所述预定数据存储格式将所述基础存储数据库中的所述数据存储结构调整为预定数据存储结构之前,根据所述基础存储数据库中的数据存储结构和数据存储方式,构建数据表,还包括:
自动识别所述基础存储数据库中的所述预定数据存储格式。


4.根据权利要求1所述的入库方法,其特征在于,使用配置库的方式动态管理所述数据表,包括:
采用所述配置库的xml的插件化功能,动态管理所述数据表。


5.根据权利要求1所述的入库方法,其特征在于,所述索引信息为所述原始数据的主键,所述主键是所述原始数据的唯一标识,...

【专利技术属性】
技术研发人员:张炎红贠瑞峰刘彬彬彭翔刘粉香贺喆
申请(专利权)人:智慧神州北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1