一种海量文本数据处理方法及装置制造方法及图纸

技术编号:14642510 阅读:168 留言:0更新日期:2017-02-15 22:34
本发明专利技术实施例提供一种海量文本数据处理方法,包括:接收文本数据;根据预先配置的与所述文本数据对应的数据结构提取文本数据;将提取的文本数据以所述数据结构分块存储至对应的分区中;其中,每个分区对应一个或多个数据块。本发明专利技术实施例提供了一种简单、高效的海海量文本数据处理方法,可以批量处理海量的文本数据,提高资源利用率与数据处理效率。

【技术实现步骤摘要】

本专利技术实施例涉及计算机
,具体涉及一种海量文本数据处理方法及装置
技术介绍
在处理海量文本数据时,往往需要利用数据库对数据进行抽取、转换、加载(英文全称为Extract-Transform-Load,英文缩写为ETL)。ETL是一种将数据从数据源端经过抽取、转换、加载至目的端的技术可以方便用户从数据源中抽取出所需的数据,经过数据清洗,按照预先定义的格式,加载到目的数据库中。而后,将存储至数据库的数据进行加工处理后的结果数据存储至临时表中,再从临时表导出所述数据。在这一处理过程中,数据需要经过多次落地,流程冗余。此外文本数据需要先导入数据库,导致数据库资源紧张,当数据库中数据量大时程序的执行会消耗大量资源。因此,现有技术的文本数据处理方法存在资源利用率低、效率低的缺陷。
技术实现思路
本专利技术实施例提供了一种海量文本数据处理方法及装置,可以不利用数据库实现海量文本数据的存储、处理,提高资源利用率与数据处理效率。为此,本专利技术实施例提供如下技术方案:第一方面,本专利技术实施例提供了一种海量文本数据处理方法,包括:接收文本数据;根据预先配置的与所述文本数据对应的数据结构提取文本数据;将提取的文本数据以所述数据结构分块存储至对应的分区中;其中,每个分区对应一个或者多个数据块。可选地,所述根据预先配置的与所述文本数据对应的数据结构提取文本数据包括:获取与所述文本数据对应的配置文件,从所述配置文件中获取与所述文本数据对应的数据结构;根据所述数据结构信息从所述文本数据中提取与所述数据结构匹配的文本数据。可选地,所述将提取的文本数据以所述数据结构分块存储至对应的分区中包括:获取与所述文本数据对应的分区信息;根据所述分区信息将提取的所述文本数据以所述数据结构存储至对应的分区中。可选地,所述方法还包括:建立数据索引,所述数据索引保存有数据块与存储地址的对应关系。可选地,所述方法还包括:响应于数据查询请求,根据所述数据索引保存的数据库与存储地址的对应关系,获取与所述数据查询请求对应的数据。可选地,所述方法还包括:根据预先设定的输出条件,将存储在所述分区中的文本数据输出到指定文件中。可选地,所述方法还包括:针对具有同一数据结构的数据块进行排序处理,获取排序后的文本数据。第一方面,本专利技术实施例提供了一种海量文本数据处理装置,包括:接收模块,用于接收文本数据;提取模块,用于根据预先配置的与所述文本数据对应的数据结构提取文本数据;存储模块,用于将提取的文本数据以所述数据结构分块存储至对应的分区中;其中,每个分区对应一个或者多个数据块。可选地,所述提取模块具体用于:获取与所述文本数据对应的配置文件,从所述配置文件中获取与所述文本数据对应的数据结构;根据所述数据结构信息从所述文本数据中提取与所述数据结构匹配的文本数据。可选地,所述存储模块具体用于:获取与所述文本数据对应的分区信息;根据所述分区信息将提取的所述文本数据以所述数据结构存储至对应的分区中。可选地,所述装置还包括:索引建立模块,用于建立数据索引,所述数据索引保存有数据块与存储地址的对应关系。可选地,所述装置还包括:查询模块,用于响应于数据查询请求,根据所述数据索引保存的数据库与存储地址的对应关系,获取与所述数据查询请求对应的数据。可选地,所述装置还包括:输出模块,用于根据预先设定的输出条件,将存储在所述分区中的文本数据输出到指定文件中。可选地,所述装置还包括:排序模块,用于针对具有同一数据结构的数据块进行排序处理,获取排序后的文本数据.本专利技术实施例提供海量文本数据处理方法及装置,可以根据预先配置的、与接收的文本数据对应的数据结构提取文本数据,并将提取的文本数据以所述数据结构分块存储至对应的分区中。由此,不利用数据库也可实现海量文本数据的存储、处理,提高资源利用率与数据处理效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的海量文本数据处理方法流程图;图2为本专利技术实施例一个应用场景示意图;图3为本专利技术另一实施例提供的海量文本数据处理方法流程图;图4为本专利技术实施例对文本数据处理的示意图;图5为本专利技术实施例分区存储示意图;图6为本专利技术实施例数据排序示意图;图7为本专利技术实施例数据索引示意图;图8为本专利技术一实施例提供的海量文本数据处理装置示意图。具体实施方式本专利技术实施例提供了一种海量文本数据处理方法及装置,可以不利用数据库实现海量文本数据的存储、处理,提高资源利用率与数据处理效率。为了使本
的人员更好地理解本专利技术中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。下面将结合附图1至附图7对本专利技术示例性实施例示出的海量文本数据处理方法进行介绍。参见图1,为本专利技术一实施例提供的海量文本数据处理方法流程图。如图1所示,可以包括:S101,接收文本数据。接收数据发送端发送的文本数据。所述文本数据可以是压缩或者非压缩的结构化文件。若所述文本数据时压缩的结构化文件,可以先对所述文本数据进行解压和/或解密处理。S102,根据预先配置的与所述文本数据对应的数据结构提取文本数据。在一种可能的实现方式中,所述根据预先配置的与所述文本数据对应的数据结构提取文本数据包括:获取与所述文本数据对应的配置文件,从所述配置文件中获取与所述文本数据对应的数据结构;根据所述数据结构从所述文本数据中提取与所述数据结构匹配的文本数据。举例说明,由于接收的文本数据为结构化数据,因此可以根据需求规则预先定义存储所述文本数据的数据结构。其中,需求规则可以根据需要设定。例如,所述数据结构用于描述需要存储所述文本数据的列的名称、字段类型、数据长度等。为了方便理解,可以关系数据库中的数据表(以下简称表)来表示数据的数据结构。但不同于数据库中的表,本专利技术的“表”对数据没有约束,不需要加载至数据库中。具体实现时,可以预先对要接收的结构化文本数据进行列定义,例如文本数据的每一列对应的字段名称、表示的含义等。举例说明,可以预先根据源文本数据的配置信息对要接收的结构化文本数据进行列定义。其中,所述配置信息用来标识源文本数据(即接收的文本数据)中的数据字段的,应当能区分源文本数据中数据的位置。为了后续处理逻辑的使用方便,针对不同字段定义了列名。之后,可以根据所述列定义创建表以及相应的分区。需要特别说明的是,这里并不是要在数据库中建立实际的表和分区,而是需要维护能够表示数据的数据结构以及分块信息的文件。所述文件可以配置文件的形式而存在。进一步的,还可以包括创建的数据结构包含的列名称与文本数据列名称的对应关系等。在配置好数据结构后,即可以按照所述数据结构提取文本数据相应的数据。这样,即可以完成对接收的文本数据的筛选、过滤操作。S103,将提取的文本数据以所述数据结构本文档来自技高网
...
一种海量文本数据处理方法及装置

【技术保护点】
一种海量文本数据处理方法,其特征在于,包括:接收文本数据;根据预先配置的与所述文本数据对应的数据结构提取文本数据;将提取的文本数据以所述数据结构分块存储至对应的分区中;其中,每个分区对应一个或者多个数据块。

【技术特征摘要】
1.一种海量文本数据处理方法,其特征在于,包括:接收文本数据;根据预先配置的与所述文本数据对应的数据结构提取文本数据;将提取的文本数据以所述数据结构分块存储至对应的分区中;其中,每个分区对应一个或者多个数据块。2.根据权利要求1所述的方法,其特征在于,所述根据预先配置的与所述文本数据对应的数据结构提取文本数据包括:获取与所述文本数据对应的配置文件,从所述配置文件中获取与所述文本数据对应的数据结构;根据所述数据结构从所述文本数据中提取与所述数据结构匹配的文本数据。3.根据权利要求1或2所述的方法,其特征在于,所述将提取的文本数据以所述数据结构分块存储至对应的分区中包括:获取与所述文本数据对应的分区信息;根据所述分区信息将提取的所述文本数据以所述数据结构存储至对应的分区中。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:建立数据索引,所述数据索引保存有数据块与存储地址的对应关系。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:响应于数据查询请求,根据所述数据索引保存的数据库与存储地址的对应关系,获取与所述数据查询请求对应的数据。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据预先设定的输出条件,将存储在所述分区中的文本数据输出到指定文件中。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:针对具有同一数据结构的数据块进行排序处理,获取排序后的文本数据。8.一种海量文本数...

【专利技术属性】
技术研发人员:丁俊辉王宝义赵昱李庆云
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1