文本数据解析方法技术

技术编号:39842432 阅读:6 留言:0更新日期:2023-12-29 16:29
本发明专利技术提供了一种文本数据解析方法

【技术实现步骤摘要】
文本数据解析方法、系统及电子设备


[0001]本专利技术涉及数据解析
,尤其是涉及一种文本数据解析方法

系统及电子设备


技术介绍

[0002]随着互联网技术的发展,大数据环境下的信息数据量级也在逐渐上升,数据的存储方式和数据格式也日益多样,这提高了大数据治理的难度

数据的来源从传统关系型数据库
(MySql、Oracle)、FTP
系统

服务接口等,延伸至大规模并行处理数据库
(Greenplum、ClickHouse)、
数据仓库
(Hive、Hudi)、NoSQL
数据库
(HBase、Redis)、
分布式消息队列
(Kafka、RocketMQ)、
分布式文件系统
(HDFS、FastDFS)
等诸多系统,数据的存储形式多样,这会对数据解析造成不利影响

[0003]具体的说,对各类数据库数据来说,在体系规范下均对应着不同的数据结构定义及数据接口,实际场景中可通过相关程序实现数据库连接

数据探查和数据读取等处理,一般无需再做额外的数据解析工作

但对如
TXT、CSV、JSON、XML
等半结构化文本数据,在批量接入时可能面临数据来源多样化

数据结构差异化问题

现有技术中通常都只是针对特定的文本数据格式进行读取和解析,通俗的说是进行单一定制化处理

当接入来源或文本格式发生变化时,需要对处理过程进行调整适配,可复用性不强,耗时耗力


技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种文本数据解析方法

系统及电子设备,该方案可对不同来源和结构的文本数据进行统一读取和解析,以配置化的方式进行数据定义,利用数据源连接器的方式来解决多源的场景,并利用解析策略来解决异构的场景问题,最终将半结构化数据转化为结构化数据,提供给后续处理过程;该方法能够在接入来源或文本格式发生变化时实现适配过程,具有较高的复用性,能够解决现有技术中存在的上述问题

[0005]第一方面,本专利技术实施方式提供了一种文本数据解析方法,该方法包括:
[0006]获取待解析文本;
[0007]根据待解析文本的文本类型构建待解析文本对应的数据连接器及解析策略,并利用数据连接器加载待解析文本;
[0008]针对已完成加载的待解析文本,利用解析策略将待解析文本映射至已初始化的数据模型中,得到待解析文本对应的结构化数据;
[0009]利用结构化数据确定待解析文本的解析结果

[0010]在一种实施方式中,根据待解析文本的文本类型构建待解析文本对应的数据连接器及解析策略,并利用数据连接器加载待解析文本的步骤,包括:
[0011]利用待解析文本的文本类型确定待解析文本的连接参数

数据读取参数以及数据解析参数;
[0012]根据连接参数和数据读取参数构建待解析文本对应的数据连接器,并根据数据解析参数确定待解析文本对应的解析策略;
[0013]控制数据连接器按照文本类型加载待解析文本

[0014]在一种实施方式中,控制数据连接器按照文本类型加载待解析文本的步骤,包括:
[0015]获取数据连接器下文本类型对应的数据加载接口;
[0016]利用数据加载接口控制数据连接器将待解析文本以二进制流的方式进行加载

[0017]在一种实施方式中,针对已完成加载的待解析文本,利用解析策略将待解析文本映射至已初始化的数据模型中,得到待解析文本对应的结构化数据的步骤,包括:
[0018]获取解析策略对应的解析策略参数,并利用数据解析参数确定待解析文本对应的模型映射参数;
[0019]利用解析策略参数确定待解析文本的数据解析参数,并利用模型映射参数确定待解析文本的映射规则参数;其中,数据解析参数至少包括:数据起始行

编码格式

字段内容分隔符

解析粒度

循环解析路径

字段解析路径上述一种或多种;映射规则参数至少包括:映射方式参数

模型字段顺序映射参数

首行字段映射参数上述一种或多种;
[0020]利用数据解析参数和映射规则参数将待解析文本映射至数据模型中,得到数据模型对应的结构化数据

[0021]在一种实施方式中,利用解析策略参数确定待解析文本的数据解析参数,并利用模型映射参数确定待解析文本的映射规则参数的步骤,包括:
[0022]当待解析文本的文本类型为
CSV

EXCEL
时,利用解析策略参数确定待解析文本的编码格式和数据起始行,并将编码格式和数据起始行确定为待解析文本的数据解析参数;
[0023]利用模型映射参数确定待解析文本的映射方式参数

模型字段顺序映射参数和首行字段映射参数,并将映射方式参数

模型字段顺序映射参数和首行字段映射参数确定为待解析文本的映射规则参数

[0024]在一种实施方式中,利用解析策略参数确定待解析文本的数据解析参数,并利用模型映射参数确定待解析文本的映射规则参数的步骤,包括:
[0025]当待解析文本的文本类型为
TXT
时,利用解析策略参数确定待解析文本的编码格式

数据起始行和字段内容分隔符,并将编码格式

数据起始行和字段内容分隔符确定为待解析文本的数据解析参数;
[0026]利用模型映射参数确定待解析文本的映射方式参数

模型字段顺序映射参数和首行字段映射参数,并将映射方式参数

模型字段顺序映射参数和首行字段映射参数确定为待解析文本的映射规则参数

[0027]在一种实施方式中,利用解析策略参数确定待解析文本的数据解析参数,并利用模型映射参数确定待解析文本的映射规则参数的步骤,包括:
[0028]当待解析文本的文本类型为
JSON

XML
时,利用解析策略参数确定待解析文本的编码格式

解析粒度

循环解析路径和字段解析路径,并将编码格式

解析粒度

循环解析路径和字段解析路径确定为待解析文本的数据解析参数;
[0029]利用模型映射参数确定待解析文本的映射方式参数,并将映射方式参数确定为待解析文本的映射规则参数

[0030]在一种实施方式中,利用结构化数据确定待解析文本的解析结果的步骤,包括:
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本数据解析方法,其特征在于,所述方法包括:获取待解析文本;根据所述待解析文本的文本类型构建所述待解析文本对应的数据连接器及解析策略,并利用所述数据连接器加载所述待解析文本;针对已完成加载的所述待解析文本,利用所述解析策略将所述待解析文本映射至已初始化的数据模型中,得到所述待解析文本对应的结构化数据;利用所述结构化数据确定所述待解析文本的解析结果
。2.
根据权利要求1所述的文本数据解析方法,其特征在于,所述根据所述待解析文本的文本类型构建所述待解析文本对应的数据连接器及解析策略,并利用所述数据连接器加载所述待解析文本的步骤,包括:利用所述待解析文本的文本类型确定所述待解析文本的连接参数

数据读取参数以及数据解析参数;根据所述连接参数和所述数据读取参数构建所述待解析文本对应的所述数据连接器,并根据所述数据解析参数确定所述待解析文本对应的所述解析策略;控制所述数据连接器按照所述文本类型加载所述待解析文本
。3.
根据权利要求2所述的文本数据解析方法,其特征在于,所述控制所述数据连接器按照所述文本类型加载所述待解析文本的步骤,包括:获取所述数据连接器下所述文本类型对应的数据加载接口;利用所述数据加载接口控制所述数据连接器将所述待解析文本以二进制流的方式进行加载
。4.
根据权利要求1所述的文本数据解析方法,其特征在于,所述针对已完成加载的所述待解析文本,利用所述解析策略将所述待解析文本映射至已初始化的数据模型中,得到所述待解析文本对应的结构化数据的步骤,包括:获取所述解析策略对应的解析策略参数,并利用所述数据解析参数确定所述待解析文本对应的模型映射参数;利用所述解析策略参数确定所述待解析文本的数据解析参数,并利用所述模型映射参数确定所述待解析文本的映射规则参数;其中,所述数据解析参数至少包括:数据起始行

编码格式

字段内容分隔符

解析粒度

循环解析路径

字段解析路径上述一种或多种;所述映射规则参数至少包括:映射方式参数

模型字段顺序映射参数

首行字段映射参数上述一种或多种;利用所述数据解析参数和映射规则参数将所述待解析文本映射至所述数据模型中,得到所述数据模型对应的所述结构化数据
。5.
根据权利要求4所述的文本数据解析方法,其特征在于,所述利用所述解析策略参数确定所述待解析文本的数据解析参数,并利用所述模型映射参数确定所述待解析文本的映射规则参数的步骤,包括:当所述待解析文本的文本类型为
CSV

EXCEL
时,利用所述解析策略参数确定所述待解析文本的所述编码格式和所述数据起始行,并将所述编码格式和所述数据起始行确定为所述待解析文本的所述数据解析参数;利用所述模型映射参数确定所述待解析文本的所述映射方式参数

所述模型字段顺序
映射参数和所述首行...

【专利技术属性】
技术研发人员:何源曹文洁万月亮
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1