【技术实现步骤摘要】
文本数据解析方法、系统及电子设备
[0001]本专利技术涉及数据解析
,尤其是涉及一种文本数据解析方法
、
系统及电子设备
。
技术介绍
[0002]随着互联网技术的发展,大数据环境下的信息数据量级也在逐渐上升,数据的存储方式和数据格式也日益多样,这提高了大数据治理的难度
。
数据的来源从传统关系型数据库
(MySql、Oracle)、FTP
系统
、
服务接口等,延伸至大规模并行处理数据库
(Greenplum、ClickHouse)、
数据仓库
(Hive、Hudi)、NoSQL
数据库
(HBase、Redis)、
分布式消息队列
(Kafka、RocketMQ)、
分布式文件系统
(HDFS、FastDFS)
等诸多系统,数据的存储形式多样,这会对数据解析造成不利影响
。
[0003]具体的说,对各类数据库数据来说,在体系规范下均对应着不同的数据结构定义及数据接口,实际场景中可通过相关程序实现数据库连接
、
数据探查和数据读取等处理,一般无需再做额外的数据解析工作
。
但对如
TXT、CSV、JSON、XML
等半结构化文本数据,在批量接入时可能面临数据来源多样化
、
数据结构差异化问题
。
现有技术中通常都只是针对特定的文本数据格式进行读取和解析,通俗的说是 ...
【技术保护点】
【技术特征摘要】
1.
一种文本数据解析方法,其特征在于,所述方法包括:获取待解析文本;根据所述待解析文本的文本类型构建所述待解析文本对应的数据连接器及解析策略,并利用所述数据连接器加载所述待解析文本;针对已完成加载的所述待解析文本,利用所述解析策略将所述待解析文本映射至已初始化的数据模型中,得到所述待解析文本对应的结构化数据;利用所述结构化数据确定所述待解析文本的解析结果
。2.
根据权利要求1所述的文本数据解析方法,其特征在于,所述根据所述待解析文本的文本类型构建所述待解析文本对应的数据连接器及解析策略,并利用所述数据连接器加载所述待解析文本的步骤,包括:利用所述待解析文本的文本类型确定所述待解析文本的连接参数
、
数据读取参数以及数据解析参数;根据所述连接参数和所述数据读取参数构建所述待解析文本对应的所述数据连接器,并根据所述数据解析参数确定所述待解析文本对应的所述解析策略;控制所述数据连接器按照所述文本类型加载所述待解析文本
。3.
根据权利要求2所述的文本数据解析方法,其特征在于,所述控制所述数据连接器按照所述文本类型加载所述待解析文本的步骤,包括:获取所述数据连接器下所述文本类型对应的数据加载接口;利用所述数据加载接口控制所述数据连接器将所述待解析文本以二进制流的方式进行加载
。4.
根据权利要求1所述的文本数据解析方法,其特征在于,所述针对已完成加载的所述待解析文本,利用所述解析策略将所述待解析文本映射至已初始化的数据模型中,得到所述待解析文本对应的结构化数据的步骤,包括:获取所述解析策略对应的解析策略参数,并利用所述数据解析参数确定所述待解析文本对应的模型映射参数;利用所述解析策略参数确定所述待解析文本的数据解析参数,并利用所述模型映射参数确定所述待解析文本的映射规则参数;其中,所述数据解析参数至少包括:数据起始行
、
编码格式
、
字段内容分隔符
、
解析粒度
、
循环解析路径
、
字段解析路径上述一种或多种;所述映射规则参数至少包括:映射方式参数
、
模型字段顺序映射参数
、
首行字段映射参数上述一种或多种;利用所述数据解析参数和映射规则参数将所述待解析文本映射至所述数据模型中,得到所述数据模型对应的所述结构化数据
。5.
根据权利要求4所述的文本数据解析方法,其特征在于,所述利用所述解析策略参数确定所述待解析文本的数据解析参数,并利用所述模型映射参数确定所述待解析文本的映射规则参数的步骤,包括:当所述待解析文本的文本类型为
CSV
或
EXCEL
时,利用所述解析策略参数确定所述待解析文本的所述编码格式和所述数据起始行,并将所述编码格式和所述数据起始行确定为所述待解析文本的所述数据解析参数;利用所述模型映射参数确定所述待解析文本的所述映射方式参数
、
所述模型字段顺序
映射参数和所述首行...
【专利技术属性】
技术研发人员:何源,曹文洁,万月亮,
申请(专利权)人:北京锐安科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。