数据处理方法、装置、终端设备及计算机可读存储介质制造方法及图纸

技术编号:37554773 阅读:14 留言:0更新日期:2023-05-15 07:39
本申请适用于数据处理技术领域,提供了一种数据处理方法、装置、终端设备及计算机可读存储介质,包括:获取待处理的半结构化数据;根据训练后的识别模型识别所述半结构化数据的数据类型;根据所述识别类型生成建表语句;根据所述建表语句在预设数据库中建表,获得数据库表;将所述半结构化数据导入所述数据库表。本申请采用机器学习对半结构化表格数据解析处理,适用于所有种类的表格数据,通用性较强,且大大增加表格数据的处理效率。且大大增加表格数据的处理效率。且大大增加表格数据的处理效率。

【技术实现步骤摘要】
数据处理方法、装置、终端设备及计算机可读存储介质


[0001]本申请属于数据处理
,尤其涉及一种数据处理方法、装置、终端及计算机可读存储介质。

技术介绍

[0002]信息时代带来了海量的数据文件,其中包括结构化数据、半结构化数据和非结构化数据,半结构化的数据文件包括政府和企业核心数据资产,具有较高应用价值,因此解析与管理这些半结构化数据成为亟待解决的技术问题。
[0003]但是传统技术仅能对结构化数据进行处理分析,无法直接对半结构化数据和非结构化数据进行处理,或对于表格数据的解析效率较低,无针对性优化,开发工作量大,流程较复杂,且不支持EXCEL等表格数据,泛用性较差。

技术实现思路

[0004]本申请实施例提供了一种数据数理方法、装置、终端设备及计算机可读存储介质,可以实现对各类半结构化表格数据的自动解析入库问题。
[0005]第一方面,本申请实施例提供了一种数据处理方法,包括:
[0006]获取待处理的半结构化数据;
[0007]根据训练后的识别模型识别所述半结构化数据的数据类型;
[0008]根据所述识别类型生成建表语句;
[0009]根据所述建表语句在预设数据库中建表,获得数据库表;
[0010]将所述半结构化数据导入所述数据库表。
[0011]本申请实施例中,根据训练后的识别模型识别半结构化数据的数据类型,并根据识别类型生成建表语句,将建表语句在预设数据库中建表获得数据库表,最后将半结构化数据导入数据库表,换言之,半结构化数据到结构化数据的转变前期是利用机器学习训练的识别模型对数据进行快速识别并分类,通过上述方法,无需在对半结构化数据处理过程中开发大量组件,只需要利用识别模型对数据进行识别处理,再根据识别信息完成半结构化数据到结构化数据的其它转化工作,此方法简化复杂流程从而提高了半结构化数据的处理过程,更高效地实现对各类半结构化数据的自动解析入库。
[0012]在第一方面的一种可能的实现方式中,所述数据处理方法还包括:
[0013]获取样本数据,所述样本数据为半结构化的数据;
[0014]根据所述特征信息训练所述识别模型,获得训练后的所述识别模型。
[0015]在第一方面的一种可能的实现方式中,所述获取样本数据包括:
[0016]获取待训练的原始数据;
[0017]根据预设的特征属性提取所述原始数据中的特征信息,获得所述样本数据。
[0018]在第一方面的一种可能的实现方式中,所述根据所述数据类型生成建表语句,包括:
[0019]获取所述数据类型对应的预设模板;
[0020]根据所述预设模板提取所述半结构化数据中的属性信息;
[0021]根据所述属性信息拼接生成所述建表语句。
[0022]在第一方面的一种可能的实现方式中,所述根据所述属性信息拼接生成所述建表语句,包括:
[0023]将所述属性信息转换为预设格式的转换数据,所述预设格式与所述预设数据库相匹配;
[0024]根据所述转换数据拼接生成所述建表语句。
[0025]在第一方面的一种可能的实现方式中,所述将所述半结构化数据导入所述数据库表,包括:
[0026]若所述半结构化数据的数据类型为第一类型,则根据预设脚本将所述半结构化数据导入所述数据库表;
[0027]若所述半结构化数据的数据类型为第二类型,则利用预设引擎将所述半结构化数据导入所述数据库表,其中,第二类型数据的数据结构比所述第一类型数据的数据结构复杂。
[0028]在第一方面的一种可能的实现方式中,所述半结构化数据的数据格式包括:普通格式、多行表头格式、交叉表格式、多行数据融合格式等任意一种格式;
[0029]第二方面,本申请实施例提供了一种数据处理装置,包括:
[0030]获取单元,获取待处理的半结构化数据;
[0031]识别单元,根据训练后的识别模型识别所述半结构化数据的数据类型;
[0032]生成单元,根据所述识别类型生成建表语句;
[0033]建表单元,根据所述建表语句在预设数据库中建表,获得数据库表;
[0034]导入单元,将所述半结构化数据导入所述数据库表。
[0035]第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现上述任一种数据处理方法的步骤。
[0036]第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,上述的计算机程序被处理器执行时实现上述任一种数据处理方法的步骤。
[0037]第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的数据处理方法。
[0038]可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
[0039]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0040]图1是本申请一实施例提供的数据处理方法的系统示意图;
[0041]图2是本申请一实施例提供的建表语句生成流程示意图;
[0042]图3是本申请一实施例提供的数据处理装置结构图;
[0043]图4是本申请实施例提供的终端设备的结构示意图。
具体实施方式
[0044]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0045]应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0046]还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0047]如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0048]另外,在本申本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待处理的半结构化数据;根据训练后的识别模型识别所述半结构化数据的数据类型;根据所述识别类型生成建表语句;根据所述建表语句在预设数据库中建表,获得数据库表;将所述半结构化数据导入所述数据库表。2.如权利要求1所述的数据处理方法,其特征在于,所述方法还包括:获取样本数据,所述样本数据为半结构化的数据;根据所述特征信息训练所述识别模型,获得训练后的所述识别模型。3.如权利要求2所述的数据处理方法,其特征在于,所述获取样本数据包括:获取待训练的原始数据;根据预设的特征属性提取所述原始数据中的特征信息,获得所述样本数据。4.如权利要求1所述的数据处理方法,其特征在于,所述根据所述数据类型生成建表语句,包括:获取所述数据类型对应的预设模板;根据所述预设模板提取所述半结构化数据中的属性信息;根据所述属性信息拼接生成所述建表语句。5.如权利要求4所述的数据处理方法,其特征在于,所述根据所述属性信息拼接生成所述建表语句,包括:将所述属性信息转换为预设格式的转换数据,所述预设格式与所述预设数据库相匹配;根据所述转换数据拼接生成所述建表语句。6.如权利要求1所述的数据处理方法,其特征在于,所述将所述半结构化数据导入所述...

【专利技术属性】
技术研发人员:郑凯匀吴丽卿李振宇周枢湘邱湘鹏
申请(专利权)人:深圳太极数智技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1