数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:30069501 阅读:10 留言:0更新日期:2021-09-18 08:21
本申请实施例公开了一种数据处理方法、装置、电子设备及存储介质。该方法包括:对待处理表格中的文本单元进行分类,得到待处理表格的各个键对应的文本单元,所得到的各个键对应的文本单元为第一文本单元;基于第一文本单元,得到存在主从关系的目标第一文本单元对;获取目标第一文本单元对包括的目标第一文本单元之间的主从关系,基于目标第一文本单元之间的主从关系,得到待处理表格对应的键结构化数据。该方法由于利用的是存在主从关系的目标第一文本单元对得到的键结构化数据,因此,得到的键结构化数据能够准确表达第一文本单元与第一文本单元之间的主从关系,从而提高了键结构化数据的准确性,进而提高了从表格中获得结构化数据的准确性。构化数据的准确性。构化数据的准确性。

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质


[0001]本申请涉及计算机
,更具体地,涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]结构化数据对于数据后期处理具有重要的作用。而表格作为一种常用的数据展示方式,其中包含有大量的数据信息,因此,从表格中获得结构化数据成为数据处理任务中的一个重要分支,但是,相关技术中,在从部分表格中获得结构化数据时,存在结构化数据获得不准确的问题。

技术实现思路

[0003]鉴于上述问题,本申请实施例提出了一种数据处理方法、装置、电子设备及存储介质,以改善上述问题。
[0004]第一方面,本申请实施例提供了一种数据处理方法,方法包括:对待处理表格中的文本单元进行分类,得到待处理表格的各个键对应的文本单元,所得到的各个键对应的文本单元为第一文本单元;基于第一文本单元,得到存在主从关系的目标第一文本单元对;获取每个目标第一文本单元对包括的目标第一文本单元之间的主从关系;基于每个目标第一文本单元对包括的目标第一文本单元之间的主从关系,得到待处理表格对应的键结构化数据,键结构化数据为表征第一文本单元与第一文本单元之间的主从关系的数据。
[0005]第二方面,本申请实施例提供了一种数据处理装置,装置包括:第一文本单元获取模块,用于对待处理表格中的文本单元进行分类,得到待处理表格的各个键对应的文本单元,所得到的各个键对应的文本单元为第一文本单元;目标第一文本单元对获得模块,用于基于第一文本单元,得到存在主从关系的目标第一文本单元对;主从关系获得模块,用于获取每个目标第一文本单元对包括的目标第一文本单元之间的主从关系;键结构化数据获得模块,用于基于每个目标第一文本单元对包括的目标第一文本单元之间的主从关系,得到待处理表格对应的键结构化数据,键结构化数据为表征第一文本单元与第一文本单元之间的主从关系的数据。
[0006]第三方面,本申请实施例提供了一种电子设备,包括处理器以及存储器;一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。
[0007]第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有程序代码,其中,在程序代码被处理器运行时执行上述的方法。
[0008]第五方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的方法。
[0009]本申请实施例提供的一种数据处理方法、装置、电子设备及存储介质,在对待处理
表格中的文本单元进行分类,得到待处理表格的各个第一文本单元之后,先基于第一文本单元,得到存在主从关系的目标第一文本单元对,再获取每个目标第一文本单元对包括的目标第一文本单元之间的主从关系,最后基于每个目标第一文本单元对包括的目标第一文本单元之间的主从关系,得到待处理表格对应的键结构化数据。由于利用的是存在主从关系的目标第一文本单元对得到的键结构化数据,因此,得到的键结构化数据能够准确表达第一文本单元与第一文本单元之间的主从关系,从而提高了键结构化数据的准确性,进而提高了从表格中获得结构化数据的准确性。
附图说明
[0010]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0011]图1示出了本申请一实施例提出的一种以Json形式存储的结构化数据的示意图;
[0012]图2a示出了本申请实施例中的一种边框缺省的简单表格的示意图;
[0013]图2b示出了本申请实施例中的一种分割线分割后的边框正常的表格的示意图;
[0014]图3a示出了本申请实施例中的一种边框缺省的复杂表格的示意图;
[0015]图3b示出了本申请实施例中的一种分割线错误分割后的复杂表格的示意图;
[0016]图3c示出了本申请实施例中的一种基于结构化数据进行边框补充后的边框完整表格的示意图;
[0017]图4示出了本申请实施例中的另一种边框缺省的复杂表格的示意图;
[0018]图5示出了本申请实施例中的一种数据处理方法的流程图;
[0019]图6示出了本申请实施例中的另一种待处理表格的示意图;
[0020]图7示出了本申请另一实施例提出的一种数据处理方法的流程图;
[0021]图8示出了从图3a所示的待处理表格中获取的部分第一文本单元对的示意图;
[0022]图9示出了图7所示实施例提出的一种数据处理方法中S230的一种实施方式的流程图;
[0023]图10示出了本实施例提出的一种第一文本单元对对应的特征向量示意图;
[0024]图11示出了图7所示实施例提出的一种数据处理方法中S230的另一种实施方式的流程图;
[0025]图12示出了本申请实施例提出的一种卷积神经网络的网络结构示意图;
[0026]图13示出了本申请实施例提出的一个边框完整的表格的示意图;
[0027]图14示出了从图13所示的表格中获取的样本第一文本单元对的示意图;
[0028]图15示出了本申请实施例提出的一种卷积神经网络的训练过程示意图;
[0029]图16所示为本申请另一实施例提出的一种数据处理方法的流程图;
[0030]图17示出了本申请实施例提出的一种数据处理方法的流程图;
[0031]图18示出了本申请一实施例提出的一种数据处理装置的框图;
[0032]图19示出了本申请又一实施例提出的一种数据处理装置的框图;
[0033]图20示出了用于执行根据本申请实施例的数据处理方法的另一种电子设备的结
构框图;
[0034]图21示出了本申请实施例的用于保存或者携带实现根据本申请实施例的数据处理方法的程序代码的存储单元。
具体实施方式
[0035]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0036]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:对待处理表格中的文本单元进行分类,得到所述待处理表格的各个键对应的文本单元,所得到的所述各个键对应的文本单元为第一文本单元;基于所述第一文本单元,得到存在主从关系的目标第一文本单元对;获取所述目标第一文本单元对包括的目标第一文本单元之间的主从关系;基于所述目标第一文本单元对包括的目标第一文本单元之间的主从关系,得到所述待处理表格对应的键结构化数据,所述键结构化数据为表征第一文本单元与第一文本单元之间的主从关系的数据。2.根据权利要求1所述的方法,其特征在于,基于所述第一文本单元,得到存在主从关系的目标第一文本单元对,包括:基于任意两个第一文本单元,得到至少一个第一文本单元对,每两个第一文本单元对应一个第一文本单元对;获取各个所述第一文本单元对各自对应的对类型;确定所述对类型为第一对类型的第一文本单元对为存在主从关系的目标第一文本单元对。3.根据权利要求2所述的方法,其特征在于,所述获取各个所述第一文本单元对各自对应的对类型,包括:获取各个所述第一文本单元对各自对应的特征向量;基于每个所述特征向量,得到对应的第一文本单元对的对类型。4.根据权利要求3所述的方法,其特征在于,所述获取各个所述第一文本单元对各自对应的特征向量,包括:通过分类模型的特征提取层,对每个所述第一文本单元对进行特征提取,得到每个所述第一文本单元对各自对应的特征向量;所述基于每个所述特征向量,得到对应的第一文本单元对的对类型,包括:通过所述分类模型的特征处理层,对每个所述第一文本单元对各自对应的特征向量进行处理,得到每个所述第一文本单元对各自对应的对类型。5.根据权利要求4所述的方法,其特征在于,所述分类模型是通过以下步骤得到的:获取携带对类型标签的样本第一文本单元对;基于所述样本第一文本单元对以及携带的对类型标签,对初始模型进行训练,得到所述分类模型。6.根据权利要求1所述的方法,其特征在于,所述基于每个所述目标第一文本单元对包括的目标第一文本单元之间的主从关系,得到所述待处理表格对应的键结构化数据,包括:基于每个所述目标第一文本单元对包括的目标第一文本单元之间的主从关系,对各个目标第一文本单元进行分级处理,得到所述待处理表格对应的键结构化数据。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述待处理表格对应的键值结构化数据,所述键值结构化数据为表征第一文本单元与第二文本单元之间的关联关系的数据,所述第二文本单元为所述待处理表格的各个值对应的文本单元;将所述键结构化数据以及所述键值结构化数据进行合并,得到所述待处理表格对应的
结构化数据。8.根据权利要求7所述的方法,其特征在于,所述待处理表格包括多个文本单元,每个文本单元具有各自对应的坐标属性,所述多个文本单元包括所述第一文本单元和所述...

【专利技术属性】
技术研发人员:朱龙军
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1