一种表格处理方法和系统技术方案

技术编号:33037239 阅读:12 留言:0更新日期:2022-04-15 09:15
本说明书实施例提供一种表格处理方法和系统。所述方法包括:获取待处理表格;基于表头检测模型对待处理表格进行处理,确定待处理表格的行表头和/或列表头;基于表头分类模型对行表头进行处理,确定待处理表格中列的分类结果,和/或基于表头分类模型对列表头进行处理,确定待处理表格中行的分类结果;基于待处理表格中列和/或行的分类结果对待处理表格进行抽取,确定第一抽取结果。确定第一抽取结果。确定第一抽取结果。

【技术实现步骤摘要】
一种表格处理方法和系统


[0001]本说明书涉及数据处理领域,特别涉及一种表格处理方法和系统。

技术介绍

[0002]表格可以以结构化方式存储各种信息(如公司的财务数据等)。用户可以通过一些限制条件或者自然语言描述查询条件等去抽取表格中用户需要的信息。但是,当存在多个或者大量表格时,通过上述方法用户无法短时间内精确定位需要的表格,且对表格内需要的信息进行抽取的效率也较低。
[0003]因此,希望提供一种表格处理方法和系统,能够准确地定位需要的表格,提高表格抽取的效率。

技术实现思路

[0004]本说明书实施例之一提供一种表格处理方法,所述表格处理方法包括:获取待处理表格;基于表头检测模型对所述待处理表格进行处理,确定所述待处理表格的行表头和/或列表头;基于表头分类模型对所述行表头进行处理,确定所述待处理表格中列的分类结果,和/或基于表头分类模型对所述列表头进行处理,确定所述待处理表格中行的分类结果;基于所述待处理表格中列和/或行的分类结果对所述待处理表格进行抽取,确定第一抽取结果。
[0005]本说明书实施例之一提供一种表格处理系统,所述表格处理系统包括:获取模块,用于获取待处理表格;第一确定模块,用于基于表头检测模型对所述待处理表格中至少一行和/或至少一列进行处理,确定所述待处理表格中的行表头和/或列表头;第二确定模块,用于基于表头分类模型对所述行表头进行处理,确定所述待处理表格中列的分类结果,和/或基于表头分类模型对所述列表头进行处理,确定所述待处理表格中行的分类结果;抽取模块,用于基于所述待处理表格中每一列和/或每一行分类结果对所述待处理表格进行抽取,确定第一抽取结果。
[0006]本说明书实施例之一提供一种表格处理装置,所述装置包括至少一个处理器以及至少一个存储器;所述至少一个存储器用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现如上述实施例中任意一项所述的表格处理方法。
[0007]本说明书实施例之一提供一种计算机可读存储介质,所述存储介质存储计算机指令,当所述计算机指令被处理器执行时实现如上述实施例中任意一项所述的表格处理方法。
附图说明
[0008]本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其
中:
[0009]图1是根据本说明书一些实施例所示的表格处理系统的示例性模块图;
[0010]图2是根据本说明书一些实施例所示的表格处理方法的示例性流程图;
[0011]图3A是根据本说明书一些实施例所示的待处理表格的示意图;
[0012]图3B是根据本说明书一些实施例所示的待处理表格的又一示意图;
[0013]图4是根据本说明书一些实施例所示的表格处理方法的又一示例性流程图;
[0014]图5是根据本说明书一些实施例所示的确定待处理表格的示例性流程图;
[0015]图6是根据本说明书一些实施例所示的检测行表头的示意图;
[0016]图7是根据本说明书一些实施例所示的检测列表头的示意图;
[0017]图8是根据本说明书一些实施例所示的确定列的分类结果的示意图;
[0018]图9是根据本说明书一些实施例所示的确定行的分类结果的示意图;
[0019]图10A是根据本说明书一些实施例所示的掩码矩阵的示意图;
[0020]图10B是根据本说明书一些实施例所示的掩码矩阵的又一示意图。
具体实施方式
[0021]为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
[0022]应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
[0023]如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
[0024]本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
[0025]图1是根据本说明书一些实施例所示的表格处理系统100的示例性模块图。
[0026]在一些实施例中,所述表格处理系统100可以包括获取模块110、第一确定模块120、第二确定模块130和抽取模块140。
[0027]获取模块可110以用于获取待处理表格。关于待处理表格的更多内容,参见图2及其相关说明,此处不再赘述。
[0028]第一确定模块120可以用于基于表头检测模型对待处理表格中至少一行和/或至少一列进行处理,确定待处理表格中的行表头和/或列表头。关于表头检测模型、行表头和列表头的更多内容参见图2及其相关描述,此处不再赘述。
[0029]第二确定模块130可以用于基于表头分类模型对行表头和/或列表头进行处理,确定待处理表格中每一列和/或每一行的分类结果。关于表头分类模型和分类结果的更多内容参见图2及其相关描述,此处不再赘述。
[0030]抽取模块140可以用于基于待处理表格中每一列和/或每一行分类结果对待处理表格进行抽取,确定第一抽取结果。关于第一抽取结果的更多内容参见图2及其相关描述,此处不再赘述。
[0031]在一些实施例中,表格处理系统100还可以包括第三确定模块150以及单元格抽取模块160。
[0032]第三确定模块150可以基于文本分类模型对所述待处理表格中单元格的词进行处理,确定所述待处理表格中单元格的词的类型。关于文本分类模型、单元格的词以及单元格的词的类型的更多内容参见图4及其相关描述,此处不再赘述。
[0033]单元格抽取模块160可以基于所述待处理表格中单元格的词的类型对所述待处理表格进行抽取,确定第二抽取结果。关于第二抽取结果的更多内容参见图4及其相关描述,此处不再赘述。
[0034]应当理解,图1所示的系统及其模块可以利用各种方式来实现。
[0035]需要注意的是,以上对于各模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格处理方法,其特征在于,所述方法包括:获取待处理表格;基于表头检测模型对所述待处理表格进行处理,确定所述待处理表格的行表头和/或列表头;基于表头分类模型对所述行表头进行处理,确定所述待处理表格中列的分类结果,和/或基于表头分类模型对所述列表头进行处理,确定所述待处理表格中行的分类结果;基于所述待处理表格中列和/或行的分类结果对所述待处理表格进行抽取,确定第一抽取结果。2.如权利要求1所述的方法,其特征在于,所述方法还包括:基于文本分类模型对所述待处理表格中单元格的文本进行处理,确定所述单元格的文本中词的类型;基于所述单元格的文本中词的类型对所述待处理表格进行抽取,确定第二抽取结果。3.如权利要求1所述的方法,其特征在于,所述获取待处理表格包括:获取初始表格及其标题;基于表格分类模型对所述初始表格及其标题中的文本进行处理,确定所述初始表格的分类结果;当所述初始表格的分类结果满足第一预设条件时,基于所述初始表格确定为所述待处理表格。4.如权利要求1所述的方法,其特征在于,所述表头检测模型包括行表头检测模型和列表头检测模型,所述基于表头检测模型对所述待处理表格进行处理,确定所述待处理表格的行表头和/或列表头包括:基于所述行表头检测模型对所述待处理表格中的行进行处理,确定所述待处理表格的所述行表头;和/或基于所述列表头检测模型对所述待处理表格中的列进行处理,确定所述待处理表格的所述列表头。5.如权利要求4所述的方法,所述基于所述行表头检测模型对所述待处理表格中的行进行处理,确定所述待处理表格的行表头,包括:基于行拼接规则,对所述待处理表格中行的单元格进行拼接,得到第一拼接结果;基于所述行表头检测模型对所述第一拼接结果进行处理,确定所述待处理表格的所述行表头;所述基于所述列表头检测模型,确定所述待处理表格的列表头,包括:基于列拼接规则,对所述待处理表格中的列的单元格进行拼接,得到第二拼接结果;基于所述列表头检测模型对所述第二拼接结果进行处理,确定所述待处理表格的所述列表头。6.如权利要求5所述的方法,其特征在于,所述表头检测模型包括依次连接的特征嵌入层、第一序列层、第一融合层、第二序列层和第一分类层,其中:所述特征嵌入层用于基于所述待处理表格中单元格的拼接结果,确定所述待处理表格中单元格的第一特征向量;所述第一序列层用于基于所述待处理表格中单元格的第一特征向量,确定所述待处理
表格中单元格的第二特征向量;所述第一融合层用于基于所述待处理表格中单元格的第二特征向量,确定所述待处理表格中行或列的第三特征向量;所述第二序列层用于基于所述待处理表格中行的第三特征向量,确定所述待处理表格中行的第四特征向量,或基于所述待处理表格中列的第三特征向量,确定所述待处理表格中列的第四特征向量;所述第一分类层用于基于所述待处理表格中行的第四特征向量,确定所述待处理表格的所述行表头,或基于所述待处理表格中列的第四特征向量,确定所述待处理表格的所述列表头。7.如权利要求6所述的方法,其特征在于,所述第一特征包括所述待处理表格中单元格的位置特征和文本特征。8.如权利要求1所述的方法,其特征在于,所述表头分类模型包括行表头分类模型和列表头分类模型,所述基于表头分类模型对所述行表头和/或所述列表头进行处理,...

【专利技术属性】
技术研发人员:徐阿龙陶志伟
申请(专利权)人:浙江核新同花顺网络信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1