一种表格解析方法、装置以及设备制造方法及图纸

技术编号:37046165 阅读:20 留言:0更新日期:2023-03-29 19:24
本说明书实施例公开了一种表格解析方法、装置以及设备。方案包括:根据待解析表格中各单元格分别对应的列号和行号,将所述待解析表格适配至二维坐标系中,得到坐标化表格;确定所述坐标化表格中指定行的行坐标范围,并在所述指定行的行坐标范围内,查找所述坐标化表格中对应列的列坐标;根据所述坐标化表格中所述查找成功的对应列是否只有两个,在所述坐标化表格中识别包含键的单元格;根据识别出的所述包含键的单元格,确定并输出所述待解析表格中的键和对应的值。的键和对应的值。的键和对应的值。

【技术实现步骤摘要】
一种表格解析方法、装置以及设备


[0001]本说明书涉及文档处理
,尤其涉及一种表格解析方法、装置以及设备。

技术介绍

[0002]在金融及法务等领域,有大量文档中应用到了表格,比如,发票中会利用表格表述购买方名称、购买商品金额及税率、税额;商品交易类合同中会利用表格表述交易的商品名称、数量、税率、总金额等信息;财报中会通过表格识别来分析公司风险等。
[0003]在最近几年内,大多是基于语义分割、注意力、图模型、序列分割等实现方案,将文档中原本不标准的表述规范化为系统中的表格,但是,缺少对于表格内的内容的分析和整体建模。

技术实现思路

[0004]本说明书一个或多个实施例提供一种表格解析方法、装置、设备以及存储介质,用以解决如下技术问题:目前缺少对于表格内的内容的分析和整体建模。
[0005]为解决上述技术问题,本说明书一个或多个实施例是这样实现的:
[0006]本说明书一个或多个实施例提供的一种表格解析方法,包括:
[0007]根据待解析表格中各单元格分别对应的列号和行号,将所述待解析表格本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种表格解析方法,包括:根据待解析表格中各单元格分别对应的列号和行号,将所述待解析表格适配至二维坐标系中,得到坐标化表格;确定所述坐标化表格中指定行的行坐标范围,并在所述指定行的行坐标范围内,查找所述坐标化表格中对应列的列坐标;根据所述坐标化表格中所述查找成功的对应列是否只有两个,在所述坐标化表格中识别包含键的单元格;根据识别出的所述包含键的单元格,确定并输出所述待解析表格中的键和对应的值。2.如权利要求1所述的方法,所述根据待解析表格中各单元格分别对应的行号和列号,将所述待解析表格适配至二维坐标系中,得到坐标化表格,具体包括:确定待解析表格中各单元格分别的起始列号、结束列号、起始行号和结束行号;将各所述单元格的起始列号和结束列号,相应地映射至二维坐标系的X轴上;将各所述单元格的起始行号和结束行号,相应地映射至所述二维坐标系的Y轴上;根据各所述单元格映射后的坐标对,得到坐标化表格。3.如权利要求2所述的方法,各所述单元格对应的起始列号和结束列号,被映射为所述X轴上的一个列坐标对,各所述单元格对应的起始行号和结束行号,被映射为所述Y轴上的一个行坐标对,所述列坐标对与所述行坐标对相关联以表示对应的单元格;所述在所述指定行的行坐标范围内,查找所述坐标化表格中对应列的列坐标,具体包括:确定所述指定行对应的行坐标对;查找与所述对应的行坐标对相关联的不同的所述列坐标对,每个不同的所述列坐标对分别表示所述指定行的一个对应列。4.如权利要求1所述的方法,所述确定所述坐标化表格中指定行的行坐标范围,具体包括:确定所述坐标化表格中首行的行坐标范围;所述根据所述坐标化表格中所述查找成功的对应列是否只有两个,在所述坐标化表格中识别包含键的单元格,具体包括:对于所述首行,若所述坐标化表格中所述查找成功的对应列并非只有两个,则将所述首行中的全部单元格识别为包含键的单元格。5.如权利要求4所述的方法,所述根据识别出的所述包含键的单元格,确定所述待解析表格中的键和对应的值,具体包括:若将所述首行中的全部单元格识别为包含键的单元格,则将所述首行对应的第二行或从所述第二行开始的连续多行中的全部单元格,识别为包含值的单元格。6.如权利要求4所述的方法,所述将所述首行中的全部单元格识别为包含键的单元格之后,所述方法还包括:继续针对所述首行下面的其他行进行所述查找;对于一个所述其他行,若所述坐标化表格中所述查找成功的列只有两个,则将所述一个所述其他行中的首个单元格识别为包含键的单元格,将所述一个所述其他行中的第二个单元格识别为包含值的单元格。
7.如权利要求4所述的方法,所述根据所述坐标化表格中所述匹配成功的列是否只有两个,在所述坐标化表格中识别包含键的单元格,具体包括:对于所述首行,若所述坐标化表格中所述查找成功的列只有两个,则将所述首行中的首个单元格识别为包含键的单元格,则将所述首行中的第二个单元格识别为包含值的单元格。8.如权利要求4~7任一项所述的方法,所述根据所述坐标化表格中所述查找成功的对应列是否只有两个,在所述坐标化表格中识别包含键的单元格,具体包括:判断所述坐标化表格中所述查找成功的列是否只有两个,若是,则确定所述指定行处于纵表中,否则,确定所述指定行处于横表中;根据所述指定行处于纵表或横表的判断结果,相应地在所述坐标化表格中识别包含键的单元格。9.一种表格解析装置,包括:表格坐标化模块,根据待解析表格中各单元格分别对应的列号和行号,将所述待解析表格...

【专利技术属性】
技术研发人员:陈亚莉
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1