System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 表单信息识别方法、装置、电子设备、芯片及介质制造方法及图纸_技高网

表单信息识别方法、装置、电子设备、芯片及介质制造方法及图纸

技术编号:40503693 阅读:7 留言:0更新日期:2024-03-01 13:17
本公开提供一种表单信息识别方法、装置、电子设备、芯片及介质,涉及计算机技术领域,该方法包括:对表单信息进行编码,提取表单信息中的行列特征,表单信息是通过表单进行解析得到的,行列特征包括行特征和列特征;基于行特征和列特征,分别确定行特征之间的行关联信息和列特征之间的列关联信息;基于行关联信息和列关联信息,筛选表单信息,并按照读取方向识别行特征或列特征中的属性特征;根据属性特征,获取筛选后的表单信息对应的识别结果,识别结果包括筛选后的表单信息中多个属性特征和多个属性特征对应的多个属性值之间的映射关系,通过考虑行列之间的关联关系对表单信息进行识别,提高整体表单信息的识别效率和识别准确率。

【技术实现步骤摘要】

本公开涉及计算机,尤其涉及一种表单信息识别方法、装置、电子设备、芯片及介质


技术介绍

1、表单作为最常见、最重要的数据展示形式,其包含的信息非常丰富,常见的表单信息介质包括了excel、word/pdf中的表单等。常见的表单解析方式通过将表单单元中的位置、内容进行全量编码,将表单解析问题转换为端到端的的阅读理解问题,实现表单中信息的提取。

2、但是,常见的表单解析方式需要预设问题,影响识别效率,同时采用阅读理解的模式进行表单信息识别,识别的准确率较低。


技术实现思路

1、本公开提供一种表单信息识别方法、装置、电子设备、芯片及介质,以解决相关技术中的问题,通过考虑行列之间的关联关系对表单信息进行识别,提高整体表单信息的识别效率和识别准确率。

2、本公开的第一方面实施例提出了一种表单信息识别方法,该方法包括:对表单信息进行编码,提取表单信息中的行列特征,表单信息是通过表单进行解析得到的,行列特征包括行特征和列特征;基于行特征和列特征,分别确定行特征之间的行关联信息和列特征之间的列关联信息;基于行关联信息和列关联信息,筛选表单信息,并按照读取方向识别行特征或列特征中的属性特征;根据属性特征,获取筛选后的表单信息对应的识别结果,识别结果包括筛选后的表单信息中多个属性特征和多个属性特征对应的多个属性值之间的映射关系。

3、在本公开的一些实施例中,对表单信息进行编码,提取表单信息中的行列特征包括:将表单中同一列或同一行的表单信息进行合并,得到每行和/或每列对应的表单信息;对每行和/或每列对应的表单信息进行编码,获取每行和/或每列对应的行特征或列特征。

4、在本公开的一些实施例中,基于行特征和列特征,分别确定行特征之间的行关联信息和列特征之间的列关联信息包括:分别将行特征和所述列特征对应的特征数据进行合并,获取合并特征,特征数据包括坐标特征和类型特征,坐标特征和类型特征是根据表单的内容坐标信息和表单类型得到的,坐标信息和表单类型是通过对表单解析得到的;对合并特征进行编码,获取每行和每列对应的合并特征数据;基于合并特征数据,确定行关联信息和列关联信息,行关联信息包括行分布信息和行相似信息,列关联信息包括列分布信息和列相似信息。

5、在本公开的一些实施例中,基于行关联信息和列关联信息,筛选表单信息,并按照读取方向识别行特征或列特征中的属性特征包括:根据行分布信息和列分布信息,确定表单信息对应的读取方向,读取方向包括行读取和列读取;根据行相似信息和列相似信息中的相似值大于或等于预设阈值的行特征或列特征删除,对表单信息进行筛选,以获取筛选后的表单信息;依次按照读取方向对筛选后的表单信息进行识别,获取筛选后的表单信息中的属性特征。

6、在本公开的一些实施例中,根据属性特征,获取筛选后的表单信息对应的识别结果包括:对属性特征进行编码,获取属性特征数据;基于属性特征数据以及预设属性标注方式,获取属性特征对应的属性值;根据属性特征和属性值,获取筛选后的表单信息中表单识别信息的识别结果。

7、在本公开的一些实施例中,对表单信息进行编码,提取表单信息中的行列特征,之前包括:确定表单的表单类型;根据表单类型选取对应的表单解析方法,对表单进行解析,获取表单信息,表单信息包括内容信息和内容坐标信息。

8、在本公开的一些实施例中,根据属性特征,获取筛选后的表单信息对应的识别结果,之后包括:根据表单信息的内容大小,若识别结果的大小小于表单信息的内容大小,则依据表单信息对识别结果进行补充处理,获取表单信息对应的全量识别结果。

9、本公开的第二方面实施例提出了一种表单信息识别装置,该装置包括:提取单元,用于对表单信息进行编码,提取表单信息中的行列特征,表单信息是通过表单进行解析得到的,行列特征包括行特征和列特征;确定单元,用于基于行特征和列特征,分别确定行特征之间的行关联信息和列特征之间的列关联信息;识别单元,用于基于行关联信息和列关联信息,筛选表单信息,并按照读取方向识别行特征或列特征中的属性特征;获取单元,用于根据属性特征,获取筛选后的表单信息对应的识别结果,识别结果包括筛选后的表单信息中多个属性特征和多个属性特征对应的多个属性值之间的映射关系。

10、本公开的第三方面实施例提出了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,处理器用于运行计算机程序时,执行本公开第一方面实施例中描述的方法。

11、本公开的第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开第一方面实施例中描述的方法。

12、本公开的第五方面实施例提出了一种芯片,该芯片包括一个或多个接口电路和一个或多个处理器;接口电路用于从电子设备的存储器接收信号,并向处理器发送信号,信号包括存储器中存储的计算机指令,当处理器执行计算机指令时,使得电子设备执行本公开第一方面实施例中描述的方法。

13、综上,根据本公开提出的表单信息识别方法,对表单信息进行编码,提取表单信息中的行列特征,表单信息是通过表单进行解析得到的,行列特征包括行特征和列特征;基于行特征和列特征,分别确定行特征之间的行关联信息和列特征之间的列关联信息;基于行关联信息和列关联信息,筛选表单信息,并按照读取方向识别行特征或列特征中的属性特征;根据属性特征,获取筛选后的表单信息对应的识别结果,识别结果包括筛选后的表单信息中多个属性特征和多个属性特征对应的多个属性值之间的映射关系,通过考虑行列之间的关联关系对表单信息进行识别,提高整体表单信息的识别效率和识别准确率。

14、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

本文档来自技高网...

【技术保护点】

1.一种表单信息识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对表单信息进行编码,提取所述表单信息中的行列特征包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述行特征和所述列特征,分别确定所述行特征之间的行关联信息和所述列特征之间的列关联信息包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述行关联信息和所述列关联信息,筛选所述表单信息,并按照读取方向识别所述行特征或所述列特征中的属性特征包括:

5.根据权利要求4中所述的方法,其特征在于,所述根据所述属性特征,获取所述筛选后的表单信息对应的识别结果包括:

6.根据权利要求1中所述的方法,其特征在于,所述对表单信息进行编码,提取所述表单信息中的行列特征,之前包括:

7.根据权利要求1中所述的方法,其特征在于,所述根据所述属性特征,获取所述筛选后的表单信息对应的识别结果,之后包括:

8.一种表单信息识别装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,

10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

11.一种芯片,其特征在于,包括一个或多个接口电路和一个或多个处理器;所述接口电路用于从电子设备的存储器接收信号,并向所述处理器发送所述信号,所述信号包括存储器中存储的计算机指令,当所述处理器执行所述计算机指令时,使得所述电子设备执行权利要求1-7中任一项所述的方法。

...

【技术特征摘要】

1.一种表单信息识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对表单信息进行编码,提取所述表单信息中的行列特征包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述行特征和所述列特征,分别确定所述行特征之间的行关联信息和所述列特征之间的列关联信息包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述行关联信息和所述列关联信息,筛选所述表单信息,并按照读取方向识别所述行特征或所述列特征中的属性特征包括:

5.根据权利要求4中所述的方法,其特征在于,所述根据所述属性特征,获取所述筛选后的表单信息对应的识别结果包括:

6.根据权利要求1中所述的方法,其特征在于,所述对表单信息进行编码,提取所述表单信息中的行列特征,之前包括...

【专利技术属性】
技术研发人员:杨希陈谌闫伟初光磊
申请(专利权)人:中移苏州软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1