文档版面分析方法、模型训练方法、装置和设备制造方法及图纸

技术编号:30020365 阅读:10 留言:0更新日期:2021-09-11 06:39
本公开提供了一种文档版面分析方法、模型训练方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景下。文档版面分析方法包括:获取待处理文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;对它们进行特征融合,以获得融合特征;以及基于融合特征,确定与待处理文档图像包括的文本内容对应的文本位置信息和/或文本类型信息。利用上述方法,可以利用待处理文档图像的文本语义特征、文本图像特征和文本位置特征,针对待处理文档图像确定文本位置信息和/或文本类型信息,因此能够在复杂版面和复杂背景中提升版面分析的效果。提升版面分析的效果。提升版面分析的效果。

【技术实现步骤摘要】
文档版面分析方法、模型训练方法、装置和设备


[0001]本公开涉及人工智能
,具体为计算机视觉和深度学习
,可应用于智慧城市和智慧金融场景下,并且更具体地,涉及文档版面分析方法、模型训练方法、装置和设备。

技术介绍

[0002]文档版面分析技术是指对也可以被称为文档图像的、采取图像形式的文档中的内容进行结构化语义理解,从而使得可以预测出文档图像中的例如标题、段落、图表等文本内容的位置。文档版面分析技术可以被用于文档还原、文档录入、文档比对等任务,并且可以被广泛地应用于社会的各行各业,例如办公、教育、医疗、金融等领域,不仅可以极大地提升传统行业的智能化程度和生产效率,也可以方便人们的日常学习与生活。近年来,尽管文档版面分析技术得到了快速发展,但是依然存在很多问题。

技术实现思路

[0003]根据本公开的实施例,提供了一种文档版面分析方法、模型训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0004]在本公开的第一方面中,提供了一种文档版面分析方法,包括:获取待处理文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;对文本语义特征、文本图像特征和文本位置特征进行特征融合,以获得融合特征;以及基于融合特征,确定与待处理文档图像包括的文本内容对应的文本位置信息和/或文本类型信息。
[0005]在本公开的第二方面中,提供了一种模型训练方法,包括:获取训练文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;对文本语义特征、文本图像特征和文本位置特征进行特征融合,以获得融合特征;以及训练文档版面分析模型,以利用经训练的文档版面分析模型使得满足以下至少一项:基于融合特征所确定的至少一个文本位置信息和针对训练文档图像预先标注的至少一个标注文本位置信息相同的概率大于位置概率阈值,至少一个文本位置信息与文本内容所包括的至少一个部分对应;以及基于融合特征所确定的至少一个文本类型和针对训练文档图像预先标注的至少一个标注文本类型相同的概率大于类型概率阈值,至少一个文本类型与至少一个部分对应。
[0006]在本公开的第三方面中,提供了一种文档版面分析装置,包括:第一获取模块,被配置为获取待处理文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;第一特征融合模块,被配置为对文本语义特征、文本图像特征和文本位置特征进行特征融合,以获得融合特征;以及第一确定模块,被配置为基于融合特征,确定与待处理文档图像包括的文本内容对应的文本位置信息和/或文本类型信息。
[0007]在本公开的第四方面中,提供了一种模型训练装置,包括:第三获取模块,被配置为获取训练文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;第四特征融合模块,被配置为对文本语义特征、文本图像特征和文本位置特征进行特征融
合,以获得融合特征;以及模型训练模块,被配置为训练版面分析模型,以利用经训练的版面分析模型使得满足以下至少一项:基于融合特征所确定的至少一个文本位置信息和针对训练文档图像预先标注的至少一个标注文本位置信息相同的概率大于位置概率阈值,至少一个文本位置信息与文本内容所包括的至少一个部分对应;以及基于融合特征所确定的至少一个文本类型和针对训练文档图像预先标注的至少一个标注文本类型相同的概率大于类型概率阈值,至少一个文本类型与至少一个部分对应。
[0008]在本公开的第五方面中,提供了一种电子设备,包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够实现根据本公开的第一方面的方法。
[0009]在本公开的第六方面中,提供了一种电子设备,包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够实现根据本公开的第二方面的方法。
[0010]在本公开的第七方面中,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机实现根据本公开的第一方面的方法。
[0011]在本公开的第八方面中,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机实现根据本公开的第二方面的方法。
[0012]在本公开的第九方面中,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时,执行根据本公开的第一方面的方法。
[0013]在本公开的第十方面中,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时,执行根据本公开的第二方面的方法。
[0014]利用根据本申请的技术,提供了一种文档版面分析方法,利用该方法的技术方案,可以同时考虑待处理文档图像的文本语义特征、文本图像特征和文本位置特征,并且可以利用待处理文档图像的文本语义特征、文本图像特征和文本位置特征,针对待处理文档图像确定文本位置信息和/或文本类型信息,从而可以实现语义增强的文档版面分析。
[0015]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
[0016]通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中在本公开示例性实施例中,相同的参考标号通常代表相同部件。应当理解,附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0017]图1示出了可以在其中实现本公开的某些实施例中的文档版面分析方法的文档版面分析环境100的示意性框图;
[0018]图2示出了根据本公开实施例的文档版面分析方法200的流程图;
[0019]图3示出了根据本公开实施例的文档版面分析方法300的流程图;
[0020]图4示出了根据本公开实施例的文档版面分析方法400的示意图;
[0021]图5示出了根据本公开的实施例的文档版面分析装置500的示意性框图;以及
[0022]图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。
[0023]在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
[0024]下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0025]在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档版面分析方法,包括:获取待处理文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;对所述文本语义特征、所述文本图像特征和所述文本位置特征进行特征融合,以获得融合特征;以及基于所述融合特征,确定与所述待处理文档图像包括的所述文本内容对应的文本位置信息和/或文本类型信息。2.根据权利要求1所述的方法,其中所述文本内容包括多个行,并且获取所述文本语义特征包括:针对所述多个行中的每行中的多个字,生成与所述多个字相关联的、预设维度的多个语义向量;将所述多个语义向量按顺序级联,以生成针对该行的行文本语义特征;以及将针对所述多个行中的每行的行文本语义特征级联,以生成所述文本语义特征。3.根据权利要求2所述的方法,其中:所述文本图像特征包括所述预设维度的至少一个图像向量;并且所述文本位置特征包括所述预设维度的至少一个位置向量。4.根据权利要求1所述的方法,其中所述文本内容包括多个行,所述文本图像特征包括与所述多个行中的一行相关联的特定文本图像特征信息,并且获取所述文本图像特征包括:确定所述文本位置特征所包括的、与所述一行相关联的特定文本位置特征;获取所述待处理文档图像的图像特征;以及基于所述图像特征和所述特定文本位置特征来确定所述特定文本图像特征信息。5.根据权利要求1所述的方法,其中对所述文本语义特征、所述文本图像特征和所述文本位置特征进行所述特征融合包括:使用多层转换器堆叠网络进行所述特征融合。6.根据权利要求1所述的方法,其中所述文本图像特征包括多个文本图像特征信息,所述文本位置特征包括多个文本位置特征信息,并且对所述文本语义特征、所述文本图像特征和所述文本位置特征进行所述特征融合包括:对所述多个文本图像特征信息和所述多个文本位置特征信息中的对应的文本图像特征信息和文本位置特征信息求和,以获得多个信息和;将所述多个信息和按顺序级联,以获得文本图像位置特征;将所述文本语义特征和所述文本图像位置特征级联,以获得级联特征;以及对所述级联特征进行所述特征融合。7.根据权利要求1所述的方法,其中确定所述文本位置信息和/或所述文本类型信息包括:使用经训练的版面分析模型来确定所述文本位置信息和/或所述文本类型信息。8.一种模型训练方法,包括:获取训练文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;
对所述文本语义特征、所述文本图像特征和所述文本位置特征进行特征融合,以获得融合特征;以及训练版面分析模型,以利用经训练的所述版面分析模型使得满足以下至少一项:基于所述融合特征所确定的至少一个文本位置信息和针对所述训练文档图像预先标注的至少一个标注文本位置信息相同的概率大于位置概率阈值,所述至少一个文本位置信息与所述文本内容所包括的至少一个部分对应;以及基于所述融合特征所确定的至少一个文本类型和针对所述训练文档图像预先标注的至少一个标注文本类型相同的概率大于类型概率阈值,所述至少一个文本类型与所述至少一个部分对应。9.一种文档版面分析装置,包括:第一获取模块,被配置为获取待处理文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;第一特征融合模块,被配置为对所述文本语义特征、所述文本图像特征和所述文本位置特征进行特征融合,以获得融合特征;以及第一确定模块,被配置为基于所述融合特征,确定与所述待处理文档图像包括的所述文本内容对应的文本位置信息和/或文本类型信息。10.根据权利要求9所述的装置,其中所述文本内容包括多个行,并且所述第一获...

【专利技术属性】
技术研发人员:李煜林张晓强王鹏钦夏孟章成全姚锟韩钧宇刘经拓丁二锐吴甜王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1