版面分析方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:31487189 阅读:24 留言:0更新日期:2021-12-18 12:22
本申请涉及一种版面分析方法、装置、计算机设备和存储介质。方法包括:获取目标文本图像中每一文本行的空间转换特征、位置特征及图像特征;根据每一文本行的空间转换特征与位置特征,获取每一文本行的关系编码特征,将每一文本行的关系编码特征与每一文本行的图像特征进行拼接,得到每一文本行的融合特征;对每一文本行的融合特征进行解码,得到每一文本行的版面信息类型。由于同时结合了空间转换特征及图像特征对文本图像的内容进行理解,而不是单一基于一种特征,从而分析结果比较精准。另外,每一文本行在分析时均结合了图像特征及空间转换特征,在其中一项特征识别错误的情况下,另一项特征也能够作为分析依据,从而提高了版面分析的容错率。了版面分析的容错率。了版面分析的容错率。

【技术实现步骤摘要】
版面分析方法、装置、计算机设备和存储介质


[0001]本申请涉及文本及图像识别
,特别是涉及一种版面分析方法、装置、计算机设备和存储介质。

技术介绍

[0002]文本图像电子化是一种将文本图像中的文本信息提取为电子信息的技术,在如今高速发展的信息化时代下,文本图像电子化能够显著提高信息的传播和使用效率。传统的文本图像识别主要包括两个阶段:版面分析阶段和文本识别阶段;其中,版面分析阶段用于通过不同的策略和方法,分析文本中的各个文本单元(如普通文本中的段落及试卷文本中的试题等)的位置及其类别;文本识别阶段则识别各个文本单元所包含的文本,从而完成整篇文本的电子化。其中,版面分析阶段中,文本单元可以反映文本图像中字符和字符串的成组关系,从而支持文本识别阶段的语义分析功能。
[0003]近年来,随着神经网络技术在人工智能领域的大热,将神经网络应用于文本图像的版面分析技术也有了长足的发展。在相关技术中,主要是基于单一信息源获取版面分析结果,如仅从图像角度进行分析。由于信息源单一,从而造成分析结果不够精准。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高版面分析精准性的版面分析方法、装置、计算机设备和存储介质。
[0005]一种版面分析方法,该方法包括:
[0006]获取目标文本图像,并获取目标文本图像中每一文本行的空间转换特征、位置特征及图像特征,空间转换特征是对每一文本行的OCR解码特征进行空间特征转换得到的;
[0007]根据每一文本行的空间转换特征与位置特征,获取每一文本行的关系编码特征,将每一文本行的关系编码特征与每一文本行的图像特征进行拼接,得到每一文本行的融合特征;
[0008]对每一文本行的融合特征进行解码,得到每一文本行的版面信息类型。
[0009]在其中一个实施例中,根据每一文本行的空间转换特征与位置特征,获取每一文本行的关系编码特征,包括:
[0010]对于任一文本行,根据每一文本行的位置特征,获取该文本行与每一其它文本行之间的边向量;其中,其它文本行指的是目标文本图像中除该文本行之外的文本行,边向量用于表征该文本行与其它文本行之间的相对位置;
[0011]基于图卷积神经网络模型,对该文本行的空间转换特征、每一其它文本行的空间转换特征以及该文本行与每一其它文本行之间的边向量进行关系编码,得到该文本行的关系编码特征。
[0012]在其中一个实施例中,位置特征包括该文本行中的锚点在目标文本图像中的横坐标及纵坐标;相应地,边向量包括该文本行中锚点与其它文本行中锚点之间的横坐标差值
及纵坐标差值。
[0013]在其中一个实施例中,边向量还用于表征该文本行中字体与其它文本行中字体之间的相对大小;相应地,边向量还包括其它文本行的高度与该文本行的高度之间的比值。
[0014]在其中一个实施例中,边向量还包括其它文本行的宽度与该文本行的高度之间的比值以及该文本行的宽度与该文本行的高度之间的比值。
[0015]在其中一个实施例中,对每一文本行的融合特征进行解码,得到每一文本行的版面信息类型,包括:
[0016]基于目标文本图像中文本行的排布顺序,依次将每一文本行的融合特征输入至图解码器,输出每一文本行的版面信息类型;其中,图解码器是基于树状层级结构构建得到的,树状层级结构用于表征版面信息类型之间的从属层级关系。
[0017]在其中一个实施例中,依次将每一文本行的融合特征输入至图解码器,输出每一文本行的版面信息类型,包括:
[0018]对于任一文本行,若该文本行存在前一文本行,则将该文本行的融合特征及前一文本行的版面信息类型输入至图解码器,输出该文本行的版面信息类型。
[0019]在其中一个实施例中,对每一文本行的融合特征进行解码,得到每一文本行的版面信息类型之前,还包括:
[0020]获取目标文本图像中每一文本行的文本特征;
[0021]将每一文本行的文本特征与每一文本行的融合特征进行拼接,将拼接后得到的特征作为每一文本行的融合特征。
[0022]一种版面分析装置,该装置包括:
[0023]第一获取模块,用于获取目标文本图像,并获取目标文本图像中每一文本行的空间转换特征、位置特征及图像特征,空间转换特征是对每一文本行的OCR解码特征进行空间特征转换得到的;
[0024]第二获取模块,用于根据每一文本行的空间转换特征与位置特征,获取每一文本行的关系编码特征;
[0025]第一拼接模块,用于将每一文本行的关系编码特征与每一文本行的图像特征进行拼接,得到每一文本行的融合特征;
[0026]解码模块,用于对每一文本行的融合特征进行解码,得到每一文本行的版面信息类型。
[0027]一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
[0028]获取目标文本图像,并获取目标文本图像中每一文本行的空间转换特征、位置特征及图像特征,空间转换特征是对每一文本行的OCR解码特征进行空间特征转换得到的;
[0029]根据每一文本行的空间转换特征与位置特征,获取每一文本行的关系编码特征,将每一文本行的关系编码特征与每一文本行的图像特征进行拼接,得到每一文本行的融合特征;
[0030]对每一文本行的融合特征进行解码,得到每一文本行的版面信息类型。
[0031]一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0032]获取目标文本图像,并获取目标文本图像中每一文本行的空间转换特征、位置特征及图像特征,空间转换特征是对每一文本行的OCR解码特征进行空间特征转换得到的;
[0033]根据每一文本行的空间转换特征与位置特征,获取每一文本行的关系编码特征,将每一文本行的关系编码特征与每一文本行的图像特征进行拼接,得到每一文本行的融合特征;
[0034]对每一文本行的融合特征进行解码,得到每一文本行的版面信息类型。
[0035]上述版面分析方法、装置、计算机设备和存储介质,通过获取目标文本图像,并获取目标文本图像中每一文本行的空间转换特征、位置特征及图像特征。根据每一文本行的空间转换特征与位置特征,获取每一文本行的关系编码特征,将每一文本行的关系编码特征与每一文本行的图像特征进行拼接,得到每一文本行的融合特征。对每一文本行的融合特征进行解码,得到每一文本行的版面信息类型。由于同时结合了空间转换特征及图像特征对文本图像的内容进行理解,而不是单一片面的基于一种特征,从而分析结果比较精准。另外,每一文本行在分析时均结合了图像特征及与文本内容关联的空间转换特征,在其中一项特征识别错误的情况下,另外一项特征也能够作为分析依据,从而提高了版面分析的容错率。
附图说明
[0036]图1为一个实施例中电子合同的版面分析结果示意图;
[0037]图2为一个实施例中版面分析方法的应用场景示意图;...

【技术保护点】

【技术特征摘要】
1.一种版面分析方法,其特征在于,所述方法包括:获取目标文本图像,并获取所述目标文本图像中每一文本行的空间转换特征、位置特征及图像特征,所述空间转换特征是对每一文本行的OCR解码特征进行空间特征转换得到的;根据每一文本行的空间转换特征与位置特征,获取每一文本行的关系编码特征,将每一文本行的关系编码特征与每一文本行的图像特征进行拼接,得到每一文本行的融合特征;对每一文本行的融合特征进行解码,得到每一文本行的版面信息类型。2.根据权利要求1所述的方法,其特征在于,所述根据每一文本行的空间转换特征与位置特征,获取每一文本行的关系编码特征,包括:对于任一文本行,根据每一文本行的位置特征,获取所述任一文本行与每一其它文本行之间的边向量;其中,其它文本行指的是所述目标文本图像中除所述任一文本行之外的文本行,所述边向量用于表征所述任一文本行与其它文本行之间的相对位置;基于图卷积神经网络模型,对所述任一文本行的空间转换特征、每一其它文本行的空间转换特征以及所述任一文本行与每一其它文本行之间的边向量进行关系编码,得到所述任一文本行的关系编码特征。3.根据权利要求2所述的方法,其特征在于,所述位置特征包括所述任一文本行中的锚点在所述目标文本图像中的横坐标及纵坐标;相应地,所述边向量包括所述任一文本行中锚点与其它文本行中锚点之间的横坐标差值及纵坐标差值。4.根据权利要求3所述的方法,其特征在于,所述边向量还用于表征所述任一文本行中字体与其它文本行中字体之间的相对大小;相应地,所述边向量还包括其它文本行的高度与所述任一文本行的高度之间的比值。5.根据权利要求4所述的方法,其特征在于,所述边向量还包括其它文本行的宽度与所述任一文本行的高度之间的比值以及所述任一文本行的宽度与所述任一文本行的高度之间的比值。6.根据权利要求1所述的方法,其特征在于,所述对每一文本行的融合特征进行解码,得到每一文本行的...

【专利技术属性】
技术研发人员:宋时德胡加学张建树朱辉辉
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1