一种文档版面的识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:31812136 阅读:21 留言:0更新日期:2022-01-08 11:15
本发明专利技术实施例提供了一种文档版面识别方法、装置、电子设备及存储介质,所述方法包括:获取待识别文档,提取待识别文档的视觉特征和语义特征,其中,视觉特征标识待识别文档对应的图像整体排版上的视觉特点,语义特征至少包括字符级别的特征和文本行级别的特征,将图像特征与语义特征进行融合,得到多模态文档特征,基于多模态文档特征,识别得到待识别文档中各元素的元素位置和类别。字符级别的语义特征能提取嵌入在文本中的公式等文本级别元素,视觉特征能够识别图等视觉性元素,进而便可以通过多模态文档特征得到包括图等视觉特征的元素,以及公式等文本行内字符级别的元素,使文档版面的识别结果更加全面,大大提高文档版面识别结果的准确性。面识别结果的准确性。面识别结果的准确性。

【技术实现步骤摘要】
一种文档版面的识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及文档处理
,特别是涉及一种文档版面的识别方法、装置、电子设备及存储介质。

技术介绍

[0002]文档版面分析是指对文档进行分析识别,进而得到该文档中包括的元素的位置和类别,文档版面分析技术广泛用于文档理解、文档压缩、文档电子化等应用场景中,具有广泛的应用价值。文档中的元素可以包括图、表、文本、标题等。
[0003]目前的文档版面分析方法中,首先提取文档中的多个文本行的文本信息以及图像信息,然后对多个文本行的文本信息以及图像信息进行编码、解码等操作,得到文档中的元素的位置和类别。
[0004]由于目前文档版面分析方法是针对文本行进行的文本行级别的识别,因此,识别得到的元素的位置和类别也是粗粒度的文本行级别的结果,文档版面的识别结果并不准确。

技术实现思路

[0005]本专利技术实施例的目的在于提供一种文档版面的识别方法、装置、电子设备及存储介质,以提高文档版面的识别结果的准确性。具体技术方案如下:
[0006]第一方面,本专利技术实施例提供了一种文档版面的识别方法,所述方法包括:
[0007]获取待识别文档;
[0008]提取所述待识别文档的视觉特征和语义特征,其中,所述视觉特征标识所述待识别文档对应的图像整体排版上的视觉特点,所述语义特征至少包括字符级别的特征和文本行级别的特征;
[0009]将所述图像特征与所述语义特征进行融合,得到多模态文档特征;
[0010]基于所述多模态文档特征,识别得到所述待识别文档中各元素的元素位置和类别。
[0011]可选的,所述提取所述待识别文档的视觉特征和语义特征的步骤,包括:
[0012]当判断所述待识别文档为文件格式的文档时,将所述待识别文档转换为图像,作为待识别图像;对所述待识别文档进行文件解析,获得所述待识别文档包括的文本内容以及文本位置;
[0013]当判断所述待识别文档为图像格式的文档时,将所述待识别文档作为待识别图像;对所述待识别文档进行图像识别,获得所述待识别文档包括的文本内容以及文本位置,其中,所述文本内容至少包括字符级别的文本内容和文本行级别的文本内容;
[0014]提取所述待识别图像的视觉特征,并基于所述文本内容以及所述文本位置确定所述待识别文档的语义特征。
[0015]可选的,所述提取所述待识别图像的视觉特征,并基于所述文本内容以及所述文
本位置确定所述待识别文档的语义特征的步骤,包括:
[0016]将所述文本内容按照所述文本位置填充至所述待识别文档中,得到语义特征图;
[0017]将所述待识别图像和所述语义特征图输入预先建立的第一卷积神经网络,获得所述第一卷积神经网络输出的视觉特征和语义特征;或,
[0018]将所述待识别图像输入预先建立的第二卷积神经网络,获得所述第二卷积神经网络输出的视觉特征,将所述语义特征图输入预先建立的第三卷积神经网络,获得所述第三卷积神经网络输出的语义特征。
[0019]可选的,所述将所述图像特征与所述语义特征进行融合,得到多模态文档特征的步骤,包括:
[0020]将所述图像特征与所述语义特征输入预先建立的神经网络,获得所述射精网络输出的多模态文档特征,其中,所述神经网络用于将图像特征与语义特征进行特征融合,所述神经网络基于以下公式计算得到所述多模态文档特征M:
[0021]M=A*V+(1

A)*S
[0022]其中,V为所述视觉特征,S为所述语义特征,A=f(V,S),A为通过视觉特征样本和语义特征样本训练所述神经网络得到的加权权重,f为所述神经网络对应的映射函数。
[0023]可选的,所述基于所述多模态文档特征,识别得到所述待识别文档中各元素的元素位置和类别的步骤,包括:
[0024]基于所述多模态文档特征,对所述待识别文档进行目标检测,确定所述待识别文档中各元素的元素位置和类别。
[0025]可选的,在所述确定所述待识别文档中各元素的元素位置和类别的步骤之后,所述方法还包括:
[0026]基于预先确定的文档元素之间的结构关系,对所述各元素的元素位置和类别进行调整,得到所述各元素最终的元素位置和类别。
[0027]可选的,所述基于预先确定的文档元素之间的结构关系,对所述各元素的元素位置和类别进行调整,得到所述各元素最终的元素位置和类别的步骤,包括:
[0028]将所述多模态文档特征、所述各元素的元素位置和类别输入预先建立的关系建模模型,以使所述关系建模模型基于预先确定的文档元素之间的结构关系和所述多模态文档特征,对所述各元素对应的元素位置和类别进行调整,输出所述各元素最终的元素位置和类别。
[0029]第二方面,本专利技术实施例提供了一种文档版面的识别装置,所述装置包括:
[0030]获取模块,用于获取待识别文档;
[0031]提取模块,用于提取所述待识别文档的视觉特征和语义特征,其中,所述视觉特征标识所述待识别文档对应的图像整体排版上的视觉特点,所述语义特征至少包括字符级别的特征和文本行级别的特征;
[0032]融合模块,用于将所述图像特征与所述语义特征进行融合,得到多模态文档特征;
[0033]识别模块,用于基于所述多模态文档特征,识别得到所述待识别文档中各元素的元素位置和类别。
[0034]可选的,所述提取模块包括:
[0035]第一处理单元,用于当判断所述待识别文档为文件格式的文档时,将所述待识别
文档转换为图像,作为待识别图像;对所述待识别文档进行文件解析,获得所述待识别文档包括的文本内容以及文本位置;
[0036]第二处理单元,用于当判断所述待识别文档为图像格式的文档时,将所述待识别文档作为待识别图像;对所述待识别文档进行图像识别,获得所述待识别文档包括的文本内容以及文本位置,其中,所述文本内容至少包括字符级别的文本内容和文本行级别的文本内容;
[0037]特征提取单元,用于提取所述待识别图像的视觉特征,并基于所述文本内容以及所述文本位置确定所述待识别文档的语义特征。
[0038]可选的,所述特征提取单元包括:
[0039]填充子单元,用于将所述文本内容按照所述文本位置填充至所述待识别文档中,得到语义特征图;
[0040]第一提取子单元,用于将所述待识别图像和所述语义特征图输入预先建立的第一卷积神经网络,获得所述第一卷积神经网络输出的视觉特征和语义特征;或,
[0041]第二提取子单元,用于将所述待识别图像输入预先建立的第二卷积神经网络,获得所述第二卷积神经网络输出的视觉特征,将所述语义特征图输入预先建立的第三卷积神经网络,获得所述第三卷积神经网络输出的语义特征。
[0042]可选的,所述融合模块包括:
[0043]特征融合单元,用于将所述图像特征与所述语义特征输入预先建立的神经网络,获得所述神经网络输出的多模态文档本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档版面的识别方法,其特征在于,所述方法包括:获取待识别文档;提取所述待识别文档的视觉特征和语义特征,其中,所述视觉特征标识所述待识别文档对应的图像整体排版上的视觉特点,所述语义特征至少包括字符级别的特征和文本行级别的特征;将所述图像特征与所述语义特征进行融合,得到多模态文档特征;基于所述多模态文档特征,识别得到所述待识别文档中各元素的元素位置和类别。2.根据权利要求1所述的方法,其特征在于,所述提取所述待识别文档的视觉特征和语义特征的步骤,包括:当判断所述待识别文档为文件格式的文档时,将所述待识别文档转换为图像,作为待识别图像;对所述待识别文档进行文件解析,获得所述待识别文档包括的文本内容以及文本位置;当判断所述待识别文档为图像格式的文档时,将所述待识别文档作为待识别图像;对所述待识别文档进行图像识别,获得所述待识别文档包括的文本内容以及文本位置,其中,所述文本内容至少包括字符级别的文本内容和文本行级别的文本内容;提取所述待识别图像的视觉特征,并基于所述文本内容以及所述文本位置确定所述待识别文档的语义特征。3.根据权利要求2所述的方法,其特征在于,所述提取所述待识别图像的视觉特征,并基于所述文本内容以及所述文本位置确定所述待识别文档的语义特征的步骤,包括:将所述文本内容按照所述文本位置填充至所述待识别文档中,得到语义特征图;将所述待识别图像和所述语义特征图输入预先建立的第一卷积神经网络,获得所述第一卷积神经网络输出的视觉特征和语义特征;或,将所述待识别图像输入预先建立的第二卷积神经网络,获得所述第二卷积神经网络输出的视觉特征,将所述语义特征图输入预先建立的第三卷积神经网络,获得所述第三卷积神经网络输出的语义特征。4.根据权利要求1所述的方法,其特征在于,所述将所述图像特征与所述语义特征进行融合,得到多模态文档特征的步骤,包括:将所述图像特征与所述语义特征输入预先建立的神经网络,获得所述神经网络输出的多模态文档特征,其中,所述神经网络用于将图像特征与语义特征进行特征融合,所述神经网络基于以下公式计算得到所述多模态文档特征M:M=A*V+(1

A)*S其中,V为所述视觉特征,S为所述语义特征,A=f(V,S),A为...

【专利技术属性】
技术研发人员:张鹏
申请(专利权)人:上海高德威智能交通系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1