文档识别方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号：35095516 阅读：10 留言：0更新日期：2022-10-01 16:58

本发明专利技术实施例公开了一种文档识别方法、装置、电子设备和计算机可读存储介质；本发明专利技术实施例在显示文档识别页面后，响应于针对文档识别页面中的识别控件的触发操作，在文档识别页面中的待识别文档图像中提取出版面结构特征和版面内容特征，然后，根据版面结构特征和版面内容特征，在待识别文档图像中检测出至少一个版面内容区域和版面内容区域的内容类型，在待识别文档图像中识别出版面内容区域对应的文本内容，并基于文本内容和内容类型，确定版面内容区域的版面内容，然后，根据版面内容，生成待识别文档图像对应的目标文档，并展示目标文档，该目标文档为可编辑文档；该方案可以提升文档识别的准确性。升文档识别的准确性。升文档识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文档识别方法、装置、电子设备和计算机可读存储介质

[0001]本专利技术涉及通信
，具体涉及一种文档识别方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]近年来，随着互联网技术的飞速发展，图像中内容也日益丰富，针对图像的识别方式也越来越多，除了识别图像的类型以外，还可以在图像中识别出文档。现有的文档识别方法往往采用连通域分割和语义分割的方式对待识别文档图像进行分割，从而识别出目标文档。
[0003]在对现有技术的研究和实践中，本专利技术的专利技术人发现采用连通域分割的方式和语义分割在文档识别过程中，往往按照阅读顺序对待识别文档图像进行版面还原，在复杂版面结构下，往往无法准确识别出版面结构信息，因此，导致文档识别的准确性较低。

技术实现思路

[0004]本专利技术实施例提供一种文档识别方法、装置、电子设备和计算机可读存储介质，可以提高文档识别的准确性。
[0005]一种文档识别方法，包括：
[0006]显示文档识别页面，所述文档识别页面包括待识别文档图像和识别控件；
[0007]响应于针对所述识别控件的触发操作，在所述待识别文档图像中提取出版面结构特征和版面内容特征；
[0008]根据所述版面结构特征和版面内容特征，在所述待识别文档图像中检测出至少一个版面内容区域和所述版面内容区域的内容类型；
[0009]在所述待识别文档图像中识别出所述版面内容区域对应的文本内容，并基于所述文本内容和内容类型，确定所述版面内容区域的版面内容；
>[0010]根据所述版面内容，生成所述待识别文档图像对应的目标文档，并展示所述目标文档，所述目标文档为可编辑文档。
[0011]相应的，本专利技术实施例提供一种文档识别装置，包括：
[0012]显示单元，用于显示文档识别页面，所述文档识别页面包括待识别文档图像和识别控件；
[0013]提取单元，用于响应于针对所述识别控件的触发操作，在所述待识别文档图像中提取出版面结构特征和版面内容特征；
[0014]检测单元，用于根据所述版面结构特征和版面内容特征，在所述待识别文档图像中检测出至少一个版面内容区域和所述版面内容区域的内容类型；
[0015]确定单元，用于在所述待识别文档图像中识别出所述版面内容区域对应的文本内容，并基于所述文本内容和内容类型，确定所述版面内容区域的版面内容；
[0016]生成单元，用于根据所述版面内容，生成所述待识别文档图像对应的目标文档，并
展示所述目标文档，所述目标文档为可编辑文档。
[0017]可选的，在一些实施例中，所述提取单元，具体可以用于对所述待识别文档图像进行版面矫正，得到矫正后文档图像；对所述矫正后文档图像的图像尺寸进行调整，得到调整后文档图像；在所述调整后文档图像中提取出版面结构特征和版面内容特征。
[0018]可选的，在一些实施例中，所述提取单元，具体可以用于采用训练后版面检测模型对所述调整后文档图像进行图像特征提取，得到基础图像特征；对所述基础图像特征进行多维度版面特征提取，得到每一维度的基础版面特征；基于所述基础版面特征，对所述基础图像特征进行多维度版面特征提取，以得到所述待识别文档图像的版面结构特征和版面内容特征。
[0019]可选的，在一些实施例中，所述提取单元，具体可以用于将所述基础版面特征与所述基础图像特征进行融合，得到融合后图像特征；对所述融合后图像特征进行版面特征提取，得到目标维度对应的初始版面特征；在所述初始版面特征中识别出所述待识别文档图像的版面结构特征和版面内容特征。
[0020]可选的，在一些实施例中，所述提取单元，具体可以用于对所述基础版面特征的维度信息进行排序，并根据排序信息，在所述基础版面特征中筛选出超过所述目标维度的目标基础版面特征；将所述目标基础版面特征和所述初始版面特征进行融合，得到融合后版面特征；在所述融合后版面特征中提取出所述待识别文档图像的版面结构特征和版面内容特征。
[0021]可选的，在一些实施例中，所述提取单元，具体可以用于将所述融合后版面特征作为所述融合后图像特征，并返回执行所述对所述融合后图像特征进行版面特征提取，得到目标维度对应的初始版面特征的步骤，直至不存在所述目标基础版面特征时为止，得到每一维度对应的版面特征；获取每一维度对应的加权系数，并基于所述加权系数，对所述版面特征进行加权，得到加权后版面特征；在所述加权后版面特征中识别出所述待识别文档图像的版面结构特征和版面内容特征。
[0022]可选的，在一些实施例中，所述文档识别装置还可以包括训练单元，所述训练单元，具体可以用于获取文档图像样本，并采用预设版面检测模型对所述文档图像样本进行版面特征提取，得到基础样本版面特征；在所述基础样本版面特征中识别出目标样本版面特征，并基于目标样本版面特征，确定所述文档图像样本的主干损失信息；根据所述基础样本版面特征，确定所述文档图像样本的辅助损失信息，并基于所述主干损失信息和辅助损失信息，对所述预设版面检测模型进行收敛，得到所述训练后版面检测模型。
[0023]可选的，在一些实施例中，所述检测单元，具体可以用于根据所述版面结构特征，在所述待识别文档图像中检测出至少一个版面结构区域和所述版面结构区域对应的区域类型；根据所述区域类型，确定所述版面结构区域的版面结构类型；基于所述版面内容特征和版面结构类型，在所述版面结构区域中识别出至少一个版面内容区域和所述版面内容区域的内容类型。
[0024]可选的，在一些实施例中，所述检测单元，具体可以用于当所述版面结构类型为分栏结构区域时，基于所述版面内容特征，在所述版面结构区域中识别出至少一个版面内容区域和所述版面内容区域的内容类型，所述分栏结构区域为所述待识别文档图像包含的文档中用于进行内容分栏的区域；当所述版面结构类型为非分栏结构区域时，将所述版面结
构区域作为版面内容区域，并将所述区域类型作为所述版面内容区域的内容类型。
[0025]可选的，在一些实施例中，所述检测单元，具体可以用于基于所述版面内容特征，在所述版面结构区域中识别出至少一个版面内容区域和所述版面内容区域的初始内容类型；当所述初始内容类型为公式时，获取所述公式对应的版面内容区域的公式位置信息和公式格式信息，并根据所述公式位置信息和公式格式信息，确定所述公式的公式类型，得到所述版面内容区域的内容类型；当所述初始内容类型为非公式时，将所述初始内容类型作为所述版面内容区域的内容类型。
[0026]可选的，在一些实施例中，所述确定单元，具体可以用于当所述内容类型为图像时，在所述待识别文档图像中识别出所述版面内容区域对应的图像，得到版面内容；当所述内容类型为非图像时，根据所述内容类型，确定所述版面内容的文本类型，并将所述文本内容转换为所述文本类型对应的版面内容。
[0027]可选的，在一些实施例中，所述确定单元，具体可以用于当所述文本类型为基础文本时，获取所述版面内容区域的文本格式，并基于所述文本格式，对所述文本内容进行格式调整，得到本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文档识别方法，其特征在于，包括：显示文档识别页面，所述文档识别页面包括待识别文档图像和识别控件；响应于针对所述识别控件的触发操作，在所述待识别文档图像中提取出版面结构特征和版面内容特征；根据所述版面结构特征和版面内容特征，在所述待识别文档图像中检测出至少一个版面内容区域和所述版面内容区域的内容类型；在所述待识别文档图像中识别出所述版面内容区域对应的文本内容，并基于所述文本内容和内容类型，确定所述版面内容区域的版面内容；根据所述版面内容，生成所述待识别文档图像对应的目标文档，并展示所述目标文档，所述目标文档为可编辑文档。2.根据权利要求1所述的文档识别方法，其特征在于，所述在所述待识别文档图像中提取出版面结构特征和版面内容特征，包括：对所述待识别文档图像进行版面矫正，得到矫正后文档图像；对所述矫正后文档图像的图像尺寸进行调整，得到调整后文档图像；在所述调整后文档图像中提取出版面结构特征和版面内容特征。3.根据权利要求2所述的文档识别方法，其特征在于，所述在所述调整后文档图像中提取出版面结构特征和版面内容特征，包括：采用训练后版面检测模型对所述调整后文档图像进行图像特征提取，得到基础图像特征；对所述基础图像特征进行多维度版面特征提取，得到每一维度的基础版面特征；基于所述基础版面特征，对所述基础图像特征进行多维度版面特征提取，以得到所述待识别文档图像的版面结构特征和版面内容特征。4.根据权利要求3所述的文档识别方法，其特征在于，所述基于所述基础版面特征，对所述基础图像特征进行多维度版面特征提取，以得到所述待识别文档图像的版面结构特征和版面内容特征，包括：将所述基础版面特征与所述基础图像特征进行融合，得到融合后图像特征；对所述融合后图像特征进行版面特征提取，得到目标维度对应的初始版面特征；在所述初始版面特征中识别出所述待识别文档图像的版面结构特征和版面内容特征。5.根据权利要求4所述的文档识别方法，其特征在于，所述在所述初始版面特征中识别出所述待识别文档把图像的版面结构特征和版面内容特征，包括：对所述基础版面特征的维度信息进行排序，并根据排序信息，在所述基础版面特征中筛选出超过所述目标维度的目标基础版面特征；将所述目标基础版面特征和所述初始版面特征进行融合，得到融合后版面特征；在所述融合后版面特征中提取出所述待识别文档图像的版面结构特征和版面内容特征。6.根据权利要求5所述的文档识别方法，其特征在于，所述在所述融合后版面特征中提取出所述待识别文档图像的版面结构特征和版面内容特征，包括：将所述融合后版面特征作为所述融合后图像特征，并返回执行所述对所述融合后图像特征进行版面特征提取，得到目标维度对应的初始版面特征的步骤，直至不存在所述目标
基础版面特征时为止，得到每一维度对应的版面特征；获取每一维度对应的加权系数，并基于所述加权系数，对所述版面特征进行加权，得到加权后版面特征；在所述加权后版面特征中识别出所述待识别文档图像的版面结构特征和版面内容特征。7.根据权利要求3所述的文档识别方法，其特征在于，所述采用训练后版面检测模型对所述调整后文档图像进行图像特征提取，得到基础图像特征之前，还包括：获取文档图像样本，并采用预设版面检测模型对所述文档图像样本进行版面特征提取，得到基础样本版面特征；在所述基础样本版面特征中识别出目标样本版面特征，并基于目标样本版面特征，确定所述文档图像样本的主干损失信息；根据所述基础样本版面特征，确定所述文档图像样本的辅助损失信息，并基于所述主干损失信息和辅助损失信息，对所述预设版面检测模型进行收敛，得到所述训练后版面检测模型。8.根据权利要求1至7任一项所述的文档识别方法，其特征在于，所述根据所述版面结构特征和版面内容特征，在所述待识别文档图像中检测出至少一个版面内容区域和所述版面内容区域的内容类型，包括：根据所述版面结构特征，在所述待识别文档图像中检测出至少一个版面结构区域和所述版面结构区域对应的区域类型；根据所述区域类型，确定所述版面结构区域的版面结构类型；基于所述版面内容特征和版面结构类型，在所述版面结构区域中识别出至少一个版面内容区域和所述版面内容区域的内容类型。9.根据权利要求8所述的文档识别方法，其特征在于，所述基于所述版面内容特征和版面结构类型，在所述版面结构区域中识别出至少一个版面内容区域和所述版面内容区域的内容类型，包括：当所述版面结构类型为分栏结构区域时，基于所述版面内容特征，在所述版面结构区域中识别出至少一个版面内容区域和所述版面内容区域...

【专利技术属性】
技术研发人员：赵志勇，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人