文档图像的识别方法、装置、存储介质以及电子设备制造方法及图纸

技术编号：33542645 阅读：24 留言：0更新日期：2022-05-21 09:54

本公开提供了一种文档图像的识别方法、装置、存储介质以及电子设备，涉及人工智能识别技术领域，尤其涉及深度学习、计算机视觉技术领域，可应用于图像处理、光学字符识别OCR场景。具体实现方案为：将待识别的文档图像转化为图像特征图，其中，上述文档图像中至少包括：至少一个文本框、包含多个字符的文本信息；基于上述图像特征图、上述字符和上述文本框，预测得到上述待识别的文档图像的第一识别内容；采用光学字符识别算法识别上述待识别的文档图像，得到第二识别内容；匹配上述第一识别内容和上述第二识别内容，得到目标识别内容。得到目标识别内容。得到目标识别内容。

全部详细技术资料下载

【技术实现步骤摘要】
文档图像的识别方法、装置、存储介质以及电子设备

[0001]本公开涉及人工智能识别
，尤其涉及深度学习、计算机视觉
，可应用于图像处理、光学字符识别OCR场景，具体涉及一种文档图像的识别方法、装置、存储介质以及电子设备。

技术介绍

[0002]现有技术中的文档图像的识别方法主要通过光学字符识别技术OCR来实现，但是，现有的文档图像的识别方法采用光学字符识别技术来实现，往往需要通过复杂的图像处理流程，并且该识别方法对于质量较差的文档图像或者存在噪声的文档扫描文件(即存在对比度较弱、明暗分布不均且背景模糊等情况的文档图像或文档扫描文件)，识别准确性较低且较为费时。
[0003]针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

[0004]本公开提供了一种文档图像的识别方法、装置、存储介质以及电子设备。
[0005]根据本公开的一方面，提供了一种文档图像的识别方法，包括：将待识别的文档图像转化为图像特征图，其中，上述文档图像中至少包括：至少一个文本框、包含多个字符的文本信息；基...

【技术保护点】

【技术特征摘要】
1.一种文档图像的识别方法，包括：将待识别的文档图像转化为图像特征图，其中，所述文档图像中至少包括：至少一个文本框、包含多个字符的文本信息；基于所述图像特征图、所述字符和所述文本框，预测得到所述待识别的文档图像的第一识别内容；采用光学字符识别算法识别所述待识别的文档图像，得到第二识别内容；匹配所述第一识别内容和所述第二识别内容，得到目标识别内容。2.根据权利要求1所述的方法，其中，所述基于所述图像特征图、所述字符和所述文本框，预测得到所述待识别的文档图像的第一识别内容，包括：根据每个所述文本框的大小，将所述图像特征图划分为多个特征子图；确定所述字符中自然语言词语对应的第一向量，其中，不同所述字符的自然语言词语转化为长度相等且长度固定的向量；分别确定所述文本框的第一坐标信息对应的第二向量，以及与所述字符的第二坐标信息对应的第三向量，其中，所述第二向量和第三向量的向量长度相等且固定；采用文档结构解码器对所述多个特征子图、所述第一向量、所述第二向量和所述第三向量进行解码处理，得到所述第一识别内容。3.根据权利要求2所述的方法，其中，所述采用文档结构解码器对所述多个特征子图、所述第一向量、所述第二向量和所述第三向量进行解码处理，得到所述第一识别内容，包括：将所述多个特征子图、所述第一向量、所述第二向量和所述第三向量输入至多模态转化模型，得到所述多模态转化模型对应输出的多模态特征，其中，所述多模态转化模型用于将不同模态的信息转化至同一个特征空间中，并融合得到多模态特征；采用所述文档结构解码器对所述多模态特征进行解码处理，得到所述待识别的文档图像的表格特征序列；采用链接关系预测算法预测所述表格特征序列与所述文本信息中文字行之间的链接关系，得到预测链接矩阵，其中，所述预测链接矩阵用于确定所述表格特征序列在所述待识别的文档图像中的位置信息；基于所述表格特征序列和所述预测链接矩阵确定所述第一识别内容。4.根据权利要求3所述的方法，其中，所述采用所述文档结构解码器对所述多模态特征进行解码处理，得到所述待识别的文档图像的表格特征序列，包括：采用所述文档结构解码器对所述多模态特征进行解码处理，得到所述待识别的文档图像中每个表格的表格标签；将所述表格标签转化为所述表格特征序列；输出并展示所述表格特征序列。5.根据权利要求1所述的方法，其中，所述将待识别的文档图像转化为图像特征图，包括：采用卷积神经网络模型将所述待识别的文档图像转化为所述图像特征图。6.根据权利要求1所述的方法，其中，所述采用光学字符识别算法识别所述待识别的文档图像，得到第二识别内容，包括：
采用所述光学字符识别算法识别所述待识别的文档图像，得到每个所述文本框的第一信息和每个所述字符的第二信息，其中，所述第一信息和第二信息均包括：文本信息和坐标信息。7.一种文档图像的识别装置，包括：转化模块，用于将待识别的文档图像转化为图像特征图，其中，所述文档图像中至少包括：至少一个文本框、包含多个字符的文本信息；第一预测模块，用于基于所述图像特征图、所述字符和所述文本框，预测得到所述待识别的文档图像的第一识别内容；第二预测模块，用于采用光学字符识别算法识别所述待识别的文档图像，得到第...

【专利技术属性】
技术研发人员：庾悦晨，章成全，姚锟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人