System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多模态信息融合的OCR错误检测方法技术_技高网
当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于多模态信息融合的OCR错误检测方法技术

技术编号:41195448 阅读:5 留言:0更新日期:2024-05-07 22:24
本发明专利技术涉及一种基于多模态信息融合的OCR错误检测方法,包括:对表格图像进行预处理,得到单元格的图像和相应的ORC文本;进行标注,组成带有检测标签的错误检测训练数据集;构建基于多模态的单元格OCR错误检测模型;采用错误检测训练数据集对基于多模态的单元格OCR错误检测模型进行迭代训练;将待检测单元格图像及对应的OCR文本输入训练后的基于多模态的单元格OCR错误检测模型,输出检测结果。本发明专利技术通过基于字形卷积网络的文本处理模块与基于残差网络的图像处理模块,将这两部分特征进行维度融合,多模态融合过程结合了来自文本与图像的信息,实现信息补充,拓宽输入数据所包含信息的覆盖范围,提高基于多模态的单元格OCR错误检测模型的鲁棒性和准确性。

【技术实现步骤摘要】

本专利技术涉及ocr错误检测,尤其是一种基于多模态信息融合的ocr错误检测方法。


技术介绍

1、在当今的数字化时代,从表格图像中准确提取数据的需求正在稳步增长。光学字符识别(ocr)系统在将此类图像转换为机器可读格式方面发挥着至关重要的作用。表格中的单元格图像通常包含汉字、数字和符号,因此准确识别是一项复杂的任务。基于单元格的ocr错误检测对确保表格的ocr输出质量起着至关重要的作用。ocr错误检测的重要性在于它能够检测出需要进一步检查或纠正的ocr输出区域,通过标记潜在的错误片段,可以让人工审核人员或后续的纠错算法将注意力集中在特定区域,从而大大减少人工校对的工作量,提高整体效率。此外,错误检测在保持ocr生成文本的可靠性和可信度方面也发挥着至关重要的作用,尤其是在准确提取信息至关重要的应用中。

2、目前,ocr错误检测方法大致分为两种:一种是基于模式匹配和语言分析,利用预定义的模式、字典,将识别的文本与预期的模式或语言规则进行比较,用于检测是否存在不一致或偏差;另一种则基于统计和机器学习技术来检测ocr输出中的错误,利用n-gram语言模型或隐马尔可夫模型等统计模型来捕捉正确文本的统计属性,或者利用支持向量机(svm)、随机森林和深度学习模型等机器学习算法学习正确文本的特征表示,进而用于错误检测,利用数据驱动方法的力量来学习区分正确和错误文本片段的模式和特征。这两种错误检测方法都缺少对原始图像的建模,仅利用了ocr的文本输出结果,单个模态不能包含产生精确预测结果所需的全部有效信息。同时,这两种错误检测方法也难以处理基于单元格图像的复杂性和可变性,无法有效应对表格图像所带来的独特挑战,包括内容的多样性、布局和结构的重要性,以及噪音和人工痕迹的存在。


技术实现思路

1、为解决现有技术存在的仅利用ocr文本单一模态信息进行错误检测的问题,本专利技术的目的在于提供一种结合了来自文本与图像的信息,实现信息补充,拓宽输入数据所包含信息的覆盖范围,提高预测模型的鲁棒性,可以有效提高单元格图像的ocr错误检测的准确性的基于多模态信息融合的ocr错误检测方法。

2、为实现上述目的,本专利技术采用了以下技术方案:一种基于多模态信息融合的ocr错误检测方法,该方法包括下列顺序的步骤:

3、(1)对表格图像进行预处理,所述预处理包括二值化、去噪和切割操作,得到单元格的图像和相应的orc文本;

4、(2)对每个单元格的图像和相应的ocr文本进行标注,标注后的数据组成带有检测标签的错误检测训练数据集;

5、(3)构建基于多模态的单元格ocr错误检测模型,所述基于多模态的单元格ocr错误检测模型包括图像处理模块、文本处理模块和多模态信息融合分类模块;

6、(4)采用错误检测训练数据集对基于多模态的单元格ocr错误检测模型进行迭代训练,得到训练后的基于多模态的单元格ocr错误检测模型;

7、(5)将待检测单元格图像及对应的ocr文本输入训练后的基于多模态的单元格ocr错误检测模型,输出检测结果。

8、在步骤(1)中,所述二值化是将图像中的像素值转换为0或1,所述去噪是指消除图像中的杂点和毛刺;所述切割是指根据表格的行列结构,将图像分割为多个单元格,每个单元格包含一个单元格图像和一个ocr文本。

9、在步骤(2)中,所述检测标签是指为每个单元格的图像和文本提供一个正确的标签,表示其是否存在ocr错误,所述ocr错误是指图像中的文字和文本中的文字不一致。

10、在步骤(3)中,所述图像处理模块的输入是单元格图像,输出是图像的特征,所述图像处理模块首先通过嵌入层对单元格图像进行特征初始化,再通过残差网络对图像进行特征提取,所述残差网络通过堆叠多个残差块进行图像局部特征的提取,配合池化操作进行特征降维,最后残差网络输出的特征中包含单元格图像中的高层抽象特征;

11、所述文本处理模块的输入是ocr文本,输出是ocr文本特征,文本处理模块首先通过字形处理层对ocr文本进行预处理,得到构成ocr文本的所有原始字符以及每个字符对应的字符图像,再将原始字符和字符图像送入字形卷积网络进行进一步的学习;

12、在字形卷积网络中,将原始字符送入原始字符嵌入层获得字符初始特征,多字体融合嵌入层将字符初始特征通过字体映射获得不同字体的字符信息,再将所有字符信息融合得到原始字符的高维特征;将字符图像送入字符图像嵌入层,得到初始的字形特征向量,再将初始的字形特征向量送入字形卷积块进行字符字形的特征学习;在字形卷积块中,先通过二维卷积层和最大池化层对字符图像进行特征提取和降维,再依次经过下采样卷积层和分组卷积层获得字符字形向量;

13、字形卷积网络的融合编码层将上述两部分学习到的原始字符特征和字符字形向量通过融合编码的方式进行字符信息的聚合,最终得到ocr文本的抽象特征表示;

14、多模态信息融合分类模块由一个拼接层和两个全连接层构成,两个全连接层组成多层感知机,多层感知机和拼接层组成前馈神经网络;多模态信息融合分类模块对图像处理模块和文本处理模块学习到的信息进行整合和筛选,通过基于多层感知机的前馈神经网络将多模态空间映射到共享语义子空间,学习两种模态特征间的高阶交互关系,进而得到错误检测结果。

15、所述步骤(4)具体包括以下顺序的步骤:

16、(4a)根据错误检测训练数据集中的单元格图像,通过图像处理模块的残差网络得到图像的视觉特征;

17、(4b)根据单元格图像对应的ocr文本,通过文本处理模块的字形卷积网络得到文本的特征表示;

18、(4c)将图像的视觉特征和文本的特征表示输入多模块信息融合分类模块中的前馈神经网络进行进一步的学习,最后得到错误检测结果。

19、在步骤(4)中,将训练参数epoch设成300,batch size设成128,最优化算法采取adam,初始学习率设成0.001,将错误检测训练数据集按照9:1的比例划分为训练集和测试集,基于多模态的单元格ocr错误检测模型的损失函数为:

20、l=(1-λ(t))ltarget+λ(t)lcls

21、

22、其中,λ(·)是关于迭代训练次数t的函数,λ0∈[0,1]表示初始值,λ1∈[0,1]表示衰减值,λ0、λ1均是超参数,ltarget是交叉熵损失函数,lcls是对数损失函数;

23、所述交叉熵损失函数的公式为:

24、

25、其中,是整个训练集,共包含n条训练数据,x=[ximg,xtext]属于表示每一条训练数据,ximg,xtext分别表示单元格图像和ocr文本,ocr文本xtext=[b1,b2,…,bm],bi表示ocr文本中的第i个字符,i∈[1,m],m代表ocr文本中的字符个数;y∈{0,1},表示单元格图像与ocr文本是否匹配;p(x)表示模型预测的单元格图像与ocr文本匹配的概率;

本文档来自技高网...

【技术保护点】

1.一种基于多模态信息融合的OCR错误检测方法,其特征在于:该方法包括下列顺序的步骤:

2.根据权利要求1所述的基于多模态信息融合的OCR错误检测方法,其特征在于:在步骤(1)中,所述二值化是将图像中的像素值转换为0或1,所述去噪是指消除图像中的杂点和毛刺;所述切割是指根据表格的行列结构,将图像分割为多个单元格,每个单元格包含一个单元格图像和一个OCR文本。

3.根据权利要求1所述的基于多模态信息融合的OCR错误检测方法,其特征在于:在步骤(2)中,所述检测标签是指为每个单元格的图像和文本提供一个正确的标签,表示其是否存在OCR错误,所述OCR错误是指图像中的文字和文本中的文字不一致。

4.根据权利要求1所述的基于多模态信息融合的OCR错误检测方法,其特征在于:在步骤(3)中,所述图像处理模块的输入是单元格图像,输出是图像的特征,所述图像处理模块首先通过嵌入层对单元格图像进行特征初始化,再通过残差网络对图像进行特征提取,所述残差网络通过堆叠多个残差块进行图像局部特征的提取,配合池化操作进行特征降维,最后残差网络输出的特征中包含单元格图像中的高层抽象特征;

5.根据权利要求1所述的基于多模态信息融合的OCR错误检测方法,其特征在于:所述步骤(4)具体包括以下顺序的步骤:

6.根据权利要求1所述的基于多模态信息融合的OCR错误检测方法,其特征在于:在步骤(4)中,将训练参数Epoch设成300,Batch size设成128,最优化算法采取Adam,初始学习率设成0.001,将错误检测训练数据集按照9:1的比例划分为训练集和测试集,基于多模态的单元格OCR错误检测模型的损失函数为:

7.根据权利要求5所述的基于多模态信息融合的OCR错误检测方法,其特征在于:所述步骤(4b)具体是指:

...

【技术特征摘要】

1.一种基于多模态信息融合的ocr错误检测方法,其特征在于:该方法包括下列顺序的步骤:

2.根据权利要求1所述的基于多模态信息融合的ocr错误检测方法,其特征在于:在步骤(1)中,所述二值化是将图像中的像素值转换为0或1,所述去噪是指消除图像中的杂点和毛刺;所述切割是指根据表格的行列结构,将图像分割为多个单元格,每个单元格包含一个单元格图像和一个ocr文本。

3.根据权利要求1所述的基于多模态信息融合的ocr错误检测方法,其特征在于:在步骤(2)中,所述检测标签是指为每个单元格的图像和文本提供一个正确的标签,表示其是否存在ocr错误,所述ocr错误是指图像中的文字和文本中的文字不一致。

4.根据权利要求1所述的基于多模态信息融合的ocr错误检测方法,其特征在于:在步骤(3)中,所述图像处理模块的输入是单元格图像,输出是图像的特征,所述图像处理...

【专利技术属性】
技术研发人员:韩鹏伟黄振华贾兆红张友豪陈丹丹胡维炜
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1