当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于中文字符级特征和语言模型的OCR纠错方法技术

技术编号:30078547 阅读:17 留言:0更新日期:2021-09-18 08:34
本发明专利技术公开了一种基于中文字符级特征和语言模型的中文OCR纠错方法,所述方法包含如下步骤:1)训练一个OCR模型对中文图像进行识别,并伴以数据增强技术获取具有OCR后错误风格的数据;2)引入中文字符笔画结构信息以CBOW的方法进行词向量训练,使联合笔画结构词向量能够把握中文结构和笔画信息;3)以联合笔画结构词向量为基础构建语言模型来生成字符纠错候选集合。与现有的方法相比,本发明专利技术有如下益处:1)通过数据增强技术,能找到更多OCR后错误的显著特点,提高模型效果;2)能够解决笔画相同但字符结构不同的识别错误问题;3)能够在上下文信息不足的情况下,提高生成纠错候选集的质量。质量。质量。

【技术实现步骤摘要】
一种基于中文字符级特征和语言模型的OCR纠错方法


[0001]本专利技术属于字符纠错的
,具体涉及一种基于中文字符级特征并利用语言模型对图片在OCR后的结果进行修正的字符纠错方法

技术介绍

[0002]光学字符识别(OCR)技术在文本处理系统中是非常重要的一部分,该技术的目的是通过采样,照相等光学输入手段获取纸质文档,或历史文献上的文字信息,再利用各种模式识别算法将其转换为计算机可操作的文字。其主要应用场景包括身份证证件识别、以及车牌号识别等。
[0003]目前,基于深度神经网络(DNN)的OCR技术已经能够达到一个较为显著的准确率,然而,目前的工作仍然是在较为规范的数据集上得到的。因此,当应用于现实的真实场景时,出现的许多问题会导致仅基于DNN的OCR系统无法正确工作,比如图片信息丢失部分重要数据、图片倾斜造成的整体信息偏差、图片质量差导致的噪声问题等。所以为了应对图像质量可能导致的问题,许多 OCR识别后处理纠错技术也应运而生。
[0004]但是目前的纠错领域,较多的工作都基于英文或者类似的基础字符较少的语言,由于字符的类别少,它们之间的相似性比较有限,所以纠错工作较为轻松。然而在中文,日语等基础字符较多的语言里进行纠错却相当困难。尤其是中文,GBK编码中的21003个基础字符使得纠错时的相似字符候选集过多,即便只考虑中文的常用字GB2312的3755个一级汉字,相对于英文的52个基础字符也是个巨额数字。
[0005]此外,目前大多数的OCR纠错工作仅在以字符为基本组成的数据进行,如语言模型这样只考虑到字符之间的关联信息却没有利用到字符内部的信息。这样的工作在英文领域尤为常见,因它们的字符并不复杂。但是在中文字符纠错工作,由于中文字符自身就带有复杂的信息,所以仅仅使用语言模型进行纠错的工作仍有提升的空间。
[0006]而针对中文字符本身的信息进行训练的词向量也是存在的,比如基于字符增强的中文词嵌入模型(Chinese Word Embedding,CWE),利用中文词和该词对应汉字的信息结合的方式来学习以提高词嵌入的质量。此外也有人在CWE的基础之上又提出了联合学习词嵌入(Joint Learning Word Embedding,JWE)模型,进一步加入了汉字部首的信息来学习词向量。
[0007]以上的方法在纠错任务上的运用相比于未使用字符信息的方法获得了一定的提升,但在OCR后字符纠错的任务上依然有进步空间,因为OCR后的字符错误通常包含了不止字符的部首的信息,以及它的每个部首之间的结构所处的相关信息等。具体来说,同样的一撇一捺,可以组成“人”、“入”、“八”、“乂”四种不同的字,但在字符纠错时,通常容易出现前三种字符相互的识别错误,而第四个“乂”字并不应该和其余三个字符有太高的相似度。而用中文笔画结构进行分类,则“人”、“入”、“八”会被分为左右结构,即“丿丶”,“乂”会被分为嵌套结构,即“丿丶”,更好的模拟了字符间的相似度,能够区分具有相同笔画信息但结构信息不同的字符。但目前的相关工作中并没有使用到字符的结构信息。

技术实现思路

[0008]为了解决
技术介绍
中未使用字符结构信息导致的对相似笔画顺序字符纠错能力差的相关问题,本专利技术提供了一种基于中文字符级笔画结构的语言模型来生成纠错候选的方法。该方法能够在一定程度上克服对相似笔画顺序,不同字符结构的字符识别错误的问题,能够让模型学习到更细粒度的字符级别的特征,从而提高模型对OCR后错误的纠错能力。该方法能被运用于OCR后的字符纠错场景中。
[0009]为了达到上述目的,本方法的具体步骤如下:
[0010]一种基于中文字符级特征和语言模型的中文OCR纠错方法,其步骤如下:
[0011]S1、针对中文字符数据集,从中提取字符以及每个字符对应的字符结构和部件信息,构建字符结构部件数据;
[0012]S2、利用图像数据集训练得到OCR模型对含有中文文字的图像进行识别,然后通过数据增强技术增加图像噪声,然后重新利用OCR模型再次识别增加不同噪声后的图像,基于原始图像和增加噪声后图像的识别结果构建具有OCR后错误风格的纠错数据集,纠错数据集中的每个样本包含OCR识别的错误字符、上下文和正确字符;
[0013]S3、基于所述字符结构部件数据和中文语料构建词向量训练数据集进行词向量训练,其输入包含目标词语的上下文词语、上下文词语对应的字符、以及目标词语和上下文词语对应字符的字符结构和部件信息,训练后得到具有字符结构或部件区分能力的词向量;
[0014]S4、以S3中训练得到的词向量作为语言模型的词嵌入层训练语言模型,并以所述纠错数据集对语言模型进行微调使其能够适应OCR识别错误风格,最终得到能够针对错误字符生成字符纠错候选集的纠错模型,用于对OCR产生的错误字符进行纠错。
[0015]作为优选,所述字符结构部件数据中,对于每个可拆分部件以递归方式进一步分解为部件对应的字符结构和笔画信息,直至分解后的每个部件都无法被继续分解;在进行词向量训练时,其输入包含目标词语的上下文词语、上下文词语对应的字符、以及目标词语和上下文词语对应字符进一步分解后的字符结构、部件、笔画信息。
[0016]作为优选,所述OCR模型包括目标探测模型和字符识别模型,所述目标探测模型找出图像中文字所在的中心点,宽度以及高度,并以该参数生成图像中的文本框;再将生成的文本框送入字符识别模型,对框内的每个字符进行识别,对齐,并输出最可能的输出结果。
[0017]作为优选,通过数据增强技术增加图像噪声前,先测试不同加噪声的组合方式,找到最能够模拟存在质量问题的真实待识别图像的加噪方式,用于对图像进行数据增强。
[0018]作为优选,所述S2中,利用imgaug框架对含有中文字符的图像加噪声。
[0019]作为优选,所述S2中,仅选择错误字符数量占字符总数不超过五分之一的文本串作为样本,纳入纠错数据集中。
[0020]作为优选,所述S3中,以CBOW的方法进行词向量训练。
[0021]作为优选,所述语言模型在进行微调之前,预先用中文百科数据进行训练。
[0022]作为优选,所述语言模型包括词嵌入层、双向LSTM和若干个全连接层,词嵌入层中的词向量送入双向LSTM后,再经过全连接层输出用于纠错的候选字符概率分布,从而得到字符纠错候选集。
[0023]作为优选,针对OCR识别后出现的待纠错的错误字符,通过人工指定或者自动选择的方式从所述纠错数据集中选择正确字符进行替换。
[0024]与现有的方法相比,本专利技术的有益效果如下:
[0025]1)本专利技术通过数据增强技术,能找到更多OCR后错误的显著特点,提高模型效果;
[0026]2)本专利技术能够解决笔画相同但字符结构不同的识别错误问题;
[0027]3)本专利技术能够在上下文信息不足的情况下,提高生成纠错候选集的质量。
附图说明
[0028]图1是本专利技术的整体流程示意图;
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于中文字符级特征和语言模型的中文OCR纠错方法,其特征在于,步骤如下:S1、针对中文字符数据集,从中提取字符以及每个字符对应的字符结构和部件信息,构建字符结构部件数据;S2、利用图像数据集训练得到OCR模型对含有中文文字的图像进行识别,然后通过数据增强技术增加图像噪声,然后重新利用OCR模型再次识别增加不同噪声后的图像,基于原始图像和增加噪声后图像的识别结果构建具有OCR后错误风格的纠错数据集,纠错数据集中的每个样本包含OCR识别的错误字符、上下文和正确字符;S3、基于所述字符结构部件数据和中文语料构建词向量训练数据集进行词向量训练,其输入包含目标词语的上下文词语、上下文词语对应的字符、以及目标词语和上下文词语对应字符的字符结构和部件信息,训练后得到具有字符结构或部件区分能力的词向量;S4、以S3中训练得到的词向量作为语言模型的词嵌入层训练语言模型,并以所述纠错数据集对语言模型进行微调使其能够适应OCR识别错误风格,最终得到能够针对错误字符生成字符纠错候选集的纠错模型,用于对OCR产生的错误字符进行纠错。2.如权利要求1所述的基于中文字符级特征和语言模型的中文OCR纠错方法,其特征在于,所述字符结构部件数据中,对于每个可拆分部件以递归方式进一步分解为部件对应的字符结构和笔画信息,直至分解后的每个部件都无法被继续分解;在进行词向量训练时,其输入包含目标词语的上下文词语、上下文词语对应的字符、以及目标词语和上下文词语对应字符进一步分解后的字符结构、部件、笔画信息。3.如权利要求1所述的基于中文字符级特征和语言模型的中文OCR纠错方法,其特征在于,所述OCR模型包括目标探测模型和字符识别模型,所述目标探测模型找...

【专利技术属性】
技术研发人员:张寅刘书麟
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1