一种基于中文字符级特征和语言模型的OCR纠错方法技术

技术编号：30078547 阅读：17 留言：0更新日期：2021-09-18 08:34

本发明专利技术公开了一种基于中文字符级特征和语言模型的中文OCR纠错方法，所述方法包含如下步骤：1)训练一个OCR模型对中文图像进行识别，并伴以数据增强技术获取具有OCR后错误风格的数据；2)引入中文字符笔画结构信息以CBOW的方法进行词向量训练，使联合笔画结构词向量能够把握中文结构和笔画信息；3)以联合笔画结构词向量为基础构建语言模型来生成字符纠错候选集合。与现有的方法相比，本发明专利技术有如下益处：1)通过数据增强技术，能找到更多OCR后错误的显著特点，提高模型效果；2)能够解决笔画相同但字符结构不同的识别错误问题；3)能够在上下文信息不足的情况下，提高生成纠错候选集的质量。质量。质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于中文字符级特征和语言模型的OCR纠错方法

[0001]本专利技术属于字符纠错的
，具体涉及一种基于中文字符级特征并利用语言模型对图片在OCR后的结果进行修正的字符纠错方法

技术介绍

[0002]光学字符识别(OCR)技术在文本处理系统中是非常重要的一部分，该技术的目的是通过采样，照相等光学输入手段获取纸质文档，或历史文献上的文字信息，再利用各种模式识别算法将其转换为计算机可操作的文字。其主要应用场景包括身份证证件识别、以及车牌号识别等。
[0003]目前，基于深度神经网络(DNN)的OCR技术已经能够达到一个较为显著的准确率，然而，目前的工作仍然是在较为规范的数据集上得到的。因此，当应用于现实的真实场景时，出现的许多问题会导致仅基于DNN的OCR系统无法正确工作，比如图片信息丢失部分重要数据、图片倾斜造成的整体信息偏差、图片质量差导致的噪声问题等。所以为了应对图像质量可能导致的问题，许多 OCR识别后处理纠错技术也应运而生。
[0004]但是目前的纠错领域，较多的工作都基于英文或者类似的基础字符较少的语言，由于字符的类别少，它们之间的相似性比较有限，所以纠错工作较为轻松。然而在中文，日语等基础字符较多的语言里进行纠错却相当困难。尤其是中文，GBK编码中的21003个基础字符使得纠错时的相似字符候选集过多，即便只考虑中文的常用字GB2312的3755个一级汉字，相对于英文的52个基础字符也是个巨额数字。
[0005]此外，目前大多数的OCR纠错工作仅在以字符为基本组成的数据进行，如...

【技术保护点】

【技术特征摘要】
1.一种基于中文字符级特征和语言模型的中文OCR纠错方法，其特征在于，步骤如下：S1、针对中文字符数据集，从中提取字符以及每个字符对应的字符结构和部件信息，构建字符结构部件数据；S2、利用图像数据集训练得到OCR模型对含有中文文字的图像进行识别，然后通过数据增强技术增加图像噪声，然后重新利用OCR模型再次识别增加不同噪声后的图像，基于原始图像和增加噪声后图像的识别结果构建具有OCR后错误风格的纠错数据集，纠错数据集中的每个样本包含OCR识别的错误字符、上下文和正确字符；S3、基于所述字符结构部件数据和中文语料构建词向量训练数据集进行词向量训练，其输入包含目标词语的上下文词语、上下文词语对应的字符、以及目标词语和上下文词语对应字符的字符结构和部件信息，训练后得到具有字符结构或部件区分能力的词向量；S4、以S3中训练得到的词向量作为语言模型的词嵌入层训练语言模型，并以所述纠错数据集对语言模型进行微调使其能够适应OCR识别错误风格，最终得到能够针对错误字符生成字符纠错候选集的纠错模型，用于对OCR产生的错误字符进行纠错。2.如权利要求1所述的基于中文字符级特征和语言模型的中文OCR纠错方法，其特征在于，所述字符结构部件数据中，对于每个可拆分部件以递归方式进一步分解为部件对应的字符结构和笔画信息，直至分解后的每个部件都无法被继续分解；在进行词向量训练时，其输入包含目标词语的上下文词语、上下文词语对应的字符、以及目标词语和上下文词语对应字符进一步分解后的字符结构、部件、笔画信息。3.如权利要求1所述的基于中文字符级特征和语言模型的中文OCR纠错方法，其特征在于，所述OCR模型包括目标探测模型和字符识别模型，所述目标探测模型找...

【专利技术属性】
技术研发人员：张寅，刘书麟，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人