一种融合语言信息的低资源语种OCR方法技术

技术编号:30142205 阅读:78 留言:0更新日期:2021-09-23 15:07
本发明专利技术所述一种融合语言信息的低资源语种OCR方法,属于OCR技术领域。包括:获取低资源语种的开源文本生成图片并基于图像和文字特性对低资源语种的OCR训练数据增强;基于语种间相似性选取语低资源语种相似度高的高资源语种,应用混合微调迁移策略将高资源语种的OCR模型迁移至低资源语种OCR模型,再基于该OCR模型识别,将识别结果的打分为判断依据,判断识别结果中是否包含错误。针对得分低的语句进行词表探测,定位识别错误的单词并采用多策略融合,以词表和编辑距离为依据生成可能校正方案;最后对OCR识别序列的每一种校正方案进行打分,选择出最佳校正方案。所述方法提升了低资源语种因数据资源稀缺导致OCR识别准确率。率。率。

【技术实现步骤摘要】
一种融合语言信息的低资源语种OCR方法


[0001]本专利技术涉及一种融合语言信息的低资源语种OCR方法,尤其涉及一种基于混合微调策略的训练方法及融合语言信息的文本校正方法,在低资源语种的OCR中通过融合语言信息进行建模且能够在测试集中提升模型的识别能力,属于OCR


技术介绍

[0002]光学字符识别OCR技术模拟人类视觉的智能性,通过对图像进行处理及分析识别出图像中的文字信息,属于计算机视觉和自然语言处理两个研究领域的结合。该技术在图像和文本两种信息载体之间建立了桥梁,可以快速提取图像中文本信息,取代了人工重新录入的方式。
[0003]随着OCR领域研究成果的与日俱增,其技术水平也日趋成熟,但同时,也可以明显发现不同语种间研究数量与技术能力的不均衡性逐渐加剧。究其原因可以发现,性能优良的OCR技术均采用深度学习方法实现,需要大规模训练数据的支持。由于低资源语种数据资源的稀缺性无法满足深度学习方法所需,其OCR能力水平的不足较高资源语种愈发突显。
[0004]在研究低资源语种的OCR技术方面,克服数据资源规模小的限制及本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合语言信息的低资源语种OCR方法,其特征在于,包括以下步骤:步骤1:获取低资源语种的开源文本数据并生成图片,基于图像特性和文字特性,对低资源语种的OCR训练数据集增强,用于提升模型鲁棒性;步骤2:基于迁移学习及语种间的相似性,从语言学角度全面分析所选高资源语种和低资源语种的相似性,选取与低资源语种相似度高的高资源语种,将高资源语种的OCR模型通过混合微调迁移策略迁移至低资源语种OCR任务;步骤3:训练低资源语种OCR模型并构建低资源语种的词表,用于发现OCR识别结果中的错误并生成校正选项依据,具体为:以低资源语种的语言模型对OCR识别结果的打分为判断依据,判断识别结果中是否包含错误;同时,针对得分低的语句进行词表探测,定位其中识别错误的单词,并将识别错误的单词作为校正选项依据;步骤4:针对校正选项依据即识别错误单词的类别,采用多策略融合,基于编辑距离和词表,依据OCR结果中常见错误类型,生成错误单词对应的可能校正选项;步骤5:利用语言模型对OCR识别序列的每一种校正方案进行打分,依据语言模型打分结果,从步骤4中的可能校正选项中选择最优校正方案。2.如权利要求1所述的一种融合语言信息的低资源语种OCR方法,其特征在于,步骤1是利用爬虫技术获取低资源语种的开源文本,并依据文本信息生成图片;结合基于语言学的字符级增强方式,针对低资源语种中的特有字符,通过提高出现频率的方式进行数据增强,增强时也可结合该语种的构词规则生成图片。3.如权利要求2所述的一种融合语言信息的低资源语种OCR方法,其特征在于,步骤2包括以下步骤:步骤2.1选择与待识别低资源语种相似度最高的高资源语种;步骤2.2选取业界先进的OCR模型在高资源语种的OCR数据集上进行预训练,获得源模型;步骤2.3采用混合微调迁移策略将高资源语种OCR模型迁移至低资源语种。4.如权利要求3所述的一种融合语言信息的低资源语种OCR方法,其特征在于,步骤3中所述混合微调迁移策略,包括以下步骤:步骤3.1通过对比高资源语种和低资源语种的字母表统计低资源语种特有的特殊字符;进一步计算低资源语种训练样例的学习成本(Learning Cost)衡量该样例的学习难度,其量化方法如下所示:其中,L
C
表示训练样例的学习成本,L表示某一图片中文本序列的总长度,Avr
L
为低资源语种训练集中单词的平均长度,C
S
表示单张图片中与高资源语种不同的特殊文本字符的总数量,α为特殊文本字符的难度权重;步骤3.2随机选择预训练中的部分高资源语种数据,将其与低资源语种的OCR训练数据按比例混合,可通过对低资源语种数据随机过采样的方式满足混合比例x:(100

x);步骤3.3对低资源语种训练数据集中的全部样例按其学习成本升序排列;在训练过程中以批为...

【专利技术属性】
技术研发人员:冯冲滕嘉皓
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1