基于笔画扰动与后处理的手写体识别模型性能的提升方法技术

技术编号:32804760 阅读:23 留言:0更新日期:2022-03-26 19:56
本发明专利技术涉及一种基于笔画扰动与后处理的手写文字识别模型性能的提升方法,具体包括以下步骤:S1基于笔画扰动的手写体数据集的制作:首先通过笔画提取,获得笔画像素联通区域,再对连通区域内的笔画进行笔画扰动,从而获得具有多样性的手写体数据集;S2模型训练:将步骤S1中获得的手写体数据集采用文本识别模型进行训练,提取文本图片的特征,并获得模型预测结果;S3后处理:对模型预测结果进行分词,再判断是否存在可疑词语,若存在可疑词语,则用候选字符进行替换并更正可疑词语,从而获得预测结果。该方法有效提升文本行准确率,尤其是对一些较为模糊或尺寸较小的图片,有良好的提升效果。升效果。升效果。

【技术实现步骤摘要】
基于笔画扰动与后处理的手写体识别模型性能的提升方法


[0001]本专利技术涉及图像处理与自然语言处理
,尤其涉及一种基于笔画扰动与后处理的手写文字识别模型性能的提升方法。

技术介绍

[0002]文本识别近年来取得了阶段性的突破。模型的准确性取决于作为输入的图像的质量与模型准确性。而模型准确性取决于模型结构已经训练数据集的多样性。
[0003]通常评估一个文字识别模型的准确性分别有平均编辑距离、字符识别准确率、文本行识别准确率。平均编辑距离是指将预测结果转换成真实结果所需的最少的编辑次数。其中编辑方式包括替换字符、插入字符、删除字符。平均编辑距离越小说明识别率越高。字符识别准确率即识别对的字符数占总字符数的比例。文本行识别准确率即识别对的文本行占总文本行的比例。然而,在中文文本行识别的实际应用中面临的一个挑战是:字符识别准确率往往高于文本行识别的准确率。如图1所示(图片来源:A Fast Alignment Scheme for Automatic OCR Evaluation of Books by Yalniz,Ismet an本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于笔画扰动与后处理的手写文字识别模型性能的提升方法,其特征在于,具体包括以下步骤:S1基于笔画扰动的手写体数据集的制作:首先通过笔画提取,获得笔画像素联通区域,再对连通区域内的笔画进行笔画扰动,从而获得具有多样性的手写体数据集;S2模型训练:将步骤S1中获得的手写体数据集采用文本识别模型进行训练,提取文本图片的特征,并获得模型预测结果;S3后处理:对模型预测结果进行分词,再判断是否存在可疑词语,若存在可疑词语,则用候选字符进行替换并更正可疑词语,从而获得预测结果。2.根据权利要求1所述的基于笔画扰动与后处理的手写文字识别模型性能的提升方法,其特征在于,所述步骤S1具体包括以下步骤:S11笔画提取:首先找到文本行的外接矩形框,其次从外接矩形框的第一个像素点开始分别向上、下、左、右四个方向进行遍历,寻找像素点的联通像素点,从而获得笔画像素联通区域;S12笔画扰动:在获得笔画像素联通区域后,对笔画像素联通区域内的字体笔画进行笔画扰动,扰动方法包括旋转、畸变和位置偏移,获得多样性的手写字体,并存入手写字体数据集。3.根据权利要求1所述的基于笔画扰动与后处理的手写文字识别模型性能的提升方法,其特征在于,所述步骤S2模型训练采用卷积循环神经网络CRNN,所述卷积循环神经网络的结构包括卷积层、循环网络层和转录层;所述卷积层采用VGG16的结构,对输入的图片进行特征图的提取;所述循环网络层采用三层BiLSTM;所述转录层采用CTC算法,将RNN模型预测出的标签转换成预测结果,从而获得模型预测结果。4.根据权利要求3所述的基于笔画扰动与后处理的手写文字识别模型性能的提升方法,其特征在于,所述步骤S3后处理的具体步骤包括:S31对模型预测结果进行分词:首先对所述步骤S2中的模型预测结果根据词性采用分词算法进行分词,获得列表L;S32判断可疑词语:所述步骤S31中获得的列表L中的每个元素为一个词或一个字符,通过遍历列表L中的每个元素来判断是否存可疑词语,若存在可疑词语,则用候选字符进行替换并更正可疑词语。5.根据权利要求4所述的基于笔画扰动与后处理的手写文字识别模型性能的提升方法,其特征在于,所述步骤S31采用分词算法进行分词的具体步骤为:S311:基于trie树,生成句子中所有词可构成的DAG,DAG是有向无环图;在建立好trie树之后,进行查词操作,即可对待分词的句子找出全部可能的句子进行切分,生成DAG;其中,生成的DAG的健为起始字符的位置,值为一个列表,列表中的每个元素都代表结束词的位置,表示以健起,以列表中的元素X结束的词是词典中存在的词语;S312:动态规划求出最大概率的分词路径;在得到所有可能的切分方式构成的有向无环图后,能够发现从起点到终点存在多条路径,即存在多种分词结果;因此采用动态规划计算最大概率路径;首先初始化路径route,从句子最右侧开始,加入当前词语,判断当前词语是否使分词路径的概率p变大,若变大,则把该词语和p加入到路径route中,故在计算最大概率路径时每到达一个节点,该节点前面的节点到终点的最大路径概率则已经计算出。
6.根据权利要求4所述的基于笔画扰动与后处理的手写文字识别模型性能的提升方法,其特征在于,所述步骤S32中通过遍历列表L中的每个元素来判断是否存可疑词语具体步骤为:S321:创建一个词频字典freq,字典的...

【专利技术属性】
技术研发人员:孙羽勃陈大龙夏芸王庆刚刘清华
申请(专利权)人:南京华苏科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1