【技术实现步骤摘要】
本专利技术的各方面涉及图像处理,并且更具体地涉及字符识别。
技术介绍
1、打印的最终用户数据可能包含损坏和/或劣化的字符(例如,沾污的、模糊的、不清楚的、渗色的或部分缺失的字母或数字)。出现这样的字符可能有多种原因,从扫描错误到文档上的水分或其他外来物质等。这些问题中的任意一个都对光学字符识别(ocr)或图像字符识别(icr)提出了挑战。对字符识别系统进行再训练或微调来解决这样的错误可能是具有挑战性的。例如,利用其进行再训练或微调的示例的数目可能有限。还可能存在以下担忧:训练数据可能有偏差,导致再训练或微调之后的性能下降和/或漂移。为了避免这样的问题,可以采用更大的训练集,但是这可能花费大量时间和金钱,不仅是在运行训练集方面,而且在生成并检查训练集的时间方面。增强现有的数据集也可能导致漂移和/或偏差。
技术实现思路
1、鉴于前述内容,在一个方面,本专利技术的实施方式提供了一种涉及字符数据的数据生成和恢复的方法。在实施方式中,通过创建数据来训练机器学习(ml)系统,解决了日语或更通用的东亚字
...【技术保护点】
1.在包括光学/图像字符识别OICR引擎和机器学习系统的OICR系统中,一种训练所述机器学习系统的方法,所述方法包括:
2.根据权利要求1所述的方法,其中,所述机器学习系统除了所述劣化数据之外还使用附加数据以用于训练。
3.根据权利要求1所述的方法,其中,所述机器学习系统是卷积递归神经网络CRNN,所述CRNN包括卷积神经网络CNN和递归神经网络RNN。
4.根据权利要求3所述的方法,其中,所述CNN产生所述劣化数据,并且所述RNN产生所述校正数据。
5.根据权利要求3所述的方法,其中,利用生成对抗网络(GAN)损失来训
...【技术特征摘要】
1.在包括光学/图像字符识别oicr引擎和机器学习系统的oicr系统中,一种训练所述机器学习系统的方法,所述方法包括:
2.根据权利要求1所述的方法,其中,所述机器学习系统除了所述劣化数据之外还使用附加数据以用于训练。
3.根据权利要求1所述的方法,其中,所述机器学习系统是卷积递归神经网络crnn,所述crnn包括卷积神经网络cnn和递归神经网络rnn。
4.根据权利要求3所述的方法,其中,所述cnn产生所述劣化数据,并且所述rnn产生所述校正数据。
5.根据权利要求3所述的方法,其中,利用生成对抗网络(gan)损失来训练所述cnn,并且利用连接时序分类(ctc)损失来训练所述rnn。
6.在包括光学/图像字符识别oicr引擎和机器学习系统的oicr系统中,一种恢复劣化数据的方法,所述方法包括:在所述机器学习系统中,
7.根据权利要求6所述的方法,其中,所述劣化数据包括字符,所述字符具有合并或缺失的笔画以及背景噪声中的一个或多个。
8.根据权利要求6所述的方法,还包括:响应于确定所述机器学习系统的内容使得有必要将所述机器学习系统的一个或多个方面并入所述oicr系统中,对所述oicr系统进行更改以并入所述一个或多个方面。
9.根据权利要求6所述的方法,其中,所述机器学习系统是卷积递归神经网络crnn,所述crnn包括卷积神经网络cnn和递归神经网络rnn。
10.根据权利要求9所述的方法,其中,所述cnn产生所述劣化数据,并且所述rnn产生所述校正数据。
11.一...
【专利技术属性】
技术研发人员:魏俊超,
申请(专利权)人:柯尼卡美能达美国商务解决方案有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。