字符识别模型的生成方法、装置、设备及介质制造方法及图纸

技术编号：21116543 阅读：22 留言：0更新日期：2019-05-16 09:13

本公开实施例公开了一种字符识别模型的生成方法、装置、设备及介质。该方法包括：根据与语料信息对应的Unicode获取与语料信息中各字符对应的标准字符图像；如果确定语料信息中存在变体字符，则对与变体字符对应的标准字符图像进行修正；根据语料信息内容将各标准字符图像按顺序合并为一张字符图片；将字符图片和与语料信息对应的文本对应作为一组字符识别训练样本数据；采用至少一组字符识别训练样本数据对标准识别模型进行训练，生成字符识别模型。上述方法为训练字符识别模型快速提供大量且正确率高的针对小语种语言的训练样本，以使字符识别模型有效地识别对应的小语种字符，解决了人工构造训练样本时存在的效率低且成本高的问题。

Generation Method, Device, Equipment and Media of Character Recognition Model

全部详细技术资料下载

【技术实现步骤摘要】
字符识别模型的生成方法、装置、设备及介质
本公开实施例涉及数据技术，尤其涉及一种字符识别模型的生成方法、装置、设备及介质。
技术介绍
OCR(OpticalCharacterRecognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。为了提高OCR识别模型对小语种文字(例如是印地语)的识别正确率，需要大量的针对小语种文字的字符识别训练样本数据对OCR识别模型进行训练，进而如何得到大量的字符识别训练样本数据便变得至关重要。针对小语种文字的字符识别训练样本数据往往是通过人工手动构造的，例如，将图片中的小语种文字手动敲成TXT文本，然后将其对应作为一种字符识别训练样本数据。由于懂小语种的人比较少，因此能够胜任这项相对枯燥工作的人就更少了，而且，人工构造字符识别训练样本数据的效率比较低，人工成本却比较高。
技术实现思路
本公开实施例提供一种字符识别模型的生成方法、装置、设备及介质，目的在于为生成字符识别模型自动且快速地构造大量针对小语种文字的字符识别训练样本数据，替代人工低效的样本数据构造工作，进而使生成的字符识别模型能够有效识别对应的小语种文字。第一方面，本公开实施例提供了一种字符识别模型的生成方法，该方法包括：根据与语料信息对应的Unicode获取与所述语料信息中各字符对应的标准字符图像；如果确定所述语料信息中存在变体字符，则对与所述变体字符对应的标准字符图像进行修正；根据所述语料信息内容将各所述标准字符图像按顺序合并为一张字符图片；将所述字符图片和与...

【技术保护点】
1.一种字符识别模型的生成方法，其特征在于，包括：根据与语料信息对应的Unicode获取与所述语料信息中各字符对应的标准字符图像；如果确定所述语料信息中存在变体字符，则对与所述变体字符对应的标准字符图像进行修正；根据所述语料信息内容将各所述标准字符图像按顺序合并为一张字符图片；将所述字符图片和与所述语料信息对应的文本对应作为一组字符识别训练样本数据；采用至少一组字符识别训练样本数据，对标准识别模型进行训练，生成字符识别模型。

【技术特征摘要】
1.一种字符识别模型的生成方法，其特征在于，包括：根据与语料信息对应的Unicode获取与所述语料信息中各字符对应的标准字符图像；如果确定所述语料信息中存在变体字符，则对与所述变体字符对应的标准字符图像进行修正；根据所述语料信息内容将各所述标准字符图像按顺序合并为一张字符图片；将所述字符图片和与所述语料信息对应的文本对应作为一组字符识别训练样本数据；采用至少一组字符识别训练样本数据，对标准识别模型进行训练，生成字符识别模型。2.根据权利要求1所述的方法，其特征在于，所述对与所述变体字符对应的标准字符图像进行修正，包括：根据所述变体字符的变体规则确定与所述变体字符对应的原始标准字符图像；重新获取与所述变体字符匹配的变体字符图像；将所述变体字符图像作为与所述变体字符对应的新的标准字符图像对原始标准字符图像进行替换。3.根据权利要求1所述的方法，其特征在于，所述根据所述语料信息内容将各所述标准字符图像按顺序合并为一张字符图片，包括：根据所述语料信息内容将各所述标准字符图像按顺序添加至空白背景图片中。4.根据权利要求3所述的方法，其特征在于，在所述将所述标准字符图像按顺序合并为一张字符图片之后，还包括：对所述字符图片进行图像处理，其中，所述图像处理包括下述至少一项：拉伸变形处理、颜色处理、膨胀处理、腐蚀处理和添加噪声处理。5.根据权利要求1所述的方法，其特征在于，所述根据与语料信息对应的Unicode获取与所述语料信息中各字符对应的标准字符图像，包括：根据与语料信息对应的Unicode在字体库中获取与所述语料信息中各字符对应的至少两种字体形式的标准字符图像；所述根据所述语料信息内容将各所述标准字符图像按顺序合并为一张字符图片，包括：根据语料信息内容将相同字体形式的各所述标准字符图像按顺序合并之后构造至少两张字符图片；所述将所述字符图片和与所述语料信息对应的文本对应作为一组字符识别训练样本数据，包括：将所述至少两张字符图片分别和与所述语料信息对应的文本对应作为至少两组字符识别训练样本数据。6.根据权利要求1-5任一项所述的方法，其特征在于，所述语料信息的语种为印地语。7.根据权利要求1-5任一项所述的方法，其特征在于，所述语料信息为通过网络爬虫方式获取的且能够通过一行进行显示的语料信息；所述字符图片为字符行图像。8.根据权利要求1-5任一项所述的方法，其特征在于，所述标准识别模型为原始机器学习模型；所述采用至少一组字符识别训练样本数据，对标准识别模型进行训练，生成字符识别模型，包括：采用至少一组字符识别训练样本数据以及标准字符识别训练样本集，对所述原始机器学习模型进行训练，生成字符识别模型。9.一种字符识别模型的生成装置，其特征在于，包括：标准字符图像获取模块，用于根据与语料信息对应的Unicode获取与所述语料信息中各字符对应的标准字符图像；字符图像修正模块，用于如果确...

【专利技术属性】
技术研发人员：卢永晨，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人