字符识别模型的生成方法、装置、设备及介质制造方法及图纸

技术编号:21116543 阅读:22 留言:0更新日期:2019-05-16 09:13
本公开实施例公开了一种字符识别模型的生成方法、装置、设备及介质。该方法包括:根据与语料信息对应的Unicode获取与语料信息中各字符对应的标准字符图像;如果确定语料信息中存在变体字符,则对与变体字符对应的标准字符图像进行修正;根据语料信息内容将各标准字符图像按顺序合并为一张字符图片;将字符图片和与语料信息对应的文本对应作为一组字符识别训练样本数据;采用至少一组字符识别训练样本数据对标准识别模型进行训练,生成字符识别模型。上述方法为训练字符识别模型快速提供大量且正确率高的针对小语种语言的训练样本,以使字符识别模型有效地识别对应的小语种字符,解决了人工构造训练样本时存在的效率低且成本高的问题。

Generation Method, Device, Equipment and Media of Character Recognition Model

【技术实现步骤摘要】
字符识别模型的生成方法、装置、设备及介质
本公开实施例涉及数据技术,尤其涉及一种字符识别模型的生成方法、装置、设备及介质。
技术介绍
OCR(OpticalCharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。为了提高OCR识别模型对小语种文字(例如是印地语)的识别正确率,需要大量的针对小语种文字的字符识别训练样本数据对OCR识别模型进行训练,进而如何得到大量的字符识别训练样本数据便变得至关重要。针对小语种文字的字符识别训练样本数据往往是通过人工手动构造的,例如,将图片中的小语种文字手动敲成TXT文本,然后将其对应作为一种字符识别训练样本数据。由于懂小语种的人比较少,因此能够胜任这项相对枯燥工作的人就更少了,而且,人工构造字符识别训练样本数据的效率比较低,人工成本却比较高。
技术实现思路
本公开实施例提供一种字符识别模型的生成方法、装置、设备及介质,目的在于为生成字符识别模型自动且快速地构造大量针对小语种文字的字符识别训练样本数据,替代人工低效的样本数据构造工作,进而使生成的字符识别模型能够有效识别对应的小语种文字。第一方面,本公开实施例提供了一种字符识别模型的生成方法,该方法包括:根据与语料信息对应的Unicode获取与所述语料信息中各字符对应的标准字符图像;如果确定所述语料信息中存在变体字符,则对与所述变体字符对应的标准字符图像进行修正;根据所述语料信息内容将各所述标准字符图像按顺序合并为一张字符图片;将所述字符图片和与所述语料信息对应的文本对应作为一组字符识别训练样本数据;采用至少一组字符识别训练样本数据,对标准识别模型进行训练,生成字符识别模型。进一步的,所述对与所述变体字符对应的标准字符图像进行修正,包括:根据所述变体字符的变体规则确定与所述变体字符对应的原始标准字符图像;重新获取与所述变体字符匹配的变体字符图像;将所述变体字符图像作为与所述变体字符对应的新的标准字符图像对原始标准字符图像进行替换。进一步的,所述根据所述语料信息内容将各所述标准字符图像按顺序合并为一张字符图片,包括:根据所述语料信息内容将各所述标准字符图像按顺序添加至空白背景图片中。进一步的,在所述将所述标准字符图像按顺序合并为一张字符图片之后,还包括:对所述字符图片进行图像处理,其中,所述图像处理包括下述至少一项:拉伸变形处理、颜色处理、膨胀处理、腐蚀处理和添加噪声处理。进一步的,所述根据与语料信息对应的Unicode获取与所述语料信息中各字符对应的标准字符图像,包括:根据与语料信息对应的Unicode在字体库中获取与所述语料信息中各字符对应的至少两种字体形式的标准字符图像;所述根据所述语料信息内容将各所述标准字符图像按顺序合并为一张字符图片,包括:根据语料信息内容将相同字体形式的各所述标准字符图像按顺序合并之后构造至少两张字符图片;所述将所述字符图片和与所述语料信息对应的文本对应作为一组字符识别训练样本数据,包括:将所述至少两张字符图片分别和与所述语料信息对应的文本对应作为至少两组字符识别训练样本数据。进一步的,所述语料信息的语种为印地语。进一步的,所述语料信息为通过网络爬虫方式获取的且能够通过一行进行显示的语料信息;所述字符图片为字符行图像。进一步的,所述标准识别模型为原始机器学习模型;所述采用至少一组字符识别训练样本数据,对标准识别模型进行训练,生成字符识别模型,包括:采用至少一组字符识别训练样本数据以及标准字符识别训练样本集,对所述原始机器学习模型进行训练,生成字符识别模型。第二方面,本公开实施例还提供了一种字符识别模型的生成装置,该装置包括:标准字符图像获取模块,用于根据与语料信息对应的Unicode获取与所述语料信息中各字符对应的标准字符图像;字符图像修正模块,用于如果确定所述语料信息中存在变体字符,则对与所述变体字符对应的标准字符图像进行修正;字符图片生成模块,用于根据所述语料信息内容将各所述标准字符图像按顺序合并为一张字符图片;训练样本数据生成模块,用于将所述字符图片和与所述语料信息对应的文本对应作为一组字符识别训练样本数据;模型训练模块,用于采用至少一组字符识别训练样本数据,对标准识别模型进行训练,生成字符识别模型。进一步的,所述字符图像修正模块包括:原始标准字符图像确定单元、变体字符图像获取单元和字符图像替换单元,其中,原始标准字符图像确定单元,用于根据所述变体字符的变体规则确定与所述变体字符对应的原始标准字符图像;变体字符图像获取单元,用于重新获取与所述变体字符匹配的变体字符图像;字符图像替换单元,用于将所述变体字符图像作为与所述变体字符对应的新的标准字符图像对原始标准字符图像进行替换。进一步的,所述字符图片生成模块具体用于根据所述语料信息内容将各所述标准字符图像按顺序添加至空白背景图片中。进一步的,所述字符识别模型的生成装置还包括:图像处理模块,用于在将所述标准字符图像按顺序合并为一张字符图片之后,对所述字符图片进行图像处理,其中,所述图像处理包括下述至少一项:拉伸变形处理、颜色处理、膨胀处理、腐蚀处理和添加噪声处理。进一步的,所述标准字符图像获取模块,具体用于根据与语料信息对应的Unicode在字体库中获取与所述语料信息中各字符对应的至少两种字体形式的标准字符图像;所述字符图片生成模块,具体用于根据语料信息内容将相同字体形式的各所述标准字符图像按顺序合并之后构造至少两张字符图片;所述训练样本数据生成模块,具体用于将所述至少两张字符图片分别和与所述语料信息对应的文本对应作为至少两组字符识别训练样本数据。进一步的,所述语料信息的语种为印地语。进一步的,所述语料信息为通过网络爬虫方式获取的且能够通过一行进行显示的语料信息;所述字符图片为字符行图像。进一步的,所述标准识别模型为原始机器学习模型;所述模型训练模块,具体用于采用至少一组字符识别训练样本数据以及标准字符识别训练样本集,对所述原始机器学习模型进行训练,生成字符识别模型。第三方面,本公开实施例还提供了一种电子设备,该电子设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本公开任意实施例所述的字符识别模型的生成方法。第四方面,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开任意实施例所述的字符识别模型的生成方法。本公开实施例通过根据与语料信息对应的Unicode获取与语料信息中各字符对应的标准字符图像之后构造字符图片,进而将字符图片和与语料信息对应的文本对应作为一组字符识别训练样本数据的技术方案来实现快速生成大量的字符识别训练样本,以此来替代通过人工来生成字符识别训练样本的方式,提高了字符识别训练样本的生成效率,进而可以为训练字符识别模型快速且大量地提供样本。在构造样本数据过程中,还解决了由于小语种语言(例如是印地语)中存在的变体字符而导致的样本数据构造错误的问题,进而提升了构建的字符识别训练样本的正确率。通过上述技术方案可以为训练字符识别模型快速提供大量且正确率高的针本文档来自技高网...

【技术保护点】
1.一种字符识别模型的生成方法,其特征在于,包括:根据与语料信息对应的Unicode获取与所述语料信息中各字符对应的标准字符图像;如果确定所述语料信息中存在变体字符,则对与所述变体字符对应的标准字符图像进行修正;根据所述语料信息内容将各所述标准字符图像按顺序合并为一张字符图片;将所述字符图片和与所述语料信息对应的文本对应作为一组字符识别训练样本数据;采用至少一组字符识别训练样本数据,对标准识别模型进行训练,生成字符识别模型。

【技术特征摘要】
1.一种字符识别模型的生成方法,其特征在于,包括:根据与语料信息对应的Unicode获取与所述语料信息中各字符对应的标准字符图像;如果确定所述语料信息中存在变体字符,则对与所述变体字符对应的标准字符图像进行修正;根据所述语料信息内容将各所述标准字符图像按顺序合并为一张字符图片;将所述字符图片和与所述语料信息对应的文本对应作为一组字符识别训练样本数据;采用至少一组字符识别训练样本数据,对标准识别模型进行训练,生成字符识别模型。2.根据权利要求1所述的方法,其特征在于,所述对与所述变体字符对应的标准字符图像进行修正,包括:根据所述变体字符的变体规则确定与所述变体字符对应的原始标准字符图像;重新获取与所述变体字符匹配的变体字符图像;将所述变体字符图像作为与所述变体字符对应的新的标准字符图像对原始标准字符图像进行替换。3.根据权利要求1所述的方法,其特征在于,所述根据所述语料信息内容将各所述标准字符图像按顺序合并为一张字符图片,包括:根据所述语料信息内容将各所述标准字符图像按顺序添加至空白背景图片中。4.根据权利要求3所述的方法,其特征在于,在所述将所述标准字符图像按顺序合并为一张字符图片之后,还包括:对所述字符图片进行图像处理,其中,所述图像处理包括下述至少一项:拉伸变形处理、颜色处理、膨胀处理、腐蚀处理和添加噪声处理。5.根据权利要求1所述的方法,其特征在于,所述根据与语料信息对应的Unicode获取与所述语料信息中各字符对应的标准字符图像,包括:根据与语料信息对应的Unicode在字体库中获取与所述语料信息中各字符对应的至少两种字体形式的标准字符图像;所述根据所述语料信息内容将各所述标准字符图像按顺序合并为一张字符图片,包括:根据语料信息内容将相同字体形式的各所述标准字符图像按顺序合并之后构造至少两张字符图片;所述将所述字符图片和与所述语料信息对应的文本对应作为一组字符识别训练样本数据,包括:将所述至少两张字符图片分别和与所述语料信息对应的文本对应作为至少两组字符识别训练样本数据。6.根据权利要求1-5任一项所述的方法,其特征在于,所述语料信息的语种为印地语。7.根据权利要求1-5任一项所述的方法,其特征在于,所述语料信息为通过网络爬虫方式获取的且能够通过一行进行显示的语料信息;所述字符图片为字符行图像。8.根据权利要求1-5任一项所述的方法,其特征在于,所述标准识别模型为原始机器学习模型;所述采用至少一组字符识别训练样本数据,对标准识别模型进行训练,生成字符识别模型,包括:采用至少一组字符识别训练样本数据以及标准字符识别训练样本集,对所述原始机器学习模型进行训练,生成字符识别模型。9.一种字符识别模型的生成装置,其特征在于,包括:标准字符图像获取模块,用于根据与语料信息对应的Unicode获取与所述语料信息中各字符对应的标准字符图像;字符图像修正模块,用于如果确...

【专利技术属性】
技术研发人员:卢永晨
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1