用于生成图像识别模型的方法和装置制造方法及图纸

技术编号:20119085 阅读:40 留言:0更新日期:2019-01-16 12:17
本申请实施例公开了用于生成图像识别模型的方法和装置。该方法的一具体实施方式包括:获取第一样本集合,第一样本包括随机文字和利用随机文字生成的文字图像;基于初始神经网络和第一样本集合,利用机器学习的方法训练得到预训练的初始神经网络;获取第二样本集合,第二样本包括文字图像和与文字图像对应的标注信息,标注信息用于指示文字图像中包含的文字;基于预训练的初始神经网络和第二样本集合,利用机器学习的方法训练得到二次训练的初始神经网络作为图像识别模型。该实施方式能够节省训练样本的人工标注成本。

A Method and Device for Generating Image Recognition Model

The embodiment of this application discloses a method and apparatus for generating an image recognition model. One specific implementation of the method includes: acquiring the first sample set, which includes random text and text image generated by random text; training the initial neural network by machine learning based on the initial neural network and the first set; acquiring the second sample set, which includes text image and corresponding text image. The annotation information is used to indicate the text contained in the text image. Based on the pre-training initial neural network and the second sample set, the machine learning method is used to train the second training initial neural network as the image recognition model. The implementation method can save the manual labeling cost of training samples.

【技术实现步骤摘要】
用于生成图像识别模型的方法和装置
本申请实施例涉及计算机
,具体涉及用于生成图像识别模型的方法和装置。
技术介绍
在互联网的冲击下,智能化办公已经成了企业提升工作效率和行业竞争力的重要手段。文字识别技术的发展为提高工作效率、无纸化/智能化办公提供了技术支持。伴随着近几年深度学习的迅猛发展,深度学习技术不断在各个场景下落地,基于深度学习的OCR(OpticalCharacterRecognition,光学字符识别)技术也发展到了一个全新的高度。相关的OCR技术多采用模板匹配的方式进行文字识别。作为示例,可以通过设计字符的分类特征,提取每个字符的特征,与模板字符进行匹配,从而满足特定场景下的文本识别。基于深度学习的OCR技术可以通过海量标注样本数据以及大规模GPU(GraphicsProcessingUnit,图形处理器)集群的计算训练让机器自动学习特征和模型参数,以满足不同场景的文本识别。
技术实现思路
本申请实施例提出了用于生成图像识别模型的方法和装置。第一方面,本申请实施例提供了一种用于生成图像识别模型的方法,该方法包括:获取第一样本集合,第一样本包括随机文字和利用随机文字生成的本文档来自技高网...

【技术保护点】
1.一种用于生成图像识别模型的方法,包括:获取第一样本集合,第一样本包括随机文字和利用随机文字生成的文字图像;基于初始神经网络和所述第一样本集合,利用机器学习的方法训练得到预训练的初始神经网络,使得将第一样本的文字图像输入到预训练后的初始神经网络得到的识别结果中相应随机文字的概率值大于或等于预设概率值;获取第二样本集合,第二样本包括文字图像和与文字图像对应的标注信息,标注信息用于指示文字图像中包含的文字;基于预训练的初始神经网络和所述第二样本集合,利用机器学习的方法训练得到二次训练的初始神经网络,使得将第二样本的文字图像输入到二次训练后的初始神经网络得到的识别结果中相应标注信息中的文字的概率值...

【技术特征摘要】
1.一种用于生成图像识别模型的方法,包括:获取第一样本集合,第一样本包括随机文字和利用随机文字生成的文字图像;基于初始神经网络和所述第一样本集合,利用机器学习的方法训练得到预训练的初始神经网络,使得将第一样本的文字图像输入到预训练后的初始神经网络得到的识别结果中相应随机文字的概率值大于或等于预设概率值;获取第二样本集合,第二样本包括文字图像和与文字图像对应的标注信息,标注信息用于指示文字图像中包含的文字;基于预训练的初始神经网络和所述第二样本集合,利用机器学习的方法训练得到二次训练的初始神经网络,使得将第二样本的文字图像输入到二次训练后的初始神经网络得到的识别结果中相应标注信息中的文字的概率值大于或等于预设概率值,将二次训练后的初始神经网络作为图像识别模型。2.根据权利要求1所述的方法,其中,第一样本通过如下步骤生成:创建随机文字;将所述随机文字转换为文字图像;将所述文字图像与预设的背景图像融合,得到融合后的文字图像;基于所述随机文字和融合后的图像生成第一样本。3.根据权利要求1所述的方法,其中,所述第二样本集合中第二样本的数量小于所述第一样本集合中第一样本的数量,二次训练的学习率小于预训练的学习率。4.根据权利要求1所述的方法,其中,初始神经网络为卷积循环神经网络。5.一种用于识别图像的方法,包括:将待识别图像输入采用如权利要求1-4之一所述的方法生成的图像识别模型中,生成所述待识别图像的第一识别结果,所述待识别图像包括至少一个字符图像,所述第一识别结果包括对所述至少一个字符图像中的字符图像识别出的至少一个候选文字以及字符图像中的文字为相应候选文字的概率值;对于所述至少一个字符图像中的字符图像,确定该字符图像与相邻字符图像具有最大组合概率值时对应的候选文字组合,字符图像之间的组合概率值用于表示字符图像的候选文字之间一起出现的概率值;基于确定的候选文字组合,生成所述待识别图像的第二识别结果。6.根据权利要求5所述的方法,其中,所述将待识别图像输入采用如权利要求1-4之一所述的方法生成的图像识别模型中,生成所述待识别图像的第一识别结果,包括:将所述待识别图像输入所述图像识别模型中,得到初始识别结果,所述初始识别结果包括对所述至少一个字符图像中的字符图像识别出的至少一个文字以及字符图像中的文字为识别出的相应文字的概率值;对于所述至少一个字符图像中的字符图像,从所述初始识别结果中选取概率值大于或等于预设概率阈值的不超过预设数量个文字作为该字符图像的候选文字。7.根据权利要求6所述的方法,其中,所述该字符图像与相邻字符图像具有最大组合概率值时对应的候选文字组合,包括:确定该字符图像的候选文字在相邻字符图像的候选文字条件下的条件概率值;基于该字符图像的候选文字在相邻字符图像的候选文字条件下的条件概率值以及字符图像中的文字为相应候选文字的概率值,确定该字符图像与相邻字符图像之间的最大组合概率值;将该字符图像和相邻字符图像之间具有最大组合概率值时各自的候选文字确定为该字符图像和相邻字符图像的候选文字组合。8.根据权利要求7所述的方法,其中,在确定该字符图像与相邻字符图像具有最大组合概率值时对应的候选文字组合之前,所述方法还包括:基于预设的语料库、所述至少一个字符图像的候选文字,构建n元语言模型,其中,n为自然数,所述n元语言模型用于确定相邻的字符图像的候选文字之间的条件概率值。9.根据权利要求7所述的方法,其中,在确定该字符图像与相邻字符图像具有最大组合概率值时对应的候选文字组合之前,所述方法还包括:对所述第一识别结果进行语义分析,确定要构建的n元语言模型的n的值,其中,n为自然数,所述n元语言模型用于确定相邻的字符图像的候选文字之间的条件概率值;基于预设的语料库、所述至少一个字符图像的候选文字,构建所述n元语言模型。10.一种用于生成图像识别模型的装置,包括:第一样本获取单元,被配置成获取第一样本集合,第一样本包括随机文字和利用随机文字生成的文字图像;预训练单元,被配置成基于初始神经网络和所述第一样本集合,利用机器学习的方法训练得到预训练的初始神经网络,使得将第一样本的...

【专利技术属性】
技术研发人员:郁昌存王德鑫安耀祖
申请(专利权)人:北京京东金融科技控股有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1