图片文字识别模型训练方法、装置及文字识别系统制造方法及图纸

技术编号:22056771 阅读:26 留言:0更新日期:2019-09-07 15:47
本发明专利技术公开了图片文字识别模型训练方法、装置及文字识别系统。训练方法包括:S1、获取原始图片,从文本库中随机选择词语以生成测试文字;S2、随机结合测试文字和原始图片以形成测试图集;S3、训练CTPN模型以形成文字定位模型,训练CRNN模型以形成文字识别模型;S4、依次结合文字定位模型、文字识别模型以形成图片文字识别模型。本发明专利技术克服了现有文字识别算法针对于特定种类的图片中的文字识别正确率不高的问题,有效提高了特定种类的图片中的文字识别的准确率,从而为后续的违规文字或图片的处理提供识别的基础。

Training Method, Device and Character Recognition System of Picture Character Recognition Model

【技术实现步骤摘要】
图片文字识别模型训练方法、装置及文字识别系统
本专利技术涉及图像处理领域,尤其是一种图片文字识别模型训练方法、装置及文字识别系统。
技术介绍
网络上展现图片,俗称“晒”的行为,作为社交的一环,能够满足人的心理方面的追求,同时,由于风俗、法律的限制,针对图片所呈现的内容不能超过一定限制,例如不能涉黄,不能包括侮辱词语等。目前的图片鉴黄算法多基于深度学习模型构建多层视觉感知机,采用Resnet、Densenet、Inception以及基于此改进的神经网络结构,实现了快速地识别多尺度色情内容,取得了不错的效果。同时也存在一些问题:图片识别、鉴定的准确度不高,例如,容易把社区的孕妇图片识别为黄色图片;未能准确识别年幼宝宝相册、视频中的不合规的内容;另一方面,由于晒的图片涉及的场景很复杂,现有的OCR(OpticalCharacterRecognition,光学字符识别)算法所构建的文字识别的模型对于社区图片上所呈现的文字识别效果较弱。
技术实现思路
本专利技术实施例旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术实施例的一个目的是提供一种图片文字识别模型训练方法、装置及文字识别系统。本专利技术所采用的技术方案是:第一方面,本专利技术实施例提供一种图片文字识别模型训练方法,包括:S1、获取指定用户群体上传的原始图片,从文本库中随机选择词语并进行字体变形以生成测试文字;S2、随机结合所述测试文字和所述原始图片以形成测试图集;S3、基于测试图集训练CTPN模型以形成文字定位模型,基于测试文字训练CRNN模型以形成文字识别模型;S4、依次结合所述文字定位模型、文字识别模型以形成图片文字识别模型。优选地,S1与S2之间还包括:S1.5、基于人工方式区分并标记所述原始图片,建立基于Resnet-50的变体模型,基于所述变体模型和被标记的原始图片进行训练以生成鉴别模型,对应的,S4包括依次结合所述鉴别模型、所述文字定位模型、文字识别模型以形成图片文字识别模型。优选地,建立基于Resnet-50的变体模型包括:建立神经网络模型Resnet-50,修改卷积层的深层过滤器的参数为[32,32,128],标记修改参数后的神经网络模型为Resnet-50的变体模型。优选地,S1.5包括:通过开源图集训练所述变体模型,得到预训练模型;根据预设的图片分类标准的种类数修改所述变体模型最后一层的全连接层,并加载预训练模型的参数以形成训练模型;基于所述训练模型和被标记的原始图片进行训练以生成鉴别模型。优选地,所述鉴别模型的参数具体包括:随机数种子seed、学习率learning_rate、批尺寸batch_size和交叉熵损失函数的权重pos_weight。优选地,所述预设的图片分类标准包括以下类别:正常、色情、性感、孕妇、小男孩和小女孩;标记所述色情、性感和小女孩类别图片对应的交叉熵损失函数的权重,高于标记正常和小男孩类别图片对应的交叉熵损失函数的权重。优选地,确定交叉熵损失函数的权重的包括:设置原始权重,确定每一个标记的单独权重的最优间隔,在最优间隔的范围内随机组合全部标记的单独权重以形成权重组合,根据所述权重组合设置多个鉴别模型,根据验证集和测试集指标训练所述多个鉴别模型以确定最优的鉴别模型的权重组合为交叉熵损失函数的权重。优选地,所述鉴别模型的参数具体取值为:seed取值为1024;learning_rate取值为0.00025;batch_size取值为32;pos_weight取值为1:5:3:1:1:3,其中,所述权重分别对应标记的类别为正常:色情:性感:孕妇:小男孩:小女孩。所述文字定位模型的参数包括batch_size、learning_rate、momentum和;其中,batch_size为批尺寸,取值为64;learning_rate为学习率,取值为0.00001;momentum为冲量,取值为0.9;gamma为伽马值,取值为0.1;所述文字识别模型的参数包括batch_size和learning_rate;batch_size为批尺寸,取值为128;learning_rate为学习率,取值为0.0001。第二方面,本专利技术实施例提供一种图片文字识别方法,包括:获取指定用户群体上传的原始图片,从文本库中随机选择词语并进行字体变形以生成测试文字;随机结合所述测试文字和所述原始图片以形成测试图集;基于测试图集训练CTPN模型以形成文字定位模型,基于测试文字训练CRNN模型以形成文字识别模型;依次结合所述文字定位模型、文字识别模型以形成图片文字识别模型;获取指定客户群体上传的待鉴别图片,通过所述图片文字识别模型处理所述待鉴别图片。第三方面,本专利技术实施例提供一种图片文字识别模型训练装置,用于执行上述训练方法,其特征在于,包括:资料获取模块,用于获取指定用户群体上传的原始图片,从文本库中随机选择词语并进行字体变形以生成测试文字;资料处理模块,用于随机结合所述测试文字和所述原始图片以形成测试图集;训练模块,用于基于测试图集训练CTPN模型以形成文字定位模型,基于测试文字训练CRNN模型以形成文字识别模型;结合模块,用于依次结合所述文字定位模型、文字识别模型以形成图片文字识别模型。第四方面,本专利技术提供一种图片文字识别系统,包括APP端、云服务器和图片文字识别模型,所述APP端连接所述云服务器,所述云服务器连接所述图片文字识别模型。优选地,还包括CDN,所述CDN分别连接所述云服务器和所述图片文字识别模型。本专利技术实施例的有益效果是:通过获取指定用户群体的原始图片以作为合适的图片背景,通过随机选择词语并进行字体变形以适应各种文字,基于测试图集训练CTPN模型,基于测试文字训练CRNN模型能够针对特定的文字、背景的组合形成合理训练以形成图片文字识别模型。附图说明图1是本专利技术实施例一种图片文字识别模型训练方法的示意图;图2是本专利技术实施例的图片文字识别改进方法的示意图;图3是本专利技术实施例的一种图片文字识别模型训练装置的示意图;图4是本专利技术实施例的一种图片文字识别系统的示意图。具体实施方式下面结合说明书附图和具体实施方式对本专利技术做出详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。涉及的技术用语包括:CTPN(DetectingTextinNaturalImagewithConnectionistTextProposalNetwork,连接文本提议网络),用于在卷积特征映射中的一系列细粒度文本提议中检测文本行。CRNN(ConvolutionalRecurrentNeuralNetwork,卷积循环神经网络),是华中科技大学在发表的论文《AnEnd-to-EndTrainableNeuralNetworkforImage-basedSequenceRecognitionandItsApplicationtoSceneTextRecognition》提出的一个识别文本的方法,该模型主要用于解决基于图像的序列识别问题,特别是场景文字识别问题。CDN(ContentDeliveryNetwork,即内容分发网络),用于通过在现有的Internet中增加一层新的网络架构,将网站的内容发布到最接近用户的网络"本文档来自技高网...

【技术保护点】
1.一种图片文字识别模型训练方法,其特征在于,包括:S1、获取指定用户群体上传的原始图片,从文本库中随机选择词语并进行字体变形以生成测试文字;S2、随机结合所述测试文字和所述原始图片以形成测试图集;S3、基于测试图集训练CTPN模型获得文字定位模型,基于测试文字训练CRNN模型获得文字识别模型;S4、依次结合所述文字定位模型、文字识别模型形成图片文字识别模型。

【技术特征摘要】
1.一种图片文字识别模型训练方法,其特征在于,包括:S1、获取指定用户群体上传的原始图片,从文本库中随机选择词语并进行字体变形以生成测试文字;S2、随机结合所述测试文字和所述原始图片以形成测试图集;S3、基于测试图集训练CTPN模型获得文字定位模型,基于测试文字训练CRNN模型获得文字识别模型;S4、依次结合所述文字定位模型、文字识别模型形成图片文字识别模型。2.根据权利要求1所述的一种图片文字识别模型训练方法,其特征在于,还包括:S1.5、按照预设的图片分类标准区分并标记所述原始图片;构建基于Resnet-50的变体模型,并基于被标记的原始图片进行训练获得鉴别模型;对应的,S4包括依次结合所述鉴别模型、所述文字定位模型、文字识别模型以形成图片文字识别模型。3.根据权利要求2所述的一种图片文字识别模型训练方法,其特征在于,构建基于Resnet-50的变体模型包括:建立神经网络模型Resnet-50,修改卷积层的深层过滤器的参数为[32,32,128],标记修改参数后的神经网络模型为Resnet-50的变体模型。4.根据权利要求2所述的一种图片文字识别模型训练方法,其特征在于,S1.5包括:通过开源图集训练所述变体模型,得到预训练模型;根据预设的图片分类标准的种类数修改所述变体模型最后一层的全连接层,并加载预训练模型的参数以形成训练模型;基于所述训练模型和被标记的原始图片进行训练以生成鉴别模型。5.根据权利要求2所述的一种图片文字识别模型训练方法,其特征在于,所述鉴别模型的参数具体包括:随机数种子seed、学习率learning_rate、批尺寸batch_size和交叉熵损失函数的权重pos_weight。6.根据权利要求5所述的一种图片文字识别模型训练方法,其特征在于,所述预设的图片分类标准包括以下类别:正常、色情、性感、孕妇、小男孩和小女孩;标记所述色情、性感和小女孩类别图片对应的交叉熵损失函数的权重,高于标记正常和小男孩类别图片对应的交叉熵损失函数的权重。7.根据权利要求5所述的一种图片文字识别模型训练方法,其特征在于,确定交叉熵损失函数的权重的包括:设置原始权重,确定每一个标记的单独权重的最...

【专利技术属性】
技术研发人员:陈方毅白明白
申请(专利权)人:厦门美柚信息科技有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1