验证码识别模型训练及识别方法、介质、装置、计算设备制造方法及图纸

技术编号:22783963 阅读:15 留言:0更新日期:2019-12-11 04:18
本发明专利技术的实施方式提供了一种验证码识别模型训练方法、验证码识别方法、介质、验证码识别模型训练装置、验证码识别装置以及计算设备。该验证码识别模型训练方法包括:获取具有相同验证码长度的验证码图像样本,并确定与验证码图像样本相对应的字符样本标签;确定组成字符样本标签的验证码字符以及验证码字符的属性值,并获取验证码字符的字符类型信息;根据字符类型信息和属性值对字符样本标签进行编码以得到编码样本标签;利用验证码图像样本和编码样本标签训练用于识别验证码图像的验证码识别模型。基于本发明专利技术训练验证码识别模型的验证码识别方法具有识别效率高、实时性好、识别准确率高、普遍适用各种验证码类型等优点。

Verification code identification model training and identification method, medium, device and computing equipment

The embodiment of the invention provides a verification code identification model training method, a verification code identification method, a medium, a verification code identification model training device, a verification code identification device and a computing device. The training method of the verification code recognition model includes: obtaining the verification code image samples with the same verification code length, and determining the character sample labels corresponding to the verification code image samples; determining the verification code characters that make up the character sample labels and the attribute values of the verification code characters, and obtaining the character type information of the verification code characters; analyzing the characters according to the character type information and attribute values The sample tag is encoded to get the encoded sample tag, and the verification code recognition model used to identify the verification code image is trained by using the verification code image sample and the encoded sample tag. The verification code identification method based on the training verification code identification model of the invention has the advantages of high identification efficiency, good real-time performance, high identification accuracy, universal application of various verification code types, etc.

【技术实现步骤摘要】
验证码识别模型训练及识别方法、介质、装置、计算设备
本专利技术的实施方式涉及通信及计算机
,更具体地,本专利技术的实施方式涉及验证码识别模型训练方法、验证码识别方法、介质、验证码识别模型训练装置、验证码识别装置以及计算设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。验证码是一种区分用户是计算机还是人的公共全自动程序。在全自动区分计算机和人类的图灵测试(CompletelyAutomatedPublicTuringtesttotellComputersandHumansApart,简称CAPTCHA)中,作为服务器的计算机会自动生成一个问题由用户来解答,即通过强制人机交互来抵御机器自动化攻击,从而确保服务器系统的稳定性和用户信息的安全性。目前较为常用的验证码类型包括图片验证码、滑窗验证码和选择性验证码等等。如果能够对验证码进行自动识别,便可以辅助用户快速通过验证码的验证环节,从而能够实现自动化地访问网络页面并获取公开的网络数据。然而,现有的验证码识别方法普遍存在识别效率低、准确性差等问题。
技术实现思路
本专利技术的目的在于提供一种验证码识别模型训练方法、验证码识别方法、介质、验证码识别模型训练装置、验证码识别装置以及计算设备,从而在一定程度上克服由于相关技术的限制而导致的验证码识别效率低、识别准确性差等问题。根据本专利技术实施方式的第一方面,提供一种验证码识别模型训练方法,包括:获取具有相同验证码长度的验证码图像样本,并确定与所述验证码图像样本相对应的字符样本标签;确定组成所述字符样本标签的验证码字符以及所述验证码字符的属性值,并获取所述验证码字符的字符类型信息;根据所述字符类型信息和所述属性值对所述字符样本标签进行编码以得到编码样本标签;利用所述验证码图像样本和所述编码样本标签训练用于识别验证码图像的验证码识别模型。在本专利技术的一些示例性实施方式中,基于以上技术方案,所述根据所述字符类型信息和所述属性值对所述字符样本标签进行编码以得到编码样本标签,包括:根据所述字符类型信息确定具有多个编码位置的待填充编码向量,并确定所述属性值与各个所述编码位置的对应关系;根据所述对应关系对所述待填充编码向量进行数值填充以得到所述验证码字符的字符编码向量;按照各个所述验证码字符在所述字符样本标签中的排列顺序对各个所述字符编码向量进行拼接以得到编码样本标签。在本专利技术的一些示例性实施方式中,基于以上技术方案,所述根据所述对应关系对所述待填充编码向量进行数值填充以得到所述验证码字符的字符编码向量,包括:根据所述对应关系确定所述待填充编码向量中的一个目标编码位置;在所述目标编码位置上填充第一编码数值,并在所述待填充编码向量中的其他编码位置上填充第二编码数值;将填充有一个所述第一编码数值和多个所述第二编码数值的所述待填充编码向量确定为所述验证码字符的字符编码向量。在本专利技术的一些示例性实施方式中,基于以上技术方案,所述利用所述验证码图像样本和所述编码样本标签训练用于识别验证码图像的验证码识别模型,包括:获取预训练得到的基础权重数据,并利用所述基础权重数据对基础网络模型进行初始化以得到初始验证码识别模型;利用所述验证码图像样本和所述编码样本标签对所述初始验证码识别模型进行迭代训练以得到用于识别验证码图像的目标验证码识别模型。在本专利技术的一些示例性实施方式中,基于以上技术方案,所述基础网络模型为具有三个卷积池化网络和一个全连接层的卷积神经网络模型。在本专利技术的一些示例性实施方式中,基于以上技术方案,所述利用所述验证码图像样本和所述编码样本标签对所述初始验证码识别模型进行迭代训练以得到用于识别验证码图像的目标验证码识别模型,包括:将所述验证码图像样本和所述编码样本标签输入所述初始验证码识别模型以得到当前迭代轮次中的损失函数的误差值,并根据所述误差值确定所述初始验证码识别模型中与各个待调参数相对应的梯度向量;确定与所述各个待调参数相对应的梯度向量的一阶矩估计和二阶矩估计,并根据所述一阶矩估计和所述二阶矩估计分别确定当前迭代轮次中各个所述待调参数的调整步长;基于各个迭代轮次中的所述各个待调参数的调整步长对所述初始验证码识别模型进行迭代训练以得到用于识别验证码图像的目标验证码识别模型。在本专利技术的一些示例性实施方式中,基于以上技术方案,在利用所述验证码图像样本和所述编码样本标签训练用于识别验证码图像的验证码识别模型之前,所述方法还包括:当所述验证码图像样本的图像尺寸不是目标尺寸时,对所述验证码图像样本进行预处理以得到具有目标尺寸的验证码图像样本。根据本专利技术实施方式的第二方面,提供一种验证码识别方法,包括:获取待识别验证码图像的验证码长度信息和字符类型信息,并根据所述验证码长度信息和所述字符类型信息确定预先训练的验证码识别模型;将所述待识别验证码图像输入至所述验证码识别模型以得到所述待识别验证码图像的验证码编码向量;根据所述验证码长度信息和所述字符类型信息对所述验证码编码向量进行解码以得到所述待识别验证码图像中的验证码字符串。在本专利技术的一些示例性实施方式中,基于以上技术方案,所述根据所述验证码长度信息和所述字符类型信息对所述验证码编码向量进行解码以得到所述待识别验证码图像中的验证码字符串,包括:根据所述验证码长度信息对所述验证码编码向量进行拆分以得到多个字符编码向量;根据所述字符类型信息对各个所述字符编码向量进行解码以得到与所述字符编码向量相对应的验证码字符的属性值;按照所述字符编码向量在所述验证码编码向量中的排列顺序对各个所述验证码字符的属性值进行排序以得到所述待识别验证码图像中的验证码字符串。在本专利技术的一些示例性实施方式中,基于以上技术方案,所述字符编码向量是由一个第一编码数值和多个第二编码数值组成的向量;所述根据所述字符类型信息对各个所述字符编码向量进行解码以得到与所述字符编码向量相对应的验证码字符的属性值,包括:根据所述字符类型信息确定所述字符编码向量中的各个编码位置与验证码字符的属性值之间的对应关系;将所述字符编码向量中所述第一编码数值所在的编码位置确定为目标编码位置;根据所述目标编码位置和所述对应关系确定与所述字符编码向量相对应的验证码字符的属性值。在本专利技术的一些示例性实施方式中,基于以上技术方案,在将所述待识别验证码图像输入至所述验证码识别模型以得到所述待识别验证码图像的验证码编码向量之前,所述方法还包括:当所述待识别验证码图像的图像尺寸不是目标尺寸时,对所述待识别验证码图像进行预处理以得到具有目标尺寸的待识别验证码图像。根据本专利技术实施方式的第三方面,提供一种介质,其上存储有程序,所述程序被处理器执行时实现如以上任一实施方式中的方法。根据本专利技术实施方式的第四方面,提供一种验证码识别模型训练装置,包括:样本获取模块,被配置为获取具有相同验证码长度的验证码图像样本,并确定与所述验证码图像样本相对应的字符样本标签;信息获取模块,被配置为确定组成所述字符样本标签的验证码字符以及所述验证码字符的属性值本文档来自技高网...

【技术保护点】
1.一种验证码识别模型训练方法,包括:/n获取具有相同验证码长度的验证码图像样本,并确定与所述验证码图像样本相对应的字符样本标签;/n确定组成所述字符样本标签的验证码字符以及所述验证码字符的属性值,并获取所述验证码字符的字符类型信息;/n根据所述字符类型信息和所述属性值对所述字符样本标签进行编码以得到编码样本标签;/n利用所述验证码图像样本和所述编码样本标签训练用于识别验证码图像的验证码识别模型。/n

【技术特征摘要】
1.一种验证码识别模型训练方法,包括:
获取具有相同验证码长度的验证码图像样本,并确定与所述验证码图像样本相对应的字符样本标签;
确定组成所述字符样本标签的验证码字符以及所述验证码字符的属性值,并获取所述验证码字符的字符类型信息;
根据所述字符类型信息和所述属性值对所述字符样本标签进行编码以得到编码样本标签;
利用所述验证码图像样本和所述编码样本标签训练用于识别验证码图像的验证码识别模型。


2.根据权利要求1所述的验证码识别模型训练方法,所述根据所述字符类型信息和所述属性值对所述字符样本标签进行编码以得到编码样本标签,包括:
根据所述字符类型信息确定具有多个编码位置的待填充编码向量,并确定所述属性值与各个所述编码位置的对应关系;
根据所述对应关系对所述待填充编码向量进行数值填充以得到所述验证码字符的字符编码向量;
按照各个所述验证码字符在所述字符样本标签中的排列顺序对各个所述字符编码向量进行拼接以得到编码样本标签。


3.根据权利要求2所述的验证码识别模型训练方法,所述根据所述对应关系对所述待填充编码向量进行数值填充以得到所述验证码字符的字符编码向量,包括:
根据所述对应关系确定所述待填充编码向量中的一个目标编码位置;
在所述目标编码位置上填充第一编码数值,并在所述待填充编码向量中的其他编码位置上填充第二编码数值;
将填充有一个所述第一编码数值和多个所述第二编码数值的所述待填充编码向量确定为所述验证码字符的字符编码向量。


4.根据权利要求1所述的验证码识别模型训练方法,所述利用所述验证码图像样本和所述编码样本标签训练用于识别验证码图像的验证码识别模型,包括:
获取预训练得到的基础权重数据,并利用所述基础权重数据对基础网络模型进行初始化以得到初始验证码识别模型;
利用所述验证码图像样本和所述编码样本标签对所述初始验证码识别模型进行迭代训练以得到用于识别验证码图像的目标验证码识别模型。


5.根据权利要求4所述的...

【专利技术属性】
技术研发人员:王恒立王真张林金港生姚雷吕韬王文豹
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1