验证码识别模型训练及识别方法、介质、装置、计算设备制造方法及图纸

技术编号：22783963 阅读：15 留言：0更新日期：2019-12-11 04:18

本发明专利技术的实施方式提供了一种验证码识别模型训练方法、验证码识别方法、介质、验证码识别模型训练装置、验证码识别装置以及计算设备。该验证码识别模型训练方法包括：获取具有相同验证码长度的验证码图像样本，并确定与验证码图像样本相对应的字符样本标签；确定组成字符样本标签的验证码字符以及验证码字符的属性值，并获取验证码字符的字符类型信息；根据字符类型信息和属性值对字符样本标签进行编码以得到编码样本标签；利用验证码图像样本和编码样本标签训练用于识别验证码图像的验证码识别模型。基于本发明专利技术训练验证码识别模型的验证码识别方法具有识别效率高、实时性好、识别准确率高、普遍适用各种验证码类型等优点。

Verification code identification model training and identification method, medium, device and computing equipment

The embodiment of the invention provides a verification code identification model training method, a verification code identification method, a medium, a verification code identification model training device, a verification code identification device and a computing device. The training method of the verification code recognition model includes: obtaining the verification code image samples with the same verification code length, and determining the character sample labels corresponding to the verification code image samples; determining the verification code characters that make up the character sample labels and the attribute values of the verification code characters, and obtaining the character type information of the verification code characters; analyzing the characters according to the character type information and attribute values The sample tag is encoded to get the encoded sample tag, and the verification code recognition model used to identify the verification code image is trained by using the verification code image sample and the encoded sample tag. The verification code identification method based on the training verification code identification model of the invention has the advantages of high identification efficiency, good real-time performance, high identification accuracy, universal application of various verification code types, etc.

全部详细技术资料下载

【技术实现步骤摘要】
验证码识别模型训练及识别方法、介质、装置、计算设备
本专利技术的实施方式涉及通信及计算机
，更具体地，本专利技术的实施方式涉及验证码识别模型训练方法、验证码识别方法、介质、验证码识别模型训练装置、验证码识别装置以及计算设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。验证码是一种区分用户是计算机还是人的公共全自动程序。在全自动区分计算机和人类的图灵测试(CompletelyAutomatedPublicTuringtesttotellComputersandHumansApart，简称CAPTCHA)中，作为服务器的计算机会自动生成一个问题由用户来解答，即通过强制人机交互来抵御机器自动化攻击，从而确保服务器系统的稳定性和用户信息的安全性。目前较为常用的验证码类型包括图片验证码、滑窗验证码和选择性验证码等等。如果能够对验证码进行自动识别，便可以辅助用户快速通过验证码的验证环节，从而能够实现自动化地访问网络页面并获取公开的网络数据。然而，现有的验证码识别方法普遍存在识别效率低、准确性差等问题。
技术实现思路
本专利技术的目的在于提供一种验证码识别模型训练方法、验证码识别方法、介质、验证码识别模型训练装置、验证码识别装置以及计算设备，从而在一定程度上克服由于相关技术的限制而导致的验证码识别效率低、识别准确性差等问题。根据本专利技术实施方式的第一方面，提供一种验证码识别模型训练方法，包括：获取具有相同验证码长...

【技术保护点】
1.一种验证码识别模型训练方法，包括：/n获取具有相同验证码长度的验证码图像样本，并确定与所述验证码图像样本相对应的字符样本标签；/n确定组成所述字符样本标签的验证码字符以及所述验证码字符的属性值，并获取所述验证码字符的字符类型信息；/n根据所述字符类型信息和所述属性值对所述字符样本标签进行编码以得到编码样本标签；/n利用所述验证码图像样本和所述编码样本标签训练用于识别验证码图像的验证码识别模型。/n

【技术特征摘要】
1.一种验证码识别模型训练方法，包括：
获取具有相同验证码长度的验证码图像样本，并确定与所述验证码图像样本相对应的字符样本标签；
确定组成所述字符样本标签的验证码字符以及所述验证码字符的属性值，并获取所述验证码字符的字符类型信息；
根据所述字符类型信息和所述属性值对所述字符样本标签进行编码以得到编码样本标签；
利用所述验证码图像样本和所述编码样本标签训练用于识别验证码图像的验证码识别模型。

2.根据权利要求1所述的验证码识别模型训练方法，所述根据所述字符类型信息和所述属性值对所述字符样本标签进行编码以得到编码样本标签，包括：
根据所述字符类型信息确定具有多个编码位置的待填充编码向量，并确定所述属性值与各个所述编码位置的对应关系；
根据所述对应关系对所述待填充编码向量进行数值填充以得到所述验证码字符的字符编码向量；
按照各个所述验证码字符在所述字符样本标签中的排列顺序对各个所述字符编码向量进行拼接以得到编码样本标签。

3.根据权利要求2所述的验证码识别模型训练方法，所述根据所述对应关系对所述待填充编码向量进行数值填充以得到所述验证码字符的字符编码向量，包括：
根据所述对应关系确定所述待填充编码向量中的一个目标编码位置；
在所述目标编码位置上填充第一编码数值，并在所述待填充编码向量中的其他编码位置上填充第二编码数值；
将填充有一个所述第一编码数值和多个所述第二编码数值的所述待填充编码向量确定为所述验证码字符的字符编码向量。

4.根据权利要求1所述的验证码识别模型训练方法，所述利用所述验证码图像样本和所述编码样本标签训练用于识别验证码图像的验证码识别模型，包括：
获取预训练得到的基础权重数据，并利用所述基础权重数据对基础网络模型进行初始化以得到初始验证码识别模型；
利用所述验证码图像样本和所述编码样本标签对所述初始验证码识别模型进行迭代训练以得到用于识别验证码图像的目标验证码识别模型。

5.根据权利要求4所述的...

【专利技术属性】
技术研发人员：王恒立，王真，张林，金港生，姚雷，吕韬，王文豹，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人