一种字符型验证码自动识别方法、终端设备及存储介质技术

技术编号:27656822 阅读:35 留言:0更新日期:2021-03-12 14:19
本发明专利技术涉及一种字符型验证码自动识别方法、终端设备及存储介质,该方法中包括:S1:采集字符型验证码图片并对其进行标注后组成训练集;S2:构建卷积神经网络模型,通过训练集对卷积神经网络模型进行训练,使得训练后的最终模型的识别准确率大于准确率阈值;S3:当接收到字符型验证码图片时,将字符型验证码图片转换成二进制文件流后,输入最终模型进行识别,输出识别结果。本发明专利技术解决了在数据采集过程中目标网站有字符型图片验证码人机验证机制时,爬虫无法自动识别验证的问题,保障数据采集程序的高效性及稳定性,对数据采集程序的高效稳定采集能够起到重要作用。

【技术实现步骤摘要】
一种字符型验证码自动识别方法、终端设备及存储介质
本专利技术涉及图像识别领域,尤其涉及一种字符型验证码自动识别方法、终端设备及存储介质。
技术介绍
随着互联网反爬取技术的不断发展,人机校验成为数据采集领域的一个绕不过去的坎。一般情况下,数据采集方可以利用分布式数据采集系统以及代理IP在单位时间内对多个目标网站进行高并发的访问,来达到高效采集的目的。但是,当目标网站引入字符型图片验证码人机验证技术来反爬取时,数据采集程序便无法再自动获取到目标网站的内容。在现有技术中,主要有三种方式可以绕过字符型图片验证码人机验证反爬的封禁:①控制请求目标资源的频率,限制同一IP在单位时间内对同一域名下URL的访问次数;②使用IP代理池,通过调用大量代理IP在不触发网站字符型图片验证码人机验证机制的情况下限制单IP在单位时间内对同一域名下URL的访问次数,模拟对目标网站的正常访问;③通过技术手段实现对字符型图片验证码的自动识别,从而实现目标数据源的自动获取。对于前两种方式虽然能有效地绕过验证,但是由于需要限制单位时间内的访问频率,且现有代理IP资源不足的情本文档来自技高网...

【技术保护点】
1.一种字符型验证码自动识别方法,其特征在于,包括以下步骤:/nS1:采集字符型验证码图片并对其进行标注后组成训练集;/nS2:构建卷积神经网络模型,通过训练集对卷积神经网络模型进行训练,使得训练后的最终模型的识别准确率大于准确率阈值;/nS3:当接收到字符型验证码图片时,将字符型验证码图片转换成二进制文件流后,输入最终模型进行识别,输出识别结果。/n

【技术特征摘要】
1.一种字符型验证码自动识别方法,其特征在于,包括以下步骤:
S1:采集字符型验证码图片并对其进行标注后组成训练集;
S2:构建卷积神经网络模型,通过训练集对卷积神经网络模型进行训练,使得训练后的最终模型的识别准确率大于准确率阈值;
S3:当接收到字符型验证码图片时,将字符型验证码图片转换成二进制文件流后,输入最终模型进行识别,输出识别结果。


2.根据权利要求1所述的字符型验证码自动识别方法,其特征在于:步骤S1中字符型验证码图片的采集包括以下步骤:
S111:采集字符型验证码图片并存储至待标注文件夹;
S112:对待标注文件夹中存储的所有字符型验证码图片的尺寸大小和完整性进行校验,将校验失败的图片从待标注文件夹内删除;
S113:对待标注文件夹中的所有图片进行二值化处理后,将图片的文件名命令为图片唯一标识码。


3.根据权利要求1所述的字符型验证码自动识别方法,其特征在于:步骤S1中标注的过程包括以下步骤:
S121:随机读取待标注文件夹下的一张图片并发送至显示页面进行显示;
S122:当接收到图片的标注信息后,判断中间标注结果文件夹内是否存在该图片,如果存在,进入S123;否则,将该图片存入中间标注结果文件夹内,并将接收到的标注信息和标注次数添加至该图片的文件名内,进入S125;
S123:判断中间标注结果文件夹内存储的该图片的文件名中标注信息与接收到的标注信息是否相同,如果是,进入S124;否则,删除中间标注结...

【专利技术属性】
技术研发人员:赖清平李火泉徐晓文栾江霞
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1