【技术实现步骤摘要】
一种服务于数据采集的验证码识别方法及系统
本专利技术涉及图像数据识别
,特别涉及一种服务于数据采集的验证码识别方法及系统。
技术介绍
随着互联网技术的迅速发展,现在各种平台建站系统中,客户往往有数据采集的需求,例如现有的数据采集系统用于征集各企业、政府和金融机构等单位的数据,并保存在数据库中,但是目前各大网站为防止数据被采集,经常使用验证码的方式加以防范,验证码是一种区分用户使计算机和人的程序,通过该程序生成验证码图片,验证码图片中通常具有一串随机产生的字母和/或数字等字符,通过该验证码图片中增加干扰信息,例如杂点或者线条灯,由用户肉眼识别出来其中的验证信息,以防止通过计算机破解密码、自动注册等计算机操作,广泛用于各类网站、论坛等的注册、登陆等场景中,以提高系统的安全性。为了实现对数据的采集,现有的数据采集方法需要大量人力和物力,通过人工采集不仅效率较低,而且增加了用户人眼识别的难度以及识别出验证码到输入验证码的时间,从而不利于提高用户识别验证码的效率,推迟了用户的后续操作,降低了数据采集的效率。为此,现有专利公开号为CN101944177A公开的一种验证码 ...
【技术保护点】
一种服务于数据采集的验证码识别方法,其特征在于,所述识别方法包括以下步骤:S1、根据URL列表下载若干验证码图像,由若干所述验证码图像中提取部分图像作为验证码训练图像,剩余的所述验证码图像为待识别验证码图像;S2、为若干所述验证码训练图像标注标签信息,并进行保存,所述标签信息为所述验证码训练图像中的内容信息;S3、对步骤S2中的所述验证码训练图像和步骤S1中的所述待识别验证码图像分别进行字符分割生成拆分后的单字符图像,并将若干带有所述标签信息的所述单字符图像组成训练样本集合,将未带有所述标签信息的所述单字符图像组成待测训练样本集合;S4、对步骤S3中的所述训练样本集合进行训 ...
【技术特征摘要】
1.一种服务于数据采集的验证码识别方法,其特征在于,所述识别方法包括以下步骤:S1、根据URL列表下载若干验证码图像,由若干所述验证码图像中提取部分图像作为验证码训练图像,剩余的所述验证码图像为待识别验证码图像;S2、为若干所述验证码训练图像标注标签信息,并进行保存,所述标签信息为所述验证码训练图像中的内容信息;S3、对步骤S2中的所述验证码训练图像和步骤S1中的所述待识别验证码图像分别进行字符分割生成拆分后的单字符图像,并将若干带有所述标签信息的所述单字符图像组成训练样本集合,将未带有所述标签信息的所述单字符图像组成待测训练样本集合;S4、对步骤S3中的所述训练样本集合进行训练得到字符识别模型,同时,将步骤S3中的所述待测训练样本集合输入至所述字符识别模型中识别所述待测训练样本集合中的验证码字符信息。2.如权利要求1所述的服务于数据采集的验证码识别方法,其特征在于,步骤S3中,对步骤S2中的所述验证码训练图像和步骤S1中的所述待识别验证码图像分别进行字符分割生成拆分后的单字符图像,具体方法包括:S3-1、对所述验证码训练图像和所述待识别验证码图像根据字符分布位置是否规律进行分类,所述字符分布位置为字符间距;S3-2、将所述字符分布位置规律的图像通过等距分割法进行字符分割,将分割后的单字符图像进行保存;S3-3、将所述字符分布位置不规律的图像通过通用分割法进行字符分割,将分割后的单字符图像根据预设的图像尺寸调整图像大小,并进行保存。3.如权利要求2所述的服务于数据采集的验证码识别方法,其特征在于,步骤S3-2中,将所述字符分布位置规律的图像通过等距分割法进行字符分割,将分割后的单字符图像进行保存,具体方法为:①将所述字符分布位置规律的图像进行灰度化处理得到灰度图像,去除所述灰度图像中的背景区域;②对所述灰度图像进行二值化处理得到二值图像,剔除所述二值图像中的噪声;③对除噪后的所述二值图像进行放大或缩小;④根据预设的切割尺寸对所述二值图像进行字符分割,即得到标准的单字符图像,并将分割后的单字符图像进行保存。4.如权利要求2所述的服务于数据采集的验证码识别方法,其特征在于,步骤S3-3中,将所述字符分布位置不规律的图像通过通用分割法进行字符分割,将分割后的单字符图像根据预设的图像尺寸调整图像大小,并进行保存,具体方法为:①将所述字符分布位置不规律的图像进行去燥处理;②去燥处理后的图像经过R、G、B三通道均值滤波,去除背景色,并对图像进行二值化处理;③利用Canny算法提取图像的轮廓边缘;④去除图像中的毛刺和细线;⑤使用连通域算法获取图像中单个字符的轮廓,并获取轮廓凸包,根据所述轮廓凸包确定每个字符所在的中心位置;⑥在每个字符的所述中心位置上设置外接矩形框,所述外接矩形框具有预设的长宽尺寸;⑦根据所述外接矩形框进行矩形切割字符,即获得分割后的单字符图像。5.如权利要求4所述的服务于数据采集的验证码识别方法,其特征在于,步骤④中,通过拓扑学open操作方法去除图像中的毛刺和细线。6.如权利要求4所述的服务于数据采集的验证码识别方法,其特征在于,步骤④中,去除图像中的毛刺和细线的具体方法为:识别图像中各个像素点;预设所述像素点的亮度范围阈值;识别图像中各个所述像素点的亮度值,并将所述亮度值与所述亮度范围阈值进行对比,并将所述亮度值超出所述亮度范围阈值的所述像素点去除,即完成对图像中的毛刺和细线的去除。7.如权利要求4所述的服务于数据采集的验证码识别方法,其特征在于,步骤⑥中,还包括对所述外接矩形框内字符个数的判断:根据所述外接矩形框的尺寸范围判断是否包含多个字符:若包括多个字符则为粘连字符,将所述粘连字符通过所述等距分割法进行拆分并获取单字符图像。8.如权利要求1所述的服务于数据采集的验证码识别方法,其特征在于,步骤S4中,对步骤S3中的所述训练样本集合进行训练得到字符识别模型,同时,将步骤S3中的所述待测训练样本集合输入至所述字符识别模型中识别所述待测训练样本集合中的字符信息,具体方法为:S4-1、将步骤S3中所述训练样本集合内的若干带有所述标签信息的所述单字符图像输入至卷积神...
【专利技术属性】
技术研发人员:范晓忻,朱志伟,
申请(专利权)人:金电联行北京信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。