数据自动采集系统中验证码识别方法及系统技术方案

技术编号:12137519 阅读:92 留言:0更新日期:2015-10-01 15:38
本发明专利技术提供一种数据自动采集系统中验证码识别方法,其包括如下步骤:S1、加载验证码图片,将验证码图片分割为4张独立的图片;S2、将4张独立的图片分别转换为二进制位图;S3、根据二进制位图中色素的区别,将二进制位图转换为0和1的一维数组;S4、将一维数组与预先建立的二维数组字库进行对比,并根据对比结果获得格式化的图片验证码数值。本发明专利技术还提供一种数据自动采集系统中验证码识别系统。

【技术实现步骤摘要】

本专利技术涉及图像数据识别
,特别涉及一种数据自动采集系统中验证码识别方法及系统
技术介绍
现在各种云平台建站系统中,客户往往有数据采集的需求,而目前各大网站为防止数据被采集,经常使用验证码的方式加以防范。但是现有的数据采集方法需要大量节省人力和物力,通过人工采集数据一天大概在200条左右,效率不高;并且对于数字验证码的有效识别率不高支持的验证码文件格式种类较为单一。
技术实现思路
有鉴于此,本专利技术提供一种能够实现数据自动采集,并且数字验证码的有效识别率高,支持的验证码文件格式种类多的数据自动采集系统中验证码识别方法及系统。一种数据自动采集系统中验证码识别方法,其包括如下步骤:S1、加载验证码图片,将验证码图片分割为4张独立的图片;S2、将4张独立的图片分别转换为二进制位图;S3、根据二进制位图中色素的区别,将二进制位图转换为O和I的一维数组;S4、将一维数组与预先建立的二维数组字库进行对比,并根据对比结果获得格式化的图片验证码数值。一种数据自动采集系统中验证码识别系统,其包括如下单元:图片加载单元,用于加载验证码图片,将验证码图片分割为4张独立的图片;位图转换单元,用于将4张独立的图片分别转换为二进制位图;数组转换单元,用于根据二进制位图中色素的区别,将二进制位图转换为O和I的一维数组;对比及结果获取单元,用于将一维数组与预先建立的二维数组字库进行对比,并根据对比结果获得格式化的图片验证码数值。有益技术效果:本专利技术能够大量节省人力和物力,现有的方法通过人工采集数据一天大概在200条左右,而通过自动采集系统一天可达到10万条;本专利技术对4位数字验证码的有效识别率可达到98%以上;并且可以支持多种验证码文件格式,比如JPG/JPEG/BMP/GIF 等。【附图说明】图1是本专利技术实施方式提供的数据自动采集系统中验证码识别方法流程图;图2是本专利技术实施方式提供的数据自动采集系统中验证码识别系统结构框图。【具体实施方式】如图1所示,一种数据自动采集系统中验证码识别方法,其包括如下步骤:S1、加载验证码图片,将验证码图片分割为4张独立的图片。可选地,所述步骤SI包括:加载外部传入的验证码图片或网络验证码图片地址,从而获得验证码图片;按验证码图片中像素的X、Y坐标位置,将验证码图片分割为4张独立的图片。S2、将4张独立的图片分别转换为二进制位图。可选地,所述步骤S2包括:将4张独立的图片分别转换为用二进制表示的独立位图并保存在临时存储区。S3、根据二进制位图中色素的区别,将二进制位图转换为O和I的一维数组。可选地,所述步骤S3包括:获得各独立位图背的景色的RGB值,以便于区分个独立位图的背景色和字体颜色;将独立位图转换为一维数组。S4、将一维数组与预先建立的二维数组字库(0-9数字字库)进行对比,并根据对比结果获得格式化的图片验证码数值。 可选地,所述步骤S4包括:在一维数组中用O表示背景色像素,用I表示非背景色像素;读取并将独立位图信息存入临时一维数组。将临时一维数组与预先建立的二维数组字库进行预先设置循环次数对比,若临时一维数组与预先建立的二维数组字库中位置相差在2以内(验证码经常是非工整格式,存在歪曲或者变形)且数值相等,则循环标识自增1,在完成预先设置的循环次数对比后,获得预先设置的循环次数个标识数字。可选地,预先设置的循环次数可以为10。取数值最大的标识数字作为该独立位图上所展示的数字。数值越大,则代表越趋近于该标示所代表的数字。将4张独立位图所对应的一维数组对比完成后,将每一次获得的所展示的数字合并作为验证码。有益技术效果:本专利技术实施例的方案能够大量节省人力和物力,现有的方法通过人工采集数据一天大概在200条左右,而通过自动采集系统一天可达到10万条;本专利技术对4位数字验证码的有效识别率可达到98%以上;并且可以支持多种验证码文件格式,比如JPG/JPEG/BMP/GIF 等。如图2所示,本专利技术实施例还提供一种数据自动采集系统中验证码识别系统,其包括如下单元:图片加载单元10,用于加载验证码图片,将验证码图片分割为4张独立的图片。可选地,所述图片加载单元10包括:加载外部传入的验证码图片或网络验证码图片地址,从而获得验证码图片。按验证码图片中像素的X、Y坐标位置,将验证码图片分割为4张独立的图片。位图转换单元20,用于将4张独立的图片分别转换为二进制位图。可选地,所述位图转换单元20包括:将4张独立的图片分别转换为用二进制表示的独立位图并保存在临时存储区。数组转换单元30,用于根据二进制位图中色素的区别,将二进制位图转换为O和I的一维数组。可选地,所述数组转换单元30包括:获得各独立位图背的景色的RGB值,以便于区分个独立位图的背景色和字体颜色;将独立位图转换为一维数组。对比及结果获取单元40,用于将一维数组与预先建立的二维数组字库进行对比,并根据对比结果获得格式化的图片验证码数值。可选地,所述对比当前第1页1 2 本文档来自技高网...

【技术保护点】
一种数据自动采集系统中验证码识别方法,其特征在于,其包括如下步骤:S1、加载验证码图片,将验证码图片分割为4张独立的图片;S2、将4张独立的图片分别转换为二进制位图;S3、根据二进制位图中色素的区别,将二进制位图转换为0和1的一维数组;S4、将一维数组与预先建立的二维数组字库进行对比,并根据对比结果获得格式化的图片验证码数值。

【技术特征摘要】

【专利技术属性】
技术研发人员:胡朝伟
申请(专利权)人:武汉捷讯信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1