一种基于OCR技术的文字验证码识别方法技术

技术编号：19934730 阅读：48 留言：0更新日期：2018-12-29 04:44

该发明专利技术公开了一种基于OCR技术的文字验证码识别方法，涉及一种基于OCR技术的文字验证码识别技术，属于信息检索领域，特别是在网络爬虫领域和搜索引擎领域。针对网站常见的字符图像验证码设计的一种基于光学字符识别技术的验证码识别方法。本发明专利技术通过截取网络识别码图像，对图像进行去噪处理，处理后进行识别，可以准确高效的识别网络中常见的字符验证码，识别正确率高达92.3％，可以处理验证码中常见的字符旋转，噪声和干扰线等反爬虫手段，可以达到实时识别的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于OCR技术的文字验证码识别方法
本专利技术涉及一种基于OCR(OpticalCharacterRecognition)技术的文字验证码识别技术，属于信息检索领域，特别是在网络爬虫领域和搜索引擎领域。
技术介绍
网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，网络爬虫技术在很多领域有着广泛的应用，如搜索引擎，大数据分析与挖掘，互联网金融等。网络爬虫可以并行地对网页进行抓取，高并发的爬虫会增大服务器的负载，因此很多网站都采取了各种反爬虫策略来防御恶意的网络机器人程序，例如传播垃圾邮件、论坛自动发帖及自动注册和暴力破解系统登录等。全自动区分计算机和人类的图灵测试(CAPTCHA，CompletelyAutomatedPublicTuringtesttotellComputersandHumansApart)是最常见的反爬虫手段，验证码的运行是基于一个专门负责产生和评估验证码校验的程序，该程序部署在服务器端或者是客户端的一个JS脚本。目前互联网应用使用最广泛的是文本和图像验证码，即生成一串字符的图像，通过校验用户的输入来判断用户是否为机器人。验证...

【技术保护点】
1.一种基于OCR技术的文字验证码识别方法，该方法包括如下步骤：步骤1：获得验证码图片；在获得网站响应后,检索网页源代码中是否存在“captchas”关键字，如果有则在关键字周围检索图片链接，获得验证码图像地址，跳转到该地址，得到验证码图片，将图片保存到本地；步骤2：将图片转为灰度图，去除随机噪声；根据实际情况设定随机噪声判断阈值N1，计算像素点4邻域或者8邻域的像素平均灰度值，与图像底色的平均灰度值进行比较，若差值大于随机噪声判断阈值N1则认为该像素点为随机噪声，将该像素点置为背景；步骤3：对图片进行二值化操作，二值化的阈值为图片的平均灰度值，进行连通域统计，并将面积小于设定阈值N2的连通域...

【技术特征摘要】
1.一种基于OCR技术的文字验证码识别方法，该方法包括如下步骤：步骤1：获得验证码图片；在获得网站响应后,检索网页源代码中是否存在“captchas”关键字，如果有则在关键字周围检索图片链接，获得验证码图像地址，跳转到该地址，得到验证码图片，将图片保存到本地；步骤2：将图片转为灰度图，去除随机噪声；根据实际情况设定随机噪声判断阈值N1，计算像素点4邻域或者8邻域的像素平均灰度值，与图像底色的平均灰度值进行比较，若差值大于随机噪声判断阈值N1则认为该像素点为随机噪声，将该像素点置为背景；步骤3：对图片进行二值化操作，二值化的阈值为图片的平均灰度值，进行连通域统计，并将面积小于设定阈值N2的连通域置为背景；步骤4：去除干扰线，将干扰线的连通域内像素值置为背景；步骤4.1：去除独立干扰线；将二值化图像中的各连通域进行纵向和横向投影，若纵向和横向投影长度的比值大于设定的比值上限小于设定的比值下限这认为该连通域为干扰线，比值上限和比值下限根据实际情况确定；步骤4.2：去除粘连干扰线；设定滑窗大小，滑窗的高度为图像的高度，滑窗的宽度和步长根据实际情况确定；滑窗从图像左侧开始滑动，计算每次滑窗内连通域的个...

【专利技术属性】
技术研发人员：郑泽忠，张亚萌，向浩然，谢晨，牟范，王胜利，王子航，李江，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人