The invention provides a method for automatically recognizing hollow characters in verification codes, which mainly includes: repairing broken character contour lines after pretreatment of pictures; filling all closed white connected areas with colors; and filling the resulting color blocks according to their shape characteristics and transverse and longitudinal directions. The feature is detected three times to remove the interference, and the effective character block is extracted; the effective feature information is extracted from the segmented character block; and the character information is detected and recognized by machine learning method. The technical scheme provided by the invention is simple and practical, can detect the hollow characters in the verification code in time and accurately recognize them, and can be better applied to the verification code with other image interference forms in the background, thereby improving the performance of automatic recognition.
【技术实现步骤摘要】
一种用于自动识别验证码中空心字符的方法
本专利技术涉及互联网安全
,具体涉及一种用于自动识别验证码中空心字符的方法。
技术介绍
验证码(CAPTCHA)是一种区分计算机和人类的全自动图灵测试技术。在一个验证码测试中,系统会自动生成一个问题并评判用户的答案,这个测试只有人类很容易给出答案,而计算机程序则很难成功。因此被广泛用于邮箱注册、网上银行登录、在线交易、订票系统等验证环节,系统要求用户必须输入验证码上所显示的字符信息才可完成相关操作,这样可以有效防止机器通过暴力破解方式不断的进行登陆以对用户密码进行破解盗取相关信息,还可以保证在线投票的真实性,防止垃圾邮件,网站广告泛滥等,提高网站运行的稳定性和安全性。验证码技术因便捷高效而被很多网站采用。相应的,在网站上线运行之前,测试工程师通常会采用一些验证码自动识别方法对网站中的验证码进行破解,以检测网站的安全性。若其中大部分验证码能被机器自动识别,则表明该网站所使用的验证码安全性较低,需要相关技术人员增大验证码图像的复杂度等,以保证网站上线运行后不被恶意用户攻击。早期的验证码中有效信息均以实心字符形式呈现,虽在背景中加入了一些干扰但仍易被机器自动识别。空心验证码作为一种新型的复杂验证码,是近几年刚刚出现的一种基于文本类型的验证码,它是实心字符验证码的优化变形。因为其只由简单的轮廓线组成、图像中包含的信息少,字符的有效特征信息会被大幅度弱化。若当图像背景中再有干扰线加入时,在预处理过程中部分字符轮廓还会被误当作噪声去除,这些都极大地提高了机器自动识别的难度。因此,空心验证码受到了许多大型网站的青睐,但其是否 ...
【技术保护点】
1.一种用于自动识别验证码中空心字符的方法,其特征在于,所述方法包括:A.对发生断裂的字符轮廓线进行修复;B.将所述所有封闭的白色连通区域进行颜色填充;C.对所述得到的颜色块,依据其形状特性及横纵向特性进行三次检测去干扰处理,提取有效字符块;D.从分割得到的字符块中提取有效特征信息;E.利用机器学习方法对所述字符信息进行检测识别。
【技术特征摘要】
1.一种用于自动识别验证码中空心字符的方法,其特征在于,所述方法包括:A.对发生断裂的字符轮廓线进行修复;B.将所述所有封闭的白色连通区域进行颜色填充;C.对所述得到的颜色块,依据其形状特性及横纵向特性进行三次检测去干扰处理,提取有效字符块;D.从分割得到的字符块中提取有效特征信息;E.利用机器学习方法对所述字符信息进行检测识别。2.根据权利要求1所述的方法,其特征在于,所述对发生断裂的字符轮廓线进行修复的步骤包括:将所述图片进行预处理转换为黑白图后,从图像原点开始,按照一定顺序依次查找黑色轮廓线像素点,若以该点为中心的相应域范围内存在黑色点,则沿此黑色点路径继续探索,未形成闭环的路径终点即为轮廓线断点;依据字符断点特性筛选找出真正断点后,对属于同一条轮廓线的断点进行匹配、连接。3.根据权利要求1所述的方法,其特征在于,所述将所有封闭的白色连通区域进行颜色填充的步骤包括:按一定顺序依次查找图像中白色封闭连通区域,每找到一个白色区域便将其填充为新的颜色,最终保证所有白色封闭区域均被填充上新的颜色,且能通过颜色信息反映出该区域在图像中的位置信息。4.根据权利要求1所述的方法,其特征在于,所述查找横纵向特性的步骤包括:依次遍历不同颜色的连通区域,找出该区域所有边界点坐标;在所述边界点坐标中找出横坐标相同但纵坐标不连续的点,若在同一横坐标中纵坐标不连续点个数大于一定值则所述横向特性值改变;在所述边界点坐标中找出纵坐标相同但横坐标不连续的...
【专利技术属性】
技术研发人员:朴昌浩,孟凯,张艳,黄天彭,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。