验证码识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:19904047 阅读:24 留言:0更新日期:2018-12-26 03:05
本发明专利技术公开了一种验证码识别方法、装置、计算机设备及存储介质,所述方法包括:通过获取目标网站上的待识别验证码图片,基于Tesseract对验证码图片进行识别处理,得到识别结果,然后,判断识别结果是否为算式,若是,则将计算结果填入输入框,若否,则将识别结果填入输入框,通过基于Tesseract对验证码图片进行识别,得到验证码内容信息,并当该验证码内容信息为算式时,自动计算出计算结果,将该计算结果或非算式的验证码内容信息填入验证码图片对应的输入框,从而当在目标网站上获取目标资源信息时,不需要花费时间由人工输入目标网站的验证码内容信息,进而提高了获取资源信息的效率。

【技术实现步骤摘要】
验证码识别方法、装置、计算机设备及存储介质
本专利技术涉及金融领域,尤其涉及一种验证码识别方法、装置、计算机设备及存储介质。
技术介绍
在信息时代的今天,资源信息对于每个公司都起着至关重要的作用。由于互联网给人们带来了极大的便捷性,公司的人员常常通过网络到网站上获取资源信息,网站为了保证访问质量,设置了有些资源信息需要账号密码登录后才能浏览,同时在设置账号密码登录的基础上也设置了验证码图片。但是,当用户通过账号密码登录网站获取该网站上的这些资源信息时,由原来不需要输入验证码图片中的验证码内容信息变成了需要花费时间由人工输入验证码图片中的验证码内容信息,从而导致获取资源信息的效率低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种可以提高获取资源信息的效率的验证码识别方法、装置、计算机设备及存储介质。一种验证码识别方法,包括:获取目标网站上的待识别验证码图片;基于Tesseract对所述待识别验证码图片进行识别处理,得到所述待识别验证码图片对应的识别结果,其中,Tesseract为一款光学字符识别工具;判断所述识别结果是否为算式;若所述识别结果为算式,则将所述识别结果对应的计算结果本文档来自技高网...

【技术保护点】
1.一种验证码识别方法,其特征在于,所述验证码识别方法包括:获取目标网站上的待识别验证码图片;基于Tesseract对所述待识别验证码图片进行识别处理,得到所述待识别验证码图片对应的识别结果,其中,Tesseract为一款光学字符识别工具;判断所述识别结果是否为算式;若所述识别结果为算式,则将所述识别结果对应的计算结果填入所述待识别验证码图片对应的输入框;若所述识别结果为非算式,则将所述识别结果填入所述待识别验证码图片对应的输入框。

【技术特征摘要】
1.一种验证码识别方法,其特征在于,所述验证码识别方法包括:获取目标网站上的待识别验证码图片;基于Tesseract对所述待识别验证码图片进行识别处理,得到所述待识别验证码图片对应的识别结果,其中,Tesseract为一款光学字符识别工具;判断所述识别结果是否为算式;若所述识别结果为算式,则将所述识别结果对应的计算结果填入所述待识别验证码图片对应的输入框;若所述识别结果为非算式,则将所述识别结果填入所述待识别验证码图片对应的输入框。2.如权利要求1所述的验证码识别方法,其特征在于,所述基于Tesseract对所述待识别验证码图片进行识别处理,得到所述待识别验证码图片对应的识别结果包括:采用垂直投影法对所述待识别验证码图片进行分割,得到各个子验证码图片;按照预设的尺寸规格将各个所述子验证码图片进行尺寸归一处理,得到各个规格化后的子验证码图片;基于Tesseract对各个所述规格化后的子验证码图片进行识别,得到各个所述规格化后的子验证码图片对应的各个验证码内容信息;按照所述验证码图片分割前的由左到右的顺序将各个所述验证码内容信息进行拼接,得到所述待识别验证码图片对应的识别结果,所述识别结果包括一个以上字符。3.如权利要求1所述的验证码识别方法,其特征在于,所述判断所述识别结果是否为算式包括:按照所述识别结果中的各个字符从左到右顺序排列,并将所述识别结果中的各个字符按照从左到右顺序排列顺序压入栈;按照出栈先后顺序排列从栈中获取所述各个字符中的最先出栈的一个字符作为当前字符;采用运算符号查询方法对所述当前字符进行查询,得到查询结果;根据所述查询结果,确定所述查询结果的字符类型,其中,所述字符类型包括运算符类型和非运算符类型;若所述查询结果的字符类型为所述运算符类型,则获取预设的运算符号原始值作为当前数量;将所述当前数量与数字1进行算术相加运算,得到数量结果;判断所述当前字符是否为按照出栈先后顺序排列的所述各个字符中的最后出栈的一个字符,若所述当前字符是按照出栈先后顺序排列的所述各个字符中的最后出栈的一个字符,则判断所述数量结果是否大于或等于所述预设的运算符号原始值与数字2的和,且字符类型为运算符类型的所有字符中是否存在等号;若所述数量结果大于或等于所述预设的运算符号原始值与数字2的和,且字符类型为运算符类型的所有字符中存在等号,则确定所述识别结果为算式,若所述数量结果不大于或不等于所述预设的运算符号原始值与数字2的和,且字符类型为运算符类型的所有字符中不存在等号,则确定所述识别结果为非算式;若所述当前字符不是按照出栈先后顺序排列的所述各个字符中的最后出栈的一个字符,则获取按照出栈先后顺序排列的所述各个字符中的下一个出栈的字符作为当前字符,获取所述数量结果作为所述当前数量,返回执行所述采用运算符号查询方法对所述当前字符进行查询,得到查询结果的步骤。4.如权利要求1所述的验证码识别方法,其特征在于,在所述基于Tesseract对所述待识别验证码图片进行识别处理,得到所述待识别验证码图片对应的识别结果之前,所述验证码识别方法还包括:采用深度优先搜索算法对所述待识别验证码图片进行去除干扰线处理,得到去干扰后的待识别验证码图片;按照预设的转换方式将所述去干扰后的待识别验证码图片进行转换处理,得到灰度图片;采用聚类算法对所述灰度图片进行二值化处理,得到二值化图片;采用洪水填充算法对所述二值化图片进行去噪处理,得到去噪后的待识别验证码图片。5.如权利要求1至4中任一项所述的验证码识别方法,其特征在于,所述获取目标网站上的待识别验证码图具体为:获取各个目标网站上的各个待识别验证码图片;在所述基于Tesseract对所述待识别验证码图片进行识别处理,得到所述待识别验证码图片对应的识别结果之前,所述验证码识别方法还包括:确定所述各个待识别的验证码图片中的一张待识别的验证码图片为当前验证码图片;所述基于Tesseract对所述待识别验证码图片进行识别处理,得到所述待识别验证码图片对应的识别结果具体为:基于Tes...

【专利技术属性】
技术研发人员:蔡俊
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1