基于汉字结构的文字点选验证码识别与填入方法技术

技术编号:21850904 阅读:50 留言:0更新日期:2019-08-14 00:24
本发明专利技术涉及一种基于汉字结构的文字点选验证码识别与填入方法,包括以下步骤:预配置语义类词组库,收集语义类中文词组加入供检索使用;预配置结构化汉字库,收集汉字并对单个汉字添加结构标签,供检索使用;采集文字点选验证码图片,检测文字点选验证码图片中的存在汉字的区域并切割成单个汉字图片,记录各汉字图片的区域坐标作为填入值;预创建识别模型,用于预测汉字;根据识别模型,对各汉字图片进行识别预测,得到各预测汉字;将各所述预测汉字,输入语义类词组库和结构化汉字库进行检索匹配,并进行加权综合评定,得到目标汉字填入顺序;根据得到的目标汉字填入顺序及各所述汉字图片的区域坐标,在验证码验证窗口中点选验证码并提交。

Recognition and Filling of Verification Codes for Character Point Selection Based on Chinese Character Structure

【技术实现步骤摘要】
基于汉字结构的文字点选验证码识别与填入方法
本专利技术涉及一种基于汉字结构的文字点选验证码识别与填入方法,属于验证码识别

技术介绍
文字点选验证码目前常见的一般为两类,一类在验证码图片之外提示需要点选的文字及顺序,称为非语义类点选;另一类则未提示,需要根据语义顺序进行点选,通常为成语、美食、风景等中文词组,称为语义类点选。传统的文字点选验证码识别过程,一般基于每个汉字整理并训练分类模型。具体操作过程如图1所示,首先将收集到的文字点选验证码进行去噪、二值化等预处理,并进行切割;在切割成单个汉字后,会给每个汉字一个唯一数值标签以标识类别,相同的汉字具有相同的标签,达到将汉字分类目的;在样本按标签分类整理好后,利用深度学习CNN等算法进行训练得到模型,从而可以应用于新样本预测;对于未能正确预测部分在结果填入时采用随机方式返回结果。但由于汉字数量很大,据不完全统计信息,目前汉字的总数已经超过了8万,常用的约有3500字。因此,如果按一个类别大概需要50张样本,按常见汉字则需要人工收集近20万张样本,如果有更多汉字需要收集样本则数量更多,可谓极为耗费人力及时间成本;且可能由于背景复杂本文档来自技高网...

【技术保护点】
1.基于汉字结构的文字点选验证码识别与填入方法,其特征在于,包括以下步骤:配置语义类词组库,收集语义类中文词组加入语义类文字库中,供检索使用;配置结构化汉字库,收集汉字添加至所述结构化汉字库,并对单个汉字添加结构标签,供检索使用;获取点选填入值,采集包含文字点选的验证码图片,通过目标检测算法检测所述验证码图片中的存在汉字的区域,并返回存在汉字的区域坐标,通过每个汉字的区域坐标对所述验证码图片进行切割,生成单个汉字图片,记录各所述汉字图片的区域坐标作为文字点选的填入值;创建识别模型,将每个汉字分类并采用深度学习算法进行调优训练得到识别模型,用于预测汉字;预测汉字,调用识别模型,输入各所述汉字图片...

【技术特征摘要】
1.基于汉字结构的文字点选验证码识别与填入方法,其特征在于,包括以下步骤:配置语义类词组库,收集语义类中文词组加入语义类文字库中,供检索使用;配置结构化汉字库,收集汉字添加至所述结构化汉字库,并对单个汉字添加结构标签,供检索使用;获取点选填入值,采集包含文字点选的验证码图片,通过目标检测算法检测所述验证码图片中的存在汉字的区域,并返回存在汉字的区域坐标,通过每个汉字的区域坐标对所述验证码图片进行切割,生成单个汉字图片,记录各所述汉字图片的区域坐标作为文字点选的填入值;创建识别模型,将每个汉字分类并采用深度学习算法进行调优训练得到识别模型,用于预测汉字;预测汉字,调用识别模型,输入各所述汉字图片至识别模型内进行识别预测,得到各所述汉字图片中的预测汉字;将得到的各所述预测汉字,输入所述语义类词组库和结构化汉字库进行检索匹配,并进行加权综合评定,得到目标汉字填入顺序;根据得到的目标汉字填入顺序及各所述汉字图片的区域坐标,在验证码验证窗口中自动点选验证码并提交。2.根据权利要求1所述的基于汉字结构的文字点选验证码识别与填入方法,其特征在于,所述对单个汉字添加结构标签具体为:对单个汉字添加形体结构标签以及偏旁部首标签,其中所述形体结构标签包括左右结构、上下结构、左中右结构、上中下结构、半包围结构、全包围结构以及镶嵌结构。3.根据权利要求2所述的基于汉字结构的文字点选验证码识别与填入方法,其特征在于,所述将各所述预测汉字,输入所述语义类词组库和结构化汉字库进行检索匹配,并进行加权综合评定,得到目标汉字填入顺序,包括对语义类验证码的加权综合评定以及对非语义类验证码的加权综合评定;所述对语义类验证码的加权综合评定具体为:将各所述预测汉字,输入所述语义类词组库中进行检索,得到与各所述预测汉字相关的词组,舍弃字数与所述文字点选验证码图片中汉字字数不同的词组,等到一个或一个以上的备选结果;将各所述预测汉字以及所述备选结果,输入所述结构化汉字库进行检索,得到各所述预测汉字的形体结构和偏旁部首以及备选结果中汉字的形体结构和偏旁部首;根据各所述预测汉字的形体结构和偏旁部首以及各所述备选结果中汉字的形体结构和偏旁部首的匹配关系,加权综合评定得到目标汉字词组,从而得到目标汉字的填入顺序;所述对非语义类验证码的加权综合评定具体为:将各所述预测汉字以及非语义类验证码提示的目标结果汉字,输入所述结构化汉字库进行检索,得到各所述预测汉字的形体结构和偏旁部首以及非语义类验证码提示的目标结果汉字的形体结构和偏旁部首;根据各所述预测汉字的形体结构和偏旁部首以及非语义类验证码提示的目标结果汉字的形体结构和偏旁部首的匹配关系,修正各所述预测文字,得到目标汉字的填入顺序。4.根据权利要求1所述的基于汉字结构的文字点选验证码识别与填入方法,其特征在于:所述目标检测算法采用FasterR-CNN或YOLO算法;所述深度学习算法采用CNN算法。5.基于汉字结构的文字点选验证码识...

【专利技术属性】
技术研发人员:吴胜杰林炳松陈成乐
申请(专利权)人:厦门商集网络科技有限责任公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1