【技术实现步骤摘要】
一种识别提取纸质文本中复选框勾选结果的方法及系统
[0001]本专利技术涉及一种识别提取纸质文本中复选框勾选结果的方法及系统,属于图像识别
,尤其涉及带有复选框的文本内容的识别。
技术介绍
[0002]调查问卷一般都依赖人工方式对回收来的问卷进行信息统计和分析,存在经济成本高、操作繁琐、信息统计效率低等问题。基于图像识别技术对问卷内容进行识别和收集逐渐发展。目前,采用传统的OCR文本识别技术对调查问卷复选框勾选结果进行自动识别和统计时,由于拍摄扫描设备的分辨率不同、环境光照不均匀、排放位置不同等因素的影响,以及纸质文本图像本身存在阴影、倾斜、变形等问题,导致对调查问卷复选框勾选结果识别的准确度影响很大。此外,由于调查问卷中复选框空间有限,而且人们在复选框内勾选时的手写习惯差异也千差万别,手写内容和复选框往往会出现交叠、出界甚至错开的现象,很容易引起识别错误。
[0003]纸质调查问卷中备选答案往往通过用户在复选框上勾选“√”或者
“×”
等手写符号来标识,但是由于复选框空间有限,如何提取手写符号 ...
【技术保护点】
【技术特征摘要】
1.一种识别提取纸质文本中复选框勾选结果的方法,其特征在于,包括如下步骤:1)获取待识别文本图像,将待识别文本图像灰度化,并进行预处理,得到检测出最大边缘轮廓的处理后图像;2)对所述处理后图像进行特征检测,以获得包含复选框的特征区域;3)根据复选框的矩形特点对所述特征区域进行规则化处理,得到待识别复选框的候选区域;4)结合复选框几何信息,对所述候选框区域进行过滤,剔除掉不符合复选框几何信息的候选区域,得到待识别区域;5)对待识别区域进行复选框勾选结果的识别。2.根据权利要求1所述的识别提取纸质文本中复选框勾选结果的方法,其特征在于,所述步骤4)中,对所述候选框区域进行过滤还包括采用NMS算法,基于交并比剔除掉叠合嵌套的候选框区域。3.根据权利要求2所述的识别提取纸质文本中复选框勾选结果的方法,其特征在于,所述步骤4)中,对所述候选框区域进行过滤得到待识别区域的方法包括如下步骤:将当前候选区域集合中,置信度最高的候选区域移动至待识别区域集合;将候选区域集合中其他候选区域与该置信度最高的候选区域求出交并比,将交并比大于设定交并比阈值的其他候选区域剔除,得到新的候选区域集合;新的候选区域集合作为当前候选区域集合并重复上述步骤,直到当前候选区域集合为空。4.根据权利要求3所述的识别提取纸质文本中复选框勾选结果的方法,其特征在于,所述步骤4)中,所述复选框几何信息包括复选框的长宽比和复选框在所述候选区域的像素数量。...
【专利技术属性】
技术研发人员:王永胜,冯伟华,宗国浩,王迪,王锐,刘亚丽,胡斌,贾楠,郑新章,
申请(专利权)人:中国烟草总公司郑州烟草研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。