【技术实现步骤摘要】
OCR信息检测修正方法、装置、终端及存储介质
本申请涉及图像识别
,特别是涉及一种OCR信息检测修正方法、装置、终端及存储介质。
技术介绍
OCR(OpticalCharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。一个OCR识别过程通常包括检测、识别、查表投票等过程,经过上述步骤后即完成识别,最终的识别率即为上述步骤的识别率的联合,当其中某个步骤识别率不高时,会使整个识别结果的正确性降低,现有技术中,检测过程通常依靠检测算法,但是单纯依靠检测算法,输出的文本框不一定准确,如有些票证里同一个字段间间隔很宽,而不同字段间反而间隔很窄,这会导致检测框要么检短或者连框,甚至漏检,对于送入识别网络的文本数据,在实际生产当中是检测 ...
【技术保护点】
1.一种OCR信息检测修正方法,其特征在于,包括:/n对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个实际输入框,所述项目检测框为框选项目名目的字段的检测框,所述实际输入框为框选所述项目名目的输入内容的字段的检测框;/n比对所述项目检测框的数量与所述实际输入框的数量;/n当所述项目检测框的数量超过所述实际输入框的数量时,执行补全所述实际输入框的操作,以保持所述实际输入框的数量与所述项目检测框的数量一致;/n当所述实际输入框的数量超过所述项目检测框的数量时,执行合并所述实际输入框的操作,以保持所述实际输入框的数量与所述项目检测框的数量一致。/n
【技术特征摘要】
1.一种OCR信息检测修正方法,其特征在于,包括:
对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个实际输入框,所述项目检测框为框选项目名目的字段的检测框,所述实际输入框为框选所述项目名目的输入内容的字段的检测框;
比对所述项目检测框的数量与所述实际输入框的数量;
当所述项目检测框的数量超过所述实际输入框的数量时,执行补全所述实际输入框的操作,以保持所述实际输入框的数量与所述项目检测框的数量一致;
当所述实际输入框的数量超过所述项目检测框的数量时,执行合并所述实际输入框的操作,以保持所述实际输入框的数量与所述项目检测框的数量一致。
2.根据权利要求1所述的OCR信息检测修正方法,其特征在于,所述执行补全所述实际输入框的操作,包括:
判断每个所述项目检测框内的字段内容是否符合预设规则;
当存在所述项目检测框的目标字段内容不符合预设规则时,将所述目标字段内容截断为符合所述预设规则的第一字段内容和不符合所述预设规则的第二字段内容,并以所述第一字段内容构建新的项目检测框,及以所述第二字段内容构建新的实际输入框。
3.根据权利要求2所述的OCR信息检测修正方法,其特征在于,所述判断每个所述项目检测框内的字段内容是否符合预设规则之后,还包括:
当所述项目检测框内的字段内容均符合所述预设规则时,依据所述项目检测框获取理论输入框,所述理论输入框为用于输入所述项目名目的内容的预设区域;
计算所述理论输入框与所述实际输入框的偏移向量;
根据所述理论输入框和所述偏移向量分析所述多个项目检测框中未对应所述实际输入框的第二目标项目检测框;
将所述第二目标项目检测框对应的第二目标理论输入框按所述偏移向量进行偏移后得到投影区域框,再以所述投影区域框作为所述第二目标项目检测框对应的第二目标实际输入框。
4.根据权利要求3所述的OCR信息检测修正方法,其特征在于,所述计算所述理论输入框与所述实际输入框的偏移向量,包括:
通过预设匹配规则从所述多个项目检测框和所述多个实际输入框中识别出一组对应的第一目标项目检测框和第一目标实际输入框,并获取所述第一目标项目检测框对应的第一目标理论输入框;
计算所述第一目标理论输入框与所述第一目标实际输入框的偏移向量。
5.根据权利要求1所述的OCR信息检测修正方法,其特征在于,所述执行合并所述实际输入框的操作,包括:...
【专利技术属性】
技术研发人员:梅栋,
申请(专利权)人:中国平安财产保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。