基于字词检索的证章识别方法技术

技术编号:42443820 阅读:30 留言:0更新日期:2024-08-16 16:51
本发明专利技术公开了一种基于字词检索的证章识别方法,包括:步骤A:基于目标检测算法,对证件图像进行检测,获取证件图像带有的所有证章图像,并裁剪出每个证章图像;步骤B:基于旋转目标检测算法,对被裁剪出来的每个证章图像进行字符检测,得到字符检测框;步骤C:以字词检索算法为基础,对被裁剪出的字符检测框进行图像特征提取,然后与文本库的字符图像数据进行相似度计算,从文本库中找出相似度最高的证章图像作为当前字符检测框的识别结果;步骤D:识别结果后处理,通过对字词检索的识别结果进行通用语言逻辑判断处理,即将单个字符联系前后字符,语义拼接为已知单词,得到证章国家信息、进出口登记信息、城市信息、日期数据的识别结果。

【技术实现步骤摘要】

本专利技术涉及证章识别,尤其涉及一种基于字词检索的证章识别方法


技术介绍

1、现有技术的证章识别需要获取证章的日期、国家等信息,包括人工核查和ocr光学字符识别两种方式,人工核查的缺点是人为受干扰因素多、人力成本以及时间成本高、作业易疲劳影响良率,ocr光学字符识别技术是通过对文本资料的图像文件进行分析识别,获取文字及版面信息,先将护照资料页拍成图片,利用计算机视觉技术从图片中自动获取证章文本以及对应文字信息,问题在于各国证章形状各异,如,圆形印章,在进行文字识别时就需要将文字区域进行处理才能够识别到文字内容,同时,由于各国使用文字不同,在进行识别模型训练时,对深度学习网络模型的要求较高,此外,现有的ocr识别方法是直接识别整行文本,存在的弊端,如,当拍摄图像的文本行出现了压缩或扩张,以及大小写字母混合状态时,由于文本的文字间距不均匀,会影响识别结果,导致漏识别、误识别等场景,另一种方法是对文字进行单独检测并分类,但对于相似文本效果不好,并且,当需要识别的文字较多时,深度学习模型的网络结构head部分需要被设计较大,会导致模型过于复杂,且证章识别普遍需要本文档来自技高网...

【技术保护点】

1.一种基于字词检索的证章识别方法,应用于一或多种证件,其特征在于,包括:

2.根据权利要求1所述的基于字词检索的证章识别方法,其特征在于,所述步骤B包括子步骤:对被裁剪出来的每个证章图像进行字符检测后,得到四边形字符检测框,对获取的四边形字符框进行仿射变换,使四边形字符框为水平方向,便于后续进行字词检索。

3.根据权利要求2所述的基于字词检索的证章识别方法,其特征在于,所述步骤B包括子步骤:通过正反分类模型,判断四边形字符框的正反,判断为正向则无需处理,直接裁剪出字符检测框,反向则需被旋转180度成为正向,裁剪生成字符检测框。

4.根据权利要求3所述...

【技术特征摘要】

1.一种基于字词检索的证章识别方法,应用于一或多种证件,其特征在于,包括:

2.根据权利要求1所述的基于字词检索的证章识别方法,其特征在于,所述步骤b包括子步骤:对被裁剪出来的每个证章图像进行字符检测后,得到四边形字符检测框,对获取的四边形字符框进行仿射变换,使四边形字符框为水平方向,便于后续进行字词检索。

3.根据权利要求2所述的基于字词检索的证章识别方法,其特征在于,所述步骤b包括子步骤:通过正反分类模型,判断四边形字符框的正反,判断为正向则无需处理,直接裁剪出字符检测框,反向则需被旋转180度成为正向,裁剪生成字符检测框。

4.根据权利要求3所述的基于字词检索的证章识别方法,其特征在于,所述步骤b包括子步骤:对证章图像进行国家分类,将证章图像输入国家分类网络模型中,输出证章的国家信息以及进出口登记信息。

5.根据权利要求1所述的基于字词检索的证章识别方法,其特征在于,所...

【专利技术属性】
技术研发人员:杨梅夏炉系徐耀东付雪平张浒鲁成成
申请(专利权)人:盛视科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1