【技术实现步骤摘要】
一种改进多类型证件文本识别准确率的方法
[0001]本专利技术涉及图像处理
,具体为一种改进多类型证件文本识别准确率的方法。
技术介绍
[0002]在现代社会中,证件文本识别技术已经成为了一个非常重要的领域。许多企业和政府机构需要处理大量的证件文本,如身份证、户口本、驾驶证、护照等。这些证件文本包含了各种类型的信息,如姓名、地址、出生日期等。然而,由于证件文本的格式和布局不同而且复杂,证件文本识别技术仍然存在许多挑战。
[0003]现有技术中,许多证件文本识别技术使用了光学字符识别(OCR)技术。传统的OCR技术提供文本检测和文本识别过程,可以将图像中的文本区域提前并识别为可编辑的文本。
[0004]但是,由于证件文本的复杂性和多样性,以及用户上传时的标准不统一,OCR技术的准确率仍然有待提高。这导致了许多企业和政府机构需要人工手动处理证件文本,这不仅费时费力,而且容易出错。
技术实现思路
[0005]本专利技术的目的在于提供一种改进多类型证件文本识别准确率的方法,以解决上述
技术介绍
中提 ...
【技术保护点】
【技术特征摘要】
1.一种改进多类型证件文本识别准确率的方法,其特征在于:所述方法包括以下步骤:步骤1:获取用户上传的待处理的证件图片;步骤2:基于步骤1的图片,采用方向分类模型,获得图片的角度,共0,90,180,270四类;步骤3:将步骤1中非0度角度的图片旋转90、180、270度至0度;步骤4:基于步骤3的图片,采用目标检测模型,在原图中检测证件的区域和证件类别,并将证件区域提取出后送至对应类别的文本检测模型;步骤5:基于步骤4得到的证件区域和类别,使用对应证件类别的文本检测模型提取证件图片中的单行文本区域,将所有文本区域的坐标进行保存;步骤6:将获得的所有文本区域送入统一的文本识别模型,获得对应的单行中文、数字、标点字符。2.根据权利要求1所述的一种改进多类型证件文本识别准确率的方法,其特征在于:获得步骤2的方向分类模型时,使用网络中的证件图片素材获取每种证件500张以上的图片,标记为4种角度:0,90,180,270度,并将每个图片旋转3次,已获得照片的其他角度并记录角度,保存为证件图像角度数据集并划分训练集和测试集。3.根据权利要求2所述的一种改进多类型证件文本识别准确率的方法,其特征在于:使用基于ImageNet数据集的1000类图片的预训练分类模型,保留全部权重并将最后一层全连接层的结点数从1000改至4,在证件图像角度训练集训练数个轮次至收敛,然后在测试集验证准确率后即可投入使用。4.根据权利要求1所述的一种改进多类型证件文本识别准确率的方法,其特征在于:获得步骤4的目标检测模型时,使用获得的每种证件500张以上的图片,使用开源标注工具对证件图片中的证件坐标和类别进行标注,证件坐标取证件的4个角在原图的坐标,如果其中一个证件的角不在原图中,则取对应原图的角,将图片和证件类别以及坐标信息保存为证件检测数据集,并划分训练集和测试集。5.根据权利...
【专利技术属性】
技术研发人员:葛君正,陈其宾,姜凯,
申请(专利权)人:山东浪潮科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。