【技术实现步骤摘要】
一种身份证信息的识别方法和装置
本专利技术涉及计算机
,尤其涉及一种身份证信息的识别方法和装置。
技术介绍
传统的身份证OCR识别过程一般包括文本检测和文本识别两个步骤。文本检测是指框出含有文本的区域,文本识别是指识别水平文本行。在进行识别时,需要给定字符集,通常在选取字符集时会采用常用汉字集合,该集合的字符个数为3755个。其中,OCR英文全称是OpticalCharacterRecognition,中文叫做光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。身份证OCR识别是指将身份证栏位中的文字,通过OCR的方法识别出来的过程。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:在对身份证住址和签发机关栏位进行识别时,由于住址常常包括一些生僻字,并不包括在常用字符集中,而包括全部生僻字的汉字集的字符个数为9000多个。在使用模型进行身份证识别之前需要对模型进行训练,而基于前述情况不仅模型训练速度慢也很难训练 ...
【技术保护点】
1.一种身份证信息的识别方法,其特征在于,包括:/n接收身份证图片信息,获取目标栏位的切片;/n基于预设的字符集,将所述切片输入至识别模型中以得到对应的文本信息;其中,所述字符集为选取非重复字符集;/n根据预设的地址库,查找与所述文本信息匹配的地址信息,进而根据所述地址信息修正该文本信息并输出。/n
【技术特征摘要】
1.一种身份证信息的识别方法,其特征在于,包括:
接收身份证图片信息,获取目标栏位的切片;
基于预设的字符集,将所述切片输入至识别模型中以得到对应的文本信息;其中,所述字符集为选取非重复字符集;
根据预设的地址库,查找与所述文本信息匹配的地址信息,进而根据所述地址信息修正该文本信息并输出。
2.根据权利要求1所述的方法,其特征在于,选取非重复字符集,包括:
建立python列表,遍历识别模型的训练集中的每一个样本;
对每一个样本切成为单个字符,放入python列表中,以通过python的unique函数得到非重复字符集。
3.根据权利要求2所述的方法,其特征在于,还包括:
将字符集存储为文本文件,以供调用。
4.根据权利要求1所述的方法,其特征在于,获取目标栏位的切片,包括:
根据目标栏位的区域坐标,在身份证图片上截取切片。
5.根据权利要求1所述的方法,其特征在于,包括:
识别模型采用CRNN模型。
6.根据权利要求1所述的方法,其特征在于,查找与所述文本信息匹配的地址信息,包括:
基于预设的地址词典,将文本信息进行编码;
根据编码后的文本信息,计算与地址库中地址信息对应编码之间的余弦相似度,得到余弦相似度最高的地址信息。
7.根据权利要求6所述的方法,其特征在于,计算与地址库中地址信息对应编码之间的余弦相似度之后,包括:
根据余弦相似度值,对地址库中地址信息由高到低进行排序。
8.根据权利要求6所述的方法,其特征在于,还包括:
在对文本信息或地址库中地址信息进行编码之前,提取文本信息或地址库中地址信息的关键词,去掉预设的固定词。
9.一种身份证信息的识别装置,其特征在于,包括:
获取模块,用于接收身份证图片信息,获取目标栏位的切片;
处理模块,用于基于预设的字符集,将所述切片输入至识别模型中以得到对应的文本信息;其中,所述字符集为选取非重复字符集;根据预...
【专利技术属性】
技术研发人员:冯程,吴昀蓁,易显维,
申请(专利权)人:中国建设银行股份有限公司,建信金融科技有限责任公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。