一种基于大数据证件信息识别匹配方法及系统技术方案

技术编号:36825511 阅读:19 留言:0更新日期:2023-03-12 01:22
本申请提出了一种基于大数据证件信息识别匹配方法及系统,涉及图像识别领域。一种基于大数据证件信息识别匹配方法包括:利用图像采集设备,提取包括证件信息的有效区域,制作成样本数据集;搭建文字识别模型、人脸识别模型;采用大数据架构改进型HDFS对运营商数据库中图片信息进行存储;采用Faiss相似性搜索工具,进行文字内容匹配、人脸图像特征向量匹配;获取证件样本测试图片,分别输入到文字识别模型、人脸识别模型中进识别,经过Faiss相似性搜索工具进行大数据匹配,输出该件证件的相关信息。能够通过文字内容匹配与人脸特征匹配进行多维度判断,提高识别的准确率,避免了因单一识别方式信息不全导致的无法识别与识别错误。识别方式信息不全导致的无法识别与识别错误。识别方式信息不全导致的无法识别与识别错误。

【技术实现步骤摘要】
一种基于大数据证件信息识别匹配方法及系统


[0001]本申请涉及图像识别领域,具体而言,涉及一种基于大数据证件信息识别匹配方法及系统。

技术介绍

[0002]大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。
[0003]拍照扫描证件识别相关身份信息,用于各项业务办理、场所进入登记等场景下。传统方式为业务人员录入身份姓名或者手机号码查询该用户的信息,多数营业网点也配备了证照扫描仪器,但是传统的扫描获取信息的方式,需要将身份证完整拍摄下来,对证件摆放位置和图片清晰度要求较高,识别速度慢、办公效率低是一大亟需解决的问题。
[0004]对于以往业务场景中扫描设备识别用户证件存在的,对证件图片证件摆放位置和图片清晰度要求较高,且识别速度较慢,有缺失的内容无法准确识别的问题。本专利针对这一场景,创新的提出了一种基于大数据证件信息识别匹配方法,通过应用图像处理识别技术、大数据技术,使得对证件信息识别匹配的图片要求降低,识别准确度提高,信息获取速度加快,有效的帮助了业务人员工作的开展,提升了用户体验度。

技术实现思路

[0005]本申请的目的在于提供一种基于大数据证件信息识别匹配方法,其能够通过文字内容匹配与人脸特征匹配进行多维度判断,提高识别的准确率,避免了因单一识别方式信息不全导致的无法识别与识别错误。
[0006]本申请的另一目的在于提供一种基于大数据证件信息识别匹配系统,其能够运行一种基于大数据证件信息识别匹配方法。
[0007]本申请的实施例是这样实现的:
[0008]第一方面,本申请实施例提供一种基于大数据证件信息识别匹配方法,其包括利用图像采集设备,采集包含证件内容的图片,对图片进行预处理,采取语义分割算法提取包括证件信息的有效区域,制作成样本数据集;搭建文字识别模型,样本图像数据集输入到模型中进行识别,输出识别出来的结果,转化成文字;搭建人脸识别模型,将样本图像数据集输入到模型中进行识别,输出识别出来的结果,得到人脸特征向量;采用大数据架构改进型HDFS对运营商数据库中图片信息进行存储,图片信息包括图片MD5值、图片内的文字内容、图片内人脸特征向量、用户信息;采用Faiss相似性搜索工具,进行文字内容匹配、人脸图像特征向量匹配,对匹配结果进行分类判别,输出匹配结果;获取证件样本测试图片,分别输入到文字识别模型、人脸识别模型中进识别,经过Faiss相似性搜索工具进行大数据匹配,输出该件证件的相关信息。
[0009]在本申请的一些实施例中,上述利用图像采集设备,采集包含证件内容的图片,对图片进行预处理,采取语义分割算法提取包括证件信息的有效区域,制作成样本数据集包
括:
[0010]利用业务网点的图像采集设备,拍摄用户办理业务时需要出具的证件图片,获取的图片为位置未摆放正确导致证件部分内容缺失的样本图片,对样本图片进行分类,分为两种类型的图片,文字部分缺失和图像部分缺失。
[0011]搭建证件图像语义分割模型对包含证件内容的部分区域进行提取,首先对低级特征进行提取,为了增加特征信息的输入,提出通过Xception模型中的Block1层和Block2层,同时提取图像大小为256x256x128和129x129x256的两条特征图作为解码器的输入信息,然后再分别引入空间注意力模块与通道注意力模块,对模型中获取到的特征图进行处理,增大重要特征的利用率,有效过滤背景信息,提高特征提取的准确度;采用FocalLoss损失函数代替交叉熵损失函数,减少特征信息的损失,增加区分目标类别的准确率,以提高图像的分割效果,对样本图像中的证件本体部分进行识别分割,得到证件包含证件内容的部分区域图像。
[0012]将提取到的包含证件内容的部分区域图像作为信息样本图片进行处理,获取尺寸为300x300像素大小的白色背景图片,将信息样本图片置于白色背景图片上层,调整信息图片样本的中心点与白色背景图片中心点重合,调整信息样本图片尺寸大小等比例缩放,使得信息样本图片完全置于白色背景图片中,且只有一个顶点触碰到白色背景图片边界,得包含信息样本图像的白色背景图片,作成样本图像数据集。
[0013]在本申请的一些实施例中,上述搭建文字识别模型,样本图像数据集输入到模型中进行识别,输出识别出来的结果,转化成文字包括:搭建SSD算法基础框架,基础网络采用VGG

16,该网络采用了6个不同的特征图来检测不同尺度的目标,实现多尺度特征图预测结构。输入时对图像进行缩放,必须是300*300*3的RGB图像,主干网络,采用的是VGG

16的Conv5_3及之前的部分结构,当通过该网络后,特征矩阵输出大小为19*19*512,然后通过5层卷积层将其依次转换为19*19*1024,10*10*512,5*5*256,3*3*256,1*1*256的特征图,最后根据非最大抑制最优化算法获得检测结果。
[0014]对SSD算法基础框架进行优化,将RFB模块加入SSD网络中,具体是在conv7_fc接预测层之前融入RFB结构,这样可以得到更深层次的信息融合,同时也对部分网络层添增了感受野。可以提高对敏感信息文本框的定位能力,从而有效的提高定位能力;采用MobileNetV3网络将SSD网络中的VGG16主干网络进行替换,来减少参数计算,从而得到轻量级的网络结构。在不影响精度的前提下,大大提升了网络训练样本的速度,并且在优化延迟的同时考虑小型网络,从深度可分离卷积的角度重新构建模型,得到优化后的文字定位网络结构;采用ICDAR 2017RCTW数据集,输入到文字定位网络结构中进行训练,得到文字定位模型。
[0015]搭建YOLOv3网络框架,对该网络框架进行优化,具体为对YOLOv3第四个检测端的改进,当YOLOv3算法完成第3次特征尺度处理后,采用2倍的上采样处理,将输出特征尺度由52*52扩大到104*104。然后,利用Route层将前层104*104特征尺度输出与Darknet结构中第11层输出进行特征融合,并完成第4次特征尺度检测,得到优化后的YOLOv3网络框架,将ICDAR 2017RCTW数据集,输入到优化后的YOLOv3网络框架中进行训练,得到内容识别模型。
[0016]将样本图像数据集中的图片输入到文字定位模型中进行文字区域定位提取,得到文字样本图片;将文字样本图片输入到内容识别模型中进行文字识别,输出识别的文字内
容,得到最终的文字识别模型。
[0017]在本申请的一些实施例中,上述搭建人脸识别模型,将样本图像数据集输入到模型中进行识别,输出识别出来的结果,得到人脸特征向量包括:搭建DeepID基础网框架并进行优化,增加将第三和第四层卷基层都变成共享和引进中心损失验证函数,最后deepid层提取512维特征向量。中心损失和softmax损失联合监督学习的CNN,其对深层学习特征的人脸识别能力大大提高。中心损失相对于contr本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据证件信息识别匹配方法,其特征在于,包括:利用图像采集设备,采集包含证件内容的图片,对图片进行预处理,采取语义分割算法提取包括证件信息的有效区域,制作成样本数据集;搭建文字识别模型,样本图像数据集输入到模型中进行识别,输出识别出来的结果,转化成文字;搭建人脸识别模型,将样本图像数据集输入到模型中进行识别,输出识别出来的结果,得到人脸特征向量;采用大数据架构改进型HDFS对运营商数据库中图片信息进行存储,图片信息包括图片MD5值、图片内的文字内容、图片内人脸特征向量、用户信息;采用Faiss相似性搜索工具,进行文字内容匹配、人脸图像特征向量匹配,对匹配结果进行分类判别,输出匹配结果;获取证件样本测试图片,分别输入到文字识别模型、人脸识别模型中进识别,经过Faiss相似性搜索工具进行大数据匹配,输出该证件的相关信息。2.如权利要求1所述的一种基于大数据证件信息识别匹配方法,其特征在于,所述利用图像采集设备,采集包含证件内容的图片,对图片进行预处理,采取语义分割算法提取包括证件信息的有效区域,制作成样本数据集包括:利用业务网点的图像采集设备,拍摄用户办理业务时需要出具的证件图片,获取的图片为位置未摆放正确导致证件部分内容缺失的样本图片,对样本图片进行分类,分为两种类型的图片,文字部分缺失和图像部分缺失;搭建证件图像语义分割模型对包含证件内容的部分区域进行提取,然后再分别引入空间注意力模块与通道注意力模块,对模型中获取到的特征图进行处理;采用FocalLoss损失函数代替交叉熵损失函数,对样本图像中的证件本体部分进行识别分割,得到证件包含证件内容的部分区域图像;将提取到的包含证件内容的部分区域图像作为信息样本图片进行处理,获取白色背景图片,将信息样本图片置于白色背景图片上层,调整信息图片样本的中心点与白色背景图片中心点重合,调整信息样本图片尺寸大小等比例缩放,使得信息样本图片完全置于白色背景图片中,且只有一个顶点触碰到白色背景图片边界,得包含信息样本图像的白色背景图片,作成样本图像数据集。3.如权利要求1所述的一种基于大数据证件信息识别匹配方法,其特征在于,所述搭建文字识别模型,样本图像数据集输入到模型中进行识别,输出识别出来的结果,转化成文字包括:搭建SSD算法基础框架,基础网络采用VGG

16,输入时对图像进行缩放,主干网络,采用VGG

16的Conv5_3及之前的部分结构,当通过该网络后,特征矩阵输出大小为19*19*512,然后通过5层卷积层将其依次转换为19*19*1024,10*10*512,5*5*256,3*3*256,1*1*256的特征图,最后根据非最大抑制最优化算法获得检测结果;对SSD算法基础框架进行优化,将RFB模块加入SSD网络中,采用MobileNetV3网络将SSD网络中的VGG16主干网络进行替换,得到轻量级的网络结构,从深度可分离卷积的角度重新构建模型,得到优化后的文字定位网络结构,采用ICDAR 2017RCTW数据集,输入到文字定位网络结构中进行训练,得到文字定位模型;
搭建YOLOv3网络框架,对该网络框架进行优化,具体的,对YOLOv3第四个检测端的改进,当YOLOv3算法完成第3次特征尺度处理后,采用2倍的上采样处理,将输出特征尺度由52*52扩大到104*104,然后,利用Route层将前层104*104特征尺度输出与Darknet结构中第11层输出进行特征融合,并完成第4次特征尺度检测,得到优化后的YOLOv3网络框架,将ICDAR 2017RCTW数据集,输入到优化后的YOLOv3网络框架中进行训练,得到内容识别模型;将样本图像数据集中的图片输入到文字定位模型中进行文字区域定位提取,得到文字样本图片;将文字样本图片输入到内容识别模型中进行文字识别,输出识别的文字内容,得到最终的文字识别模型。4.如权利要求1所述的一种基于大数据证件信息识别匹配方法,其特征在于,所述搭建人脸识别模型,将样本图像数据集输入到模型中进行识别,输出识别出来的结果,得到人脸特征向量包括:搭建DeepID基础网框架并进行优化,增加将第三和第四层卷基层都变成共享和引进中心损失验证函数,最deepid层提取512维特征向量;中心损失和softmax损失联合监督学习的CNN,在特征输出层中引入,得到人脸特征提取网络框架;获取样本图像数据集中的图片,将图片中人脸框图进行截取,扩大适当像素然后裁剪进行人脸预处理,预处理也即人脸对齐,以人脸的五个参考点居中为标...

【专利技术属性】
技术研发人员:马汝峤杨博文张宣宇周淼
申请(专利权)人:天翼电子商务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1