【技术实现步骤摘要】
一种证件目标提取方法、系统、介质、设备及终端
[0001]本专利技术属于图像分割
,尤其涉及一种证件目标提取方法、系统、介质、设备及终端。
技术介绍
[0002]目前,随着国际化进程的加快,国内外人口的流动以及跨区域交流愈加频繁,庞大的人口流动伴随着证件的高频使用。证件是对每个国内外公民的身份标识的方式,用来证明一个人的身份、经历或权限。在不同的国家、不同的时期、不同的使用环境,证件是不同的,大多数都记录着证件持有者的照片、姓名、出生日期、住址等等个人信息。
[0003]在采集到证件的多光谱图像之后,图像中通常还存在背景图像,复杂多样的背景还会干扰使用者对证件中文字和细节的观察,真正带有身份信息的有价值的是前景证件部分,这一部分应当被保存到证件信息库中。
[0004]证件图像目标提取的目的是:对拍摄到的多光谱证件图像的进行图像处理,将证件部分从多光谱图像中识别出来,检测到证件的边缘和包围框,去除复杂无用的背景部分,然后拉伸对齐,将证件部分图像线性变换成为边框规整的矩形图像。此外,证件目标提取作为计算机视 ...
【技术保护点】
【技术特征摘要】
1.一种证件目标提取方法,其特征在于,证件目标提取方法包括:系统利用嵌入式设备采集证件的多光谱图像;利用证件图像边缘线段具有直线的几何特性进行建模,结合全局图像的上下文信息推理;使用Resnet网络提取全局图像特征,再使用Deformable DTRE编码器进行编码;在一阶段解码过程中,利用注意力机制和可学习的线段查询和位置查询,预测得到证照边缘线段;在二阶段解码过程中,比较线段特征和图像特征之间的相关性,预测得到线段之间相对顺序,进而通过透视变换得到证件图像的完整边缘、顶点和包围框。2.如权利要求1所述的证件目标提取方法,其特征在于,证件目标提取方法还包括:将证件图像输入至Resnet网络;利用Resnet网络对全局图像进行特征提取,得到多尺度特征;使用Deformable DETR编码器进行特征增强与聚合,得到编码后的特征;解码部分被划分为两阶段,第一阶段利用多尺度线段解码器进行解码,查询到线段特征;通过线段预测模块估计得到每个线段的端点和置信度,置信度高于阈值的线段被视为证件的边缘线段;第二阶段利用边缘解码器将线段特征和引导特征进行比对,预测边缘线段之间的相对排列顺序,相邻顺序依次计算交点推理得到完整顶点和边框;根据估计得到的证件边缘和包围框进行透视变换,完成证件部分的图像提取。3.如权利要求2所述的证件目标提取方法,其特征在于,图像全局特征提取包括:使用在caffe框架下预训练完成的Resnet网络作为骨干网络,用于从图像中提取特征;将Resnet网络的第3层到5层的CNN卷积核替换成DCNv2卷积核;获取三通道RGB证件图像,将高和宽中更长的一边维度缩放到1024,保持图像的高和宽比例不变缩放另一边,得到网络输入I∈R3×
H
×
W
;经过Resnet网络后提取到多个不同尺度的特征图每层特征的长和宽均是上一层的1/2:抽取最后3层的特征使用1
×
1卷积降低通道数量;对最后一层特征使用步长为2的3
×
3卷积进行下采样,得到4层特征作为编码器的输入;基于Deformable DETR结构的特征编码包括:运用Deformable Transformer结构的编码器部分作为颈部网络;利用颈部网络对骨干网络提取到多尺度特征进行增强与聚合,得到编码后的多尺度特征;利用Deformable Transformer编码器学习编码全局特征,使证件部分特征与背景特征进行区分;Deformable DETR通过收集骨干网络Resnet提取到的不同尺度的特征图对特征自行融合后编码,将Transformer的单层特征扩展为多尺度特征;Deformable DETR编码器由6层Deformable DETR编码模块组成,每个模块包含多尺度可形变注意力机制和前馈神经网络,编码过程中使用层级标准化对特征中的元素进行归一化,编码计算过程如下式所示:F
en
=FFN(MSDeformAttn(Flatten(F
in
)+encode
pos
));输入和输出的特征图均具有相同分辨率,按位叠加位置编码,位置编码的尺寸和特征图保持一致,且特征在第一层输入时展平成为一维向量。4.如权利要求2所述的证件目标提取方法,其特征在于,多尺度线段解码器包括:利用多尺度解码器在3个不同尺度下对特征进行解码,通过比对线段查询和编码
特征之间的相似性,层层解码得到证件图像中的线段特征;线段解码器堆叠3层调整后的DETR解码器结构;给定输入为查询元素和特征元素,将位置查询嵌入和线段查询嵌入进行叠加后作为输入查询Q;位置查询嵌入和线段查询通过将查询个数T嵌入到编码维度256得到,两者均是初始随机生成的可训练参数;将位置编码与编码后特征的第i层进行叠加得到输入键K;直接将的第i层直接作为输入值V,共有3个不同维度的编码特征,对应输入3层的线段解码模块的交叉注意力机制;输出为位置特征查询结果和线段特征查询结果,输出结果作为下一层线段解码器的输入,并将输出值统称为位置查询和线段查询更新过程表示为:更新过程表示为:其中,CA表示交叉注意力机制,SA表示自我注意力机制;每次使用注意力机制模块后,均接续使用标准化进行层级归一化;线段解码过程中,确定查询线段特征的数量,利用注意力机制进行解码得到对应数量的线段特征;线段解码过程中隐式更新位置查询,具体包括:(1)查询线段数量共设置有T个查询,每个查询均相当于在不同的位置对图片进行查询是否存在对应的线段;如果存在合适的答案则返回结果,输出固定集合大小的T个查询结果;每张完整证照图像均包括4条明显的边缘线段,设定T的数量显著大于证照的边缘数量;作为优选,将T设置为30;(2)线段查询与位置查询利用查询从编码后的特征中获得模型所感兴趣的线段特征;采用位置查询和线段查询联合表示被查询的线段特征,位置查询和线段查询在3层模型中被层层更新,最终查询到的线段特征保存在嵌入向量中;线段查询与位置查询均是嵌入向量,维度为T
×
256;在前向传播时,线段查询在每一层通过注意力机制更新,位置查询的更新方式与线段查询的更新方式不同;对预测到的簇查询结果进行一个3层的前馈网络,得到一个向量作为位置查询的偏置量,和原本的位置查询结果叠加,作为下一层网络的位置查询的输入;位置查询在预测时随每一层网络前向计算而更新的,在预测时动态地隐式更新注意力位置;(3)注意力机制多头注意力机制用于自适应地聚合键的内容,让网络同时关注多个不同表征子空间和不同位置的信息;通过对查询向量Q、键向量K、值向量V的线性拆分和堆叠处理,实现CNN中使用多个卷积核的效果,让模型并行计算;将Q、K、V分别线性拆分为M个维度相同的向量,M代表注意力头的个数,M优选为8个;将8个Z
i
在第一维拼接得到新的矩阵;最后与投影矩阵W0相乘,得到多头注意力机制特征Z,W0初始值随机生成,随网络训练更新参数;每个注意力头的计算方式为:
其中,最后的多头注意力计算为:MultiHeadAttn(Z
i
)=Concat(Z1,Z2,
…
,Z8)
×
W0;自我注意力机制中的均是同一个来源X,计算过程如下式:其中,W
Q
、W
K
和W
V
是三个初始值随机生成的权值矩阵,维度为,随网络的训练而更新参数;(4)线段预测模块线段解码器输出T个线段特征,线段预测模块用于并行地对每一个查询的结果分别进行预测,得到的T个线段预测结果;每个结果包含两部分,一部分是线段,另一部分是该线段的置信度;将位置查询和线段查询在最后一维拼接,经过一个三层的前馈预测网络得到T条线段的位...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。