身份证信息抽取方法、系统、存储介质及电子设备技术方案

技术编号:39162793 阅读:15 留言:0更新日期:2023-10-23 15:03
本发明专利技术提供一种身份证信息抽取方法、系统、存储介质及电子设备,所述方法包括以下步骤:获取身份证图像;抽取所述身份证图像的图像模态嵌入特征;识别所述身份证图像中的文本内容和文本边框位置;基于所述文本内容和所述文本边框位置抽取所述身份证图像的文本模态嵌入特征;对所述图像模态嵌入特征和所述文本模态嵌入特征进行融合,获取融合嵌入特征;基于注意力机制对所述融合嵌入特征进行处理,获取融合特征;识别所述融合特征中的关键字和键值,获取关键字和键值的键值对。本发明专利技术的身份证信息抽取方法、系统、存储介质及电子设备能够基于图像文本多模态信息,实现身份证信息的准确抽取。准确抽取。准确抽取。

【技术实现步骤摘要】
身份证信息抽取方法、系统、存储介质及电子设备


[0001]本专利技术属于信息抽取的
,特别是涉及一种身份证信息抽取方法、系统、存储介质及电子设备。

技术介绍

[0002]身份证是用于证明持有人身份的证件,多数由各国或地区政府发行予公民,它将作为每个人独一无二的公民身份的证明工具。通常,身份证包含有生物辨识信息,如相片、姓名、住址、出生日期、民族等等。
[0003]现有技术中,通常对身份证图像进行信息抽取,从而获取相关信息。然而,现有的身份证抽取方法通常具有以下不足。
[0004](1)图像嵌入特征抽取方法单一。
[0005](2)文本嵌入特征抽取方法单一。
[0006](3)仅利用图像和文本信息,导致抽取信息的正确率不高。

技术实现思路

[0007]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种身份证信息抽取方法、系统、存储介质及电子设备,能够基于图像文本多模态信息,实现身份证信息的准确抽取。提高身份证信息抽取的正确率。
[0008]第一方面,本专利技术提供一种身份证信息抽取方法,所述方法包括以下步骤:获取身份证图像;识别所述身份证图像中的文本内容和文本边框位置;抽取所述身份证图像的图像模态嵌入特征;基于所述文本内容和所述文本边框位置抽取所述身份证图像的文本模态嵌入特征;对所述图像模态嵌入特征和所述文本模态嵌入特征进行融合,获取融合嵌入特征;基于注意力机制对所述融合嵌入特征进行处理,获取融合特征;识别所述融合特征中的关键字和键值,获取关键字和键值的键值对。
[0009]在第一方面的一种实现方式中,抽取所述身份证图像的图像模态嵌入特征包括以下步骤:基于ResNet网络和多层感知器获取所述身份证图像的特征图;基于flatten函数和多层感知器对所述特征图进行处理,获取图像特征;基于所述特征图获取一维位置信息和二维位置信息,所述一维位置信息和所述二维位置信息分别经过多层感知器后分别获取一维位置特征和二维位置特征;基于多层感知器获取所述身份证图像的类别特征;对所述图像特征、所述一维位置特征、所述二维位置特征和所述类别特征进行求和,获取所述图像模态嵌入特征。
[0010]在第一方面的一种实现方式中,基于所述特征图获取一维位置信息和二维位置信息包括以下步骤:将所述特征图看作(7,7)的矩阵A 针对所述矩阵中的每个元素设置一个二维序号
来表明所述元素所述矩阵中的行列位置;将所述矩阵A拆分成2个矩阵,形状均为(7,7),第一个矩阵B的元素值为A的列序号,第二个矩阵C的元素值为A的行序号,所述矩阵B和所述矩阵C即为所述二维位置信息;将所述特征图的一维序号构成的矩阵D的元素按照从左到右、从上到下的顺序依次升序设置,所述矩阵D即为所述一维位置信息。
[0011]在第一方面的一种实现方式中,基于所述文本内容和所述文本边框位置抽取所述身份证图像的文本模态嵌入特征包括以下步骤:将所述文本信息固定为预设字符长度;对于所述文本信息中的每个字,基于onehot编码和多层感知器获取文本特征;将所述文本信息中每个字的序号经过onehot编码和多层感知器,获取词元特征;基于多层感知器获取所述文本信息的类别特征;对所述文本边框位置进行归一化,获取归一化文本边框位置;所述归一化文本边框位置经过多层感知器获取四个子二维边框特征;将所述四个子二维边框特征连接起来,获取二维边框特征;对所述文本特征、所述词元特征、所述类别特征和所述二维边框特征求和,获取所述文本模态嵌入特征。
[0012]在第一方面的一种实现方式中,对所述图像模态嵌入特征和所述文本模态嵌入特征进行融合,获取融合嵌入特征包括:基于concat函数将所述图像模态嵌入特征和所述文本模态嵌入特征连接起来,获取所述融合嵌入特征。
[0013]在第一方面的一种实现方式中,基于注意力机制对所述融合嵌入特征进行处理,获取融合特征包括以下步骤:对所述融合嵌入特征进行注意力机制处理;其中所述注意力机制处理包括将所述融合嵌入特征分别过3个多层感知器,获取Q、K和V,将Q和K进行矩阵乘法,获取注意力权重;根据所述融合嵌入特征的第一维度,设置行列均为所述第一维度的矩阵,矩阵中的每一个元素表示为列数减去行数的绝对值,所述矩阵经过onehot 编码和多层感知器获取注意力权重偏差,将所述注意力权重与所述注意力权重偏差之和作为更新后的注意力权重;对V与所述注意力进行矩阵乘法,再进行softmax操作,获取融合特征;对所述融合特征迭代进行预设次数的注意力机制处理,以获取最后更新的融合特征;将更新后的融合特征依次经过多层感知器、instance norm,并截断truncat到预设尺寸,以得到最终的融合特征。
[0014]在第一方面的一种实现方式中,识别所述融合特征中的关键字和键值,获取关键字和键值的键值对包括以下步骤:将所述融合特征经过多层感知器和sigmod函数,识别所述融合特征中的关键字和键值;将所述关键字和所述键值依次经过onehot编码、多层感知器和sigmod函数,获取所述关键字和键值的键值对。
[0015]第二方面,本专利技术提供一种身份证信息抽取系统,所述系统包括获取模块、识别模
块、第一抽取模块、第二抽取模块、融合模块、注意力处理模块和匹配模块;所述获取模块用于获取身份证图像;所述识别模块用于识别所述身份证图像中的文本内容和文本边框位置;所述第一抽取模块用于抽取所述身份证图像的图像模态嵌入特征;所述第二抽取模块用于基于所述文本内容和所述文本边框位置抽取所述身份证图像的文本模态嵌入特征;所述融合模块用于对所述图像模态嵌入特征和所述文本模态嵌入特征进行融合,获取融合嵌入特征;所述注意力处理模块用于基于注意力机制对所述融合嵌入特征进行处理,获取融合特征;所述匹配模块用于识别所述融合特征中的关键字和键值,获取关键字和键值的键值对。
[0016]第三方面,本专利技术提供一种电子设备,所述电子设备包括:处理器和存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述的身份证信息抽取方法。
[0017]第四方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被电子设备执行时实现上述的身份证信息抽取方法。
[0018]如上所述,本专利技术所述的身份证信息抽取方法、系统、存储介质及电子设备,具有以下有益效果。
[0019](1)能够基于图像文本多模态信息,实现身份证信息的准确抽取。提高身份证信息抽取的正确率。
[0020](2)根据模态特性,设计图像嵌入层和文本嵌入层来抽取各自模态的嵌入特征。
[0021](3)结合先验知识,来融合图像模态与文本模态的嵌入特征,实现多模态特征融合。
附图说明
[0022]图1显示为本专利技术的电子设备于一实施例中的场景示意图。
[0023]图2显示为本专利技术的身份证信息抽取方法于一实施例中的流程图。
[0024]图3显示为本专利技术的抽取身份证图像的图像模态嵌入特征于一实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种身份证信息抽取方法,其特征在于,所述方法包括以下步骤:获取身份证图像;抽取所述身份证图像的图像模态嵌入特征;识别所述身份证图像中的文本内容和文本边框位置;基于所述文本内容和所述文本边框位置抽取所述身份证图像的文本模态嵌入特征;对所述图像模态嵌入特征和所述文本模态嵌入特征进行融合,获取融合嵌入特征;基于注意力机制对所述融合嵌入特征进行处理,获取融合特征;识别所述融合特征中的关键字和键值,获取关键字和键值的键值对。2.根据权利要求1所述的身份证信息抽取方法,其特征在于:抽取所述身份证图像的图像模态嵌入特征包括以下步骤:基于ResNet网络和多层感知器获取所述身份证图像的特征图;基于flatten函数和多层感知器对所述特征图进行处理,获取图像特征;基于所述特征图获取一维位置信息和二维位置信息,所述一维位置信息和所述二维位置信息分别经过多层感知器后分别获取一维位置特征和二维位置特征;基于多层感知器获取所述身份证图像的类别特征;对所述图像特征、所述一维位置特征、所述二维位置特征和所述类别特征进行求和,获取所述图像模态嵌入特征。3.根据权利要求2所述的身份证信息抽取方法,其特征在于:基于所述特征图获取一维位置信息和二维位置信息包括以下步骤:将所述特征图看作(7,7)的矩阵A,针对所述矩阵中的每个元素设置一个二维序号来表明所述元素所述矩阵中的行列位置;将所述矩阵A拆分成2个矩阵,形状均为(7,7),第一个矩阵B的元素值为A的列序号,第二个矩阵C的元素值为A的行序号,所述矩阵B和所述矩阵C即为所述二维位置信息;将所述特征图的一维序号构成的矩阵D的元素按照从左到右、从上到下的顺序依次升序设置,所述矩阵D即为所述一维位置信息。4.根据权利要求1所述的身份证信息抽取方法,其特征在于:基于所述文本内容和所述文本边框位置抽取所述身份证图像的文本模态嵌入特征包括以下步骤:将所述文本信息固定为预设字符长度;对于所述文本信息中的每个字,基于onehot编码和多层感知器获取文本特征;将所述文本信息中每个字的序号经过onehot编码和多层感知器,获取词元特征;基于多层感知器获取所述文本信息的类别特征;对所述文本边框位置进行归一化,获取归一化文本边框位置;所述归一化文本边框位置经过多层感知器获取四个子二维边框特征;将所述四个子二维边框特征连接起来,获取二维边框特征;对所述文本特征、所述词元特征、所述类别特征和所述二维边框特征求和,获取所述文本模态嵌入特征。5.根据权利要求1所述的身份证信息抽取方法,其特征在于:对所述图像模态嵌入特征和所述文本模态嵌入特征进行融合,获取融合嵌入特征包...

【专利技术属性】
技术研发人员:刘玉龙孔欧
申请(专利权)人:上海蜜度信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1