【技术实现步骤摘要】
一种自动化的卡证结构化信息抽取技术方法及系统
[0001]本专利技术涉及卡证信息抽取
,尤其涉及一种自动化的卡证结构化信息抽取技术方法及系统
。
技术介绍
[0002]卡证的结构化信息抽取广泛应用于各行各业,如业务系统在接收用户的卡证(身份证,银行卡,护照,户口卡,飞机票,火车票,发票等)后,需要将卡证中的信息抽取为机构化形式,存储到系统数据库
。
结构化形式多以卡证中字段名
、
内容组成,如
<
姓名,张三
>
,
<
身份证号码,
1234>
,
<
发票号码,
ad56>。
其中每种卡证都有其不同的字段名;以及不同的形式,字段名与内容同行横向排列,或字段名与内容同列纵向排列
。
[0003]目前,最普遍的卡证类的结构化信息抽取分为多步骤
。
首先,针对全图进行文字检测,输出文字所在的位置,该位置为
<
文字条左上坐标,文字条右上坐标
>
,注意文字条是只包含一行文字的图像
。
其次,根据获取的位置,剪裁出文字条
。
接着,用文字识别模型识别上述剪裁的文字条
。
最后根据输出的文字信息,结合每种卡证的情况做正则等复杂规则,输出卡证图像的结构化信息 >。
因而,一个卡证结构化信息抽取的系统往往需要融合文字检测,文字识别,以及针对每种卡证的定制化规则
。
[0004]在上述流程下,很多方案会针对文字检测,以及文字识别进行优化,力图从这两方面提升结构化信息提取的准确率
。
但是忽视了最后一步复杂而繁琐结构化信息提取的步骤,而这些精心设计的规则很难适用不同的卡证,不同的卡证还需维护各自的提取规则
。
目前卡证的结构化信息提取技术目前仍较为繁琐,单一的模型也需进一步提升效果
。
[0005]当前的针对卡证结构化信息抽取技术,既要训练文字检测模型,也要训练文字识别模型,还要针对不同的卡证设计特有的规则提取结构化信息
。
更有甚者,针对不同的卡证训练不同的文字检测模型和文字识别模型
。
整个流程非常复杂繁琐
。
另外,由于有多个环节组成,误差会累积,文字检测的错误会累积到文字识别的错误,再传导到用规则提取结构化信息的环节
。
因此,当输入的图片质量稍差,有一定角度的倾斜时,会导致文字检测识别准确率降低,最终传到下去,整体准确率进一步下降,因而,系统的鲁棒性也有待提升
。
[0006]另外,采用单一模型输入,不依赖于文字检测和文字识别,直接训练一个模型,输入图片,输出结构化信息,该方法比较简洁,但是由于丢失了中间文字信息的监督,准确率也很难达到上述环环相扣的复杂系统的准去率
。
[0007]因此设计一个简洁鲁棒且高效的卡证结构化信息提取技术很有必要
。
技术实现思路
[0008]本专利技术提供一种加强模型识别鲁棒性的自动化的卡证结构化信息抽取技术方法及系统
。
[0009]本专利技术一种自动化的卡证结构化信息抽取技术方法,将卡证图片输入卡证结构化信息抽取模型中,根据输入的提示词得到卡证结构化信息,所述卡证结构化信息抽取模型
的训练方法包括如下步骤:
S1、
定义不同的卡证图片结构
、
定义输入提示词;
S2、
根据定义的卡证图片结构及输入提示词定义输出形式;
S3、
根据获取的卡证图片对卡证图片中每个词语的位置进行坐标的标注,根据词语的位置得到该词语中字符的坐标位置,得到待训练卡证结构化信息抽取模型;
S4、
对待训练卡证结构化信息抽取模型进行训练,得到最终卡证结构化信息抽取模型
。
[0010]优选地,所述步骤
S3
中根据词语的位置得到该词语中字符的位置具体为,该词语中字符的位置根据如下公式计算得到:
,,
其中,设某词语的位置为(
x1
,
y1
,
x1
,
y1
),
x1
,
y1
代表左上角的坐标,
x2
,
y2
为右下角的坐标,
n
为组成该词语的字符数,
k
为该词语中的第
k
个字符,根据如上公式计算得到该词语中第
k
个字符的位置(
kx1
,
ky1
,
kx2
,
ky2
)
。
[0011]优选地,对
kx1、ky1、kx2
和
ky2
的任一项坐标值增加噪声因子得到最终第
k
个字符位置为(
kx1+
α
,
ky1
,
kx2
,
ky2
)
、
(
kx1
,
ky1+
α
,
kx2
,
ky2
)
、
(
kx1
,
ky1
,
kx2+
α
,
ky2
)或(
kx1
,
ky1
,
kx2
,
ky2+
α
),
α
为噪声因子
。
[0012]优选地,当对
kx1
或
kx2
增加噪声因子时,噪声因子满足如下条件:
α
<
1/6
·
(
kx2
‑ꢀ
kx1
)
。
[0013]优选地,当对
ky1
或 ky2
增加噪声因子时,噪声因子满足如下条件:
α
<
1/6
·
(
ky2
‑ꢀ
ky1
)
。
[0014]优选地,所述步骤
S4
中对卡证结构化信息抽取模型进行训练包括将训练图片输入模型,根据提示词来输出结果,所述训练图片包括卡证的原图以及卡证字符被遮挡后的图片
。
[0015]优选地,当训练图片为卡证字符被遮挡后的图片,训练时将被遮挡的字符替换成自定义字符,其他标注的标签不变,根据提示词得到输出结果
。
[0016]优选地,所述卡证图片结构包括文本的行数
、
每行本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种自动化的卡证结构化信息抽取技术方法,其特征在于,将卡证图片输入卡证结构化信息抽取模型中,根据输入的提示词得到卡证相关信息,所述卡证结构化信息抽取模型的训练方法包括如下步骤:
S1、
定义不同的卡证图片结构
、
定义输入提示词;
S2、
根据定义的卡证图片结构及输入提示词定义输出形式;
S3、
根据获取的卡证图片对卡证图片中每个词语的位置进行坐标的标注,根据词语的位置得到该词语中字符的坐标位置,得到待训练卡证结构化信息抽取模型;
S4、
对待训练卡证结构化信息抽取模型进行训练,得到最终卡证结构化信息抽取模型
。2.
如权利要求1所述的一种自动化的卡证结构化信息抽取技术方法,其特征在于,所述步骤
S3
中根据词语的位置得到该词语中字符的位置具体为,该词语中字符的位置根据如下公式计算得到:
,,
其中,设某词语的位置为(
x1
,
y1
,
x1
,
y1
),
x1
,
y1
代表左上角的坐标,
x2
,
y2
为右下角的坐标,
n
为组成该词语的字符数,
k
为该词语中的第
k
个字符,根据如上公式计算得到该词语中第
k
个字符的位置(
kx1
,
ky1
,
kx2
,
ky2
)
。3.
如权利要求2所述的一种自动化的卡证结构化信息抽取技术方法,其特征在于,对
kx1、ky1、kx2
和
ky2
的任一项坐标值增加噪声因子得到最终第
k
个字符位置为(
kx1+
α
,
ky1
,
kx2
,
ky2
)
、
(
kx1
,
ky1+
α
,
kx2
,
ky2
)
、
(
kx1
,
ky1
,
kx2+
α
,
ky2
)或(
kx1
,
ky1
,
kx2
,
ky2+
α
),
α
为噪声因子
。4.
如权利要求3所述的自动化的卡证结构化信息抽取...
【专利技术属性】
技术研发人员:张颖,陈盛福,张超捷,叶典,余仲慰,
申请(专利权)人:中邮消费金融有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。