【技术实现步骤摘要】
一种基于小样本数据的证照关键信息抽取方法
[0001]本专利技术涉及一种对证照图片光学字符识别文本的关键信息抽取方法,尤其涉及基于小样本数据的关键信息抽取模型训练和预测方法,属于多模态信息处理领域。
技术介绍
[0002]近些年,政务等领域的信息化和智能化已经成为发展的趋势。政务领域的智能化的目标是减少用户和政府服务人员在处理信息时所花费的人力,实现系统的自动化处理。而基于光学字符识别(OCR)的证照文本关键信息获取,可以将证照图片转换为较为容易处理的结构化文本数据,对于提升政务系统的智能化水平具有重要作用。从图片中获取文字信息的流程一般分为三个步骤,包括文本检测、文本识别和关键信息抽取。文本检测和文本识别一般被认为是OCR任务。证照文本关键信息抽取任务是从证照光学字符识别的文字中,抽取出用户关心的文字信息,这方面的研究还比较少,而且面临着图片旋转、缩放、关键字符识别缺失、印刷错行、背景干扰等问题。
[0003]关键信息抽取相关的方法包括基于规则、基于模板、基于学习的方法等。基于规则的方法是通过实现设定好的规则,根据 ...
【技术保护点】
【技术特征摘要】
1.一种基于小样本数据的证照关键信息抽取方法,其特征在于,包括以下步骤:步骤1、采集获得证照图片;步骤2、采用OCR识别算法识别证照图片中的各文本框以及所有文本内容,获得OCR识别结果{(v
j
,l
j
)},其中:v
j
为第j个文本框的文本内容,表示为文字的序列;l
j
为第j个文本框,表示为l
j
=[(x1,y1),(x2,y2),(x3,y3),(x4,y4)],(x1,y1)、(x2,y2)、(x3,y3)及(x4,y4)为第j个文本框的四个角部坐标;步骤3、使用改进的BERT模型对OCR识别结果进行文本信息标注,改进的BERT模型包括嵌入层、表示学习层和任务层,其中:将字符序列{(t
i
,l
i
)}以及文本片段序列{(v
i
,l
i
)}输入嵌入层,获得每个字符的嵌入表示以及每个文本片段的嵌入表示e
i
后,将所有嵌入表示加和作为TransFormer层的输入;表示文字序列v
i
中的第j个字符,字符的最终嵌入表示如下式所示:式中:是Token信息,为字符的嵌入表示;L(l
i
)为布局位置信息的嵌入表示;S(s
i
)为片段信息的嵌入表示,是每个Token信息所在文字片段的编号的嵌入表示;P(i)为位置信息的嵌入表示,是输入序列中的绝对位置信息的嵌入表示;每个文本片段的最终嵌入表示e
i
如下式所示:e
i
=V(v
i
)+P(i)+S(s
i
)+L(l
i
)式中:V(v
i
)是Token信息,为抽取文字序列v
i
所对应的文字行图片所获得的图像特征的嵌入表示;Transformer层学习各个输入特征之间的交互信息,生成每个输入的特征表示;任务层根据Transformer层学习到的表示信息,完成各种任务,任务分为预训练任务和目标任务,其中:训练任务包括文本分类任务、Token预测任务、文字片段字数预测任务;目标任务是给每个字符输出标签,标记当前字符属于什么字段,基于Transformer层输出的嵌入表示,添加一层全连接层,给每一个字符进行分类;步骤4、基于改进的BERT模型所获得的文本信息标注结果,将OCR识别算法识别到的文字片段划分为字段:根据改进的BERT模型输出的预测标签概率,选择概率最大的标签,将通过OCR识别算法识别到的标签一致且紧密相邻的字符组成一个文字片段,即为字段;步骤5、采用DenseCRF模型对各个字段的标注结果进行修正,通过DenseCRF模型修正之后,将具有相同标签的字段进行整合,形成键值对的形式,作为最终的关键信息抽取结果,包括以下步骤:步骤501、构建DenseCRF模型,定义DenseCRF模型能量函数,如下式所示:式中:x
i
表示第i个字段;ψ
u
(x
i
)表示一元能量函数,ψ
u
(x
i
)=
‑
log(p(x
i
)),p(x
i
)是由改进的BERT模型直接输出的字段x
i
的概率分布情况;ψ
p
(x
i
,x
j
)表示其他字段x
j
对字段x
i
产生的二元能量函数,定义为:
式中:μ(x
i
,x
j
)=1
‑
p(x
i
|x
j
),p(x
i
|x
j
)是条件概率,在已知字段x
j
的标签是l
′
,字段x
i
的标签是l的条件概率表示为p(x
i
=l|x
j
=l
′
),则有:p(x
i
=l|x
j
=l
′
)=R(θ(x
i
,x
j
),d(x
i
,x
j
),l
′
,l)式中:R(θ(x
i
,x
j
),d(x
i
,x
j
),l
′
,l)表示一个条件概率张量,θ和d分别是两个字段之间的角度和距离,其中,以字高度为基本距离单位衡量任意两个字段之间的距离;将条件概率张量R(θ(x
i
,x
j
),d(x
i
,x
j
),l
′
,l)简化表示为R(θ,d,l
′
,l),则采用数据平滑的方法更新R(θ,d,l
′
,l),R(θ+δ
θ
,d+δ
d
,l
′
,l)
←<...
【专利技术属性】
技术研发人员:徐亚南,杨玲,陆贝尔,符宁,李佳纬,
申请(专利权)人:上海万达信息系统有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。