文档要素识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39138063 阅读:14 留言:0更新日期:2023-10-23 14:53
本发明专利技术涉及人工智能技术领域,应用了深度学习技术,涉及一种文档要素识别方法、装置、电子设备及存储介质。该方法包括:将所述文本窗输入图片编码器,提取所述文本窗的位置特征得到第一图像特征向量集;利用文本识别模型提取所述文本窗的文本,将所述文本输入文本编码器,提取所述文本的文本信息特征得到第一文本特征向量集;将所述第一图像特征向量集和所述第一文本特征向量集输入自注意力层中得到第二图像特征向量集和第二文本特征向量集;将所述第二图像特征向量集和所述第二文本特征向量集输入池化层,得到融合特征向量集;将所述融合特征向量集输入分类器得到分类结果。本发明专利技术能够更加准确的识别合同中的内容块是否包含重要的要素信息。含重要的要素信息。含重要的要素信息。

【技术实现步骤摘要】
文档要素识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,应用了深度学习技术,涉及一种文档要素识别方法、装置、电子设备及存储介质。

技术介绍

[0002]业内文档要素提取基本使用纯文本的数据信息。提取方法最简单的是建立要素规则,通过正则表达式来提取文档中的要素,例如:产品名称,收益率等等。这种方法在文档关键词变更时就会变得无效,例如“产品名称”变更为“产品代号”。需要人工维护并增加正则表达式的规则,在增加正则表达式的同时,也会增加正则冲突。
[0003]最新的技术是通过训练一个序列标注的模型,对文档的要素进行标签提取。把文本先进行人工序列标注,例如命名实体识别的方法,再训练一个命名实体识别的模型,比如CRF等,对文档进行要素识别,从而提取文档的要素内容。这种方法是建立在纯文本的数据中,忽视了正式金融文档中文本的格式,例如标题所在的位置,一些特殊要素的字体大小等信息,而这些信息对识别重要要素是很有帮助的。

技术实现思路

[0004]鉴于以上内容,有必要提供一种文档要素识别方法,其主要目的在于更加准确的识别合同中的内容块是否包含重要的要素信息。
[0005]为实现上述目的,本专利技术提供一种文档要素识别方法,其特征在于,所述方法包括:
[0006]获取待识别的文档图片,利用文本窗识别器为所述文档图片划分文本窗;
[0007]将所述文本窗输入图片编码器,提取所述文本窗的位置特征得到第一图像特征向量集;
[0008]利用文本识别模型提取所述文本窗的文本,将所述文本输入文本编码器,提取所述文本的文本信息特征得到第一文本特征向量集;
[0009]将所述第一图像特征向量集输入第一自注意力层输出得到第二图像特征向量集,将所述第一文本特征向量集输入第二自注意力层输出得到第二文本特征向量集;
[0010]将所述第二图像特征向量集和所述第二文本特征向量集输入池化层,得到融合特征向量集;
[0011]将所述融合特征向量集输入分类器,识别所述融合特征向量集中具有预设特征向量的融合特征向量,并提取所述具有预设特征向量的融合特征向量转化为文本。
[0012]可选地,将所述文本窗输入图片编码器,提取所述文本窗的位置特征得到第一图像特征向量集,包括:
[0013]使用图片编码器对每一个文本窗进行编码,每一个文本窗的特征设定为相同维度,将所有文本窗的特征组合形成第一图像特征向量集。
[0014]可选地,利用文本识别模型提取所述文本窗的文本,将所述文本输入文本编码器,
提取所述文本的文本信息特征得到第一文本特征向量集,包括:
[0015]所述第一文本特征向量集中文本特征向量的维度与第一图像特征向量集中图像特征向量的维度相同。
[0016]可选地,将所述第一图像特征向量集输入第一自注意力层输出得到第二图像特征向量集,将所述第一文本特征向量集输入第二自注意力层输出得到第二文本特征向量集,包括:
[0017]对所述第一图像特征向量集的各个图像特征向量进行内积运算和softmax计算得到注意力权重值;
[0018]根据所述注意力权重值和所述图像特征向量计算得到自注意力向量。
[0019]可选地,对所述第一图像特征向量集的各个图像特征向量进行内积运算和softmax计算得到注意力权重值,包括:
[0020]将各个图像特征向量作为主向量分别与多个副向量进行内积,计算出与副向量数量相同的多个标量值,将所述数量的标量值输入进softmax计算出相同数量的注意力权重值,其中,所述副向量为第一图像特征向量集中包括自身的所有图像特征向量。
[0021]可选地,根据所述注意力权重值和所述图像特征向量计算得到自注意力向量,包括:
[0022]将各个注意力权重值分别乘以对应的副向量得到多个计算结果,将多个计算结果进行相加,得到所述主向量的自注意向量,将计算得到的多个自注意向量组成第二图像特征向量集。
[0023]可选地,将所述第二图像特征向量集和所述第二文本特征向量集输入池化层,得到融合特征向量集,包括:
[0024]将对应同一个文本窗的文本特征向量和图像特征向量中同一维度的值输入进softmax计算权重值,再将所述权重值乘以各自的维度值并相加,得到所述文本特征向量和图像特征向量的融合特征向量,将计算得到的多个融合特征向量组成融合特征向量集。
[0025]此外,为实现上述目的,本专利技术还提供一种文本分类模型训练装置,所述装置包括:
[0026]文本窗划分模块,用于获取待识别的文档图片,利用文本窗识别器为所述文档图片划分文本窗;
[0027]图像特征提取模块,用于将所述文本窗输入图片编码器,提取所述文本窗的位置特征得到第一图像特征向量集;
[0028]文本特征提取模块,用于利用文本识别模型提取所述文本窗的文本,将所述文本输入文本编码器,提取所述文本的文本信息特征得到第一文本特征向量集;
[0029]自注意力层模块,用于将所述第一图像特征向量集输入第一自注意力层输出得到第二图像特征向量集,将所述第一文本特征向量集输入第二自注意力层输出得到第二文本特征向量集;
[0030]融合特征模块,用于将所述第二图像特征向量集和所述第二文本特征向量集输入池化层,得到融合特征向量集;
[0031]分类模块,用于将所述融合特征向量集输入分类器,识别所述融合特征向量集中具有预设特征向量的融合特征向量,并提取所述具有预设特征向量的融合特征向量转化为
文本。
[0032]此外,为实现上述目的,本专利技术还提供一种电子设备,所述电子设备包括:
[0033]存储器,存储至少一个计算机程序;及
[0034]处理器,执行所述存储器中存储的程序以实现上述所述的文档要素识别方法。
[0035]此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的文档要素识别方法。
[0036]本专利技术实施例通过文本窗识别器对待识别的图片进行区域加窗,识别出若干个文本窗,将识别出的每一个文本窗输入进图像编码器进行编码,得到第一图像特征向量集,使用文本识别模型识别出所述每一个文本窗里的文本,并通过文本编码器提取文本特征得到第一文本特征向量集,将所述第一图像特征向量集输入第一线性层得到第二图像特征向量集,所述第一文本特征向量集输入第二线性层得到第二文本特征向量集,再将第二文本特征向量和第二图像特征向量进行特征融合,得到融合特征向量集,最后通过分类器对融合特征向量集进行分类,提取包含文档要素特征的融合特征向量并转化为文本,通过利用文档文本信息和图像文本窗在文档中的位置信息,进行编码和融合,能够更加准确的识别合同中的内容块是否包含重要的要素信息。
附图说明
[0037]图1为本专利技术一实施例提供的文档要素识别方法的流程示意图;
[0038本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档要素识别方法,其特征在于,所述方法包括:获取待识别的文档图片,利用文本窗识别器为所述文档图片划分文本窗;将所述文本窗输入图片编码器,提取所述文本窗的位置特征得到第一图像特征向量集;利用文本识别模型提取所述文本窗的文本,将所述文本输入文本编码器,提取所述文本的文本信息特征得到第一文本特征向量集;将所述第一图像特征向量集输入第一自注意力层输出得到第二图像特征向量集,将所述第一文本特征向量集输入第二自注意力层输出得到第二文本特征向量集;将所述第二图像特征向量集和所述第二文本特征向量集输入池化层,得到融合特征向量集;将所述融合特征向量集输入分类器,识别所述融合特征向量集中具有预设特征向量的融合特征向量,并提取所述具有预设特征向量的融合特征向量转化为文本。2.如权利要求1所述的文档要素识别方法,其特征在于,将所述文本窗输入图片编码器,提取所述文本窗的位置特征得到第一图像特征向量集,包括:使用图片编码器对每一个文本窗进行编码,每一个文本窗的特征设定为相同维度,将所有文本窗的特征组合形成第一图像特征向量集。3.如权利要求1所述的文档要素识别方法,其特征在于,利用文本识别模型提取所述文本窗的文本,将所述文本输入文本编码器,提取所述文本的文本信息特征得到第一文本特征向量集,包括:所述第一文本特征向量集中文本特征向量的维度与第一图像特征向量集中图像特征向量的维度相同。4.如权利要求1所述的文档要素识别方法,其特征在于,将所述第一图像特征向量集输入第一自注意力层输出得到第二图像特征向量集,将所述第一文本特征向量集输入第二自注意力层输出得到第二文本特征向量集,包括:对所述第一图像特征向量集的各个图像特征向量进行内积运算和softmax计算得到注意力权重值;根据所述注意力权重值和所述图像特征向量计算得到自注意力向量。5.如权利要求4所述的文档要素识别方法,其特征在于,对所述第一图像特征向量集的各个图像特征向量进行内积运算和softmax计算得到注意力权重值,包括:将各个图像特征向量作为主向量分别与多个副向量进行内积,计算出与副向量数量相同的多个标量值,将所述数量的标量值输入进softmax计算出相同数量的注意力权重值,其中,所述副向量为第一图像特征向量集中包括自身的所有图...

【专利技术属性】
技术研发人员:舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1