文档要素识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：39138063 阅读：14 留言：0更新日期：2023-10-23 14:53

本发明专利技术涉及人工智能技术领域，应用了深度学习技术，涉及一种文档要素识别方法、装置、电子设备及存储介质。该方法包括：将所述文本窗输入图片编码器，提取所述文本窗的位置特征得到第一图像特征向量集；利用文本识别模型提取所述文本窗的文本，将所述文本输入文本编码器，提取所述文本的文本信息特征得到第一文本特征向量集；将所述第一图像特征向量集和所述第一文本特征向量集输入自注意力层中得到第二图像特征向量集和第二文本特征向量集；将所述第二图像特征向量集和所述第二文本特征向量集输入池化层，得到融合特征向量集；将所述融合特征向量集输入分类器得到分类结果。本发明专利技术能够更加准确的识别合同中的内容块是否包含重要的要素信息。含重要的要素信息。含重要的要素信息。

全部详细技术资料下载

【技术实现步骤摘要】
文档要素识别方法、装置、电子设备及存储介质

[0001]本专利技术涉及人工智能
，应用了深度学习技术，涉及一种文档要素识别方法、装置、电子设备及存储介质。

技术介绍

[0002]业内文档要素提取基本使用纯文本的数据信息。提取方法最简单的是建立要素规则，通过正则表达式来提取文档中的要素，例如：产品名称，收益率等等。这种方法在文档关键词变更时就会变得无效，例如“产品名称”变更为“产品代号”。需要人工维护并增加正则表达式的规则，在增加正则表达式的同时，也会增加正则冲突。
[0003]最新的技术是通过训练一个序列标注的模型，对文档的要素进行标签提取。把文本先进行人工序列标注，例如命名实体识别的方法，再训练一个命名实体识别的模型，比如CRF等，对文档进行要素识别，从而提取文档的要素内容。这种方法是建立在纯文本的数据中，忽视了正式金融文档中文本的格式，例如标题所在的位置，一些特殊要素的字体大小等信息，而这些信息对识别重要要素是很有帮助的。

技术实现思路

[0004]鉴于以上内容，有必要提供一种文档要素识别方法，其主要目的在于更加准确的识别合同中的内容块是否包含重要的要素信息。
[0005]为实现上述目的，本专利技术提供一种文档要素识别方法，其特征在于，所述方法包括：
[0006]获取待识别的文档图片，利用文本窗识别器为所述文档图片划分文本窗；
[0007]将所述文本窗输入图片编码器，提取所述文本窗的位置特征得到第一图像特征向量集；
[0008]利用文本识别模型提取所述...

【技术保护点】

【技术特征摘要】
1.一种文档要素识别方法，其特征在于，所述方法包括：获取待识别的文档图片，利用文本窗识别器为所述文档图片划分文本窗；将所述文本窗输入图片编码器，提取所述文本窗的位置特征得到第一图像特征向量集；利用文本识别模型提取所述文本窗的文本，将所述文本输入文本编码器，提取所述文本的文本信息特征得到第一文本特征向量集；将所述第一图像特征向量集输入第一自注意力层输出得到第二图像特征向量集，将所述第一文本特征向量集输入第二自注意力层输出得到第二文本特征向量集；将所述第二图像特征向量集和所述第二文本特征向量集输入池化层，得到融合特征向量集；将所述融合特征向量集输入分类器，识别所述融合特征向量集中具有预设特征向量的融合特征向量，并提取所述具有预设特征向量的融合特征向量转化为文本。2.如权利要求1所述的文档要素识别方法，其特征在于，将所述文本窗输入图片编码器，提取所述文本窗的位置特征得到第一图像特征向量集,包括：使用图片编码器对每一个文本窗进行编码，每一个文本窗的特征设定为相同维度，将所有文本窗的特征组合形成第一图像特征向量集。3.如权利要求1所述的文档要素识别方法，其特征在于，利用文本识别模型提取所述文本窗的文本，将所述文本输入文本编码器，提取所述文本的文本信息特征得到第一文本特征向量集，包括：所述第一文本特征向量集中文本特征向量的维度与第一图像特征向量集中图像特征向量的维度相同。4.如权利要求1所述的文档要素识别方法，其特征在于，将所述第一图像特征向量集输入第一自注意力层输出得到第二图像特征向量集，将所述第一文本特征向量集输入第二自注意力层输出得到第二文本特征向量集，包括：对所述第一图像特征向量集的各个图像特征向量进行内积运算和softmax计算得到注意力权重值；根据所述注意力权重值和所述图像特征向量计算得到自注意力向量。5.如权利要求4所述的文档要素识别方法，其特征在于，对所述第一图像特征向量集的各个图像特征向量进行内积运算和softmax计算得到注意力权重值，包括：将各个图像特征向量作为主向量分别与多个副向量进行内积，计算出与副向量数量相同的多个标量值，将所述数量的标量值输入进softmax计算出相同数量的注意力权重值，其中，所述副向量为第一图像特征向量集中包括自身的所有图...

【专利技术属性】
技术研发人员：舒畅，陈又新，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人