应用于复杂文档图像的关键实体直接检测方法及系统技术方案

技术编号：39397872 阅读：11 留言：0更新日期：2023-11-19 15:51

本发明专利技术公开一种应用于复杂文档图像的关键实体直接检测方法及系统，方法包括如下步骤：步骤A，构建并训练得到基于协同注意力机制的文档关键实体直接检测模型；自样本库中提取任意合同文档，获取该合同文档的图像信息；人工标注合同文档中所需检测的关键实体文本框；构建基于协同注意力机制的文档关键实体直接检测模型，并基于前述合同文档对构建的模型进行训练，得到最终的检测模型；步骤B，对于待检测的合同文档，将该合同文档的图像信息输入所述最终的检测模型，得到关键实体文本框，并区分该关键实体属于印刷体、手写体或印章。此种技术方案能够避免多级处理中的误差传播问题，并更好地消除冗余上下文信息的干扰，提高模型的检测性能。的检测性能。的检测性能。

全部详细技术资料下载

【技术实现步骤摘要】
应用于复杂文档图像的关键实体直接检测方法及系统

[0001]本专利技术属于图像处理
，特别涉及一种应用于复杂文档图像的关键实体直接检测方法及系统。

技术介绍

[0002]文档图像关键信息提取是指从文档图像中自动识别和提取出文本、表格、图片等关键信息，以便于后续的信息处理和利用。文档图像关键信息提取技术的应用非常广泛，比如自动化办公、数字化档案管理、合同管理等方面都有着广泛的应用。文档图像关键信息提取的目的是从文档图像中获取关键文本信息，这是从图像模态到文本模态的一种转换，通常的转换过程是由文字识别算法完成。根据转换过程可以将文档图像关键信息提取分为直接提取和间接提取。间接提取是指识别文档图像的全部文本然后使用自然语言处理等手段提取关键信息，直接提取是指直接获得关键文本信息或者感兴趣的实体(EoI,Entity ofIntersting)。
[0003]对于关键信息间接提取方法而言，早期的方式是通过OCR系统获得文档图像的全部文本信息，然后将文本提取问题视为序列标注问题，使用NLP的命名实体识别(NER,Namely Entity Recognition)获得所需要的关键实体信息。通常的处理流程将OCR获得的文本和位置信息，按照自上而下，自左向右的方式进行序列化合并[1]，然后送入BiLSTM+CRF分类器[2]就序列进行BIO标注的分类，最终获得所需要的关键文本信息。但是这种序列的方法来抽取信息仅仅关注文本序列特征，文档图像作为一种包含多种模态信息的富文本数据，这种纯NLP模式的序列标注方式来抽取关键信...

【技术保护点】

【技术特征摘要】
1.一种应用于复杂文档图像的关键实体直接检测方法，其特征在于包括如下步骤：步骤A，构建并训练得到基于协同注意力机制的文档关键实体直接检测模型；步骤A1，自样本库中提取任意合同文档，获取该合同文档的图像信息；步骤A2，人工标注合同文档中所需检测的关键实体文本框，所述关键实体的文字类型包括印刷体文字、手写体文字和印章；步骤A3，构建基于协同注意力机制的文档关键实体直接检测模型，并基于前述合同文档对构建的模型进行训练，得到最终的检测模型；步骤B，对于待检测的合同文档，将该合同文档的图像信息输入所述最终的检测模型，得到关键实体文本框，并区分该关键实体属于印刷体、手写体或印章。2.如权利要求1所述的方法，其特征在于：所述步骤A3的具体内容是：步骤A31，通过ResNet网络获取合同文档的图像的1/4、1/8、1/16和1/32的特征C2、C3、C4、C5，将所述特征C2、C3、C4、C5横向连接，得到通道数为Ch的特征F1、F2、F3、F4；步骤A32，将特征F1、F2、F3、F4按照维度1进行合并得到融合特征F，其维度为R
Bs
×
4Ch
×
ImgS/4
×
ImgS/4
，其中Bs为批处理数，ImgS为原图大小；将融合特征F经过一层注意力处理，得到特征F
att
；步骤A33，将特征F
att
经过一层3*3卷积、2维批归一化处理和ReLU激活层，得到中间特征F
hidden
，其维度为R
Bs
×
Nmid
×
ImgS/4
×
ImgS/4
，其中Nmid为中间维度；然后将中间特征F
hidden
分别送入到三个分支头当中，每个分支头处理操作为输入维度为Nmid，输出维度为map_num的1x1卷积，三个分支头输出特征为F
print
，F
handw
和F
seals
，分别对应印刷文本、手写文本和印章，维度皆为R
Bs
×
map_num
×
ImgS/4
×
ImgS/4
，其中每个分支头输出特征包含关键实体掩码图Mt与各个缩放比例下的关键实体掩码图Ms，两者数量之和为map_num；步骤A34，分别抽取输出特征F
print
，F
handw
、F
seals
中关键实体掩码图Mt的特征F
print_Mt
，F
handw_Mt
、F
seals_Mt
，维度皆为R
Bs
×1×
ImgS/4
×
ImgS/4
，将这三个特征进行融合得到三分支关键实体特征F
text
，其维度为R
Bs
×3×
ImgS/4
×
ImgS/4
，其中的3分别表示从印刷体分支、手写体分支和印章分支中抽取的关键实体掩码图；步骤A35，将步骤3.4获得的特征F
text
进行平均池化得到特征F
mp
，维度为R
Bs
×1×
ImgS/4
×
ImgS/4
；然后将特征F
mp
进行空间对齐处理，得到空间对齐后的特征F
spatial
，其维度为R
Bs
×3×
ImgS/4
×
ImgS/4
；最后将特征F
spatial
进行注意力对齐，得到最终的注意力系数F
spatt
，其维度为R
Bs
×3×
ImgS/4
×
ImgS/4
；步骤A36，将注意力系数F
spatt
分别乘以对应数据类型的关键实体掩码图特征，得到所有空间注意力操作过后的特征F
print_att
，F
handw_att
和F
seals_att
，其维度为R
Bs
×
map_num
×
ImgS/4
×
ImgS/4
；步骤A37，将所有的三分支输出特征F
print_att
，F
handw_att
和F
seals_att
进行上采样得到输出掩码图O
print
,O
handw
和O
seals
，其尺寸大小恢复到原始图像大小，三者维度为R
Bs
×

【专利技术属性】
技术研发人员：黄智财，王大寒，朱顺痣，陈明明，蔡志猛，廖洁，
申请(专利权)人：厦门华厦学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人