一种文档多模信息和关系提取方法及系统技术方案

技术编号：27060818 阅读：20 留言：0更新日期：2021-01-15 14:41

本发明专利技术公开了一种文档多模信息和关系提取方法及系统，涉及计算机视觉领域。该方法包括：对原始文档图像、文本块内容和文本块框的坐标值进行预处理；对文本块对应图像、文本块内容及文本块框的坐标值分别进行特征编码，将编码后的特征进行融合，作为融合编码特征；以文本块作为节点，利用图网络聚合相邻节点的融合编码特征；通过词向量学习得到预处理后的原始文档图像中每一个字的词向量，与前一步骤的结果进行拼接得到图网络增强编码特征，通过双向长短可记忆网络结合条件随机场输出实体，并通过关系抽取模块预测实体关系。该方法能够支撑高效且健壮地提取非固定版式文档上的实体以及实体之间的关系。

全部详细技术资料下载

【技术实现步骤摘要】
一种文档多模信息和关系提取方法及系统
本专利技术涉及计算机视觉领域，尤其是一种基于深度学习和图卷积网络的文档多模信息和关系提取方法及系统。
技术介绍
信息提取是从给定的非结构化的文档中提取关键的信息和关系，以形成结构化的数据输出。传统的信息抽取方法主要聚焦于普通的线性自然序列文本，通常按照序列化标签的思想，采用命名体识别(NamedEntityRecognition)的框架来提取实体以及实体之间的关系。该类方法通常以文本信息为主，不会考虑文档视觉等方面的特征，如图像、版面结构、字体等。因此，在特定类型的样本上具有一定的局限性，如现实中广泛存在的，包含有丰富视觉特征的文档，如发票、车票、小票等,见图1a至图1c。该类型文档通常包含有特定的文档全局版式、表格结构以及特定的字体样式等。对于该类型文档的关键信息提取，除了文本语义特征，视觉特征通常会起到决定性的作用，如关键信息的(相对)位置、全局版式结构、图像特征(如字体、颜色)等。如图1a和图1b中存在的多个金额字段，图1c中存在的两个时间字段，如果要准确的提取总金额和发车时间字段，则必须要利用这些字段的位置特征。对于这类文档，一种传统的关键信息抽取的方法是基于模板匹配的方法。这种方法具有两方面的缺点。第一，不具备现实业务场景下持续的可扩展性。如图1中每一类示例文档通常都具有大量不同的版式，如医疗发票。模板匹配的方法需要为每一种版式都定制一个特定的模板，且持续的维护已定制的所有模板，以保证在新的模板加入时不会影响到已有模板的功能。因此，即便只考虑上述一种文档，如图1...

【技术保护点】
1.一种文档多模信息和关系提取方法，输入包括：原始文档图像、一组文本块和与之对应的一组文本块框，该组文本块按照位置关系排序后拼接能够得到整体文档文本，其特征在于，所述方法包括：/n步骤1，预处理步骤：对原始文档图像、文本块内容和文本块框的坐标值进行预处理；/n步骤2，特征编码步骤：对文本块对应图像、文本块内容及文本块框的坐标值分别进行特征编码，将编码后的特征进行融合，作为融合编码特征；/n步骤3，图网络增强步骤：以文本块作为节点，聚合相邻节点的融合编码特征；/n步骤4，解码步骤：通过词向量学习得到预处理后的原始文档图像中每一个字的词向量，与步骤3的结果进行拼接得到结合词向量的图网络增强编码特征，通过双向长短可记忆网络结合条件随机场输出实体，并进行关系抽取预测实体关系。/n

【技术特征摘要】
1.一种文档多模信息和关系提取方法，输入包括：原始文档图像、一组文本块和与之对应的一组文本块框，该组文本块按照位置关系排序后拼接能够得到整体文档文本，其特征在于，所述方法包括：
步骤1，预处理步骤：对原始文档图像、文本块内容和文本块框的坐标值进行预处理；
步骤2，特征编码步骤：对文本块对应图像、文本块内容及文本块框的坐标值分别进行特征编码，将编码后的特征进行融合，作为融合编码特征；
步骤3，图网络增强步骤：以文本块作为节点，聚合相邻节点的融合编码特征；
步骤4，解码步骤：通过词向量学习得到预处理后的原始文档图像中每一个字的词向量，与步骤3的结果进行拼接得到结合词向量的图网络增强编码特征，通过双向长短可记忆网络结合条件随机场输出实体，并进行关系抽取预测实体关系。

2.根据权利要求1所述的文档多模信息和关系提取方法，其特征在于，步骤1具体包括：
针对原始文档图像，进行长宽比不变的尺寸归一化以及边界补0；
针对文本块内容，去除不必要字符；
针对文本块框的坐标值，对文本块框的坐标值做归一化处理。

3.根据权利要求1所述的文档多模信息和关系提取方法，其特征在于，步骤2具体包括：
对文本块对应图像进行编码，得到编码的文本块框图像特征；
对文本块内容进行编码，得到编码的文本块内容特征；
对文本块框的坐标值进行编码，得到编码的文本块框位置特征；
将编码的文本块框图像特征、文本块框位置特征以及文本块内容特征通过相加的方式进行融合，作为融合编码特征。

4.根据权利要求3所述的文档多模信息和关系提取方法，其特征在于，对文本块对应图像进行编码得到编码的文本块框图像特征具体包括：
采用由大量非固定版式文档组成的训练集对深度残差神经网络作为基础模型进行预训练，学习最佳的参数，并输出文本块像素区域对应的视野范围内的图像特征图；
输入文本块框坐标，在文本块框所对应的区域特征图上应用池化操作，得到编码的文本块框图像特征。

5.根据权利要求3所述的文档多模信息和关系提取方法，其特征在于，对文本块框的坐标值进行编码得到编码的文本块框位置特征具体为：
将输入的文本块框坐标值表示为[x,y,w,h]，其中(x,y)为文本块框左上点的坐标，w和h为文本块框的宽和高，采用多层感知机完成升维操作，得到编码的文本块框位置特征。

6.根据权利要求3所述的文档多模信息和关系提取方法...

【专利技术属性】
技术研发人员：王勇，朱军民，宋佳奇，
申请(专利权)人：北京易道博识科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人