一种文档多模信息和关系提取方法及系统技术方案

技术编号:27060818 阅读:20 留言:0更新日期:2021-01-15 14:41
本发明专利技术公开了一种文档多模信息和关系提取方法及系统,涉及计算机视觉领域。该方法包括:对原始文档图像、文本块内容和文本块框的坐标值进行预处理;对文本块对应图像、文本块内容及文本块框的坐标值分别进行特征编码,将编码后的特征进行融合,作为融合编码特征;以文本块作为节点,利用图网络聚合相邻节点的融合编码特征;通过词向量学习得到预处理后的原始文档图像中每一个字的词向量,与前一步骤的结果进行拼接得到图网络增强编码特征,通过双向长短可记忆网络结合条件随机场输出实体,并通过关系抽取模块预测实体关系。该方法能够支撑高效且健壮地提取非固定版式文档上的实体以及实体之间的关系。

【技术实现步骤摘要】
一种文档多模信息和关系提取方法及系统
本专利技术涉及计算机视觉领域,尤其是一种基于深度学习和图卷积网络的文档多模信息和关系提取方法及系统。
技术介绍
信息提取是从给定的非结构化的文档中提取关键的信息和关系,以形成结构化的数据输出。传统的信息抽取方法主要聚焦于普通的线性自然序列文本,通常按照序列化标签的思想,采用命名体识别(NamedEntityRecognition)的框架来提取实体以及实体之间的关系。该类方法通常以文本信息为主,不会考虑文档视觉等方面的特征,如图像、版面结构、字体等。因此,在特定类型的样本上具有一定的局限性,如现实中广泛存在的,包含有丰富视觉特征的文档,如发票、车票、小票等,见图1a至图1c。该类型文档通常包含有特定的文档全局版式、表格结构以及特定的字体样式等。对于该类型文档的关键信息提取,除了文本语义特征,视觉特征通常会起到决定性的作用,如关键信息的(相对)位置、全局版式结构、图像特征(如字体、颜色)等。如图1a和图1b中存在的多个金额字段,图1c中存在的两个时间字段,如果要准确的提取总金额和发车时间字段,则必须要利用这些字段的位置特征。对于这类文档,一种传统的关键信息抽取的方法是基于模板匹配的方法。这种方法具有两方面的缺点。第一,不具备现实业务场景下持续的可扩展性。如图1中每一类示例文档通常都具有大量不同的版式,如医疗发票。模板匹配的方法需要为每一种版式都定制一个特定的模板,且持续的维护已定制的所有模板,以保证在新的模板加入时不会影响到已有模板的功能。因此,即便只考虑上述一种文档,如图1a中的医疗发票,模板的方法也需要大量的持续的维护和更新成本,现实中这通常是很困难的,而且也容易出错。另外,这些文档通常都存在比较严重的由于套打引起的字段位置偏移问题,这也给模板匹配的方法带来了一定的困难。第二,即使针对只有有限数量版式的文档,现实中样本采集(如用户拍照上传)引入的图像扭曲、模糊以及干扰物等问题,也会大大降低模板匹配方法的性能。
技术实现思路
本专利技术涉及一种基于深度学习和图卷积网络的文档多模信息和关系提取方法。该方法通过特征编码和图卷积网络,结合命名体识别和实体关系预测的方式,充分且有效地利用文档的文本、位置、全局版式以及图像等层面的特征,以学习到丰富的语义表示,从而支撑高效且健壮地提取非固定版式文档上的实体以及实体之间的关系。根据本专利技术的第一方面,提供一种文档多模信息和关系提取方法,其中,输入包括:原始文档图像、一组文本块和与之对应的一组文本块框,该组文本块按照位置关系排序后拼接能够得到整体文档文本,所述方法包括:步骤1,预处理步骤:对原始文档图像、文本块内容和文本块框的坐标值进行预处理;步骤2,特征编码步骤:对文本块对应图像、文本块内容及文本块框的坐标值分别进行特征编码,将编码后的特征进行融合,作为融合编码特征;步骤3,图网络增强步骤:以文本块作为节点,聚合相邻节点的融合编码特征;步骤4,解码步骤:通过词向量学习得到预处理后的原始文档图像中每一个字的词向量,与步骤3的结果进行拼接得到结合词向量的图网络增强编码特征,通过双向长短可记忆网络结合条件随机场输出实体,并进行关系抽取预测实体关系。进一步的,步骤1具体包括:针对原始文档图像,进行长宽比不变的尺寸归一化以及边界补0;针对文本块内容,去除不必要字符,包括但不限于换行符;针对文本块框的坐标值,对文本块框的坐标值做归一化处理。进一步的,步骤2具体包括:对文本块对应图像进行编码,得到编码的文本块框图像特征;对文本块内容进行编码,得到编码的文本块内容特征;对文本块框的坐标值进行编码,得到编码的文本块框位置特征;将编码的文本块框图像特征、文本块框位置特征以及文本块内容特征通过相加的方式进行融合,作为融合编码特征。进一步的,对文本块对应图像进行编码得到编码的文本块框图像特征具体包括:采用由大量非固定版式文档组成的训练集对深度残差神经网络作为基础模型进行预训练,学习最佳的参数,并输出文本块像素区域对应的视野范围内的图像特征图;输入文本块框坐标,在文本块框所对应的区域特征图上应用池化操作,得到编码的文本块框图像特征。进一步的,所述编码的文本块框图像特征的维度为512。进一步的,对文本块框的坐标值进行编码得到编码的文本块框位置特征具体为:将输入的文本块框坐标值表示为[x,y,w,h],其中(x,y)为文本块框左上点的坐标,w和h为文本块框的宽和高,采用多层感知机完成升维操作,得到编码的文本块框位置特征。进一步的,所述编码的文本块框位置特征的维度为512。进一步的,对文本块内容进行编码得到编码的文本块内容特征具体为:采用一层双向长短记忆网络对文本块内容进行编码,选择最后一个时间步骤的隐藏层特征作为编码的文本块内容特征。进一步的,所述编码的文本块内容特征的维度为512。进一步的,所述步骤3具体包括:步骤31:以文本块作为节点,文本块之间的链接关系代表图的边,根据各个节点的融合编码特征之间的欧式距离计算每一个节点与其他节点之间边的权重,获取一个软的图邻接矩阵;步骤32:根据所述软的图邻接矩阵,对相邻节点的融合编码特征进行加权聚合,得到聚合后的邻居节点特征;步骤33:针对某一节点的特征与聚合的邻居节点特征进行拼接;步骤34:采用多层感知机对拼接后的特征进行变换。进一步的,所述步骤4具体包括:以文本块拼接的整体文档文本为输入,通过词向量学习得到一个词向量表,包括每一个字的词向量;对步骤34得到的变换特征进行维度扩展;将维度扩展后的变换特征分别与该文本块中每一个字的词向量特征进行拼接,得到图网络增强编码特征;将图网络增强编码特征作为双向长度可记忆网络的输入,所述双向长短可记忆网络结合条件随机场;通过条件随机场输出实体;以双向长度可记忆网络的输出和条件随机场输出的实体作为输入,对实体之间可能的关系进行分类,以预测可能存在的链接关系,得到实体间关系。根据本专利技术的第二方面,提供一种文档多模信息和关系提取装置,其中,所述文档多模信息和关系提取装置基于前述任一项所述方法进行操作,所述文档多模信息和关系提取装置包括:预处理模块,对原始文档图像、文本块内容和文本块框的坐标值进行预处理;特征编码模块:对文本块对应图像、文本块内容及文本块框的坐标值分别进行特征编码,将编码后的特征通过相加的方式进行融合,作为融合编码特征;图网络增强模块:以文本块作为节点,聚合相邻节点的融合编码特征;解码模块:通过词向量学习得到预处理后的原始文档图像中每一个字的词向量,与图网络增强模块的输出结果进行拼接得到图网络增强编码特征,通过双向长短可记忆网络结合条件随机场输出实体,并通过关系抽取模块预测实体关系。根据本专利技术的第三方面,提供一种文档多模信息和关系提取系统,所述系统包括:处理器和用于存储可执行指本文档来自技高网
...

【技术保护点】
1.一种文档多模信息和关系提取方法,输入包括:原始文档图像、一组文本块和与之对应的一组文本块框,该组文本块按照位置关系排序后拼接能够得到整体文档文本,其特征在于,所述方法包括:/n步骤1,预处理步骤:对原始文档图像、文本块内容和文本块框的坐标值进行预处理;/n步骤2,特征编码步骤:对文本块对应图像、文本块内容及文本块框的坐标值分别进行特征编码,将编码后的特征进行融合,作为融合编码特征;/n步骤3,图网络增强步骤:以文本块作为节点,聚合相邻节点的融合编码特征;/n步骤4,解码步骤:通过词向量学习得到预处理后的原始文档图像中每一个字的词向量,与步骤3的结果进行拼接得到结合词向量的图网络增强编码特征,通过双向长短可记忆网络结合条件随机场输出实体,并进行关系抽取预测实体关系。/n

【技术特征摘要】
1.一种文档多模信息和关系提取方法,输入包括:原始文档图像、一组文本块和与之对应的一组文本块框,该组文本块按照位置关系排序后拼接能够得到整体文档文本,其特征在于,所述方法包括:
步骤1,预处理步骤:对原始文档图像、文本块内容和文本块框的坐标值进行预处理;
步骤2,特征编码步骤:对文本块对应图像、文本块内容及文本块框的坐标值分别进行特征编码,将编码后的特征进行融合,作为融合编码特征;
步骤3,图网络增强步骤:以文本块作为节点,聚合相邻节点的融合编码特征;
步骤4,解码步骤:通过词向量学习得到预处理后的原始文档图像中每一个字的词向量,与步骤3的结果进行拼接得到结合词向量的图网络增强编码特征,通过双向长短可记忆网络结合条件随机场输出实体,并进行关系抽取预测实体关系。


2.根据权利要求1所述的文档多模信息和关系提取方法,其特征在于,步骤1具体包括:
针对原始文档图像,进行长宽比不变的尺寸归一化以及边界补0;
针对文本块内容,去除不必要字符;
针对文本块框的坐标值,对文本块框的坐标值做归一化处理。


3.根据权利要求1所述的文档多模信息和关系提取方法,其特征在于,步骤2具体包括:
对文本块对应图像进行编码,得到编码的文本块框图像特征;
对文本块内容进行编码,得到编码的文本块内容特征;
对文本块框的坐标值进行编码,得到编码的文本块框位置特征;
将编码的文本块框图像特征、文本块框位置特征以及文本块内容特征通过相加的方式进行融合,作为融合编码特征。


4.根据权利要求3所述的文档多模信息和关系提取方法,其特征在于,对文本块对应图像进行编码得到编码的文本块框图像特征具体包括:
采用由大量非固定版式文档组成的训练集对深度残差神经网络作为基础模型进行预训练,学习最佳的参数,并输出文本块像素区域对应的视野范围内的图像特征图;
输入文本块框坐标,在文本块框所对应的区域特征图上应用池化操作,得到编码的文本块框图像特征。


5.根据权利要求3所述的文档多模信息和关系提取方法,其特征在于,对文本块框的坐标值进行编码得到编码的文本块框位置特征具体为:
将输入的文本块框坐标值表示为[x,y,w,h],其中(x,y)为文本块框左上点的坐标,w和h为文本块框的宽和高,采用多层感知机完成升维操作,得到编码的文本块框位置特征。


6.根据权利要求3所述的文档多模信息和关系提取方法...

【专利技术属性】
技术研发人员:王勇朱军民宋佳奇
申请(专利权)人:北京易道博识科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1