一种文档图像中键值对信息的抽取方法、装置及系统制造方法及图纸

技术编号:33281830 阅读:15 留言:0更新日期:2022-04-30 23:42
本发明专利技术公开了一种文档图像中键值对信息的抽取方法、装置及系统,涉及计算机视觉领域。该方法包括:针对输入信息进行编码,输出图像+内容+坐标拼接特征向量和最终实体类型名称特征向量;以每个文字为节点,聚合相邻节点的图像+内容+坐标拼接特征向量,得到每个文字的文字特征向量;基于每个文字的文字特征向量,按照实体类型对各文本块进行分类,基于最终实体类型名称特征向量和每个文字的文字特征向量,通过问答系统输出由所有实体类型和其所对应的文本块构成的键值对。该方法把多个任务融合到一个模型中,使用transformer等神经网络结构构建模型,做到端到端的训练和预测,最终输出文档中所有键值对信息。出文档中所有键值对信息。出文档中所有键值对信息。

【技术实现步骤摘要】
一种文档图像中键值对信息的抽取方法、装置及系统


[0001]本专利技术涉及计算机视觉领域,尤其是一种文档图像中键值对信息的抽取方法、装置及系统。

技术介绍

[0002]现实中通常会遇到很多文档中存在键值对这种信息表现方式,比如图1银行支票中“出票日期(大写)”和“贰零零柒年零叁月壹拾玖日”就是一个键值对,前者是关键字,后者是真值,关键字是对真值的说明,两者一起构成一个有用的信息。一个文档中可能存在多个类似的键值对信息结构,通常需要把对应的真值全部抽取出来。
[0003]传统的方法是对每一种文档版式生成一种模板,先在模板里存储各个关键字的位置,找到关键字后在其后面或者下面的值就是相应的真值。这种方法对于固定模板可以很好的解决,准确率较高,但是版式稍有不同就会出错。所以对于每一种版式都要维护一套模板,所需处理的版式较多时就会耗费大量的时间和精力来创建和维护大量的模板,且每有一种新版式都要再创建一套新模板,泛化能力很差。随着深度学习的发展,一些以神经网络为基础的模型开始逐渐取代传统的模板方法。此类方法不用为每一种版式人工创建模板,而是将大量具有不同版式的数据输入模型,让神经网络自己学习隐藏在不同版式中的通用特征,从而大大提高了泛化能力。代表方法有将整张文本拼接成一个字符串送进模型,然后做NER将需要的实体抽取出来。但是此类方法只是利用了文档中的文字信息,完全忽略了文档的图像信息和键值对之间特殊的对应关系,这些信息对于提升精度有很大的帮助。
[0004]为了更好地利用文档的文本特征和图像特征,以及包含在键值对中特殊的位置对应关系,本团队创新性的提出了将文本、图像以及位置特征结合在一起的多模态模型。模型中主要用到了图像和文本的预训练模型、图神经网络以及问答系统。下面分别介绍一下这几个方面的背景。
[0005]进入大数据时代后,可以得到的数据成指数级增长,但这些数据绝大部分都是未标注的,而且和需要解决的具体任务可能关联不大。那么如何从这些海量的数据中学习到有用的知识,从而应用到具体任务上呢?这就需要用到预训练模型,预训练模型的训练通常都会设计一些无监督的训练任务,旨在学习到数据中的通用信息,比如图像的分类、语言中的语法和句法等知识。预训练模型最初在计算机视觉领域的ImageNet上取得了突破性的进展。随着BERT的出现及其展现出来的优秀性能,让预训练模型在NLP领域迅速发展,并且取得了很好的成绩。得到预训练模型后,可以通过改变其输出层来应用到不同的下游任务上,比如问答系统、文本分类、目标检测、命名体识别等等。对比从零训练的模型,预训练模型可以提供很好的预备知识,而且这些知识对于下游任务有极大的帮助,可以让模型收敛的更快,精度更高。
[0006]尽管传统的深度学习方法被应用在提取欧式空间数据的特征方面取得了巨大的成功,但许多实际应用场景中的数据是从非欧式空间生成的,传统的深度学习方法在处理非欧式空间数据上的表现却仍难以使人满意。例如,在电子商务中,一个基于图的学习系统
能够利用用户和产品之间的交互来作出非常精确的推荐,但图的复杂性使得现有的深度学习算法在处理时面临着巨大的挑战。这是因为图是不规则的,每个图都有一个大小可变的无序节点,图中的每个节点都有不同数量的相邻节点,导致一些重要的操作(例如卷积)在图像上很容易计算,但不适合直接用于图。此外,现有深度学习算法的一个核心假设是数据样本之间彼此独立。然而,对于图来说,情况并非如此,图中的每个数据样本(节点)都会有边与图中其他数据样本(节点)相关,这些信息可用于捕获实例之间的相互依赖关系。为了充分利用这些信息,研究人员借鉴了卷积网络、循环网络和深度自动编码器的思想,定义和设计了用于处理图数据的图神经网络。节点之间的信息通过连接它们的边进行传播,通过信息传播,每个节点的信息是它相邻节点信息的聚合,这就将相邻节点之间的关系展现了出来,从而能充分利用文档中键值对之间的位置关系,帮助模型获得更好的效果。
[0007]问答系统作为自然语言处理中经典的任务,是信息检索系统的一种高级形式,目标是用准确、简洁的自然语言回答用户用自然语言提出的问题。对于问答系统的研究最早可追溯到19世纪60年代,当时的方法是基于模板和规则,不管是模型的鲁棒性和精度都是比较差的。现在的问答系统的方法和技术很多,这里按照处理方法的不同分为两种种:基于知识图谱的问答系统和基于阅读理解的问答系统。第一种以知识图谱构建事实性问答系统,从知识图谱中寻找答案,准确率比较高。缺点是过于依赖知识图谱,无法给出知识图谱之外的答案。这就要求有充足的资源来建立比较大规模的知识图谱。第二种是对非结构化的文章进行阅读理解得到答案。数据形式是给出一篇文章,围绕这个文章提出一些问题,任务是直接从文章中将答案抽取出来。比较常见的模型有FastQAExt、BERT、RoBERTa等等。

技术实现思路

[0008]本专利技术涉及一种文档图像中键值对信息的抽取方法、装置及系统。该方法把图像和文本的预训练模型、图神经网络以及问答系统多个任务融合到一个模型中。使用transformer等神经网络结构构建模型,做到端到端的训练和预测,最终输出文档中所有键值对信息。
[0009]根据本专利技术的第一方面,提供一种文档图像中键值对信息的抽取方法,所述文档图像包括多个由关键字和真值构成的键值对,输入信息包括:文档图像、文档图像中各文本块内的文字、每个文本块对应的位置坐标以及待抽取的实体类型名称,所述抽取方法包括以下步骤:
[0010]特征编码步骤,针对输入信息进行编码,输出图像+内容+坐标拼接特征向量和最终实体类型名称特征向量;
[0011]图像卷积步骤,以每个文字为节点,聚合相邻节点的图像+内容+坐标拼接特征向量,得到每个文字的文字特征向量;
[0012]任务推理步骤,基于每个文字的文字特征向量,按照实体类型对各文本块进行分类,同时基于最终实体类型名称特征向量和每个文字的文字特征向量,通过问答系统输出由所有实体类型和其所对应的文本块构成的键值对。
[0013]进一步地,所述特征编码步骤具体包括:
[0014]针对所述文档图像、文档图像中各文本块内的文字、待抽取的实体类型名称以及每个文本块对应的位置坐标进行编码,得到文档图像特征向量、文本块内容特征向量、初步
实体类型名称特征向量和文本块坐标特征向量;
[0015]拼接文档图像特征向量、文本块坐标特征向量以及文本块内容特征向量,得到图像+内容+坐标拼接特征向量;
[0016]将初步实体类型名称特征向量输入Transformer模型中,输出最终实体类型名称特征向量。
[0017]进一步地,所述针对所述文档图像、文档图像中各文本块内的文字、待抽取的实体类型名称以及每个文本块对应的位置坐标进行编码,得到文档图像特征向量、文本块内容特征向量、初步实体类型名称特征向量和文本块坐标特征向量具体包括:
[0018]针对所述文档图像进行编码,得到文档图像特征向量;
[0019]针对文档图像中各文本块内的文字和待抽取的实体类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档图像中键值对信息的抽取方法,所述文档图像包括多个由关键字和真值构成的键值对,输入信息包括:文档图像、文档图像中各文本块内的文字、每个文本块对应的位置坐标以及待抽取的实体类型名称,其特征在于,所述抽取方法包括以下步骤:特征编码步骤,针对输入信息进行编码,输出图像+内容+坐标拼接特征向量和最终实体类型名称特征向量;图像卷积步骤,以每个文字为节点,聚合相邻节点的图像+内容+坐标拼接特征向量,得到每个文字的文字特征向量;任务推理步骤,基于每个文字的文字特征向量,按照实体类型对各文本块进行分类,同时基于最终实体类型名称特征向量和每个文字的文字特征向量,通过问答系统输出由所有实体类型和其所对应的文本块构成的键值对。2.根据权利要求1所述的抽取方法,其特征在于,所述特征编码步骤具体包括:针对所述文档图像、文档图像中各文本块内的文字、待抽取的实体类型名称以及每个文本块对应的位置坐标进行编码,得到文档图像特征向量、文本块内容特征向量、初步实体类型名称特征向量和文本块坐标特征向量;拼接文档图像特征向量、文本块坐标特征向量以及文本块内容特征向量,得到图像+内容+坐标拼接特征向量;将初步实体类型名称特征向量输入Transformer模型中,输出最终实体类型名称特征向量。3.根据权利要求2所述的抽取方法,其特征在于,所述针对所述文档图像、文档图像中各文本块内的文字、待抽取的实体类型名称以及每个文本块对应的位置坐标进行编码,得到文档图像特征向量、文本块内容特征向量、初步实体类型名称特征向量和文本块坐标特征向量具体包括:针对所述文档图像进行编码,得到文档图像特征向量;针对文档图像中各文本块内的文字和待抽取的实体类型名称,分别输入预训练好的中文BERT模型,输出文本块内容特征向量和初步实体类型名称特征向量;针对每个文本块对应的位置坐标进行编码,得到文本块坐标特征向量。4.根据权利要求2所述的抽取方法,其特征在于,所述拼接文档图像特征向量、文本块坐标特征向量以及文本块内容特征向量,得到图像+内容+坐标拼接特征向量具体包括:拼接文档图像特征向量和文本块坐标特征向量后输入ROIAlign模型中,输出文本块图像特征向量;拼接文本块坐标特征向量和文本块内容特征向量后输入Transformer模型中,输出内容+坐标拼接特征向量;拼接内容+坐标拼接特征向量和文本块图像特征向量,得到图像+内容+坐标拼接特征向量。5.根据权利要求1所述的抽取方法,其特征在于,所述图像卷积步骤...

【专利技术属性】
技术研发人员:宋佳奇王勇朱军民
申请(专利权)人:北京易道博识科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1