一种文档图像中键值对信息的抽取方法、装置及系统制造方法及图纸

技术编号：33281830 阅读：15 留言：0更新日期：2022-04-30 23:42

本发明专利技术公开了一种文档图像中键值对信息的抽取方法、装置及系统，涉及计算机视觉领域。该方法包括：针对输入信息进行编码，输出图像+内容+坐标拼接特征向量和最终实体类型名称特征向量；以每个文字为节点，聚合相邻节点的图像+内容+坐标拼接特征向量，得到每个文字的文字特征向量；基于每个文字的文字特征向量，按照实体类型对各文本块进行分类，基于最终实体类型名称特征向量和每个文字的文字特征向量，通过问答系统输出由所有实体类型和其所对应的文本块构成的键值对。该方法把多个任务融合到一个模型中，使用transformer等神经网络结构构建模型，做到端到端的训练和预测，最终输出文档中所有键值对信息。出文档中所有键值对信息。出文档中所有键值对信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种文档图像中键值对信息的抽取方法、装置及系统

[0001]本专利技术涉及计算机视觉领域，尤其是一种文档图像中键值对信息的抽取方法、装置及系统。

技术介绍

[0002]现实中通常会遇到很多文档中存在键值对这种信息表现方式，比如图1银行支票中“出票日期(大写)”和“贰零零柒年零叁月壹拾玖日”就是一个键值对，前者是关键字，后者是真值，关键字是对真值的说明，两者一起构成一个有用的信息。一个文档中可能存在多个类似的键值对信息结构，通常需要把对应的真值全部抽取出来。
[0003]传统的方法是对每一种文档版式生成一种模板，先在模板里存储各个关键字的位置，找到关键字后在其后面或者下面的值就是相应的真值。这种方法对于固定模板可以很好的解决，准确率较高，但是版式稍有不同就会出错。所以对于每一种版式都要维护一套模板，所需处理的版式较多时就会耗费大量的时间和精力来创建和维护大量的模板，且每有一种新版式都要再创建一套新模板，泛化能力很差。随着深度学习的发展，一些以神经网络为基础的模型开始逐渐取代传统的模板方法。此类方法不用为每一种版式人工创建模板，而是将大量具有不同版式的数据输入模型，让神经网络自己学习隐藏在不同版式中的通用特征，从而大大提高了泛化能力。代表方法有将整张文本拼接成一个字符串送进模型，然后做NER将需要的实体抽取出来。但是此类方法只是利用了文档中的文字信息，完全忽略了文档的图像信息和键值对之间特殊的对应关系，这些信息对于提升精度有很大的帮助。
[0004]为了更好地利用文档的文本特征和图像特征，以及包含在键值对...

【技术保护点】

【技术特征摘要】
1.一种文档图像中键值对信息的抽取方法，所述文档图像包括多个由关键字和真值构成的键值对，输入信息包括：文档图像、文档图像中各文本块内的文字、每个文本块对应的位置坐标以及待抽取的实体类型名称，其特征在于，所述抽取方法包括以下步骤：特征编码步骤，针对输入信息进行编码，输出图像+内容+坐标拼接特征向量和最终实体类型名称特征向量；图像卷积步骤，以每个文字为节点，聚合相邻节点的图像+内容+坐标拼接特征向量，得到每个文字的文字特征向量；任务推理步骤，基于每个文字的文字特征向量，按照实体类型对各文本块进行分类，同时基于最终实体类型名称特征向量和每个文字的文字特征向量，通过问答系统输出由所有实体类型和其所对应的文本块构成的键值对。2.根据权利要求1所述的抽取方法，其特征在于，所述特征编码步骤具体包括：针对所述文档图像、文档图像中各文本块内的文字、待抽取的实体类型名称以及每个文本块对应的位置坐标进行编码，得到文档图像特征向量、文本块内容特征向量、初步实体类型名称特征向量和文本块坐标特征向量；拼接文档图像特征向量、文本块坐标特征向量以及文本块内容特征向量，得到图像+内容+坐标拼接特征向量；将初步实体类型名称特征向量输入Transformer模型中，输出最终实体类型名称特征向量。3.根据权利要求2所述的抽取方法，其特征在于，所述针对所述文档图像、文档图像中各文本块内的文字、待抽取的实体类型名称以及每个文本块对应的位置坐标进行编码，得到文档图像特征向量、文本块内容特征向量、初步实体类型名称特征向量和文本块坐标特征向量具体包括：针对所述文档图像进行编码，得到文档图像特征向量；针对文档图像中各文本块内的文字和待抽取的实体类型名称，分别输入预训练好的中文BERT模型，输出文本块内容特征向量和初步实体类型名称特征向量；针对每个文本块对应的位置坐标进行编码，得到文本块坐标特征向量。4.根据权利要求2所述的抽取方法，其特征在于，所述拼接文档图像特征向量、文本块坐标特征向量以及文本块内容特征向量，得到图像+内容+坐标拼接特征向量具体包括：拼接文档图像特征向量和文本块坐标特征向量后输入ROIAlign模型中，输出文本块图像特征向量；拼接文本块坐标特征向量和文本块内容特征向量后输入Transformer模型中，输出内容+坐标拼接特征向量；拼接内容+坐标拼接特征向量和文本块图像特征向量，得到图像+内容+坐标拼接特征向量。5.根据权利要求1所述的抽取方法，其特征在于，所述图像卷积步骤...

【专利技术属性】
技术研发人员：宋佳奇，王勇，朱军民，
申请(专利权)人：北京易道博识科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人