一种切片文档关键信息单模型抽取方法及系统技术方案

技术编号：30436627 阅读：18 留言：0更新日期：2021-10-24 17:38

本发明专利技术公开了一种切片文档关键信息单模型抽取方法及系统，涉及计算机视觉领域。该方法包括：针对输入信息进行编码后，拼接并输入至Transformer模型中，输出得到拼接特征向量；将拼接特征向量转换成二维表格中每个值对应的特征向量，得到三维特征向量矩阵X；将三维特征向量矩阵X输入至多层相同结构的多维长短可记忆网络进行编码，得到表格编码特征向量；针对表格编码特征向量进行分类，得到实体以及各实体之间的关系。该方案实现端到端的训练和预测，避免了多个模型带来的误差传播的问题，以及充分利用两个任务之间的关系相互促进、加快学习效率，从而使信息抽取的精度大大提升。从而使信息抽取的精度大大提升。从而使信息抽取的精度大大提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种切片文档关键信息单模型抽取方法及系统

[0001]本专利技术涉及计算机视觉领域，尤其是一种关于切片文档关键信息单模型抽取方法及系统。

技术介绍

[0002]切片是从篇幅较大的文档中切取包含想要的信息的一种篇幅较小的文档。尤其在金融领域，比如在银行中这类切片文档在信息入库、结算报销等场景下有着广泛的应用，图1
‑
3示出了几张典型的银行切片。
[0003]切片内的信息结构一般分为两种：一种是k
‑
v对的形式，比如上面的图1和图2所示。也就是说信息值前面会有关键字来说明信息值中包含什么样的信息；另一种是只有信息值没有关键字说明。对于第一种情况，通常希望充分利用文档中的信息，不事先定义想要抽取的信息类型，而是利用其关键字来进行说明。这就要求在抽取出信息的同时，也要把对应该信息的关键字一并抽取出来。对于一个切片中有多个k
‑
v对的情况，还需要对抽出来的关键字和信息做一个匹配，也就是它们之间的关系；第二种情况，没有相应的关键字对信息进行说明。如图3所示，只有一组号码，但没有关键字表明这组号码代表的意义。技术人员需要事先定义想要抽取的信息类型，然后将抽出的信息正确地分到事先定义的某一种类型。根据这两种情况，申请人想要利用深度学习中的NLP的相关知识来解决，这其中就包括了命名体识别和关系抽取两种关键技术。
[0004]命名实体识别是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。早期的命名体识别方法基本都是基于规则的。基于规则的方法多采...

【技术保护点】

【技术特征摘要】
1.一种切片文档关键信息单模型抽取方法，所述单模型的输入信息包括：样本图像、样本图像中文本块所有文字内容拼成的一段文本内容和每个文字对应的位置坐标，其特征在于，所述方法包括以下步骤：特征编码步骤，针对输入信息进行编码后，拼接并输入至Transformer模型中，输出得到拼接特征向量；生成表格输入步骤，将拼接特征向量转换成二维表格中每个值对应的特征向量，得到三维特征向量矩阵X；表格编码步骤，将三维特征向量矩阵X输入至多层相同结构的多维长短可记忆网络进行编码，得到表格编码特征向量；分类步骤，针对表格编码特征向量进行分类，得到实体以及各实体之间的关系。2.根据权利要求1所述的切片文档关键信息单模型抽取方法，其特征在于，所述特征编码步骤具体包括：针对所述样本图像进行编码，得到样本图像特征向量；针对所述文本内容进行编码，得到文本语义特征向量、文本词向量；针对所述位置坐标进行编码，得到位置坐标特征向量；拼接样本图像特征向量、文本语义特征向量、文本词向量以及位置坐标特征向量，并输入至Transformer中，输出得到拼接特征向量。3.根据权利要求2所述的切片文档关键信息单模型抽取方法，其特征在于，所述针对所述样本图像进行编码具体包括：针对样本图像，采用预训练的深度卷积神经网络对文本块及其周边的图像特征进行编码，得到样本图像特征向量。4.根据权利要求3所述的切片文档关键信息单模型抽取方法，其特征在于，所述预训练的深度卷积神经网络为预训练的深度残差神经网络ResNet。5.根据权利要求2所述的切片文档关键信息单模型抽取方法，其特征在于，所述针对所述文本内容进行编码具体包括：针对文本内容，送入预训练的BERT模型中进行语义层面的编码，得到文本语义特征向量；学习文本词向量，得到文本词向量。6.根据权利要求2所述的切片文档关键信息单模型抽取方法，其特征在于，所述位置坐标进行编码具体包括：针对每个文字对应的位置坐标的坐标值做归一化处理；取四个顶点中左上角和右下角的坐标值作为该文字的位置信息；按照输入文字的顺序将每个文字的位置信息拼在一起并进行升维，得到作为所有文字内容的位置特征向量。7.根据权利要求1所述的切片文档关键信息单模型抽取方法，其特征在于，所述生成表格输入步骤具体包括：输入的所述文本块包括N个文字，D表示文本块的维度，则得到二维特征向量矩阵S，维度是N
×
D，S
i
对应第i个字的特征向量，进一步得到三维特征向量矩阵X，维度是N
×
N
×
D，其中X
ij
代表第i行第j列所对应的特...

【专利技术属性】
技术研发人员：宋佳奇，王勇，朱军民，
申请(专利权)人：北京易道博识科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人