一种切片文档关键信息单模型抽取方法及系统技术方案

技术编号:30436627 阅读:18 留言:0更新日期:2021-10-24 17:38
本发明专利技术公开了一种切片文档关键信息单模型抽取方法及系统,涉及计算机视觉领域。该方法包括:针对输入信息进行编码后,拼接并输入至Transformer模型中,输出得到拼接特征向量;将拼接特征向量转换成二维表格中每个值对应的特征向量,得到三维特征向量矩阵X;将三维特征向量矩阵X输入至多层相同结构的多维长短可记忆网络进行编码,得到表格编码特征向量;针对表格编码特征向量进行分类,得到实体以及各实体之间的关系。该方案实现端到端的训练和预测,避免了多个模型带来的误差传播的问题,以及充分利用两个任务之间的关系相互促进、加快学习效率,从而使信息抽取的精度大大提升。从而使信息抽取的精度大大提升。从而使信息抽取的精度大大提升。

【技术实现步骤摘要】
一种切片文档关键信息单模型抽取方法及系统


[0001]本专利技术涉及计算机视觉领域,尤其是一种关于切片文档关键信息单模型抽取方法及系统。

技术介绍

[0002]切片是从篇幅较大的文档中切取包含想要的信息的一种篇幅较小的文档。尤其在金融领域,比如在银行中这类切片文档在信息入库、结算报销等场景下有着广泛的应用,图1

3示出了几张典型的银行切片。
[0003]切片内的信息结构一般分为两种:一种是k

v对的形式,比如上面的图1和图2所示。也就是说信息值前面会有关键字来说明信息值中包含什么样的信息;另一种是只有信息值没有关键字说明。对于第一种情况,通常希望充分利用文档中的信息,不事先定义想要抽取的信息类型,而是利用其关键字来进行说明。这就要求在抽取出信息的同时,也要把对应该信息的关键字一并抽取出来。对于一个切片中有多个k

v对的情况,还需要对抽出来的关键字和信息做一个匹配,也就是它们之间的关系;第二种情况,没有相应的关键字对信息进行说明。如图3所示,只有一组号码,但没有关键字表明这组号码代表的意义。技术人员需要事先定义想要抽取的信息类型,然后将抽出的信息正确地分到事先定义的某一种类型。根据这两种情况,申请人想要利用深度学习中的NLP的相关知识来解决,这其中就包括了命名体识别和关系抽取两种关键技术。
[0004]命名实体识别是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。早期的命名体识别方法基本都是基于规则的。基于规则的方法多采用语言学家手工构造规则模板,选用特征包括统计信息、标点符号、指示词和方向词、中心词等方法,以模式和字符串相匹配为主要手段,这类方法大多依赖于知识库和词典的建立。但是这类方法往往依赖于具体语言、领域和文本风格,编制过程耗时且难以涵盖所有的语言现象,特别容易产生错误,系统可移植性不好,对于不同的系统需要语言学家重新书写规则。之后由于基于大规模的语料库的统计方法在自然语言处理各个方面取得不错的效果后,出现了一大批机器学习的方法:隐马尔可夫模型、语言模型、最大熵模型、条件随机场等。其中最大熵模型结构紧凑,具有较好的通用性,主要缺点是训练时间复杂性非常高,有时甚至导致训练代价难以承受,另外由于需要明确的归一化计算,导致开销比较大。条件随机场为命名实体识别提供了一个特征灵活、全局最优的标注框架,但同时存在收敛速度慢、训练时间长的问题。随着深度学习的流行及其在自然语言方向的广泛应用,出现了很多基于深度学习的命名体识别方法且展现出了不错的效果。此类方法将命名体识别当作序列标注任务来做,比较常见的方法有BiLSTM+CRF、CNN+CRF,BERT、RoBERTa等。利用神经网络模型自身极强的拟合能力,可以很好的提取到带有关键信息的特征向量,且此过程不需要人工参与而完全通过训练模型得到,这就省去了冗长复杂的特征制定过程,不仅节省了大量的资源和精力,也大大提高了预测的准确度。
[0005]关系抽取旨在发现文本中两个或多个实体之间的语义关系。与命名实体识别类
似,早期的关系抽取也是基于规则或者依存句法,通过手工模式的方式来提取。这类方法虽然可以为特定的领域创造出高准确率的模式,但是需要大量的人工工作来创建所有可能的规则,这就导致了模型的鲁棒性差且需要耗费很多的精力和资源。随着机器学习的发展,出现了有监督关系抽取的方法,主要利用支持向量机、最大熵模型等技术。这类方法也有明显的缺陷,比如:过度依赖于精心设计的kernel来提取特征,这就使得模型提取特征的能力有限、容易出错且当应用到新的领域时不够鲁棒。深度学习方法的大规模研究和应用对于关系抽取领域的发展起到至关重要的作用,将RNN、CNN等神经网络模型应用到有监督关系抽取框架中已经成为如今的主流趋势。通过神经网络模型自身的强大拟合能力,研究人员不需要再用手工来设计数据的特征,而是让模型自动地学习到句子中所蕴含的语法和句法特征,从而使得模型的鲁棒性大大提高。
[0006]由于关系抽取任务是预测存在关系的实体对,所以对命名实体识别过程有很强的依赖。在针对一个特定的句子做关系抽取时,会首先要求识别出语句中的实体,然后再识别两两实体对之间的关系。根据命名实体识别任务和关系抽取任务之间的关系,可以先做实体识别再根据其结果进行关系抽取,这种做法有几个缺点:1)实体识别模块的错误会传播到关系抽取模块从而影响其性能;2)分成两个模块单独来做忽视了两个子任务之间存在的关系,这种关系可能会使得子任务中的学习能力增强;3)对识别出来的实体进行两两配对,再进行关系分类,那些没有关系的实体对就会产生冗余信息,使得错误率提升。

技术实现思路

[0007]针对上述存在的缺点,申请人提出将两个任务放到一个模型中,通过联合模型不仅可以抽取实体类型,它们之间的关系也可以一起抽取出来,使得关系抽取可以做到端到端的训练和抽取,从而提升预测的精度。由此,本专利技术提供了一种切片文档关键信息单模型抽取方法及系统。该方案将命名实体识别和关系抽取两个任务融合到一个模型中,利用长短可记忆网络(LSTM)、Transformer等神经网络结构构建模型,做到端到端的训练和预测,最终根据切片信息结构的特殊性输出实体类型或实体对之间的关系。本专利技术涉及一种精确的文档关键信息抽取方法。针对切片文档关键信息抽取这一问题,申请人创新性地提出利用表格填充的方法来将命名实体识别和关系抽取放到一个模型中,充分利用切片文档的图像、文本和位置特征,实现端到端的训练和预测,避免了多个模型带来的误差传播的问题,以及充分利用两个任务之间的关系相互促进、加快学习效率,从而使信息抽取的精度大大提升。
[0008]根据本专利技术的第一方面,提供一种切片文档关键信息单模型抽取方法,所述单模型的输入信息包括:样本图像、样本图像中文本块所有文字内容拼成的一段文本内容和每个文字对应的位置坐标,其特征在于,所述抽取方法包括以下步骤:
[0009]特征编码步骤,针对输入信息进行编码后,拼接并输入至Transformer模型中,输出得到拼接特征向量;
[0010]生成表格输入步骤,将拼接特征向量转换成二维表格中每个值对应的特征向量,得到三维特征向量矩阵X;
[0011]表格编码步骤,将三维特征向量矩阵X输入至多层相同结构的多维长短可记忆网络进行编码,得到表格编码特征向量;
[0012]分类步骤,针对表格编码特征向量进行分类,得到实体以及各实体之间的关系。
[0013]进一步的,所述特征编码步骤具体包括:
[0014]针对所述样本图像进行编码,得到样本图像特征向量;
[0015]针对所述文本内容进行编码,得到文本语义特征向量、文本词向量;
[0016]针对所述位置坐标进行编码,得到位置坐标特征向量;
[0017]拼接样本图像特征向量、文本语义特征向量、文本词向量以及位置坐标特征向量,并输入至Transformer模型中,输出得到拼接特征向量。
[0018]进一步的,样本图像特征向量、文本语义特征向量、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种切片文档关键信息单模型抽取方法,所述单模型的输入信息包括:样本图像、样本图像中文本块所有文字内容拼成的一段文本内容和每个文字对应的位置坐标,其特征在于,所述方法包括以下步骤:特征编码步骤,针对输入信息进行编码后,拼接并输入至Transformer模型中,输出得到拼接特征向量;生成表格输入步骤,将拼接特征向量转换成二维表格中每个值对应的特征向量,得到三维特征向量矩阵X;表格编码步骤,将三维特征向量矩阵X输入至多层相同结构的多维长短可记忆网络进行编码,得到表格编码特征向量;分类步骤,针对表格编码特征向量进行分类,得到实体以及各实体之间的关系。2.根据权利要求1所述的切片文档关键信息单模型抽取方法,其特征在于,所述特征编码步骤具体包括:针对所述样本图像进行编码,得到样本图像特征向量;针对所述文本内容进行编码,得到文本语义特征向量、文本词向量;针对所述位置坐标进行编码,得到位置坐标特征向量;拼接样本图像特征向量、文本语义特征向量、文本词向量以及位置坐标特征向量,并输入至Transformer中,输出得到拼接特征向量。3.根据权利要求2所述的切片文档关键信息单模型抽取方法,其特征在于,所述针对所述样本图像进行编码具体包括:针对样本图像,采用预训练的深度卷积神经网络对文本块及其周边的图像特征进行编码,得到样本图像特征向量。4.根据权利要求3所述的切片文档关键信息单模型抽取方法,其特征在于,所述预训练的深度卷积神经网络为预训练的深度残差神经网络ResNet。5.根据权利要求2所述的切片文档关键信息单模型抽取方法,其特征在于,所述针对所述文本内容进行编码具体包括:针对文本内容,送入预训练的BERT模型中进行语义层面的编码,得到文本语义特征向量;学习文本词向量,得到文本词向量。6.根据权利要求2所述的切片文档关键信息单模型抽取方法,其特征在于,所述位置坐标进行编码具体包括:针对每个文字对应的位置坐标的坐标值做归一化处理;取四个顶点中左上角和右下角的坐标值作为该文字的位置信息;按照输入文字的顺序将每个文字的位置信息拼在一起并进行升维,得到作为所有文字内容的位置特征向量。7.根据权利要求1所述的切片文档关键信息单模型抽取方法,其特征在于,所述生成表格输入步骤具体包括:输入的所述文本块包括N个文字,D表示文本块的维度,则得到二维特征向量矩阵S,维度是N
×
D,S
i
对应第i个字的特征向量,进一步得到三维特征向量矩阵X,维度是N
×
N
×
D,其中X
ij
代表第i行第j列所对应的特...

【专利技术属性】
技术研发人员:宋佳奇王勇朱军民
申请(专利权)人:北京易道博识科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1