一种支持跨模态的文档预训练模型实现方法及装置制造方法及图纸

技术编号:37293315 阅读:13 留言:0更新日期:2023-04-21 03:25
本发明专利技术涉及信息技术领域,提供了一种支持跨模态的文档预训练模型实现方法及装置。目的在于解决LayoutLMv3无法对任务侧重,导致任务之间互相受到影响,导致正在进行的任务表现不理想。主要方案包括获得预训练文档图像数据;将2D文本位置嵌入、1D文本位置嵌入和掩码后的文本信息嵌入相加,相加的结果作为待融合文本嵌入向量;将2D图像位置嵌入、1D图像位置嵌入和掩码后的图像信息嵌入相加,相加的结果作为待融合图像嵌入向量;待融合图像嵌入向量和待融合文本嵌入向量连接得到多模态融合嵌入向量用于预训练模型训练,通过预训练模型,根据不同的任务类别选择不同的预训练模型在不同的数据集上进行微调训练,得到符合对应任务的模型。模型。模型。

【技术实现步骤摘要】
一种支持跨模态的文档预训练模型实现方法及装置


[0001]本专利技术涉及信息
,提供了一种支持跨模态的文档预训练模型实现方法及装置。

技术介绍

[0002]大量的工作表明,在大型语料库上的预训练模型可以学习通用语言表示,这有利于下游自然语言处理任务,并且可以避免从头开始训练新模型。文档智能是近年来一项蓬勃发展的研究课题和实际的工业界需求,主要是指对于网页、数字文档或扫描文档所包含的文本以及丰富的排版格式等信息,通过人工智能技术进行理解、分类、提取以及信息归纳的过程。由于布局和格式的多样性、低质量的扫描文档图像以及模板结构的复杂性,文档智能是一项非常具有挑战性的任务并获得相关领域的广泛关注。对文档级任务来说,整体的文档图像能提供全局的结构信息。例如个人简历的整体文档结构与科学文献的文档结构是有明显的视觉差异的。这些模态对齐的富文本格式所展现的视觉特征可以通过视觉模型抽取,结合到预训练阶段,从而有效地帮助下游任务。
[0003]微软亚洲研究院开发了一种将各种文档信息识别、提取、处理任务统一起来的技术:LayoutLMv3,该技术使用统一文本和图像掩码进行文档信息的预训练。在进行预训练阶段LayoutLMv3就将文档中的文本信息和图像信息结合起来进行掩码学习,掩码学习是自监督技术,在表示学习方面取得了快速进展。在自然语言处理的研究中,基于变换器的双向编码器表示技术首先提出了“掩蔽语言建模”,通过根据其上下文预测随机掩蔽单词令牌的原始词汇来学习双向表示。尽管大多数多模态预训练文档模型使用基于变换器的双向编码器表示技术提出的文本模态MLM,但它们在图像模态的预训练目标方面有所不同。例如,DocFormer提出回归掩蔽区域特征,这比在较小的词汇表中对离散特征进行分类更嘈杂且更难学习。图像(密集图像像素或连续区域特征)和文本(离散标记)目标的不同粒度进一步增加了跨模态对齐学习的难度,这对于多模态表示学习非常重要。LayoutLMv3直接利用文档图像中的原始图像补丁,无需页面目标检测等复杂的预处理步骤。LayoutLMv3在具有统一掩码语言建模、掩码图像建模和字补丁对齐目标的Transformer模型中联合学习图像、文本和多模态表示。这使得LayoutLMv3成为第一个没有卷积神经网络用于图像嵌入的多模态预训练文档智能模型,显著节省了参数并摆脱了区域注释。
[0004]这种简单的统一架构和目标使LayoutLMv3成为以文本为中心的任务和以图像为中心的文档智能任务的通用预训练模型。
[0005]虽然LayoutLMv3的方法是跨模态文档预训练模型中表现较好的一个技术,但是其存在一些显而易见的缺点,而这些缺点为本提案所解决的问题。
[0006]首先,LayoutLMv3第一个缺点就是模型本身参数量非常庞大,每次进行模型训练和模型推理都需要进行368百万的参数调整,这庞大的参数量导致模型无法直接在实际应用场景中使用。在现实生活中,当用户希望使用文档智能应用到工作中(比如实时纠正字词、语法和标点差错、财报分析等),不希望等待过长的时间。
[0007]其次,LayoutLMv3在进行预训练的时候没有侧重文本和图像的任务,对于两种侧重点不同的任务的训练方式都是一种训练方式,这导致LayoutLMv3在进行实时纠正字词任务的时候,模型可能进行财报分析的任务,这会导致不同的任务之间互相受到影响,导致正在进行的任务表现不理想。

技术实现思路

[0008]本专利技术的目的在于解决LayoutLMv3无法对任务侧重,导致任务之间互相受到影响,导致正在进行的任务表现不理想。
[0009]为了解决上述技术问题,本专利技术采用以下技术手段:
[0010]本专利技术提供了一种支持跨模态的文档预训练模型实现方法,包括以下步骤:
[0011]步骤1、获得预训练文档图像数据;
[0012]步骤2、文档图像通过字符识别方法识别为文档文本信息,得到文档文本内容和相应的2D文本位置信息,以及1D文本位置信息信息,其中2D文本位置信息为是文本序列的边界框坐标,1D文本位置信息是指文本所在图像块(也就是每个页面)中的行数和位置偏移信息。
[0013]文档文本内容通过已训练好的词表得到文本信息嵌入,文档图像信息则直接作为图像信息嵌入;
[0014]2D文本位置信息和1D文本位置信息通过位置编码函数得到2D文本位置嵌入和1D文本位置嵌入,其中位置编码函数可由使用者自己定义,也可以使用互联网公开的常用的位置编码函数。
[0015]2D图像位置信息为图像块的边界框坐标;
[0016]1D图像位置信息为图像块的从左到右、从上到下的顺序编号,其中初始编号为1;
[0017]2D图像位置信息和1D图像位置信息通过位置编码函数得到2D图像位置嵌入和1D图像位置嵌入;
[0018]步骤3、将文档图像调整为H
×
W,并以C
×
H
×
W的维度表示图像,其中C、H和W分别是图像的通道大小、宽度和高度,然后将图像拆分为一系列均匀的P
×
P大小的块,将图像块线性投影到维并将其展平为向量,即得到图像信息的嵌入表示;
[0019]步骤4、首先,在进行文本信息嵌入和图像信息嵌入时,需要对这两种嵌入向量进行随机掩码处理,得到掩码后的文本信息嵌入和掩码后的图像信息嵌入;
[0020]步骤4.1、将2D文本位置嵌入、1D文本位置嵌入和掩码后的文本信息嵌入相加,相加的结果作为待融合文本嵌入向量;
[0021]步骤4.2、将2D图像位置嵌入、1D图像位置嵌入和掩码后的图像信息嵌入相加,相加的结果作为待融合图像嵌入向量;
[0022]上述两种策略能够使得文本和图像部分互相吸收对方的位置信息,这种位置信息能够使得位置信息能够完整地匹配到原始信息上,在后续的矩阵乘法运算过程中能够影响权值的调整结果,筛选出重要的文本和图像分量,最终能够提升整体性能。
[0023]步骤4.3、待融合图像嵌入向量和待融合文本嵌入向量连接得到多模态融合嵌入向量;
[0024]步骤5、预训练模型训练,步骤4.3得到的多模态融合嵌入向量作为初始网络的输
入,针对不同侧重的多模态文档任务进行不同的训练目标权重,使用字补丁对齐目标来学习文本字和图像块之间的细粒度对齐,字补丁对齐目标是预测文本字的相应图像块是否被掩码,得到字补丁对齐损失,将分别和文本损失,图像损失相加处理,得到模型总损失;
[0025]步骤6、通过预训练模型,根据不同的任务类别选择不同的预训练模型在不同的数据集上进行微调训练,得到符合对应任务的微调模型;
[0026]步骤7、使用微调模型进行对应的文档任务。
[0027]上述技术方案中,进行不同的训练目标权重,为分别对以文本为中心的文档智能任务和以图像为中心的文档智能任务进行不同的预训练,其中:
[0028]以文本为中心的文档智能任务训练目标是基于图像嵌入和文本嵌入的掩码后的序列上下文表示,模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种支持跨模态的文档预训练模型实现方法,其特征在于,包括以下步骤:步骤1、获得预训练文档图像数据;步骤2、文档图像通过字符识别方法识别为文档文本信息,得到文档文本内容和相应的2D文本位置信息,以及1D文本位置信息信息,同时获取2D图像位置信息以及1D图像位置信息;步骤3、将文档图像调整为H
×
W,并以C
×
H
×
W的维度表示图像,其中C、H和W分别是图像的通道大小、宽度和高度,然后将图像拆分为一系列均匀的P
×
P大小的块,将图像块线性投影到维并将其展平为向量,即得到图像信息的嵌入表示;步骤4、首先,在进行文本信息嵌入和图像信息嵌入时,需要对这两种嵌入向量进行随机掩码处理,得到掩码后的文本信息嵌入和掩码后的图像信息嵌入;步骤4.1、将2D文本位置嵌入、1D文本位置嵌入和掩码后的文本信息嵌入相加,相加的结果作为待融合文本嵌入向量;步骤4.2、将2D图像位置嵌入、1D图像位置嵌入和掩码后的图像信息嵌入相加,相加的结果作为待融合图像嵌入向量;步骤4.3、待融合图像嵌入向量和待融合文本嵌入向量连接得到多模态融合嵌入向量;步骤5、预训练模型训练,步骤4.3得到的多模态融合嵌入向量作为初始网络的输入,针对不同侧重的多模态文档任务进行不同的训练目标权重,使用字补丁对齐目标来学习文本字和图像块之间的细粒度对齐,字补丁对齐目标是预测文本字的相应图像块是否被掩码,得到字补丁对齐损失,将分别和文本损失,图像损失相加处理,得到模型总损失;步骤6、通过预训练模型,根据不同的任务类别选择不同的预训练模型在不同的数据集上进行微调训练,得到符合对应任务的微调模型;步骤7、使用微调模型进行对应的文档任务。2.根据权利要求1所述的一种支持跨模态的文档预训练模型实现方法,其特征在于,步骤2中,2D文本位置信息为是文本序列的边界框坐标,1D文本位置信息是指文本所在图像块中的行数和位置偏移信息;文档文本内容通过已训练好的词表得到文本信息嵌入,文档图像信息则直接作为图像信息嵌入;2D文本位置信息和1D文本位置信息通过位置编码函数得到2D文本位置嵌入和1D文本位置嵌入,其中位置编码函数可由使用者自己定义,或使用互联网公开的常用的位置编码函数。3.根据权利要求1所述的一种支持跨模态的文档预训练模型实现方法,其特征在于,步骤2中,2D图像位置信息为图像块的边界框坐标;1D图像位置信息为图像块的从左到右、从上到下的顺序编号,其中初始编号为1;2D图像位置信息和1D图像位置信息通过位置编码函数得到2D图像位置嵌入和1D图像位置嵌入。4.根据权利要求1所述的一种支持跨模态的文档预训练模型实现方法,其特征在于,进行不同的训练目标权重,为分别对以文本为中心的文档智能任务和以图像为中心的文档智能任务进行不同的预训练,其中:
以文本为中心的文档智能任务训练目标是基于图像嵌入和文本嵌入的掩码后的序列上下文表示,模型最大限度地提高正确预测文本标记的概率,最后得到以文本为中心的预训练模型的损失;以图像为中心的文档智能任务由交叉熵损失驱动,以在其周围文本和图像令牌的上下文下重建被掩蔽的图像令牌x,图像令牌x的标签来自图像令牌器,该令牌器可以根据视觉词汇将密集的图像像素转换为离散的令牌,最后得到以图像为中心的预训练模型的损失。5.一种支持跨模态的文...

【专利技术属性】
技术研发人员:苏海波苏萌刘译璟赵群杜晓梦
申请(专利权)人:北京百分点科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1