一种支持跨模态的文档预训练模型实现方法及装置制造方法及图纸

技术编号：37293315 阅读：13 留言：0更新日期：2023-04-21 03:25

本发明专利技术涉及信息技术领域，提供了一种支持跨模态的文档预训练模型实现方法及装置。目的在于解决LayoutLMv3无法对任务侧重，导致任务之间互相受到影响，导致正在进行的任务表现不理想。主要方案包括获得预训练文档图像数据；将2D文本位置嵌入、1D文本位置嵌入和掩码后的文本信息嵌入相加，相加的结果作为待融合文本嵌入向量；将2D图像位置嵌入、1D图像位置嵌入和掩码后的图像信息嵌入相加，相加的结果作为待融合图像嵌入向量；待融合图像嵌入向量和待融合文本嵌入向量连接得到多模态融合嵌入向量用于预训练模型训练，通过预训练模型，根据不同的任务类别选择不同的预训练模型在不同的数据集上进行微调训练，得到符合对应任务的模型。模型。模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种支持跨模态的文档预训练模型实现方法及装置

[0001]本专利技术涉及信息
，提供了一种支持跨模态的文档预训练模型实现方法及装置。

技术介绍

[0002]大量的工作表明，在大型语料库上的预训练模型可以学习通用语言表示，这有利于下游自然语言处理任务，并且可以避免从头开始训练新模型。文档智能是近年来一项蓬勃发展的研究课题和实际的工业界需求，主要是指对于网页、数字文档或扫描文档所包含的文本以及丰富的排版格式等信息，通过人工智能技术进行理解、分类、提取以及信息归纳的过程。由于布局和格式的多样性、低质量的扫描文档图像以及模板结构的复杂性，文档智能是一项非常具有挑战性的任务并获得相关领域的广泛关注。对文档级任务来说，整体的文档图像能提供全局的结构信息。例如个人简历的整体文档结构与科学文献的文档结构是有明显的视觉差异的。这些模态对齐的富文本格式所展现的视觉特征可以通过视觉模型抽取，结合到预训练阶段，从而有效地帮助下游任务。
[0003]微软亚洲研究院开发了一种将各种文档信息识别、提取、处理任务统一起来的技术：LayoutLMv3，该技术使用统一文本和图像掩码进行文档信息的预训练。在进行预训练阶段LayoutLMv3就将文档中的文本信息和图像信息结合起来进行掩码学习，掩码学习是自监督技术，在表示学习方面取得了快速进展。在自然语言处理的研究中，基于变换器的双向编码器表示技术首先提出了“掩蔽语言建模”，通过根据其上下文预测随机掩蔽单词令牌的原始词汇来学习双向表示。尽管大多数多模态预训练文档模型使用基于变换器的双向编码器表...

【技术保护点】

【技术特征摘要】
1.一种支持跨模态的文档预训练模型实现方法，其特征在于，包括以下步骤：步骤1、获得预训练文档图像数据；步骤2、文档图像通过字符识别方法识别为文档文本信息，得到文档文本内容和相应的2D文本位置信息，以及1D文本位置信息信息，同时获取2D图像位置信息以及1D图像位置信息；步骤3、将文档图像调整为H
×
W，并以C
×
H
×
W的维度表示图像，其中C、H和W分别是图像的通道大小、宽度和高度，然后将图像拆分为一系列均匀的P
×
P大小的块，将图像块线性投影到维并将其展平为向量，即得到图像信息的嵌入表示；步骤4、首先，在进行文本信息嵌入和图像信息嵌入时，需要对这两种嵌入向量进行随机掩码处理，得到掩码后的文本信息嵌入和掩码后的图像信息嵌入；步骤4.1、将2D文本位置嵌入、1D文本位置嵌入和掩码后的文本信息嵌入相加，相加的结果作为待融合文本嵌入向量；步骤4.2、将2D图像位置嵌入、1D图像位置嵌入和掩码后的图像信息嵌入相加，相加的结果作为待融合图像嵌入向量；步骤4.3、待融合图像嵌入向量和待融合文本嵌入向量连接得到多模态融合嵌入向量；步骤5、预训练模型训练，步骤4.3得到的多模态融合嵌入向量作为初始网络的输入，针对不同侧重的多模态文档任务进行不同的训练目标权重，使用字补丁对齐目标来学习文本字和图像块之间的细粒度对齐，字补丁对齐目标是预测文本字的相应图像块是否被掩码，得到字补丁对齐损失，将分别和文本损失，图像损失相加处理，得到模型总损失；步骤6、通过预训练模型，根据不同的任务类别选择不同的预训练模型在不同的数据集上进行微调训练，得到符合对应任务的微调模型；步骤7、使用微调模型进行对应的文档任务。2.根据权利要求1所述的一种支持跨模态的文档预训练模型实现方法，其特征在于，步骤2中，2D文本位置信息为是文本序列的边界框坐标，1D文本位置信息是指文本所在图像块中的行数和位置偏移信息；文档文本内容通过已训练好的词表得到文本信息嵌入，文档图像信息则直接作为图像信息嵌入；2D文本位置信息和1D文本位置信息通过位置编码函数得到2D文本位置嵌入和1D文本位置嵌入，其中位置编码函数可由使用者自己定义，或使用互联网公开的常用的位置编码函数。3.根据权利要求1所述的一种支持跨模态的文档预训练模型实现方法，其特征在于，步骤2中，2D图像位置信息为图像块的边界框坐标；1D图像位置信息为图像块的从左到右、从上到下的顺序编号，其中初始编号为1；2D图像位置信息和1D图像位置信息通过位置编码函数得到2D图像位置嵌入和1D图像位置嵌入。4.根据权利要求1所述的一种支持跨模态的文档预训练模型实现方法，其特征在于，进行不同的训练目标权重，为分别对以文本为中心的文档智能任务和以图像为中心的文档智能任务进行不同的预训练，其中：
以文本为中心的文档智能任务训练目标是基于图像嵌入和文本嵌入的掩码后的序列上下文表示，模型最大限度地提高正确预测文本标记的概率，最后得到以文本为中心的预训练模型的损失；以图像为中心的文档智能任务由交叉熵损失驱动，以在其周围文本和图像令牌的上下文下重建被掩蔽的图像令牌x，图像令牌x的标签来自图像令牌器，该令牌器可以根据视觉词汇将密集的图像像素转换为离散的令牌，最后得到以图像为中心的预训练模型的损失。5.一种支持跨模态的文...

【专利技术属性】
技术研发人员：苏海波，苏萌，刘译璟，赵群，杜晓梦，
申请(专利权)人：北京百分点科技集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人