网页的多任务模型的预训练方法、装置及电子设备制造方法及图纸

技术编号：37439129 阅读：9 留言：0更新日期：2023-05-06 09:11

本公开提供了一种网页的多任务模型的预训练方法、装置及电子设备，开涉及计算机技术领域。具体实施方案为：基于网页的超文本标记语言HTML源码和网页图像，获取网页的文本信息、结构信息和视觉信息；基于预训练语言模型对网页的文本信息、结构信息和视觉信息进行多模态关注，得到网页的多模态向量标识；基于多模态向量标识，对预训练语言模型下游的多个网页任务模型进行预训练，得到最终的目标任务模型。通过对网页进行处理，得到网页的多模态向量标识，进而对多个网页任务模型进行预训练，得到最终的目标任务模型，通过目标任务模型可以对网页任务进行有效捕捉，提升网页进行多模态分析的效率和准确率。态分析的效率和准确率。态分析的效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】
网页的多任务模型的预训练方法、装置及电子设备

[0001]本公开涉及计算机
，具体涉及图像处理、自然语言处理和深度学习等人工智能
，尤其涉及一种网页的多任务模型的预训练方法、装置及电子设备。

技术介绍

[0002]互联网网页中蕴藏着大量的多模态信息，长久以来，一直是信息产业应用中重要的数据来源，充分高效地挖掘网页蕴含的信息，对网页进行理解，对下游的信息抽取、分类、审核等互联网任务至关重要。

技术实现思路

[0003]本公开提供了一种用于网页的多任务模型的预训练方法、装置、电子设备及存储介质。
[0004]根据本公开的第一方面，提供了一种网页的多任务模型的预训练方法，包括：基于网页的超文本标记语言HTML源码和网页图像，获取网页的文本信息、结构信息和视觉信息；基于预训练语言模型对网页的文本信息、结构信息和视觉信息进行多模态关注，得到网页的多模态向量标识；基于多模态向量标识，对预训练语言模型下游的多个网页任务模型进行预训练，得到最终的目标任务模型。
[0005]根据本公开的第二方面，提供了一种网页的多任务模型的预训练装置，包括：获取模块，用于基于网页的超文本标记语言HTML源码和网页图像，获取网页的文本信息、结构信息和视觉信息；解析模块，用于基于预训练语言模型对网页的文本信息、结构信息和视觉信息进行多模态关注，得到网页的多模态向量标识；训练模块，用于基于多模态向量标识，对预训练语言模型下游的多个网页任务模型进行预训练，得到最终的目标任务模型。
[0006]根据本公开的第...

【技术保护点】

【技术特征摘要】
1.一种网页的多任务模型的预训练方法，其中，包括：基于网页的超文本标记语言HTML源码和网页图像，获取所述网页的文本信息、结构信息和视觉信息；基于预训练语言模型对所述网页的文本信息、结构信息和视觉信息进行多模态关注，得到所述网页的多模态向量标识；基于所述多模态向量标识，对所述预训练语言模型下游的多个网页任务模型进行预训练，得到最终的目标任务模型。2.根据权利要求1所述的方法，其中，所述基于网页的超文本标记语言HTML源码和网页图像，获取所述网页的文本信息、结构信息和视觉信息，包括：对所述HTML源码进行分析，从所述HTML源码中提取所述网页的文档对象模型DOM树；对所述网页的DOM树中的节点进行遍历，得到所述网页的文本标记路径语言Xpath和所述文本信息，其中，所述DOM树和所述Xpath为所述结构信息；基于所述DOM树上的节点，对所述网页图像进行截图，得到局部网页截图，并对所述网页图像和所述局部网页截图进行卷积处理，得到所述节点的视觉二维特征和DOM视觉特征，其中，所述视觉二维特征和所述DOM视觉特征为所述视觉信息。3.根据权利要求2所述的方法，其中，所述基于所述DOM树上的节点，对所述网页图像进行截图，包括：对所述DOM树中的节点进行遍历，确定所述DOM树的叶子节点；基于所述叶子节点对所述网页图像进行截图，得到所述叶子节点的局部网页截图。4.根据权利要求3所述的方法，其中，所述基于所述叶子节点对所述网页图像进行截图，得到所述叶子节点的局部网页截图，包括：根据预设截图范围，确定所述叶子节点所在的待截图的DOM子树；根据所述DOM子树对应的位置范围，在所述网页图像上定位所述DOM子树的图像内容进行截图，得到所述叶子节点的局部网页截图；或者，根据所述叶子节点的位置，在所述网页图像上定位所述叶子节点的图像内容并进行截图，得到所述叶子节点的局部网页截图。5.根据权利要求1
‑
4中任一项所述的方法，其中，所述基于预训练语言模型对所述网页的文本信息、结构信息和视觉信息进行多模态关注，得到所述网页的多模态向量标识，包括：将所述文本信息、所述结构信息和所述视觉信息，输入所述预训练语言模型中，由所述预训练语言模型中的多层自注意力层对所述文本信息、所述结构信息和所述视觉信息进行逐层的注意力权重的融合，得到所述多模态向量标识。6.根据权利要求1
‑
4中任一项所述的方法，其中，所述基于所述多模态向量标识，对所述预训练语言模型下游的多个网页任务模型进行预训练，得到最终的目标任务模型，包括：将所述多模态向量标识输入所述网页任务模型中进行预测，得到所述网页任务模型的预测结果；基于所述预测结果和所述网页的标记结果，确定所述网页任务模型的损失函数，并基于所述损失函数对所述网页任务模型的模型参数进行调整；对调整后的网页任务模型继续进行预训练，直至得到所述目标任务模型。
7.根据权利要求6所述的方法，其中，所述将所述多模态向量标识输入所述网页任务模型中进行预测，得到所述网页任务模型的预测结果，包括：对所述多模态向量标识进行处理，得到处理后多模态向量标识，并将所述处理后多模态向量标识输入所述网页任务模型中进行预测，得到所述网页任务模型的预测结果。8.根据权利要求6所述的方法，其中，所述对所述多模态向量标识进行处理，得到处理后多模态向量标识，包括：基于所述网页任务模型，确定所述多模态向量标识中待遮挡向量标识，并对所述待遮挡向量标识进行遮挡，得到所述处理后多模态向量标识。9.根据权利要求1
‑
4中任一项所述的方法，其中，所述基于所述多模态向量标识，对所述预训练语言模型下游的多个网页任务模型进行预训练，包括：获取所述网页的第一链接，并根据所述第一链接，确定所述网页的邻近网页；基于所述网页和所述第一链接，以及所述邻近网页和所述邻近网页的第二链接，构建所述网页的关系图结构；基于图神经网络对所述网页关系图结构进行处理，得到所述网页与所述邻近网页之间的依赖关系向量表示；基于所述多模态向量标识和所述关系依赖关系向量表示，对所述多个网页任务模型中的特定网页任务模型进行预训练，得到所述特定网页任务模型的目标任务模型。10.一种网页的多任务模型的预训练装置，包括：获取模块，用于基于网页的超文本标记语言HTML源码和...

【专利技术属性】
技术研发人员：郑烨翰，黄焱晖，张瀚之，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人