【技术实现步骤摘要】
网页的多任务模型的预训练方法、装置及电子设备
[0001]本公开涉及计算机
,具体涉及图像处理、自然语言处理和深度学习等人工智能
,尤其涉及一种网页的多任务模型的预训练方法、装置及电子设备。
技术介绍
[0002]互联网网页中蕴藏着大量的多模态信息,长久以来,一直是信息产业应用中重要的数据来源,充分高效地挖掘网页蕴含的信息,对网页进行理解,对下游的信息抽取、分类、审核等互联网任务至关重要。
技术实现思路
[0003]本公开提供了一种用于网页的多任务模型的预训练方法、装置、电子设备及存储介质。
[0004]根据本公开的第一方面,提供了一种网页的多任务模型的预训练方法,包括:基于网页的超文本标记语言HTML源码和网页图像,获取网页的文本信息、结构信息和视觉信息;基于预训练语言模型对网页的文本信息、结构信息和视觉信息进行多模态关注,得到网页的多模态向量标识;基于多模态向量标识,对预训练语言模型下游的多个网页任务模型进行预训练,得到最终的目标任务模型。
[0005]根据本公开的第二方面,提供了一种网页的多任务模型的预训练装置,包括:获取模块,用于基于网页的超文本标记语言HTML源码和网页图像,获取网页的文本信息、结构信息和视觉信息;解析模块,用于基于预训练语言模型对网页的文本信息、结构信息和视觉信息进行多模态关注,得到网页的多模态向量标识;训练模块,用于基于多模态向量标识,对预训练语言模型下游的多个网页任务模型进行预训练,得到最终的目标任务模型。
[0006]根据本公开的第 ...
【技术保护点】
【技术特征摘要】
1.一种网页的多任务模型的预训练方法,其中,包括:基于网页的超文本标记语言HTML源码和网页图像,获取所述网页的文本信息、结构信息和视觉信息;基于预训练语言模型对所述网页的文本信息、结构信息和视觉信息进行多模态关注,得到所述网页的多模态向量标识;基于所述多模态向量标识,对所述预训练语言模型下游的多个网页任务模型进行预训练,得到最终的目标任务模型。2.根据权利要求1所述的方法,其中,所述基于网页的超文本标记语言HTML源码和网页图像,获取所述网页的文本信息、结构信息和视觉信息,包括:对所述HTML源码进行分析,从所述HTML源码中提取所述网页的文档对象模型DOM树;对所述网页的DOM树中的节点进行遍历,得到所述网页的文本标记路径语言Xpath和所述文本信息,其中,所述DOM树和所述Xpath为所述结构信息;基于所述DOM树上的节点,对所述网页图像进行截图,得到局部网页截图,并对所述网页图像和所述局部网页截图进行卷积处理,得到所述节点的视觉二维特征和DOM视觉特征,其中,所述视觉二维特征和所述DOM视觉特征为所述视觉信息。3.根据权利要求2所述的方法,其中,所述基于所述DOM树上的节点,对所述网页图像进行截图,包括:对所述DOM树中的节点进行遍历,确定所述DOM树的叶子节点;基于所述叶子节点对所述网页图像进行截图,得到所述叶子节点的局部网页截图。4.根据权利要求3所述的方法,其中,所述基于所述叶子节点对所述网页图像进行截图,得到所述叶子节点的局部网页截图,包括:根据预设截图范围,确定所述叶子节点所在的待截图的DOM子树;根据所述DOM子树对应的位置范围,在所述网页图像上定位所述DOM子树的图像内容进行截图,得到所述叶子节点的局部网页截图;或者,根据所述叶子节点的位置,在所述网页图像上定位所述叶子节点的图像内容并进行截图,得到所述叶子节点的局部网页截图。5.根据权利要求1
‑
4中任一项所述的方法,其中,所述基于预训练语言模型对所述网页的文本信息、结构信息和视觉信息进行多模态关注,得到所述网页的多模态向量标识,包括:将所述文本信息、所述结构信息和所述视觉信息,输入所述预训练语言模型中,由所述预训练语言模型中的多层自注意力层对所述文本信息、所述结构信息和所述视觉信息进行逐层的注意力权重的融合,得到所述多模态向量标识。6.根据权利要求1
‑
4中任一项所述的方法,其中,所述基于所述多模态向量标识,对所述预训练语言模型下游的多个网页任务模型进行预训练,得到最终的目标任务模型,包括:将所述多模态向量标识输入所述网页任务模型中进行预测,得到所述网页任务模型的预测结果;基于所述预测结果和所述网页的标记结果,确定所述网页任务模型的损失函数,并基于所述损失函数对所述网页任务模型的模型参数进行调整;对调整后的网页任务模型继续进行预训练,直至得到所述目标任务模型。
7.根据权利要求6所述的方法,其中,所述将所述多模态向量标识输入所述网页任务模型中进行预测,得到所述网页任务模型的预测结果,包括:对所述多模态向量标识进行处理,得到处理后多模态向量标识,并将所述处理后多模态向量标识输入所述网页任务模型中进行预测,得到所述网页任务模型的预测结果。8.根据权利要求6所述的方法,其中,所述对所述多模态向量标识进行处理,得到处理后多模态向量标识,包括:基于所述网页任务模型,确定所述多模态向量标识中待遮挡向量标识,并对所述待遮挡向量标识进行遮挡,得到所述处理后多模态向量标识。9.根据权利要求1
‑
4中任一项所述的方法,其中,所述基于所述多模态向量标识,对所述预训练语言模型下游的多个网页任务模型进行预训练,包括:获取所述网页的第一链接,并根据所述第一链接,确定所述网页的邻近网页;基于所述网页和所述第一链接,以及所述邻近网页和所述邻近网页的第二链接,构建所述网页的关系图结构;基于图神经网络对所述网页关系图结构进行处理,得到所述网页与所述邻近网页之间的依赖关系向量表示;基于所述多模态向量标识和所述关系依赖关系向量表示,对所述多个网页任务模型中的特定网页任务模型进行预训练,得到所述特定网页任务模型的目标任务模型。10.一种网页的多任务模型的预训练装置,包括:获取模块,用于基于网页的超文本标记语言HTML源码和...
【专利技术属性】
技术研发人员:郑烨翰,黄焱晖,张瀚之,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。