网页的多任务模型的预训练方法、装置及电子设备制造方法及图纸

技术编号:37439129 阅读:9 留言:0更新日期:2023-05-06 09:11
本公开提供了一种网页的多任务模型的预训练方法、装置及电子设备,开涉及计算机技术领域。具体实施方案为:基于网页的超文本标记语言HTML源码和网页图像,获取网页的文本信息、结构信息和视觉信息;基于预训练语言模型对网页的文本信息、结构信息和视觉信息进行多模态关注,得到网页的多模态向量标识;基于多模态向量标识,对预训练语言模型下游的多个网页任务模型进行预训练,得到最终的目标任务模型。通过对网页进行处理,得到网页的多模态向量标识,进而对多个网页任务模型进行预训练,得到最终的目标任务模型,通过目标任务模型可以对网页任务进行有效捕捉,提升网页进行多模态分析的效率和准确率。态分析的效率和准确率。态分析的效率和准确率。

【技术实现步骤摘要】
网页的多任务模型的预训练方法、装置及电子设备


[0001]本公开涉及计算机
,具体涉及图像处理、自然语言处理和深度学习等人工智能
,尤其涉及一种网页的多任务模型的预训练方法、装置及电子设备。

技术介绍

[0002]互联网网页中蕴藏着大量的多模态信息,长久以来,一直是信息产业应用中重要的数据来源,充分高效地挖掘网页蕴含的信息,对网页进行理解,对下游的信息抽取、分类、审核等互联网任务至关重要。

技术实现思路

[0003]本公开提供了一种用于网页的多任务模型的预训练方法、装置、电子设备及存储介质。
[0004]根据本公开的第一方面,提供了一种网页的多任务模型的预训练方法,包括:基于网页的超文本标记语言HTML源码和网页图像,获取网页的文本信息、结构信息和视觉信息;基于预训练语言模型对网页的文本信息、结构信息和视觉信息进行多模态关注,得到网页的多模态向量标识;基于多模态向量标识,对预训练语言模型下游的多个网页任务模型进行预训练,得到最终的目标任务模型。
[0005]根据本公开的第二方面,提供了一种网页的多任务模型的预训练装置,包括:获取模块,用于基于网页的超文本标记语言HTML源码和网页图像,获取网页的文本信息、结构信息和视觉信息;解析模块,用于基于预训练语言模型对网页的文本信息、结构信息和视觉信息进行多模态关注,得到网页的多模态向量标识;训练模块,用于基于多模态向量标识,对预训练语言模型下游的多个网页任务模型进行预训练,得到最终的目标任务模型。
[0006]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的网页的多任务模型的预训练方法。
[0007]根据本公开第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序/指令,所述计算机指令用于使所述计算机执行上述一方面实施例所述的网页的多任务模型的预训练方法。
[0008]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述一方面实施例所述的网页的多任务模型的预训练方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
[0010]通过对网页进行处理,得到网页的多模态向量标识,进而对多个网页任务模型进行预训练,得到最终的目标任务模型,通过目标任务模型可以对网页任务进行有效捕捉,提
升网页进行多模态分析的效率和准确率。
附图说明
[0011]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0012]图1为本公开实施例提供的一网页的多任务模型的预训练方法的流程示意图;
[0013]图2为本公开实施例提供的另一网页的多任务模型的预训练方法的流程示意图;
[0014]图3为本公开实施例提供的一种DOM树的结构示意简图;
[0015]图4为本公开实施例提供的另一网页的多任务模型的预训练方法的流程示意图;
[0016]图5为本公开实施例提供的一网页的多任务模型的预训练装置的结构示意图;
[0017]图6为根据本公开实施例的网页的多任务模型的预训练方法的电子设备的框图。
具体实施方式
[0018]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0019]下面参考附图描述本公开实施例的网页的多任务模型的预训练方法、装置和电子设备。
[0020]人工智能(Artificial Intelligence,简称AI),是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术,也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等几大方面。
[0021]自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别等方面。
[0022]深度学习(Deep Learning,简称DL),是机器学习(Machine Learning,简称ML)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
[0023]图像处理(image processing)技术,用计算机对图像进行分析,以达到所需结果的技术。又称影像处理。图像处理一般指数字图像处理。数字图像是指用工业相机、摄像机、扫描仪等设备经过拍摄得到的一个大的二维数组,该数组的元素称为像素,其值称为灰度值。图像处理技术一般包括图像压缩,增强和复原,匹配、描述和识别3个部分。
[0024]传统基于模板的网页信息抽取,在面对海量不同结构的网页时,实用价值不高,无法维护海量模板。当前大部分基于深度学习的网页预训练模型,可以解决网页表示、理解的
泛化问题,但随着网页内容模态的丰富和设计的多样化,当前的预训练模型未能对网页中的复杂布局和视觉信息进行有效捕捉,从而影响了下游任务的应用效果。
[0025]图1为本公开实施例提供的一种网页的多任务模型的预训练方法的流程示意图。
[0026]如图1所示,该网页的多任务模型的预训练方法,可包括:
[0027]S101,基于网页的超文本标记语言HTML源码和网页图像,获取网页的文本信息、结构信息和视觉信息。
[0028]本专利技术提供的网页的多任务模型的预训练方法的执行主体为网页的多任务模型的预训练装置,网页的多任务模型的预训练装置可以为终端设备、服务器等硬件设备,或者为硬件设备上安装的软件。
[0029]在本公开实施例中,可通过获取网页的超文本标记语言(Hyper Text Markup Language,HTML)源码,并对HTM本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页的多任务模型的预训练方法,其中,包括:基于网页的超文本标记语言HTML源码和网页图像,获取所述网页的文本信息、结构信息和视觉信息;基于预训练语言模型对所述网页的文本信息、结构信息和视觉信息进行多模态关注,得到所述网页的多模态向量标识;基于所述多模态向量标识,对所述预训练语言模型下游的多个网页任务模型进行预训练,得到最终的目标任务模型。2.根据权利要求1所述的方法,其中,所述基于网页的超文本标记语言HTML源码和网页图像,获取所述网页的文本信息、结构信息和视觉信息,包括:对所述HTML源码进行分析,从所述HTML源码中提取所述网页的文档对象模型DOM树;对所述网页的DOM树中的节点进行遍历,得到所述网页的文本标记路径语言Xpath和所述文本信息,其中,所述DOM树和所述Xpath为所述结构信息;基于所述DOM树上的节点,对所述网页图像进行截图,得到局部网页截图,并对所述网页图像和所述局部网页截图进行卷积处理,得到所述节点的视觉二维特征和DOM视觉特征,其中,所述视觉二维特征和所述DOM视觉特征为所述视觉信息。3.根据权利要求2所述的方法,其中,所述基于所述DOM树上的节点,对所述网页图像进行截图,包括:对所述DOM树中的节点进行遍历,确定所述DOM树的叶子节点;基于所述叶子节点对所述网页图像进行截图,得到所述叶子节点的局部网页截图。4.根据权利要求3所述的方法,其中,所述基于所述叶子节点对所述网页图像进行截图,得到所述叶子节点的局部网页截图,包括:根据预设截图范围,确定所述叶子节点所在的待截图的DOM子树;根据所述DOM子树对应的位置范围,在所述网页图像上定位所述DOM子树的图像内容进行截图,得到所述叶子节点的局部网页截图;或者,根据所述叶子节点的位置,在所述网页图像上定位所述叶子节点的图像内容并进行截图,得到所述叶子节点的局部网页截图。5.根据权利要求1

4中任一项所述的方法,其中,所述基于预训练语言模型对所述网页的文本信息、结构信息和视觉信息进行多模态关注,得到所述网页的多模态向量标识,包括:将所述文本信息、所述结构信息和所述视觉信息,输入所述预训练语言模型中,由所述预训练语言模型中的多层自注意力层对所述文本信息、所述结构信息和所述视觉信息进行逐层的注意力权重的融合,得到所述多模态向量标识。6.根据权利要求1

4中任一项所述的方法,其中,所述基于所述多模态向量标识,对所述预训练语言模型下游的多个网页任务模型进行预训练,得到最终的目标任务模型,包括:将所述多模态向量标识输入所述网页任务模型中进行预测,得到所述网页任务模型的预测结果;基于所述预测结果和所述网页的标记结果,确定所述网页任务模型的损失函数,并基于所述损失函数对所述网页任务模型的模型参数进行调整;对调整后的网页任务模型继续进行预训练,直至得到所述目标任务模型。
7.根据权利要求6所述的方法,其中,所述将所述多模态向量标识输入所述网页任务模型中进行预测,得到所述网页任务模型的预测结果,包括:对所述多模态向量标识进行处理,得到处理后多模态向量标识,并将所述处理后多模态向量标识输入所述网页任务模型中进行预测,得到所述网页任务模型的预测结果。8.根据权利要求6所述的方法,其中,所述对所述多模态向量标识进行处理,得到处理后多模态向量标识,包括:基于所述网页任务模型,确定所述多模态向量标识中待遮挡向量标识,并对所述待遮挡向量标识进行遮挡,得到所述处理后多模态向量标识。9.根据权利要求1

4中任一项所述的方法,其中,所述基于所述多模态向量标识,对所述预训练语言模型下游的多个网页任务模型进行预训练,包括:获取所述网页的第一链接,并根据所述第一链接,确定所述网页的邻近网页;基于所述网页和所述第一链接,以及所述邻近网页和所述邻近网页的第二链接,构建所述网页的关系图结构;基于图神经网络对所述网页关系图结构进行处理,得到所述网页与所述邻近网页之间的依赖关系向量表示;基于所述多模态向量标识和所述关系依赖关系向量表示,对所述多个网页任务模型中的特定网页任务模型进行预训练,得到所述特定网页任务模型的目标任务模型。10.一种网页的多任务模型的预训练装置,包括:获取模块,用于基于网页的超文本标记语言HTML源码和...

【专利技术属性】
技术研发人员:郑烨翰黄焱晖张瀚之
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1