多模态网页语言模型的预训练方法、系统和存储介质技术方案

技术编号：41204346 阅读：31 留言：0更新日期：2024-05-07 22:29

本发明专利技术实施例提供一种多模态网页语言模型的预训练方法、系统和存储介质。该方法包括：对真实网页进行收集处理，得到真实网页的HTML代码以及网页截图，从HTML代码中提取出层次结构信息构建文档对象模型树，从网页截图中提取视觉信息；基于文档对象模型树以及视觉信息进行真实网页的渲染逻辑理解，构建包括令牌嵌入、标签嵌入、图像嵌入以及位置嵌入的多模态序列；将多模态序列输入至网页语言模型的多模态Transformer编码层，得到跨模态深度特征；利用跨模态深度特征对网页语言模型进行自监督训练。本发明专利技术实施例构建了多模态预训练框架，消除了对浏览器渲染逻辑的依赖，实现了对网页文档层次结构的更细致建模。提高了模型对文档结构和视觉一致性的学习能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种多模态网页语言模型的预训练方法、系统和存储介质。

技术介绍

1、随着网页和扫描数字化文档(例如，图像、pdf等)等视觉丰富文档的不断普及，学术界和工业界对自动文档理解和信息提取的兴趣不断增加。尽管各种文档模态，包括图像、文本、布局和结构，促进了人类信息检索，但这些模态的相互关联性通常难以解决。现有技术为了解决多模态的相互关联性的问题，通常会使用多模态文档预训练模型，尤其是针对包含文本、结构(标记语言)、和图像模态的网页文档的预训练方法。这些技术涵盖了图像导向方法和文本导向方法。

2、在实现本专利技术过程中，专利技术人发现相关技术中至少存在如下问题：

3、现有技术主要关注网页的html源代码的预训练，如markuplm和dom-lm。而对于图像导向的方法，有基于区域的layoutlmv3方法，将图像划分为区域以提取区域级特征，以及基于对象的selfdoc方法，依赖外部工具识别文档对象并提取对象级特征。然而这些技术仅使用html作为输入，忽略了图像模态，或者在处理图像时未能很好地捕...

【技术保护点】

1.一种多模态网页语言模型的预训练方法，包括：

2.根据权利要求1所述的方法，其中，所述利用所述跨模态深度特征对所述网页语言模型进行强化文本理解能力、预测语义结构以及图像视觉鲁棒性的自监督训练包括：

3.根据权利要求2所述的方法，其中，所述基于真实网页以及所述预测网页的误差对所述网页语言模型进行强化文本理解能力、预测语义结构以及图像视觉鲁棒性的自监督训练包括：

4.根据权利要求1所述的方法，其中，所述基于所述文档对象模型树以及所述视觉信息进行所述真实网页的渲染逻辑理解包括：

5.一种多模态网页语言模型的预训练系统，包括：

6.根...

【技术特征摘要】

1.一种多模态网页语言模型的预训练方法，包括：

4.根据权利要求1所述的方法，其中，所述基于所述文档对象模型树以及所述视觉信息进行所述真实网页的渲染逻辑理解包括：

5.一种多模态网页语言模型的预训练系统，包括：

6.根据权利要求5所述的系统，其中，...

【专利技术属性】
技术研发人员：俞凯，陈露，许洪深，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人