【技术实现步骤摘要】
本专利技术涉及人工智能,尤其涉及一种多模态网页语言模型的预训练方法、系统和存储介质。
技术介绍
1、随着网页和扫描数字化文档(例如,图像、pdf等)等视觉丰富文档的不断普及,学术界和工业界对自动文档理解和信息提取的兴趣不断增加。尽管各种文档模态,包括图像、文本、布局和结构,促进了人类信息检索,但这些模态的相互关联性通常难以解决。现有技术为了解决多模态的相互关联性的问题,通常会使用多模态文档预训练模型,尤其是针对包含文本、结构(标记语言)、和图像模态的网页文档的预训练方法。这些技术涵盖了图像导向方法和文本导向方法。
2、在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:
3、现有技术主要关注网页的html源代码的预训练,如markuplm和dom-lm。而对于图像导向的方法,有基于区域的layoutlmv3方法,将图像划分为区域以提取区域级特征,以及基于对象的selfdoc方法,依赖外部工具识别文档对象并提取对象级特征。然而这些技术仅使用html作为输入,忽略了图像模态,或者在处理图像时未能很好地捕
...【技术保护点】
1.一种多模态网页语言模型的预训练方法,包括:
2.根据权利要求1所述的方法,其中,所述利用所述跨模态深度特征对所述网页语言模型进行强化文本理解能力、预测语义结构以及图像视觉鲁棒性的自监督训练包括:
3.根据权利要求2所述的方法,其中,所述基于真实网页以及所述预测网页的误差对所述网页语言模型进行强化文本理解能力、预测语义结构以及图像视觉鲁棒性的自监督训练包括:
4.根据权利要求1所述的方法,其中,所述基于所述文档对象模型树以及所述视觉信息进行所述真实网页的渲染逻辑理解包括:
5.一种多模态网页语言模型的预训练系统,包括:
6.根...
【技术特征摘要】
1.一种多模态网页语言模型的预训练方法,包括:
2.根据权利要求1所述的方法,其中,所述利用所述跨模态深度特征对所述网页语言模型进行强化文本理解能力、预测语义结构以及图像视觉鲁棒性的自监督训练包括:
3.根据权利要求2所述的方法,其中,所述基于真实网页以及所述预测网页的误差对所述网页语言模型进行强化文本理解能力、预测语义结构以及图像视觉鲁棒性的自监督训练包括:
4.根据权利要求1所述的方法,其中,所述基于所述文档对象模型树以及所述视觉信息进行所述真实网页的渲染逻辑理解包括:
5.一种多模态网页语言模型的预训练系统,包括:
6.根据权利要求5所述的系统,其中,...
【专利技术属性】
技术研发人员:俞凯,陈露,许洪深,
申请(专利权)人:思必驰科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。