System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多模态模型训练方法、装置、设备及存储介质制造方法及图纸_技高网

多模态模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:44869216 阅读:15 留言:0更新日期:2025-04-08 00:11
本公开提供了多模态模型训练方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域。具体实现方案为:利用预设多模态模型的视觉编码网络,对第一文档图像和第二文档图像进行特征提取,以得到融合特征数据,其中,第一文档图像和第二文档图像是基于带有目标掩膜区域的目标文档图像所得,第一文档图像的分辨率与第二文档图像的分辨率不同;利用预设多模态模型的模型推理网络,对融合特征数据进行模型推理,以预测得到目标掩膜区域所掩盖的文本内容;基于预测得到的目标掩膜区域所掩盖的文本内容,对预设多模态模型进行训练,以得到目标多模态模型。

【技术实现步骤摘要】

本公开涉及人工智能,尤其涉及计算机视觉、深度学习、大模型等。


技术介绍

1、多模态大模型的深入研究和发展,使其在处理和分析不同类型的数据时变得更加容易。但是,对于文档图像而言,由于其所包含的内容丰富且模态多样,给当前多模态模型理解该文档图像带来了挑战。


技术实现思路

1、本公开提供了一种多模态模型训练方法、装置、设备及存储介质

2、根据本公开的一方面,提供了一种多模态模型训练方法,包括:

3、利用预设多模态模型的视觉编码网络,对第一文档图像和第二文档图像进行特征提取,以得到融合特征数据,其中,第一文档图像和第二文档图像是基于带有目标掩膜区域的目标文档图像所得,第一文档图像的分辨率与第二文档图像的分辨率不同;

4、利用预设多模态模型的模型推理网络,对融合特征数据进行模型推理,以预测得到目标掩膜区域所掩盖的文本内容;

5、基于预测得到的目标掩膜区域所掩盖的文本内容,对预设多模态模型进行训练,以得到目标多模态模型。

6、根据本公开的另一方面,提供了一种多模态模型训练装置,包括:

7、特征提取单元,用于利用预设多模态模型的视觉编码网络,对第一文档图像和第二文档图像进行特征提取,以得到融合特征数据,其中,第一文档图像和第二文档图像是基于带有目标掩膜区域的目标文档图像所得,第一文档图像的分辨率与第二文档图像的分辨率不同;

8、预测单元,用于利用预设多模态模型的模型推理网络,对融合特征数据进行模型推理,以预测得到目标掩膜区域所掩盖的文本内容;

9、训练单元,用于基于预测得到的目标掩膜区域所掩盖的文本内容,对预设多模态模型进行训练,以得到目标多模态模型。

10、根据本公开的另一方面,提供了一种电子设备,包括:

11、至少一个处理器;以及

12、与该至少一个处理器通信连接的存储器;其中,

13、该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开实施例中任一的方法。

14、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开实施例中任一的方法。

15、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开实施例中任一的方法。

16、这样,本公开方案提供了一种对多模态模型进行训练的细化方案,该方案利用具有不同分辨率的带有目标掩码区域的目标文档图像,也即第一文档图像和第二文档图像对预设多模态模型进行训练,如此,来提升多模态模型在文档图像上的理解能力,使得多模态模型在处理不同分辨率的文档图像时能够精确预测,进而为提升用户体验提供了有力支持。

17、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种多模态模型训练方法,包括:

2.根据权利要求1所述的方法,其中,所述利用预设多模态模型的视觉编码网络,对第一文档图像和第二文档图像进行特征提取,以得到融合特征数据,包括:

3.根据权利要求2所述的方法,其中,所述利用预设多模态模型的视觉编码网络,对第一文档图像和第二文档图像进行特征提取,以得到第一文档图像的局部特征数据和第二文档图像的全局特征数据,包括:

4.根据权利要求2或3所述的方法,其中,所述基于第一文档图像的局部特征数据和第二文档图像的全局特征数据,得到融合特征数据,包括:

5.根据权利要求1-4任一项所述的方法,其中,所述利用预设多模态模型的模型推理网络,对融合特征数据进行模型推理,以预测得到目标掩膜区域所掩盖的文本内容,包括:

6.根据权利要求1-5任一项所述的方法,还包括:

7.根据权利要求6所述的方法,其中,所述至少基于文字识别结果,对初始文档图像中的部分内容进行掩膜处理,得到带有目标掩膜区域的目标文档图像,包括以下至少之一:

8.根据权利要求7所述的方法,还包括:

9.根据权利要求7所述的方法,还包括:

10.一种多模态模型训练装置,包括:

11.根据权利要求10所述的装置,其中,所述特征提取单元,具体用于:

12.根据权利要求11所述的装置,其中,所述特征提取单元,具体用于:

13.根据权利要求11或12所述的装置,其中,所述特征提取单元,具体用于:

14.根据权利要求10-13任一项所述的装置,其中,所述预测单元,具体用于:

15.根据权利要求10-14任一项所述的装置,还包括:预处理单元;其中,所述预处理单元,用于:

16.根据权利要求15所述的装置,其中,所述预处理单元,具体用于执行以下至少之一:

17.根据权利要求16所述的装置,其中,所述预处理单元,具体用于:

18.根据权利要求16所述的装置,其中,所述预处理单元,具体用于:

19.一种电子设备,包括:

20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

21.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。

...

【技术特征摘要】

1.一种多模态模型训练方法,包括:

2.根据权利要求1所述的方法,其中,所述利用预设多模态模型的视觉编码网络,对第一文档图像和第二文档图像进行特征提取,以得到融合特征数据,包括:

3.根据权利要求2所述的方法,其中,所述利用预设多模态模型的视觉编码网络,对第一文档图像和第二文档图像进行特征提取,以得到第一文档图像的局部特征数据和第二文档图像的全局特征数据,包括:

4.根据权利要求2或3所述的方法,其中,所述基于第一文档图像的局部特征数据和第二文档图像的全局特征数据,得到融合特征数据,包括:

5.根据权利要求1-4任一项所述的方法,其中,所述利用预设多模态模型的模型推理网络,对融合特征数据进行模型推理,以预测得到目标掩膜区域所掩盖的文本内容,包括:

6.根据权利要求1-5任一项所述的方法,还包括:

7.根据权利要求6所述的方法,其中,所述至少基于文字识别结果,对初始文档图像中的部分内容进行掩膜处理,得到带有目标掩膜区域的目标文档图像,包括以下至少之一:

8.根据权利要求7所述的方法,还包括:

9.根据权利要求7所述的方法,还包括:

1...

【专利技术属性】
技术研发人员:马伟洪李弼
申请(专利权)人:百度国际科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1