基于MLLM的数据处理及MLLM训练方法和装置制造方法及图纸

技术编号:43339062 阅读:22 留言:0更新日期:2024-11-15 20:34
本公开提供了一种基于MLLM的数据处理及MLLM训练方法和装置,涉及人工智能技术领域,具体为大模型、多模态数据处理等技术领域。基于MLLM的数据处理方法包括:确定目标多模态数据的目标数据类型;所述多模态数据包括:目标图像和目标提示文本;采用MLLM中的预训练图像编码器,对所述目标图像进行编码,以获得目标图像特征;在MLLM中的多种候选文本编码器中,确定与所述目标数据类型对应的目标文本编码器;采用所述目标文本编码器,对所述目标提示文本进行编码,以获得目标文本特征;基于所述目标文本特征获取目标提示特征;基于所述目标图像特征和所述目标提示特征,获取数据处理结果。

【技术实现步骤摘要】

本公开涉及人工智能,具体为大模型、多模态数据处理等,尤其涉及一种基于mllm的数据处理及mllm训练方法和装置。


技术介绍

1、多模态大语言模型(multimodal large language model,mllm)是近年来兴起的一个新的研究热点,它在大语言模型(large language model,llm)具有的强大泛化和推理能力基础上,进一步引入多模态信息处理能力。

2、如何提高基于mllm的数据处理性能是需要解决的问题。


技术实现思路

1、本公开提供了一种基于mllm的数据处理及mllm训练方法、装置和设备。

2、根据本公开的一方面,提供了一种基于mllm的数据处理方法,所述mllm包括:预训练图像编码器和多种候选文本编码器,所述方法包括:确定目标多模态数据的目标数据类型;所述多模态数据包括:目标图像和目标提示文本;采用所述预训练图像编码器,对所述目标图像进行编码,以获得目标图像特征;在所述多种候选文本编码器中,确定与所述目标数据类型对应的目标文本编码器;采用所述目标文本本文档来自技高网...

【技术保护点】

1.一种基于MLLM的数据处理方法,所述MLLM包括:预训练图像编码器和多种候选文本编码器,所述方法包括:

2.根据权利要求1所述的方法,其中,所述在所述多种候选文本编码器中,确定与所述目标数据类型对应的目标文本编码器,包括:

3.根据权利要求2所述的方法,其中,

4.根据权利要求2所述的方法,其中,

5.根据权利要求1所述的方法,其中,所述基于所述目标文本特征,获取目标提示特征,包括:

6.根据权利要求1所述的方法,其中,

7.一种MLLM训练方法,所述MLLM包括:预训练图像编码器和候选文本编码器,所述方法包括:...

【技术特征摘要】

1.一种基于mllm的数据处理方法,所述mllm包括:预训练图像编码器和多种候选文本编码器,所述方法包括:

2.根据权利要求1所述的方法,其中,所述在所述多种候选文本编码器中,确定与所述目标数据类型对应的目标文本编码器,包括:

3.根据权利要求2所述的方法,其中,

4.根据权利要求2所述的方法,其中,

5.根据权利要求1所述的方法,其中,所述基于所述目标文本特征,获取目标提示特征,包括:

6.根据权利要求1所述的方法,其中,

7.一种mllm训练方法,所述mllm包括:预训练图像编码器和候选文本编码器,所述方法包括:

8.根据权利要求7所述的方法,其中,

9.根据权利要求8所述的方法,其中,

10.根据权利要求7所述的方法,其中,

11.根据权利要求7所述的方法,其中,所述基于所述目标文本特征,获取所述目标提示特征,包括:

12.根据权利要求7所述的方法,其中,

13.根据权利要求11所述的方法,还包括:

14.一种基于mllm的数据处理装置,所述mllm包括:预训练图像编码器和多种候选文本编码器...

【专利技术属性】
技术研发人员:沈智勇戴永兴王卿鹏
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1