【技术实现步骤摘要】
本公开涉及人工智能,具体为大模型、多模态数据处理等,尤其涉及一种基于mllm的数据处理及mllm训练方法和装置。
技术介绍
1、多模态大语言模型(multimodal large language model,mllm)是近年来兴起的一个新的研究热点,它在大语言模型(large language model,llm)具有的强大泛化和推理能力基础上,进一步引入多模态信息处理能力。
2、如何提高基于mllm的数据处理性能是需要解决的问题。
技术实现思路
1、本公开提供了一种基于mllm的数据处理及mllm训练方法、装置和设备。
2、根据本公开的一方面,提供了一种基于mllm的数据处理方法,所述mllm包括:预训练图像编码器和多种候选文本编码器,所述方法包括:确定目标多模态数据的目标数据类型;所述多模态数据包括:目标图像和目标提示文本;采用所述预训练图像编码器,对所述目标图像进行编码,以获得目标图像特征;在所述多种候选文本编码器中,确定与所述目标数据类型对应的目标文本编码
...【技术保护点】
1.一种基于MLLM的数据处理方法,所述MLLM包括:预训练图像编码器和多种候选文本编码器,所述方法包括:
2.根据权利要求1所述的方法,其中,所述在所述多种候选文本编码器中,确定与所述目标数据类型对应的目标文本编码器,包括:
3.根据权利要求2所述的方法,其中,
4.根据权利要求2所述的方法,其中,
5.根据权利要求1所述的方法,其中,所述基于所述目标文本特征,获取目标提示特征,包括:
6.根据权利要求1所述的方法,其中,
7.一种MLLM训练方法,所述MLLM包括:预训练图像编码器和候选文本编
...【技术特征摘要】
1.一种基于mllm的数据处理方法,所述mllm包括:预训练图像编码器和多种候选文本编码器,所述方法包括:
2.根据权利要求1所述的方法,其中,所述在所述多种候选文本编码器中,确定与所述目标数据类型对应的目标文本编码器,包括:
3.根据权利要求2所述的方法,其中,
4.根据权利要求2所述的方法,其中,
5.根据权利要求1所述的方法,其中,所述基于所述目标文本特征,获取目标提示特征,包括:
6.根据权利要求1所述的方法,其中,
7.一种mllm训练方法,所述mllm包括:预训练图像编码器和候选文本编码器,所述方法包括:
8.根据权利要求7所述的方法,其中,
9.根据权利要求8所述的方法,其中,
10.根据权利要求7所述的方法,其中,
11.根据权利要求7所述的方法,其中,所述基于所述目标文本特征,获取所述目标提示特征,包括:
12.根据权利要求7所述的方法,其中,
13.根据权利要求11所述的方法,还包括:
14.一种基于mllm的数据处理装置,所述mllm包括:预训练图像编码器和多种候选文本编码器...
【专利技术属性】
技术研发人员:沈智勇,戴永兴,王卿鹏,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。