多模态数据生成方法、装置、系统、电子设备和存储介质制造方法及图纸

技术编号:42685167 阅读:22 留言:0更新日期:2024-09-10 12:33
本公开提供了一种多模态数据生成方法,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型技术领域,具体涉及一种视觉智能体,该视觉智能体集成有视觉专家模型、多模态大模型以及大语言模型,可应用于AIGC(AI‑Generated Content)、人机交互等场景。具体实现方案为:根据来自目标对象的输入内容,确定目标对象的意图;响应于输入内容包括图像,根据意图,从视觉专家模型库中选取视觉专家模型,对图像进行处理,得到视觉专家结果;根据意图,从多模态模型库中选取多模态模型,基于视觉专家结果,对输入内容进行多模态处理,得到多模态处理结果;以及根据视觉专家结果和多模态处理结果,生成输出内容。

【技术实现步骤摘要】

本公开涉及人工智能,尤其涉及计算机视觉、深度学习、大模型等,具体涉及一种视觉智能体,该视觉智能体集成有视觉专家模型、多模态大模型以及大语言模型,可应用于aigc(ai-generated content)、人机交互等场景。更具体地,本公开提供了一种多模态数据生成方法、基于视觉智能体的多模态数据生成系统、装置、电子设备、存储介质以及计算机程序产品。


技术介绍

1、随着人工智能技术的发展,特别是大模型技术的成熟,多模态大语言模型(multimodel large language model,mllm)成为近年来的研究热点。


技术实现思路

1、本公开提供了一种多模态数据生成方法、基于视觉智能体的多模态数据生成系统、装置、电子设备、存储介质以及计算机程序产品。

2、根据第一方面,提供了一种多模态数据生成方法,该方法包括:根据来自目标对象的输入内容,确定目标对象的意图;响应于输入内容包括图像,根据意图,从视觉专家模型库中选取视觉专家模型,对图像进行处理,得到视觉专家结果;根据意图,从多模态模型库中选取多模本文档来自技高网...

【技术保护点】

1.一种多模态数据生成方法,包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求2所述的方法,其中,所述根据所述意图,从视觉专家模型库中选取视觉专家模型,对所述图像进行处理,得到视觉专家结果包括:

4.根据权利要求2所述的方法,其中,所述多模态模型库包括生成模型;所述根据所述意图,从多模态模型库中选取多模态模型,基于所述视觉专家结果,对所述输入内容进行多模态处理,得到多模态处理结果包括:

5.根据权利要求4所述的方法,其中,所述生成意图包括生成文本;所述使用所述生成模型,基于所述视觉专家结果,对所述输入内容进行多模态处理,得到生...

【技术特征摘要】

1.一种多模态数据生成方法,包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求2所述的方法,其中,所述根据所述意图,从视觉专家模型库中选取视觉专家模型,对所述图像进行处理,得到视觉专家结果包括:

4.根据权利要求2所述的方法,其中,所述多模态模型库包括生成模型;所述根据所述意图,从多模态模型库中选取多模态模型,基于所述视觉专家结果,对所述输入内容进行多模态处理,得到多模态处理结果包括:

5.根据权利要求4所述的方法,其中,所述生成意图包括生成文本;所述使用所述生成模型,基于所述视觉专家结果,对所述输入内容进行多模态处理,得到生成结果包括:

6.根据权利要求4所述的方法,其中,所述生成意图包括生成图像和视频中的至少之一;所述使用所述生成模型,基于所述视觉专家结果,对所述输入内容进行多模态处理,得到生成结果包括:

7.根据权利要求4所述的方法,其中,所述根据所述意图,从多模态模型库中选取多模态模型,基于所述视觉专家结果,对所述输入内容进行多模态处理,得到多模态处理结果还包括:

8.根据权利要求7所述的方法,其中,所述第二执行顺序包括并列执行顺序;所述按照所述第二执行顺序,使用所述多个生成模型基于所述视觉专家结果,对所述输入内容进行多模态处理,得到生成结果包括:

9.根据权利要求8所述的方法,其中,所述根据所述视觉专家结果和所述多模态处理结果,生成输出内容包括:

10.根据权利要求1所述的方法,还包括:

11.一种多模态数据生成装置,包括:

12.根据权利要求11所述...

【专利技术属性】
技术研发人员:岳海潇付延年倪子涵
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1