System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多模态数据生成方法、装置、系统、电子设备和存储介质制造方法及图纸_技高网

多模态数据生成方法、装置、系统、电子设备和存储介质制造方法及图纸

技术编号:42685167 阅读:18 留言:0更新日期:2024-09-10 12:33
本公开提供了一种多模态数据生成方法,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型技术领域,具体涉及一种视觉智能体,该视觉智能体集成有视觉专家模型、多模态大模型以及大语言模型,可应用于AIGC(AI‑Generated Content)、人机交互等场景。具体实现方案为:根据来自目标对象的输入内容,确定目标对象的意图;响应于输入内容包括图像,根据意图,从视觉专家模型库中选取视觉专家模型,对图像进行处理,得到视觉专家结果;根据意图,从多模态模型库中选取多模态模型,基于视觉专家结果,对输入内容进行多模态处理,得到多模态处理结果;以及根据视觉专家结果和多模态处理结果,生成输出内容。

【技术实现步骤摘要】

本公开涉及人工智能,尤其涉及计算机视觉、深度学习、大模型等,具体涉及一种视觉智能体,该视觉智能体集成有视觉专家模型、多模态大模型以及大语言模型,可应用于aigc(ai-generated content)、人机交互等场景。更具体地,本公开提供了一种多模态数据生成方法、基于视觉智能体的多模态数据生成系统、装置、电子设备、存储介质以及计算机程序产品。


技术介绍

1、随着人工智能技术的发展,特别是大模型技术的成熟,多模态大语言模型(multimodel large language model,mllm)成为近年来的研究热点。


技术实现思路

1、本公开提供了一种多模态数据生成方法、基于视觉智能体的多模态数据生成系统、装置、电子设备、存储介质以及计算机程序产品。

2、根据第一方面,提供了一种多模态数据生成方法,该方法包括:根据来自目标对象的输入内容,确定目标对象的意图;响应于输入内容包括图像,根据意图,从视觉专家模型库中选取视觉专家模型,对图像进行处理,得到视觉专家结果;根据意图,从多模态模型库中选取多模态模型,基于视觉专家结果,对输入内容进行多模态处理,得到多模态处理结果;以及根据视觉专家结果和多模态处理结果,生成输出内容。

3、根据第二方面,提供了一种多模态数据生成装置,该装置包括:意图确定模块,用于根据来自目标对象的输入内容,确定目标对象的意图;视觉处理模块,用于响应于输入内容包括图像,根据意图,从视觉专家模型库中选取视觉专家模型,对图像进行处理,得到视觉专家结果;多模态处理模块,用于根据意图,从多模态模型库中选取多模态模型,基于视觉专家结果,对输入内容进行多模态处理,得到多模态处理结果;以及输出内容确定模块,用于根据视觉专家结果和多模态处理结果,生成输出内容。

4、根据第三方面,基于视觉智能体的多模态数据生成系统,包括:视觉智能体,集成有视觉专家模型库、多模态模型库、以及大语言模型;模型控制模块,用于根据来自目标对象的输入内容,确定目标对象的意图;根据意图从视觉专家模型库和多模态模型库中分别选取视觉专家模型和多模态模型针对输入内容进行处理,得到视觉专家结果和多模态处理结果;并将视觉专家结果和多模态处理结果输入给大语言模型;其中,大语言模型,用于根据视觉专家结果和多模态处理结果,生成输出内容。

5、根据第四方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。

6、根据第五方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。

7、根据第六方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序存储于可读存储介质和电子设备其中至少之一上,所述计算机程序在被处理器执行时实现根据本公开提供的方法。

8、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种多模态数据生成方法,包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求2所述的方法,其中,所述根据所述意图,从视觉专家模型库中选取视觉专家模型,对所述图像进行处理,得到视觉专家结果包括:

4.根据权利要求2所述的方法,其中,所述多模态模型库包括生成模型;所述根据所述意图,从多模态模型库中选取多模态模型,基于所述视觉专家结果,对所述输入内容进行多模态处理,得到多模态处理结果包括:

5.根据权利要求4所述的方法,其中,所述生成意图包括生成文本;所述使用所述生成模型,基于所述视觉专家结果,对所述输入内容进行多模态处理,得到生成结果包括:

6.根据权利要求4所述的方法,其中,所述生成意图包括生成图像和视频中的至少之一;所述使用所述生成模型,基于所述视觉专家结果,对所述输入内容进行多模态处理,得到生成结果包括:

7.根据权利要求4所述的方法,其中,所述根据所述意图,从多模态模型库中选取多模态模型,基于所述视觉专家结果,对所述输入内容进行多模态处理,得到多模态处理结果还包括:

8.根据权利要求7所述的方法,其中,所述第二执行顺序包括并列执行顺序;所述按照所述第二执行顺序,使用所述多个生成模型基于所述视觉专家结果,对所述输入内容进行多模态处理,得到生成结果包括:

9.根据权利要求8所述的方法,其中,所述根据所述视觉专家结果和所述多模态处理结果,生成输出内容包括:

10.根据权利要求1所述的方法,还包括:

11.一种多模态数据生成装置,包括:

12.根据权利要求11所述的装置,还包括:

13.根据权利要求12所述的装置,其中,所述视觉处理模块包括:

14.根据权利要求12所述的装置,其中,所述多模态模型库包括生成模型;所述多模态处理模块包括:

15.根据权利要求14所述的装置,其中,所述生成意图包括生成文本;所述生成单元包括:

16.根据权利要求14所述的装置,其中,所述生成意图包括生成图像和视频中的至少之一;所述生成单元包括:

17.根据权利要求14所述的装置,其中,

18.根据权利要求17所述的装置,其中,所述第二执行顺序包括并列执行顺序;

19.根据权利要求18所述的装置,其中,所述输出内容确定模块包括:

20.根据权利要求11所述的装置,还包括:

21.一种基于视觉智能体的多模态数据生成系统,包括:

22.根据权利要求21所述的装置,其中,所述输入内容包括图像;

23.根据权利要求21所述的装置,其中,所述模型控制模块包括:

24.根据权利要求23所述的装置,其中,

25.根据权利要求24所述的装置,其中,所述第二执行顺序包括并列执行顺序;

26.一种电子设备,包括:

27.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至10中任一项所述的方法。

28.一种计算机程序产品,包括计算机程序,所述计算机程序存储于可读存储介质和电子设备其中至少之一上,所述计算机程序在被处理器执行时实现根据权利要求1至10中任一项所述的方法。

...

【技术特征摘要】

1.一种多模态数据生成方法,包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求2所述的方法,其中,所述根据所述意图,从视觉专家模型库中选取视觉专家模型,对所述图像进行处理,得到视觉专家结果包括:

4.根据权利要求2所述的方法,其中,所述多模态模型库包括生成模型;所述根据所述意图,从多模态模型库中选取多模态模型,基于所述视觉专家结果,对所述输入内容进行多模态处理,得到多模态处理结果包括:

5.根据权利要求4所述的方法,其中,所述生成意图包括生成文本;所述使用所述生成模型,基于所述视觉专家结果,对所述输入内容进行多模态处理,得到生成结果包括:

6.根据权利要求4所述的方法,其中,所述生成意图包括生成图像和视频中的至少之一;所述使用所述生成模型,基于所述视觉专家结果,对所述输入内容进行多模态处理,得到生成结果包括:

7.根据权利要求4所述的方法,其中,所述根据所述意图,从多模态模型库中选取多模态模型,基于所述视觉专家结果,对所述输入内容进行多模态处理,得到多模态处理结果还包括:

8.根据权利要求7所述的方法,其中,所述第二执行顺序包括并列执行顺序;所述按照所述第二执行顺序,使用所述多个生成模型基于所述视觉专家结果,对所述输入内容进行多模态处理,得到生成结果包括:

9.根据权利要求8所述的方法,其中,所述根据所述视觉专家结果和所述多模态处理结果,生成输出内容包括:

10.根据权利要求1所述的方法,还包括:

11.一种多模态数据生成装置,包括:

12.根据权利要求11所述...

【专利技术属性】
技术研发人员:岳海潇付延年倪子涵
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1