多模态数据生成方法、装置、系统、电子设备和存储介质制造方法及图纸

技术编号：42685167 阅读：22 留言：0更新日期：2024-09-10 12:33

本公开提供了一种多模态数据生成方法，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型技术领域，具体涉及一种视觉智能体，该视觉智能体集成有视觉专家模型、多模态大模型以及大语言模型，可应用于AIGC（AI‑Generated Content）、人机交互等场景。具体实现方案为：根据来自目标对象的输入内容，确定目标对象的意图；响应于输入内容包括图像，根据意图，从视觉专家模型库中选取视觉专家模型，对图像进行处理，得到视觉专家结果；根据意图，从多模态模型库中选取多模态模型，基于视觉专家结果，对输入内容进行多模态处理，得到多模态处理结果；以及根据视觉专家结果和多模态处理结果，生成输出内容。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，尤其涉及计算机视觉、深度学习、大模型等，具体涉及一种视觉智能体，该视觉智能体集成有视觉专家模型、多模态大模型以及大语言模型，可应用于aigc（ai-generated content）、人机交互等场景。更具体地，本公开提供了一种多模态数据生成方法、基于视觉智能体的多模态数据生成系统、装置、电子设备、存储介质以及计算机程序产品。

技术介绍

1、随着人工智能技术的发展，特别是大模型技术的成熟，多模态大语言模型（multimodel large language model，mllm）成为近年来的研究热点。

技术实现思路

1、本公开提供了一种多模态数据生成方法、基于视觉智能体的多模态数据生成系统、装置、电子设备、存储介质以及计算机程序产品。

2、根据第一方面，提供了一种多模态数据生成方法，该方法包括：根据来自目标对象的输入内容，确定目标对象的意图；响应于输入内容包括图像，根据意图，从视觉专家模型库中选取视觉专家模型，对图像进行处理，得到视觉专家结果；根据意图，从多...

【技术保护点】

1.一种多模态数据生成方法，包括：

2.根据权利要求1所述的方法，还包括：

3.根据权利要求2所述的方法，其中，所述根据所述意图，从视觉专家模型库中选取视觉专家模型，对所述图像进行处理，得到视觉专家结果包括：

4.根据权利要求2所述的方法，其中，所述多模态模型库包括生成模型；所述根据所述意图，从多模态模型库中选取多模态模型，基于所述视觉专家结果，对所述输入内容进行多模态处理，得到多模态处理结果包括：

5.根据权利要求4所述的方法，其中，所述生成意图包括生成文本；所述使用所述生成模型，基于所述视觉专家结果，对所述输入内容进行多模态处理，得到生...

【技术特征摘要】

1.一种多模态数据生成方法，包括：

2.根据权利要求1所述的方法，还包括：

3.根据权利要求2所述的方法，其中，所述根据所述意图，从视觉专家模型库中选取视觉专家模型，对所述图像进行处理，得到视觉专家结果包括：

5.根据权利要求4所述的方法，其中，所述生成意图包括生成文本；所述使用所述生成模型，基于所述视觉专家结果，对所述输入内容进行多模态处理，得到生成结果包括：

6.根据权利要求4所述的方法，其中，所述生成意图包括生成图像和视频中的至少之一；所述使用所述生成模型，基于所述视觉专家结果，对所述输入内容进行多模态处理，得到生成结果包括：

7.根据权利要求4所述的方法，其中，所述根据所述意图，从多模态模型库中选取多模态模型，基于所述视觉专家结果，对所述输入内容进行多模态处理，得到多模态处理结果还包括：

8.根据权利要求7所述的方法，其中，所述第二执行顺序包括并列执行顺序；所述按照所述第二执行顺序，使用所述多个生成模型基于所述视觉专家结果，对所述输入内容进行多模态处理，得到生成结果包括：

9.根据权利要求8所述的方法，其中，所述根据所述视觉专家结果和所述多模态处理结果，生成输出内容包括：

10.根据权利要求1所述的方法，还包括：

11.一种多模态数据生成装置，包括：

12.根据权利要求11所述...

【专利技术属性】
技术研发人员：岳海潇，付延年，倪子涵，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人