模态信息生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：41529107 阅读：16 留言：0更新日期：2024-06-03 23:04

本申请实施例公开了一种模态信息生成方法、装置、电子设备及存储介质，该方法包括：获取多模态参考信息，多模态参考信息包括至少两个原始模态的模态参考信息；针对每个模态参考信息，按照原始模态对应目标模态的二元模态转换模型处理模态参考信息，得到目标模态下的模态转换特征信息；将各模态转换特征信息进行融合，得到多模态参考信息在目标模态下的多模态融合特征信息；根据多模态融合特征信息，生成目标模态下的模态内容信息。各个二元模态转换模型均向目标模态进行转换，实现利用多个二元模态转换模型代替单个多模态内容生成模型，降低内容生成条件苛刻的问题，实现对多模态内容生成方案的优化。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及人工智能，具体涉及一种模态信息生成方法、装置、电子设备及存储介质，其中，该存储介质包括计算机可读存储介质。

技术介绍

1、当前社交场景中，人工智能内容创作(aigc)主要以图像、视频为主，即用户通过上传文字内容、图片内容，通过生成模型生成出符合图片内容和文本描述的高质量内容结果(例如图片)。

2、但是，基于单一模态或者少量模态的内容生成方案存在内容生成准确性差的问题。而随着信息种类的增多，基于更多模态的内容生成方案成为解决内容生成准确性的主要策略。

3、目前多模态生成模型，在训练阶段，需要事先储备相关模态的数据，如“文本-图像”生成模型，需要“文本-图像”的成对数据，其它支持多种模态生成的模型，如“文本音频-图像”生成模型，则需要“文本-音频-图像”格式的三元组数据。

4、但是，在实际场景中，二元组数据一般容易大量获取，如图像+文本、视频+音频、音频+文本，但三元组甚至四元组的数据，往往由于某种模态数据的缺失，而无法海量获取，极大地限制了基于多模态的内容生成方案的应用。

技术实本文档来自技高网...

【技术保护点】

1.一种模态信息生成方法，其特征在于，包括：
2.根据权利要求1所述的模态信息生成方法，其特征在于，所述根据所述多模态融合特征信息，生成期望模态下的模态内容信息，包括：
3.根据权利要求2所述的模态信息生成方法，其特征在于，所述期望模态包括所述目标模态；
4.根据权利要求2所述的模态信息生成方法，其特征在于，将所述目标模态作为第一模态，所述期望模态包括除所述第一模态以外的第二模态；
5.根据权利要求2所述的模态信息生成方法，其特征在于，所述通过所述模态信息生成模型，生成所述多模态融合特征信息对应的模态内容信息之后，所述方法还包括：
<...

【技术特征摘要】

1.一种模态信息生成方法，其特征在于，包括：
2.根据权利要求1所述的模态信息生成方法，其特征在于，所述根据所述多模态融合特征信息，生成期望模态下的模态内容信息，包括：
3.根据权利要求2所述的模态信息生成方法，其特征在于，所述期望模态包括所述目标模态；
4.根据权利要求2所述的模态信息生成方法，其特征在于，将所述目标模态作为第一模态，所述期望模态包括除所述第一模态以外的第二模态；
5.根据权利要求2所述的模态信息生成方法，其特征在于，所述通过所述模态信息生成模型，生成所述多模态融合特征信息对应的模态内容信息之后，所述方法还包括：
6.根据权利要求1所述的模态信息生成方法，其特征在于，所述将各...

【专利技术属性】
技术研发人员：陈安同，王浩帆，
申请(专利权)人：书行科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人

上一篇：一种真空低温下多角度分离激光阻断装置制造方法及图纸
下一篇：中断处理方法、装置、电子设备及存储介质制造方法及图纸

相关技术

信息交互方法、装置、设备、存储介质及...

地图页显示方法、装置及计算设备制造方...

状态发布方法、设备、介质及产品技术

推荐方法、训练方法及相关产品技术

直播互动方法、装置、设备、可读存储介...

会话互动方法、装置、设备、可读存储介...

图像查询方法、装置、计算设备、存储介...

图像生成方法、装置、设备及介质制造方...

对象处理方法、计算设备、存储介质及计...

答复方法、模型训练方法及相关产品技术

网友询问留言已有0条评论

还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1

发布您的意见

相关领域技术

中断处理方法、装置、电子设备及存储介...

一种基于分布投影重放的旋转机械故障诊...

一种面向机载智能决策算法的可移植性测...

流程运行管理方法、电子设备及存储介质...

一种基于多任务学习卷积神经网的交流串...

一种具有多引擎处理单元的装置制造方法...

一种基于自主可控操作系统的一体化交付...

一种基于注意力机制的自然文本转图数据...