模态信息生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41529107 阅读:16 留言:0更新日期:2024-06-03 23:04
本申请实施例公开了一种模态信息生成方法、装置、电子设备及存储介质,该方法包括:获取多模态参考信息,多模态参考信息包括至少两个原始模态的模态参考信息;针对每个模态参考信息,按照原始模态对应目标模态的二元模态转换模型处理模态参考信息,得到目标模态下的模态转换特征信息;将各模态转换特征信息进行融合,得到多模态参考信息在目标模态下的多模态融合特征信息;根据多模态融合特征信息,生成目标模态下的模态内容信息。各个二元模态转换模型均向目标模态进行转换,实现利用多个二元模态转换模型代替单个多模态内容生成模型,降低内容生成条件苛刻的问题,实现对多模态内容生成方案的优化。

【技术实现步骤摘要】

本申请实施例涉及人工智能,具体涉及一种模态信息生成方法、装置、电子设备及存储介质,其中,该存储介质包括计算机可读存储介质。


技术介绍

1、当前社交场景中,人工智能内容创作(aigc)主要以图像、视频为主,即用户通过上传文字内容、图片内容,通过生成模型生成出符合图片内容和文本描述的高质量内容结果(例如图片)。

2、但是,基于单一模态或者少量模态的内容生成方案存在内容生成准确性差的问题。而随着信息种类的增多,基于更多模态的内容生成方案成为解决内容生成准确性的主要策略。

3、目前多模态生成模型,在训练阶段,需要事先储备相关模态的数据,如“文本-图像”生成模型,需要“文本-图像”的成对数据,其它支持多种模态生成的模型,如“文本音频-图像”生成模型,则需要“文本-音频-图像”格式的三元组数据。

4、但是,在实际场景中,二元组数据一般容易大量获取,如图像+文本、视频+音频、音频+文本,但三元组甚至四元组的数据,往往由于某种模态数据的缺失,而无法海量获取,极大地限制了基于多模态的内容生成方案的应用。


>

技术实本文档来自技高网...

【技术保护点】

1.一种模态信息生成方法,其特征在于,包括:

2.根据权利要求1所述的模态信息生成方法,其特征在于,所述根据所述多模态融合特征信息,生成期望模态下的模态内容信息,包括:

3.根据权利要求2所述的模态信息生成方法,其特征在于,所述期望模态包括所述目标模态;

4.根据权利要求2所述的模态信息生成方法,其特征在于,将所述目标模态作为第一模态,所述期望模态包括除所述第一模态以外的第二模态;

5.根据权利要求2所述的模态信息生成方法,其特征在于,所述通过所述模态信息生成模型,生成所述多模态融合特征信息对应的模态内容信息之后,所述方法还包括:

<...

【技术特征摘要】

1.一种模态信息生成方法,其特征在于,包括:

2.根据权利要求1所述的模态信息生成方法,其特征在于,所述根据所述多模态融合特征信息,生成期望模态下的模态内容信息,包括:

3.根据权利要求2所述的模态信息生成方法,其特征在于,所述期望模态包括所述目标模态;

4.根据权利要求2所述的模态信息生成方法,其特征在于,将所述目标模态作为第一模态,所述期望模态包括除所述第一模态以外的第二模态;

5.根据权利要求2所述的模态信息生成方法,其特征在于,所述通过所述模态信息生成模型,生成所述多模态融合特征信息对应的模态内容信息之后,所述方法还包括:

6.根据权利要求1所述的模态信息生成方法,其特征在于,所述将各...

【专利技术属性】
技术研发人员:陈安同王浩帆
申请(专利权)人:书行科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1