【技术实现步骤摘要】
本公开涉及计算机视觉,尤其涉及一种多媒体资源生成方法、装置、电子设备及存储介质。
技术介绍
1、随着人工智能生成内容(artificial intelligence generated content)的飞速发展,例如多模态可控图像生成等得到广泛应用。相关技术中,一般选择将图像离散化为token序列,并纳入语言模型的词汇表进行联合预测;或者使用连续表征方法,通过连续特征空间实现图文联合生成。但这些会导致图像表征与文本表征难以在统一框架下高效对齐,从而导致生成多媒体资源(例如生成图像)的保真度较低,无法适配日益丰富的多媒体资源生成场景。另外,基于扩散模型的生成技术中,引入了适配器(adapter-based)结构以实现结合边缘图、深度信息、关键点等结构线索实现控制的目的,但此类依赖独立适配器的方法通常面临任务隔离、参数量冗余及多条件组合能力较弱等问题。
技术实现思路
1、本公开提供一种多媒体资源生成方法、装置、电子设备及存储介质,以至少可以提升生成多媒体资源的保真度,能够适配更加丰富多样的多
...【技术保护点】
1.一种多媒体资源生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述双编码器包括多媒体语义编码器和多媒体细节编码器;所述基于双编码器对所述参考多媒体资源进行语义提取和多媒体资源细节提取,得到第一多媒体语义特征和第一多媒体细节特征,包括:
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述将所述第一序列拼接特征输入目标Transformer模型进行特征交互处理,得到第一目标交互特征,包括:
5.根据权利要求1所述的方法,其特征在于,所述将预
...【技术特征摘要】
1.一种多媒体资源生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述双编码器包括多媒体语义编码器和多媒体细节编码器;所述基于双编码器对所述参考多媒体资源进行语义提取和多媒体资源细节提取,得到第一多媒体语义特征和第一多媒体细节特征,包括:
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述将所述第一序列拼接特征输入目标transformer模型进行特征交互处理,得到第一目标交互特征,包括:
5.根据权利要求1所述的方法,其特征在于,所述将预设噪声信息和所述第一目标交互特征,输入目标扩散模型进行多媒体资源生成处理,得到第一生成多媒体资源,包括:
6.根据权利要求1所述的方法,其特征...
【专利技术属性】
技术研发人员:龚凯雄,毛云垚,武笑石,袁梓洋,王鑫涛,万鹏飞,张迪,盖坤,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。