图像生成方法、装置和电子设备制造方法及图纸

技术编号:28943337 阅读:23 留言:0更新日期:2021-06-18 21:52
本发明专利技术提供了一种图像生成方法、装置和电子设备;其中,该方法包括:基于目标音频的音频特征,对初始动作参数进行调整,得到第一动作参数;其中,第一动作参数指示的动作与音频特征相匹配;基于第一动作参数以及包含目标对象的初始图像,生成目标图像;目标图像中,目标对象具有第一动作参数指示的动作。该方式中,通过音频的音频特征调整动作参数,可以使得到的第一动作参数所指示的动作与该音频特征相匹配,进而使生成的图像中的目标对象具有第一动作参数指示的动作,因而该方式可以通过音频控制图像中对象的动作,使图像中对象的动作随着音频内容的变化而变化,在播放音频的过程中,图像内容变化多样,提高了用户的视觉体验。

【技术实现步骤摘要】
图像生成方法、装置和电子设备
本专利技术涉及图像处理
,尤其是涉及一种图像生成方法、装置和电子设备。
技术介绍
终端设备播放音频时,在显示屏幕上显示特定的图像,并使图像内容随着音频律动的变化而变化,可以提高用户在倾听音频时的视觉体验感。相关技术中,随着音频律动变化的图像通常为跳跃的条状频谱图;将正在播放的音频进行傅里叶变换,得到音频的频域特征,基于该频域特征即可生成上述条状频谱图。但这种图像内容较为单一,对用户而言缺乏吸引力,用户视觉体验感较低。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种图像生成方法、装置和电子设备,以在播放音频的过程中,图像内容变化多样,提高用户的视觉体验。第一方面,本专利技术实施例提供了一种图像生成方法,方法包括:基于目标音频的音频特征,对初始动作参数进行调整,得到第一动作参数;其中,第一动作参数指示的动作与音频特征相匹配;基于第一动作参数以及包含目标对象的初始图像,生成目标图像;目标图像中,目标对象具有第一动作参数指示的动作。上述目标对象包括人脸;第一动作参数指示的动作本文档来自技高网...

【技术保护点】
1.一种图像生成方法,其特征在于,所述方法包括:/n基于目标音频的音频特征,对初始动作参数进行调整,得到第一动作参数;其中,所述第一动作参数指示的动作与所述音频特征相匹配;/n基于所述第一动作参数以及包含目标对象的初始图像,生成目标图像;所述目标图像中,所述目标对象具有所述第一动作参数指示的动作。/n

【技术特征摘要】
1.一种图像生成方法,其特征在于,所述方法包括:
基于目标音频的音频特征,对初始动作参数进行调整,得到第一动作参数;其中,所述第一动作参数指示的动作与所述音频特征相匹配;
基于所述第一动作参数以及包含目标对象的初始图像,生成目标图像;所述目标图像中,所述目标对象具有所述第一动作参数指示的动作。


2.根据权利要求1所述的方法,其特征在于,所述目标对象包括人脸;所述第一动作参数指示的动作包括所述人脸的表情动作。


3.根据权利要求1所述的方法,其特征在于,所述目标音频的音频特征用于调整所述初始动作参数指示的动作的动作幅度;所述第一动作参数指示的动作的动作幅度与所述音频特征相匹配。


4.根据权利要求1所述的方法,其特征在于,基于目标音频的音频特征,对初始动作参数进行调整,得到第一动作参数的步骤,包括:
根据所述目标音频的音频特征,确定参数调整权重;
基于所述参数调整权重,对所述初始动作参数进行放缩处理,得到第一动作参数。


5.根据权利要求4所述的方法,其特征在于,根据所述目标音频的音频特征,确定参数调整权重的步骤,包括:
在所述音频特征的时间维度上,对所述时间维度上的各个时间点对应的特征向量求取平均值,得到初始参数;
将所述初始参数映射至预设的数值范围中,得到所述参数调整权重。


6.根据权利要求4所述的方法,其特征在于,根据所述目标音频的音频特征,确定参数调整权重的步骤之前,所述方法还包括:
对所述音频特征中,任意两个相邻的初始时间点之间插入指定数量的中间时间点,以及每个所述中间时间点对应的特征向量,得到最终的所述音频特征;其中,所述中间时间点对应的特征向量,基于与所述中间时间点相邻的两个初始时间点对应的特征向量确定。


7.根据权利要求1所述的方法,其特征在于,所述目标音频的音频特征,通过下述方式得到:
提取所述目标音频的梅尔频率倒谱系数MFCC参数;所述MFCC参数包括预设时间间隔的多个时间点,以及每个时间点对应一个MFCC数值;
将所述MFCC参数输入至预先训练完成的特征提取网络中,输出所述目标音频的音频特征。


8.根据权利要求7所述的方法,其特征在于,所述特征提取网络包括多个依次串联的特征提取模块;所述特征提取模块包括卷积层、批量归一化层和激活函数层。


9.根据权利要求7所述的方法,其特征在于,将所述MFCC参数输入至预先训练完成的特征提取网络中,输出所述目标音频的音频特征的步骤之前,所述方法还包括:
基于预设的填充值,对所述MFCC参数的频率维度上的数值进行数值填充,以使所述频率维度上的数值数量与所述MFCC参数的时间维度上的数值数量相匹配;
将数值填充后的所述MFCC参数进行复制,得到指定通道数量的所述MFCC...

【专利技术属性】
技术研发人员:袁燚许曼玲范长杰胡志鹏
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1