【技术实现步骤摘要】
生成对抗网络的训练方法、生成方法、装置、设备及介质
本申请实施例涉及多媒体
,特别涉及一种生成对抗网络的训练方法、音频的特征向量生成方法、装置、设备及介质。
技术介绍
采用机器学习模型对音频特征进行处理时,需要提取向量形式的音频特征。相关技术中提供了一种音频的特征向量生成方法,对音频的时频特征进行单纯音频信号维度的特征提取,得到音频的特征向量。上述方法提取到的特征向量只有粗粒度的特征表示能力。
技术实现思路
本申请实施例提供了一种音频特征的提取方法、装置、计算机设备及存储介质,对音频提取到的特征向量能够表征音频的细节特征,具有细粒度的特征表示能力。所述技术方案如下:根据本申请的一个方面,提供了一种生成对抗网络的训练方法,所述生成对抗网络包括生成器和判别器,所述方法包括:调用神经网络模型对样本音频进行处理,得到第一特征向量;调用所述生成器对随机噪声进行处理,得到第二特征向量;调用所述判别器对所述第一特征向量和所述第二特征向量分别进行判别,得到所述 ...
【技术保护点】
1.一种生成对抗网络的训练方法,其特征在于,所述生成对抗网络包括生成器和判别器,所述方法包括:/n调用神经网络模型对样本音频进行处理,得到第一特征向量;/n调用所述生成器对随机噪声进行处理,得到第二特征向量;/n调用所述判别器对所述第一特征向量和所述第二特征向量分别进行判别,得到所述第一特征向量对应的判别结果和所述第二特征向量的判别结果;/n基于所述判别结果,采用目标损失函数对所述神经网络模型、生成器和所述判别器进行交替训练,得到训练后的所述生成对抗网络。/n
【技术特征摘要】
1.一种生成对抗网络的训练方法,其特征在于,所述生成对抗网络包括生成器和判别器,所述方法包括:
调用神经网络模型对样本音频进行处理,得到第一特征向量;
调用所述生成器对随机噪声进行处理,得到第二特征向量;
调用所述判别器对所述第一特征向量和所述第二特征向量分别进行判别,得到所述第一特征向量对应的判别结果和所述第二特征向量的判别结果;
基于所述判别结果,采用目标损失函数对所述神经网络模型、生成器和所述判别器进行交替训练,得到训练后的所述生成对抗网络。
2.根据权利要求1所述的方法,其特征在于,所述神经网络模型包括循环神经网络模型;
所述调用神经网络模型对样本音频进行处理,得到第一特征向量,包括:
将所述样本音频按照时域划分为n个音频片段,n为大于1的整数;
提取所述n个音频片段对应的特征序列;
调用所述循环神经网络模型对所述n个音频片段的特征序列进行处理,得到所述样本音频的所述第一特征向量。
3.根据权利要求2所述的方法,其特征在于,所述调用所述循环神经网络模型对所述n个音频片段的特征序列进行处理,得到所述样本音频的所述第一特征向量,包括:
调用所述循环神经网络对所述n个音频片段的特征序列依次编码,得到所述样本音频的所述第一特征向量。
4.根据权利要求2所述的方法,其特征在于,所述特征序列包括:与n个音频片段一一对应的n个频域向量,所述调用所述循环神经网络模型对所述n个音频片段的特征序列进行处理,得到所述样本音频的所述第一特征向量,包括:
将所述n个频域向量划分为至少两个连续片段组合,每个所述连续片段组合包括至少两个频域向量;
调用所述循环神经网络分别对所述至少两个连续片段组合进行编码,得到至少两个编码向量;
将所述至少两个编码向量进行池化处理,得到所述样本音频的所述第一特征向量。
5.根据权利要求4所述的方法,其特征在于,所述将所述至少两个编码向量进行池化处理,得到所述样本音频的所述第一特征向量,包括:
将所述至少两个编码向量进行最大化池化处理,得到所述样本音频的所述第一特征向量;
或,
将所述至少两个编码向量进行平均池化处理,得到所述样本音频的所述第一特征向量。
6.根据权利要求1至5任一所述的方法,其特征在于,所述生成器包括卷积神经网络;
所述调用所述生成器对随机噪声进行处理,得到第二特征向量,包括:
调用所述卷积神经网络对所述随机噪声的特征序列进行卷积处理,得到所述第二特征向量。
7.根据权利要求1至5任一所述的方法,其特征在于,所述基于所述判别结果,采用目标损失函数对所述神经网络模型、生成器和所述判别器进行交替训练,得到训练后的所述生成对抗网络,包括:
固定所述神经网络模型和所述生成器的网络参数,采用所述目标损失函数对所述判别器的网络参数进行训练,得到训练后的所述判别器;
固定所述判别器的网络参数,采用所述目标损失函数对所述神经网络模型和所述生成器的网络参数进行训练,得到训练后的所述神经网...
【专利技术属性】
技术研发人员:缪畅宇,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。