生成对抗网络的训练方法、生成方法、装置、设备及介质制造方法及图纸

技术编号:24997399 阅读:21 留言:0更新日期:2020-07-24 17:59
本申请公开了一种生成对抗网络的训练方法、音频的特征向量生成方法、装置、设备及介质,所述方法包括:调用神经网络模型对样本音频进行处理,得到第一特征向量;调用所述生成器对随机噪声进行处理,得到第二特征向量;调用所述判别器对所述第一特征向量和所述第二特征向量分别进行判别,得到所述第一特征向量对应的判别结果和所述第二特征向量的判别结果;基于所述判别结果,采用目标损失函数对所述神经网络模型、生成器和所述判别器进行交替训练,得到训练后的所述生成对抗网络。

【技术实现步骤摘要】
生成对抗网络的训练方法、生成方法、装置、设备及介质
本申请实施例涉及多媒体
,特别涉及一种生成对抗网络的训练方法、音频的特征向量生成方法、装置、设备及介质。
技术介绍
采用机器学习模型对音频特征进行处理时,需要提取向量形式的音频特征。相关技术中提供了一种音频的特征向量生成方法,对音频的时频特征进行单纯音频信号维度的特征提取,得到音频的特征向量。上述方法提取到的特征向量只有粗粒度的特征表示能力。
技术实现思路
本申请实施例提供了一种音频特征的提取方法、装置、计算机设备及存储介质,对音频提取到的特征向量能够表征音频的细节特征,具有细粒度的特征表示能力。所述技术方案如下:根据本申请的一个方面,提供了一种生成对抗网络的训练方法,所述生成对抗网络包括生成器和判别器,所述方法包括:调用神经网络模型对样本音频进行处理,得到第一特征向量;调用所述生成器对随机噪声进行处理,得到第二特征向量;调用所述判别器对所述第一特征向量和所述第二特征向量分别进行判别,得到所述第一特征向量对应的判别结果和所述第二特征向量的判别结果;基于所述判别结果,采用目标损失函数对所述神经网络模型、生成器和所述判别器进行交替训练,得到训练后的所述生成对抗网络。根据本申请的另一方面,提供了一种音频的特征向量生成方法,所述方法包括:获取音频;提取所述音频的特征序列;调用生成对抗网络中的生成器对所述音频的特征序列进行处理,得到所述音频的特征向量;r>其中,所述生成对抗网络是采用神经网络模型对样本音频提取到的第一特征向量作为真实数据,结合判别器训练得到的。根据本申请的另一方面,提供了一种生成对抗网络的训练装置,所述生成对抗网络包括生成器和判别器,所述装置包括:调用模块,用于调用神经网络模型对样本音频进行处理,得到第一特征向量;所述调用模块,还用于调用所述生成器对随机噪声进行处理,得到第二特征向量;所述调用模块,还用于调用所述判别器对所述第一特征向量和所述第二特征向量分别进行判别,得到所述第一特征向量对应的判别结果和所述第二特征向量的判别结果;训练模块,还用于基于所述判别结果,采用目标损失函数对所述神经网络模型、生成器和所述判别器进行交替训练,得到训练后的所述生成对抗网络。根据本申请的另一方面,提供了一种音频的特征向量生成装置,所述装置包括:获取模块,用于获取音频;提取模块,用于提取所述音频的特征序列;调用模块,用于调用生成对抗网络中的生成器对所述音频的特征序列进行处理,得到所述音频的特征向量;其中,所述生成对抗网络是采用神经网络模型对样本音频提取到的第一特征向量作为真实数据,结合判别器训练得到的。另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的生成对抗网络的训练方法,或,如上述方面所述的音频的特征向量生成方法。另一方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的生成对抗网络的训练方法,或,如上述方面所述的音频的特征向量生成方法。另一方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如上述方面所述的生成对抗网络的训练方法,或,如上述方面所述的音频的特征向量生成方法。本申请实施例提供的技术方案带来的有益效果至少包括:通过将神经网络模型对样本音频提取的第一特征向量作为真实数据,而非直接使用样本音频的特征序列来作为真实数据,使得生成对抗网络在训练阶段尽可能多地学习到细节表达能力,从而在音频的特征向量的生成过程中,能够生成出具有细粒度的特征表达能力的特征向量,提升特征向量的表达能力。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请一个示例性实施例提供的生成对抗网络的原理示意图;图2是本申请一个示例性实施例提供的生成对抗网络的训练方法的原理示意图;图3示出了本申请一个示例性实施例提供的生成对抗网络的训练方法的流程图;图4示出了本申请一个示例性实施例提供的生成对抗网络的训练方法的流程图;图5示出了本申请一个示例性实施例提供的生成第一特征向量的原理示意图;图6示出了本申请一个示例性实施例提供的生成第一特征向量的原理示意图;图7示出了本申请一个示例性实施例提供的音频的特征向量生成方法的流程图;图8示出了本申请一个示例性实施例提供的音频的特征序列的原理示意图;图9示出了本申请一个示例性实施例提供的在音频推荐场景下的场景示意图;图10示出了本申请一个示例性实施例提供的在音频打分场景下的场景示意图;图11示出了本申请一个示例性实施例提供的生成对抗网络的训练装置的框图;图12是本申请一个示例性实施例提供的音频的特征向量生成装置的结构框图;图13示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。首先,对本申请实施例中涉及的名词进行简单介绍:人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本文档来自技高网...

【技术保护点】
1.一种生成对抗网络的训练方法,其特征在于,所述生成对抗网络包括生成器和判别器,所述方法包括:/n调用神经网络模型对样本音频进行处理,得到第一特征向量;/n调用所述生成器对随机噪声进行处理,得到第二特征向量;/n调用所述判别器对所述第一特征向量和所述第二特征向量分别进行判别,得到所述第一特征向量对应的判别结果和所述第二特征向量的判别结果;/n基于所述判别结果,采用目标损失函数对所述神经网络模型、生成器和所述判别器进行交替训练,得到训练后的所述生成对抗网络。/n

【技术特征摘要】
1.一种生成对抗网络的训练方法,其特征在于,所述生成对抗网络包括生成器和判别器,所述方法包括:
调用神经网络模型对样本音频进行处理,得到第一特征向量;
调用所述生成器对随机噪声进行处理,得到第二特征向量;
调用所述判别器对所述第一特征向量和所述第二特征向量分别进行判别,得到所述第一特征向量对应的判别结果和所述第二特征向量的判别结果;
基于所述判别结果,采用目标损失函数对所述神经网络模型、生成器和所述判别器进行交替训练,得到训练后的所述生成对抗网络。


2.根据权利要求1所述的方法,其特征在于,所述神经网络模型包括循环神经网络模型;
所述调用神经网络模型对样本音频进行处理,得到第一特征向量,包括:
将所述样本音频按照时域划分为n个音频片段,n为大于1的整数;
提取所述n个音频片段对应的特征序列;
调用所述循环神经网络模型对所述n个音频片段的特征序列进行处理,得到所述样本音频的所述第一特征向量。


3.根据权利要求2所述的方法,其特征在于,所述调用所述循环神经网络模型对所述n个音频片段的特征序列进行处理,得到所述样本音频的所述第一特征向量,包括:
调用所述循环神经网络对所述n个音频片段的特征序列依次编码,得到所述样本音频的所述第一特征向量。


4.根据权利要求2所述的方法,其特征在于,所述特征序列包括:与n个音频片段一一对应的n个频域向量,所述调用所述循环神经网络模型对所述n个音频片段的特征序列进行处理,得到所述样本音频的所述第一特征向量,包括:
将所述n个频域向量划分为至少两个连续片段组合,每个所述连续片段组合包括至少两个频域向量;
调用所述循环神经网络分别对所述至少两个连续片段组合进行编码,得到至少两个编码向量;
将所述至少两个编码向量进行池化处理,得到所述样本音频的所述第一特征向量。


5.根据权利要求4所述的方法,其特征在于,所述将所述至少两个编码向量进行池化处理,得到所述样本音频的所述第一特征向量,包括:
将所述至少两个编码向量进行最大化池化处理,得到所述样本音频的所述第一特征向量;
或,
将所述至少两个编码向量进行平均池化处理,得到所述样本音频的所述第一特征向量。


6.根据权利要求1至5任一所述的方法,其特征在于,所述生成器包括卷积神经网络;
所述调用所述生成器对随机噪声进行处理,得到第二特征向量,包括:
调用所述卷积神经网络对所述随机噪声的特征序列进行卷积处理,得到所述第二特征向量。


7.根据权利要求1至5任一所述的方法,其特征在于,所述基于所述判别结果,采用目标损失函数对所述神经网络模型、生成器和所述判别器进行交替训练,得到训练后的所述生成对抗网络,包括:
固定所述神经网络模型和所述生成器的网络参数,采用所述目标损失函数对所述判别器的网络参数进行训练,得到训练后的所述判别器;
固定所述判别器的网络参数,采用所述目标损失函数对所述神经网络模型和所述生成器的网络参数进行训练,得到训练后的所述神经网...

【专利技术属性】
技术研发人员:缪畅宇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1