音频对抗样本生成方法、装置、设备及存储介质制造方法及图纸

技术编号：38487479 阅读：11 留言：0更新日期：2023-08-15 17:02

本发明专利技术公开了一种音频对抗样本生成方法、装置、设备及存储介质，方法包括：获取文本信息及噪声；将文本信息输入至随机时长预测器得到每一个文本的时长信息，根据时长信息与噪声进行对齐，得到对齐结果；将文本信息和对齐结果输入至先验编码器中，以编码得到中间特征；将中间特征及噪声输入至条件分布生成器，以噪声作为条件，经过多个并行的长短期记忆网络和全连接层，获得在噪声条件下，多个关于中间特征的帧级别分布；将分布经过flow层转换为与音频帧后验分布的近似分布，并采样出隐变量；对隐变量进行解码得到音频对抗样本。本发明专利技术利用分布采样原理条件的将噪声添加到人耳听不到的领域，使得生成的音频对抗样本更好的达到欺骗人耳的效果。人耳的效果。人耳的效果。

全部详细技术资料下载

【技术实现步骤摘要】
音频对抗样本生成方法、装置、设备及存储介质

[0001]本专利技术属于语音
，具体涉及一种音频对抗样本生成方法、装置、设备及存储介质。

技术介绍

[0002]随着人工智能技术的不断发展，越来越多的基于人工智能技术的应用被广泛使用在了生活中，例如语音识别已经被广泛的应用于人们生活和工作当中，为人们的生活工作带来极大的便利。
[0003]然而语音识别也存在风险，例如，容易遭受音频对抗样本的攻击。音频对抗样本是一种在原始音频上叠加一个扰动，造成人工智能模型识别的结果出错的一种攻击方式，音频对抗样本甚至可以改变现代自动语音识别系统(ASR)的识别结果,可对语音识别系统造成安全威胁。因此，如何检测各种各样的音频对抗样本是一个紧迫的研究课题。
[0004]在通过人工智能模型识别检测各种各样的音频对抗样本之前，生成自然度高的音频对抗样本至关重要度。VITS(Variational Inference with adversarial learning for end
‑
to
‑
endText
‑
to
‑
Speech)是一种结合变分推理(variational inference)、标准化流(normalizing flows)和对抗训练的高表现力语音合成模型。VITS通过隐变量而非频谱串联起来语音合成中的声学模型和声码器，在隐变量上进行随机建模并利用随机时长预测器，提高了合成语音的多样性，输入同样的文本，能够合成不同声调和韵律的语音。r/>[0005]然而，VITS在将文本转换为音频时，是将噪声直接添加到音频当中，虽然能容易生成音频对抗样本，但显而易见的降低人耳听感。

技术实现思路

[0006]有鉴于此，本专利技术的目的在于提供一种音频对抗样本生成方法、装置、设备及存储介质，以改善上述问题。
[0007]为了达到上述目的，本专利技术提供以下技术方案：
[0008]一种音频对抗样本生成方法，其包括：
[0009]获取待处理的文本信息以及噪声；
[0010]将所述文本信息输入至随机时长预测器得到每一个文本的时长信息，并根据每一个文本的时长信息与噪声进行对齐，得到对齐结果；
[0011]将所述文本信息和对齐结果输入至先验编码器中，以根据所述文本信息以及所述对齐结果进行编码得到中间特征；
[0012]将所述中间特征以及所述噪声输入至条件分布生成器，以噪声作为条件，经过多个并行的长短期记忆网络和全连接层，对中间特征的帧级别信息进行建模，获得在噪声条件下，多个关于中间特征的帧级分布；
[0013]将所述分布经过flow层转换为音频后验分布的近似分布，并从所述近似分布中采样出隐变量；
[0014]对所述隐变量进行解码得到音频对抗样本。
[0015]优选地，所述噪声为低频扰动信号，且以帧级别，在帧非重叠区域添加所述噪声；其中，在通过滑动窗口进行语音帧的切分时，每滑动一次窗口都与上一帧有部分重叠，这一部分为该帧的重叠区域，剩余部分即为非重叠区域。
[0016]优选地，在条件分布生成器，所述条件提取设定，且通过获取噪声先验分布的表征，优化分布采样的变分条件下界；所述表征包括均值与方差。
[0017]优选地，将所述中间特征以及所述噪声输入至条件分布生成器，以噪声作为条件，经过多个并行的长短期记忆网络和全连接层，对中间特征的帧级别信息进行建模，获得在噪声条件下，多个关于中间特征的帧级分布；具体为：
[0018]将所述中间特征以及所述噪声输入至条件分布生成器，将噪声作为条件，对中间特征的N个子特征，即N个帧级别信息分开求解其分布，每一个帧级别信息对应一个将要生成的语音帧；
[0019]分别将噪声的每一个帧级扰动作为label与对应的一个帧级别信息相加输入一个长短期记忆网络，每个长短期记忆网络后接一个全连接层，最终得到N个并行的结构，输出N个帧级别信息的均值与方差，最终获得在噪声条件下，多个关于中间特征的帧级别分布。
[0020]优选地，还包括：
[0021]将所述文本信息输入至特征预测器，以从所述文本信息的上下文中提取不同层级的语义信息；
[0022]以残差连接的方式依次预测各个层级的说话风格表征；
[0023]将所述说话风格表征添加至所述隐变量中，以更新所述隐变量。
[0024]优选地，所述特征预测器通过知识蒸馏训练获得。
[0025]优选地，还包括：
[0026]将所述音频对抗样本的多级特征传递到判别器进行判别。
[0027]本专利技术实施例还提供了一种音频对抗样本生成装置，其包括：
[0028]信息获取单元，用于获取待处理的文本信息以及噪声；
[0029]对齐单元，用于将所述文本信息输入至随机时长预测器得到每一个文本的时长信息，并根据每一个文本的时长信息与噪声进行对齐，得到对齐结果；
[0030]编码单元，用于将所述文本信息和对齐结果输入至先验编码器中，以根据所述文本信息以及所述对齐结果进行编码得到中间特征；
[0031]条件分布单元，用于将所述中间特征以及所述噪声输入至条件分布生成器，以噪声作为条件，经过多个并行的长短期记忆网络和全连接层，对中间特征的帧级信息分开建模，获得在噪声条件下，多个关于中间特征的帧级别分布；
[0032]分布转换单元，用于将所述的帧级别分布经过flow层转换为与音频后验分布的近似分布，并从所述近似分布中采样出隐变量；
[0033]解码单元，用于对所述隐变量进行解码得到音频对抗样本。
[0034]本专利技术实施例还提供了一种音频对抗样本生成设备，其包括存储器以及处理器，所述存储器内存储有计算机程序，所述计算机程序能够被所述处理器执行，以实现如上述的音频对抗样本生成方法。
[0035]本专利技术实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计
算机程序能够被所述处理器执行，以实现如上述的音频对抗样本生成方法。
[0036]综上所述，本实施例中，利用分布采样原理条件的将噪声添加到人耳听不到的领域，使得生成了音频对抗样本能够更好的达到欺骗人耳的效果，从而提高了音频对抗样本的自然度和隐蔽性。
附图说明
[0037]图1是本专利技术第一实施例提供的音频对抗样本生成方法的流程示意图。
[0038]图2是本专利技术第一实施例的音频对抗样本生成方法的工作原理图。
[0039]图3是本专利技术第二实施例提供的音频对抗样本生成装置的结构示意图。
具体实施方式
[0040]下面结合具体实施例和附图对本专利技术方案作进一步的阐述。
[0041]请参阅图1，本专利技术第一实施例提供了一种音频对抗样本生成方法，其可由音频对抗样本生成设备(以下简称生成设备)来执行，特别的，由所述生成设备内的一个或者多个处理器来执行，以实现如下步骤：
[0042]S101，获取待处理的文本信息以及噪声。
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音频对抗样本生成方法，其特征在于，包括：获取待处理的文本信息以及噪声；将所述文本信息输入至随机时长预测器得到每一个文本的时长信息，并根据每一个文本的时长信息与噪声进行对齐，得到对齐结果；将所述文本信息和对齐结果输入至先验编码器中，以根据所述文本信息以及所述对齐结果进行编码得到中间特征；将所述中间特征以及所述噪声输入至条件分布生成器，以噪声作为条件，经过多个并行的长短期记忆网络和全连接层，对中间特征的帧级别信息进行建模，获得在噪声条件下，多个关于中间特征的帧级别分布；将所述帧级别分布经过flow层转换为与音频后验分布的近似分布，并从所述近似分布中采样出隐变量；对所述隐变量进行解码得到音频对抗样本。2.根据权利要求1所述的音频对抗样本生成方法，其特征在于，所述噪声为低频扰动信号，且以帧级别，在帧非重叠区域添加所述噪声；其中，在通过滑动窗口进行语音帧的切分时，每滑动一次窗口都与上一帧有部分重叠，这一部分为该帧的重叠区域，剩余部分即为非重叠区域。3.根据权利要求1所述的音频对抗样本生成方法，其特征在于，在条件分布生成器，所述条件提前设定，且通过获取噪声先验分布的表征，优化分布采样的变分条件下界；所述表征包括均值与方差。4.根据权利要求1所述的音频对抗样本生成方法，其特征在于，将所述中间特征以及所述噪声输入至条件分布生成器，以噪声作为条件，经过多个并行的长短期记忆网络和全连接层，对中间特征的帧级别信息进行建模，获得在噪声条件下，多个关于中间特征的帧级分布；具体为：将所述中间特征以及所述噪声输入至条件分布生成器，将噪声作为条件，对中间特征的N个子特征，即N个帧级别信息分开求解其分布，每一个帧级别信息对应一个将要生成的语音帧；分别将噪声的每一个帧级扰动作为label与对应的一个帧级别信息相加输入一个长短期记忆网络，每个长短期记忆网络后接一个全连接层，最终得到N个并行的结构，输出N个帧级...

【专利技术属性】
技术研发人员：温正棋，戚鑫，
申请(专利权)人：中科极限元杭州智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人