一种基于语义空间扰动的语音识别模型安全性测评方法技术

技术编号：38860524 阅读：20 留言：0更新日期：2023-09-17 10:03

本发明专利技术公开了一种基于语义空间扰动的语音识别模型安全性测评方法，包括（1）选择目标指令，将指令文本输入给预训练语音合成模型获得命令的原始语义特征、原始梅尔频谱和原始对齐信息；（2）初始化特征扰动为0；（3）将特征扰动加到命令的原始语义特征上，将加扰后的语义特征输入给语音合成模型的解码器，获得新的梅尔频谱和新的对齐信息；（4）将获得的梅尔频谱进行模糊化，并输入声码器获得音频；（5）将音频输入给待测目标语音识别模型获得识别结果；（6）如果识别结果和目标命令相同则保留音频；（7）计算损失并更新特征扰动；（8）回到步骤（3）直到扰动超过阈值或到达最大迭代次数；（9）检查最终是否通过步骤（6）保留了音频。终是否通过步骤（6）保留了音频。终是否通过步骤（6）保留了音频。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语义空间扰动的语音识别模型安全性测评方法

[0001]本专利技术涉及语音识别模型安全性测评
，尤其是涉及一种基于语义空间扰动的语音识别模型安全性测评方法。

技术介绍

[0002]随着深度学习的快速发展，语音识别已经有了极高的准确率，当前智能设备普遍集成了语音控制功能。越来越多的用户也逐渐习惯通过语音与智能设备交互，享受免提的便利。
[0003]智能手机、智能音箱、汽车等智能设备都采用了语音助手（Voice assistant， VA）功能，使其变成了语音控制的设备。
[0004]语音控制设备的普及带来了安全风险。智能设备以语音命令作为输入来执行操作，包括安全和安全关键任务，例如热调节、在线支付，甚至自动驾驶。
[0005]但研究表明语音识别模型和人耳听觉之间存在一些差异。2016年Carlini等探索了一种隐式的语音命令，生成了一种人耳难以理解，但语音识别模型能正确识别的音频指令，揭示了人耳和模型之间存在的听觉差异。近些年来，更多的研究工作通过对抗性音频技术已经实现了将恶意命令秘密注入语音控制设备。
[0006]2018年Carlini等提出了白盒场景下的语音对抗样本，这种音频可以在一段原始音频上添加特制的微小噪声，对人耳来说听起来还是原来的音频，但可以让语音识别模型识别成目标指令。这个工作进一步表明了语音识别模型与人耳理解之间的差异。进一步的，2020年Chen等探索了黑盒语音对抗样本的生成方法。与白盒不同的点在于，白盒方法需要知道模型的结构和参数，而黑盒方法仅需知道模...

【技术保护点】

【技术特征摘要】
1.一种基于语义空间扰动的语音识别模型安全性测评方法，其特征在于，包括以下步骤：S1、获取选择目标指令，将指令文本输入给预训练好的语音合成模型Tacotron2，获得命令的原始语义特征、原始梅尔频谱和原始对齐信息并保留；其中，D表示语义特征的隐变量维度、表示文本序列的长度、表示原始梅尔频谱的帧数、80表示梅尔滤波器的个数、R为实数；S2、初始化特征扰动，如果针对数字域API则初始化为，如果针对物理域的语音助手则初始化N个扰动；其中，表示特征扰动；S3、将特征扰动加到命令的原始语义特征上，将加扰后的语义特征输入给Tacotron2的解码器，获得新的梅尔频谱和新的对齐信息，表示新的梅尔频谱的帧数；S4、将步骤S3获得的新的梅尔频谱进行模糊化操作，然后输入给预训练好的声码器，获得音频；S5、将步骤S4获得的音频输入给待测的目标语音识别模型，获得目标语音识别模型的识别结果，如果测试物理域的语音助手在将音频输入给目标语音识别模型前还需要叠加白噪声；S6、比较步骤S5的识别结果是否和步骤S1中选择的目标指令相同，如果相同并且特征扰动不为0则保留音频；S7、将步骤S3中解码器输出的新的梅尔频谱和步骤S1中保留的原始梅尔频谱计算损失，将步骤S3中解码器输出的新的对齐信息和步骤S1中保留的原始对齐信息计算损失；S8、利用梯度下降或粒子群算法更新步骤S2中的特征扰动；S9、如果更新后的扰动超出预设的阈值或到达最大迭代次数则流程停止，否则回到步骤S3；S10、流程停止后检查步骤S6是否保留了音频，如果保留则说明测试发现语音识别模型对这条目标指令的识别存在缺陷。2.根据权利要求1所述的一种基于语义空间扰动的语音识别模型安全性测评方法，其特征在于，步骤S1中指令文本输入给语音合成模型Tacotron2的过程包括将文本输入给Tacotron2的编码器获得原始语义特征；将原始语义特征输入给Tacotron2的解码器获得原始梅尔频谱和原始对齐信息。3.根据权利要求1所述的一种基于语义空间扰动的语音识别模型安全性测评方法，其特征在于，步骤S2中特征扰动是与语义特征形状相同的矩阵，N为20。4.根据权利要求1所述的一种基于语义空间扰动的语音识别模型安全性测评方法，其特征在于，步骤S4中新的梅尔频谱的模糊化操作，包括以下步骤：S41、选定参数α，将新的梅尔频谱0~1025Hz部分乘上α；S42、选定参数γ，并从均匀分布U（
‑
γ，γ）中采样和新的梅尔频谱形状...

【专利技术属性】
技术研发人员：巴钟杰，王宇炜，程鹏，黄鹏，林峰，卢立，任奎，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人