当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于语义空间扰动的语音识别模型安全性测评方法技术

技术编号:38860524 阅读:20 留言:0更新日期:2023-09-17 10:03
本发明专利技术公开了一种基于语义空间扰动的语音识别模型安全性测评方法,包括(1)选择目标指令,将指令文本输入给预训练语音合成模型获得命令的原始语义特征、原始梅尔频谱和原始对齐信息;(2)初始化特征扰动为0;(3)将特征扰动加到命令的原始语义特征上,将加扰后的语义特征输入给语音合成模型的解码器,获得新的梅尔频谱和新的对齐信息;(4)将获得的梅尔频谱进行模糊化,并输入声码器获得音频;(5)将音频输入给待测目标语音识别模型获得识别结果;(6)如果识别结果和目标命令相同则保留音频;(7)计算损失并更新特征扰动;(8)回到步骤(3)直到扰动超过阈值或到达最大迭代次数;(9)检查最终是否通过步骤(6)保留了音频。终是否通过步骤(6)保留了音频。终是否通过步骤(6)保留了音频。

【技术实现步骤摘要】
一种基于语义空间扰动的语音识别模型安全性测评方法


[0001]本专利技术涉及语音识别模型安全性测评
,尤其是涉及一种基于语义空间扰动的语音识别模型安全性测评方法。

技术介绍

[0002]随着深度学习的快速发展,语音识别已经有了极高的准确率,当前智能设备普遍集成了语音控制功能。越来越多的用户也逐渐习惯通过语音与智能设备交互,享受免提的便利。
[0003]智能手机、智能音箱、汽车等智能设备都采用了语音助手(Voice assistant, VA)功能,使其变成了语音控制的设备。
[0004]语音控制设备的普及带来了安全风险。智能设备以语音命令作为输入来执行操作,包括安全和安全关键任务,例如热调节、在线支付,甚至自动驾驶。
[0005]但研究表明语音识别模型和人耳听觉之间存在一些差异。2016年Carlini等探索了一种隐式的语音命令,生成了一种人耳难以理解,但语音识别模型能正确识别的音频指令,揭示了人耳和模型之间存在的听觉差异。近些年来,更多的研究工作通过对抗性音频技术已经实现了将恶意命令秘密注入语音控制设备。
[0006]2018年Carlini等提出了白盒场景下的语音对抗样本,这种音频可以在一段原始音频上添加特制的微小噪声,对人耳来说听起来还是原来的音频,但可以让语音识别模型识别成目标指令。这个工作进一步表明了语音识别模型与人耳理解之间的差异。进一步的,2020年Chen等探索了黑盒语音对抗样本的生成方法。与白盒不同的点在于,白盒方法需要知道模型的结构和参数,而黑盒方法仅需知道模型最后输出的结果。该方法将寻找语音识别模型缺陷的方法变得更加实际。2021年Zheng等、2022年Liu等进一步研究了黑盒语音对抗样本,并取得了更好的效果。
[0007]上述的各种方法虽然都可以寻找模型在识别方面的缺陷,但都不够实际。如隐式语音命令依赖MFCC和逆MFCC,需要手动调参和大量尝试;白盒对抗样本需要获得模型的全部信息;黑盒对抗样本需要大量问询黑盒模型,成本高昂。

技术实现思路

[0008]本专利技术的目的是提供一种基于语义空间扰动的语音识别模型安全性测评方法,能够生成人耳难以理解,但仍然有可能被语音识别模型所识别的音频。这类音频可能在用户感知不明显的情况下诱导语音助手执行有安全风险的语音命令,能够识别这类命令的语音识别模型存在安全风险,即本方法生成的音频能够用于对语音识别模型进行安全性测试。对比隐式语音命令,本方法在音频生成过程中引入了优化过程,可以更加准确地寻找目标音频。对比黑盒对抗样本,本方法问询次数更低,效率更高。同时本方法对数字域的语音识别API和物理域的语音助手提出了不同的优化方法。
[0009]为实现上述目的,本专利技术提供了一种基于语义空间扰动的语音识别模型安全性测
评方法,包括以下步骤:S1、获取选择目标指令,将指令文本输入给预训练好的语音合成模型Tacotron2,获得命令的原始语义特征、原始梅尔频谱和原始对齐信息并保留;其中,D表示语义特征的隐变量维度、表示文本序列的长度、表示原始梅尔频谱的帧数、80表示梅尔滤波器的个数、R为实数;S2、初始化特征扰动,如果针对数字域API则初始化为,如果针对物理域的语音助手则初始化N个扰动;其中,表示特征扰动;S3、将特征扰动加到命令的原始语义特征上,将加扰后的语义特征输入给Tacotron2的解码器,获得新的梅尔频谱和新的对齐信息,表示新的梅尔频谱的帧数;S4、将步骤S3获得的新的梅尔频谱进行模糊化操作,然后输入给预训练好的声码器,获得音频;S5、将步骤S4获得的音频输入给待测的目标语音识别模型,获得目标语音识别模型的识别结果,如果测试物理域的语音助手在将音频输入给目标语音识别模型前还需要叠加白噪声;S6、比较步骤S5的识别结果是否和步骤S1中选择的目标指令相同,如果相同并且特征扰动不为0则保留音频;S7、将步骤S3中解码器输出的新的梅尔频谱和步骤S1中保留的原始梅尔频谱计算损失,将步骤S3中解码器输出的新的对齐信息和步骤S1中保留的原始对齐信息计算损失;S8、利用梯度下降或粒子群算法更新步骤S2中的特征扰动;S9、如果更新后的扰动超出预设的阈值或到达最大迭代次数则流程停止,否则回到步骤S3;S10、流程停止后检查步骤S6是否保留了音频,如果保留则说明测试发现语音识别模型对这条目标指令的识别存在缺陷。
[0010]优选的,步骤S1中指令文本输入给语音合成模型Tacotron2的过程包括将文本输入给Tacotron2的编码器获得原始语义特征;将原始语义特征输入给Tacotron2的解码器获得原始梅尔频谱和原始对齐信息。
[0011]优选的,步骤S2中特征扰动是与语义特征形状相同的矩阵,N为20。
[0012]优选的,步骤S4中新的梅尔频谱的模糊化操作,包括以下步骤:S41、选定参数α,将新的梅尔频谱0~1025Hz部分乘上α;S42、选定参数γ,并从均匀分布U(

γ,γ)中采样和新的梅尔频谱形状相同的噪声,叠加到新的梅尔频谱上;S43、选定参数β,将新的梅尔频谱0~βHz部分置零;其中,α为0.25或0.3;γ为1或2;β为22Hz或45Hz。
[0013]优选的,步骤S5中,叠加白噪的方法为:选定参数η,将生成的音频幅值归一化到(

1,1),并加上最大幅值为η的白噪,然后将音频幅值还原;
其中,η为0.1或0.05。
[0014]优选的,步骤S6中,对比识别结果和命令是否相同的方法为计算识别结果和命令之间的字错率CER,公式如下: ;其中,S表示替换的字符数目,表示删除的字符数目,I表示插入的字符数目,表示参考序列的字符数目,即原命令的字符数目,CER=0表示两个文本序列相同。
[0015]优选的,步骤S7中,计算损失的方式为计算原始梅尔频谱和新的梅尔频谱的损失以及原始对齐信息和新对齐信息的损失,并将两者相加得到最终的损失;原始梅尔频谱和新的梅尔频谱的损失的计算方式为: ;其中,表示新的梅尔频谱中的第i个值,表示原始梅尔频谱中的第i个值,表示原始梅尔频谱中值的总数;原始对齐信息和新对齐信息的损失计算方式为: ;其中表示第t帧输出终止的概率,表示实际终止的概率;原始梅尔频谱的最后一帧终止概率为1,其余都为0;表示原始梅尔频谱的帧数;Sigmoid()表示Sigmoid激活函数,表示方式如下:。
[0016]优选的,步骤S8中,梯度下降适用于测试数字域API,更新特征扰动的方式为: ;其中,表示特征扰动,表示学习率;表示最终的损失。
[0017]优选的,步骤S8中,粒子群优化适用于测试物理场景的语音助手,更新特征扰动的方式为: ; ;其中,表示第i个扰动的第j个值;表示第i个扰动的第j个值的速度,初始为0;表示第i个扰动的历史最优值的第j个值;表示所有扰动的历史最优值的第j个值;为惯性权重;和为两个加速度常数;和为两个0到1之间的服从均匀分布的数。
[0018]优选的,步骤S9中,阈值为0.4。
[0019]因此,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义空间扰动的语音识别模型安全性测评方法,其特征在于,包括以下步骤:S1、获取选择目标指令,将指令文本输入给预训练好的语音合成模型Tacotron2,获得命令的原始语义特征 、原始梅尔频谱和原始对齐信息并保留;其中,D表示语义特征的隐变量维度、表示文本序列的长度、表示原始梅尔频谱的帧数、80表示梅尔滤波器的个数、R为实数;S2、初始化特征扰动,如果针对数字域API则初始化为,如果针对物理域的语音助手则初始化N个扰动;其中,表示特征扰动;S3、将特征扰动加到命令的原始语义特征上,将加扰后的语义特征输入给Tacotron2的解码器,获得新的梅尔频谱和新的对齐信息,表示新的梅尔频谱的帧数;S4、将步骤S3获得的新的梅尔频谱进行模糊化操作,然后输入给预训练好的声码器,获得音频;S5、将步骤S4获得的音频输入给待测的目标语音识别模型,获得目标语音识别模型的识别结果,如果测试物理域的语音助手在将音频输入给目标语音识别模型前还需要叠加白噪声;S6、比较步骤S5的识别结果是否和步骤S1中选择的目标指令相同,如果相同并且特征扰动不为0则保留音频;S7、将步骤S3中解码器输出的新的梅尔频谱和步骤S1中保留的原始梅尔频谱计算损失,将步骤S3中解码器输出的新的对齐信息和步骤S1中保留的原始对齐信息计算损失;S8、利用梯度下降或粒子群算法更新步骤S2中的特征扰动;S9、如果更新后的扰动超出预设的阈值或到达最大迭代次数则流程停止,否则回到步骤S3;S10、流程停止后检查步骤S6是否保留了音频,如果保留则说明测试发现语音识别模型对这条目标指令的识别存在缺陷。2.根据权利要求1所述的一种基于语义空间扰动的语音识别模型安全性测评方法,其特征在于,步骤S1中指令文本输入给语音合成模型Tacotron2的过程包括将文本输入给Tacotron2的编码器获得原始语义特征;将原始语义特征输入给Tacotron2的解码器获得原始梅尔频谱和原始对齐信息。3.根据权利要求1所述的一种基于语义空间扰动的语音识别模型安全性测评方法,其特征在于,步骤S2中特征扰动是与语义特征形状相同的矩阵,N为20。4.根据权利要求1所述的一种基于语义空间扰动的语音识别模型安全性测评方法,其特征在于,步骤S4中新的梅尔频谱的模糊化操作,包括以下步骤:S41、选定参数α,将新的梅尔频谱0~1025Hz部分乘上α;S42、选定参数γ,并从均匀分布U(

γ,γ)中采样和新的梅尔频谱形状...

【专利技术属性】
技术研发人员:巴钟杰王宇炜程鹏黄鹏林峰卢立任奎
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1