一种用户语音隐私保护方法及系统技术方案

技术编号:38033322 阅读:12 留言:0更新日期:2023-06-30 10:59
本发明专利技术公开了一种用户语音隐私保护方法及系统,自动开始/停止播放生成的对抗扰动音频以欺骗语音助手,同时不影响用户唤醒语音助手与其交互,对抗扰动音频由本发明专利技术提出的基于强化学习的黑盒对抗攻击模型离线生成;本发明专利技术使用Raspberry PI进行系统原型搭建,并针对商用语音助手进行了相关实验;成本低,易于部署,且能在尽量不影响用户体验的情况下较好地保护用户语音隐私。护用户语音隐私。护用户语音隐私。

【技术实现步骤摘要】
一种用户语音隐私保护方法及系统


[0001]本专利技术属于语音识别
,具体涉及一种用户语音隐私保护方法及系统。

技术介绍

[0002]如今,语音已成为一种广泛使用的人机交互手段,尤其是在智能家居、智能汽车等场景的智能终端中。语音识别技术是语音交互的基础,它可以将人类的语音转换为计算机可识别的文本,从而实现人机交互。语音识别技术的发展,使得人机交互更加便捷,但同时也带来了一些安全隐私问题。例如,当用户使用语音助手时,用户的语音信息会被发送到云端,云端的语音识别系统会将语音信息转换为文本信息并进行语义理解,随后对用户进行应答。然而,用户的私人语音谈话也会被云端的语音识别系统所获取,从而带来严重的隐私安全问题。因此,如何保护用户的语音隐私就成为了一个重要的问题。
[0003]现有的语音隐私保护技术主要基于两种思路,一种是直接对物理设备进行攻击,一种是对语音识别模型进行攻击。
[0004]对物理设备进行攻击的方法主要是通过对麦克风进行攻击,例如通过对麦克风发送噪音(如超高能量的超声波)使其达到声学过载点(AOP),进而使其录制的声音严重失真,以达到保护用户隐私的目的。但是,这种方法的缺点是,其所使用的超声波虽然人听不到,但对于听觉敏感的动物(例如猫、狗等)是可听的。此外,这类方法的实现需要依赖一个额外的麦克风,用于判断当前用户是否正在说话,从而控制噪音的发送与停止,该方案并没有从根本上解决语音隐私保护的问题,因为用户不能完全信任新加入的麦克风。
[0005]对语音识别模型进行攻击的方法使用对抗样本技术。语音对抗样本在原始语音基础上生成,通过对原始语音进行微小改变,使得用户不可分辨,但使语音识别模型将其识别为其他语音,从而达到保护用户隐私的目的。然而,现有的通用对抗样本生成方法都是基于白盒的,即需要知道被攻击模型的内部结构,才能生成对抗样本。而现有的基于黑盒的对抗样本生成方法均只能生成非通用的对抗样本,即对于每一条语音都需要生成一个对抗样本,这在现实中显然是不可接受的。

技术实现思路

[0006]本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种用户语音隐私保护方法及系统,用于解决用户语音信息被云端获取造成隐私不安全的技术问题。
[0007]本专利技术采用以下技术方案:
[0008]一种用户语音隐私保护方法,包括以下步骤:
[0009]S1、收集唤醒词语音并以相应格式处理为唤醒词语音数据库,同时准备通用语音数据库;
[0010]S2、生成一个初始对抗扰动音频,经预处理后输入强化学习模型中,使用步骤S1得到的唤醒词语音数据库和通用语音数据库对强化学习模型进行训练,对训练得到的对抗扰动音频频谱进行逆短时傅里叶变换,得到一个基于黑盒,通用与非同步的对抗扰动音频;
[0011]S3、初始化语音助手设备,运行语音助手设备上部署的树莓派,针对对应语音助手播放步骤S2得到的对抗扰动音频,并侦测语音助手设备的激活状态,根据激活状态控制对抗扰动音频的播放与暂停,实现用户语音隐私保护。
[0012]具体的,步骤S2具体为:
[0013]S201、随机生成一个长度为1s的初始扰动音频δ,并将初始扰动音频δ进行短时傅立叶变换,对得到的初始扰动音频δ频谱进行裁剪处理,保留频谱中小于4000Hz的部分作为强化学习模型中环境env的初始状态S
TF

[0014]S202、将步骤S201得到的初始状态S
TF
切分为多个小正方形块,然后输入智能体agent中,让智能体agent对初始状态S
TF
进行修改处理后得到频谱图S

TF

[0015]S203、使用O值补全步骤S202得到的频谱图S

TF
的高频信息,并进行逆短时傅立叶变换,得到扰动音频δ

,将扰动音频δ

与初始扰动音频δ分别输入回报计算模块,回报计算模块根据δ与δ

在步骤S1得到的唤醒词语音数据库和通用语音数据库的表现,得到回报值R1和R2,将R1与R2相减后得到回报差值,即环境env对智能体agent所采取行为的回报r
pseudo

[0016]S204、当回报值R2大于所设阈值时,将δ

作为生成的对抗扰动输出;
[0017]S205、当回报值R2小于所设阈值时,使用智能体agent与环境env的交互数据S
TF
,S

TF
,r
pseudo
对智能体agent进行训练,更新智能体agent的算法与参数;
[0018]S206、再次随机生成一个长度为1s的扰动音频δ
new
,按照1

r
pseudo
与r
pseudo
的概率从δ
new
和δ

中选择一个作为下一轮次的扰动音频δ,并返回步骤S201。
[0019]进一步的,步骤S202中,智能体agent包括表演者网络和评价者网络,表演者网络用于生成对抗扰动,评价者网络用于评价对抗扰动的质量;表演者网络和评价者网络均由Transformer网络组成,表演者网络和评价者网络共享位置编码器与Transformer网络的编码器部分,表演者网络的解码器部分用于生成对抗扰动,评价者网络的解码器部分用于评价对抗扰动的质量。
[0020]更进一步的,智能体agent的构建过程如下:
[0021]S2021、将网络的输入,按照切分前的位置进行位置编码,得到位置编码后的数据进行重新拉平,作为下一步的输入;
[0022]S2022、从位置编码后的输入数据中,随机选择出一部分作为待表演者网络修改的数据;
[0023]S2023、将步骤S2021中得到的位置编码后的数据与S2022中得到的待表演者网络修改的数据分别作为表演者网络的编码器与解码器的输入,得到表演者网络的输出,即S2022中待表演者网络修改数据的修改结果,使用其替换原数据中对应位置的数据,得到新的数据;
[0024]S2024、将S2023得到的输出,进行与S2021中一致的位置编码,得到位置编码后的数据进行重新拉平,作为下一步的输入;
[0025]S2025、将S2021中得到的位置编码后的数据与S2024中得到的位置编码后的数据分别作为评价者网络的编码器与解码器的输入,再将输出通过一个全连接层,得到评价者网络的输出,即评价者网络对表演者网络此次输出的评价;
[0026]S2026、将S2025中得到的评价者网络的输出,与实际通过语音识别模型或接口得到的评价结果进行比较,得到评价者网络的损失函数和表演者网络的损失函数。
[0027]再进一步的,评价者网络的损失函数l
critic
为:
[0028][0029]其中,score本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户语音隐私保护方法,其特征在于,包括以下步骤:S1、收集唤醒词语音并以相应格式处理为唤醒词语音数据库,同时准备通用语音数据库;S2、生成一个初始对抗扰动音频,经预处理后输入强化学习模型中,使用步骤S1得到的唤醒词语音数据库和通用语音数据库对强化学习模型进行训练,对训练得到的对抗扰动音频频谱进行逆短时傅里叶变换,得到一个基于黑盒,通用与非同步的对抗扰动音频;S3、初始化语音助手设备,运行语音助手设备上部署的树莓派,针对对应语音助手播放步骤S2得到的对抗扰动音频,并侦测语音助手设备的激活状态,根据激活状态控制对抗扰动音频的播放与暂停,实现用户语音隐私保护。2.根据权利要求1所述的用户语音隐私保护方法,其特征在于,步骤S2具体为:S201、随机生成一个长度为1s的初始扰动音频δ,并将初始扰动音频δ进行短时傅立叶变换,对得到的初始扰动音频δ频谱进行裁剪处理,保留频谱中小于4000Hz的部分作为强化学习模型中环境env的初始状态S
TF
;S202、将步骤S201得到的初始状态S
TF
切分为多个小正方形块,然后输入智能体agent中,让智能体agent对初始状态S
TF
进行修改处理后得到频谱图S

TF
;S203、使用0值补全步骤S202得到的频谱图S

TF
的高频信息,并进行逆短时傅立叶变换,得到扰动音频δ

,将扰动音频δ

与初始扰动音频δ分别输入回报计算模块,回报计算模块根据δ与δ

在步骤S1得到的唤醒词语音数据库和通用语音数据库的表现,得到回报值R1和R2,将R1与R2相减后得到回报差值,即环境env对智能体agent所采取行为的回报r
pseudo
;S204、当回报值R2大于所设阈值时,将δ

作为生成的对抗扰动输出;S205、当回报值R2小于所设阈值时,使用智能体agent与环境env的交互数据S
TF
,S

TF
,r
pseudo
对智能体agent进行训练,更新智能体agent的算法与参数;S206、再次随机生成一个长度为1s的扰动音频δ
new
,按照1

pseudo
与r
pseudo
的概率从δ
new
和δ

中选择一个作为下一轮次的扰动音频δ,并返回步骤S201。3.根据权利要求2所述的用户语音隐私保护方法,其特征在于,步骤S202中,智能体agent包括表演者网络和评价者网络,表演者网络用于生成对抗扰动,评价者网络用于评价对抗扰动的质量;表演者网络和评价者网络均由Transformer网络组成,表演者网络和评价者网络共享位置编码器与Transformer网络的编码器部分,表演者网络的解码器部分用于生成对抗扰动,评价者网络的解码器部分用于评价对抗扰动的质量。4.根据权利要求3所述的用户语音隐私保护方法,其特征在于,智能体agent的构建过程如下:S2021、将网络的输入,按照切分前的位置进行位置编码,得到位置编码后的数据进行重新拉平,作为下一步的输入;S2022、从位置编码后的输入数据中,随机选择出一部分作为待表演者网络修改的数据;S2023、将步骤S2021中得到的位置编码后的数据与S2022中得到的待表演者网络修改的数据分别作为表演者网络的编码器与解码器的输入,得到表演者网络的输出,即S2022中待表演者网络修改数据的修改结果,使用其替换原数据中对应位置的数据,得到新的数据;S2024、将S2023得到的输出,进行与S2021中一致的位置编码,得到位置编码后的数据
进行重新拉平,作为下一步的输入;S2025、将S2021中得到的位置编码后的数据与S2024中得到的位置编码后的数据分别作为评价者网络的编码器与解码器的输入,再将输出通过一个全连接层,得到评价者网络的输出,即评价者网络对表演者...

【专利技术属性】
技术研发人员:翟临威丁菡赵衰王鸽赵鲲惠维赵季中
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1