基于智能终端的安全语音交互方法及系统技术方案

技术编号:24173677 阅读:42 留言:0更新日期:2020-05-16 03:49
一种基于智能终端的安全语音交互方法,在需要采集音频信号时通过智能终端主动产生干扰噪声与待采集音频叠加,然后智能终端基于干扰噪声的先验知识,在接收信号上自适应消噪并提取出待采集音频。本发明专利技术使用用户自己的语音产生干扰噪声,并在时变信道下有效地进行自消除,能够在现有设备上部署使用、在不影响正常语音交互功能实现的基础上确保语音交互的安全性。

Secure voice interaction method and system based on intelligent terminal

【技术实现步骤摘要】
基于智能终端的安全语音交互方法及系统
本专利技术涉及一种信息安全领域的技术,具体涉及一种基于智能终端的安全语音交互方法及系统。
技术介绍
随着移动设备的迅速普及,人机交互方式也在不断演变。语音交互作为一种新兴的交互方式正变得越越成熟和流行,包括语音输入法如iFLYTEK和语音助手如GoogleAssstant、Siri、Cortana等。然而,由于语音信号的开放性,这些交互可能面临很大的安全威胁,窃听者通过现场窃听或录音获取隐私信息。随着语音技术的广泛应用,安全问题变得越越重要。因此,为语音交互提供强有力的保护是非常重要的在现有工作中,已有一些针对类似问题的方案。一类利用麦克风非线性特性的方案,例如Backdoor和Dolphinattack,利用超声波信号进行隐蔽干扰或通信。但是,这些方法也会影响语音交互应用的正常使用,且只能干扰录音设备而不能保护用户语音不被人听到。另一类方案利用噪声保护声学信号。然而,这些方案是为数据通信而设计的,使用的声学信号与人的声音有很大的不同。此外,有方法利用了多径效应,将音频信号与噪声混合编码后通过多扬声器播放,使得空间中只有特定位置能够听清音频内容实现隐蔽通信的目的。该方法的局限性在于需要多个扬声器,且只适合于静态环境。另一种方案需要利用额外的硬件过滤录音设备中敏感的语音内容。总体而言,目前尚不存在能在智能设备上提供安全的语音交互功能的解决方案。
技术实现思路
本专利技术针对现有技术存在的上述不足,提出一种基于智能终端的安全语音交互方法及系统,使用用户自己的语音产生干扰噪声,并在时变信道下有效地进行自消除,能够在现有设备上部署使用、在不影响正常语音交互功能实现的基础上确保语音交互的安全性。本专利技术是通过以下技术方案实现的:本专利技术涉及一种基于智能终端的安全语音交互方法,在需要采集音频信号时通过智能终端主动产生干扰噪声与待采集音频叠加以防止被窃听,然后智能终端基于干扰噪声的先验知识,在采集的信号上自适应消噪并提取出用户交互语音信号。所述的干扰噪声,根据历史记录混合生成语义混淆且频谱与待采集音频近似的信号。所述的干扰噪声优选经宽带波束赋形处理。所述的干扰噪声,具体通过以下方式得到:首先收集用户自身的失真的语音录音,并对采集设备造成的失真进行补偿,产生与用户真实声音频谱非常相似的语音记录;然后随机选择多个语音记录进行混合以混淆用户语音的语义。所述的失真,是指收集语音过程中,采集设备的频率响应造成的声音特征的改变。所述的补偿是指:先测量智能设备的频率响应,然后结合数字信号处理算法,将失真的语音录音还原为与用户真实声音有相同特征的声音信号。所述的混合是指:将多段语音信号在时域上叠加,合并为一个声音信号。所述的自适应消噪是指:先将干扰噪声与接收信号进行互相关运算,以获得待采集音频的起始位置;然后以起始位置开始的两秒接收信号为前导码,对交互设备的播放设备到采集设备的信道进行粗略估计,并借此推断采集的音频信号中用户实际交互的时间区间;获得音频信号的区间信息后,对只有干扰噪声的区间内的信号进行自适应信道估计,连续跟踪时变信道;对于接收信号的起始位置两秒后开始的用户语音区间,采用自适应信道估计得到的更新后的信道估计以消除干扰噪声。所述的待采集音频的起始位置是指:使用干扰噪声的前两秒信号与所采集的声音进行互相关运算,获得不同对齐位置下的相关值。理想情况下,当两个信号对齐时,互相关的值达到最大,而实践中,由于采集到的信号与原始信号不同,把最早出现的相关值大于最大相关值85%的位置看作两个信号对齐时的位置,即待采集音频的起始位置。所述的时变信道是指:播放设备和录音设备间的信道可能会因为周围场景中人员和物体的移动而随时间改变,此外交互设备或用户自身的移动也会改变信道参数。所述的粗略估计是指:暂不考虑信道的时变性,将最开始两秒信号计算出的频率响应看作整段信号的频率响应。所述的时间区间是指:用粗略估计的信道响应估计采集到的干扰噪声,这个估计结果包含了采集到的干扰噪声的大部分能量,将其从录音信号中减去,得到主要包含用户语音和环境噪声的剩余信号。然后,利用滑动窗口计算剩余信号每个窗口内的能量,判断能量是否大于阈值划分用户语音区间和非用户语音区间。所述的自适应信道估计具体过程为:利用频域自适应滤波器持续估计时变的信道响应。首先用滑动窗口对非用户语音区间的录音信号和对应的原始干扰噪声信号进行傅里叶变换,得到其频域表示。最开始,随机假设一个频率响应估计值,并据此计算当前窗口内录音信号的估计值,根据估计的录音信号和实际录音信号得到当前窗口的估计误差,将此估计误差看作代价函数,当频响估计值与实际的频响一致时,估计误差应达到最小,因此利用梯度下降法随滑动窗口迭代更新频率响应的估计值以最小化代价函数,直到其收敛,即可得到随时间实时估计的频率响应。所述的自适应消噪,优选进一步进行残余噪声衰减以去除由于信道估计误差而产生的剩余噪声以及环境噪声,从而得到最终纯净的用户语音。所述的残余噪声衰减是指:采用谱减法降低残余噪声。自适应消噪后的残余噪声在整段信号中具有相似的能谱分布,对非用户语音区间的残余信号的频谱进行采样,得到各频率上噪声的平均能量作为阈值;对于用户语音区间,将信号的频谱与阈值进行比较,如果某一频率的幅值低于相应的阈值,则视该频率分量为噪声,并按比例衰减。本专利技术涉及一种实现上述方法的安全的语音交互系统,包括:噪声干扰模块和干扰噪声自消除模块,其中:噪声干扰模块分别与智能终端的播放设备和干扰噪声自消除模块相连并输出干扰噪声,干扰噪声自消除模块分别与智能终端的采集设备和噪声干扰模块相连并根据接收信号和干扰噪声提取得到待采集音频。技术效果本专利技术整体所解决的技术问题是:如何设计干扰噪声以保证用户语音的安全以及如何从噪声和用户语音的混合信号中提取出清晰的用户语音信号。与现有技术相比,本专利技术独有的新功能/效果包括:本专利技术是第一个考虑用户语音交互安全性的工作,创新性地利用了用户自身语音信号合成有效的干扰信号,并设计了一套机制补偿音频设备造成的语音信号失真,同时本专利技术设计了新的自适应消噪算法流程,更准确地检测用户语音交互时间区间,并实现更优良的噪声消除性能。与现有技术相比,本专利技术抵御包括人耳窃听、数字信号分析在内的多种攻击方式,且不影响原有语音交互功能的实现;同时,本专利技术不需要额外的硬件设备,作为软件部署在现有大多数智能设备上,方便用户使用。附图说明图1为本专利技术系统结构图;图2为设备频率响应造成用户语音失真的示意图;图3为设备频率响应测量模型示意图;图4为设备失真补偿的结果图;图5为线性扬声器阵列波束赋形示意图;图6为交互设备录音信号构成的示意图;图7(a)为原始干扰噪声信号波形图;图7(b)为录音信号、粗信道估计结果与自适应信道估计结果对比图;图8(a)为录音信号与自适应滤波结果的波形对比图;图8(b本文档来自技高网...

【技术保护点】
1.一种基于智能终端的安全语音交互方法,其特征在于,在需要采集音频信号时通过智能终端主动产生干扰噪声与待采集音频叠加,然后智能终端基于干扰噪声的先验知识,在接收信号上自适应消噪并提取出待采集音频;/n所述的干扰噪声,根据历史记录混合生成语义混淆且频谱与待采集音频近似的信号。/n

【技术特征摘要】
1.一种基于智能终端的安全语音交互方法,其特征在于,在需要采集音频信号时通过智能终端主动产生干扰噪声与待采集音频叠加,然后智能终端基于干扰噪声的先验知识,在接收信号上自适应消噪并提取出待采集音频;
所述的干扰噪声,根据历史记录混合生成语义混淆且频谱与待采集音频近似的信号。


2.根据权利要求1所述的基于智能终端的安全语音交互方法,其特征是,所述的干扰噪声,具体通过以下方式得到:首先收集用户自身的失真的语音录音,并对采集设备造成的失真进行补偿,产生与用户真实声音频谱非常相似的语音记录;然后随机选择多个语音记录进行混合以混淆用户语音的语义。


3.根据权利要求2所述的基于智能终端的安全语音交互方法,其特征是,所述的补偿是指:先测量智能设备的频率响应,然后结合数字信号处理算法,将失真的语音录音还原为与用户真实声音有相同特征的声音信号。


4.根据权利要求2所述的基于智能终端的安全语音交互方法,其特征是,所述的混合是指:将多段语音信号在时域上叠加,合并为一个声音信号。


5.根据权利要求1所述的基于智能终端的安全语音交互方法,其特征是,所述的自适应消噪是指:先将干扰噪声与接收信号进行互相关运算,以获得待采集音频的起始位置;然后以起始位置开始的两秒接收信号为前导码,对交互设备的播放设备到采集设备的信道进行粗略估计,并借此推断采集的音频信号中用户实际交互的时间区间;获得音频信号的区间信息后,对只有干扰噪声的区间内的信号进行自适应信道估计,连续跟踪时变信道;对于接收信号的起始位置两秒后开始的用户语音区间,采用自适应信道估计得到的更新后的信道估计以消除干扰噪声。


6.根据权利要求5所述的基于智能终端的安全语音交互方法,其特征是,所述的待采集音频的起始位置是指:使用干扰噪声的前两秒信号与所采集的声音进行互相关运算,获得不同对齐位置下的相关值;当两个信号对齐时,互相关的值达到最大,即待采集音频的起始位置;
所述的粗略估计是指:暂不考虑信道的时变性,将最开始两秒信号计算出的频率响应看作整段信号的频率响应;
所述的时间区间是指:用粗略估计的信道响应估计采集到的干扰噪声,这个估计结果包含了采集到的干扰噪声的大部分能量,将其从录音信号中减去,得到主要包含用户语音和环境噪声的剩余信号,然后,利用滑动窗口计算剩余信号每个窗口内的能量,判断能量是否大于阈值划分用户语音区间和非用户语音区间;
所述的自适应信道估计具体过程为:利用频域自适应滤波器持续估计时变的信道响应:首先用滑动窗口对非用户语音区间的录音信号和对应的原始干扰噪声信...

【专利技术属性】
技术研发人员:朱弘恣王潇常珊王旭东
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1