一种具有防御功能的语音处理方法技术

技术编号:39426099 阅读:7 留言:0更新日期:2023-11-19 16:12
本文涉及语音识别领域,提供了一种具有防御功能的语音处理方法

【技术实现步骤摘要】
一种具有防御功能的语音处理方法、音频发送及接收装置


[0001]本文涉及语音识别领域,尤其涉及一种具有防御功能的语音处理方法

音频发送及接收装置


技术介绍

[0002]受益于人工智能近年来的蓬勃发展,语音识别技术在深度神经网络的驱动下取得了日新月异的识别效果,智能语音助手和智能音箱在人们的日常生活中也愈发常见

然而,在语音助手为人们的交互提供了更为便捷的接口的同时,对抗性语音指令的发现却使得它们的使用具有严重的安全风险

[0003]对抗性语音指令可以通过嵌入恶意比特到声音指令中对语音识别系统发起攻击

由于嵌入的恶意比特不会对声音指令的音质产生影响,用户很难发觉该攻击的存在

但是,该语音指令会被神经网络识别成特定的指令内容

比如,一段在用户听觉觉得并无异常的声音片段“今日天气晴,气温
23
度”通过电视或广播播放时,就有可能被攻击者利用,提前加入扰动比特来发动对抗性语音攻击

智能音箱中部署的语音识别深度神经网络会依据攻击者加入的扰动比特将该声音片段识别为“打开前门”或者“打开天然气”,借由此对公民生命财产或隐私造成极大危害

[0004]为了保护语音识别系统免受上述攻击,国内外研究者在积极探索相应的防御机制以期进行有效抵御

目前存在基于“输入转换”和“短时连续”两种针对性防御机制

对进入识别神经网络的语音做类似于量化

降采样

时域平滑等输入转换方法可以有效抵御抵抗样本攻击

然而研究者们证明了,这些防御方法只是“伪防御”,一旦攻击者针对具体的防御参数
(
比如量化参数
)
进行适应性攻击,基于输入转换的防御机制则立即失效

原因在于基于“输入转换”的防御方法只是造成了深度神经网络在判别时的梯度混淆,并非从根源上解决深度神经网络的可攻击性

另一种防御机制利用语音本身存在的短时连续性来有效检测对抗性语音命令

然而,该方法也没有从根源上解决深度神经网络的可攻击性,一旦攻击者知晓具体的防御参数
(
比如短时帧的划分
)
,同样可以针对性的修改扰动比特发动适应性攻击


技术实现思路

[0005]本文用于解决现有技术中基于输入转换和短时连续进行针对性防御对抗性语音攻击的方法无法从根本上解决语音识别模型的可攻击性,因此,现有的语音识别模型的产品仍存在安全问题

[0006]为了解决上述技术问题,本文的第一方面提供一种具有防御功能的语音处理方法,应用于音频发送设备,包括:
[0007]识别音频信号的关键指令内容;
[0008]对所述关键指令内容进行加密,得到数字签名信息;
[0009]将所述数字签名信息嵌入至所述音频信号;
[0010]对嵌入有数字签名信息的音频信号进行广播,以由音频接收设备识别嵌入有数字签名信息的音频信号

[0011]作为本文进一步实施例中,识别音频信号的关键指令内容包括:
[0012]识别音频信号中的文本信息;
[0013]将所述文本信息与关键指令库中的信息进行匹配;
[0014]将关键指令库中匹配成功的信息作为关键指令内容

[0015]作为本文进一步实施例中,对所述关键指令内容进行加密,得到数字签名信息,包括:
[0016]利用安全散列算法将所述关键指令内容进行切分处理,得到固定长度的多个输出字符串;
[0017]利用私钥对各输出字符串进行加密处理,得到多段数字子签名;
[0018]由预设的前导码及所述多段数字子签名构成数字签名信息

[0019]作为本文进一步实施例中,将所述数字签名信息嵌入至音频信号包括:
[0020]按照预定时间间隔将所述音频信号划分为多个时间帧;
[0021]对多个时间帧进行傅里叶变换及按照预定频段间隔划分后,得到多个子载波;
[0022]将每一时间帧的每一子载波作为一个块,保持任一块
(i,j)
的相位不变,在块
(i,j+1)
的相位中嵌入数字签名信息中的比特,其中,
i
表示第
i
个子载波,由预定频带确定,
j
表示第
j
个时间帧;
[0023]在某一时间帧的预定频段的子载波中嵌入导频比特

[0024]作为本文进一步实施例中,所述预定时间间隔为
1.2s
,所述预定频段间隔为
450Hz
,所述预定频带范围为
1.5kHz

17.7kHz。
[0025]作为本文进一步实施例中,若第
i
个子载波的频带大于第一预定功率,则在块
(i,j+1)
的相位中嵌入数字签名信息中的比特包括:将块
(i,j+1)
的相位按照
I

Q
平面四等分编码规则添加比特信息,
I

Q
平面四等分编码规则规定每一等分值对应不同二位比特信息;
[0026]若第
i
个子载波的频带小于第二预定功率,在块
(i,j+1)
的相位中嵌入数字签名信息中的比特包括:将块
(i,j+1)
的相位采用二进制分相移键控添加比特信息,
I

Q
平面二等分编码规则规定每一等分值对应一位比特信息

[0027]作为本文进一步实施例中,在块
(i,j+1)
的相位中嵌入数字签名信息中的比特时,按照如下相位调整公式调整块
(i,j+1)
的相位以嵌入数字签名信息中的比特:
[0028][0029]其中,当比特信息为0时,当比特信息为1时
,
θ
i,j+1
为第
j+1
个时间帧的第
i
个子载波的相位,
θ
*i,j+1
为第
j+1
个时间帧的第
i
个子载波调整后的相位

[0030]本文第二方面提供一种具有防御功能的语音处理方法,应用于具有语音识别系统的音频接收设备,包括:
[0031]接收音频发送设备发送的嵌入有数字签名信息的音频信号;
[0032]识别所述音频信号,当识别到关键指令内容时从所述音频信号中提取数字签名信息;
[0033]将识别得到的关键指令内容与数字签名信息进行匹配,若匹配失败或未提取到数字签名信息,则拒绝响应关键指令内容,若本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种具有防御功能的语音处理方法,其特征在于,应用于音频发送设备,包括:识别音频信号的关键指令内容;对所述关键指令内容进行加密,得到数字签名信息;将所述数字签名信息嵌入至所述音频信号;对嵌入有数字签名信息的音频信号进行广播,以由音频接收设备识别嵌入有数字签名信息的音频信号
。2.
如权利要求1所述的方法,其特征在于,识别音频信号的关键指令内容包括:识别音频信号中的文本信息;将所述文本信息与关键指令库中的信息进行匹配;将关键指令库中匹配成功的信息作为关键指令内容
。3.
如权利要求1所述的方法,其特征在于,对所述关键指令内容进行加密,得到数字签名信息,包括:利用安全散列算法将所述关键指令内容进行切分处理,得到固定长度的多个输出字符串;对各输出字符串进行加密处理,得到多段数字子签名;由预设的前导码及所述多段数字子签名构成数字签名信息
。4.
如权利要求3所述的方法,其特征在于,将所述数字签名信息嵌入至音频信号包括:按照预定时间间隔将所述音频信号划分为多个时间帧;对多个时间帧进行傅里叶变换及按照预定频段间隔划分后,得到多个子载波;将每一时间帧的每一子载波作为一个块,保持任一块
(i,j)
的相位不变,在块
(i,j+1)
的相位中嵌入数字签名信息中的比特,其中,
i
表示第
i
个子载波,由预定频带确定,
j
表示第
j
个时间帧;在某一时间帧的预定频段的子载波中嵌入导频比特
。5.
如权利要求4所述的方法,其特征在于,所述预定时间间隔为
1.2s
,所述预定频段间隔为
450Hz
,所述预定频带范围为
1.5kHz

17.7kHz。6.
如权利要求4所述的方法,其特征在于,若第
i
个子载波的频率大于第一预定功率,则在块
(i,j+1)
的相位中嵌入数字签名信息中的比特包括:将块
(i,j+1)
的相位按照
I

Q
平面四等分编码规则添加比特信息,
I

Q
平面四等分编码规则规定每一等分值对应不同二位比特信息;若第
i
个子载波的频率小于第二预定功率,则在块
(i,j+1)
的相位中嵌入数字签名信息中的比特包括:将块
(i,j+1)
的相位采用二进制分相移键控添加比特信息
。7.
如权利要求4所述的方法,其特征在于,在块
(i,j+1)
的相位中嵌入数字签名信息中的比特时,按照如下相位调整公式调整块
(i,j+1)
的相位以嵌入数字签名信息中的比特:其中,当比特信息为0时,当比特信息为1时
,
θ
i,j+1
为第
j+1
个时间帧的第
i
个子载波的相位,
θ
*i,j+1
为第
j+1
个时间帧的第
i
个子载波调整后的相位
。8.
一种具有防御功能的语音处理方法,其特征在于,应用于具有语音识别系统的音频
接收设备,包括:接收音频发送设备发送的嵌入有数字签名信息的音频信号;识别所述音频信号,当识别到关键指令内容时从所述音频信号中提取数字签名信息;将识别得到的关键指令内容与数字签名信息进行匹配,若匹配失败或未提取到数字签名信息,则拒绝响应关键指令内容,若匹配成...

【专利技术属性】
技术研发人员:陈涛李镇江
申请(专利权)人:香港城市大学深圳研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1