【技术实现步骤摘要】
一种具有防御功能的语音处理方法、音频发送及接收装置
[0001]本文涉及语音识别领域,尤其涉及一种具有防御功能的语音处理方法
、
音频发送及接收装置
。
技术介绍
[0002]受益于人工智能近年来的蓬勃发展,语音识别技术在深度神经网络的驱动下取得了日新月异的识别效果,智能语音助手和智能音箱在人们的日常生活中也愈发常见
。
然而,在语音助手为人们的交互提供了更为便捷的接口的同时,对抗性语音指令的发现却使得它们的使用具有严重的安全风险
。
[0003]对抗性语音指令可以通过嵌入恶意比特到声音指令中对语音识别系统发起攻击
。
由于嵌入的恶意比特不会对声音指令的音质产生影响,用户很难发觉该攻击的存在
。
但是,该语音指令会被神经网络识别成特定的指令内容
。
比如,一段在用户听觉觉得并无异常的声音片段“今日天气晴,气温
23
度”通过电视或广播播放时,就有可能被攻击者利用,提前加入扰动比特来发动对抗性语音攻击
。
智能音箱中部署的语音识别深度神经网络会依据攻击者加入的扰动比特将该声音片段识别为“打开前门”或者“打开天然气”,借由此对公民生命财产或隐私造成极大危害
。
[0004]为了保护语音识别系统免受上述攻击,国内外研究者在积极探索相应的防御机制以期进行有效抵御
。
目前存在基于“输入转换”和“短时连续”两种针对性防御机制
。
对进入识别神经网 ...
【技术保护点】
【技术特征摘要】
1.
一种具有防御功能的语音处理方法,其特征在于,应用于音频发送设备,包括:识别音频信号的关键指令内容;对所述关键指令内容进行加密,得到数字签名信息;将所述数字签名信息嵌入至所述音频信号;对嵌入有数字签名信息的音频信号进行广播,以由音频接收设备识别嵌入有数字签名信息的音频信号
。2.
如权利要求1所述的方法,其特征在于,识别音频信号的关键指令内容包括:识别音频信号中的文本信息;将所述文本信息与关键指令库中的信息进行匹配;将关键指令库中匹配成功的信息作为关键指令内容
。3.
如权利要求1所述的方法,其特征在于,对所述关键指令内容进行加密,得到数字签名信息,包括:利用安全散列算法将所述关键指令内容进行切分处理,得到固定长度的多个输出字符串;对各输出字符串进行加密处理,得到多段数字子签名;由预设的前导码及所述多段数字子签名构成数字签名信息
。4.
如权利要求3所述的方法,其特征在于,将所述数字签名信息嵌入至音频信号包括:按照预定时间间隔将所述音频信号划分为多个时间帧;对多个时间帧进行傅里叶变换及按照预定频段间隔划分后,得到多个子载波;将每一时间帧的每一子载波作为一个块,保持任一块
(i,j)
的相位不变,在块
(i,j+1)
的相位中嵌入数字签名信息中的比特,其中,
i
表示第
i
个子载波,由预定频带确定,
j
表示第
j
个时间帧;在某一时间帧的预定频段的子载波中嵌入导频比特
。5.
如权利要求4所述的方法,其特征在于,所述预定时间间隔为
1.2s
,所述预定频段间隔为
450Hz
,所述预定频带范围为
1.5kHz
至
17.7kHz。6.
如权利要求4所述的方法,其特征在于,若第
i
个子载波的频率大于第一预定功率,则在块
(i,j+1)
的相位中嵌入数字签名信息中的比特包括:将块
(i,j+1)
的相位按照
I
‑
Q
平面四等分编码规则添加比特信息,
I
‑
Q
平面四等分编码规则规定每一等分值对应不同二位比特信息;若第
i
个子载波的频率小于第二预定功率,则在块
(i,j+1)
的相位中嵌入数字签名信息中的比特包括:将块
(i,j+1)
的相位采用二进制分相移键控添加比特信息
。7.
如权利要求4所述的方法,其特征在于,在块
(i,j+1)
的相位中嵌入数字签名信息中的比特时,按照如下相位调整公式调整块
(i,j+1)
的相位以嵌入数字签名信息中的比特:其中,当比特信息为0时,当比特信息为1时
,
θ
i,j+1
为第
j+1
个时间帧的第
i
个子载波的相位,
θ
*i,j+1
为第
j+1
个时间帧的第
i
个子载波调整后的相位
。8.
一种具有防御功能的语音处理方法,其特征在于,应用于具有语音识别系统的音频
接收设备,包括:接收音频发送设备发送的嵌入有数字签名信息的音频信号;识别所述音频信号,当识别到关键指令内容时从所述音频信号中提取数字签名信息;将识别得到的关键指令内容与数字签名信息进行匹配,若匹配失败或未提取到数字签名信息,则拒绝响应关键指令内容,若匹配成...
【专利技术属性】
技术研发人员:陈涛,李镇江,
申请(专利权)人:香港城市大学深圳研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。