一种基于骨传导耳机的多命令词语音唤醒方法技术

技术编号:35897595 阅读:20 留言:0更新日期:2022-12-10 10:32
本发明专利技术提供一种基于骨传导耳机的多命令词语音唤醒方法,涉及音频处理技术领域。本发明专利技术根据源数据的长度进行统计来确定的训练长度,得到的长度可以涵盖大部分的训练样本,这样既不会浪费训练数据,也不容易造成冗余;采用归一化通道能量PCEN特征训练,PCEN特征比MFCC特征更加适合神经网络的训练;在模型的选择上增加了一层CNN,用神经网络提取得到的特征更加适合训练神经网络;使模型更加小巧,计算量成倍减小,采用的是累计预测值的大小和次数,当预测值连续几帧都大于设定的阈值时判定为检测到关键词。这种方案相比与滑窗机制,在预测方面识别率会稍有下降,但是计算量缩小将近百倍,方便部署在小型设备上。方便部署在小型设备上。方便部署在小型设备上。

【技术实现步骤摘要】
一种基于骨传导耳机的多命令词语音唤醒方法


[0001]本专利技术涉及音频处理
,尤其涉及一种基于骨传导耳机的多命令词语音唤醒方法。

技术介绍

[0002]多命令词关键词语音唤醒方案(MKws)主要包括数据预处理、人工神经网络(Artificial Neural Network)和后处理反馈三个部分。
[0003]数据预处理,是指对于骨传导系统收集到的原始声音数据进行预处理使其数据符合神经网络(Neural Networks)的计算需求;其中,数据预处理主要过程包括:语音信号的预加重、分帧、加窗、短时快速傅里叶变换(FFT)、计算不同FFT子带的能量、梅尔滤波、dct变换、lifter变换等。
[0004]人工神经网络(Artificial Neural Network,即ANN),它从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型,按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。
[0005]后处理反馈,是指对于神经网络的输出进行解码(Decoding)和计算从而获取唤醒概率,并将结果反馈给系统。
[0006]现有的多命令词关键词语音唤醒方案主要是在特征提取过程中采用了梅尔频率倒谱系数(Mel

frequency cepstral coefficients)的方案,但是,该方案计算量大,体积较大,不适合部署在一些小型设备上,特别是骨传导耳机。
[0007]因此,有必要提供一种基于骨传导耳机的多命令词语音唤醒方法来解决上述技术问题。

技术实现思路

[0008]为解决上述之一技术问题,本专利技术提供的一种基于骨传导耳机的多命令词语音唤醒方法,通过骨传导耳机采集语音信号,得到语音数据,所述语音数据包括若干帧数据;通过对语音数据进行关键词检测,不同的关键词对应不同的标签,每一个标签对应一个置信度;通过唤醒识别模型计算每一帧数据关键词的预测概率值;通过预测概率值判断对应关键词是否被激活,通过被激活的关键词得到对应的命令;所述唤醒识别模型通过如下步骤训练得到:
[0009]步骤S1.1:采集语音数据;
[0010]步骤S1.2:对各帧数据进行预处理操作,得到若干帧预处理数据;
[0011]步骤S1.3:对各帧预处理数据进行特征提取,得到对应的特征数据;
[0012]步骤S1.4:将特征数据输入CNN卷积神经网络,并通过卷积核按照设置的步进长度进行内积处理,得到多个卷积输出,将卷积输出拼接到对应位置,得到卷积特征数据;
[0013]步骤S1.5:将卷积特征数据输入GRU循环神经网络,所述GRU循环神经网络对CNN卷积神经网络的卷积特征数据结合历史状态进行记忆、更新和重置,得到当前帧的新状态;
[0014]步骤S1.6:将GRU循环神经网络的状态通过Attention层变换为重要性权重,并于当前帧的新状态做内积,得到的预测概率;
[0015]步骤S1.7:将预测概率值与期望值作比较,使用交叉熵作为损失函数计算最终损失值loss,并进行反向传播。
[0016]作为更进一步的解决方案,所述预处理操作包括预加重和加窗;
[0017]预加重:预加重因子设置为0.97,即每个采样点减去上一个采样点的97%;
[0018]加窗:使用汉明窗进行加窗,防止频率泄露;汉明窗函数如下:
[0019][0020]其中,n表示被截取信号;α表示汉明窗常数;N

1表示汉明窗的截取窗口长度。
[0021]作为更进一步的解决方案,所述特征数据通过如下步骤进行提取:
[0022]步骤A1:进行短时快速傅里叶变换,将信号分离到不同的子带;
[0023]步骤A2:进行短时快速傅里叶变换后的不同子带的能量;
[0024]步骤A3:生成相应的梅尔滤波器对子带进行滤波,梅尔滤波函数如下:
[0025][0026]步骤A4:提取PCEN特征,所述PCEN特征表达式为:
[0027][0028]作为更进一步的解决方案,所述GRU循环神经网络;
[0029]Z
t
=σ((X
t
,W
xz
)+(H
t
‑1,W
hz
)+b
z
)
[0030]R
t
=σ((X
t
,W
xr
)+(H
t
‑1,W
hr
)+b
r
)
[0031][0032][0033]其中,X
t
表示GRU层的输入,H
t
‑1表示上一时刻的隐藏层状态,H
t
表示t时刻输出的隐藏层状态,W
xr
、W
gr
、W
xz
、W
hz
、W
xh
、W
hh
表示权重矩阵;b
r
、b
z
、b
h
表示偏置,R
t
表示重置门,Z
t
表示更新门,表示需要更新的信息,tanh(
·
)表示Tanh激活函数,σ(
·
)表示Sigmoid激活函数。
[0034]作为更进一步的解决方案,所述唤醒识别模型通过如下步骤进行检测识别:
[0035]步骤S2.1:采集语音数据;
[0036]步骤S2.2:对各帧数据进行预处理操作,得到若干帧预处理数据;
[0037]步骤S2.3:对各帧预处理数据进行特征提取,得到对应的特征数据;
[0038]步骤S2.4:将特征数据输入CNN卷积神经网络,并通过卷积核按照设置的步进长度
进行内积处理,得到多个卷积输出,将卷积输出拼接到对应位置,得到卷积特征数据;
[0039]步骤S2.5:将卷积特征数据输入GRU循环神经网络,所述GRU循环神经网络对CNN卷积神经网络的卷积特征数据结合历史状态进行记忆、更新和重置,得到当前帧的新状态;
[0040]步骤S2.6:将GRU循环神经网络的状态通过Attention层变换为重要性权重,并于当前帧的新状态做内积,得到的预测概率;
[0041]步骤S2.7:将各帧的预测概率输入Post层,所述Post层预设有置信阈值和连续帧阈值M,并通过各帧的预测概率判断是否存在连续M帧预测概率值均本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于骨传导耳机的多命令词语音唤醒方法,其特征在于,通过骨传导耳机采集语音信号,得到语音数据,所述语音数据包括若干帧数据;通过对语音数据进行关键词检测,不同的关键词对应不同的标签,每一个标签对应一个置信度;通过唤醒识别模型计算每一帧数据关键词的预测概率值;通过预测概率值判断对应关键词是否被激活,通过被激活的关键词得到对应的命令;所述唤醒识别模型通过如下步骤训练得到:步骤S1.1:采集语音数据;步骤S1.2:对各帧数据进行预处理操作,得到若干帧预处理数据;步骤S1.3:对各帧预处理数据进行特征提取,得到对应的特征数据;步骤S1.4:将特征数据输入CNN卷积神经网络,并通过卷积核按照设置的步进长度进行内积处理,得到多个卷积输出,将卷积输出拼接到对应位置,得到卷积特征数据;步骤S1.5:将卷积特征数据输入GRU循环神经网络,所述GRU循环神经网络对CNN卷积神经网络的卷积特征数据结合历史状态进行记忆、更新和重置,得到当前帧的新状态;步骤S1.6:将GRU循环神经网络的状态通过Attention层变换为重要性权重,并于当前帧的新状态做内积,得到的预测概率;步骤S1.7:将预测概率值与期望值作比较,使用交叉熵作为损失函数计算最终损失值loss,并进行反向传播。2.根据权利要求1所述的一种基于骨传导耳机的多命令词语音唤醒方法,其特征在于,所述预处理操作包括预加重和加窗;预加重:预加重因子设置为0.97,即每个采样点减去上一个采样点的97%;加窗:使用汉明窗进行加窗,防止频率泄露;汉明窗函数如下:其中,n表示被截取信号;α表示汉明窗常数;N

1表示汉明窗的截取窗口长度。3.根据权利要求1所述的一种基于骨传导耳机的多命令词语音唤醒方法,其特征在于,所述特征数据通过如下步骤进行提取:步骤A1:进行短时快速傅里叶变换,将信号分离到不同的子带;步骤A2:进行短时快速傅里叶变换后的不同子带的能量;步骤A3:生成相应的梅尔滤波器对子带进行滤波,梅尔滤波函数如下:步骤A4:提取PCEN特征,所述PCEN特征表达式为:4.根据权利要求1所述的一种基于骨传导耳机的多命令词语音唤醒方法,其特征在于,所述GRU循环神经网络;Z
t
=σ((X
t
,W
xz
)+(H
t
‑1,W
hz
)+b
z
)R
t
=σ...

【专利技术属性】
技术研发人员:王蒙胡奎孙江涛姜黎
申请(专利权)人:杭州芯声智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1