【技术实现步骤摘要】
一种基于骨传导耳机的多命令词语音唤醒方法
[0001]本专利技术涉及音频处理
,尤其涉及一种基于骨传导耳机的多命令词语音唤醒方法。
技术介绍
[0002]多命令词关键词语音唤醒方案(MKws)主要包括数据预处理、人工神经网络(Artificial Neural Network)和后处理反馈三个部分。
[0003]数据预处理,是指对于骨传导系统收集到的原始声音数据进行预处理使其数据符合神经网络(Neural Networks)的计算需求;其中,数据预处理主要过程包括:语音信号的预加重、分帧、加窗、短时快速傅里叶变换(FFT)、计算不同FFT子带的能量、梅尔滤波、dct变换、lifter变换等。
[0004]人工神经网络(Artificial Neural Network,即ANN),它从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型,按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。
[0005]后处理反馈,是指对于神经网络的输出进行解码(Decoding)和计算从 ...
【技术保护点】
【技术特征摘要】
1.一种基于骨传导耳机的多命令词语音唤醒方法,其特征在于,通过骨传导耳机采集语音信号,得到语音数据,所述语音数据包括若干帧数据;通过对语音数据进行关键词检测,不同的关键词对应不同的标签,每一个标签对应一个置信度;通过唤醒识别模型计算每一帧数据关键词的预测概率值;通过预测概率值判断对应关键词是否被激活,通过被激活的关键词得到对应的命令;所述唤醒识别模型通过如下步骤训练得到:步骤S1.1:采集语音数据;步骤S1.2:对各帧数据进行预处理操作,得到若干帧预处理数据;步骤S1.3:对各帧预处理数据进行特征提取,得到对应的特征数据;步骤S1.4:将特征数据输入CNN卷积神经网络,并通过卷积核按照设置的步进长度进行内积处理,得到多个卷积输出,将卷积输出拼接到对应位置,得到卷积特征数据;步骤S1.5:将卷积特征数据输入GRU循环神经网络,所述GRU循环神经网络对CNN卷积神经网络的卷积特征数据结合历史状态进行记忆、更新和重置,得到当前帧的新状态;步骤S1.6:将GRU循环神经网络的状态通过Attention层变换为重要性权重,并于当前帧的新状态做内积,得到的预测概率;步骤S1.7:将预测概率值与期望值作比较,使用交叉熵作为损失函数计算最终损失值loss,并进行反向传播。2.根据权利要求1所述的一种基于骨传导耳机的多命令词语音唤醒方法,其特征在于,所述预处理操作包括预加重和加窗;预加重:预加重因子设置为0.97,即每个采样点减去上一个采样点的97%;加窗:使用汉明窗进行加窗,防止频率泄露;汉明窗函数如下:其中,n表示被截取信号;α表示汉明窗常数;N
‑
1表示汉明窗的截取窗口长度。3.根据权利要求1所述的一种基于骨传导耳机的多命令词语音唤醒方法,其特征在于,所述特征数据通过如下步骤进行提取:步骤A1:进行短时快速傅里叶变换,将信号分离到不同的子带;步骤A2:进行短时快速傅里叶变换后的不同子带的能量;步骤A3:生成相应的梅尔滤波器对子带进行滤波,梅尔滤波函数如下:步骤A4:提取PCEN特征,所述PCEN特征表达式为:4.根据权利要求1所述的一种基于骨传导耳机的多命令词语音唤醒方法,其特征在于,所述GRU循环神经网络;Z
t
=σ((X
t
,W
xz
)+(H
t
‑1,W
hz
)+b
z
)R
t
=σ...
【专利技术属性】
技术研发人员:王蒙,胡奎,孙江涛,姜黎,
申请(专利权)人:杭州芯声智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。