一种基于可穿戴设备的神经网络多命令词识别方法及系统技术方案

技术编号:35897479 阅读:11 留言:0更新日期:2022-12-10 10:32
本发明专利技术提供一种基于可穿戴设备的神经网络多命令词识别方法及系统,涉及音频处理技术领域。本发明专利技术使用神经网络技术,在训练数据中进行多种噪声的混合,提升识别准确率和鲁棒性;使用语音的MFCC特征作为网络的输入,在网络的第一层,使用CNN进行特征提取,使用CNN可以进行权重共享,可以很大程度减少网络的参数量,随后加一层GRU层,可以充分利用语音段中前面帧之间的信息,通过该步骤能得到帧间特征,从而提升系统的整体识别度和识别效率;使用VAD人声检测模块进行人声检测,没有人声时多命令词检测算法不工作,可以减少系统的功耗;GRU状态的重置可以使之和训练情况相同,从而保证算法的识别准确率和鲁棒性。保证算法的识别准确率和鲁棒性。保证算法的识别准确率和鲁棒性。

【技术实现步骤摘要】
一种基于可穿戴设备的神经网络多命令词识别方法及系统


[0001]本专利技术涉及音频处理
,尤其涉及一种基于可穿戴设备的神经网络多命令词识别方法及系统。

技术介绍

[0002]多命令词识别算法是一种智能语音常用的算法之一,广泛用于智能语音人机交互等应用。在基于语音的人机交互过程中,人发出的语音指令通过麦克风传入到机器中,在机器中,多命令词识别算法会针对特定的命令词进行识别,当识别到特定的命令词时,反馈信号给机器,使机器可以做出相应的交互反应。
[0003]基于可穿戴设备的多命令词识别可以通过蓝牙模块使设备与手机进行通信,算法集成在可穿戴设备上面,不需要依赖网络,可以实现实时且准确的多命令词识别,进而实现人机交互。
[0004]但是,现有的多命令词识别方案鲁棒性差、检测准确率不高的问题,在有噪声存在的情况下,对人声信号的识别效果较差,且随时保持待命状态,从而导致系统耗能高。
[0005]因此,有必要提供一种基于可穿戴设备的神经网络多命令词识别方法及系统来解决上述技术问题。

技术实现思路

[0006]为解决上述之一技术问题,本专利技术提供的一种基于可穿戴设备的神经网络多命令词识别方法,通过可穿戴设备采集麦克风信号,并通过模/数转换器转换为数字输入信号流;所述数字输入信号流通过VAD人声检测模块进行人声检测,当检测到噪声时,所述VAD人声检测模块不对VAD标志位进行激活,多命令词识别算法不进行运算;当检测到人声信号时,所述VAD人声检测模块对VAD标志位进行激活,进入到多命令词识别算法;所述多命令词识别算法进行重置状态后,开始进行人声语音识别。
[0007]具体的,所述多命令词识别算法包括语音MFCC特征提取步骤、CNN层提取特征步骤、GRU层提取序列帧之间信息步骤和DENSE层进行命令词分类步骤。
[0008]具体的,所述语音MFCC特征提取步骤:选取数字输入信号流的梅尔频率倒谱系数作为输入特征,并进行MFCC特征提取,得到数字输入信号流所对应的MFCC特征;所述MFCC特征提取步骤包括预加重、分帧加窗、FFT处理、Mel滤波器处理、对数运算和DCT变换。
[0009]具体的,所述CNN层提取特征步骤:输入MFCC特征,并对MFCC特征进行卷积操作,得到若干帧CNN特征图,并按照输出先后,得到序列帧。
[0010]具体的,所述GRU层提取序列帧之间信息步骤:通过GRU层对序列帧进行帧间信息提取,得到帧间信息特征。
[0011]具体的,所述DENSE层进行命令词分类步骤:将帧间信息特征输入DENSE层,所述DENSE层通过网络训练得到,并能根据输入的帧间信息特征,输出人声信号对应的各命令词的分类概率,通过各命令词的分类概率判断人声信号传达的命令词。
[0012]作为更进一步的解决方案,所述语音MFCC特征提取步骤的预加重选取的预加重系数为0.97。
[0013]作为更进一步的解决方案,所述语音MFCC特征提取步骤的分帧加窗的帧长为32ms,帧移为16ms,且每一帧使用汉明窗进行加窗处理。
[0014]作为更进一步的解决方案,所述语音MFCC特征提取步骤通过FFT处理进行快速傅立叶变换;通过Mel滤波器处理对子带进行滤波;通过对数运算对Mel滤波器的输出进行处理;通过经DCT变换进行离散余弦变换得到MFCC特征。
[0015]作为更进一步的解决方案,所述CNN层提取特征步骤使用16个大小为[20,5]的卷积核对MFCC特征进行处理,且步长取为[1,2];所述CNN层提取特征步骤得到的CNN层的输入维度为[68,40]的特征图;其中,68表示1.1秒的语音数据分为了6帧,40表示每一帧都提取出了40个MFCC特征;经过卷积操作后,所述特征图大小为[49,18,16]。
[0016]所述多命令词识别算法的重置即对GRU层的状态重置;所述GRU层提取序列帧之间信息步骤中的GRU层为单向GRU,且使用44个神经元,所述CNN层的输出经过维度重置后,输入到GRU层;其中,维度重置为[49,288],所述GRU层输出的维度为[44]。
[0017]作为更进一步的解决方案,所述GRU层通过如下公式进行部署:
[0018]Z
t
=σ((X
t
,W
xz
)+(H
t
‑1,W
hz
)+b
z
)
[0019]R
t
=σ((X
t
,W
xr
)+(H
t
‑1,W
hr
)+b
r
)
[0020]H_tilda=tanh((X
t
,W
xh
)+(H
t
‑1R
t
,W
hh
)+b
h
)
[0021]H
t
=H
t
‑1Z
t
+H_tilda(1

Z
t
)
[0022]其中,X
t
表示GRU层的输入,H
t
‑1表示上一时刻的隐藏层状态,H
t
表示t时刻输出的隐藏层状态,W
xr
、W
hr
、W
xz
、W
hz
、W
xh
、W
hh
表示权重矩阵;b
r
、b
z
、b
h
表示偏置,R
t
表示重置门,Z
t
表示更新门,H_tilda表示需要更新的信息,tanh(
·
)表示Tanh激活函数,σ(
·
)表示Sigmoid激活函数。
[0023]作为更进一步的解决方案,所述DENSE层进行命令词分类步骤的Dense层的输入为GRU层的输出,所述;Dense层输出大小为10,输出维度为[10],其中,各维度分别代表9个命令词和1个负样本类的概率。
[0024]作为更进一步的解决方案,所述DENSE层的网络训练框架基于Tensorflow框架,在训练时采用的批次大小为1024,迭代次数为50代;用于网络训练的数据为清晰的人声数据和混合噪声后的人声数据;训练数据统一到1.1秒,混合噪声时随机混合多种不同的噪声;DENSE层的网络输出为相应类别的概率,将0.9以上的概率分类为相应的命令词类别,否则默认为负样本类。
[0025]作为更进一步的解决方案,并通过如上述中任一项所述的一种基于可穿戴设备的神经网络多命令词识别方法来实现对可穿戴设备采集麦克风信号的人声信号的检测和对应命令词的识别。
[0026]与相关技术相比较,本专利技术提供的一种基于可穿戴设备的神经网络多命令词识别方法具有如下有益效果:
[0027]1、本专利技术使用神经网络技本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于可穿戴设备的神经网络多命令词识别方法,其特征在于,通过可穿戴设备采集麦克风信号,并通过模/数转换器转换为数字输入信号流;所述数字输入信号流通过VAD人声检测模块进行人声检测,当检测到噪声时,所述VAD人声检测模块不对VAD标志位进行激活,多命令词识别算法不进行运算;当检测到人声信号时,所述VAD人声检测模块对VAD标志位进行激活,进入到多命令词识别算法;所述多命令词识别算法进行重置状态后,开始进行人声语音识别;所述多命令词识别算法包括语音MFCC特征提取步骤、CNN层提取特征步骤、GRU层提取序列帧之间信息步骤和DENSE层进行命令词分类步骤;所述语音MFCC特征提取步骤:选取数字输入信号流的梅尔频率倒谱系数作为输入特征,并进行MFCC特征提取,得到数字输入信号流所对应的MFCC特征;所述MFCC特征提取步骤包括预加重、分帧加窗、FFT处理、Mel滤波器处理、对数运算和DCT变换;所述CNN层提取特征步骤:输入MFCC特征,并对MFCC特征进行卷积操作,得到若干帧CNN特征图,并按照输出先后,得到序列帧;所述GRU层提取序列帧之间信息步骤:通过GRU层对序列帧进行帧间信息提取,得到帧间信息特征;所述DENSE层进行命令词分类步骤:将帧间信息特征输入DENSE层,所述DENSE层通过网络训练得到,并能根据输入的帧间信息特征,输出人声信号对应的各命令词的分类概率,通过各命令词的分类概率判断人声信号传达的命令词。2.根据权利要求1所述的一种基于可穿戴设备的神经网络多命令词识别方法,其特征在于,所述语音MFCC特征提取步骤的预加重选取的预加重系数为0.97。3.根据权利要求1所述的一种基于可穿戴设备的神经网络多命令词识别方法,其特征在于,所述语音MFCC特征提取步骤的分帧加窗的帧长为32ms,帧移为16ms,且每一帧使用汉明窗进行加窗处理。4.根据权利要求1所述的一种基于可穿戴设备的神经网络多命令词识别方法,其特征在于,所述语音MFCC特征提取步骤通过FFT处理进行快速傅立叶变换;通过Mel滤波器处理对子带进行滤波;通过对数运算对Mel滤波器的输出进行处理;通过经DCT变换进行离散余弦变换得到MFCC特征。5.根据权利要求1所述的一种基于可穿戴设备的神经网络多命令词识别方法,其特征在于,所述CNN层提取特征步骤使用16个大小为[20,5]的卷积核对MFCC特征进行处理,且步长取为[1,2];所述CNN层提取特征步骤得到的CNN层的输入维度为[68,40]的特征图;其中,68表示1.1秒的语音数据分为了6帧,40表示每一帧都提取出了40个MFCC特征;经过卷积操作后,所述特征图大小为[49,18,16]。6.根据权利要求1所述的一种基于可穿戴设备的神经网络多命令词识别方法,其特征在于,所述多命令词识别算法的重置即对GRU层的状态重置;所述GRU层提取序列帧之间信息步骤中的GRU层为单向GRU,且使用44个神经元,所述CNN层的输出经过维度重置后,输入到GRU层;其中,维度重置为[49,288],所述GRU层输出的维度为[44]。7.根据权利要求1所述的一种基于可穿戴设备的神经网络多命令词识...

【专利技术属性】
技术研发人员:纪盟盟王蒙胡光敏龚永康
申请(专利权)人:杭州芯声智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1