【技术实现步骤摘要】
本专利技术涉及语音识别,具体涉及基于噪声抑制残差网络的语音关键词识别方法。
技术介绍
1、深度学习算法进入了一个新的阶段,在语音识别等各种认知任务中,其准确性已经超过人类。越来越多的人工智能产品也进入到我们的日常生活中,人们工作、学习和生活的效率得到了极大提高。语音交互解放了人们的双手和双眼,将用户手部的工作量转移到语音交互设备,语音交互设备将语音转换成文字,再根据文字的内容对设备进行具体的指令控制,例如语音助手、命令控制、智能家居、手机等,在需要多种感官协同操作的场景下效率更高。语音交互设备大部分时间处于睡眠状态,等待并时刻检测唤醒词,当唤醒词发生时则监听用户的语音输入,激活语音交互程序。语音交互越来越成为未来科技感生活的潮流,从集成在其他设备中的辅助工具到独立的语音交互产品,也反映了语音交互的飞跃发展。
2、语音交互产品大多数都属于小型的嵌入式设备,并且使用语音关键词识别模型检测唤醒词,因此关键词识别模型要求占用内存小,计算低,同时还要保证检测的准确性,避免过多消耗语音交互设备有限的电量。此外,现有的语音关键词识别模型测
...【技术保护点】
1.基于噪声抑制残差网络的语音关键词识别方法,其特征在于,包括:
2.根据权利要求1所述基于噪声抑制残差网络的语音关键词识别方法,其特征在于,所述第一卷积层设置3个,每个卷积层包括一维深度可分离卷积、批归一化和Swish激活函数,其卷积核大小分别设置为3、5、1。
3.根据权利要求1所述基于噪声抑制残差网络的语音关键词识别方法,其特征在于,所述第二卷积层设置3个,每个卷积层包括一维深度可分离卷积、批归一化和Swish激活函数,其卷积核大小分别设置为17、19、1,卷积滤波器数量设置为128,128,128。
4.根据权利要求1所述基
...【技术特征摘要】
1.基于噪声抑制残差网络的语音关键词识别方法,其特征在于,包括:
2.根据权利要求1所述基于噪声抑制残差网络的语音关键词识别方法,其特征在于,所述第一卷积层设置3个,每个卷积层包括一维深度可分离卷积、批归一化和swish激活函数,其卷积核大小分别设置为3、5、1。
3.根据权利要求1所述基于噪声抑制残差网络的语音关键词识别方法,其特征在于,所述第二卷积层设置3个,每个卷积层包括一维深度可分离卷积、批归一化和swish激活函数,其卷积核大小分别设置为17、19、1,卷积滤波器数量设置为128,128,128。
4.根据权利要求1所述基于噪声抑制残差网络的语音关键词识别方法,其特征在于,在噪声抑制残差模块中,初步语音特征先经过频域特征提取层,再进入时域特征提取层,最后经过噪声抑制层的处理,与两个跳跃链接所携带的特征进行叠加,得到输出特征。
5.根据权利要求1所述基于噪声抑制残差网络的语音关键词识别方法,其特征在于,所述噪声抑制残差模块实现的整体流程为:
6.根据权利要求4或5所述基于噪声抑制残差网络的语音关键词识别方法,其特征在于,当初步语音特征流入频域特征提取层时,此时特征形状为忽略batch维度后,将初步语音特征x的形状以表示,其中h和w分别表示特征矩阵的高度和宽度;在提取频域特征时为了拟合二维深度可分离卷积的输入形状,使用unsqueeze函数为其增加一个维度,此时特征形状为之后通过二维卷积层并增加通道数量与swish激活函数处理,再经过二维深度可分离卷积提取频域特征与swish激活函数处理,最后使用二维卷积层还原通道数量并进行频带加权归一化与swish激活函数处理,最终通过squeeze函数压缩回形状作为频域特征提取层的输出y1;此时特征y1会被记录,通过跳跃链接方式与模块最终输出...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。