一种基于轻量级深度残差卷积网络的语音唤醒方法与装置制造方法及图纸

技术编号:34996863 阅读:73 留言:0更新日期:2022-09-21 14:45
本申请涉及深度学习及语音唤醒技术领域,更为具体来说,本申请涉及一种基于轻量级深度残差卷积网络的语音唤醒方法与装置。所述方法包括获取语音样本数据;将所述语音样本数据作为训练样本输入基于轻量级深度残差卷积网络的语音唤醒模型中进行训练;采用训练好的基于轻量级深度残差卷积网络的语音唤醒模型对目标语音进行唤醒;其中,所述基于轻量级深度残差卷积网络的语音唤醒模型设置有残差因果卷积模块。本申请提出的方法与装置既具备高效性,又具备准确性,从而大幅提升了语音唤醒的效率。效率。效率。

【技术实现步骤摘要】
一种基于轻量级深度残差卷积网络的语音唤醒方法与装置


[0001]本申请涉及深度学习及语音唤醒
,更为具体来说,本申请涉及一种基于轻量级深度残差卷积网络的语音唤醒方法与装置。

技术介绍

[0002]随着人机交互概念的兴起,越来越多的企业开始重视人机交互产品的研发,语音交互产品是当前的研发热点。通常在人与机器进行交互之前,设备处于休眠状态,只有当检测到关键词时,设备才会进入唤醒状态,等待用户指令,从而减少设备能耗。因此,设备在听到关键词后唤醒的效率以及唤醒的准确率将会影响用户的体验感受。
[0003]目前,RNN,GRU和LSTM等时序模型被证明在建模语音特征中表现优秀,但由于其无法进行并行运算,训练与预测效率低,而高精度的模型需要更多的隐层神经元进行学习,所以也无法同时满足高精度与实时性的需求。

技术实现思路

[0004]基于上述技术问题,本专利技术旨在基于轻量级深度残差卷积网络的语音唤醒模型对目标语音进行唤醒。
[0005]本专利技术第一方面提供了一种基于轻量级深度残差卷积网络的语音唤醒方法,所述方法包括:本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于轻量级深度残差卷积网络的语音唤醒方法,其特征在于,所述方法包括:获取语音样本数据;将所述语音样本数据作为训练样本输入基于轻量级深度残差卷积网络的语音唤醒模型中进行训练;采用训练好的基于轻量级深度残差卷积网络的语音唤醒模型对目标语音进行唤醒;其中,所述基于轻量级深度残差卷积网络的语音唤醒模型设置有残差因果卷积模块。2.根据权利要求1所述的基于轻量级深度残差卷积网络的语音唤醒方法,其特征在于,基于轻量级深度残差卷积网络的语音唤醒模型还包括第一前馈网络和特征提取模块,所述采用训练好的基于轻量级深度残差卷积网络的语音唤醒模型对目标语音进行唤醒,包括:将所述目标语音输入所述特征提取模块,转换为原始语音特征;将所述原始语音特征输入所述第一前馈网络,进行非线性变换得到第一语音特征;将所述第一语音特征输入所述残差因果卷积模块处理,得到所述目标语音对应的关键词概率。3.根据权利要求2所述的基于轻量级深度残差卷积网络的语音唤醒方法,其特征在于,所述残差因果卷积模块包括五层残差因果卷积块、非线性变换块、平均池化层和感知层;所述五层残差因果卷积块依次设置,每一层残差因果卷积块的卷积步长以2的倍数增长;所述非线性变换块包括两层第二前馈网络,每层第二前馈网络同时集成有批归一化处理块。4.根据权利要求3所述的基于轻量级深度残差卷积网络的语音唤醒方法,其特征在于,所述将所述第一语音特征输入所述残差因果卷积模块处理,得到所述目标语音对应的关键词概率,包括:第一层残差因果步骤,将所述第一语音特征经第一层残差因果卷积块执行卷积操作得到第二语音特征,将所述第二语音特征与所述第一语音特征进行加和操作后的结果输入第二层残差因果卷积块;第二层残差因果步骤,将所述第二语音特征与所述第一语音特征进行加和操作后的结果经第二层残差因果卷积块执行卷积操作得到第三语音特征,将所述第三语音特征与所述第一语音特征、所述第二语音特征进行加和操作后的结果输入第三层残差因果卷积块;按照第一层残差因果步骤和第二层残差因果步骤执行,依次得到第四语音特征、第五语音特征和第六语音特征;将第二语音特征、第三语音特征、第四语音特征、第五语音特征和第六语音特征进行连接,得到第七语音特征;将所述第七语音特征依次经非线性变换块、平均池化层和感知层处理,得到所述...

【专利技术属性】
技术研发人员:潘帅陈家银张伟陈曦麻志毅
申请(专利权)人:浙江省北大信息技术高等研究院杭州未名信科科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1