一种基于轻量级深度残差卷积网络的语音唤醒方法与装置制造方法及图纸

技术编号:34996863 阅读:46 留言:0更新日期:2022-09-21 14:45
本申请涉及深度学习及语音唤醒技术领域,更为具体来说,本申请涉及一种基于轻量级深度残差卷积网络的语音唤醒方法与装置。所述方法包括获取语音样本数据;将所述语音样本数据作为训练样本输入基于轻量级深度残差卷积网络的语音唤醒模型中进行训练;采用训练好的基于轻量级深度残差卷积网络的语音唤醒模型对目标语音进行唤醒;其中,所述基于轻量级深度残差卷积网络的语音唤醒模型设置有残差因果卷积模块。本申请提出的方法与装置既具备高效性,又具备准确性,从而大幅提升了语音唤醒的效率。效率。效率。

【技术实现步骤摘要】
一种基于轻量级深度残差卷积网络的语音唤醒方法与装置


[0001]本申请涉及深度学习及语音唤醒
,更为具体来说,本申请涉及一种基于轻量级深度残差卷积网络的语音唤醒方法与装置。

技术介绍

[0002]随着人机交互概念的兴起,越来越多的企业开始重视人机交互产品的研发,语音交互产品是当前的研发热点。通常在人与机器进行交互之前,设备处于休眠状态,只有当检测到关键词时,设备才会进入唤醒状态,等待用户指令,从而减少设备能耗。因此,设备在听到关键词后唤醒的效率以及唤醒的准确率将会影响用户的体验感受。
[0003]目前,RNN,GRU和LSTM等时序模型被证明在建模语音特征中表现优秀,但由于其无法进行并行运算,训练与预测效率低,而高精度的模型需要更多的隐层神经元进行学习,所以也无法同时满足高精度与实时性的需求。

技术实现思路

[0004]基于上述技术问题,本专利技术旨在基于轻量级深度残差卷积网络的语音唤醒模型对目标语音进行唤醒。
[0005]本专利技术第一方面提供了一种基于轻量级深度残差卷积网络的语音唤醒方法,所述方法包括:
[0006]获取语音样本数据;
[0007]将所述语音样本数据作为训练样本输入基于轻量级深度残差卷积网络的语音唤醒模型中进行训练;
[0008]采用训练好的基于轻量级深度残差卷积网络的语音唤醒模型对目标语音进行唤醒;
[0009]其中,所述基于轻量级深度残差卷积网络的语音唤醒模型设置有残差因果卷积模块。
[0010]在本专利技术的一些实施例中,基于轻量级深度残差卷积网络的语音唤醒模型还包括第一前馈网络和特征提取模块,所述采用训练好的基于轻量级深度残差卷积网络的语音唤醒模型对目标语音进行唤醒,包括:
[0011]将所述目标语音输入所述特征提取模块,转换为原始语音特征;
[0012]将所述原始语音特征输入所述第一前馈网络,进行非线性变换得到第一语音特征;
[0013]将所述第一语音特征输入所述残差因果卷积模块处理,得到所述目标语音对应的关键词概率。
[0014]在本专利技术的一些实施例中,所述残差因果卷积模块包括五层残差因果卷积块、非线性变换块、平均池化层和感知层;所述五层残差因果卷积块依次设置,每一层残差因果卷积块的卷积步长以2的倍数增长;所述非线性变换块包括两层第二前馈网络,每层第二前馈
网络同时集成有批归一化处理块。
[0015]在本专利技术的一些实施例中,所述将所述第一语音特征输入所述残差因果卷积模块处理,得到所述目标语音对应的关键词概率,包括:
[0016]第一层残差因果步骤,将所述第一语音特征经第一层残差因果卷积块执行卷积操作得到第二语音特征,将所述第二语音特征与所述第一语音特征进行加和操作后的结果输入第二层残差因果卷积块;
[0017]第二层残差因果步骤,将所述第二语音特征与所述第一语音特征进行加和操作后的结果经第二层残差因果卷积块执行卷积操作得到第三语音特征,将所述第三语音特征与所述第一语音特征、所述第二语音特征进行加和操作后的结果输入第三层残差因果卷积块;
[0018]按照第一层残差因果步骤和第二层残差因果步骤执行,依次得到第四语音特征、第五语音特征和第六语音特征;
[0019]将第二语音特征、第三语音特征、第四语音特征、第五语音特征和第六语音特征进行连接,得到第七语音特征;
[0020]将所述第七语音特征依次经非线性变换块、平均池化层和感知层处理,得到所述目标语音对应的关键词概率。
[0021]在本专利技术的一些实施例中,所述五层残差因果卷积块中的每一层残差因果卷积块均包括因果扩展卷积块和门激活函数,所述门激活函数公式为:
[0022]z=tanh(W
f
*x)

σ(W
g
*x)
[0023]其中,σ(
·
)为sigmoid函数,W
f
表示用于过滤的卷积核,W
g
表示用于门计算的卷积核,

表示点积,x表示因果扩展卷积块扩展结果,z表示门激活函数。
[0024]在本专利技术的一些实施例中,所述将所述目标语音输入所述特征提取模块,转换为原始语音特征,包括:
[0025]将所述目标语音依次进行预加重、分帧、加窗、快速傅里叶变换;
[0026]将快速傅里叶变换后得到的结果基于梅尔频率倒谱系数进行提取语音特征,得到所述原始语音特征。
[0027]在本专利技术的一些实施例中,所述将所述语音样本数据作为训练样本输入基于轻量级深度残差卷积网络的语音唤醒模型中进行训练之前,还包括:对所述语音样本数据进行语音增强变换操作,其中,所述语音增强变换操作至少包括语调变换、音量变换、淡入淡出变换、语速变换、首尾静音切割变换、带通滤波变换和带阻滤波变换。
[0028]本专利技术第二方面提供了一种基于轻量级深度残差卷积网络的语音唤醒装置,所述装置包括:
[0029]获取模块,用于获取语音样本数据;
[0030]训练模块,用于将所述语音样本数据作为训练样本输入基于轻量级深度残差卷积网络的语音唤醒模型中进行训练;
[0031]唤醒模块,用于采用训练好的基于轻量级深度残差卷积网络的语音唤醒模型对目标语音进行唤醒;
[0032]其中,所述基于轻量级深度残差卷积网络的语音唤醒模型设置有残差因果卷积模块。
[0033]本专利技术第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0034]获取语音样本数据;
[0035]将所述语音样本数据作为训练样本输入基于轻量级深度残差卷积网络的语音唤醒模型中进行训练;
[0036]采用训练好的基于轻量级深度残差卷积网络的语音唤醒模型对目标语音进行唤醒;
[0037]其中,所述基于轻量级深度残差卷积网络的语音唤醒模型设置有残差因果卷积模块。
[0038]本专利技术第四方面提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0039]获取语音样本数据;
[0040]将所述语音样本数据作为训练样本输入基于轻量级深度残差卷积网络的语音唤醒模型中进行训练;
[0041]采用训练好的基于轻量级深度残差卷积网络的语音唤醒模型对目标语音进行唤醒;
[0042]其中,所述基于轻量级深度残差卷积网络的语音唤醒模型设置有残差因果卷积模块。
[0043]本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
[0044]本申请先获取语音样本数据,再将所述语音样本数据作为训练样本输入基于轻量级深度残差卷积网络的语音唤醒模型中进行训练,最后采用训练好的基于轻量级深度残差卷积网络的语音唤醒模型对目标语音进行唤醒,既实现了高效性,又实现了精准性,从而大幅提升了语音唤醒的效率。特别是,所述基于轻量级深度残差卷积网络的语音唤醒模型中设置残差因果卷本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于轻量级深度残差卷积网络的语音唤醒方法,其特征在于,所述方法包括:获取语音样本数据;将所述语音样本数据作为训练样本输入基于轻量级深度残差卷积网络的语音唤醒模型中进行训练;采用训练好的基于轻量级深度残差卷积网络的语音唤醒模型对目标语音进行唤醒;其中,所述基于轻量级深度残差卷积网络的语音唤醒模型设置有残差因果卷积模块。2.根据权利要求1所述的基于轻量级深度残差卷积网络的语音唤醒方法,其特征在于,基于轻量级深度残差卷积网络的语音唤醒模型还包括第一前馈网络和特征提取模块,所述采用训练好的基于轻量级深度残差卷积网络的语音唤醒模型对目标语音进行唤醒,包括:将所述目标语音输入所述特征提取模块,转换为原始语音特征;将所述原始语音特征输入所述第一前馈网络,进行非线性变换得到第一语音特征;将所述第一语音特征输入所述残差因果卷积模块处理,得到所述目标语音对应的关键词概率。3.根据权利要求2所述的基于轻量级深度残差卷积网络的语音唤醒方法,其特征在于,所述残差因果卷积模块包括五层残差因果卷积块、非线性变换块、平均池化层和感知层;所述五层残差因果卷积块依次设置,每一层残差因果卷积块的卷积步长以2的倍数增长;所述非线性变换块包括两层第二前馈网络,每层第二前馈网络同时集成有批归一化处理块。4.根据权利要求3所述的基于轻量级深度残差卷积网络的语音唤醒方法,其特征在于,所述将所述第一语音特征输入所述残差因果卷积模块处理,得到所述目标语音对应的关键词概率,包括:第一层残差因果步骤,将所述第一语音特征经第一层残差因果卷积块执行卷积操作得到第二语音特征,将所述第二语音特征与所述第一语音特征进行加和操作后的结果输入第二层残差因果卷积块;第二层残差因果步骤,将所述第二语音特征与所述第一语音特征进行加和操作后的结果经第二层残差因果卷积块执行卷积操作得到第三语音特征,将所述第三语音特征与所述第一语音特征、所述第二语音特征进行加和操作后的结果输入第三层残差因果卷积块;按照第一层残差因果步骤和第二层残差因果步骤执行,依次得到第四语音特征、第五语音特征和第六语音特征;将第二语音特征、第三语音特征、第四语音特征、第五语音特征和第六语音特征进行连接,得到第七语音特征;将所述第七语音特征依次经非线性变换块、平均池化层和感知层处理,得到所述...

【专利技术属性】
技术研发人员:潘帅陈家银张伟陈曦麻志毅
申请(专利权)人:浙江省北大信息技术高等研究院杭州未名信科科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1