【技术实现步骤摘要】
一种基于谱减的深度学习语音端点检测方法和系统
本专利技术涉及语音信号处理
,尤其涉及一种基于谱减的深度学习语音端点检测方法和系统。
技术介绍
近十年来,随着人工智能的兴起发展,语音信号处理领域大量引进了深度学习方法,特别是在语音识别,说话人识别,语音合成,语音增强等方面都已经实现了产品落地。但是大多技术都还受限于硬件设备,效率达不到实时处理,无法满足人机智能互动需求。语音端点检测技术是一种确定语音起始点和结束点,可以有效地消除噪声和静音,从而提取有效语音信号,提高后续语音处理系统效率,是一种必不可少的前端预处理技术。在语音处理系统中,由于噪声干扰,语音端点检测往往不准确。目前大量的研究都是基于特征设计来优化检测,该方法效率低,受限于单一噪声环境。如何在低信噪比和高复杂的噪声环境进行语音端点检测依然是一个问题。此外,现有技术CN201910917881.6一种基于深度学习的语音端点检测方法及系统,其采用原始信号作为输入,利于网络分别提取声学特征,时域特征和频域特征,对应的结果再拼接组合,由于输入是 ...
【技术保护点】
1.一种基于谱减的深度学习语音端点检测方法,其特征在于,包括如下步骤:/n步骤一:随机以不同信噪比叠加干净语音和噪声,生成含噪语音训练数据集,用于模拟含噪语音;并依次计算含噪语音信息特征,干净语音信息特征,噪声语音信息特征,干净语音检测状态,构建训练语音帧信息特征数据集;/n步骤二:搭建基于谱减的语音估计,噪声估计和语音状态检测三分支深度学习网络,并训练所述三分支深度学习网络,以实现语音端点检测概率估计;/n步骤三:输入原始语音信号,计算对应信息特征,基于三分支深度学习网络,以信息特征计算前向运算得到语音检测状态概率值;/n步骤四:根据语音检测状态概率值,设置阈值,滑动窗口 ...
【技术特征摘要】
1.一种基于谱减的深度学习语音端点检测方法,其特征在于,包括如下步骤:
步骤一:随机以不同信噪比叠加干净语音和噪声,生成含噪语音训练数据集,用于模拟含噪语音;并依次计算含噪语音信息特征,干净语音信息特征,噪声语音信息特征,干净语音检测状态,构建训练语音帧信息特征数据集;
步骤二:搭建基于谱减的语音估计,噪声估计和语音状态检测三分支深度学习网络,并训练所述三分支深度学习网络,以实现语音端点检测概率估计;
步骤三:输入原始语音信号,计算对应信息特征,基于三分支深度学习网络,以信息特征计算前向运算得到语音检测状态概率值;
步骤四:根据语音检测状态概率值,设置阈值,滑动窗口综合打分,检测语音的起止点,判断是语音或非语音。
2.根据权利要求1所述的一种基于谱减的深度学习语音端点检测方法,其特征在于:
步骤一中,生成含噪语音训练数据集的方法为:先分别计算干净语音和噪声的信噪比大小,然后随机生成一个信噪比值,然后按新信噪比值和原信噪比值的比例叠加干净语音和噪声。
3.根据权利要求1或2所述的一种基于谱减的深度学习语音端点检测方法,其特征在于:
步骤一中,语音特征提取的方法为:将生成含噪语音进行Bark域频带变换,根据频带范围不同划分18个子带,然后对应子带能量取对数获得倒谱信息,再计算离散余弦变换,最后得到18维BFCC特征,基于BFCC特征,分别进行一次和两次差分计算,分别取前6个,组成12维一二阶BFCC动态分量特征,计算信号的自相关结果,然后取其第二个极值点作为1维基音周期特征,并全部拼接组合成31维语音信息特征。
4.根据权利要求1所述的一种基于谱减的深度学习语音端点检测方法,其特征在于:
步骤二中,训练三分支深度学习网络的方法包括:以训练语音帧信息特征数据集中的含噪语音信息特征为输入,采用梯度下降算法逼近训练语音帧信息特征数据集中的干净语音信息特征、噪声语音信息特征和干净语音检测状态,从而训练三分支深度学习网络,所述三分支深度学习网络分别为语音估计网络、噪声估计网络、语音状态检测网络。
5.根据权利要求4所述的一种基于谱减的深度学习语音端点检测方法,其特征在于:
所述噪声估计网络包括一层门限循环GRU单元结构,损失函数为均方误差;所述语音估计网络包括一层全连接DENSE单元结构和一层门限循环GRU单元结构,损失...
【专利技术属性】
技术研发人员:刘杨,伍强,
申请(专利权)人:四川长虹电器股份有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。