一种人声起止时间检测方法及装置制造方法及图纸

技术编号:23856233 阅读:44 留言:0更新日期:2020-04-18 11:15
本发明专利技术公开了一种人声起止时间检测方法及装置,包括:利用带噪的预设语音生成预设语音的第一倒谱特征,基于第一倒谱特征获得预测掩蔽值;根据预测掩蔽值对第一预设神经网络进行训练进而生成训练后的第一神经网络;利用训练后的第一神经网络得到带噪的预设VAD语音的预测mask值;根据预测mask值对第二预设神经网络进行训练进而生成训练后的第二神经网络;获取带噪的当前VAD语音,基于训练后的第一神经网络和训练后的第二神经网络获得带噪的当前VAD语音的起止时间。通过对带噪的VAD语音进行加降噪处理然后获得VAD标签进而确定上述VAD标签里人声的起止时间,排除了语音中的噪音成分,从根本上提高了整个过程的稳定性和获取结果的准确性。

A detection method and device of starting and ending time of voice

【技术实现步骤摘要】
一种人声起止时间检测方法及装置
本专利技术涉及语音数据处理
,尤其涉及一种人声起止时间检测方法及装置。
技术介绍
目前,语音通话功能、录音功能和音乐播放功能等是目前移动终端上的常用功能,由于在上述功能的运行过程中会在人声中间夹杂无声的片段、使得用户体验效果不佳。基于上述难题,现有技术的基于深度学习的方法通过利用带噪语音的频谱特征及其变种作为输入,得到该帧语音的标签。这种方法存在以下缺点:在有复杂噪声情况下的性能很差导致信噪比很低,在这种环境下不能准确的判断语音的VAD(语音端点检测)标签,进而无法确定语音中人声的开始时间和结束时间,效果不佳且稳定性低。
技术实现思路
针对上述所显示出来的问题,本方法基于预先训练降噪模型然后利用降噪模型对带噪的预设VAD语音进行降噪的同时得到预测mask值,根据预测mask值训练VAD模型然后利用训练后的VAD模型提取带噪的当前VAD标签进而确定带噪的当前VAD语音中的人声开始时间和结束时间。一种人声起止时间检测方法,包括以下步骤:利用带噪的预设语音生成所述预设语音的第一本文档来自技高网...

【技术保护点】
1.一种人声起止时间检测方法,其特征在于,包括以下步骤:/n利用带噪的预设语音生成所述预设语音的第一倒谱特征,基于所述第一倒谱特征获得预测掩蔽值;/n根据所述预测掩蔽值对第一预设神经网络进行训练进而生成训练后的第一神经网络;/n利用所述训练后的第一神经网络得到带噪的预设VAD语音的预测mask值;/n根据所述预测mask值对第二预设神经网络进行训练进而生成训练后的第二神经网络;/n获取带噪的当前VAD语音,基于所述训练后的第一神经网络和所述训练后的第二神经网络获得所述带噪的当前VAD语音中人声的起止时间。/n

【技术特征摘要】
1.一种人声起止时间检测方法,其特征在于,包括以下步骤:
利用带噪的预设语音生成所述预设语音的第一倒谱特征,基于所述第一倒谱特征获得预测掩蔽值;
根据所述预测掩蔽值对第一预设神经网络进行训练进而生成训练后的第一神经网络;
利用所述训练后的第一神经网络得到带噪的预设VAD语音的预测mask值;
根据所述预测mask值对第二预设神经网络进行训练进而生成训练后的第二神经网络;
获取带噪的当前VAD语音,基于所述训练后的第一神经网络和所述训练后的第二神经网络获得所述带噪的当前VAD语音中人声的起止时间。


2.根据权利要求1所述人声起止时间检测方法,其特征在于,所述利用带噪的预设语音生成所述预设语音的第一倒谱特征,基于所述第一倒谱特征获得预测掩蔽值,包括:
获取多个带噪的预设语音;
利用下列公式提取所述第一倒谱特征:
cepstral=ISTFT(log(STFT(mixture)));
其中,所述STFT()为短时傅里叶变换,所述ISTFT为短时逆傅里叶变换,所述mixture为带噪的预设语音;
将所述第一倒谱特征输入到所述第一预设神经网络中以计算所述预测掩蔽值。


3.根据权利要求2所述人声起止时间检测方法,其特征在于,所述根据所述预测掩蔽值对第一预设神经网络进行训练进而生成训练后的第一神经网络,包括:
获取多个纯净的预设语音;所述多个纯净的预设语音与所述多个带噪的预设语音相对应;
利用下列公式计算实际掩蔽值:



其中,所述pure为纯净的预设语音,所述θ为相位,|xx|为幅度;
计算所述实际掩蔽值和所述预测掩蔽值的差值;
通过前馈算法和所述差值对所述第一预设神经网络进行训练进而生成所述训练后的第一神经网络。


4.根据权利要求3所述人声起止时间检测方法,其特征在于,所述利用所述训练后的第一神经网络得到带噪的预设VAD语音的预测mask值,包括:
获取所述带噪的预设VAD语音;
提取所述带噪的预设VAD语音的第二倒谱特征;
将所述第二倒谱特征输入到所述训练后的第一神经网络中;
输出所述预测mask值;
所述根据所述预测mask值对第二预设神经网络进行训练进而生成训练后的第二神经网络,包括:
将所述预测mask值输入到所述第二预设神经网络中以计算预测VAD标签;
根据实际VAD标签和所述预设VAD标签的差值对所述预设第二神经网络进行训练以生成所述训练后的第二神经网络。


5.根据权利要求4所述人声起止时间检测方法,其特征在于,所述获取带噪的当前VAD语音,基于所述训练后的第一神经网络和所述训练后的第二神经网络获得所述带噪的当前VAD语音的起止时间,包括:
提取所述带噪的当前VAD语音的第三倒谱特征;
将所述第三倒谱特征输入到所述训练后的第一神经网络中以得到当前mask值;
将所述当前mask值输入到所述训练后的第二神经网络中以得到当前VAD标签;
根据所述当前VAD标签确定所述带噪的当前VAD语音中人声的起止时间。


6.一种人...

【专利技术属性】
技术研发人员:李庆龙关海欣
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1