一种语音检测方法与装置制造方法及图纸

技术编号：27460096 阅读：24 留言：0更新日期：2021-02-25 05:15

本申请实施例提供了一种语音检测方法和装置。该方法包括：将音频信号划分为多个具有时序性的音频帧，基于音频帧的声学特征，确定音频帧是有效语音的第一概率；获取与所述音频帧时序对齐的图像帧；基于所述图像帧的图像特征，确定所述图像帧中存在人物进行语音活动的第二概率；根据所述第一概率和所述第二概率，确定所述音频帧是否为有效语音帧，结合音频帧的时序性，可以得到音频信号中有效语音的起始点与终止点，从而实现语音端点检测。同时利用了音频信号的声学特征与对应的人物图像特征，在提高语音端点检测正确率的同时，避免因为使用两种特征而造成的错误结果的累加。用两种特征而造成的错误结果的累加。用两种特征而造成的错误结果的累加。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音检测方法与装置

[0001]本申请涉及语音处理领域，更具体地，涉及一种语音检测方法与装置。

技术介绍

[0002]语音端点检测，也称语音活动检测(voice activity detection，VAD)，是指从音频流中检测出有效语音片端，对语音和语音的区域进行区分。简单来说，语音端点检测就是从带有噪声的音频流中准确地定位出语音的开始点和结束点，排除噪音、静音等非有效语音，从而获得真正有效的语音片段。
[0003]语音端点检测在语音编码、语音识别、语音增强、说话人识别中起着非常重要的作用，是语音处理过程的重要组成部分。因此，希望提供一种方法，能够准确地从音频流中检测出有效语音。

技术实现思路

[0004]本申请实施例提供了一种语音检测方法和装置，以期获得准确地从音频流中检测出有效语音片段。
[0005]第一方面，本申请提供了一种语音检测方法，该方法包括：基于音频帧的声学特征，确定第一概率，所述第一概率为所述音频帧包含有效语音的概率；获取与所述音频帧时序对齐的图像帧；基于所述图像帧的图像...

【技术保护点】

【技术特征摘要】
1.一种语音检测方法，其特征在于，包括：基于音频帧的声学特征，确定第一概率，所述第一概率为所述音频帧包含有效语音的概率；获取与所述音频帧时序对齐的图像帧；基于所述图像帧的图像特征，确定第二概率，所述第二概率为所述图像帧中存在人物进行语音活动的概率；根据所述第一概率和所述第二概率，确定所述音频帧是否为有效语音帧。2.根据权利要求1所述的方法，其特征在于，所述音频帧是多个音频帧中的一个，所述图像帧是多个图像帧中的一个，所述多个音频帧与所述多个图像帧时序对齐。3.根据权利要求2所述的方法，其特征在于，在所述基于音频帧的声学特征，确定第一概率之前，所述方法还包括：基于注意力机制确定所述音频帧在音频帧片段中的注意力系数。4.根据权利要求1至3中任一项所述的方法，其特征在于，所述基于音频帧的声学特征，确定第一概率，包括：通过预先训练好的语音检测模型，基于所述音频帧的声学特征，确定所述第一概率。5.根据权利...

【专利技术属性】
技术研发人员：孙雅琳，迟人俊，桑海岩，廉士国，孙泽明，
申请(专利权)人：联通大数据有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人