一种语音端点检测方法、装置和存储介质制造方法及图纸

技术编号：36544277 阅读：17 留言：0更新日期：2023-02-04 16:55

本发明专利技术公开了一种语音端点检测方法、装置和存储介质，所述方法包括：获取第一音频数据；运用第一判别方法判别所述第一音频数据对应的第一频域音频信号，确定所述第一频域音频信号中每个时频点对应的第一概率；第一概率表征相应时频点目标语音的存在概率；根据预设的噪声信号对第一频域音频信号进行加噪处理，得到第二频域音频信号；运用第二判别方法判别所述第二频域音频信号，确定第二频域音频信号中每个时频点对应的第二概率；第二概率表征相应时频点目标语音的存在概率；根据每个所述时频点的第一概率和第二概率确定时频点的第三概率；第三概率表征相应时频点最终的目标语音的存在概率；根据每个时频点的第三概率确定帧级的语音存在概率。语音存在概率。语音存在概率。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音端点检测方法、装置和存储介质

[0001]本专利技术涉及语音信号处理技术，尤其涉及一种语音端点检测方法、装置和存储介质。

技术介绍

[0002]语音是人与人、人与机器之间交互最自然的媒介，噪声的干扰不仅会降低语音交互的质量，还会严重影响如语音识别和说话人识别等系统的性能。语音端点检测是让机器在嘈杂的环境中检测语音在某一时刻是否出现的技术，是很多语音信号系统的预处理步骤，具有十分重要的意义。不同的应用场景由于声学环境不同，需要不同的语音端点检测方法，本提案是针对电话信道场景提出的语音端点检测装置。
[0003]以手机等电子设备都配备的语音助手为例，首先通过对麦克风等前端拾音设备捕获的音频信号进行语音识别，然后基于识别文本通过自然语言理解分析用户意图，继而采取相应操作实现与用户的智能交互。然而，为了实现这一功能，语音助手必须首先通过语音端点检测装置准确判断用户说话的开始时间和结束时间，即从一段连续的音频流中区分出语音区和非语音区，继而确定主叫用户说话的开始点和结束点。因此，语音端点检测是与电话信道相关的语音前端处理的必要环节，对后续的交互处理性能表现起着至关重要的作用。
[0004]相关技术中提供了几种语音端点检测方法，例如：
[0005]基于声学特征的语音端点检测方法，如双门限法、谱熵法和方差法等。根据语音和非语音信号的一些声学特征区分语音和非语音。常用的声学特征包括短时能量、基频、过零率和能量熵等。
[0006]基于统计信号处理的语音端点检测方法，如最小统计量和最小均方误差估计...

【技术保护点】

【技术特征摘要】
1.一种语音端点检测方法，其特征在于，所述方法包括：获取第一音频数据；运用第一判别方法判别所述第一音频数据对应的第一频域音频信号，确定所述第一频域音频信号中每个时频点对应的第一概率；所述第一概率表征相应时频点目标语音的存在概率；根据预设的噪声信号对所述第一频域音频信号进行加噪处理，得到第二频域音频信号；运用第二判别方法判别所述第二频域音频信号，确定所述第二频域音频信号中每个时频点对应的第二概率；所述第二概率表征相应时频点目标语音的存在概率；根据每个所述时频点的所述第一概率和所述第二概率确定每个所述时频点的第三概率；所述第三概率表征相应时频点最终的目标语音的存在概率；根据每个所述时频点的第三概率确定帧级的语音存在概率。2.根据权利要求1所述的方法，其特征在于，所述运用第二判别方法判别所述第二频域音频信号，确定所述第二频域音频信号中每个时频点对应的第二概率，包括：运用预设的判别模型，判别所述第二频域音频信号，确定所述第二频域音频信号中每个时频点对应的第二概率；所述预设的判别模型基于深度神经网络对训练集训练得到，所述训练集包括：至少一组训练信号；所述训练信号包括纯净信号和相应纯净信号基于至少一种噪声频域信号按照设定信噪比加噪的带噪信号。3.根据权利要求2所述的方法，其特征在于，所述预设的噪声信号为所述深度神经网络训练时采用的噪声频域信号；所述根据预设的噪声信号对所述第一频域音频信号进行加噪处理，得到第二频域音频信号，包括：运用所述深度神经网络训练时采用的噪声频域信号，对所述第一频域音频信号进行加噪处理，得到第二频域音频信号。4.根据权利要求1所述的方法，其特征在于，所述根据每个所述时频点的所述第一概率和所述第二概率确定每个所述时频点的第三概率，包括：确定每个所述时频点的所述第一概率和所述第二概率的差值；比较所述差值与预设差值阈值，根据比较结果确定所述第三概率。5.根据权利要求4所述的方法，其特征在于，所述根据每个所述时频点的第三概...

【专利技术属性】
技术研发人员：何礼，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人