一种语音端点检测方法、装置和存储介质制造方法及图纸

技术编号:36544277 阅读:17 留言:0更新日期:2023-02-04 16:55
本发明专利技术公开了一种语音端点检测方法、装置和存储介质,所述方法包括:获取第一音频数据;运用第一判别方法判别所述第一音频数据对应的第一频域音频信号,确定所述第一频域音频信号中每个时频点对应的第一概率;第一概率表征相应时频点目标语音的存在概率;根据预设的噪声信号对第一频域音频信号进行加噪处理,得到第二频域音频信号;运用第二判别方法判别所述第二频域音频信号,确定第二频域音频信号中每个时频点对应的第二概率;第二概率表征相应时频点目标语音的存在概率;根据每个所述时频点的第一概率和第二概率确定时频点的第三概率;第三概率表征相应时频点最终的目标语音的存在概率;根据每个时频点的第三概率确定帧级的语音存在概率。语音存在概率。语音存在概率。

【技术实现步骤摘要】
一种语音端点检测方法、装置和存储介质


[0001]本专利技术涉及语音信号处理技术,尤其涉及一种语音端点检测方法、装置和存储介质。

技术介绍

[0002]语音是人与人、人与机器之间交互最自然的媒介,噪声的干扰不仅会降低语音交互的质量,还会严重影响如语音识别和说话人识别等系统的性能。语音端点检测是让机器在嘈杂的环境中检测语音在某一时刻是否出现的技术,是很多语音信号系统的预处理步骤,具有十分重要的意义。不同的应用场景由于声学环境不同,需要不同的语音端点检测方法,本提案是针对电话信道场景提出的语音端点检测装置。
[0003]以手机等电子设备都配备的语音助手为例,首先通过对麦克风等前端拾音设备捕获的音频信号进行语音识别,然后基于识别文本通过自然语言理解分析用户意图,继而采取相应操作实现与用户的智能交互。然而,为了实现这一功能,语音助手必须首先通过语音端点检测装置准确判断用户说话的开始时间和结束时间,即从一段连续的音频流中区分出语音区和非语音区,继而确定主叫用户说话的开始点和结束点。因此,语音端点检测是与电话信道相关的语音前端处理的必要环节,对后续的交互处理性能表现起着至关重要的作用。
[0004]相关技术中提供了几种语音端点检测方法,例如:
[0005]基于声学特征的语音端点检测方法,如双门限法、谱熵法和方差法等。根据语音和非语音信号的一些声学特征区分语音和非语音。常用的声学特征包括短时能量、基频、过零率和能量熵等。
[0006]基于统计信号处理的语音端点检测方法,如最小统计量和最小均方误差估计等。从局部的观测值和累积的历史信息分布建立模型,分别对语音和背景噪声信号的分布进行模型假设,然后设计统计算法来动态估计模型参数。
[0007]基于有监督的语音端点检测方法,如基于深度神经网络的方法。将语音端点检测看成二分类问题,也就是对分帧之后的语音进行二分类的帧级语音/非语音判决,利用大量带标签的带噪语音训练判别模型。
[0008]然而上述几种方法分别具有一定缺陷,具体来说:
[0009]基于声学特征的语音端点检测方法适合安静的环境,即语音和非语音信号的声学特征差异显著,电话信道由于主叫用户使用场景的随机性,导致其声学环境极其复杂多变,因此该方法不适合用于电话信道场景。
[0010]基于统计信号处理的语音端点检测方法在参数更新的过程中,参考了长时的语音上下文信息,所以这种方法在大多数情况下比基于声学特征方法的性能好。统计模型的方法需要建立在噪声平稳等假设之上。因此,当电话信道在平稳噪声的声学环境下(如汽车引擎声、办公室空调声等)时,这个假设基本成立,统计信号方法可以达到较好的语音端点检测效果。但是,当电话信道在非平稳噪声场景下(如街道声、敲击键盘声、关门声等)时,这个
假设就无法准确地反映真实的数据分布,导致性能表现较差。
[0011]基于有监督的语音端点检测方法利用大量的语音和非语音样本,使用含有大量参数的深度神经网络模型学习真实的数据分布,不依赖任何的先验假设,通常在非平稳噪声环境下相比统计信号方法更具优势。但当训练和测试场景不一致时,模型的泛化性能相比统计信号方法较差。此外,除了上诉平稳噪声和非平稳噪声以外,电话信道声学环境中主叫用户附近其他人可能存在的说话声即人声干扰(如办公室周围同事的说话声等)也需要判断为非语音区,这给神经网络的训练带来了极大的挑战。首先,人声干扰和目标语音具有相似的语音结构,差异远小于语音和噪声的区别,这使得神经网络难以判别人声干扰和目标语音。然后,干扰人声的数量和类型随着声学环境的不同而不同,难以确定神经网络训练模型的代价函数。

技术实现思路

[0012]有鉴于此,本专利技术的主要目的在于提供一种语音端点检测方法、装置和存储介质。
[0013]为达到上述目的,本专利技术的技术方案是这样实现的:
[0014]本专利技术实施例提供了一种语音端点检测方法,所述方法包括:
[0015]获取第一音频数据;
[0016]运用第一判别方法判别所述第一音频数据对应的第一频域音频信号,确定所述第一频域音频信号中每个时频点对应的第一概率;所述第一概率表征相应时频点目标语音的存在概率;
[0017]根据预设的噪声信号对所述第一频域音频信号进行加噪处理,得到第二频域音频信号;运用第二判别方法判别所述第二频域音频信号,确定所述第二频域音频信号中每个时频点对应的第二概率;所述第二概率表征相应时频点目标语音的存在概率;
[0018]根据每个所述时频点的所述第一概率和所述第二概率确定每个所述时频点的第三概率;所述第三概率表征相应时频点最终的目标语音的存在概率;
[0019]根据每个所述时频点的第三概率确定帧级的语音存在概率。
[0020]上述方案中,所述运用第二判别方法判别所述第二频域音频信号,确定所述第二频域音频信号中每个时频点对应的第二概率,包括:
[0021]运用预设的判别模型,判别所述第二频域音频信号,确定所述第二频域音频信号中每个时频点对应的第二概率;
[0022]所述预设的判别模型基于深度神经网络对训练集训练得到,所述训练集包括:至少一组训练信号;所述训练信号包括纯净信号和相应纯净信号基于至少一种噪声频域信号按照设定信噪比加噪的带噪信号。
[0023]上述方案中,所述预设的噪声信号为所述深度神经网络训练时采用的噪声频域信号;
[0024]所述根据预设的噪声信号对所述第一频域音频信号进行加噪处理,得到第二频域音频信号,包括:
[0025]运用所述深度神经网络训练时采用的噪声频域信号,对所述第一频域音频信号进行加噪处理,得到第二频域音频信号。
[0026]上述方案中,所述根据每个所述时频点的所述第一概率和所述第二概率确定每个
所述时频点的第三概率,包括:
[0027]确定每个所述时频点的所述第一概率和所述第二概率的差值;
[0028]比较所述差值与预设差值阈值,根据比较结果确定所述第三概率。
[0029]上述方案中,所述根据每个所述时频点的第三概率确定帧级的语音存在概率,包括:
[0030]根据每帧音频信号对应的至少一个时频点中每个所述时频点的第三概率,确定每帧音频信号对应的语音存在概率。
[0031]上述方案中,所述运用第一判别方法判别所述第一音频数据对应的第一频域音频信号,确定所述第一频域音频信号中每个时频点对应的第一概率,包括:
[0032]运用统计信号处理针对所述第一音频数据对应的第一频域音频信号,确定所述第一频域音频信号中每个时频点对应的第一概率。
[0033]上述方案中,所述方法还包括:
[0034]根据每帧音频信号对应的语音存在概率,确定语音端点检测结果。
[0035]本专利技术实施例提供了一种语音端点检测装置,所述装置包括:获取模块、第一处理模块、第二处理模块、第三处理模块、第四处理模块;其中,
[0036]所述获取模块,用于获取第一音频数据;
[0037]所述第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音端点检测方法,其特征在于,所述方法包括:获取第一音频数据;运用第一判别方法判别所述第一音频数据对应的第一频域音频信号,确定所述第一频域音频信号中每个时频点对应的第一概率;所述第一概率表征相应时频点目标语音的存在概率;根据预设的噪声信号对所述第一频域音频信号进行加噪处理,得到第二频域音频信号;运用第二判别方法判别所述第二频域音频信号,确定所述第二频域音频信号中每个时频点对应的第二概率;所述第二概率表征相应时频点目标语音的存在概率;根据每个所述时频点的所述第一概率和所述第二概率确定每个所述时频点的第三概率;所述第三概率表征相应时频点最终的目标语音的存在概率;根据每个所述时频点的第三概率确定帧级的语音存在概率。2.根据权利要求1所述的方法,其特征在于,所述运用第二判别方法判别所述第二频域音频信号,确定所述第二频域音频信号中每个时频点对应的第二概率,包括:运用预设的判别模型,判别所述第二频域音频信号,确定所述第二频域音频信号中每个时频点对应的第二概率;所述预设的判别模型基于深度神经网络对训练集训练得到,所述训练集包括:至少一组训练信号;所述训练信号包括纯净信号和相应纯净信号基于至少一种噪声频域信号按照设定信噪比加噪的带噪信号。3.根据权利要求2所述的方法,其特征在于,所述预设的噪声信号为所述深度神经网络训练时采用的噪声频域信号;所述根据预设的噪声信号对所述第一频域音频信号进行加噪处理,得到第二频域音频信号,包括:运用所述深度神经网络训练时采用的噪声频域信号,对所述第一频域音频信号进行加噪处理,得到第二频域音频信号。4.根据权利要求1所述的方法,其特征在于,所述根据每个所述时频点的所述第一概率和所述第二概率确定每个所述时频点的第三概率,包括:确定每个所述时频点的所述第一概率和所述第二概率的差值;比较所述差值与预设差值阈值,根据比较结果确定所述第三概率。5.根据权利要求4所述的方法,其特征在于,所述根据每个所述时频点的第三概...

【专利技术属性】
技术研发人员:何礼
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1