一种音频的端点检测方法及设备技术

技术编号:33054597 阅读:15 留言:0更新日期:2022-04-15 09:40
本申请的目的是提供一种音频的端点检测方法及设备,本申请通过获取待处理的目标音频及其对应的总时长;基于目标音频的总时长,依序对目标音频进行频域变换、特征提取及有效特征过滤,得到目标音频中的每个采样时刻对应的有效特征向量和采样序号,及相邻的两个采样时刻之间的绝对时差;基于每个采样时刻对应的有效特征向量,分别预测每个采样时刻的类别和每个采样时刻与目标音频的真实端点的时刻之间的相对偏差;基于绝对时差和每个采样时刻对应的采样序号、类别及与目标音频的真实端点的时刻之间的相对偏差,确定目标音频的起始端点的时刻和终止端点的时刻,实现对带有强噪声干扰的音频进行准确的端点检测,同时计算量低,速度快。度快。度快。

【技术实现步骤摘要】
一种音频的端点检测方法及设备


[0001]本申请涉及计算机
,尤其涉及一种音频的端点检测方法及设备。

技术介绍

[0002]随着现在科技的不断发展和进步,人们的生活水平也在不断的提升,网络世界也在大大的方便和服务我们的生活。在生活中,人们之间从最初的通过网络输入文字实现交流的方式,逐渐转换为通过网络输入语音实现交流,但在发送语音的过程中,由于每个人所处环境不同,不可避免会出现发送语音不清晰,噪音很大,甚至没有声音等情况,则就需要在得到语音片段后,从连续的语音流中检测出有效的语音段。
[0003]比如,在现有技术中,可以通过语音端点检测从连续的语音流中检测出有效的语音段,该语音端点检测包括两个方面,一方面检测出有效语音的起始点,即前端点,另一方面检测出有效语音的结束点即后端点,该语音端点检测的目的是从声音信号流里识别和消除长时间的静音期或无用的声音信号。
[0004]现有技术中,还可以通过传统的语音端点检测方法,具体包括语音信号预处理、端点检测两个过程,其中,在语音信号预处理过程中,语音信号是一个以时间为自变量的一维连续函数,计算机处理的语音数据是语音信号按时间排序的采样值序列,这些采样值的大小同样表示了语音信号在采样点处的能量。采样点的能量通常使用采样值的平方,一段包含N个采样点的语音的能量值可以定义为其中各采样值的平方和。这样,一段语音的能量值即与其中的采样值有关,又与其中包含的采样点数量有关。为了考察语音能量值的变化,需要先将语音信号按照固定时长(比如20毫秒等)进行分割,每个分割单元称为帧,每帧中包含数量相同的采样点,计算每帧语音的能量值即为对应所有采样点的能量总和。在端点检测过程中,如果音频前面部分连续若干帧的能量值低于一个预先指定的能量值阈值,接下来的该连续若干帧能量值大于该能量值阈值,则在语音能量值增大的地方就是语音的前端点。同样的,如果连续的若干帧语音能量值较大,随后的若干帧能量值变小,并且持续一定的时长,可以认为在能量值减小的地方即是语音的后端点。但传统的语音端点检测方法对于现实的场景中往往会有一定强度的噪声,但其能量值显然不为0,特别是当带有背景音乐时,其基础能量值可能接近人声甚至大于人声,但对于仅带有背景音乐的片段,又是希望过滤掉的,导致采用传统的语音端点检测方法是无法对带有强噪声干扰的音频进行准确的端点检测。
[0005]现有技术中,还可以采用基于DNN(深度神经网络,Deep Neural Network)

LSTM(长短期记忆网络,Long Short

Term Memory)的语音端点检测方法,在基于DNN

LSTM的语音端点检测方法中,结合了善于数据进行非线性变换的DNN和善于对时间序列分析的能力的LSTM,对音频的采样进行二分类(端点或非端点)来确定端点位置。但由于对音频的采样频率为200Hz,因此每秒模型在LSTM部分需要进行200次的卷积计算,计算量巨大,不适于工程化。
[0006]因此,通过传统的现有检测方法,无法对带有强噪声干扰的音频进行准确的端点
检测;再者,基于DNN

LSTM的语音端点检测方法计算量又过大,速度慢。

技术实现思路

[0007]本申请的一个目的是提供一种音频的端点检测方法及设备,解决了传统语音端点检测遇到的具有大量背景噪音的音频时,无法准确检测端点的同时降低计算量以提高速度的问题。
[0008]根据本申请的一个方面,提供了一种音频的端点检测方法,其中,所述方法包括:
[0009]获取待处理的目标音频及其对应的总时长;
[0010]基于所述目标音频的总时长,依序对所述目标音频进行频域变换、特征提取及有效特征过滤,得到所述目标音频中的每个采样时刻对应的有效特征向量和采样序号,及相邻的两个采样时刻之间的绝对时差;
[0011]基于每个所述采样时刻对应的有效特征向量,分别预测每个所述采样时刻的类别和每个所述采样时刻与所述目标音频目标音频的真实端点的时刻之间的相对偏差;
[0012]基于所述绝对时差和每个所述采样时刻对应的采样序号、类别及与所述目标音频目标音频的真实端点的时刻之间的相对偏差,确定所述目标音频目标音频的起始端点的时刻和终止端点的时刻。
[0013]进一步地,上述方法中,所述基于所述目标音频的总时长,依序对所述目标音频进行频域变换和特征提取,得到所述目标音频中的每个采样时刻对应的特征向量和采样序号,及相邻的两个采样时刻之间的绝对时差,包括:
[0014]对所述目标音频进行频域变换,得到变换后的目标音频;
[0015]基于所述目标音频的总时长,对所述变换后的目标音频进行特征提取,得到所述目标音频中的每个采样时刻对应的初始特征向量和采样序号,及相邻的两个采样时刻之间的绝对时差;
[0016]分别对每个所述采样时刻对应的初始特征向量进行有效特征过滤,得到每个所述采样时刻对应的有效特征向量。
[0017]进一步地,上述方法中,所述基于所述目标音频的总时长,对所述变换后的目标音频进行特征提取,得到所述目标音频中的每个采样时刻对应的初始特征向量和采样序号,及相邻的两个采样时刻之间的绝对时差,包括:
[0018]基于所述目标音频的总时长,将所述变换后的目标音频输入至编码器进行特征提取,得到所述目标音频中的每个采样时刻对应的初始特征向量和采样序号,及相邻的两个采样时刻之间的绝对时差;
[0019]其中,所述编码器由三个卷积神经网络和两个池化层交替组成。
[0020]进一步地,上述方法中,所述分别对每个所述采样时刻对应的初始特征向量进行有效特征过滤,得到每个所述采样时刻对应的有效特征向量,包括:
[0021]分别将每个所述采样时刻对应的初始特征向量输入至长短期记忆网络进行有效特征过滤,得到每个所述采样时刻对应的有效特征向量。
[0022]进一步地,上述方法中,所述基于每个所述采样时刻对应的有效特征向量,分别预测每个所述采样时刻的类别和每个所述采样时刻与所述目标音频目标音频的真实端点的时刻之间的相对偏差,包括:
[0023]将每个所述采样时刻对应的有效特征向量输入至softmax逻辑回归函数中,分别预测每个所述采样时刻的类别;同时,
[0024]将每个所述采样时刻对应的有效特征向量输入至用于预测当前时刻与真实端点的时刻之间的相对偏差的预测函数,分别预测每个采样时刻与所述目标音频目标音频的真实端点的时刻之间的相对偏差。
[0025]进一步地,上述方法中,所述基于所述绝对时差和每个所述采样时刻对应的采样序号、类别及与所述目标音频目标音频的真实端点的时刻之间的相对偏差,确定所述目标音频目标音频的起始端点的时刻和终止端点的时刻,包括:
[0026]基于所述绝对时差和每个所述采样时刻与所述目标音频目标音频的真实端点的时刻之间的相对偏差,得到每个所述采样时刻与所述目标音频目标音频的真实端点的时刻之间的真实偏差;
[0027本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频的端点检测方法,其中,所述方法包括:获取待处理的目标音频及其对应的总时长;基于所述目标音频的总时长,依序对所述目标音频进行频域变换、特征提取及有效特征过滤,得到所述目标音频中的每个采样时刻对应的有效特征向量和采样序号,及相邻的两个采样时刻之间的绝对时差;基于每个所述采样时刻对应的有效特征向量,分别预测每个所述采样时刻的类别和每个所述采样时刻与所述目标音频的真实端点的时刻之间的相对偏差;基于所述绝对时差和每个所述采样时刻对应的采样序号、类别及与所述目标音频的真实端点的时刻之间的相对偏差,确定所述目标音频的起始端点的时刻和终止端点的时刻。2.根据权利要求1所述的方法,其中,所述基于所述目标音频的总时长,依序对所述目标音频进行频域变换和特征提取,得到所述目标音频中的每个采样时刻对应的特征向量和采样序号,及相邻的两个采样时刻之间的绝对时差,包括:对所述目标音频进行频域变换,得到变换后的目标音频;基于所述目标音频的总时长,对所述变换后的目标音频进行特征提取,得到所述目标音频中的每个采样时刻对应的初始特征向量和采样序号,及相邻的两个采样时刻之间的绝对时差;分别对每个所述采样时刻对应的初始特征向量进行有效特征过滤,得到每个所述采样时刻对应的有效特征向量。3.根据权利要求2所述的方法,其中,所述基于所述目标音频的总时长,对所述变换后的目标音频进行特征提取,得到所述目标音频中的每个采样时刻对应的初始特征向量和采样序号,及相邻的两个采样时刻之间的绝对时差,包括:基于所述目标音频的总时长,将所述变换后的目标音频输入至编码器进行特征提取,得到所述目标音频中的每个采样时刻对应的初始特征向量和采样序号,及相邻的两个采样时刻之间的绝对时差;其中,所述编码器由三个卷积神经网络和两个池化层交替组成。4.根据权利要求2所述的方法,其中,所述分别对每个所述采样时刻对应的初始特征向量进行有效特征过滤,得到每...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:上海蜜度信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1