一种音频的端点检测方法及设备技术

技术编号：33054597 阅读：15 留言：0更新日期：2022-04-15 09:40

本申请的目的是提供一种音频的端点检测方法及设备，本申请通过获取待处理的目标音频及其对应的总时长；基于目标音频的总时长，依序对目标音频进行频域变换、特征提取及有效特征过滤，得到目标音频中的每个采样时刻对应的有效特征向量和采样序号，及相邻的两个采样时刻之间的绝对时差；基于每个采样时刻对应的有效特征向量，分别预测每个采样时刻的类别和每个采样时刻与目标音频的真实端点的时刻之间的相对偏差；基于绝对时差和每个采样时刻对应的采样序号、类别及与目标音频的真实端点的时刻之间的相对偏差，确定目标音频的起始端点的时刻和终止端点的时刻，实现对带有强噪声干扰的音频进行准确的端点检测，同时计算量低，速度快。度快。度快。

全部详细技术资料下载

【技术实现步骤摘要】
一种音频的端点检测方法及设备

[0001]本申请涉及计算机
，尤其涉及一种音频的端点检测方法及设备。

技术介绍

[0002]随着现在科技的不断发展和进步，人们的生活水平也在不断的提升，网络世界也在大大的方便和服务我们的生活。在生活中，人们之间从最初的通过网络输入文字实现交流的方式，逐渐转换为通过网络输入语音实现交流，但在发送语音的过程中，由于每个人所处环境不同，不可避免会出现发送语音不清晰，噪音很大，甚至没有声音等情况，则就需要在得到语音片段后，从连续的语音流中检测出有效的语音段。
[0003]比如，在现有技术中，可以通过语音端点检测从连续的语音流中检测出有效的语音段，该语音端点检测包括两个方面，一方面检测出有效语音的起始点，即前端点，另一方面检测出有效语音的结束点即后端点，该语音端点检测的目的是从声音信号流里识别和消除长时间的静音期或无用的声音信号。
[0004]现有技术中，还可以通过传统的语音端点检测方法，具体包括语音信号预处理、端点检测两个过程，其中，在语音信号预处理过程中，语音信号是一个以时间为自变量的一维连续函数，计算机处理的语音数据是语音信号按时间排序的采样值序列，这些采样值的大小同样表示了语音信号在采样点处的能量。采样点的能量通常使用采样值的平方，一段包含N个采样点的语音的能量值可以定义为其中各采样值的平方和。这样，一段语音的能量值即与其中的采样值有关，又与其中包含的采样点数量有关。为了考察语音能量值的变化，需要先将语音信号按照固定时长(比如20毫秒等)进行分割，每个分割单元称为帧...

【技术保护点】

【技术特征摘要】
1.一种音频的端点检测方法，其中，所述方法包括：获取待处理的目标音频及其对应的总时长；基于所述目标音频的总时长，依序对所述目标音频进行频域变换、特征提取及有效特征过滤，得到所述目标音频中的每个采样时刻对应的有效特征向量和采样序号，及相邻的两个采样时刻之间的绝对时差；基于每个所述采样时刻对应的有效特征向量，分别预测每个所述采样时刻的类别和每个所述采样时刻与所述目标音频的真实端点的时刻之间的相对偏差；基于所述绝对时差和每个所述采样时刻对应的采样序号、类别及与所述目标音频的真实端点的时刻之间的相对偏差，确定所述目标音频的起始端点的时刻和终止端点的时刻。2.根据权利要求1所述的方法，其中，所述基于所述目标音频的总时长，依序对所述目标音频进行频域变换和特征提取，得到所述目标音频中的每个采样时刻对应的特征向量和采样序号，及相邻的两个采样时刻之间的绝对时差，包括：对所述目标音频进行频域变换，得到变换后的目标音频；基于所述目标音频的总时长，对所述变换后的目标音频进行特征提取，得到所述目标音频中的每个采样时刻对应的初始特征向量和采样序号，及相邻的两个采样时刻之间的绝对时差；分别对每个所述采样时刻对应的初始特征向量进行有效特征过滤，得到每个所述采样时刻对应的有效特征向量。3.根据权利要求2所述的方法，其中，所述基于所述目标音频的总时长，对所述变换后的目标音频进行特征提取，得到所述目标音频中的每个采样时刻对应的初始特征向量和采样序号，及相邻的两个采样时刻之间的绝对时差，包括:基于所述目标音频的总时长，将所述变换后的目标音频输入至编码器进行特征提取，得到所述目标音频中的每个采样时刻对应的初始特征向量和采样序号，及相邻的两个采样时刻之间的绝对时差；其中，所述编码器由三个卷积神经网络和两个池化层交替组成。4.根据权利要求2所述的方法，其中，所述分别对每个所述采样时刻对应的初始特征向量进行有效特征过滤，得到每...

【专利技术属性】
技术研发人员：ꢀ七四专利代理机构，
申请(专利权)人：上海蜜度信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人