音频数据分割方法及装置制造方法及图纸

技术编号：37568842 阅读：23 留言：0更新日期：2023-05-15 07:48

本发明专利技术实施例公开了一种音频数据分割方法及装置，通过将获取的音频数据进行分段，以在各分段处以预定长度的搜寻窗口搜索最大静音片段，根据搜索到的最大静音片段起始位置和终止位置确定音频分割点并进行分割。由此，减少了音频分割时的计算量，缩短了音频分割时间，同时使分割后得到的音频段长度比较均匀，便于后续处理。便于后续处理。便于后续处理。

全部详细技术资料下载

【技术实现步骤摘要】
音频数据分割方法及装置

[0001]本专利技术涉及音频
，具体涉及一种音频数据分割方法及装置。

技术介绍

[0002]随着社会的发展，人们在日常生活及工作中对语音识别的应用越来越广泛。
[0003]语音识别应用中，从提供音频给识别器到获得完整识别结果所需要的时间，称为端到端延时时间。通常情况下，它与输入语音的长度正相关。在长语音识别应用场景中，语音数据较长，端到端延时也更明显。为减少长语音识别系统的端到端延时，针对语音数据被一次性提供的特点，系统可采取并行识别方式进行识别，也就是首先将输入音频分割为若干片段，然后在不同的处理器上对各分段同时进行识别，最后将各分段的识别结果进行合并来得到完整的识别结果。为进行并行语音识别，需要将音频数据进行分割。音频中的静音片段是进行语音分割的合适位置。VAD(Voice Act ivity Detect i on，语音活动检测)技术可用来在音频数据寻找静音片段。为寻找静音片段，VAD传统方式是从左到右扫描整个音频，在扫描过程中，依次判定每个音频帧是否为静音帧，当接连(不一定连续)的静音帧数目超过一定阈值后，就判定为检测到一个静音片段。
[0004]然而，使用传统方式进行语音分割时，需要对所有音频帧都进行处理，计算量大。由于处理时长与输入音频的时长成正比，当音频较长时用时也较大。而且，传统方式扫描得到所有静音片段之后，在其中选用哪些静音片段进行实际分割的算法也相对复杂。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供了一种音频数据分割方法...

【技术保护点】

【技术特征摘要】
1.一种音频数据分割方法，其特征在于，所述方法包括：获取包括语音的音频数据；将所述音频数据按第一长度进行分段，确定分段点；在所有分段点处确定预定长度的搜寻窗口，所述搜寻窗口长度为第二长度；在各搜寻窗口内的音频数据中搜索最大静音片段；根据搜索到的最大静音片段起始位置和终止位置确定分割点并进行分割；其中，所述第一长度大于所述第二长度。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据所述音频数据长度和预期分段数确定所述第一长度。3.根据权利要求1所述的方法，其特征在于，所述搜寻窗口内至少存在一个静音片段。4.根据权利要求1所述的方法，其特征在于，所述搜索最大静音片段包括：通过语音活动检测算法来搜索最大静音片段。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：以并行方式对多个搜寻窗口进行语音活动检测。6.根据权利要求1所述的方法，其特征在于，所述根据搜索到的最大静音片段起始位置和终止位置确定分割点并进行分割，具体为：以搜索到的最大静音片段起始位置向后延长第三长度处作为第一分割点并进行分割，以搜索到的最大静音片段终止位置向...

【专利技术属性】
技术研发人员：白高峰，李志飞，
申请(专利权)人：出门问问信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人