音频数据分割方法及装置制造方法及图纸

技术编号:37568842 阅读:23 留言:0更新日期:2023-05-15 07:48
本发明专利技术实施例公开了一种音频数据分割方法及装置,通过将获取的音频数据进行分段,以在各分段处以预定长度的搜寻窗口搜索最大静音片段,根据搜索到的最大静音片段起始位置和终止位置确定音频分割点并进行分割。由此,减少了音频分割时的计算量,缩短了音频分割时间,同时使分割后得到的音频段长度比较均匀,便于后续处理。便于后续处理。便于后续处理。

【技术实现步骤摘要】
音频数据分割方法及装置


[0001]本专利技术涉及音频
,具体涉及一种音频数据分割方法及装置。

技术介绍

[0002]随着社会的发展,人们在日常生活及工作中对语音识别的应用越来越广泛。
[0003]语音识别应用中,从提供音频给识别器到获得完整识别结果所需要的时间,称为端到端延时时间。通常情况下,它与输入语音的长度正相关。在长语音识别应用场景中,语音数据较长,端到端延时也更明显。为减少长语音识别系统的端到端延时,针对语音数据被一次性提供的特点,系统可采取并行识别方式进行识别,也就是首先将输入音频分割为若干片段,然后在不同的处理器上对各分段同时进行识别,最后将各分段的识别结果进行合并来得到完整的识别结果。为进行并行语音识别,需要将音频数据进行分割。音频中的静音片段是进行语音分割的合适位置。VAD(Voice Act ivity Detect i on,语音活动检测)技术可用来在音频数据寻找静音片段。为寻找静音片段,VAD传统方式是从左到右扫描整个音频,在扫描过程中,依次判定每个音频帧是否为静音帧,当接连(不一定连续)的静音帧数目超过一定阈值后,就判定为检测到一个静音片段。
[0004]然而,使用传统方式进行语音分割时,需要对所有音频帧都进行处理,计算量大。由于处理时长与输入音频的时长成正比,当音频较长时用时也较大。而且,传统方式扫描得到所有静音片段之后,在其中选用哪些静音片段进行实际分割的算法也相对复杂。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供了一种音频数据分割方法及装置,以减少音频分割时的计算量,缩短音频分割时间,同时使分割后得到的音频段长度比较均匀,以便后续处理。
[0006]第一方面,本专利技术实施例提供一种音频数据分割方法,所述方法包括:
[0007]获取包括语音的音频数据;
[0008]将所述音频数据按第一长度进行分段,确定分段点;
[0009]在所有分段点处确定预定长度的搜寻窗口,所述搜寻窗口长度为第二长度;
[0010]在各搜寻窗口内的音频数据中搜索最大静音片段;
[0011]根据搜索到的最大静音片段起始位置和终止位置确定分割点并进行分割;
[0012]其中,所述第一长度大于所述第二长度。
[0013]可选地,所述方法还包括:
[0014]根据所述音频数据长度和预期分段数确定所述第一长度。
[0015]可选地,所述搜寻窗口内至少存在一个静音片段。
[0016]可选地,所述搜索最大静音片段包括:
[0017]通过语音活动检测算法来搜索最大静音片段。
[0018]可选地,所述方法还包括:
[0019]以并行方式对多个搜寻窗口进行语音活动检测。
[0020]可选地,所述根据搜索到的最大静音片段起始位置和终止位置确定分割点并进行分割。具体为:
[0021]以搜索到的最大静音片段起始位置向后延长第三长度处作为第一分割点并进行分割,以搜索到的最大静音片段终止位置向前增加第三长度处作为第二分割点进行分割。
[0022]可选地,所述第三长度不大于第二长度的一半。
[0023]第二方面,本专利技术实施例提供一种音频数据分割装置,所述装置包括:
[0024]获取模块,被配置为获取包括语音的音频数据;
[0025]分段模块,被配置为将所述音频数据按第一长度进行分段,确定分段点;
[0026]窗口模块,被配置为在所有分段点处确定预定长度的搜寻窗口,所述搜寻窗口长度为第二长度;
[0027]搜索模块,被配置为在各搜寻窗口内的音频数据中搜索最大静音片段;
[0028]分割模块,被配置为根据搜索到的最大静音片段起始位置和终止位置确定分割点并进行分割;
[0029]其中,所述第一长度大于所述第二长度。
[0030]第三方面,本专利技术实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如本专利技术实施例第一方面所述的方法。
[0031]第四方面,本专利技术实施例提供一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如本专利技术实施例第一方面中的方法。
[0032]本专利技术实施例通过将获取的音频数据进行分段,以在各分段处以预定长度的搜寻窗口搜索最大静音片段,根据搜索到的最大静音片段起始位置和终止位置确定音频分割点并进行分割。由此,减少了音频分割时的计算量,缩短了音频分割时间,同时使分割后得到的音频段长度比较均匀,便于后续处理。
附图说明
[0033]通过以下参照附图对本专利技术实施例的描述,本专利技术的上述以及其它目的、特征和优点将更为清楚,在附图中:
[0034]图1是本专利技术实施例的音频数据分割方法的流程图;
[0035]图2是本专利技术实施例的音频的分段位置和搜寻窗口的位置的示意图;
[0036]图3是本专利技术实施例的最大静音片段的位置和音频的分割位置的示意图;
[0037]图4是本专利技术实施例的音频数据分割装置的示意图;
[0038]图5是本专利技术实施例的电子设备的示意图。
具体实施方式
[0039]以下基于实施例对本专利技术进行描述,但是本专利技术并不仅仅限于这些实施例。在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。为了避免混淆本专利技术的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
[0040]此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
[0041]除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
[0042]在本专利技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0043]图1是本专利技术实施例的音频数据分割方法的流程图。如图1所示,本专利技术实施例的音频数据分割方法包括以下步骤:
[0044]步骤S110,获取包括语音的音频数据。
[0045]步骤S120,将所述音频数据按第一长度进行分段,确定分段点。可选地,根据所述音频数据长度和预期分段数确定所述第一长度。
[0046]步骤S130,在所有分段点处确定预定长度的搜寻窗口,所述搜寻窗口长度为第二长度。可选地,以每个分段点为中心确定一个预定长度的搜寻窗口。可选地,所述预定长度小于分段长度。可选地,通过设定所述预定长度应使得所述搜寻窗口内至少包含一个静音片段。
[0047]步骤S140,在各搜寻窗口内的音频数据中搜索最大静音片段。可选地,通过语音活动检测算法来搜索所述最大静音片段。优选地,以并行方式对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频数据分割方法,其特征在于,所述方法包括:获取包括语音的音频数据;将所述音频数据按第一长度进行分段,确定分段点;在所有分段点处确定预定长度的搜寻窗口,所述搜寻窗口长度为第二长度;在各搜寻窗口内的音频数据中搜索最大静音片段;根据搜索到的最大静音片段起始位置和终止位置确定分割点并进行分割;其中,所述第一长度大于所述第二长度。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述音频数据长度和预期分段数确定所述第一长度。3.根据权利要求1所述的方法,其特征在于,所述搜寻窗口内至少存在一个静音片段。4.根据权利要求1所述的方法,其特征在于,所述搜索最大静音片段包括:通过语音活动检测算法来搜索最大静音片段。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:以并行方式对多个搜寻窗口进行语音活动检测。6.根据权利要求1所述的方法,其特征在于,所述根据搜索到的最大静音片段起始位置和终止位置确定分割点并进行分割,具体为:以搜索到的最大静音片段起始位置向后延长第三长度处作为第一分割点并进行分割,以搜索到的最大静音片段终止位置向...

【专利技术属性】
技术研发人员:白高峰李志飞
申请(专利权)人:出门问问信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1