语音活动检测方法及装置制造方法及图纸

技术编号：41316746 阅读：12 留言：0更新日期：2024-05-13 14:57

本申请实施例提供一种语音活动检测方法及装置，涉及音频处理等技术领域，该方法包括：获取长音频信息，长音频信息中包括多段短音频信息；根据每段短音频信息的第一音频标识，确定长音频信息的第二音频标识；其中，音频标识指示对应的音频信息是否存在语音活动。本申请实施例提供的语音活动检测方法及装置用于实现对长音频信息进行语音活动检测。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及音频处理等，尤其涉及一种语音活动检测方法及装置。

技术介绍

1、音频编码器用于对音频信息进行编码，以使语音在链路产生误码、网络抖动和突发传输时具有健壮性。

2、在音频编码器对音频信息进行编码之前，通常语音活动检测(voice activitydetection，vad)技术检测音频信息的语音活动。

3、目前，vad技术仅可以检测持续时间较短的音频信息(即短音频信息)的语音活动。

技术实现思路

1、本申请实施例提供一种语音活动检测方法及装置，用于实现检测长音频信息的语音活动。

2、第一方面，本申请实施例提供一种语音活动检测方法，包括：

3、获取长音频信息，长音频信息中包括多段短音频信息；

4、根据每段短音频信息的第一音频标识，确定长音频信息的第二音频标识；其中，音频标识指示对应的音频信息是否存在语音活动。

5、在一种可能的实施方式中，根据每段短音频信息的第一音频标识，确定长音频信息的第二音频标识，包括：

6、根据每段短音频信息的第一音频标识，确定长音频信息的目标标识序列；

7、根据目标标识序列，确定长音频信息的第二音频标识。

8、在一种可能的实施方式中，根据每段短音频信息的第一音频标识，确定长音频信息的目标标识序列，包括：

9、获取初始标识序列，初始标识序列中包括每段短音频信息的第一音频标识；

10、对初始标识序列进行纠错处理，得到目标标识序列。

11、在一种可能的实施方式中，根据目标标识序列，确定长音频信息的第二音频标识，包括：

12、确定目标标识序列中第一音频标识为第一标识的数量；其中，第一标识指示对应的短音频信息存在语音活动；

13、根据数量，确定第二音频标识。

14、在一种可能的实施方式中，在数量满足第一条件时，第二音频标识为第三标识，第三标识指示长音频信息存在语音活动；和/或，

15、在数量不满足第一条件时，确定第二音频标识为第四标识，第四标识指示长音频信息不存在语音活动。

16、在一种可能的实施方式中，第一条件为数量大于第一阈值。

17、在一种可能的实施方式中，在目标标识序列中依次相邻的预设数量个第一音频标识和数量满足第二条件时，第二音频标识为第三标识，第三标识指示长音频信息存在语音活动；和/或，

18、在预设数量个第一音频标识和数量不满足第二条件时，第二音频标识为第四标识，第四标识指示长音频信息不存在语音活动。

19、在一种可能的实施方式中，第二条件包括：预设数量个第一音频标识均为第一标识、以及数量等于第一阈值。

20、在一种可能的实施方式中，预设数量个第一音频标识为目标标识序列中的前预设数量个第一音频标识；或者，

21、预设数量个第一音频标识为目标标识序列中的后预设数量个第一音频标识。

22、在一种可能的实施方式中，短音频信息的帧长度为第一帧长度；长音频信息的帧长度为第二帧长度；第二帧长度为第一帧长度的整数倍。

23、在一种可能的实施方式中，该方法还包括：按照第二音频标识对应的编码速度，对长音频信息进行编码。

24、在一种可能的实施方式中，对长音频信息进行编码的音频编码器为人工智能编码器。

25、第二方面，本申请实施例提供一种语音活动检测装置，包括：

26、获取模块，用于获取长音频信息，长音频信息中包括多段短音频信息；

27、确定模块，用于根据长音频信息中的每段短音频信息的第一音频标识，确定长音频信息的第二音频标识；其中，音频标识指示对应的音频信息是否存在语音活动。

28、在一种可能的实施方式中，确定模块具体用于：根据每段短音频信息的第一音频标识，确定长音频信息的目标标识序列；

29、根据目标标识序列，确定长音频信息的第二音频标识。

30、在一种可能的实施方式中，确定模块具体用于：获取初始标识序列，初始标识序列中包括每段短音频信息的第一音频标识；对初始标识序列进行纠错处理，得到目标标识序列。

31、在一种可能的实施方式中，确定模块具体用于：确定目标标识序列中第一音频标识为第一标识的数量；其中，第一标识指示对应的短音频信息存在语音活动；根据数量，确定第二音频标识。

32、在一种可能的实施方式中，在数量满足第一条件时，第二音频标识为第三标识，第三标识指示长音频信息存在语音活动；和/或，在数量不满足第一条件时，第二音频标识为第四标识，第四标识指示长音频信息不存在语音活动。

33、在一种可能的实施方式中，第一条件为数量大于第一阈值。

34、在一种可能的实施方式中，在目标标识序列中依次相邻的预设数量个第一音频标识和数量满足第二条件时，第二音频标识为第三标识，第三标识指示长音频信息存在语音活动；和/或，在预设数量个第一音频标识和数量不满足第二条件时，第二音频标识为第四标识，第四标识指示长音频信息不存在语音活动。

35、在一种可能的实施方式中，第二条件包括：预设数量个第一音频标识均为第一标识、以及数量等于第一阈值。

36、在一种可能的实施方式中，预设数量个第一音频标识为目标标识序列中的前预设数量个第一音频标识；或者，预设数量个第一音频标识为目标标识序列中的后预设数量个第一音频标识。

37、在一种可能的实施方式中，短音频信息的帧长度为第一帧长度；长音频信息的帧长度为第二帧长度；第二帧长度为第一帧长度的整数倍。

38、在一种可能的实施方式中，该装置还包括：

39、音频编码器，按照第二音频标识对应的编码速度，对长音频信息进行编码。

40、在一种可能的实施方式中，音频编码器为人工智能编码器。

41、第三方面，本申请实施例提供一种语音活动检测装置，包括：存储器和处理器；

42、存储器存储计算机执行指令；

43、处理器执行存储器存储的计算机执行指令，使得处理器执行第一方面以及第一方面中任一项的方法。

44、第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当计算机执行指令被处理器执行时用于实现第一方面以及第一方面中任一项的方法。

45、第五方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面任一项以及第一方面中的方法。

46、第六方面，本申请实施例提供一种芯片，芯片上存储有计算机程序，计算机程序被芯片执行时，实现第一方面以及第一方面中任一项的方法。

47、第七方面，本申请实施例提供一种芯片模组，芯片模组上存储有计算机程序，计算机程序被芯片模组执行时，实现如第一方面以及第一方面中任一项的方法。

48、本申请实施例提供一种语音活动检测方法及装置，该本文档来自技高网...

【技术保护点】

1.一种语音活动检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据每段短音频信息的第一音频标识，确定所述长音频信息的第二音频标识，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述每段短音频信息的第一音频标识，确定所述长音频信息的目标标识序列，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述目标标识序列，确定所述长音频信息的第二音频标识，包括：

5.根据权利要求4所述的方法，其特征在于，在所述数量满足第一条件时，所述第二音频标识为第三标识，所述第三标识指示所述长音频信息存在语音活动；和/或，

6.根据权利要求5所述的方法，其特征在于，所述第一条件为所述数量大于第一阈值。

7.根据权利要求4所述的方法，其特征在于，在所述目标标识序列中依次相邻的预设数量个第一音频标识和所述数量满足第二条件时，所述第二音频标识为第三标识，所述第三标识指示所述长音频信息存在语音活动；和/或，

8.根据权利要求7所述的方法，其特征在于，所述第二条件包括：所述预设数

9.根据权利要求7或8所述的方法，其特征在于，所述预设数量个第一音频标识为所述目标标识序列中的前预设数量个第一音频标识；或者，

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述短音频信息的帧长度为第一帧长度；所述长音频信息的帧长度为第二帧长度；所述第二帧长度为所述第一帧长度的整数倍。

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述方法还包括：

12.根据权利要求11所述的方法，其特征在于，对所述长音频信息进行编码的音频编码器为人工智能编码器。

13.一种语音活动检测装置，其特征在于，包括：

14.一种语音活动检测装置，其特征在于，包括：存储器和处理器；

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时用于实现权利要求1至12中任一项所述的方法。

16.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法。

...

【技术特征摘要】

1.一种语音活动检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据每段短音频信息的第一音频标识，确定所述长音频信息的第二音频标识，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述每段短音频信息的第一音频标识，确定所述长音频信息的目标标识序列，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述目标标识序列，确定所述长音频信息的第二音频标识，包括：

6.根据权利要求5所述的方法，其特征在于，所述第一条件为所述数量大于第一阈值。

8.根据权利要求7所述的方法，其特征在于，所述第二条件包括：所述预设数量个第一音频标识均为...

【专利技术属性】
技术研发人员：肖晓，彭心怡，
申请(专利权)人：展讯通信上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人