System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 语音检测方法及其相关设备技术_技高网

语音检测方法及其相关设备技术

技术编号:41258608 阅读:2 留言:0更新日期:2024-05-11 09:17
本申请提供了一种语音检测方法及其相关设备,涉及音频处理领域,该语音检测方法包括:获取音频数据,音频数据为第一麦克风和第二麦克风在同一环境中采集的数据;对音频数据进行VAD检测,确定并筛选出语音信号;对VAD检测出的语音信号进行风噪检测,确定并筛选出语音信号。本申请通过结合多路麦克风获取的多路音频信号,进行VAD检测和风噪检测,既可避免对语音质量的影响,又能提高检测的准确性。

【技术实现步骤摘要】

本申请涉及音频处理领域,具体涉及一种语音检测方法及其相关设备


技术介绍

1、随着电子设备的普及和发展,电子设备已经成为我们日常生活和娱乐中不可或缺的一环。通常情况下,在进行语音通话或者进行语音操作的过程中,由于外界声音的干扰,电子设备输入的音频数据可能受到影响。那么,为了提高音频的质量,电子设备需要对输入的音频数据进行一些处理。

2、相关技术中通常会进行降噪、利用神经网络模型进行语音识别等。但是,降噪效果较好时,又可能会导致语音失真;神经网络模型又需要提前进行训练,通常样本还比较有限,导致使用时无法准确识别出语音,影响检测的质量;因此,亟需一种新的语音检测方法,既能避免对语音质量的影响,又能提高检测的准确性。


技术实现思路

1、本申请提供了一种语音检测方法及其相关设备,通过结合多路麦克风获取的多路音频信号,进行vad检测和风噪检测,既可避免对语音质量的影响,又能提高检测的准确性。

2、第一方面,提供了一种语音检测方法,应用于包括第一麦克风和第二麦克风的电子设备,所述方法包括:

3、获取音频数据,所述音频数据为所述第一麦克风和所述第二麦克风在同一环境中采集的数据;

4、对所述音频数据进行vad检测,确定并筛选出语音信号;

5、对vad检测出的所述语音信号进行风噪检测,确定并筛选出语音信号。

6、在本申请实施例中,用户在使用包括多个麦克风的电子设备进行语音通话或语音操作的过程中,电子设备可以对多个麦克风接收到的音频数据先进行vad检测,区分出其中的语音信号和其他信号;然后,针对筛选出的语音信号再进行风噪检测,相当于对语音信号再次进行筛选,从而可以区分出真正的语音信号和误判为语音信号的风噪信号,风噪检测出的语音信号为最终的检测结果。由此,结合多路麦克风产生的待测信号,经过vad和风噪两个阶段的检测,从而可以区分出真正的语音信号、风噪信号和其他信号。这样简单的检测方法,不涉及硬件更改,既能避免对语音质量的影响,又能提高检测的准确性。

7、其中,本申请所指的其他信号指的是除了语音信号和风噪信号之外的信号。

8、结合第一方面,在第一方面的一种实现方式中,当所述音频数据为位于时域的数据时,所述方法还包括:

9、对所述音频数据进行预处理,所述预处理至少包括分帧和时频变换。

10、可选地,预处理至少包括分帧和时频变换。

11、应理解,针对多路待测信号流利用相同长度进行分帧后,得到的多帧第一时域信号和多帧第二时域信号的数量相同,并且在次序上具有一一对应的关系。由此,针对分帧后的多帧第一时域信号和多帧第二时域信号进行频域转换后,得到的多帧第一频域信号和多帧第二频域信号的数量也相同,并且在次序上也具有一一对应的关系。

12、在本申请实施例中,进行预处理,可以使得音频数据便于后续进行检测。

13、结合第一方面,在第一方面的一种实现方式中,所述音频数据包括所述第一麦克风采集的第一路待测信号流和所述第二麦克风采集的第二路待测信号流;

14、对所述音频数据进行预处理包括:

15、对所述第一路待测信号流进行所述分帧,得到多帧第一时域信号;

16、对多帧所述第一时域信号进行所述时频变换,得到多帧第一频域信号;

17、对所述第二路待测信号流进行所述分帧,得到多帧第二时域信号;

18、对多帧所述第二时域信号进行所述时频变换,得到多帧第二频域信号;

19、其中,多帧所述第一时域信号和多帧所述第一频域信号一一对应,多帧所述第二时域信号和多帧所述第二频域信号一一对应。

20、在本申请实施例中,可以根据第一路待测信号流得到多帧第一时域信号和多帧第一频域信号,根据第二路待测信号流得到多帧第二时域信号和多帧第二频域信号,从而后续可以将相同次序的多个信号,配合起来进行语音检测。

21、结合第一方面,在第一方面的一种实现方式中,对所述音频数据进行vad检测,确定并筛选出语音信号,包括:

22、针对所述第一时域信号,根据所述第一时域信号和与所述第一时域信号对应的所述第一频域信号,确定所述第一时域信号所对应的第一数据,所述第一数据至少包括过零率、谱熵和平坦度;

23、基于所述第一数据,对所述第一时域信号进行vad检测,确定并筛选出语音信号。

24、在本申请实施例中,可以基于语音信号和其他信号在第一数据方面的表现不同,来作为区分的标准,进而针对第一时域信号可以辨别出为语音信号或其他信号。

25、结合第一方面,在第一方面的一种实现方式中,基于所述第一数据,对所述第一时域信号进行vad检测,确定并筛选出语音信号,包括:

26、当所述第一数据满足第一条件时,确定所述第一时域信号的暂定状态为语音信号;

27、当所述第一数据不满足所述第一条件时,确定所述第一时域信号的暂定状态为其他信号,所述其他信号用于指示除语音信号和风噪信号之外的信号;

28、针对所述第一时域信号,确定所述暂定状态与当前状态是否相同;

29、当不同,且所述暂定状态为语音信号时,第一帧数标志位的值加1,并确定所述第一帧数标志位的值是否大于第一预设帧数阈值;

30、当所述第一帧数标志位的值大于所述第一预设帧数阈值时,修改所述当前状态,当所述当前状态为语音信号时,修改为其他信号,当所述当前状态为其他信号时,修改为语音信号;

31、当不同,且所述暂定状态为其他信号时,第二帧数标志位的值加1,并确定所述第二帧数标志位的值是否大于第二预设帧数阈值;

32、当所述第二帧数标志位的值大于所述第二预设帧数阈值时,修改所述当前状态;

33、确定并筛选出修改后的当前状态为语音信号的第一时域信号。

34、由于语音字词通常会持续几帧,且字词之间会有间隔,为了能完整的判断语句的开始和结束,防止语句中间断掉,每帧第一时域信号都设置有暂定状态和当前状态。其中,暂定状态和当前状态都可以分为三种状态:语音信号、风噪信号和其他信号。

35、在本申请实施例中,当暂定状态与当前状态不同时,说明两次判断不一致,此时有可能至少有一次是判断错的,因此,可以进行帧数累计。当帧数累计到大于帧数阈值时,修改对应的当前状态,相当于依靠算法确定出的该帧第一时域信号前面多帧待测信号之间的连续性,来预测确定出该帧第一时域信号所对应的状态。

36、结合第一方面,在第一方面的一种实现方式中,所述方法还包括:

37、当相同,确定并筛选出所述当前状态为语音信号的第一时域信号;或者,

38、当不同,且所述第一帧数标志位的值小于或等于所述第一预设帧数阈值时,确定并筛选出所述当前状态为语音信号的第一时域信号;或者,

39、当不同,且所述第二帧数标志位的值小于或等于所述第二预设帧数阈值时,确定并筛选出所述当前状态为语音信号的第本文档来自技高网...

【技术保护点】

1.一种语音检测方法,其特征在于,应用于包括第一麦克风和第二麦克风的电子设备,所述方法包括:

2.根据权利要求1所述的语音检测方法,其特征在于,当所述音频数据为位于时域的数据时,所述方法还包括:

3.根据权利要求2所述的语音检测方法,其特征在于,所述音频数据包括所述第一麦克风采集的第一路待测信号流和所述第二麦克风采集的第二路待测信号流;

4.根据权利要求3所述的语音检测方法,其特征在于,对所述音频数据进行VAD检测,确定并筛选出语音信号,包括:

5.根据权利要求4所述的语音检测方法,其特征在于,基于所述第一数据,对所述第一时域信号进行VAD检测,确定并筛选出语音信号,包括:

6.根据权利要求5所述的语音检测方法,其特征在于,所述方法还包括:

7.根据权利要求5或6所述的语音检测方法,其特征在于,在当所述第一数据满足第一条件之前,所述方法还包括:进行第一初始化处理,所述第一初始处理至少包括对所述第一帧数标志位的值和所述第二帧数标志位的值归零。

8.根据权利要求5至7中任一项所述的语音检测方法,其特征在于,当所述第一数据包括所述过零率、所述谱熵和所述平坦度时,所述第一条件包括:

9.根据权利要求1至8中任一项所述的语音检测方法,其特征在于,对VAD检测出的所述语音信号进行风噪检测,确定并筛选出语音信号,包括:

10.根据权利要求9所述的语音检测方法,其特征在于,基于所述第二数据,对所述第一时域信号进行风噪检测,确定并筛选出语音信号,包括:

11.根据权利要求10所述的语音检测方法,其特征在于,所述方法还包括:

12.根据权利要求10或11所述的语音检测方法,其特征在于,在当所述第二数据满足第二条件之前,所述方法还包括:进行第二初始化处理,所述第二初始化处理至少包括对所述第一帧数标志的值和所述第三帧数标志位的值归零。

13.根据权利要求10至12中任一项所述的语音检测方法,其特征在于,当所述第二数据包括频谱重心、低频能量和相关性时,所述第二条件包括:

14.根据权利要求1至13中任一项所述的语音检测方法,其特征在于,所述第一麦克风包括1个或多个第一麦克风,和/或,所述第二麦克风包括1个或多个第二麦克风。

15.根据权利要求1或14所述的语音检测方法,其特征在于,所述第一麦克风为所述电子设备设置在底部的麦克风,所述第二麦克风为所述电子设备设置在顶部或背面的麦克风。

16.一种电子设备,其特征在于,包括处理器和存储器;

17.一种芯片系统,其特征在于,所述芯片系统应用于电子设备,所述芯片系统包括一个或多个处理器,所述处理器用于调用计算机指令以使得所述电子设备执行如权利要求1至15中任一项所述的语音检测方法。

18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,使所述处理器执行如权利要求1至15中任一项所述的语音检测方法。

...

【技术特征摘要】

1.一种语音检测方法,其特征在于,应用于包括第一麦克风和第二麦克风的电子设备,所述方法包括:

2.根据权利要求1所述的语音检测方法,其特征在于,当所述音频数据为位于时域的数据时,所述方法还包括:

3.根据权利要求2所述的语音检测方法,其特征在于,所述音频数据包括所述第一麦克风采集的第一路待测信号流和所述第二麦克风采集的第二路待测信号流;

4.根据权利要求3所述的语音检测方法,其特征在于,对所述音频数据进行vad检测,确定并筛选出语音信号,包括:

5.根据权利要求4所述的语音检测方法,其特征在于,基于所述第一数据,对所述第一时域信号进行vad检测,确定并筛选出语音信号,包括:

6.根据权利要求5所述的语音检测方法,其特征在于,所述方法还包括:

7.根据权利要求5或6所述的语音检测方法,其特征在于,在当所述第一数据满足第一条件之前,所述方法还包括:进行第一初始化处理,所述第一初始处理至少包括对所述第一帧数标志位的值和所述第二帧数标志位的值归零。

8.根据权利要求5至7中任一项所述的语音检测方法,其特征在于,当所述第一数据包括所述过零率、所述谱熵和所述平坦度时,所述第一条件包括:

9.根据权利要求1至8中任一项所述的语音检测方法,其特征在于,对vad检测出的所述语音信号进行风噪检测,确定并筛选出语音信号,包括:

10.根据权利要求9所述的语音检测方法,其特征在于,基于所述第二数据,对所述第一时域信号进...

【专利技术属性】
技术研发人员:常文蕾高欢王志超
申请(专利权)人:荣耀终端有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1