语音检测方法和装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:36101382 阅读:8 留言:0更新日期:2022-12-28 14:00
本申请公开了一种语音检测方法和装置、电子设备及计算机可读存储介质。该方法包括:获取由至少两个具有不同空间位置的麦克风组成的麦克风阵列采集的多个语音信号;对多个语音信号中的每一个在其接收方向上进行语音增强处理,以获得增强语音信号;将多个增强语音信号输入到预设模型,以生成语音特征序列;根据语音特征序列确定所述多个语音信号是否是来自多个声源。本申请实施例通过可以基于语音信号自身的语音特征和方位信息来生成语音特征序列,从而能够使得生成的语音特征序列更好地反映语音信号中的重叠语音特征,从而提高了重叠语音检测的准确率。叠语音检测的准确率。叠语音检测的准确率。

【技术实现步骤摘要】
语音检测方法和装置、电子设备及计算机可读存储介质


[0001]本申请涉及语音检测
,尤其涉及一种语音检测方法和装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着社会的发展,人们越来越多地通过会议上的讨论来解决复杂的问题,在这样的会议场景中,多个用户可以在同一个空间中甚至可以通过互联网技术而在不同的地点通过互联网进行实时的讨论,并且还可以进一步利用语音技术来提高用户会议的体验。例如通过语音识别技术来记录会议讨论的内容,或者是对用户的语音进行处理。但是不管是语音识别还是对用户语音进行处理,由于单人说话的音频信号和多人同时说话的音频信号特性不同,因此通常需要分别进行不同的针对性处理。换言之,如果使用单人语音检测方案对多人混合的语音进行检测,就会获得错误的结果,因此需要在应用语音检测方案之前先进行重叠语音检测,即检测音频信号中是否存在多个不同的说话人,之后再根据重叠语音检测的结果来选择单人语音检测方案还是多人语音检测方案。

技术实现思路

[0003]本申请实施例提供一种语音检测方法和装置、电子设备及计算机可读存储介质,以解决现有技术中重叠语音检测准确率低的缺陷。
[0004]为达到上述目的,本申请实施例提供了一种语音检测方法,包括:
[0005]获取由至少两个具有不同空间位置的麦克风组成的麦克风阵列采集的语音信号;
[0006]对语音信号在其接收方向上进行语音增强处理,以获得增强语音信号;
[0007]将所述增强语音信号输入到预设模型,以生成语音特征序列;<br/>[0008]根据所述语音特征序列确定所述语音信号是否是来自多个声源。
[0009]本申请实施例还提供了一种会议语音检测方法,包括:
[0010]获取由至少两个具有不同空间位置的麦克风组成的麦克风阵列采集的会议现场的语音信号,其中所述会议现场的语音信号是由在所述会议现场参加会议的与会者发出的语音信号;
[0011]对语音信号在其接收方向上进行语音增强处理,以获得增强语音信号;
[0012]将所述增强语音信号输入到预设模型,以生成语音特征序列;
[0013]根据所述语音特征序列确定所述会议现场的语音信号是否是来自多个与会者。
[0014]本申请实施例还提供了一种课堂语音检测方法,包括:
[0015]获取由至少两个具有不同空间位置的麦克风组成的麦克风阵列采集的课堂语音信号,其中所述课堂语音信号是由在课堂现场的课堂参与者发出的语音信号;
[0016]对语音信号在其接收方向上进行语音增强处理,以获得增强语音信号;
[0017]将所述增强语音信号输入到预设模型,以生成语音特征序列;
[0018]根据所述语音特征序列确定所述课堂语音信号是否是来自多个课堂参与者。
[0019]本申请实施例还提供了一种语音检测装置,包括:
[0020]获取模块,用于获取由至少两个具有不同空间位置的麦克风组成的麦克风阵列采集的语音信号;
[0021]语音增强模块,用于对语音信号在其接收方向上进行语音增强处理,以获得增强语音信号;
[0022]生成模块,用于将增强语音信号输入到预设模型,以生成语音特征序列;
[0023]确定模块,用于根据所述语音特征序列确定所述语音信号是否是来自多个声源。
[0024]本申请实施例还提供了一种电子设备,包括:
[0025]存储器,用于存储程序;
[0026]处理器,用于运行所述存储器中存储的所述程序,所述程序运行时执行本申请实施例提供的语音检测方法。
[0027]本申请实施例还提供了一种计算机可读存储介质,其上存储有可被处理器执行的计算机程序,其中,该程序被处理器执行时实现如本申请实施例提供的语音检测方法。
[0028]本申请实施例提供的语音检测方法和装置、电子设备及计算机可读存储介质,通过具有不同指向的至少两个麦克风组成的麦克风阵列采集不同方向上的语音信号,并且在各语音信号的接收方向上进行语音增强处理,之后基于语音增强信号生成语音特征序列,最后根据语音特征序列来计算语音信号是来自多个人的概率,本申请的方案通过使用具有不同指向的至少两个麦克风来采集不同方向的语音信号,从而在获得语音信号的同时还能够获得语音信号的方位信息,因此可以基于语音信号自身的语音特征和方位信息来生成语音特征序列,从而能够使得生成的语音特征序列更好地反映语音信号中的重叠语音特征,从而提高了重叠语音检测的准确率。
[0029]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0030]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0031]图1a为本申请实施例提供的语音检测方案的原理示意图;
[0032]图1b为本申请实施例提供的语音检测方案的应用场景的示意图;
[0033]图2为本申请提供的说语音检测方法一个实施例的流程图;
[0034]图3为本申请提供的语音检测方法另一个实施例的流程图;
[0035]图4为本申请提供的语音检测装置实施例的结构示意图;
[0036]图5为本申请提供的电子设备实施例的结构示意图。
具体实施方式
[0037]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例
所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0038]实施例一
[0039]本申请实施例提供的方案可应用于任何具有语音检测能力的系统,例如包括有多个语音检测模块的会议音频系统等等。图1a为本申请实施例提供的语音方案的原理示意图,图1b是本申请实施例提供的语音检测方案的应用场景示意图。图1a所示的原理仅仅是本申请的技术方案的原理的示例之一。
[0040]在例如会议的多人说话场景中,语音技术已经得到了越来越多的应用。例如,对于多个用户在会议中的语音进行处理,以提高语音清晰度或对语音进行识别以记录内容。但是不管是何种处理,当针对的音频信号是单人说话的语音和多人说话的语音时,由于这两种语音的音频特征不同,因此,如果使用相同的语音处理技术进行处理,则会导致识别准确性降低或处理效果劣化。因此,在现有技术中已经提出了一种重叠语音检测技术,其通常应用在对获取到的语音音频进行语音处理之前,来例如对该目标语音音频是否是多人语音,即该语音中是否包含了多个人的语音进行检测,即重叠语音检测。之后,再跟进该重叠语音检测的结果来有针对性地选择针对单本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音检测方法,包括:获取由至少两个具有不同空间位置的麦克风组成的麦克风阵列采集的语音信号;对语音信号在其接收方向上进行语音增强处理,以获得增强语音信号;将所述增强语音信号输入到预设模型,以生成语音特征序列;根据所述语音特征序列确定所述语音信号是否是来自多个声源。2.根据权利要求1所述的语音检测方法,其中,在所述将所述增强语音信号输入到预设模型,以生成语音特征序列之前,所述语音检测方法进一步包括:将所述增强语音信号按预定数量进行配对,以获得增强语音信号对,并且将所述增强语音信号输入到预设模型,以生成语音特征序列包括:将所述增强语音信号对输入到预设模型,以生成语音特征序列。3.根据权利要求2所述的语音检测方法,其中,所述将所述增强语音信号按预定数量进行配对,以获得增强语音信号对包括:将增强语音信号与接收方向与其接收方向相对的另一个增强语音信号配对,以获得增强语音信号对。4.根据权利要求3所述的语音检测方法,其中,所述将所述增强语音信号对输入到预设模型,以生成语音特征序列包括:将所述增强语音信号对分别输入到对应的编码器中,并且将编码器的输出进行拼接以获得所述语音特征序列。5.根据权利要求1所述的语音检测方法,其中,所述根据所述语音特征序列确定所述语音信号是否是来自多个声源包括:计算所述语音特征序列表示所述语音信号来自多个声源的概率;当所述概率大于预设阈值时确定所述语音信号来自多个声源。6.一种会议语音检测方法,包括:获取由至少两个具有不同空间位置的麦克风组成...

【专利技术属性】
技术研发人员:郑斯奇索宏彬
申请(专利权)人:阿里巴巴新加坡控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1