人声检测方法和设备技术

技术编号：32803699 阅读：30 留言：0更新日期：2022-03-26 19:55

本申请提供一种人声检测方法和设备，涉及人工智能(Artificial Intelligence，AI)领域，与自动语音识别(Automatic Speech Recognition，ASR)的前处理有关。该方法包括：获取语音信号；根据语音信号获取每帧语音帧的功率谱；将每帧语音帧的功率谱在频域上进行分频段划分，获得m个频段的子功率谱，其中m为大于等于2的整数；根据m个频段的子功率谱，获得语音信号中每帧语音帧包含人声的概率。通过将功率谱的全频段进行分频段处理，以将低频段与高频段划分在不同的频段内，从而针对不同的频段对应的功率谱，准确识别出人声和噪声，提高人声检测的抗噪能力，提高人声检测的准确率。提高人声检测的准确率。提高人声检测的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
人声检测方法和设备

[0001]本申请涉及人工智能
，尤其涉及一种人声检测方法和设备。

技术介绍

[0002]随着人工智能(Artificial Intelligence，AI)技术的不断发展，让人与机器之间能够通过语音信号进行交互的语音识别变得越来越重要。自动语音识别(Automatic Speech Recognition，ASR)作为一种人机交互的手段，能够将输入的语音转换成相应的文字序列，广泛应用于语音助手、智能音箱、智能会议系统等中。然而，ASR会对输入的语音进行无差别的处理，例如，对于一段语音，其可能包含无人声的语音段，但是ASR仍会对这一段无人声的语音段进行语音转换为文字序列的处理，导致ASR的功耗较高。
[0003]因此，目前提出了一种语音激活检测(Voice Activity Detection，VAD)方式，其在进行ASR之前，将语音中包含人声的语音段提前识别出来，再对包含人声的语音段进行ASR处理，从而降低ASR的功耗。
[0004]然而，上述方式中可能会将一些噪声检测为包含人声的...

【技术保护点】

【技术特征摘要】
1.一种人声检测方法，其特征在于，包括：获取语音信号；获取所述语音信号中每帧语音帧的功率谱；将所述每帧语音帧的功率谱在频域上进行分频段划分，获得m个频段的子功率谱，所述m为大于等于2的整数；根据所述m个频段的子功率谱，获得所述语音信号中每帧语音帧包含人声的概率。2.根据权利要求1所述的方法，其特征在于，所述将所述每帧语音帧的功率谱在频域上进行分频段划分，获得m个频段的子功率谱，包括：按照梅尔刻度，将所述功率谱在频域上进行分频段划分，获得m个频段的子功率谱；其中，每个频段的梅尔刻度等长。3.根据权利要求1所述的方法，其特征在于，所述将所述每帧语音帧的功率谱在频域上进行分频段划分，获得多个频段的子功率谱，包括：按照梅尔刻度，将所述功率谱的频域进行分频段划分，获得m个中间频段，每个中间频段的梅尔刻度等长；根据所述功率谱，获得所述m个中间频段中最高频段的子功率谱以及将所述m个中间频段中除所述最高频段的m-1个中间频段的上限频率增大，以获得m-1个频段的子功率谱；或者，根据所述功率谱，获得所述m个中间频段中最低频段的子功率谱以及将所述m个中间频段中除所述最低频段的m-1个中间频段的下限频率减小，以获得所述m-1个频段的子功率谱；其中，相邻两频段间在频域上部分重叠。4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述m个频段的子功率谱，获得所述语音信号中每帧语音帧包含人声的概率，包括：对每个频段的子功率谱，提取K个不同次数的谐波分量，K为大于等于1；根据每个频段的子功率谱及K个不同次数的谐波分量，获得所述语音信号中每帧语音帧包含人声的概率。5.根据权利要求4所述的方法，其特征在于，所述根据每个频段的子功率谱及K个不同次数的谐波分量，获得所述语音信号中每帧语音帧包含人声的概率，包括：提取每个频段的子功率谱对应的特征，以及K个不同次数的谐波分量分别对应的特征；将各个频段的子功率谱对应的特征，以及K个不同次数的谐波分量分别对应的特征进行拼接，获得每帧语音帧的频谱增强特征；根据每帧语音帧的频谱增强特征，获得所述语音信号中每帧语音帧包含人声的概率。6.根据权利要求5所述的方法，其特征在于，所述方法还包括：获取每个频段的子功率谱对应的对数平均能量及K个不同次数的谐波分量分别对应的对数平均能量；将各个频段的子功率谱对应的对数平均能量，以及K个不同次数的谐波分量分别对应的对数平均能量进行拼接，获得每帧语音帧的能量增强特征；所述根据每帧语音帧的频谱增强特征，获得所述语音信号中每帧语音帧包含人声的概率，包括：
根据每帧语音帧的频谱增强特征以及每帧语音帧的能量增强特征，获得所述语音信号中每帧语音帧包含人声的概率。7.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述m个频段的子功率谱，获得所述语音信号中每帧语音帧包含人声的概率，包括：根据所述m个频段的子功率谱，获得每帧语音帧的频谱增强特征；获取每帧语音帧的能量增强特征；根据每帧语音帧的频谱增强特征以及每帧语音帧的能量增强特征，获得所述语音信号中每帧语音帧包含人声的概率。8.根据权利要求7所述的方法，其特征在于，所述获取每帧语音帧的能量增强特征，包括：根据所述m个频段的子功率谱，获得每帧语音帧的能量增强特征。9.根据权利要求8所述的方法，其特征在于，根据所述m个频段的子功率谱，获得每帧语音帧...

【专利技术属性】
技术研发人员：王剑桥，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人