一种低资源场景下的哭声检测方法、系统技术方案

技术编号：41129046 阅读：2 留言：0更新日期：2024-04-30 17:57

本发明专利技术涉及声音检测技术领域中的一种低资源场景下的哭声检测方法、系统，包括以下步骤：提取待检测哭声信号中的若干初始均匀频域特征，并进行对数处理，得到与若干初始均匀频域特征对应的对数均匀频域特征；将若干对数均匀频域特征输入GRU哭声检测模型，得到哭声初步检测结果；基于哭声检测结果进行队列计数分析，并基于队列计数分析结果输出哭声最终检测结果，解决了现有哭声检测时内存资源消耗高的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及声音检测，具体涉及一种低资源场景下的哭声检测方法、系统。

技术介绍

1、目前，哭声检测方法主要分为两个关键部分，即特征提取和模型构建。特征提取阶段被认为是至关重要的步骤，常见的特征提取方法包括语谱图、梅尔倒谱系数（mfcc）、多分辨率耳蜗图（mrcg）等。这些方法通过对声音信号进行深入分析和转换，将其转化为具有实际意义的特征表示。

2、在模型构建方面，传统的哭声检测方法通常依赖隐马尔可夫模型（hmm）等基于传统机器学习的技术。然而，随着深度学习的迅猛发展，深度学习模型如卷积神经网络（cnn）、长短期记忆网络（lstm）、以及transformer等，逐渐占据主导地位。这些深度学习模型在哭声检测领域取得了显著的成就，为提高检测精度和鲁棒性提供了有效手段。

3、在当前可用的哭声检测方法中，特征提取方面通常采用引入帧重叠结合加窗的方式实现，然而这种方式存在两方面的问题，首先，帧重叠的操作明显增加了方法的复杂性；其次，在加窗操作中，窗函数的计算进一步提高了特征提取的计算复杂度，而计算的复杂度进一步增加了内存资源的消耗；另一方面，以往的方法大多将语音识别的特征提取方法直接应用于哭声检测，忽视了哭声在高频上具有丰富特征，与语音的特征分布存在显著差异。

4、在模型方面，卷积神经网络（cnn）、长短期记忆网络（lstm）、以及transformer等深度学习模型通常具有大量的参数，导致在推理过程中需要占用大量内存和计算资源。这一问题在边缘设备上表现尤为显著，因为这些设备通常资源有限。同时，为了提

5、综上所述，当前的哭声检测方法在特征提取和深度学习模型方面都面临计算复杂度和内存资源消耗量大的挑战。

技术实现思路

1、本专利技术针对现有技术中的缺点，提供了一种低资源场景下的哭声检测方法、系统，解决了现有哭声检测时内存资源消耗高的问题。

2、为了解决上述技术问题，本专利技术通过下述技术方案得以解决：

3、一种低资源场景下的哭声检测方法，包括以下步骤：

4、提取待检测哭声信号中的若干初始均匀频域特征，并进行对数处理，得到与若干所述初始均匀频域特征对应的对数均匀频域特征；

5、将若干所述对数均匀频域特征输入gru哭声检测模型，得到哭声初步检测结果；

6、基于所述哭声检测结果进行队列计数分析，并基于队列计数分析结果输出哭声最终检测结果。

7、可选的，提取若干初始均匀频域特征，包括以下步骤：

8、将所述待检测哭声信号进行分帧处理，得到若干帧分帧信号，其中，若干所述分帧信号之间不产生重叠；

9、将若干所述分帧信号进行傅里叶变换，并计算能量特征；

10、基于所述能量特征进行初始均匀频域特征的计算。

11、可选的，计算能量特征的公式如下：

12、，其中，表示能量特征；表示t时刻的傅里叶变换结果；表示的实部；表示的虚部；k表示频域数据点，k∈（0，n/2+1），n表示每帧分帧信号的长度；t表示时刻。

13、可选的，所述初始均匀频域特征的计算公式如下：

14、，i∈[0，i]，其中，i=，b∈[1，），且b为整数，n表示每帧分帧信号的长度；表示能量特征。

15、可选的，所述对数处理的计算公式如下：

16、，其中，表示初始均匀频域特征；表示极小数。

17、可选的，所述gru哭声检测模型，通过如下步骤获得：

18、构建gru初始模型，并构建模型训练集和模型验证集，其中所述模型训练集和模型验证集均为若干组对数均匀频域特征关于哭声概率结果的映射关系；

19、基于所述模型训练集对gru初始模型进行训练，得到gru训练模型；

20、基于所述模型验证集对gru训练模型进行验证并优化模型参数，得到gru哭声检测模型。

21、可选的，所述队列计数分析，包括以下步骤：

22、将待检测哭声信号所对应得到的若干哭声初步检测结果置于同一队列中；

23、设定次数阈值，使用初始化后的计数器对同一队列的哭声初步检测结果中的哭声概率结果进行计数，得到计数结果；

24、若所述计数结果大于次数阈值，则判定待检测哭声信号的哭声最终检测结果为哭声，将队列以及计数器进行重置；反之则继续进行计数。

25、可选的，将队列以及计数器进行重置后，还包括以下步骤：

26、将队列计数分析停止一段时间阈值后，重新启动。

27、一种低资源场景下的哭声检测系统，所述哭声检测系统执行如上述任意一项所述的低资源场景下的哭声检测方法，包括信号特征处理单元、模型初步检测单元和队列分析单元；

28、所述信号特征处理单元，用于提取待检测哭声信号中的若干初始均匀频域特征，并进行对数处理，得到与若干所述初始均匀频域特征对应的对数均匀频域特征；

29、所述模型初步检测单元，用于将若干所述对数均匀频域特征输入gru哭声检测模型，得到哭声初步检测结果；

30、所述队列分析单元，用于基于所述哭声检测结果进行队列计数分析，并基于队列计数分析结果输出哭声最终检测结果。

31、一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现上述任意一项所述的低资源场景下的哭声检测方法。

32、采用本专利技术提供的技术方案，与现有技术相比，具有如下有益效果：

33、通过提取初始均匀频域特征替换传统的帧重叠和加窗操作，使得在特征提取阶段的计算消耗相对地有所降低；同时使用对数处理初始均匀频域特征，使得所得到的对数均匀频域特征更加符合哭声的频域特征；另一方面，由于每个哭声初步检测结果所对应的都是被不重叠分帧处理后的分帧信号，其检测对应的时间段较短，因此短时间段内的哭声初步检测结果会存在误判，而为了避免此问题所导致的误判，本申请通过队列计数分析的设置来提高哭声检测结果的准确性。

本文档来自技高网...

【技术保护点】

1.一种低资源场景下的哭声检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种低资源场景下的哭声检测方法，其特征在于，提取若干初始均匀频域特征，包括以下步骤：

3.根据权利要求2所述的一种低资源场景下的哭声检测方法，其特征在于，计算能量特征的公式如下：

4.根据权利要求3所述的一种低资源场景下的哭声检测方法，其特征在于，所述初始均匀频域特征的计算公式如下：

5.根据权利要求1所述的一种低资源场景下的哭声检测方法，其特征在于，所述对数处理的计算公式如下：

6.根据权利要求1所述的一种低资源场景下的哭声检测方法，其特征在于，所述GRU哭声检测模型，通过如下步骤获得：

7.根据权利要求1所述的一种低资源场景下的哭声检测方法，其特征在于，所述队列计数分析，包括以下步骤：

8.根据权利要求7所述的一种低资源场景下的哭声检测方法，其特征在于，将队列以及计数器进行重置后，还包括以下步骤：

9.一种低资源场景下的哭声检测系统，其特征在于，所述哭声检测系统执行如权利要求1-8任意一项所述的

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1-8任意一项所述的低资源场景下的哭声检测方法。

...

【技术特征摘要】

1.一种低资源场景下的哭声检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种低资源场景下的哭声检测方法，其特征在于，提取若干初始均匀频域特征，包括以下步骤：

3.根据权利要求2所述的一种低资源场景下的哭声检测方法，其特征在于，计算能量特征的公式如下：

4.根据权利要求3所述的一种低资源场景下的哭声检测方法，其特征在于，所述初始均匀频域特征的计算公式如下：

5.根据权利要求1所述的一种低资源场景下的哭声检测方法，其特征在于，所述对数处理的计算公式如下：

6.根据权利要求1所述的一种低资源场景下的哭声检测方法，其特征在于，所述gru哭声检测模型，通过如下...

【专利技术属性】
技术研发人员：梁森杰，朱旭东，王军，
申请(专利权)人：浙江芯劢微电子股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人