一种基于深度学习的哭声检测方法及系统技术方案

技术编号：40432800 阅读：24 留言：0更新日期：2024-02-22 22:58

本发明专利技术涉及声音事件检测与深度学习领域，特别涉及一种基于深度学习的哭声检测方法及系统。本发明专利技术方法包括以下步骤：首先，提取待检测语音信号的MFCC频谱，并输入预先建立并训练好的哭声检测模型中，输出每一帧语音信号为哭声和非哭声的概率。然后，对输出概率进行处理，得到每一帧语音信号为哭声和非哭声的概率。接下来，通过概率阈值对哭声概率进行二值化，得到连续的哭声片段。最后，将超过阈值时长的片段输出为哭声片段。所述哭声检测模型采用了一种引入帧级注意力机制模块的CRNN结构，并采用弱监督训练方法进行训练。通过本发明专利技术，实现了一种基于深度学习的哭声检测方法及相应的系统，为婴儿护理领域的技术发展提供了一种创新解决方案。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及声音事件检测与深度学习领域，特别涉及一种基于深度学习的哭声检测方法及系统。

技术介绍

1、现代社会由于生活、工作等的压力，很多人特别是婴幼儿有时候仅能藉由哭泣方式表达情绪与需求，因此，对于哭声的检测存在很大市场需求。

2、通常地，现有的语音信号识别系统通常是由语音信号预处理，特征提取和分类等各部分组成，其中，特征提取是最重要的部分，它的好坏直接影响识别结果；因此，对于如何对语音信号的特征进行识别，以及设计特征提取的模型是至关重要的一个关键技术难题。

3、现有研究者提出的婴儿哭声检测方法大多无法判断具体哭声发生时段。如公开号为cn111326179a的中国专利技术申请公开了一种婴儿哭声检测深度学习方法，该方法：建立基于卷积网络和长短时记忆递归神经网络的深度学习分类器；并将提取到的相邻n帧耳蜗语音特征输入深度学习分类器中，得到n帧分类结果，运用多数优先投票原则对n帧分类结果进行投票，得到最终婴儿哭声检测结果。该方法使用的多数优先投票机制不能处理哭声成分较少的样本，且只能判断片段是否包含哭声，而无法得到具

【技术保护点】

1.一种基于深度学习的哭声检测方法，包括：

2.根据权利要求1所述基于深度学习的哭声检测方法，其特征在于，所述哭声检测模型，包括：卷积神经网络、帧级注意力机制、循环神经网络和分类器；其中，

3.根据权利要求1所述基于深度学习的哭声检测方法，其特征在于，所述帧级注意力机制模块，包括：AvgPooling层、压缩线性层、ReLU和还原线性层；其中，

4.根据权利要求1所述基于深度学习的哭声检测方法，其特征在于，采用弱监督训练方法训练哭声检测模型，包括：

5.根据权利要求2所述基于深度学习的哭声检测方法，其特征在于，所述哭声检测模型的处理过程包括...

【技术特征摘要】

1.一种基于深度学习的哭声检测方法，包括：

3.根据权利要求1所述基于深度学习的哭声检测方法，其特征在于，所述帧级注意力机制模块，包括：avgpooling层、压缩线性层、relu和还原线性层；其中，

4.根据权利要求1所述基于深度学习的哭声检测方法，其特征在于，采用弱监督训练方法...

【专利技术属性】
技术研发人员：黎塔，冯宇，吴愁，张鹏远，
申请(专利权)人：中国科学院声学研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人