一种婴幼儿啼哭声检测方法、装置、设备及介质制造方法及图纸

技术编号:17517089 阅读:71 留言:0更新日期:2018-03-21 01:37
本发明专利技术公开了一种婴幼儿啼哭声检测方法、装置、设备及介质,用以解决现有婴幼儿啼哭声检测方法的准确率无法取得较大突破的问题。该检测方法中通过根据预设的划分方法,将待识别的语音信息划分为多个第一语音段,并确定每个第一语音段的第一语谱图,根据第一语音段的第一语谱图及预先训练完成的残差网络模型,识别该第一语音段是否包含婴幼儿啼哭声。由于本发明专利技术实施例中通过对语音信息进行划分并确定语谱图,利用残差网络模型对语谱图进行识别,有效的提高了婴幼儿啼哭声检测的准确率。

A method, device, equipment and medium for detection of cries of infants and infants

The invention discloses a method for detecting infant crying, a device, a device and a medium, so as to solve the problem that the accuracy rate of the existing infant crying detection method can not get bigger breakthroughs. The detection method by dividing method according to the preset, the voice recognition information is divided into a plurality of first speech segments, and determine the first language of each of the first segment of speech spectrum, according to the residual network model of the first language first speech spectrum and pre training completed, the identification of whether the first speech segments contain infant crying cry. Due to the division of the voice information and the determination of the spectrogram, the residual network model is used to identify the spectrogram, which effectively improves the accuracy of infant crying detection.

【技术实现步骤摘要】
一种婴幼儿啼哭声检测方法、装置、设备及介质
本专利技术涉及语音识别领域,尤其涉及一种婴幼儿啼哭声检测方法、装置、设备及介质。
技术介绍
目前,已有的婴幼儿啼哭声检测方法主要是人工提取啼哭声特征参数,再采用机器学习模型如支持向量机(SupportVectorMachine,SVM)、神经网络等进行检测的方法。具体的,现有的婴儿啼哭声检测方法包括:步骤一,将语音信号经处理提取得到短时能量、基音频率和倒谱参数等特征参数,其中常用的倒谱参数有线性预测倒谱系数(LinearPredictionCepstrumCoefficient,LPCC)和梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC),在婴儿哭声检测方面MFCC参数的识别效果优于LPCC,MFCC参数在婴儿哭声检测领域的使用更为广泛。步骤二,将提取的短时能量、基音频率和MFCC参数运用机器学习模型如SVM、神经网络等进行检测。其中,在神经网络模型中,极限学习机(ExtremeLearningMachine,ELM)应用具有反向传播的多层感知器和隶属值形式的模糊逻辑,在模型复杂度和训练速度上本文档来自技高网...
一种婴幼儿啼哭声检测方法、装置、设备及介质

【技术保护点】
一种婴幼儿啼哭声检测方法,其特征在于,所述方法包括:根据预设的划分方法,将待识别的语音信息划分为多个第一语音段;确定每个第一语音段的第一语谱图;针对每个第一语音段,根据该第一语音段的第一语谱图及预先训练完成的残差网络模型,识别该第一语音段是否包含婴幼儿啼哭声。

【技术特征摘要】
1.一种婴幼儿啼哭声检测方法,其特征在于,所述方法包括:根据预设的划分方法,将待识别的语音信息划分为多个第一语音段;确定每个第一语音段的第一语谱图;针对每个第一语音段,根据该第一语音段的第一语谱图及预先训练完成的残差网络模型,识别该第一语音段是否包含婴幼儿啼哭声。2.如权利要求1所述的婴幼儿啼哭声检测方法,其特征在于,所述残差网络模型的训练过程包括:针对每个样本语音信息,根据预设的划分方法,将该样本语音信息划分为多个第二语音段,标记该第二语音段是否包含婴幼儿啼哭声;确定每个第二语音段的第二语谱图;针对每个第二语音段,根据预先标记的该第二语音段是否包含婴幼儿啼哭声以及该第二语音段的第二语谱图,对残差网络模型进行训练。3.如权利要求2所述的婴幼儿啼哭声检测方法,其特征在于,所述根据预设的划分方法,将该样本语音信息划分为多个第二语音段包括:根据第一设定时长将样本语音信息划分为多个第二语音段,并且每个在后的第二语音段,与其相邻的在前的第二语音段重叠第二设定时长,其中第二设定时长小于第一设定时长。4.如权利要求1所述的婴幼儿啼哭声检测方法,其特征在于,所述根据预设的划分方法,将待识别的语音信息划分为多个第一语音段包括:根据第一设定时长将待识别的语音信息划分为多个第一语音段,并且每个在后的第一语音段,与其相邻的在前的第一语音段重叠第二设定时长,其中第二设定时长小于第一设定时长。5.一种婴幼儿啼哭声检测装置,其特征在于,所述装置包括:划分模块,用于根据预设的划分方法,将待识别的语音信息划分为多个第一语音段;确定模块,用于确定每个第一语音段的第...

【专利技术属性】
技术研发人员:谢湘张立强
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1