The invention discloses a method for detecting infant crying, a device, a device and a medium, so as to solve the problem that the accuracy rate of the existing infant crying detection method can not get bigger breakthroughs. The detection method by dividing method according to the preset, the voice recognition information is divided into a plurality of first speech segments, and determine the first language of each of the first segment of speech spectrum, according to the residual network model of the first language first speech spectrum and pre training completed, the identification of whether the first speech segments contain infant crying cry. Due to the division of the voice information and the determination of the spectrogram, the residual network model is used to identify the spectrogram, which effectively improves the accuracy of infant crying detection.
【技术实现步骤摘要】
一种婴幼儿啼哭声检测方法、装置、设备及介质
本专利技术涉及语音识别领域,尤其涉及一种婴幼儿啼哭声检测方法、装置、设备及介质。
技术介绍
目前,已有的婴幼儿啼哭声检测方法主要是人工提取啼哭声特征参数,再采用机器学习模型如支持向量机(SupportVectorMachine,SVM)、神经网络等进行检测的方法。具体的,现有的婴儿啼哭声检测方法包括:步骤一,将语音信号经处理提取得到短时能量、基音频率和倒谱参数等特征参数,其中常用的倒谱参数有线性预测倒谱系数(LinearPredictionCepstrumCoefficient,LPCC)和梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC),在婴儿哭声检测方面MFCC参数的识别效果优于LPCC,MFCC参数在婴儿哭声检测领域的使用更为广泛。步骤二,将提取的短时能量、基音频率和MFCC参数运用机器学习模型如SVM、神经网络等进行检测。其中,在神经网络模型中,极限学习机(ExtremeLearningMachine,ELM)应用具有反向传播的多层感知器和隶属值形式的模糊逻辑,在模 ...
【技术保护点】
一种婴幼儿啼哭声检测方法,其特征在于,所述方法包括:根据预设的划分方法,将待识别的语音信息划分为多个第一语音段;确定每个第一语音段的第一语谱图;针对每个第一语音段,根据该第一语音段的第一语谱图及预先训练完成的残差网络模型,识别该第一语音段是否包含婴幼儿啼哭声。
【技术特征摘要】
1.一种婴幼儿啼哭声检测方法,其特征在于,所述方法包括:根据预设的划分方法,将待识别的语音信息划分为多个第一语音段;确定每个第一语音段的第一语谱图;针对每个第一语音段,根据该第一语音段的第一语谱图及预先训练完成的残差网络模型,识别该第一语音段是否包含婴幼儿啼哭声。2.如权利要求1所述的婴幼儿啼哭声检测方法,其特征在于,所述残差网络模型的训练过程包括:针对每个样本语音信息,根据预设的划分方法,将该样本语音信息划分为多个第二语音段,标记该第二语音段是否包含婴幼儿啼哭声;确定每个第二语音段的第二语谱图;针对每个第二语音段,根据预先标记的该第二语音段是否包含婴幼儿啼哭声以及该第二语音段的第二语谱图,对残差网络模型进行训练。3.如权利要求2所述的婴幼儿啼哭声检测方法,其特征在于,所述根据预设的划分方法,将该样本语音信息划分为多个第二语音段包括:根据第一设定时长将样本语音信息划分为多个第二语音段,并且每个在后的第二语音段,与其相邻的在前的第二语音段重叠第二设定时长,其中第二设定时长小于第一设定时长。4.如权利要求1所述的婴幼儿啼哭声检测方法,其特征在于,所述根据预设的划分方法,将待识别的语音信息划分为多个第一语音段包括:根据第一设定时长将待识别的语音信息划分为多个第一语音段,并且每个在后的第一语音段,与其相邻的在前的第一语音段重叠第二设定时长,其中第二设定时长小于第一设定时长。5.一种婴幼儿啼哭声检测装置,其特征在于,所述装置包括:划分模块,用于根据预设的划分方法,将待识别的语音信息划分为多个第一语音段;确定模块,用于确定每个第一语音段的第...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。