一种婴幼儿啼哭声检测方法、装置、设备及介质制造方法及图纸

技术编号:17517089 阅读:54 留言:0更新日期:2018-03-21 01:37
本发明专利技术公开了一种婴幼儿啼哭声检测方法、装置、设备及介质,用以解决现有婴幼儿啼哭声检测方法的准确率无法取得较大突破的问题。该检测方法中通过根据预设的划分方法,将待识别的语音信息划分为多个第一语音段,并确定每个第一语音段的第一语谱图,根据第一语音段的第一语谱图及预先训练完成的残差网络模型,识别该第一语音段是否包含婴幼儿啼哭声。由于本发明专利技术实施例中通过对语音信息进行划分并确定语谱图,利用残差网络模型对语谱图进行识别,有效的提高了婴幼儿啼哭声检测的准确率。

A method, device, equipment and medium for detection of cries of infants and infants

The invention discloses a method for detecting infant crying, a device, a device and a medium, so as to solve the problem that the accuracy rate of the existing infant crying detection method can not get bigger breakthroughs. The detection method by dividing method according to the preset, the voice recognition information is divided into a plurality of first speech segments, and determine the first language of each of the first segment of speech spectrum, according to the residual network model of the first language first speech spectrum and pre training completed, the identification of whether the first speech segments contain infant crying cry. Due to the division of the voice information and the determination of the spectrogram, the residual network model is used to identify the spectrogram, which effectively improves the accuracy of infant crying detection.

【技术实现步骤摘要】
一种婴幼儿啼哭声检测方法、装置、设备及介质
本专利技术涉及语音识别领域,尤其涉及一种婴幼儿啼哭声检测方法、装置、设备及介质。
技术介绍
目前,已有的婴幼儿啼哭声检测方法主要是人工提取啼哭声特征参数,再采用机器学习模型如支持向量机(SupportVectorMachine,SVM)、神经网络等进行检测的方法。具体的,现有的婴儿啼哭声检测方法包括:步骤一,将语音信号经处理提取得到短时能量、基音频率和倒谱参数等特征参数,其中常用的倒谱参数有线性预测倒谱系数(LinearPredictionCepstrumCoefficient,LPCC)和梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC),在婴儿哭声检测方面MFCC参数的识别效果优于LPCC,MFCC参数在婴儿哭声检测领域的使用更为广泛。步骤二,将提取的短时能量、基音频率和MFCC参数运用机器学习模型如SVM、神经网络等进行检测。其中,在神经网络模型中,极限学习机(ExtremeLearningMachine,ELM)应用具有反向传播的多层感知器和隶属值形式的模糊逻辑,在模型复杂度和训练速度上比应用其他流行方法具有更高的优势,而运用SVM进行检测具有更高的准确率,是目前常用的检测方法。但目前已有的婴幼儿啼哭声检测方法主要是人工提取特征参数,特征参数提取的好坏决定了检测的效果,而什么样的特征参数能够具有最好的检测效果,现在也是不确定的,并且即使组合多种特征参数也难以完全凸显婴幼儿啼哭声的特点,使得检测的准确率无法取得较大突破。而在建模方面,特征参数提取得越复杂,模型的复杂度也会越高,且模型的效果取决于人工提取的特征参数,无论数据集如何增加,人工提取的特征参数种类都是固定的,因特征选取使模型出现的缺陷并不能通过数据集的增加来改进,因此训练的模型的准确率无法取得较大突破。
技术实现思路
本专利技术提供一种婴幼儿啼哭声检测方法、装置、设备及介质,用以提高现有技术中检测婴幼儿啼哭声的准确率。为达到上述目的,本专利技术实施例公开了一种婴幼儿啼哭声检测方法,该方法包括:根据预设的划分方法,将待识别的语音信息划分为多个第一语音段;确定每个第一语音段的第一语谱图;针对每个第一语音段,根据该第一语音段的第一语谱图及预先训练完成的残差网络模型,识别该第一语音段是否包含婴幼儿啼哭声。进一步的,所述残差网络模型的训练过程包括:针对每个样本语音信息,根据预设的划分方法,将该样本语音信息划分为多个第二语音段,标记该第二语音段是否包含婴幼儿啼哭声;确定每个第二语音段的第二语谱图;针对每个第二语音段,根据预先标记的该第二语音段是否包含婴幼儿啼哭声以及该第二语音段的第二语谱图,对残差网络模型进行训练。进一步的,所述根据预设的划分方法,将待识别的语音信息划分为多个第一语音段包括:根据第一设定时长将待识别的语音信息划分为多个第一语音段,并且每个在后的第一语音段,与其相邻的在前的第一语音段重叠第二设定时长,其中第二设定时长小于第一设定时长。本专利技术实施例公开了一种婴幼儿啼哭声检测装置,包括:划分模块,用于根据预设的划分方法,将待识别的语音信息划分为多个第一语音段;确定模块,用于确定每个第一语音段的第一语谱图;识别模块,用于针对每个第一语音段,根据该第一语音段的第一语谱图及预先训练完成的残差网络模型,识别该第一语音段是否包含婴幼儿啼哭声。进一步的,所述划分模块,还用于针对每个样本语音信息,根据预设的划分方法,将该样本语音信息划分为多个第二语音段,标记该第二语音段是否包含婴幼儿啼哭声;所述确定模块,还用于确定每个第二语音段的第二语谱图;所述装置还包括:训练模块,用于针对每个第二语音段,根据预先标记的该第二语音段是否包含婴幼儿啼哭声以及该第二语音段的第二语谱图,对残差网络模型进行训练。进一步的,所述划分模块,具体用于根据第一设定时长将样本语音信息划分为多个第二语音段,并且每个在后的第二语音段,与其相邻的在前的第二语音段重叠第二设定时长,其中第二设定时长小于第一设定时长。进一步的,所述划分模块,还具体用于根据第一设定时长将待识别的语音信息划分为多个第一语音段,并且每个在后的第一语音段,与其相邻的在前的第一语音段重叠第二设定时长,其中第二设定时长小于第一设定时长。本专利技术实施例公开了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如上述任一项所述的方法步骤。本专利技术实施例公开了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法步骤。本专利技术通过对待识别的语音信息按预设方法进行分段处理,采用预先训练完成的残差网络模型针对提取的各语音段的语谱图,识别各语音段中是否包含婴幼儿啼哭声,无需人工提取语音信息的特征参数,克服了特征参数难以完全凸显婴幼儿啼哭声特点的问题,有效的提高了婴幼儿啼哭声检测的准确率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种婴幼儿啼哭声的检测方法;图2为本专利技术实施例提供的残差网络模型训练结果的示意图;图3为本专利技术实施例提供的一种婴幼儿啼哭声检测装置的示意图;图4为本专利技术实施例提供的一种计算机设备示意图。具体实施方式为了提高婴幼儿啼哭声检测的准确率,本专利技术实施例提供了一种婴幼儿啼哭声检测方法及装置。下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1:图1为本专利技术实施例提供的一种婴幼儿啼哭声的检测方法,该方法包括:S11:根据预设的划分方法,将待识别的语音信息划分为多个第一语音段。针对每个语音信息,可以将每个语音信息划分为多个第一语音段,具体的划分时,可以采用多种方法,可以将语音信息划分为多个时长相同或时长不相同的第一语音段,语音信息的末段时长不足时向前划分指定时长,并且针对每个语音信息的第一语音段经过拼接后,可以得到该完整的语音信息;另外,在确定每个第一语音段时,每两个相邻的语音段可以有重叠或者没有重叠。具体地,本专利技术实施例中,将该语音信息划分为多个第一语音段的方法包括但不限于以下几种:第一种,将该语音信息划分为时长相同并且相互不重叠的第一语音段,其中第一语音段的时长可以是相同的1秒或2秒或3.5秒等;例如:将某一语音信息划分为每段时长为2秒的第一语音段,若该语音信息时长共10秒,则可划分为5个第一语音段。第二种,将该语音信息划分为时长相同并相互重叠的第一语音段,其中第一语音段的时长可以是相同的1秒或2秒或3.5秒等,但其重叠部分时长相同且小于每个第一语音段的时长;例如:将某一语音信息划分为每段时长为本文档来自技高网
...
一种婴幼儿啼哭声检测方法、装置、设备及介质

【技术保护点】
一种婴幼儿啼哭声检测方法,其特征在于,所述方法包括:根据预设的划分方法,将待识别的语音信息划分为多个第一语音段;确定每个第一语音段的第一语谱图;针对每个第一语音段,根据该第一语音段的第一语谱图及预先训练完成的残差网络模型,识别该第一语音段是否包含婴幼儿啼哭声。

【技术特征摘要】
1.一种婴幼儿啼哭声检测方法,其特征在于,所述方法包括:根据预设的划分方法,将待识别的语音信息划分为多个第一语音段;确定每个第一语音段的第一语谱图;针对每个第一语音段,根据该第一语音段的第一语谱图及预先训练完成的残差网络模型,识别该第一语音段是否包含婴幼儿啼哭声。2.如权利要求1所述的婴幼儿啼哭声检测方法,其特征在于,所述残差网络模型的训练过程包括:针对每个样本语音信息,根据预设的划分方法,将该样本语音信息划分为多个第二语音段,标记该第二语音段是否包含婴幼儿啼哭声;确定每个第二语音段的第二语谱图;针对每个第二语音段,根据预先标记的该第二语音段是否包含婴幼儿啼哭声以及该第二语音段的第二语谱图,对残差网络模型进行训练。3.如权利要求2所述的婴幼儿啼哭声检测方法,其特征在于,所述根据预设的划分方法,将该样本语音信息划分为多个第二语音段包括:根据第一设定时长将样本语音信息划分为多个第二语音段,并且每个在后的第二语音段,与其相邻的在前的第二语音段重叠第二设定时长,其中第二设定时长小于第一设定时长。4.如权利要求1所述的婴幼儿啼哭声检测方法,其特征在于,所述根据预设的划分方法,将待识别的语音信息划分为多个第一语音段包括:根据第一设定时长将待识别的语音信息划分为多个第一语音段,并且每个在后的第一语音段,与其相邻的在前的第一语音段重叠第二设定时长,其中第二设定时长小于第一设定时长。5.一种婴幼儿啼哭声检测装置,其特征在于,所述装置包括:划分模块,用于根据预设的划分方法,将待识别的语音信息划分为多个第一语音段;确定模块,用于确定每个第一语音段的第...

【专利技术属性】
技术研发人员:谢湘张立强
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1