声音的识别方法及装置、存储介质和电子装置制造方法及图纸

技术编号:26224687 阅读:34 留言:0更新日期:2020-11-04 10:59
本发明专利技术提供了一种声音的识别方法及装置、存储介质和电子装置;其中,该方法包括:采集目标对象发出的声音信息;判断采集到的目标对象发出的声音信息是否为哭声信息;在判断结果为是的情况下,将声音信息输入预先训练的声音模型,其中,声音模型包括第一级模型和第二级模型;第一级模型用于识别出声音信息的用于表征目标对象需求的需求类型,第二级模型用于识别出声音信息在需求类型中的需求状态;通过第一级模型和第二级模型识别出与声音信息对应的用于表征目标对象的具体需求。通过本发明专利技术,解决了相关技术中只能根据人的经验对婴儿的哭声进行识别容易导致识别失误的问题。

【技术实现步骤摘要】
声音的识别方法及装置、存储介质和电子装置
本专利技术涉及计算机领域,具体而言,涉及一种声音的识别方法及装置、存储介质和电子装置。
技术介绍
啼哭是婴儿很主要的一种表达方式,正确识别哭声了解婴儿的需求对于养育婴儿非常重要。初生婴儿在最开始的几个月内获得的安全感对其以后的生活有着非常重要的影响,极有可能伴随并影响其一生。因此,若能够正确识别婴儿的哭声并满足其需求,将会更有利于婴儿的健康成长。相对来说,哭声相对比较复杂,哭声所传达的信息也是比较模糊,比如饥饿、累了、孤独等。但是,对于一个有经验的育婴师来说,及时、有效地分清婴儿的哭声包含的需求尚且不容易,更不用说对于初为人母/人父的青年父母。可见,相关技术中对于婴儿哭声的识别均是依据人的经验,而人的经验往往是不一致的,而且主观的判断容易导致识别失误。针对相关技术中的上述问题,目前尚未存在有效的解决方案。
技术实现思路
本专利技术实施例提供了一种声音的识别方法及装置、存储介质和电子装置,以至少解决相关技术中只能根据人的经验对婴儿的哭声进行识别容易导致识别失误的问题。<本文档来自技高网...

【技术保护点】
1.一种声音的识别方法,其特征在于,包括:/n采集目标对象发出的声音信息;/n判断采集到的目标对象发出的声音信息是否为哭声信息;/n在判断结果为是的情况下,将所述声音信息输入预先训练的声音模型,其中,所述预先训练的声音模型是根据由多个哭声信息组成的训练集对初始声音模型进行训练得到的,且所述预先训练的声音模型包括第一级模型和第二级模型;所述第一级模型用于识别出所述声音信息的用于表征所述目标对象需求的需求类型,所述第二级模型用于识别出所述声音信息在所述需求类型中的需求状态;/n通过所述第一级模型和所述第二级模型识别出与所述声音信息对应的用于表征所述目标对象的具体需求。/n

【技术特征摘要】
1.一种声音的识别方法,其特征在于,包括:
采集目标对象发出的声音信息;
判断采集到的目标对象发出的声音信息是否为哭声信息;
在判断结果为是的情况下,将所述声音信息输入预先训练的声音模型,其中,所述预先训练的声音模型是根据由多个哭声信息组成的训练集对初始声音模型进行训练得到的,且所述预先训练的声音模型包括第一级模型和第二级模型;所述第一级模型用于识别出所述声音信息的用于表征所述目标对象需求的需求类型,所述第二级模型用于识别出所述声音信息在所述需求类型中的需求状态;
通过所述第一级模型和所述第二级模型识别出与所述声音信息对应的用于表征所述目标对象的具体需求。


2.根据权利要求1所述的方法,其特征在于,判断采集到的目标对象发出的声音信息是否为哭声信息,包括:
将采集到的所述声音信息转码为指定格式;
对转码后的声音信息的音频进行分段,并从每一段音频中提取出频谱特征;其中,相邻两段音频相互重叠部分音频;
通过分类模型对每一段音频的频谱特征进行检测以判断所述声音信息是否为哭声信息。


3.根据权利要求2所述的方法,其特征在于,在采集目标对象发出的声音信息之前,所述方法还包括:
获取第一数据集,其中,所述第一数据集中包括多个为哭声信息的声音信息;
提取所述第一数据集中声音信息的频谱特征;
从所述第一数据集中选择部分数据作为初始分类模型的训练集,并基于所述训练集中的频谱特征对初始统计概率模型进行训练以确定所述分类模型的参数。


4.根据权利要求1所述的方法,其特征在于,在采集目标对象发出的声音信息之前,所述方法还包括:
获取第二数据集;其中,所述第二数据集中的声音信息被划分为多个需求类型的声音信息;每个需求类型中包括用于表征所述目标对象需求的需求状态的声音信息;
提取所述第二数据集中声音信息的频谱特征;
从所述第二数据集中选择部分数据作为初始声音模型的训练集,并基于所述训练集中的频谱特征对所述初始声音模型中的初始第一级模型和初始第二级模型进行训练以确定所述声音模型中所述第一级模型和所述第二级模型的参数。


5.根据权利要求1或4所述的方法,其特征在于,通过所述第一级模型和所述第二级模型识别出与所述声音信息对应的用于表征所述目标对象需求的需求状态,包括:
将所述声音信息的频谱特征输入到所述第一级模型中,得到所述声音信息分别为多个需求类型的概率值;
从多个所述需求类型的概率值中选择出概率值最大的需求类型;
将所述声音信息的频谱特征输入到所述第二级模型中,得到与选择出的概率值最大的需求类型对应的需求状态的概率值;
将概率值最大的需求状态作为所述声音信息的需求状态。


6.一种声音的识别装置,其特征在于,包括:
采集模块,用于采集目标对象发出的声音信息;
判断模块,用于判断采集到的目标对象发出的声音信息是否为哭声信息;
输入模块,用于在判断结果为是的情况下,将所述声音信息输入...

【专利技术属性】
技术研发人员:屈奇勋胡雯张磊石瑗璐李宛庭沈凌浩郑汉城
申请(专利权)人:深圳数字生命研究院深圳碳云智能数字生命健康管理有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1