声音检测方法及相关设备技术

技术编号：37049174 阅读：14 留言：0更新日期：2023-03-29 19:27

本申请公开了一种声音检测方法、装置、电子设备及计算机可读存储介质，方法包括：获取关于目标对象的音视频数据，在所述音视频数据中提取获得音频数据和图像数据；分别对所述音频数据和所述图像数据进行特征提取，获得音频特征和图像特征；将所述音频特征和所述图像特征输入至声源定位模型进行处理；当所述声源定位模型输出关于所述目标对象的声源定位图时，利用多模态特征融合模型对所述声源定位图和所述音频特征进行识别，确定所述音视频数据中是否存在所述目标对象的目标音频。应用本申请提供的技术方案，可以有效减少漏检、误检问题，提高声音检测结果的准确性。提高声音检测结果的准确性。提高声音检测结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
声音检测方法及相关设备

[0001]本申请涉及多媒体领域，特别涉及一种声音检测方法，还涉及一种声音检测装置、电子设备以及计算机可读存储介质。

技术介绍

[0002]随着生活节奏的加快，对处于婚生阶段的家庭来说，很难做到每时每刻陪伴在婴儿身边，这就会出现无法及时给予婴儿照顾的问题，而婴儿对外界的需求，往往通过哭声来表达，因此，通过智能设备对婴儿进行哭声检测，并能及时反馈父母就显得尤为重要。
[0003]目前，常见的婴儿哭声检测方法主要是通过提取音频的频谱特征进行判断。但是，这种方法对提取的音频特征要求较高，单一使用音频特征，对于一些易混淆的声音（如猫叫声、木门开门声、鸟叫声、婴儿笑声、小孩尖叫声和交谈声等）容易出现误报现象，对一些声音较小的婴儿哭声，又容易出现漏报。
[0004]因此，如何有效减少漏检、误检问题，提高声音检测结果的准确性是本领域技术人员亟待解决的问题。

技术实现思路

[0005]本申请的目的是提供一种声音检测方法，该声音检测方法可以有效减少漏检、误检问题，提高声音检测结果的准确性；本申请的另一目的是提供一种声音检测装置、电子设备及计算机可读存储介质，均具有上述有益效果。
[0006]第一方面，本申请提供了一种声音检测方法，包括：获取关于目标对象的音视频数据，在所述音视频数据中提取获得音频数据和图像数据；分别对所述音频数据和所述图像数据进行特征提取，获得音频特征和图像特征；将所述音频特征和所述图像特征输入至声源定位模型进行处理；当所述声源定位模型输出关于所述目标对象...

【技术保护点】

【技术特征摘要】
1.一种声音检测方法，其特征在于，包括：获取关于目标对象的音视频数据，在所述音视频数据中提取获得音频数据和图像数据；分别对所述音频数据和所述图像数据进行特征提取，获得音频特征和图像特征；将所述音频特征和所述图像特征输入至声源定位模型进行处理；当所述声源定位模型输出关于所述目标对象的声源定位图时，利用多模态特征融合模型对所述声源定位图和所述音频特征进行识别，确定所述音视频数据中是否存在所述目标对象的目标音频。2.根据权利要求1所述的声音检测方法，其特征在于，所述分别对所述音频数据和所述图像数据进行特征提取，获得音频特征和图像特征，包括：计算所述音频数据的频谱系数，利用音频特征提取模型对所述频谱系数进行特征提取，获得所述音频特征；利用图像特征提取模型对所述图像数据进行特征提取，获得所述图像特征。3.根据权利要求1所述的声音检测方法，其特征在于，所述声源定位模型的构建过程包括：获取音视频样本，并在所述音视频样本中提取得到正音频样本、负音频样本、正图像样本、负图像样本；对各所述正音频样本进行识别，获得音量值；将所述音量值不低于预设阈值的正音频样本与所述正图像样本组合为强正样本；将所述负音频样本和所述负图像样本组合为负样本；利用所述强正样本和所述负样本对初始声源定位模型进行训练，获得所述声源定位模型。4.根据权利要求3所述的声音检测方法，其特征在于，所述多模态特征融合模型的构建过程包括：利用所述声源定位模型对各所述强正样本和各所述负样本进行处理，获得各处理结果，并确定各所述处理结果对应的先验参数；所述处理结果包括输出关于所述目标对象的第一声源定位图、输出关于其他对象的第二声源定位图、无输出；当所述强正样本的处理结果为输出所述第一声源定位图像时，将所述第一声源定位图像和所述强正样本中的正音频样本组合为第一正样本；当所述强正样本的处理结果为输出所述第二声源定位图像或所述无输出时，获取所述强正样本中正图像样本的目标对象标定结果，将所述目标对象标定结果和所述强正样本中的正音频样本组合为第二正样本；当所述负样本的处理结果为输出所述第一声源定位图像时，将所述第一声源定位图和所述负样本中的负音频样本组合为第一负样本；当所述负样本的处理结果为输出所述第二声源定位图时，将所述第二声源定位图和所述负样本中的负音频样本组合为第二负样本；当所述负样本的处...

【专利技术属性】
技术研发人员：顾海军，赵刚强，金伟，应红力，
申请(专利权)人：杭州觅睿科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人