声音检测方法及相关设备技术

技术编号:37049174 阅读:14 留言:0更新日期:2023-03-29 19:27
本申请公开了一种声音检测方法、装置、电子设备及计算机可读存储介质,方法包括:获取关于目标对象的音视频数据,在所述音视频数据中提取获得音频数据和图像数据;分别对所述音频数据和所述图像数据进行特征提取,获得音频特征和图像特征;将所述音频特征和所述图像特征输入至声源定位模型进行处理;当所述声源定位模型输出关于所述目标对象的声源定位图时,利用多模态特征融合模型对所述声源定位图和所述音频特征进行识别,确定所述音视频数据中是否存在所述目标对象的目标音频。应用本申请提供的技术方案,可以有效减少漏检、误检问题,提高声音检测结果的准确性。提高声音检测结果的准确性。提高声音检测结果的准确性。

【技术实现步骤摘要】
声音检测方法及相关设备


[0001]本申请涉及多媒体领域,特别涉及一种声音检测方法,还涉及一种声音检测装置、电子设备以及计算机可读存储介质。

技术介绍

[0002]随着生活节奏的加快,对处于婚生阶段的家庭来说,很难做到每时每刻陪伴在婴儿身边,这就会出现无法及时给予婴儿照顾的问题,而婴儿对外界的需求,往往通过哭声来表达,因此,通过智能设备对婴儿进行哭声检测,并能及时反馈父母就显得尤为重要。
[0003]目前,常见的婴儿哭声检测方法主要是通过提取音频的频谱特征进行判断。但是,这种方法对提取的音频特征要求较高,单一使用音频特征,对于一些易混淆的声音(如猫叫声、木门开门声、鸟叫声、婴儿笑声、小孩尖叫声和交谈声等)容易出现误报现象,对一些声音较小的婴儿哭声,又容易出现漏报。
[0004]因此,如何有效减少漏检、误检问题,提高声音检测结果的准确性是本领域技术人员亟待解决的问题。

技术实现思路

[0005]本申请的目的是提供一种声音检测方法,该声音检测方法可以有效减少漏检、误检问题,提高声音检测结果的准确性;本申请的另一目的是提供一种声音检测装置、电子设备及计算机可读存储介质,均具有上述有益效果。
[0006]第一方面,本申请提供了一种声音检测方法,包括:获取关于目标对象的音视频数据,在所述音视频数据中提取获得音频数据和图像数据;分别对所述音频数据和所述图像数据进行特征提取,获得音频特征和图像特征;将所述音频特征和所述图像特征输入至声源定位模型进行处理;当所述声源定位模型输出关于所述目标对象的声源定位图时,利用多模态特征融合模型对所述声源定位图和所述音频特征进行识别,确定所述音视频数据中是否存在所述目标对象的目标音频。
[0007]可选地,所述分别对所述音频数据和所述图像数据进行特征提取,获得音频特征和图像特征,包括:计算所述音频数据的频谱系数,利用音频特征提取模型对所述频谱系数进行特征提取,获得所述音频特征;利用图像特征提取模型对所述图像数据进行特征提取,获得所述图像特征。
[0008]可选地,所述声源定位模型的构建过程包括:获取音视频样本,并在所述音视频样本中提取得到正音频样本、负音频样本、正图像样本、负图像样本;对各所述正音频样本进行识别,获得音量值;
将所述音量值不低于预设阈值的正音频样本与所述正图像样本组合为强正样本;将所述负音频样本和所述负图像样本组合为负样本;利用所述强正样本和所述负样本对初始声源定位模型进行训练,获得所述声源定位模型。
[0009]可选地,所述多模态特征融合模型的构建过程包括:利用所述声源定位模型对各所述强正样本和各所述负样本进行处理,获得各处理结果,并确定各所述处理结果对应的先验参数;所述处理结果包括输出关于所述目标对象的第一声源定位图、输出关于其他对象的第二声源定位图、无输出;当所述强正样本的处理结果为输出所述第一声源定位图像时,将所述第一声源定位图像和所述强正样本中的正音频样本组合为第一正样本;当所述强正样本的处理结果为输出所述第二声源定位图像或所述无输出时,获取所述强正样本中正图像样本的目标对象标定结果,将所述目标对象标定结果和所述强正样本中的正音频样本组合为第二正样本;当所述负样本的处理结果为输出所述第一声源定位图像时,将所述第一声源定位图和所述负样本中的负音频样本组合为第一负样本;当所述负样本的处理结果为输出所述第二声源定位图时,将所述第二声源定位图和所述负样本中的负音频样本组合为第二负样本;当所述负样本的处理结果为无输出时,获取所述负样本中负图像样本中的其他对象标定结果,将所述其他对象标定结果和所述负样本中的负音频样本组合为第三负样本;将所述第一正样本、第二正样本组合为正样本集合,将所述第一负样本、第二负样本、第三负样本组合为负样本集合;根据所述正样本集合、所述负样本集合、各所述先验参数进行模型训练,获得所述多模态特征融合模型。
[0010]可选地,所述声音检测方法还包括:将所述音量值低于所述预设阈值的正音频样本与所述正图像样本数据组合为弱正样本;利用所述多模态特征融合模型和所述弱正样本训练获得学生模型;利用所述学生模型对所述多模态特征融合模型进行参数更新,获得更新后的多模态特征融合模型。
[0011]可选地,所述利用多模态特征融合模型对所述声源定位图和所述音频特征进行识别,包括:判断是否接收到定制信息,所述定制信息为关于所述目标对象的目标音视频样本;若是,则利用所述目标音视频样本对所述多模态特征融合模型进行模型优化,获得优化后的多模态特征融合模型;利用所述优化后的多模态特征融合模型对所述声源定位图和所述音频特征进行识别。
[0012]可选地,所述声音检测方法还包括:当所述声源定位模型未输出关于所述目标对象的声源定位图时,确定所述音视频
数据中不存在所述目标对象的目标音频。
[0013]第二方面,本申请还公开了一种声音检测装置,包括:获取模块,用于获取关于目标对象的音视频数据,在所述音视频数据中提取获得音频数据和图像数据;提取模块,用于分别对所述音频数据和所述图像数据进行特征提取,获得音频特征和图像特征;输入模块,用于将所述音频特征和所述图像特征输入至声源定位模型进行处理;识别模块,用于当所述声源定位模型输出关于所述目标对象的声源定位图时,利用多模态特征融合模型对所述声源定位图和所述音频特征进行识别,确定所述音视频数据中是否存在所述目标对象的目标音频。
[0014]第三方面,本申请还公开了一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上所述的任一种声音检测方法的步骤。
[0015]第四方面,本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的任一种声音检测方法的步骤。
[0016]本申请提供了一种声音检测方法,包括获取关于目标对象的音视频数据,在所述音视频数据中提取获得音频数据和图像数据;分别对所述音频数据和所述图像数据进行特征提取,获得音频特征和图像特征;将所述音频特征和所述图像特征输入至声源定位模型进行处理;当所述声源定位模型输出关于所述目标对象的声源定位图时,利用多模态特征融合模型对所述声源定位图和所述音频特征进行识别,确定所述音视频数据中是否存在所述目标对象的目标音频。
[0017]应用本申请所提供的技术方案,首先获取音视频数据,并从中分别提取音频数据和图像数据,然后利用声源定位模型对音频数据的音频特征和图像数据的图像特征进行处理获取关于目标对象的声源定位图,最后利用多模态特征融合模型对声源定位图和音频数据的音频特进行处理,以确定音视频数据中是否存在关于目标对象的目标声音,从而实现声音检测,显然,该种实现方式实现了多模态特征的声音检测,相较于单一模态特征的声音检测,可以有效减少漏检、误检问题,从而提高声音检测结果的准确性。
[0018]本申请所提供的声音检测装置、电子设备以及计算机可读存储介质,同样具有上述技术效果,本申请在此不再赘述。
附图说本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声音检测方法,其特征在于,包括:获取关于目标对象的音视频数据,在所述音视频数据中提取获得音频数据和图像数据;分别对所述音频数据和所述图像数据进行特征提取,获得音频特征和图像特征;将所述音频特征和所述图像特征输入至声源定位模型进行处理;当所述声源定位模型输出关于所述目标对象的声源定位图时,利用多模态特征融合模型对所述声源定位图和所述音频特征进行识别,确定所述音视频数据中是否存在所述目标对象的目标音频。2.根据权利要求1所述的声音检测方法,其特征在于,所述分别对所述音频数据和所述图像数据进行特征提取,获得音频特征和图像特征,包括:计算所述音频数据的频谱系数,利用音频特征提取模型对所述频谱系数进行特征提取,获得所述音频特征;利用图像特征提取模型对所述图像数据进行特征提取,获得所述图像特征。3.根据权利要求1所述的声音检测方法,其特征在于,所述声源定位模型的构建过程包括:获取音视频样本,并在所述音视频样本中提取得到正音频样本、负音频样本、正图像样本、负图像样本;对各所述正音频样本进行识别,获得音量值;将所述音量值不低于预设阈值的正音频样本与所述正图像样本组合为强正样本;将所述负音频样本和所述负图像样本组合为负样本;利用所述强正样本和所述负样本对初始声源定位模型进行训练,获得所述声源定位模型。4.根据权利要求3所述的声音检测方法,其特征在于,所述多模态特征融合模型的构建过程包括:利用所述声源定位模型对各所述强正样本和各所述负样本进行处理,获得各处理结果,并确定各所述处理结果对应的先验参数;所述处理结果包括输出关于所述目标对象的第一声源定位图、输出关于其他对象的第二声源定位图、无输出;当所述强正样本的处理结果为输出所述第一声源定位图像时,将所述第一声源定位图像和所述强正样本中的正音频样本组合为第一正样本;当所述强正样本的处理结果为输出所述第二声源定位图像或所述无输出时,获取所述强正样本中正图像样本的目标对象标定结果,将所述目标对象标定结果和所述强正样本中的正音频样本组合为第二正样本;当所述负样本的处理结果为输出所述第一声源定位图像时,将所述第一声源定位图和所述负样本中的负音频样本组合为第一负样本;当所述负样本的处理结果为输出所述第二声源定位图时,将所述第二声源定位图和所述负样本中的负音频样本组合为第二负样本;当所述负样本的处...

【专利技术属性】
技术研发人员:顾海军赵刚强金伟应红力
申请(专利权)人:杭州觅睿科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1