基于人工智能的声音事件检测方法、装置、设备及介质制造方法及图纸

技术编号:38531077 阅读:12 留言:0更新日期:2023-08-19 17:04
本发明专利技术涉及数字医疗技术领域,尤其涉及一种基于人工智能的声音事件检测方法、装置、设备及介质。该方法将混合声音分离为独立声音后输入编码器得到声音特征,将声音特征输入到循环层得到时序特征,使用标签预测模型根据声音特征和时序特征处理预测伪事件标签,将查询到的伪事件标签作为参考标签,由参考标签和独立声音组成训练样本,训练事件检测模型,进而得到事件检测结果,提取声音特征的时序信息,丰富了事件预测的输入,提高了事件预测的准确率,对伪事件标签进行查询筛选确定参考标签,使得事件检测模型更好地适应场景,提高了声音事件检测的准确性,能够辅助医护人员及时发现医疗环境下患者的异常声音事件,从而进行及时应对。应对。应对。

【技术实现步骤摘要】
基于人工智能的声音事件检测方法、装置、设备及介质


[0001]本专利技术涉及数字医疗
,尤其涉及一种基于人工智能的声音事件检测方法、装置、设备及介质。

技术介绍

[0002]目前,随着人工智能技术的快速发展,基于人工智能模型的声音事件检测任务已广泛应用于数字医疗平台中,数字医疗平台可以支持疾病辅助诊断、健康管理、远程会诊等功能,从而提高医疗机构的效率,方便居民就医。
[0003]现有技术通常采用深度卷积模型实现声音事件检测任务,声音事件检测任务可以用于在复杂的多音源场景下,识别出每个音源的事件,能够从应用场景的混合声音中检测是否存在符合目标事件的声音,例如,通过声音事件检测从嘈杂的病房环境下提取出患者发出呻吟等声音事件,从而便于医护人员及时应对。
[0004]但是,深度卷积模型在训练时需要大量的标签数据,而针对混合声音的标注工作是极困难的,训练数据的缺失会导致深度卷积模型在实现声音事件检测时的准确率较低,而且即使具有充足的训练数据,在模型实际应用时,面对实时获取到的混合声音,也难以有效从混合声音中识别出未标记的声音事件,导致事件检测结果存在误检,同样导致声音事件检测的准确率较低,因此,如何提高声音事件检测的准确率成为亟待解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供了一种基于人工智能的声音事件检测方法、装置、设备及介质,以解决声音事件检测的准确率较低的问题。
[0006]第一方面,本专利技术实施例提供一种基于人工智能的声音事件检测方法,所述声音事件检测方法包括:
[0007]将获取的混合声音输入训练好的声音分离模型中按照预设的音源数量进行声音分离,得到N个独立声音,N为大于零的整数;
[0008]针对每个独立声音,将所述独立声音输入编码器中进行特征提取,得到声音特征,将声音特征输入到循环层进行时序信息提取,得到时序特征,将所述声音特征和所述时序特征拼接,使用标签预测模型对拼接结果进行标签预测,得到对应所述独立声音的伪事件标签,遍历所述N个独立语音,得到N个伪事件标签;
[0009]在预设的目标标签集合中查询每个伪事件标签,确定被查询到的伪事件标签为参考标签,得到M个参考标签,将每个参考标签和其对应的独立声音组成训练样本,得到M个训练样本,M为大于零且小于N的整数;
[0010]对所述编码器进行全连接处理形成事件检测模型,根据所述M个训练样本对所述事件检测模型进行训练,得到训练好的事件检测模型,将所述N个独立语音输入所述训练好的事件检测模型中进行事件预测,确定得到的N个对应独立声音的预测事件类别为所述混合声音的事件检测结果。
[0011]第二方面,本专利技术实施例提供一种基于人工智能的声音事件检测装置,所述声音事件检测装置包括:
[0012]声音分离模块,用于将获取的混合声音输入训练好的声音分离模型中按照预设的音源数量进行声音分离,得到N个独立声音,N为大于零的整数;
[0013]标签预测模块,用于针对每个独立声音,将所述独立声音输入编码器中进行特征提取,得到声音特征,将声音特征输入到循环层进行时序信息提取,得到时序特征,将所述声音特征和所述时序特征拼接,使用标签预测模型对拼接结果进行标签预测,得到对应所述独立声音的伪事件标签,遍历所述N个独立语音,得到N个伪事件标签;
[0014]标签查询模块,用于在预设的目标标签集合中查询每个伪事件标签,确定被查询到的伪事件标签为参考标签,得到M个参考标签,将每个参考标签和其对应的独立声音组成训练样本,得到M个训练样本,M为大于零且小于N的整数;
[0015]事件检测模块,用于对所述编码器进行全连接处理形成事件检测模型,根据所述M个训练样本对所述事件检测模型进行训练,得到训练好的事件检测模型,将所述N个独立语音输入所述训练好的事件检测模型中进行事件预测,确定得到的N个对应独立声音的预测事件类别为所述混合声音的事件检测结果。
[0016]第三方面,本专利技术实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的声音事件检测方法。
[0017]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的声音事件检测方法。
[0018]本专利技术实施例与现有技术相比存在的有益效果是:
[0019]将获取的混合声音输入训练好的声音分离模型中按照预设的音源数量进行声音分离,得到N个独立声音,针对每个独立声音,将独立声音输入编码器中进行特征提取,得到声音特征,将声音特征输入到循环层进行时序信息提取,得到时序特征,将声音特征和时序特征拼接,使用标签预测模型对拼接结果进行标签预测,得到对应独立声音的伪事件标签,遍历N个独立语音,得到N个伪事件标签,在预设的目标标签集合中查询每个伪事件标签,确定被查询到的伪事件标签为参考标签,得到M个参考标签,将每个参考标签和其对应的独立声音组成训练样本,得到M个训练样本,对编码器进行全连接处理形成事件检测模型,根据M个训练样本对事件检测模型进行训练,得到训练好的事件检测模型,将N个独立语音输入训练好的事件检测模型中进行事件预测,确定得到的N个对应独立声音的预测事件类别为混合声音的事件检测结果,通过循环层提取到声音特征的时序信息,丰富了事件标签预测时的输入信息,从而提高了事件标签预测的准确率,而且,对伪事件标签进行查询筛选,确定参考标签,使得基于参考标签训练的事件检测模型能够更好地适应混合声音的场景,避免了因无关标签的干扰导致声音事件检测出现误检,进而提高了声音事件检测的准确性,能够辅助医护人员及时发现医疗环境下患者的异常声音事件,从而进行及时应对。
附图说明
[0020]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述
中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本专利技术实施例一提供的一种基于人工智能的声音事件检测方法的一应用环境示意图;
[0022]图2是本专利技术实施例一提供的一种基于人工智能的声音事件检测方法的流程示意图;
[0023]图3是本专利技术实施例二提供的一种基于人工智能的声音事件检测方法的流程示意图;
[0024]图4是本专利技术实施例三提供的一种基于人工智能的声音事件检测装置的结构示意图;
[0025]图5是本专利技术实施例四提供的一种计算机设备的结构示意图。
具体实施方式
[0026]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的声音事件检测方法,其特征在于,所述声音事件检测方法包括:将获取的混合声音输入训练好的声音分离模型中按照预设的音源数量进行声音分离,得到N个独立声音,N为大于零的整数;针对每个独立声音,将所述独立声音输入编码器中进行特征提取,得到声音特征,将声音特征输入到循环层进行时序信息提取,得到时序特征,将所述声音特征和所述时序特征拼接,使用标签预测模型对拼接结果进行标签预测,得到对应所述独立声音的伪事件标签,遍历所述N个独立语音,得到N个伪事件标签;在预设的目标标签集合中查询每个伪事件标签,确定被查询到的伪事件标签为参考标签,得到M个参考标签,将每个参考标签和其对应的独立声音组成训练样本,得到M个训练样本,M为大于零且小于N的整数;对所述编码器进行全连接处理形成事件检测模型,根据所述M个训练样本对所述事件检测模型进行训练,得到训练好的事件检测模型,将所述N个独立语音输入所述训练好的事件检测模型中进行事件预测,确定得到的N个对应独立声音的预测事件类别为所述混合声音的事件检测结果。2.根据权利要求1所述的声音事件检测方法,其特征在于,所述的声音分离模型训练过程包括:获取第一混合声音样本和第二混合声音样本,将所述第一混合声音样本和第二混合声音样本进行混合,得到整体混合声音样本;将所述整体混合声音样本输入所述声音分离模型中,按照所述音源数量进行声音分离,得到N个独立声音样本;以可学习的第一矩阵和所述N个独立声音样本相乘,得到第一重构样本,以可学习的第二矩阵和所述N个独立声音样本相乘,得到第二重构样本;根据所述第一混合声音样本、所述第一重构样本和预设的重构损失函数,计算第一重构损失,根据所述第二混合声音样本、所述第二重构样本和所述重构损失函数,计算第二重构损失;以所述第一重构损失和所述第二重构损失为依据,对所述声音分离模型、所述第一矩阵和所述第二矩阵进行训练,仅保留所述训练好的声音分离模型。3.根据权利要求1所述的声音事件检测方法,其特征在于,所述编码器包括卷积层和注意力层;所述将所述独立声音输入编码器中进行特征提取,得到声音特征包括:将所述独立声音输入所述卷积层中按照时间帧进行特征提取,得到帧级特征;将所述帧级特征输入所述注意力层进行特征聚合,确定特征聚合结果为所述声音特征。4.根据权利要求3所述的声音事件检测方法,其特征在于,所述注意力层包括全局注意力层和局部注意力层;所述将所述帧级特征输入所述注意力层进行特征聚合,确定特征聚合结果为所述声音特征包括:采用预设卷积核对所述帧级特征的时间维度进行降维处理,得到降维特征,所述降维特征的维度为K,K为大于零的整数;
将所述降维特征输入所述全局注意力层进行全局上下文建模,得到全局特征,所述全局特征的维度为K;将所述全局特征输入所述局部注意力层进行局部上下文建模,得到K个局部特征;将所述K个局部特征输入所述全局注意力层再次进行全局上下文建模,得到所述特征聚合结果,确定所述特征聚合结果为所述声音特征。5.根据权利要求...

【专利技术属性】
技术研发人员:张之勇王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1