音频事件类别识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:38526839 阅读:12 留言:0更新日期:2023-08-19 17:02
本发明专利技术涉及人工智能技术及数字医疗技术领域,尤其涉及一种音频事件类别识别方法、装置、计算机设备及存储介质,包括:将混叠音频分离为至少一个单事件音频;将所述单事件音频输入到伪标签预测模型,得到每个所述单事件音频对应的伪标签;根据针对所述混叠音频预先标注好的至少一个目标音频标签,以及所述单事件音频对应的伪标签,从所述单事件音频中筛选得到目标事件音频;所述目标音频标签用于指示与所述目标音频标签相同的伪标签对应的单事件音频需要被保留;将所述目标事件音频输入到事件类别识别模型,得到每个所述目标事件音频对应的目标事件类别。的目标事件类别。的目标事件类别。

【技术实现步骤摘要】
音频事件类别识别方法、装置、计算机设备及存储介质


[0001]本专利技术涉及人工智能技术及数字医疗
,尤其涉及一种音频事件类别识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着科学技术的不断进步,声音事件检测技术在数字医疗领域也得到了广泛应用。在数字医疗领域中,人的身体本身在存在疾病,会产生各种各样的声音,如病人呼吸系统相关的音频事件有咳嗽、打鼾、言语、喘息、呼吸等,通过声音检测技术,可以针对这些不同的音频事件进行事件类别判定,进而按照事件类别对这些音频事件进行分类,以使医疗人员针对不同类别的音频事件对病人的身体状态进行分析,进而快速医疗人员完成对病人病情的诊断。
[0003]目前,声音事件检测技术通常是先将混合音频进行盲源分离,得到一定数量的单事件音频,然后通过声音事件类别识别模型直接对这些单事件音频进行声音事件类别识别。但是,混合音频中通常会携带部分无效音频,如噪音音频,这样,在通过声音事件类别识别模型对混合音频分离出的单事件音频进行声音事件识别时,还会根据这些单事件音频进行学习,进而单事件音频中的无效音频会导致声音事件类别识别模型的识别精度不断降低。
[0004]例如,医疗领域中,通过声音检测设备获取老人的心跳信号、呼吸信号并进行检测,进而在老人心跳频率异常,或者呼吸频域异常时,提醒老人及时就诊,或者拨打急救电话,以保证老人生命安全。然而,声音检测设备获取老人的心跳信号、呼吸信号时,会同时获取到老人走路的声音、路人说话的声音等环境噪音,声音检测设备也会对老人走路的声音、路人说话的声音进行检测,进而导致声音检测设备的识别精度逐渐降低。

技术实现思路

[0005]本专利技术实施例提供一种音频事件类别识别方法、装置、计算机设备及存储介质,以解决数字医疗领域中的声音事件类别识别模型直接对混叠音频中分离出的单事件音频直接进行声音事件检测,而导致声音事件类别识别模型的识别精度不断降低的问题。
[0006]本专利技术公开了一种音频事件类别识别方法,所述方法包括:
[0007]对混叠音频进行分离处理,得到至少一个单事件音频;
[0008]将所述单事件音频输入到伪标签预测模型,得到每个所述单事件音频对应的伪标签;所述伪标签至少表征所述单事件音频对应的预测事件类别;
[0009]根据针对所述混叠音频预先标注好的至少一个目标音频标签,以及所述单事件音频对应的伪标签,从所述单事件音频中筛选得到目标事件音频;所述目标音频标签用于指示与所述目标音频标签相同的伪标签对应的单事件音频需要被保留;
[0010]将所述目标事件音频输入到事件类别识别模型,得到每个所述目标事件音频对应的目标事件类别。
[0011]上述方法,可选的,所述根据针对所述混叠音频预先标注好的至少一个目标音频标签,以及所述单事件音频对应的伪标签,从所述单事件音频中筛选得到目标事件音频,包括:
[0012]基于伪标签筛选标准,将每个所述单事件音频对应的伪标签,依次与每个所述目标音频标签进行对比;
[0013]若所述单事件音频对应的伪标签与任意一个所述目标音频标签相同,确定所述单事件音频为所述目标事件音频。
[0014]上述方法,可选的,所述伪标签筛选标准为:
[0015]S={(x
i
,L
i
)|L
i
∈(G1,G2,

,G
k
)},i∈1,2,

,N
[0016]其中,x
i
为第i个单事件音频,L
i
为第i个单事件音频对应的伪标签,(G1,G2,

,G
k
)为k个目标音频标签。
[0017]上述方法,可选的,所述将所述目标事件音频输入到事件类别识别模型,得到每个所述目标事件音频对应的目标事件类别,包括:
[0018]将所述目标事件音频输入到所述事件类别识别模型,分别得到每个所述目标事件音频对应的帧级后验预测值
[0019]基于交叉熵函数计算公式,分别计算得到每个所述目标事件音频的每一帧音频对应的帧级后验概率值;
[0020]将所述帧级后验概率值输入到均值计算公式,分别得到每个所述目标事件音频对应的目标事件类别。
[0021]上述方法,可选的,所述帧级后验概率计算公式为:
[0022][0023]其中,N为所述目标事件音频的总数量,C为所述目标音频标签的总数量,y
i
表示对应帧i的组类标签,c
j
表示组类标签的集合,p(c
j
|X
i
)表示对应输入的单事件音频的c
j
类的后验概率预测值,loss
g
为所述目标事件音频的帧级后验概率值。
[0024]上述方法,可选的,所述均值计算公式为:
[0025][0026]其中,C为所述目标音频标签的总数量,T表示所述目标事件音频的长度,L为所述目标事件类别,p(C|X
i
)为所述单事件音频的帧级后验概率值。
[0027]上述方法,可选的,所述事件类别识别模型和所述伪标签预测模型存在参数共享关系,
[0028]其中,在所述将所述目标事件音频输入到事件类别识别模型,得到每个所述目标事件音频对应的目标事件类别之后,还包括:
[0029]根据所述目标事件音频及对应的伪标签对所述事件类别识别模型进行再训练,得到新的事件类别识别模型;
[0030]基于所述新的事件类别识别模型和所述伪标签预测模型之间的共享参数对所述
伪标签预测模型进行更新,得到新的伪标签预测模型。
[0031]本专利技术还公开了一种音频事件类别识别装置,包括:
[0032]音频分离单元,用于对混叠音频进行分离处理,得到至少一个单事件音频;
[0033]伪标签预测单元,用于将所述单事件音频输入到伪标签预测模型,得到每个所述单事件音频对应的伪标签;所述伪标签至少表征所述单事件音频对应的预测事件类别;
[0034]目标事件音频筛选单元,用于根据针对所述混叠音频预先标注好的至少一个目标音频标签,以及所述单事件音频对应的伪标签,从所述单事件音频中筛选得到目标事件音频;所述目标音频标签用于指示与所述目标音频标签相同的伪标签对应的单事件音频需要被保留;
[0035]目标事件类别识别单元,用于将所述目标事件音频及对应的伪标签输入到事件类别识别模型,得到每个所述目标事件音频对应的目标事件类别。
[0036]本专利技术还公开了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如一种音频事件类别识别方法的各个步骤。
[0037]本专利技术还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如一种音频事件类别识别方法的各个步骤。...

【技术保护点】

【技术特征摘要】
1.一种音频事件类别识别方法,其特征在于,所述方法包括:对混叠音频进行分离处理,得到至少一个单事件音频;将所述单事件音频输入到伪标签预测模型,得到每个所述单事件音频对应的伪标签;所述伪标签至少表征所述单事件音频对应的预测事件类别;根据针对所述混叠音频预先标注好的至少一个目标音频标签,以及所述单事件音频对应的伪标签,从所述单事件音频中筛选得到目标事件音频;所述目标音频标签用于指示与所述目标音频标签相同的伪标签对应的单事件音频需要被保留;将所述目标事件音频输入到事件类别识别模型,得到每个所述目标事件音频对应的目标事件类别。2.如权利要求1所述的方法,其特征在于,所述根据针对所述混叠音频预先标注好的至少一个目标音频标签,以及所述单事件音频对应的伪标签,从所述单事件音频中筛选得到目标事件音频,包括:基于伪标签筛选标准,将每个所述单事件音频对应的伪标签,依次与每个所述目标音频标签进行对比;若所述单事件音频对应的伪标签与任意一个所述目标音频标签相同,确定所述单事件音频为所述目标事件音频。3.如权利要求2所述的方法,其特征在于,所述伪标签筛选标准为:S=*(x
i
,L
i
)|L
i
∈(G1,G2,

,G
k
)+,i∈1,2,

,N其中,x
i
为第i个单事件音频,L
i
为第i个单事件音频对应的伪标签,(G1,G2,

,G
k
)为k个目标音频标签。4.如权利要求1所述的方法,其特征在于,所述将所述目标事件音频输入到事件类别识别模型,得到每个所述目标事件音频对应的目标事件类别,包括:将所述目标事件音频输入到所述事件类别识别模型,分别得到每个所述目标事件音频对应的帧级后验预测值基于交叉熵函数计算公式,分别计算得到每个所述目标事件音频的每一帧音频对应的帧级后验概率值;将所述帧级后验概率值输入到均值计算公式,分别得到每个所述目标事件音频对应的目标事件类别。5.如权利要求4所述的方法,其特征在于,所述帧级后验概率计算公式为:其中,N为所述目标事件音频的总数量,C为所述目标音频标签的总数量,y
...

【专利技术属性】
技术研发人员:张之勇王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1