基于人工智能的声音事件检测方法、装置、设备及介质制造方法及图纸

技术编号：38531077 阅读：12 留言：0更新日期：2023-08-19 17:04

本发明专利技术涉及数字医疗技术领域，尤其涉及一种基于人工智能的声音事件检测方法、装置、设备及介质。该方法将混合声音分离为独立声音后输入编码器得到声音特征，将声音特征输入到循环层得到时序特征，使用标签预测模型根据声音特征和时序特征处理预测伪事件标签，将查询到的伪事件标签作为参考标签，由参考标签和独立声音组成训练样本，训练事件检测模型，进而得到事件检测结果，提取声音特征的时序信息，丰富了事件预测的输入，提高了事件预测的准确率，对伪事件标签进行查询筛选确定参考标签，使得事件检测模型更好地适应场景，提高了声音事件检测的准确性，能够辅助医护人员及时发现医疗环境下患者的异常声音事件，从而进行及时应对。应对。应对。

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能的声音事件检测方法、装置、设备及介质

[0001]本专利技术涉及数字医疗
，尤其涉及一种基于人工智能的声音事件检测方法、装置、设备及介质。

技术介绍

[0002]目前，随着人工智能技术的快速发展，基于人工智能模型的声音事件检测任务已广泛应用于数字医疗平台中，数字医疗平台可以支持疾病辅助诊断、健康管理、远程会诊等功能，从而提高医疗机构的效率，方便居民就医。
[0003]现有技术通常采用深度卷积模型实现声音事件检测任务，声音事件检测任务可以用于在复杂的多音源场景下，识别出每个音源的事件，能够从应用场景的混合声音中检测是否存在符合目标事件的声音，例如，通过声音事件检测从嘈杂的病房环境下提取出患者发出呻吟等声音事件，从而便于医护人员及时应对。
[0004]但是，深度卷积模型在训练时需要大量的标签数据，而针对混合声音的标注工作是极困难的，训练数据的缺失会导致深度卷积模型在实现声音事件检测时的准确率较低，而且即使具有充足的训练数据，在模型实际应用时，面对实时获取到的混合声音，也难以有效从混合声音中识别出未标记的声音事件，导致事件检测结果存在误检，同样导致声音事件检测的准确率较低，因此，如何提高声音事件检测的准确率成为亟待解决的问题。

技术实现思路

[0005]有鉴于此，本专利技术实施例提供了一种基于人工智能的声音事件检测方法、装置、设备及介质，以解决声音事件检测的准确率较低的问题。
[0006]第一方面，本专利技术实施例提供一种基于人工智能的声音事件检测方法，所述声音事件...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的声音事件检测方法，其特征在于，所述声音事件检测方法包括：将获取的混合声音输入训练好的声音分离模型中按照预设的音源数量进行声音分离，得到N个独立声音，N为大于零的整数；针对每个独立声音，将所述独立声音输入编码器中进行特征提取，得到声音特征，将声音特征输入到循环层进行时序信息提取，得到时序特征，将所述声音特征和所述时序特征拼接，使用标签预测模型对拼接结果进行标签预测，得到对应所述独立声音的伪事件标签，遍历所述N个独立语音，得到N个伪事件标签；在预设的目标标签集合中查询每个伪事件标签，确定被查询到的伪事件标签为参考标签，得到M个参考标签，将每个参考标签和其对应的独立声音组成训练样本，得到M个训练样本，M为大于零且小于N的整数；对所述编码器进行全连接处理形成事件检测模型，根据所述M个训练样本对所述事件检测模型进行训练，得到训练好的事件检测模型，将所述N个独立语音输入所述训练好的事件检测模型中进行事件预测，确定得到的N个对应独立声音的预测事件类别为所述混合声音的事件检测结果。2.根据权利要求1所述的声音事件检测方法，其特征在于，所述的声音分离模型训练过程包括：获取第一混合声音样本和第二混合声音样本，将所述第一混合声音样本和第二混合声音样本进行混合，得到整体混合声音样本；将所述整体混合声音样本输入所述声音分离模型中，按照所述音源数量进行声音分离，得到N个独立声音样本；以可学习的第一矩阵和所述N个独立声音样本相乘，得到第一重构样本，以可学习的第二矩阵和所述N个独立声音样本相乘，得到第二重构样本；根据所述第一混合声音样本、所述第一重构样本和预设的重构损失函数，计算第一重构损失，根据所述第二混合声音样本、所述第二重构样本和所述重构损失函数，计算第二重构损失；以所述第一重构损失和所述第二重构损失为依据，对所述声音分离模型、所述第一矩阵和所述第二矩阵进行训练，仅保留所述训练好的声音分离模型。3.根据权利要求1所述的声音事件检测方法，其特征在于，所述编码器包括卷积层和注意力层；所述将所述独立声音输入编码器中进行特征提取，得到声音特征包括：将所述独立声音输入所述卷积层中按照时间帧进行特征提取，得到帧级特征；将所述帧级特征输入所述注意力层进行特征聚合，确定特征聚合结果为所述声音特征。4.根据权利要求3所述的声音事件检测方法，其特征在于，所述注意力层包括全局注意力层和局部注意力层；所述将所述帧级特征输入所述注意力层进行特征聚合，确定特征聚合结果为所述声音特征包括：采用预设卷积核对所述帧级特征的时间维度进行降维处理，得到降维特征，所述降维特征的维度为K，K为大于零的整数；
将所述降维特征输入所述全局注意力层进行全局上下文建模，得到全局特征，所述全局特征的维度为K；将所述全局特征输入所述局部注意力层进行局部上下文建模，得到K个局部特征；将所述K个局部特征输入所述全局注意力层再次进行全局上下文建模，得到所述特征聚合结果，确定所述特征聚合结果为所述声音特征。5.根据权利要求...

【专利技术属性】
技术研发人员：张之勇，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人