利用音频判别模型进行音频判别的方法和装置制造方法及图纸

技术编号:31087277 阅读:26 留言:0更新日期:2021-12-01 12:43
本说明书实施例提供了一种利用音频判别模型进行音频判别的方法和装置。该方法用于判别音频中的咳嗽音频属于新型冠状病毒肺炎的概率,该方法的一具体实施方式包括:首先,从采集的音频中获取多帧待判别咳嗽音频,并从各帧待判别咳嗽音频中提取特征向量。而后,利用至少一个第一时延神经网络,对多帧待判别咳嗽音频的特征向量进行信息提取,得到音频信息。之后,利用至少一个残差时延神经网络,从多个维度提取音频信息的多维度信息,并利用至少一个第二时延神经网络,从多维度信息获得固定长度的音频特征。最后,将固定长度的音频特征输入全连接层得到待判别咳嗽音频属于新冠肺炎的概率。概率。概率。

【技术实现步骤摘要】
利用音频判别模型进行音频判别的方法和装置


[0001]本说明书实施例涉及计算机
,尤其涉及一种利用音频判别模型进行音频判别的方法和装置。

技术介绍

[0002]随着数据处理技术的进步,计算机技术被广泛地运用于各个领域,其中,包括音频处理领域。而通过对人类发出的音频进行分析可以得到多种信息。例如,通过对音频进行声纹识别可以得到发声者的身份信息。人类发出的咳嗽声作为多种疾病的生理表征,不同疾病所表现出的咳嗽声的特点也各不相同,因此,医生通过对患者咳嗽声的分析,可以得到患者的患病信息。对于一些传染性强、致死率高的疾病,例如新型冠状病毒肺炎(简称,新冠肺炎),为了防止疾病的扩散,往往需要花费大量的人力、物力等进行疾病检测。新冠肺炎患者患病期间一般会伴有咳嗽的发生,而咳嗽声也比较容易采集,所以如果能够通过咳嗽声自动生成某个患者是新冠肺炎患者的概率,并将该概率进行显示以辅助用户进行进一步的疾病诊断,将会对抑制疾病的扩散带来极大帮助。

技术实现思路

[0003]本说明书的实施例描述了一种利用音频判别模型进行音频判别的方法和装置,本方法用本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种利用音频判别模型进行音频判别的方法,用于判别音频中的咳嗽音频属于新型冠状病毒肺炎的概率;所述音频判别模型包括至少一个第一时延神经网络、至少一个第二时延神经网络、至少一个残差时延神经网络和全连接层,所述方法包括:从采集的音频中获取多帧待判别咳嗽音频;从各帧待判别咳嗽音频中提取特征向量;利用所述至少一个第一时延神经网络,对所述多帧待判别咳嗽音频的特征向量进行信息提取,得到音频信息;利用所述至少一个残差时延神经网络,从多个维度提取所述音频信息的多维度信息;利用所述至少一个第二时延神经网络,从所述多维度信息获得固定长度的音频特征;将所述音频特征输入所述全连接层,得到所述待判别咳嗽音频属于新型冠状病毒肺炎的概率。2.根据权利要求1所述的方法,其中,所述至少一个残差时延神经网络中的各残差时延神经网络包括挤压激励模块和至少一个时延神经网络,其中,所述挤压激励模块包括第一线性层、第一激活函数、第二线性层和第二激活函数;以及所述至少一个残差时延神经网络中的各残差时延神经网络通过以下方式对输入信息进行处理:利用所述第一线性层,对所述至少一个时延神经网络提取的信息进行降维,以去除新型冠状病毒肺炎的咳嗽音和非新型冠状病毒肺炎的咳嗽音的通用信息;利用所述第二线性层,对所述第一激活函数的输出进行升维,以提升网络参数量;将所述第二激活函数的输出与该残差时延神经网络中最后一个时延神经网络的输出相乘,相乘结果与该残差时延神经网络的输入信息进行加权,将加权结果作为该残差时延神经网络的输出。3.根据权利要求1所述的方法,其中,所述至少一个第一时延神经网络包括两个第一时延神经网络;所述至少一个第二时延神经网络包括两个第二时延神经网络;所述至少一个残差时延神经网络包括三个残差时延神经网络。4.根据权利要求1所述的方法,其中,所述方法还包括:输出所述概率,以辅助用户判断所述待判别咳嗽音频的发声者是否为新型冠状病毒肺炎的患者。5.根据权利要求1所述的方法,其中,所述音频判别模型是通过以下方式训练得到的:获取样本集,其中,所述样本集的样本包括正样本和负样本,正样本包括新冠...

【专利技术属性】
技术研发人员:颜永红张学帅张鹏远
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1