利用音频判别模型对音频进行判别的判别设备及存储介质制造技术

技术编号:33247018 阅读:16 留言:0更新日期:2022-04-27 18:01
本说明书实施例提供一种利用音频判别模型对音频进行判别的判别设备及存储介质,判别设备包括:第一预处理模块,配置为对待判别咳嗽音频进行处理,得到目标梅尔谱特征;第一划分模块,配置为对目标梅尔谱特征进行划分,得到处于不同频段的第一梅尔谱特征和第二梅尔谱特征;频域特征提取模块,配置为将第一梅尔谱特征以及第二梅尔谱特征输入频域特征提取层,得到第一频域特征和第二频域特征;时序特征提取模块,配置为将第一梅尔谱特征及第二梅尔谱特征输入时序特征提取层,得到第一时序特征和第二时序特征;分类模块,配置为将第一频域特征、第二频域特征、第一时序特征和第二时序特征输入分类层,得到待判别咳嗽音频携带指定肺炎信息的概率。定肺炎信息的概率。定肺炎信息的概率。

【技术实现步骤摘要】
利用音频判别模型对音频进行判别的判别设备及存储介质


[0001]本说明书涉及音频处理
,尤其涉及一种利用音频判别模型对音频进行判别的判别设备及存储介质。

技术介绍

[0002]人在生病时一般常会伴随咳嗽的症状,而由于不同疾病产生病变的部位不同,继而由不同疾病造成的咳嗽声(咳嗽音频)也会产生不同,即其携带的信息存在不同。在一些场景中,可以通过病人的咳嗽声确定出病人产生病变的部位,即确定出咳嗽声中携带的相关信息,进而确定病人的疾病类型。
[0003]考虑到新型冠状肺炎携带者病变部位的特殊性,其携带者的咳嗽音与普通病患的咳嗽音存在较大区别,即所携带的信息存在较大区别。那么,如何提供一种对咳嗽音频所携带信息进行准确判别的方法成为亟待解决的问题。

技术实现思路

[0004]本说明书一个或多个实施例提供了一种利用音频判别模型对音频进行判别的判别设备及存储介质,以实现对咳嗽音频携带指定肺炎信息的概率的判别。
[0005]根据第一方面,提供一种利用音频判别模型对音频进行判别的判别设备,用于判别咳嗽音频携带指定肺炎信息的概率,所述音频判别模型包括频域特征提取层、时序特征提取层及分类层,所述设备包括:
[0006]第一预处理模块,配置为对待判别咳嗽音频进行处理,得到目标梅尔谱特征;
[0007]第一划分模块,配置为对所述目标梅尔谱特征进行划分,得到处于预设低频段的第一梅尔谱特征以及处于预设非低频段的第二梅尔谱特征;
[0008]频域特征提取模块,配置为将所述第一梅尔谱特征以及所述第二梅尔谱特征输入频域特征提取层,得到包含所述待判别咳嗽音频在所述预设低频段的局部信息的第一频域特征,以及包含所述待判别咳嗽音频在所述预设非低频段的局部信息的第二频域特征;
[0009]时序特征提取模块,配置为将所述第一梅尔谱特征以及所述第二梅尔谱特征输入时序特征提取层,得到包含所述待判别咳嗽音频在所述预设低频段的时序信息的第一时序特征,以及包含所述待判别咳嗽音频在所述预设非低频段的时序信息的第二时序特征;
[0010]分类模块,配置为将所述第一频域特征和第二频域特征,及所述第一时序特征和第二时序特征输入分类层,得到所述待判别咳嗽音频携带指定肺炎信息的概率。
[0011]在一种可实施方式中,所述第一预处理模块,具体配置为从采集的音频中检测出咳嗽音频,作为所述待判别咳嗽音频;
[0012]对所述待判别咳嗽音频进行特征提取,得到初始梅尔谱特征;
[0013]对所述初始梅尔谱特征进行预设加权处理,得到所述目标梅尔谱特征,其中,所述预设加权处理用于,增强所述初始梅尔谱特征中处于所述预设低频段的特征。
[0014]在一种可实施方式中,所述分类模块,包括:
[0015]第一融合单元,配置为融合所述第一频域特征和所述第一时序特征,得到第一融合特征;
[0016]第二融合单元,配置为融合所述第二频域特征和所述第二时序特征,得到第二融合特征;
[0017]拼接单元,配置为对所述第一融合特征以及所述第二融合特征进行拼接,得到拼接融合特征;
[0018]分类单元,配置为将所述拼接融合特征输入所述分类层,得到所述待判别咳嗽音频携带指定肺炎信息的概率。
[0019]在一种可实施方式中,所述处于预设非低频段的第二梅尔谱特征包括,处于预设中频段的第三梅尔谱特征和处于预设高频段的第四梅尔谱特征;
[0020]所述第二频域特征包括:处于所述预设中频段的第三频域特征和处于所述预设高频段的第四频域特征;所述第二时序特征包括:处于所述预设中频段的第三时序特征和处于所述预设高频段的第四时序特征;
[0021]所述第二融合单元,具体配置为融合所述第三频域特征和所述第三时序特征,得到第三融合特征;
[0022]融合所述第四频域特征和所述第四时序特征,得到第四融合特征;
[0023]所述拼接单元,具体配置为对所述第一融合特征、所述第三融合特征以及所述第四融合特征进行拼接,得到拼接融合特征。
[0024]在一种可实施方式中,所述分类层包括:第一全连接层和第二全连接层,所述第一全连接层包括第一线性变换和第一激活函数,所述第二全连接层包括第二激活函数;
[0025]所述分类单元,具体配置为将所述拼接融合特征输入第一全连接层,以使得所述第一全连接层对所述拼接融合特征进行第一线性变换,得到第一线性变换结果;利用第一激活函数和所述第一线性变换结果,确定中间特征;
[0026]将所述中间特征输入所述第二全连接层,以使得所述第二全连接层利用第二激活函数和所述中间特征,得到所述待判别咳嗽音频携带指定肺炎信息的概率。
[0027]在一种可实施方式中,所述频域特征提取层包括:预设低频段对应的第一残差网络,预设非低频段对应的第二残差网络;
[0028]所述频域特征提取模块,具体配置为将所述第一梅尔谱特征输入所述第一残差网络,得到所述第一频域特征;将所述第二梅尔谱特征输入所述第二残差网络,得到所述第二频域特征。
[0029]在一种可实施方式中,所述时序特征提取层包括:预设低频段对应的第一双向长短时记忆网络,预设非低频段对应的第二双向长短时记忆网络;
[0030]所述时序特征提取模块,具体配置为将所述第一梅尔谱特征输入所述第一双向长短时记忆网络,得到所述第一时序特征;将所述第二梅尔谱特征输入所述第二双向长短时记忆网络,得到所述第二时序特征。
[0031]根据第二方面,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行利用音频判别模型对音频进行判别的方法,用于判别咳嗽音频携带指定肺炎信息的概率,所述音频判别模型包括频域特征提取层、时序特征提取层以及分类层,所述方法包括:
[0032]对待判别咳嗽音频进行处理,得到目标梅尔谱特征;
[0033]对所述目标梅尔谱特征进行划分,得到处于预设低频段的第一梅尔谱特征以及处于预设非低频段的第二梅尔谱特征;
[0034]将所述第一梅尔谱特征以及所述第二梅尔谱特征输入频域特征提取层,得到包含所述待判别咳嗽音频在所述预设低频段的局部信息的第一频域特征,以及包含所述待判别咳嗽音频在所述预设非低频段的局部信息的第二频域特征;
[0035]将所述第一梅尔谱特征以及所述第二梅尔谱特征输入时序特征提取层,得到包含所述待判别咳嗽音频在所述预设低频段的时序信息的第一时序特征,以及包含所述待判别咳嗽音频在所述预设非低频段的时序信息的第二时序特征;
[0036]将所述第一频域特征和第二频域特征,及所述第一时序特征和第二时序特征输入分类层,得到所述待判别咳嗽音频携带指定肺炎信息的概率。
[0037]在一种可实施方式中,所述得到所述待判别咳嗽音频携带指定肺炎信息的概率,包括:
[0038]融合所述第一频域特征和所述第一时序特征,得到第一融合特征;
[0039]融合所述第二频域特征和所述第二时序特征,得到第二融合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用音频判别模型对音频进行判别的判别设备,用于判别咳嗽音频携带指定肺炎信息的概率,所述音频判别模型包括频域特征提取层、时序特征提取层及分类层,所述设备包括:第一预处理模块,配置为对待判别咳嗽音频进行处理,得到目标梅尔谱特征;第一划分模块,配置为对所述目标梅尔谱特征进行划分,得到处于预设低频段的第一梅尔谱特征以及处于预设非低频段的第二梅尔谱特征;频域特征提取模块,配置为将所述第一梅尔谱特征以及所述第二梅尔谱特征输入频域特征提取层,得到包含所述待判别咳嗽音频在所述预设低频段的局部信息的第一频域特征,以及包含所述待判别咳嗽音频在所述预设非低频段的局部信息的第二频域特征;时序特征提取模块,配置为将所述第一梅尔谱特征以及所述第二梅尔谱特征输入时序特征提取层,得到包含所述待判别咳嗽音频在所述预设低频段的时序信息的第一时序特征,以及包含所述待判别咳嗽音频在所述预设非低频段的时序信息的第二时序特征;分类模块,配置为将所述第一频域特征和第二频域特征,及所述第一时序特征和第二时序特征输入分类层,得到所述待判别咳嗽音频携带指定肺炎信息的概率。2.如权利要求1所述的设备,其中,所述第一预处理模块,具体配置为从采集的音频中检测出咳嗽音频,作为所述待判别咳嗽音频;对所述待判别咳嗽音频进行特征提取,得到初始梅尔谱特征;对所述初始梅尔谱特征进行预设加权处理,得到所述目标梅尔谱特征,其中,所述预设加权处理用于,增强所述初始梅尔谱特征中处于所述预设低频段的特征。3.如权利要求1所述的设备,其中,所述分类模块,包括:第一融合单元,配置为融合所述第一频域特征和所述第一时序特征,得到第一融合特征;第二融合单元,配置为融合所述第二频域特征和所述第二时序特征,得到第二融合特征;拼接单元,配置为对所述第一融合特征以及所述第二融合特征进行拼接,得到拼接融合特征;分类单元,配置为将所述拼接融合特征输入所述分类层,得到所述待判别咳嗽音频携带指定肺炎信息的概率。4.如权利要求3所述的设备,其中,所述处于预设非低频段的第二梅尔谱特征包括,处于预设中频段的第三梅尔谱特征和处于预设高频段的第四梅尔谱特征;所述第二频域特征包括:处于所述预设中频段的第三频域特征和处于所述预设高频段的第四频域特征;所述第二时序特征包括:处于所述预设中频段的第三时序特征和处于所述预设高频段的第四时序特征;所述第二融合单元,具体配置为融合所述第三频域特征和所述第三时序特征,得到第三融合特征;融合所述第四频域特征和所述第四时序特征,得到第四融合特征;所述拼接单元,具体配置为对所述第一融合特征、所述第三融合特征以及所述第四融合特征进行拼接,得到拼接融合特征。5.如权利要求3所述的设备,其中,所述分类层包括:第一全连接层和第二全连接层,所
述第一全连接层包括第一线性变换和第一激活函数,所述第二全连接层包括第二激活函数;所述分类单元,具体配置为将所述拼接融合特征输入第一全连接层,以使得所述第一全连接层对所述拼接融合特征进行第一线性变换,得到第一线性变换结果;利用第一激活函数和所述第一线性变换结果,确定中间特征;将所述中间特征输入所述第二全连接层,以使得所述第二全...

【专利技术属性】
技术研发人员:颜永红张学帅张鹏远
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1