【技术实现步骤摘要】
声学场景分类方法、装置及相应设备
[0001]本申请涉及声学
,更具体地,涉及一种声学场景分类方法、装置及相应设备。
技术介绍
[0002]声学场景分类是通过一段音频识别出音频属于哪种场景,通常在给定的固定种类的声学场景(例如,“机场”、“购物中心”、“地铁站”、“大街人行道”、“广场”、“有少量交通的大街”、“电车”,“巴士”、“地铁”、“公园”等)中识别音频是在哪个场景中。声学场景分类能够为基于内容的多媒体分析、语音增强、语音识别等提供很好的帮助,也能够为电视、手机、智能机器人、智能音箱等家庭娱乐、智能设备提供音频信号处理的辅助。
[0003]声学场景分类的目的是通过分析音频信号的特征,识别出特定的声音事件或语义内容,进而判断该音频信号所属于的场景。相比于基于图像的场景识别,声学场景分类具有以下优点:图像信息容易受损或丢失,而音频信息不易受损或丢失;处理音频信息的计算量较小,能够减轻设备的负担;音频信号的采集更加容易,占空间小。因此,声学场景分类越来越成为一个快速发展的研究领域,开发相应的信号处理方法以自动 ...
【技术保护点】
【技术特征摘要】
1.一种声学场景分类方法,包括:(a)获取音频对应的第一音频特征信号;(b)将第一音频特征信号输入卷积神经网络以获得第二音频特征信号,将第二音频特征信号输入循环神经网络以获得第三音频特征信号,将第二音频特征信号与第三音频特征信号进行融合处理以获得第四音频特征信号;(c)使用第四音频特征信号进行声学场景分类以获得所述音频所属场景类别。2.如权利要求1所述的声学场景分类方法,其中,将第一音频特征信号输入卷积神经网络以获得第二音频特征信号的步骤包括:在卷积神经网络的预定卷积块之后进行基于预定丢弃率的随机失活操作。3.如权利要求2所述的声学场景分类方法,其中,所述预定丢弃率取值为0.2至0.3之间。4.如权利要求2或3所述的声学场景分类方法,在卷积神经网络的预定卷积块之后进行基于预定丢弃率的随机失活操作的步骤包括:在卷积神经网络的每两个卷积块之后进行基于预定丢弃率的随机失活操作。5.如权利要求1所述的声学场景分类方法,其中,将第一音频特征信号输入卷积神经网络以获得第二音频特征信号的步骤包括:在卷积神经网络的设定卷积层之后,进行仅针对频率轴的池化操作。6.如权利要求5所述的声学场景分类方法,其中,卷积神经网络最后一个卷积层后的池化操作的池化大小,和其他预定卷积层后的池化操作的池化大小不同。7.如权利要求5或6所述的声学场景分类方法,其中,所述池化操作为最大池化操作。8.如权利要求1所述的声学场景分类方法,其中,使用第四音频特征信号进行声学场景分类的步骤包括:将第四音频特征信号输入自注意力网络包括的位置嵌入层以将第四音频特征信号的各向量与各向量对应位置的顺序信息相加,以获得第五音频特征信号;将第五音频特征信号输入自注意力网络包括的自注意力层以获得第六音频特征信号。9.如权利要求8所述的声学场景分类方法,其中,使用第四音频特征信号进行声学场景分类的步骤还包括:将第六音频特征信号输入到第一全连接层以获得所述音频针对各预定场景的二分类概率,以及将第六音频特征信号输入到第二全连接层以获得所述音频针对各预定场景的多分类概率;针对各预...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。