一种基于自注意力机制的汽车鸣笛识别方法技术

技术编号:38867294 阅读:9 留言:0更新日期:2023-09-22 14:06
本发明专利技术提供了一种基于自注意力机制的汽车鸣笛识别方法,通过空气声呐传感器接收空气中的声音信号,采集汽车鸣笛声音和环境背景噪声,通过短时傅里叶变换得到短时幅度谱,短时幅度谱通过梅尔滤波器组提取梅尔频谱,并对梅尔频谱作对数分析,将得到的Log

【技术实现步骤摘要】
一种基于自注意力机制的汽车鸣笛识别方法


[0001]本专利技术属于信号处理领域,涉及信息融合、神经网络和声信号处理识别等理论。

技术介绍

[0002]通过云、大数据和人工智能方法来提升城市舒适度与便捷度,推动城市建设,智慧城市成为当今世界城市发展不可逆转的历史潮流。智慧城市建设过程中,治理机动车违法鸣笛是尤为关键的一环。违法鸣笛不仅影响了道路周围市民的正常生活,也为文明城市建设制造了不和谐的噪声。各地交警部门投入了大量精力来整治汽车违法鸣笛问题,但治理效果差强人意。究其原因是由于交警部门查处违法鸣笛的方式主要是人工辨别,在嘈杂的马路上人工辨别的难度较大,采样取证更为困难,加剧了交警的执法难度,很难取得理想的效果。
[0003]随着人工智能研究工作的不断深入,深度学习因其具有较强的特征表示能力,成为了该领域最热门前沿的技术。将神经网络应用于声音信号的处理,可以解决高维空间和非线性模式等方面的识别问题,适用于对多个信号、特征量维数多的复杂声音的识别,其中最为典型的网络结构便是卷积神经网络,卷积神经网络具有局部感知、参数共享等特点,在一定程度上减少了模型参数。
[0004]公开号为CN107545890A的专利申请提出了一种声音事件识别方法,对不同干扰环境下的声音进行采集处理,然后通过滤波器对声音信号进行子带滤波,将得到的耳蜗谱图送入卷积神经网络进行训练。该方法利用卷积神经网络进行模型训练和优化,但该网络的梯度下降算法很容易使训练结果收敛于局部最小值而非全局最小值,而且在池化层中会丢失大量有价值的信息,忽略局部与整体之间的关联性,使得网络的识别结果存在误差。
[0005]为了网络能够实现对每个像素级预测的全局参考,注意力机制应运而生,注意力机制可以快速提取稀疏数据的重要特征,被广泛应用到自然语言处理任务,特别是机器翻译。而自注意力机制是注意力机制的改进,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。
[0006]目前在汽车鸣笛声音识别中,还未发现有将自注意力机制和卷积神经网络结合来识别汽车鸣笛声音。

技术实现思路

[0007]为了克服现有技术的不足,本专利技术提供一种基于自注意力机制和深度卷积神经网络的汽车鸣笛识别方法,通过空气声呐传感器接收空气中的声音信号,采集大量汽车鸣笛声音和环境背景噪声,通过短时傅里叶变换得到短时幅度谱,短时幅度谱通过梅尔滤波器组提取梅尔频谱,并对梅尔频谱作对数分析,将得到的Log

Mel谱矩阵分为训练集和验证集作为输入,利用自注意力机制对提取的特征向量进行选取,送入深度卷积神经网络,再将网络输出后的特征与通过自注意力机制选取的特征进行融合,结合参数调整,使得基于训练集和验证集的效果达到最佳,最终将待识别声音输入网络给出判别结果。
[0008]本专利技术解决其技术问题所采用的技术方案包括以下步骤:
[0009]S1,利用空气声呐传感器接收空气中的声音信号,采集包括汽车鸣笛声音和环境背景噪声的音频数据;
[0010]S2,对采集的音频数据进行拆分、剪切、分类以及标记处理;
[0011]S3,对处理过的音频数据进行高通滤波,并提取Log

Mel谱特征;
[0012]S4,将滤波后的音频特征划分为训练集、验证集和测试集;
[0013]S5,利用自注意力机制对提取的特征向量进行选取;
[0014]S6,构建深度卷积神经网络和融合模型,通过训练集训练深度卷积神经网络,然后将深度卷积神经网络输出后的特征与通过自注意力机制选取的特征进行融合,使用验证集调整模型参数,优化模型结构,若评价指标的值达到当前最优且在调整超参数值返回步骤S5后其值保持不变,则保存当前网络模型作为最优网络模型,否则返回步骤S5,继续调整超参数;
[0015]S7:将待识别声音输入最优网络模型,获得识别结果并输出。
[0016]所述的步骤S2中对采集的音频数据保存采样率、采样深度、录音时间、录音地点、总通道数、环境声音分类信息;将单个多通道声音数据拆分为多个单通道的音频文件;按指定长度对拆分后的音频文件进行剪切;通过人工分类或人工智能分类方法对剪切后的音频文件按照有无鸣笛声进行分类,对有鸣笛声的音频文件进行标记,标记信息包括采样率、采样深度、录音时间、录音地点、通道编号、总通道数、环境声音分类信息、音频长度以及音频编号的字符信息。
[0017]所述的步骤S2中将单个多通道声音数据拆分为多个单通道的音频文件后,若环境声音音频文件同时满足以下条件则保留:不缺少设定通道音频,音频文件可读,各音频文件为单通道,音频文件采样率与录音信息一致,音频信号平均绝对幅度不为0;否则删除该音频文件对应的所有通道的环境声音音频文件。
[0018]所述的步骤S2中剪切的指定长度小于等于音频文件长度,若该音频文件的长度不是指定长度的整数倍,则将最后不足指定长度的数据舍去。
[0019]所述的步骤S2中,人工智能分类是对音频文件进行特征提取,提取时频域的声谱图作为特征,通过预先训练好的基于深度学习的环境声音分类算法识别音频文件的环境声音类别。
[0020]所述的步骤S2在进行音频分类时,每个音频至少进行一次人工分类和一次人工智能分类,并保留相应的人工分类结果和人工智能分类结果;然后对音频文件分类结果进行融合,对于所有的人工分类结果取并集得到最终的人工分类结果,对于所有的人工智能分类结果取并集得到最终的人工智能分类结果,对最终的人工分类结果以及人工智能分类结果取交集,交集内的音频被划分到相应环境声音类别,对于交集之外的音频文件划分为未标定类别。
[0021]所述的步骤S3包括以下内容:
[0022]S301,设计巴特沃斯高通滤波器去除音频数据低频成分的噪声;
[0023]S302,对滤波后的音频数据作短时傅里叶变换得到声谱图;
[0024]S303,构建梅尔滤波器组,在语音的频谱范围内设置若干带通滤波器H
m
(k),每个滤波器具有三角滤波特性;在Mel频率范围内,这些滤波器是等带宽的;
[0025]S304,将短时傅里叶变换得到的声谱图矩阵与若干个梅尔滤波器点乘得到Mel频谱,对Mel频谱做对数处理,得到Log

Mel谱图。
[0026]所述的步骤S4将音频特征按照7:2:1的比例划分为训练集、验证集和测试集。
[0027]所述的步骤S5利用自注意力机制对提取的特征向量进行选取的具体方法是对鸣笛声相关的特征片段赋予的权值远高于不相关特征的权值。
[0028]所述的步骤S6包括以下内容:
[0029]S601,构建深度卷积神经网络,包括卷积层、池化层和全连接层;
[0030]S602,将通过深度卷积神经网络得到的特征与只经过自注意力机制选取的特征进行张量融合;将融合后的特征再经过一层全连接层,输出节点为2作为分类结果;
[0031]S603:用验证集优化模型结构,并保存最优网络模型。
...

【技术保护点】

【技术特征摘要】
1.一种基于自注意力机制的汽车鸣笛识别方法,其特征在于,包括以下步骤:S1,利用空气声呐传感器接收空气中的声音信号,采集包括汽车鸣笛声音和环境背景噪声的音频数据;S2,对采集的音频数据进行拆分、剪切、分类以及标记处理;S3,对处理过的音频数据进行高通滤波,并提取Log

Mel谱特征;S4,将滤波后的音频特征划分为训练集、验证集和测试集;S5,利用自注意力机制对提取的特征向量进行选取;S6,构建深度卷积神经网络和融合模型,通过训练集训练深度卷积神经网络,然后将深度卷积神经网络输出后的特征与通过自注意力机制选取的特征进行融合,使用验证集调整模型参数,优化模型结构,若评价指标的值达到当前最优且在调整超参数值返回步骤S5后其值保持不变,则保存当前网络模型作为最优网络模型,否则返回步骤S5,继续调整超参数;S7:将待识别声音输入最优网络模型,获得识别结果并输出。2.根据权利要求1所述的基于自注意力机制的汽车鸣笛识别方法,其特征在于,所述的步骤S2中对采集的音频数据保存采样率、采样深度、录音时间、录音地点、总通道数、环境声音分类信息;将单个多通道声音数据拆分为多个单通道的音频文件;按指定长度对拆分后的音频文件进行剪切;通过人工分类或人工智能分类方法对剪切后的音频文件按照有无鸣笛声进行分类,对有鸣笛声的音频文件进行标记,标记信息包括采样率、采样深度、录音时间、录音地点、通道编号、总通道数、环境声音分类信息、音频长度以及音频编号的字符信息。3.根据权利要求2所述的基于自注意力机制的汽车鸣笛识别方法,其特征在于,所述的步骤S2中将单个多通道声音数据拆分为多个单通道的音频文件后,若环境声音音频文件同时满足以下条件则保留:不缺少设定通道音频,音频文件可读,各音频文件为单通道,音频文件采样率与录音信息一致,音频信号平均绝对幅度不为0;否则删除该音频文件对应的所有通道的环境声音音频文件。4.根据权利要求2所述的基于自注意力机制的汽车鸣笛识别方法,其特征在于,所述的步骤S2中剪切的指定长度小于等于音频文件长度,若该音频文件的长度不是指定长度的整数倍,则将最后不足指定长度的数据舍去。5.根据权利要求2所述的基于自注意力机制的汽车鸣笛识别方法,其特征在于,所述的步...

【专利技术属性】
技术研发人员:白吉生陈建峰李珂梦项彬
申请(专利权)人:西安联丰迅声信息科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1