一种基于自注意力机制的汽车鸣笛识别方法技术

技术编号：38867294 阅读：9 留言：0更新日期：2023-09-22 14:06

本发明专利技术提供了一种基于自注意力机制的汽车鸣笛识别方法，通过空气声呐传感器接收空气中的声音信号，采集汽车鸣笛声音和环境背景噪声，通过短时傅里叶变换得到短时幅度谱，短时幅度谱通过梅尔滤波器组提取梅尔频谱，并对梅尔频谱作对数分析，将得到的Log

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自注意力机制的汽车鸣笛识别方法

[0001]本专利技术属于信号处理领域，涉及信息融合、神经网络和声信号处理识别等理论。

技术介绍

[0002]通过云、大数据和人工智能方法来提升城市舒适度与便捷度，推动城市建设，智慧城市成为当今世界城市发展不可逆转的历史潮流。智慧城市建设过程中，治理机动车违法鸣笛是尤为关键的一环。违法鸣笛不仅影响了道路周围市民的正常生活，也为文明城市建设制造了不和谐的噪声。各地交警部门投入了大量精力来整治汽车违法鸣笛问题，但治理效果差强人意。究其原因是由于交警部门查处违法鸣笛的方式主要是人工辨别，在嘈杂的马路上人工辨别的难度较大，采样取证更为困难，加剧了交警的执法难度，很难取得理想的效果。
[0003]随着人工智能研究工作的不断深入，深度学习因其具有较强的特征表示能力，成为了该领域最热门前沿的技术。将神经网络应用于声音信号的处理，可以解决高维空间和非线性模式等方面的识别问题，适用于对多个信号、特征量维数多的复杂声音的识别，其中最为典型的网络结构便是卷积神经网络，卷积神经网络具有局部感知、参数共享等特点，在一定程度上减少了模型参数。
[0004]公开号为CN107545890A的专利申请提出了一种声音事件识别方法，对不同干扰环境下的声音进行采集处理，然后通过滤波器对声音信号进行子带滤波，将得到的耳蜗谱图送入卷积神经网络进行训练。该方法利用卷积神经网络进行模型训练和优化，但该网络的梯度下降算法很容易使训练结果收敛于局部最小值而非全局最小值，而且在池化层中会丢失大量有价值的信息，忽略

【技术保护点】

【技术特征摘要】
1.一种基于自注意力机制的汽车鸣笛识别方法，其特征在于，包括以下步骤：S1，利用空气声呐传感器接收空气中的声音信号，采集包括汽车鸣笛声音和环境背景噪声的音频数据；S2，对采集的音频数据进行拆分、剪切、分类以及标记处理；S3，对处理过的音频数据进行高通滤波，并提取Log
‑
Mel谱特征；S4，将滤波后的音频特征划分为训练集、验证集和测试集；S5，利用自注意力机制对提取的特征向量进行选取；S6，构建深度卷积神经网络和融合模型，通过训练集训练深度卷积神经网络，然后将深度卷积神经网络输出后的特征与通过自注意力机制选取的特征进行融合，使用验证集调整模型参数，优化模型结构，若评价指标的值达到当前最优且在调整超参数值返回步骤S5后其值保持不变，则保存当前网络模型作为最优网络模型，否则返回步骤S5，继续调整超参数；S7：将待识别声音输入最优网络模型，获得识别结果并输出。2.根据权利要求1所述的基于自注意力机制的汽车鸣笛识别方法，其特征在于，所述的步骤S2中对采集的音频数据保存采样率、采样深度、录音时间、录音地点、总通道数、环境声音分类信息；将单个多通道声音数据拆分为多个单通道的音频文件；按指定长度对拆分后的音频文件进行剪切；通过人工分类或人工智能分类方法对剪切后的音频文件按照有无鸣笛声进行分类，对有鸣笛声的音频文件进行标记，标记信息包括采样率、采样深度、录音时间、录音地点、通道编号、总通道数、环境声音分类信息、音频长度以及音频编号的字符信息。3.根据权利要求2所述的基于自注意力机制的汽车鸣笛识别方法，其特征在于，所述的步骤S2中将单个多通道声音数据拆分为多个单通道的音频文件后，若环境声音音频文件同时满足以下条件则保留：不缺少设定通道音频，音频文件可读，各音频文件为单通道，音频文件采样率与录音信息一致，音频信号平均绝对幅度不为0；否则删除该音频文件对应的所有通道的环境声音音频文件。4.根据权利要求2所述的基于自注意力机制的汽车鸣笛识别方法，其特征在于，所述的步骤S2中剪切的指定长度小于等于音频文件长度，若该音频文件的长度不是指定长度的整数倍，则将最后不足指定长度的数据舍去。5.根据权利要求2所述的基于自注意力机制的汽车鸣笛识别方法，其特征在于，所述的步...

【专利技术属性】
技术研发人员：白吉生，陈建峰，李珂梦，项彬，
申请(专利权)人：西安联丰迅声信息科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人