一种环境声音数据库的创建方法及装置制造方法及图纸

技术编号：32528991 阅读：15 留言：0更新日期：2022-03-05 11:22

本发明专利技术提供了一种环境声音数据库的创建方法及装置，获取环境声音数据与录音信息，将单个多通道环境声音数据拆分为多个单通道的环境声音音频文件；进行环境声音数据预处理，删除不满足设定条件的音频文件；将满足条件的环境声音音频文件剪切为指定长度，然后进行人工分类和人工智能分类；每个音频进行至少一次人工分类和至少一次人工智能分类；对人工分类结果以及人工智能分类结果取交集，交集内的音频被划分到相应环境声音类别，交集之外的音频文件划分为未标定类别。本发明专利技术能够简单可靠的构建环境声音数据库，减小数据污染的风险。减小数据污染的风险。减小数据污染的风险。

全部详细技术资料下载

【技术实现步骤摘要】
一种环境声音数据库的创建方法及装置

[0001]本专利技术涉及声音数据库领域，特别涉及一种声音数据库的创建技术。

技术介绍

[0002]在监控领域，监控系统大多数仅通过视频监控来检测异常情况，视频监控系统主要由视频摄像头和监控显示终端组成，而没有设置声音采集和分析预警的功能。声音作为人类感知环境最重要的媒介，具有不受光线影响，探测距离较远，信息量丰富等特点，并且由于声音信号的采集过程相对简单，存储需求较小，因此系统的计算复杂度相对较低，运行效率能够得到有效的提高。将声音监测功能加入现有的监控系统，可以降低环境噪声污染，促进“智慧城市”“智慧城镇”“智慧小区”的建设。要想推进监控的智能升级，智能地识别环境中的声音，首先必须有一个数据种类和数量丰富的环境声音数据库。
[0003]按声音的产生方式和所携带信息的特性分类，可听声又分为语音声、音乐声和环境声三大类。环境声是除语音声和音乐声之外的所有可听声的总称。所谓的环境声，是由自然环境、机械设备产生的，或者由人或动物发出的声音。
[0004]目前，声音数据库主要以单通道语音数据库为主，相应的音频预处理方法局限于简单解码并分段单通道语音音频数据。对于现有的声音获取及预处理方法，缺乏针对多通道环境声音数据有效的获取和处理，并且相关装置缺少存储录音相关的其他模态信息。
[0005]公开号为CN111524563A的专利申请涉及一种生理音数据库的建立方法及其数据库，采用数字听诊设备对生理音进行收集，并将采集的生理音转化生成代表声学振动的电子信号进行保存来进行...

【技术保护点】

【技术特征摘要】
1.一种环境声音数据库的创建方法，其特征在于，包括以下步骤：(1)获取环境声音数据与录音信息，将单个多通道环境声音数据拆分为多个单通道的环境声音音频文件；(2)进行环境声音数据预处理，删除不满足设定条件的音频文件；将满足条件的环境声音音频文件剪切为指定长度；(3)对剪切后的音频文件进行人工分类和人工智能分类；所述的人工智能分类是对音频文件进行特征提取，提取时频域的声谱图作为特征，通过基于深度学习的环境声音分类算法识别音频文件的环境声音类别；每个音频进行至少一次人工分类和至少一次人工智能分类；对人工分类结果以及人工智能分类结果取交集，交集内的音频被划分到相应环境声音类别，交集之外的音频文件划分为未标定类别。2.根据权利要求1所述的环境声音数据库的创建方法，其特征在于，所述的步骤(1)获取的录音信息包括采样率、采样深度、录音时间、录音地点、和总通道数。3.根据权利要求1所述的环境声音数据库的创建方法，其特征在于，所述的步骤(2)设定条件包括不缺少通道音频、音频文件可读、各音频文件为单通道、音频文件采样率与录音信息一致、音频信号平均绝对幅度不为0，对不满足以上任一条件的音频文件，删除该音频文件对应的所有通道的环境声音音频文件。4.根据权利要求1所述的环境声音数据库的创建方法，其特征在于，所述的步骤(2)指定长度为1秒、2秒、5秒或10秒。5.根据权利要求1所述的环境声音数据库的创建方法，其特征在于，所述时频域的特征包括但不限于短时傅里叶变换谱、梅尔谱、对数梅尔谱、梅尔倒谱，所述基于深度学习的环境声音分类算法包括但不限于卷积神经网络、循环神经网络、卷积循环神经网络、全连接神经网络、Transformer、对抗神经网络。6.根据权利要求1所述的环境声音数据库的创建方法，其特征在于，所述的人工分类由至少1位环境声音标记人员进行分类，人工智能分类由至少1种环境声音分类算法进行分类；若环境声音标记人员大于1位，人工分类结果为所有标记人员分类结果的并集；若环境声音分类算法大于1种，人工分类结果为所有环境声音分类算法结果的并集。7.根据权利要求1所述的环境声音数据库的创建方法，其特征在于，所述的步骤(3)对已标定种类音频文件进行重命名，命名规则包含了分类信息、音频长度、音频序号以及通道信息；根据环境声音录音信息与音频文件名中的信息，生成对应的标记信息，标记信息内包含采样率、采样深度、录音时间...

【专利技术属性】
技术研发人员：白吉生，陈建峰，刘翻，项彬，
申请(专利权)人：西安联丰迅声信息科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人