一种环境声音数据库的创建方法及装置制造方法及图纸

技术编号:32528991 阅读:15 留言:0更新日期:2022-03-05 11:22
本发明专利技术提供了一种环境声音数据库的创建方法及装置,获取环境声音数据与录音信息,将单个多通道环境声音数据拆分为多个单通道的环境声音音频文件;进行环境声音数据预处理,删除不满足设定条件的音频文件;将满足条件的环境声音音频文件剪切为指定长度,然后进行人工分类和人工智能分类;每个音频进行至少一次人工分类和至少一次人工智能分类;对人工分类结果以及人工智能分类结果取交集,交集内的音频被划分到相应环境声音类别,交集之外的音频文件划分为未标定类别。本发明专利技术能够简单可靠的构建环境声音数据库,减小数据污染的风险。减小数据污染的风险。减小数据污染的风险。

【技术实现步骤摘要】
一种环境声音数据库的创建方法及装置


[0001]本专利技术涉及声音数据库领域,特别涉及一种声音数据库的创建技术。

技术介绍

[0002]在监控领域,监控系统大多数仅通过视频监控来检测异常情况,视频监控系统主要由视频摄像头和监控显示终端组成,而没有设置声音采集和分析预警的功能。声音作为人类感知环境最重要的媒介,具有不受光线影响,探测距离较远,信息量丰富等特点,并且由于声音信号的采集过程相对简单,存储需求较小,因此系统的计算复杂度相对较低,运行效率能够得到有效的提高。将声音监测功能加入现有的监控系统,可以降低环境噪声污染,促进“智慧城市”“智慧城镇”“智慧小区”的建设。要想推进监控的智能升级,智能地识别环境中的声音,首先必须有一个数据种类和数量丰富的环境声音数据库。
[0003]按声音的产生方式和所携带信息的特性分类,可听声又分为语音声、音乐声和环境声三大类。环境声是除语音声和音乐声之外的所有可听声的总称。所谓的环境声,是由自然环境、机械设备产生的,或者由人或动物发出的声音。
[0004]目前,声音数据库主要以单通道语音数据库为主,相应的音频预处理方法局限于简单解码并分段单通道语音音频数据。对于现有的声音获取及预处理方法,缺乏针对多通道环境声音数据有效的获取和处理,并且相关装置缺少存储录音相关的其他模态信息。
[0005]公开号为CN111524563A的专利申请涉及一种生理音数据库的建立方法及其数据库,采用数字听诊设备对生理音进行收集,并将采集的生理音转化生成代表声学振动的电子信号进行保存来进行数据库的构建。该数据库构建过程中,其使用的数据标记方法只是进行人工标注、人工智能标注的简单组合,可靠性低,存在污染数据库的风险。
[0006]公开号为CN109544352A的专利申请涉及基于随机数的抽检方法、装置、计算机设备及存储介质,该专利技术公开了一种基于随机数的抽检方法。对于不同种类的环境声音抽检比例和抽检概率应当不同。但上述方法并不适用于不同环境声音类别声音数据的抽检,并且可能漏检不合格的多通道声音数据,进而导致数据库污染。

技术实现思路

[0007]为了克服现有技术的不足,本专利技术提供一种环境声音数据库的创建方法,能够简单可靠的构建环境声音数据库,减小数据污染的风险。
[0008]本专利技术解决其技术问题所采用的技术方案是:一种环境声音数据库创建方法,包括以下步骤:
[0009](1)获取环境声音数据与录音信息,将单个多通道环境声音数据拆分为多个单通道的环境声音音频文件;
[0010](2)进行环境声音数据预处理,删除不满足设定条件的音频文件;将满足条件的环境声音音频文件剪切为指定长度;
[0011](3)对剪切后的音频文件进行人工分类和人工智能分类;所述的人工智能分类是
对音频文件进行特征提取,提取时频域的声谱图作为特征,通过基于深度学习的环境声音分类算法识别音频文件的环境声音类别;每个音频进行至少一次人工分类和至少一次人工智能分类;对人工分类结果以及人工智能分类结果取交集,交集内的音频被划分到相应环境声音类别,交集之外的音频文件划分为未标定类别。
[0012]所述的步骤(1)获取的录音信息包括采样率、采样深度、录音时间、录音地点、和总通道数。
[0013]所述的步骤(2)设定条件包括不缺少通道音频、音频文件可读、各音频文件为单通道、音频文件采样率与录音信息一致、音频信号平均绝对幅度不为0,对不满足以上任一条件的音频文件,删除该音频文件对应的所有通道的环境声音音频文件。
[0014]所述的步骤(2)指定长度为1秒、2秒、5秒或10秒。
[0015]所述时频域的特征包括但不限于短时傅里叶变换谱、梅尔谱、对数梅尔谱、梅尔倒谱,所述基于深度学习的环境声音分类算法包括但不限于卷积神经网络、循环神经网络、卷积循环神经网络、全连接神经网络、Transformer、对抗神经网络。
[0016]所述的人工分类由至少1位环境声音标记人员进行分类,人工智能分类由至少1种环境声音分类算法进行分类;若环境声音标记人员大于1位,人工分类结果为所有标记人员分类结果的并集;若环境声音分类算法大于1种,人工分类结果为所有环境声音分类算法结果的并集。
[0017]所述的步骤(3)对已标定种类音频文件进行重命名,命名规则包含了分类信息、音频长度、音频序号以及通道信息;根据环境声音录音信息与音频文件名中的信息,生成对应的标记信息,标记信息内包含采样率、采样深度、录音时间、录音地点、通道编号、总通道数、环境声音分类信息、音频长度以及音频编号的字符信息。
[0018]所述的步骤(3)之后对环境声音音频文件及音频标记文件进行抽检操作,对每种分类结果确定所述环境声音类别的抽检通过概率和抽检比例,随机从该类已标定音频文件中选取音频文件及其对应的标记文件作为待检查文件,检查已标定的音频文件各级分类是否正确分类,若分类错误则该文件所有通道音频文件及其对应标记文件不通过抽检,若分类正确则检查该文件其余通道音频文件是否为同一类别,若其余通道音频文件存在文件与该文件分类不同,则该文件所有通道音频文件及其对应标记文件不通过抽检,若其余通道音频文件与该文件分类相同,则检查该音频文件所有通道标记文件内的标记信息是否正确,若该文件所有通道标记文件存在标记文件信息错误,则该文件所有通道音频文件及其对应标记文件不通过抽检,否则该文件所有通道音频文件及其对应标记文件通过抽检;若上述通过抽检的文件占比大于等于抽检通过概率,则该种环境声音类别下的剩余已标定音频文件及标记文件通过抽检;若通过抽检的文件占比小于抽检通过概率,则该种环境声音类别下的剩余已标定音频文件及标记文件不通过抽检。
[0019]对于通过抽检的环境声音音频文件与标记文件,储存至环境声音数据库,并进行备份;对于未标定类别的环境声音音频文件以及未通过抽检的环境声音音频文件与标记文件,进行环境声音数据存储与备份,但不纳入环境声音数据库。
[0020]本专利技术还提供一种环境声音数据库生成装置,包括:
[0021]数据获取模块,用于获取多通道环境声音文件及录音信息,拆分多通道环境声音文件为单通道环境声音音频文件,预分类并存储环境声音数据;
[0022]数据预处理模块,用于预处理环境声音文件及录音信息,确定符合纳入环境声音数据库要求的环境声音音频文件,将符合要求的环境声音音频文件裁剪;
[0023]数据智能融合标定模块,用于对进行预处理后的环境声音音频文件进行智能融合标定,确定环境声音文件最终分类,并生成标记文件;
[0024]数据抽检模块,用于对已标定的环境声音音频文件和标记文件进行抽检;
[0025]数据存储模块,用于将通过抽检的环境声音音频文件及标记文件储存至环境声音数据库并进行备份,将未标定和未通过抽检的环境声音音频文件及标记文件进行存储和备份。
[0026]本专利技术的有益效果是:
[0027]在本专利技术提供的技术方案中,数据获取模块不仅获取环境声音音频数据,还获取了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种环境声音数据库的创建方法,其特征在于,包括以下步骤:(1)获取环境声音数据与录音信息,将单个多通道环境声音数据拆分为多个单通道的环境声音音频文件;(2)进行环境声音数据预处理,删除不满足设定条件的音频文件;将满足条件的环境声音音频文件剪切为指定长度;(3)对剪切后的音频文件进行人工分类和人工智能分类;所述的人工智能分类是对音频文件进行特征提取,提取时频域的声谱图作为特征,通过基于深度学习的环境声音分类算法识别音频文件的环境声音类别;每个音频进行至少一次人工分类和至少一次人工智能分类;对人工分类结果以及人工智能分类结果取交集,交集内的音频被划分到相应环境声音类别,交集之外的音频文件划分为未标定类别。2.根据权利要求1所述的环境声音数据库的创建方法,其特征在于,所述的步骤(1)获取的录音信息包括采样率、采样深度、录音时间、录音地点、和总通道数。3.根据权利要求1所述的环境声音数据库的创建方法,其特征在于,所述的步骤(2)设定条件包括不缺少通道音频、音频文件可读、各音频文件为单通道、音频文件采样率与录音信息一致、音频信号平均绝对幅度不为0,对不满足以上任一条件的音频文件,删除该音频文件对应的所有通道的环境声音音频文件。4.根据权利要求1所述的环境声音数据库的创建方法,其特征在于,所述的步骤(2)指定长度为1秒、2秒、5秒或10秒。5.根据权利要求1所述的环境声音数据库的创建方法,其特征在于,所述时频域的特征包括但不限于短时傅里叶变换谱、梅尔谱、对数梅尔谱、梅尔倒谱,所述基于深度学习的环境声音分类算法包括但不限于卷积神经网络、循环神经网络、卷积循环神经网络、全连接神经网络、Transformer、对抗神经网络。6.根据权利要求1所述的环境声音数据库的创建方法,其特征在于,所述的人工分类由至少1位环境声音标记人员进行分类,人工智能分类由至少1种环境声音分类算法进行分类;若环境声音标记人员大于1位,人工分类结果为所有标记人员分类结果的并集;若环境声音分类算法大于1种,人工分类结果为所有环境声音分类算法结果的并集。7.根据权利要求1所述的环境声音数据库的创建方法,其特征在于,所述的步骤(3)对已标定种类音频文件进行重命名,命名规则包含了分类信息、音频长度、音频序号以及通道信息;根据环境声音录音信息与音频文件名中的信息,生成对应的标记信息,标记信息内包含采样率、采样深度、录音时间...

【专利技术属性】
技术研发人员:白吉生陈建峰刘翻项彬
申请(专利权)人:西安联丰迅声信息科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1