本发明专利技术涉及声音识别技术领域,尤其涉及声音识别模型的训练方法、装置、电子设备及存储介质,该方法包括:将音频样本特征数据输入到当前的声音识别模型的卷积层中,得到第一音频样本特征数据;将第一音频样本特征数据依次输入到当前的声音识别模型的至少一个轻量倒残差结构中,得到第二音频样本特征数据;将第二音频样本特征数据依次输入到当前的声音识别模型的平均池化层和全连接层,得到音频样本特征数据的声音识别结果;根据音频样本特征数据的声音识别标签和声音识别结果,对当前的声音识别模型进行模型更新。本申请能够对声音识别模型进行训练,通过该声音识别模型识别动物声音,提高了识别动物声音的准确率。提高了识别动物声音的准确率。提高了识别动物声音的准确率。
【技术实现步骤摘要】
声音识别模型的训练方法、装置、电子设备及存储介质
[0001]本专利技术涉及声音识别
,具体而言,涉及一种声音识别模型的训练方法、装置、电子设备及存储介质。
技术介绍
[0002]动物保护对于维护生物多样性至关重要,具有重要研究意义与保护价值,一些动物的鸣叫具有稳定的声音结构特征与一定的时间规律,因此,非常适合通过声音监测的方法对其进行监测。
[0003]目前,一般通过人工追踪记录的方式对动物进行声音监测,但这种方式需要观察人员非常了解动物的声音特点,才能够识别出动物的声音,因此通过这种方式识别动物声音的准确率较低。
技术实现思路
[0004]有鉴于此,本申请的目的在于提供一种声音识别模型的训练方法、装置、电子设备及存储介质,能够对声音识别模型进行训练,通过该声音识别模型识别动物声音,提高了识别动物声音的准确率。
[0005]第一方面,本申请实施例提供了一种声音识别模型的训练方法,该声音识别模型的训练方法包括:获取待识别动物的音频样本特征数据以及对应的声音识别标签;将音频样本特征数据输入到当前的声音识别模型的卷积层中,得到第一音频样本特征数据;将第一音频样本特征数据依次输入到当前的声音识别模型的至少一个轻量倒残差结构中,得到用于识别待识别动物的声音的第二音频样本特征数据;将第二音频样本特征数据依次输入到当前的声音识别模型的平均池化层和全连接层,得到音频样本特征数据的声音识别结果;根据音频样本特征数据的声音识别标签和声音识别结果,对当前的声音识别模型进行模型更新。
[0006]在一种可能的实施方式中,将第一音频样本特征数据依次输入到当前的声音识别模型的至少一个轻量倒残差结构中,得到用于识别待识别动物的声音的第二音频样本特征数据,包括:将第一音频样本特征数据输入到轻量倒残差结构的第一层进行卷积,得到第三音频样本特征数据;将第三音频样本特征数据输入到轻量倒残差结构的第二层,依次进行深度卷积、批标准化和高斯误差线性单元激活函数激活,得到第四音频样本特征数据;将第四音频样本特征数据输入到第三层进行卷积,得到用于识别待识别动物的声音的第二音频特征数据。
[0007]在一种可能的实施方式中,获取音频样本特征数据以及对应的声音识别标签,包括:获取待识别动物的音频样本数据以及对应的声音识别标签;音频样本数据包括待识别动物音频样本数据和其他音频样本数据;将所有音频样本数据进行时间平移处理,得到平移后的音频样本数据;将平移后的待识别动物音频样本数据和平移后的其他音频样本数据,进行音频混合,得到混合后的待识别动物音频样本数据;从平移后的其他音频样本数据、混合后的待识别动物音频样本数据中,提取待识别动物的音频样本特征数据。
[0008]在一种可能的实施方式中,从平移后的其他音频样本数据、混合后的待识别动物音频样本数据中,提取待识别动物的音频样本特征数据,包括:对平移后的其他音频样本数据、混合后的待识别动物音频样本数据进行预处理,得到预处理后的音频样本数据;从预处理后的音频样本数据中,提取音频样本特征数据。
[0009]在一种可能的实施方式中,该声音识别模型的训练方法还包括:获取待识别动物的待识别音频特征数据;将待识别音频特征数据输入到训练完成的声音识别模型中,得到待识别音频特征数据的声音识别结果。
[0010]在一种可能的实施方式中,该声音识别模型的训练方法还包括:将待识别音频特征数据中,声音识别结果为待识别动物的声音的音频帧,确定为待识别动物的目标音频帧。
[0011]第二方面,本申请实施例还提供了一种声音识别模型的训练装置,该声音识别模型的训练装置包括:获取模块,用于获取待识别动物的音频样本特征数据以及对应的声音识别标签;输入模块,用于将音频样本特征数据输入到当前的声音识别模型的卷积层中,得到第一音频样本特征数据;输入模块,还用于将第一音频样本特征数据依次输入到当前的声音识别模型的至少一个轻量倒残差结构中,得到用于识别待识别动物的声音的第二音频样本特征数据;输入模块,还用于将第二音频样本特征数据依次输入到当前的声音识别模型的平均池化层和全连接层,得到音频样本特征数据的声音识别结果;更新模块,用于根据音频样本特征数据的声音识别标签和声音识别结果,对当前的声音识别模型进行模型更新。
[0012]在一种可能的实施方式中,输入模块,具体用于将第一音频样本特征数据输入到轻量倒残差结构的第一层进行卷积,得到第三音频样本特征数据;将第三音频样本特征数据输入到轻量倒残差结构的第二层,依次进行深度卷积、批标准化和高斯误差线性单元激活函数激活,得到第四音频样本特征数据;将第四音频样本特征数据输入到第三层进行卷积,得到用于识别待识别动物的声音的第二音频特征数据。
[0013]在一种可能的实施方式中,获取模块,具体用于获取音频样本数据以及对应的声音识别标签;音频样本数据包括待识别动物音频样本数据和其他音频样本数据;将所有音
频样本数据进行时间平移处理,得到平移后的音频样本数据;将平移后的待识别动物音频样本数据和平移后的其他音频样本数据,进行音频混合,得到混合后的待识别动物音频样本数据;从平移后的其他音频样本数据、混合后的待识别动物音频样本数据中,提取待识别动物的音频样本特征数据。
[0014]在一种可能的实施方式中,获取模块,还用于对平移后的其他音频样本数据、混合后的待识别动物音频样本数据进行预处理,得到预处理后的音频样本数据;从预处理后的音频样本数据中,提取音频样本特征数据。
[0015]在一种可能的实施方式中,获取模块,还用于获取待识别动物的待识别音频特征数据;输入模块,还用于将待识别音频特征数据输入到训练完成的声音识别模型中,得到待识别音频特征数据的声音识别结果。
[0016]在一种可能的实施方式中,该声音识别模型的训练装置还包括:确定模块;确定模块,用于将待识别音频特征数据中,声音识别结果为待识别动物的声音的音频帧,确定为待识别动物的目标音频帧。
[0017]第三方面,本申请实施例还提供了一种电子设备,包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行如第一方面任一项声音识别模型的训练方法的步骤。
[0018]第四方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行如第一方面任一项声音识别模型的训练方法的步骤。
[0019]本申请实施例提供了一种声音识别模型的训练方法、装置、电子设备及存储介质,该方法包括:获取待识别动物的音频样本特征数据以及对应的声音识别标签;将音频样本特征数据输入到当前的声音识别模型的卷积层中,得到第一音频样本特征数据;将第一音频样本特征数据依次输入到当前的声音识别模型的至少一个轻量倒残差结构中,得到用于识别待识别动物的声音的第二音频样本特征数据;将第二音频样本特征数据依次输入到当前的声音识别模型的平均池化层和全连接层,得到音频样本特征数据的声音识别本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种声音识别模型的训练方法,其特征在于,所述声音识别模型的训练方法包括:获取待识别动物的音频样本特征数据以及对应的声音识别标签;将所述音频样本特征数据输入到当前的声音识别模型的卷积层中,得到第一音频样本特征数据;将所述第一音频样本特征数据依次输入到当前的声音识别模型的至少一个轻量倒残差结构中,得到用于识别所述待识别动物的声音的第二音频样本特征数据;将所述第二音频样本特征数据依次输入到当前的声音识别模型的平均池化层和全连接层,得到所述音频样本特征数据的声音识别结果;根据所述音频样本特征数据的声音识别标签和声音识别结果,对当前的声音识别模型进行模型更新。2.根据权利要求1所述的声音识别模型的训练方法,其特征在于,所述将所述第一音频样本特征数据依次输入到当前的声音识别模型的至少一个轻量倒残差结构中,得到用于识别所述待识别动物的声音的第二音频样本特征数据,包括:将所述第一音频样本特征数据输入到所述轻量倒残差结构的第一层进行卷积,得到第三音频样本特征数据;将所述第三音频样本特征数据输入到所述轻量倒残差结构的第二层,依次进行深度卷积、批标准化和高斯误差线性单元激活函数激活,得到第四音频样本特征数据;将所述第四音频样本特征数据输入到第三层进行卷积,得到用于识别所述待识别动物的声音的第二音频特征数据。3.根据权利要求2所述的声音识别模型的训练方法,其特征在于,所述获取待识别动物的音频样本特征数据以及对应的声音识别标签,包括:获取音频样本数据以及对应的声音识别标签;所述音频样本数据包括待识别动物音频样本数据和其他音频样本数据;将所有所述音频样本数据进行时间平移处理,得到平移后的音频样本数据;将平移后的待识别动物音频样本数据和平移后的其他音频样本数据,进行音频混合,得到混合后的待识别动物音频样本数据;从所述平移后的其他音频样本数据、所述混合后的待识别动物音频样本数据中,提取所述待识别动物的音频样本特征数据。4.根据权利要求3所述的声音识别模型的训练方法,其特征在于,所述从所述平移后的其他音频样本数据、所述混合后的待识别动物音频样本数据中,提取所述待识别动物的音频样本特征数据,包括:对所述平移后的其他音频样本数据、所述混合后的待识别动物音频样本数据进行预处理,得到预处理后的音频样本数据;从所述预处理后的音频样本数据中,提取音频样本特征数据。5.根...
【专利技术属性】
技术研发人员:郭颖,高家军,张旭,陈艳,欧阳萱,于新文,郭安琪,
申请(专利权)人:中国林业科学研究院资源信息研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。