强噪声环境下的语音检测方法技术

技术编号:38907182 阅读:25 留言:0更新日期:2023-09-22 14:25
本发明专利技术提出强噪声环境下的语音检测方法,包括:获取强噪声环境中的语音数据并对其预处理,进行滑动窗口分段,通过傅里叶变换将原始语音信号转换为频谱表示,输入到卷积神经网络CNN中提取有意义的语音特征数据;引入双向长短期记忆渐进式学习模型来估计语料层面的渐进式比率掩码后,估计的渐进式比率掩码被纳入最小值控制递归平均法程序中构建语音检测模型,通过改进优化算法计算损失对模型进行参数优化;根据用户反馈和模型性能,持续对语音检测模型进行优化和微调;使其能够自适应地调整降噪与语音失真之间的权衡,实现对各种噪声环境的适应性优化;通过利用PRMs所提供的信息,模型可以更为准确地估计噪声,进一步提升了语音检测的效果。音检测的效果。音检测的效果。

【技术实现步骤摘要】
强噪声环境下的语音检测方法


[0001]本专利技术涉及语音检测
,尤其涉及强噪声环境下的语音检测方法。

技术介绍

[0002]语音检测方法是进行语音侦察必须具有的关键技术和核心内容之一。语音检测准 确率的高低直接决定了对语音情报的侦察能力。语音应用场景日渐丰富,不同的应用场景往往都是伴随着噪声的;由于噪声的存在,识别准确率是一个持续存在的问题。现有的技术已经做出了显著的改进,但现有的在特定的噪声环境中的语音检测方法的识别准确率仍然不足,为此提出强噪声环境下的语音检测方法。

技术实现思路

[0003]为了解决上述问题,本专利技术提出强噪声环境下的语音检测方法,以更加确切地解决上述所述现有的在特定的噪声环境中的语音检测方法的识别准确率仍然不足的问题。
[0004]本专利技术通过以下技术方案实现的:本专利技术提出强噪声环境下的语音检测方法,所述方法为:S1:获取强噪声环境中的实地录音中的语音数据,并对语音数据进行预处理;S2:将预处理后的语音数据进行滑动窗口分段,并对每个分段通过傅里叶变换将原始语音信号转换为频谱表示;S3:将频谱输入到卷积神经网络CNN中,自动从输入数据中提取有意义的语音特征数据;S4:根据语音特征数据引入双向长短期记忆渐进式学习模型来估计语料层面的渐进式比率掩码后,估计的渐进式比率掩码被纳入最小值控制递归平均法程序中构建语音检测模型,通过改进优化算法计算损失对模型进行参数优化;S5:根据用户反馈和模型性能,持续对语音检测模型进行优化和微调。
[0005]进一步的,所述获取强噪声环境中的实地录音中的语音数据,并对语音数据进行预处理的步骤中,包括;根据语音获取模块在不同的噪声环境中获取语音数据,将获取的语音数据中的音频信号强度去除静音段,并对每个音频样本一个标签,通过Z

Score方法将语音数据标准化。
[0006]进一步的,所述将预处理后的语音数据进行滑动窗口分段,并对每个分段通过傅里叶变换将原始语音信号转换为频谱表示的步骤中,包括;对预处理后的语音数据根据实际任务来设定窗口的帧长和帧移以确保连续的音频片段之间有重叠部分,对每一帧应用窗函数抑制频谱泄漏后通过傅里叶变换计算出其各个频率成分的强度,从而得到一个频谱。
[0007]进一步的,所述将频谱输入到卷积神经网络CNN中,自动从输入数据中提取有意义的语音特征数据的步骤中,包括;
将频谱输入到卷积神经网络CNN中后,卷积核会在输入数据上滑动并进行计算,CNN自动识别出重要的频率模式、谐波结构、音色特征。
[0008]进一步的,所述根据语音特征数据引入双向长短期记忆渐进式学习模型来估计语料层面的渐进式比率掩码后,估计的渐进式比率掩码被纳入最小值控制递归平均法程序中构建语音检测模型,通过改进优化算法计算损失对模型进行参数优化的步骤中,包括;通过BLSTM作为回归模型来预测渐进式比率掩码PRMs;其中PRMs由中间层生成,并作为学习目标,其对应于干净语音和噪声之间的比率,即“掩码”;通过对数功率谱LPS特征作为语音检测模型的输入、理想比率掩码IRM作为输出得到一系列用于帮助在降噪和语音失真之间进行权衡的渐进式比率掩码PRMs,自适应地控制降噪和语音失真之间的权衡,通过PRMs提供的信息模型准确估计噪声,根据m个目标层的加权MMSE准则通过改进优化算法通过来计算损失,以对参数进行优化。
[0009]进一步的,所述通过对数功率谱LPS特征作为语音检测模型的输入、理想比率掩码IRM作为输出得到一系列用于帮助在降噪和语音失真之间进行权衡的渐进式比率掩码PRMs的步骤中,包括;PRMs在降噪和语音失真之间进行权衡,定义为:;其中,为时间帧,为频率仓,为语音信号在时间帧和频率仓的短时傅里叶变换,为一个渐进式比率掩码目标在T

F单元的噪声短时傅里叶变换,为输入信号在T

F单元的噪声短时傅里叶变换。
[0010]进一步的,所述改进优化算法为:;其中,为第m个目标层的加权因子,为权重矩阵和偏置向量的集合,为第m个目标层的神经网络输出。
[0011]进一步的,所述根据用户反馈和模型性能,持续对语音检测模型进行优化和微调的步骤中,包括;若模型在某些情况下表现不佳,则通过添加公开语音数据库中的各种语言类型和级别的噪声至清晰语音数据中,以生成更多训练样本持续对语音检测模型进行优化。
[0012]本专利技术的有益效果:通过对语音数据进行预处理后提取出特征数据;将语音特征数据引入双向长短期记忆渐进式学习模型来估计语料层面的渐进式比率掩码后,估计的渐进式比率掩码被纳入最小值控制递归平均法程序中构建语音检测模型,通过改进优化算法计算损失对模型进行参数优化;使其能够自适应地调整降噪与语音失真之间的权衡,从而实现对各种噪声环境的适应性优化;并且,通过利用PRMs所提供的信息,模型可以更为准确地估计噪声,进一步提升了语音检测的效果。
附图说明
[0013]图1为本专利技术的强噪声环境下的语音检测方法的流程示意图。
[0014]本申请为目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0015]为了更加清楚完整的说明本专利技术的技术方案,下面结合附图对本专利技术作进一步说明。
[0016]请参考图1,本专利技术提出强噪声环境下的语音检测方法,所述方法为:S1:获取强噪声环境中的实地录音中的语音数据,并对语音数据进行预处理;S2:将预处理后的语音数据进行滑动窗口分段,并对每个分段通过傅里叶变换将原始语音信号转换为频谱表示;S3:将频谱输入到卷积神经网络CNN中,自动从输入数据中提取有意义的语音特征数据;S4:根据语音特征数据引入双向长短期记忆渐进式学习模型来估计语料层面的渐进式比率掩码后,估计的渐进式比率掩码被纳入最小值控制递归平均法程序中构建语音检测模型,通过改进优化算法计算损失对模型进行参数优化;S5:根据用户反馈和模型性能,持续对语音检测模型进行优化和微调。
[0017]具体实施时,获取强噪声环境中的实地录音中的语音数据,并对语音数据进行预处理;通过专业的音频设备,如麦克风,在不同的噪声环境中录制语音,同时也可以考虑使用手机等设备进行补充录制,即通过各种设备源获取输入的语音,数据应该覆盖尽可能多的语音和噪声类型,包括不同的说话人、口音、语速、以及各种噪声环境等;尽管目标是在噪声环境下检测语音,但是有些噪声对于模型训练并没有帮助,例如微风或雨声,可以使用傅里叶变换或谱减法等方法来尝试降低这些无关噪声,在语音数据被输入模型之前,需要将其标准化到相同的音量水平,否则,模型会偏向于识别较大的信号,而忽视较小的信号;将预处理后的语音数据进行滑动窗口分段,由于音频信号是随时间变化的,因此不能直接对整个信号进行处理,而是需要先将其分段,具体的,首先确定一个窗口长度,例如20ms,然后每隔一定的时间,例如10ms,就向前滑动一次窗口,并取窗口内的信号作为一个分段,这样,每两个相邻分段就会有50%的重叠部分,从而保证了信号的连贯性;对每个分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.强噪声环境下的语音检测方法,其特征在于,所述方法为:S1:获取强噪声环境中的实地录音中的语音数据,并对语音数据进行预处理;S2:将预处理后的语音数据进行滑动窗口分段,并对每个分段通过傅里叶变换将原始语音信号转换为频谱表示;S3:将频谱输入到卷积神经网络CNN中,自动从输入数据中提取有意义的语音特征数据;S4:根据语音特征数据引入双向长短期记忆渐进式学习模型来估计语料层面的渐进式比率掩码后,估计的渐进式比率掩码被纳入最小值控制递归平均法程序中构建语音检测模型,通过改进优化算法计算损失对模型进行参数优化;S5:根据用户反馈和模型性能,持续对语音检测模型进行优化和微调。2.根据权利要求1所述的强噪声环境下的语音检测方法,其特征在于,所述获取强噪声环境中的实地录音中的语音数据,并对语音数据进行预处理的步骤中,包括;根据语音获取模块在不同的噪声环境中获取语音数据,将获取的语音数据中的音频信号强度去除静音段,并对每个音频样本一个标签,通过Z

Score方法将语音数据标准化。3.根据权利要求1所述的强噪声环境下的语音检测方法,其特征在于,所述将预处理后的语音数据进行滑动窗口分段,并对每个分段通过傅里叶变换将原始语音信号转换为频谱表示的步骤中,包括;对预处理后的语音数据根据实际任务来设定窗口的帧长和帧移以确保连续的音频片段之间有重叠部分,对每一帧应用窗函数抑制频谱泄漏后通过傅里叶变换计算出其各个频率成分的强度,从而得到一个频谱。4.根据权利要求1所述的强噪声环境下的语音检测方法,其特征在于,所述将频谱输入到卷积神经网络CNN中,自动从输入数据中提取有意义的语音特征数据的步骤中,包括;将频谱输入到卷积神经网络CNN中后,卷积核会在输入数据上滑动并进行计算,CNN自动识别出重要的频率模式、谐波结构、音色特征。5.根据权利要求1所述的强噪声环境下的语音检测方法,其特征在于,所述根据语音特征数据引...

【专利技术属性】
技术研发人员:李春霞
申请(专利权)人:长春市鸣玺科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1