强噪声环境下的语音检测方法技术

技术编号：38907182 阅读：25 留言：0更新日期：2023-09-22 14:25

本发明专利技术提出强噪声环境下的语音检测方法，包括：获取强噪声环境中的语音数据并对其预处理，进行滑动窗口分段，通过傅里叶变换将原始语音信号转换为频谱表示，输入到卷积神经网络CNN中提取有意义的语音特征数据；引入双向长短期记忆渐进式学习模型来估计语料层面的渐进式比率掩码后，估计的渐进式比率掩码被纳入最小值控制递归平均法程序中构建语音检测模型，通过改进优化算法计算损失对模型进行参数优化；根据用户反馈和模型性能，持续对语音检测模型进行优化和微调；使其能够自适应地调整降噪与语音失真之间的权衡，实现对各种噪声环境的适应性优化；通过利用PRMs所提供的信息，模型可以更为准确地估计噪声，进一步提升了语音检测的效果。音检测的效果。音检测的效果。

全部详细技术资料下载

【技术实现步骤摘要】
强噪声环境下的语音检测方法

[0001]本专利技术涉及语音检测
，尤其涉及强噪声环境下的语音检测方法。

技术介绍

[0002]语音检测方法是进行语音侦察必须具有的关键技术和核心内容之一。语音检测准确率的高低直接决定了对语音情报的侦察能力。语音应用场景日渐丰富，不同的应用场景往往都是伴随着噪声的；由于噪声的存在，识别准确率是一个持续存在的问题。现有的技术已经做出了显著的改进，但现有的在特定的噪声环境中的语音检测方法的识别准确率仍然不足，为此提出强噪声环境下的语音检测方法。

技术实现思路

[0003]为了解决上述问题，本专利技术提出强噪声环境下的语音检测方法，以更加确切地解决上述所述现有的在特定的噪声环境中的语音检测方法的识别准确率仍然不足的问题。
[0004]本专利技术通过以下技术方案实现的：本专利技术提出强噪声环境下的语音检测方法，所述方法为：S1：获取强噪声环境中的实地录音中的语音数据，并对语音数据进行预处理；S2：将预处理后的语音数据进行滑动窗口分段，并对每个分段通过傅里叶变换将原始语音信号转换为频谱表示；S3：将频谱输入到卷积神经网络CNN中，自动从输入数据中提取有意义的语音特征数据；S4：根据语音特征数据引入双向长短期记忆渐进式学习模型来估计语料层面的渐进式比率掩码后，估计的渐进式比率掩码被纳入最小值控制递归平均法程序中构建语音检测模型，通过改进优化算法计算损失对模型进行参数优化；S5：根据用户反馈和模型性能，持续对语音检测模型进行优化和微调。
[0005]进一步的，所...

【技术保护点】

【技术特征摘要】
1.强噪声环境下的语音检测方法，其特征在于，所述方法为：S1：获取强噪声环境中的实地录音中的语音数据，并对语音数据进行预处理；S2：将预处理后的语音数据进行滑动窗口分段，并对每个分段通过傅里叶变换将原始语音信号转换为频谱表示；S3：将频谱输入到卷积神经网络CNN中，自动从输入数据中提取有意义的语音特征数据；S4：根据语音特征数据引入双向长短期记忆渐进式学习模型来估计语料层面的渐进式比率掩码后，估计的渐进式比率掩码被纳入最小值控制递归平均法程序中构建语音检测模型，通过改进优化算法计算损失对模型进行参数优化；S5：根据用户反馈和模型性能，持续对语音检测模型进行优化和微调。2.根据权利要求1所述的强噪声环境下的语音检测方法，其特征在于，所述获取强噪声环境中的实地录音中的语音数据，并对语音数据进行预处理的步骤中，包括；根据语音获取模块在不同的噪声环境中获取语音数据，将获取的语音数据中的音频信号强度去除静音段，并对每个音频样本一个标签，通过Z
‑
Score方法将语音数据标准化。3.根据权利要求1所述的强噪声环境下的语音检测方法，其特征在于，所述将预处理后的语音数据进行滑动窗口分段，并对每个分段通过傅里叶变换将原始语音信号转换为频谱表示的步骤中，包括；对预处理后的语音数据根据实际任务来设定窗口的帧长和帧移以确保连续的音频片段之间有重叠部分，对每一帧应用窗函数抑制频谱泄漏后通过傅里叶变换计算出其各个频率成分的强度，从而得到一个频谱。4.根据权利要求1所述的强噪声环境下的语音检测方法，其特征在于，所述将频谱输入到卷积神经网络CNN中，自动从输入数据中提取有意义的语音特征数据的步骤中，包括；将频谱输入到卷积神经网络CNN中后，卷积核会在输入数据上滑动并进行计算，CNN自动识别出重要的频率模式、谐波结构、音色特征。5.根据权利要求1所述的强噪声环境下的语音检测方法，其特征在于，所述根据语音特征数据引...

【专利技术属性】
技术研发人员：李春霞，
申请(专利权)人：长春市鸣玺科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人