【技术实现步骤摘要】
基于局部注意力机制的语音增强方法、装置及介质
本专利技术涉及语音处理
,尤其涉及一种基于局部注意力机制的语音增强方法、装置及介质。
技术介绍
语音增强是语音处理领域的一个重要课题,是指当语音信号被各种各样的噪声干扰、甚至覆盖后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。随着智能音箱和人机交互等相关应用的发展,在理想环境下,语音识别和说话人识别等算法已经具有较高的准确率,但是在实际场景中,噪声的存在使得这些语音应用的准确度极大降低,因此降低噪声对语音信号的干扰和增强语音信号是亟待解决的问题。目前,现有的语音增强方法主要有谱减法、维纳滤波和基于最小均方误差的短时谱幅增强方法。使用现有的语音增强方法,存在以下问题:在很大程度上取决于噪声的估计,且这些方法适用场景少,未能充分考虑各个场景下的语音特性,不可避免地引入失真,造成语音增强效果不佳。
技术实现思路
本专利技术实施例提供的一种基于局部注意力机制的语音增强方法、装置及介质,能够有效提高语音增强的效果,且能够有效提 ...
【技术保护点】
1.一种基于局部注意力机制的语音增强方法,其特征在于,包括:/n采集待处理语音,对所述待处理语音进行语音合成处理,得到待增强语音;/n对所述待增强语音进行特征提取,得到所述待增强语音的多维特征;/n建立基于局部注意力机制的RNN模型,并将所述多维特征输入至所述RNN模型;/n对所述RNN模型进行训练,得到语音增强模型;/n根据所述语音增强模型对所述多维特征进行计算得到时频掩蔽因子,根据所述时频掩蔽因子以及所述待增强语音的频谱,得到所述待增强语音的增强语音频谱;/n根据所述增强语音频谱得到语音增强波形。/n
【技术特征摘要】
1.一种基于局部注意力机制的语音增强方法,其特征在于,包括:
采集待处理语音,对所述待处理语音进行语音合成处理,得到待增强语音;
对所述待增强语音进行特征提取,得到所述待增强语音的多维特征;
建立基于局部注意力机制的RNN模型,并将所述多维特征输入至所述RNN模型;
对所述RNN模型进行训练,得到语音增强模型;
根据所述语音增强模型对所述多维特征进行计算得到时频掩蔽因子,根据所述时频掩蔽因子以及所述待增强语音的频谱,得到所述待增强语音的增强语音频谱;
根据所述增强语音频谱得到语音增强波形。
2.如权利要求1所述的基于局部注意力机制的语音增强方法,其特征在于,所述待处理语音包括纯净语音和噪声;所述采集待处理语音,对所述待处理语音进行语音合成处理,得到待增强语音,具体为:
采集纯净语音以及不同场景的原始噪声,根据预设的筛选规则对所述原始噪声进行筛选,得到常规噪声;对所述纯净语音和所述常规噪声进行语音合成处理,得到待增强语音。
3.如权利要求1所述的基于局部注意力机制的语音增强方法,其特征在于,所述对所述待增强语音进行特征提取,得到所述待增强语音的多维特征,具体为:
对所述待增强语音进行加窗分帧处理并进行短傅里叶变换,并计算每帧待增强语音的频域对数谱;
对所述每帧待增强语音的频域对数谱进行特征提取,得到所述待增强语音的62维特征。
4.如权利要求3所述的基于局部注意力机制的语音增强方法,其特征在于,所述对所述每帧待增强语音的频域对数谱进行特征提取,得到所述待增强语音的62维特征,具体为:
将所述每帧待增强语音的频域对数谱均分为22个子频带,对每一子频带进行DCT变换得到22维特征;
将所述22维特征中的每一当前帧与所述当前帧的前两帧和所述当前帧的后两帧分别进行差异比较,并根据所述当前帧的特征得到36维特征;
将基音周期、当前帧谱距离、当前帧与前两帧分别计算所得的谱距离差作为特征得到4维特征;
将所述22维特征、所述36...
【专利技术属性】
技术研发人员:方泽煌,康元勋,
申请(专利权)人:厦门亿联网络技术股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。