基于语音降噪的语音唤醒方法、装置及相关产品制造方法及图纸

技术编号:38411704 阅读:11 留言:0更新日期:2023-08-07 11:17
本公开实施例提供了一种基于语音降噪的语音唤醒方案,包括:获取语音数据,所述语音数据包括降噪后的语音信息和噪音信息;对所述降噪后的语音信息和噪音信息进行变换处理得到所述降噪后的语音信息和噪音信息对应的频域语音信号和时域语音信号;将所述频域语音信号和时域语音信号分别输入唤醒模型的两分支以分别提取所述语音数据的特征;基于提取的特征得到唤醒词,以实现语音唤醒。通过将语音数据分为降噪后的语音信息和噪音信息,增加语音唤醒特征量,同时采用时域和频域两分支对语音数据进行特征提取,使得提取的语音数据特征更准确和全面,最终达到提升唤醒准确率的目的。最终达到提升唤醒准确率的目的。最终达到提升唤醒准确率的目的。

【技术实现步骤摘要】
基于语音降噪的语音唤醒方法、装置及相关产品


[0001]本公开涉及人工智能领域,特别涉及一种基于语音降噪的语音唤醒方法、装置及相关产品。

技术介绍

[0002]随着人工智能(AI)算法以及AI芯片等硬件技术的发展,智能设备已经在日常生活中被广泛应用。如智能家居语音控制系统、智能音箱、智能会议系统等。语音交互在智能设备中的应用极为广泛且日益成熟。为了进一步提升人机交互体验,语音唤醒技术应运而生。如何提升语音唤醒的唤醒准确率成为当前亟待解决的问题。

技术实现思路

[0003]本公开旨在至少解决现有技术中存在的技术问题之一,提出了一种基于语音降噪的语音唤醒方法、装置及相关产品。
[0004]第一方面,本公开实施例提供了一种基于语音降噪的语音唤醒方法,包括:
[0005]获取语音数据,所述语音数据包括降噪后的语音信息和噪音信息;
[0006]对所述降噪后的语音信息和噪音信息进行变换处理得到所述降噪后的语音信息和噪音信息对应的频域语音信号和时域语音信号;
[0007]将所述频域语音信号和时域语音信号分别输入唤醒模型的两分支以分别提取所述语音数据的特征;
[0008]基于提取的特征得到唤醒词,以实现语音唤醒。
[0009]在一些实施例中,所述获取语音数据样本,包括:
[0010]获取原语音数据;
[0011]将所述原语音数据输入到语音降噪模型中,得到语音特征和噪音信息;
[0012]将所述语音特征与所述噪音信息进行融合,得到所述降噪后的语音信息。
[0013]在一些实施例中,所述语音降噪模型为encoder

decoder双分支结构,所述语音降噪模型包括语音分支和噪声分支,所述将所述语音数据样本输入到语音降噪模型中,得到语音特征和噪音信息样本,包括:
[0014]将所述语音数据样本输入到语音降噪模型中的语音分支,得到语音特征;
[0015]将所述语音数据样本输入到语音降噪模型中的噪声分支,得到噪音信息样本。
[0016]在一些实施例中,,所述语音分支和所述噪声分支还包括encoder模块和decoder模块,所述语音降噪模型还包括共享交互模块,所述将所述原语音数据样本输入到语音降噪模型中,得到语音特征和噪音信息,还包括:
[0017]将所述原语音数据样本分别输入到所述语音分支和所述噪声分支的encoder模块,分别得到第一语音特征和第一噪音信息;
[0018]所述共享交互模块根据所述第一语音特征与所述第一噪音信息实现信息交互;
[0019]所述语音分支和所述噪声分支的decoder模块根据交互的信息分别对所述第一语
音特征和第一噪音信息进行处理得到语音特征和噪音信息。
[0020]在一些实施例中,共享交互模块根据所述第一语音特征与所述第一噪音信息实现信息交互,包括:
[0021]经过所述共享交互模块将所述噪声分支的第一噪音信息传输到所述语音分支,所述第一噪音信息用于对语音特征进行增强,并抵消所述语音分支内的噪音信息;和/或
[0022]经过所述共享交互模块将所述语音分支的第一语音特征传输到所述噪声分支,所述第一语音特征用于对噪音信息进行增强,并抵消所述噪声分支内的语音特征。在一些实施例中,所述方法还包括:
[0023]获取原语音数据样本;
[0024]将所述原语音数据样本输入语音降噪模型中,所述语音降噪模型的两分支结构分别对所述原语音数据样本进行处理,分别得到语音特征和噪音信息;
[0025]将所述语音特征和噪音信息经过融合,得到降噪后的语音信息;
[0026]计算所述降噪后的语音信息与所述原语音数据样本的第二损失函数;
[0027]响应于第二损失函数的值不满足第二预设条件,根据所述第二损失函数更新所述语音降噪模型;
[0028]重复执行步骤:
[0029]将所述原语音数据样本输入语音降噪模型中,所述语音降噪模型的两分支结构分别对所述原语音数据样本进行处理,分别得到语音特征和噪音信息;
[0030]将所述语音特征和噪音信息经过融合,得到降噪后的语音信息;
[0031]计算所述降噪后的语音信息与所述原语音数据样本的第二损失函数;
[0032]响应于第二损失函数的值不满足第二预设条件,根据所述第二损失函数更新所述语音降噪模型;
[0033]直至所述第二损失函数满足第二预设条件,得到所述语音降噪模型。
[0034]在一些实施例中,根据融合公式对所述语音特征和噪音信息进行融合,得到降噪后的语音信息,所述融合公式为:
[0035][0036]其中代表语音特征,代表噪音信息,m是融合权重,x是原始语音样本。
[0037]在一些实施例中,所述对所述降噪后的语音信息和噪音信息进行变换处理得到所述降噪后的语音信息和噪音信息对应的频域语音信号和时域语音信号,包括:
[0038]将所述降噪后的语音信息和噪音信息经过短时傅里叶变换对信号特征进行提取得到所述频域信号,其中,所述短时傅里叶变换包括Mel频率倒谱系数或FBANK;
[0039]将所述降噪后的语音信息和噪音信息的时域波形作为所述时域信号。
[0040]在一些实施例中,将所述降噪后的语音信息和噪音信息经过短时傅里叶变换对信号特征进行提取得到所述频域信号,包括:
[0041]分别对所述降噪后的语音信息和噪音信息进行预处理、快速傅里叶变换、Mei滤波器器组、对数运算、离散余弦变换及根据梅尔频率倒谱系数计算动态特征,得到所述频域信号。
[0042]在一些实施例中,所述方法还包括:获取语音数据样本,所述语音数据样本包括正
样本和负样本,所述语音数据样本包括降噪后的语音信息和噪音信息;
[0043]将所述语音数据样本输入到唤醒模型中,计算第一损失函数;
[0044]响应于所述第一损失函数的值不满足预设条件,基于所述语音数据样本的类型对所述语音数据样本进行反馈激励来更新所述唤醒模型;
[0045]重复执行步骤:
[0046]将所述语音数据样本输入到唤醒模型中,计算第一损失函数;
[0047]基于所述语音数据样本的类型对所述语音数据样本进行反馈激励来更新所述唤醒模型,直至所述第一损失函数满足预设条件,循环迭代停止得到训练完成的所述唤醒模型。
[0048]在一些实施例中,所述基于所述提取的特征得到唤醒词,以实现语音唤醒,包括:
[0049]根据所述提取的特征,通过分类器得到各种词语的概率;
[0050]选择概率最大的词语作为唤醒词,以实现语音唤醒。
[0051]第二方面,本公开实施例还提供了一种基于语音降噪的语音唤醒装置,包括:获取模块,用于获取语音数据,所述语音数据包括降噪后的语音信息和噪音信息;
[0052]处理模块,用于对所述降噪后的语音信息和噪音信息进行变换处理得到频域语音信号和时域语音信号;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音降噪的语音唤醒方法,其特征在于,所述方法包括:获取语音数据,所述语音数据包括降噪后的语音信息和噪音信息;对所述降噪后的语音信息和噪音信息进行变换处理得到所述降噪后的语音信息和噪音信息对应的频域语音信号和时域语音信号;将所述频域语音信号和时域语音信号分别输入唤醒模型的两分支以分别提取所述语音数据的特征;基于提取的特征得到唤醒词,以实现语音唤醒。2.根据权利要求1所述的方法,其特征在于,所述获取语音数据,包括:获取原语音数据;将所述原语音数据输入到语音降噪模型中,得到语音特征和噪音信息;将所述语音特征与所述噪音信息进行融合,得到所述降噪后的语音信息。3.根据权利要求2所述的方法,其特征在于,所述语音降噪模型为encoder

decoder双分支结构,所述语音降噪模型包括语音分支和噪声分支,所述将所述原语音数据输入到语音降噪模型中,得到语音特征和噪音信息,包括:将所述原语音数据输入到语音降噪模型中的语音分支,得到语音特征;将所述原语音数据输入到语音降噪模型中的噪声分支,得到噪音信息。4.根据权利要求3所述的方法,其特征在于,所述语音分支和所述噪声分支还包括encoder模块和decoder模块,所述语音降噪模型还包括共享交互模块,所述将所述原语音数据输入到语音降噪模型中,得到语音特征和噪音信息,还包括:将所述原语音数据分别输入到所述语音分支和所述噪声分支的encoder模块,分别得到第一语音特征和第一噪音信息;所述共享交互模块根据所述第一语音特征与所述第一噪音信息实现信息交互;所述语音分支和所述噪声分支的decoder模块根据交互的信息分别对所述第一语音特征和第一噪音信息进行处理得到语音特征和噪音信息。5.根据权利要求4所述的方法,其特征在于,所述共享交互模块根据所述第一语音特征与所述第一噪音信息实现信息交互,包括:经过所述共享交互模块将所述噪声分支的第一噪音信息传输到所述语音分支,所述第一噪音信息用于对语音特征进行增强,并抵消所述语音分支内的噪音信息;和/或经过所述共享交互模块将所述语音分支的第一语音特征传输到所述噪声分支,所述第一语音特征用于对噪音信息进行增强,并抵消所述噪声分支内的语音特征。6.根据权利要求2

5任一项所述的方法,其特征在于,所述方法还包括:获取原语音数据样本;将所述原语音数据样本输入语音降噪模型中,所述语音降噪模型的双分支结构分别对所述原语音数据样本进行处理,分别得到语音特征和噪音信息;将所述语音特征和噪音信息经过融合,得到降噪后的语音信息;计算所述降噪后的语音信息与所述原语音数据样本的第二损失函数;响应于第二损失函数的值不满足第二预设条件,根据所述第二损失函数更新所述语音降噪模型;重复执行步骤:
将所述原语音数据样本输入语音降噪模型中,所述语音降噪模型的双分支结构分别对所述原语音数据样本进行处理,分别得到语音特征和噪音信息;将所述语音特征和噪音信息经过融合,得到降噪后的语音信息;计算所述降噪后的语音信息与所述原语音数据样本的第二损失函数...

【专利技术属性】
技术研发人员:宿绍勋
申请(专利权)人:北京京东方技术开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1