一种语音处理方法、装置和用于语音处理的装置制造方法及图纸

技术编号:29925900 阅读:63 留言:0更新日期:2021-09-04 18:46
本发明专利技术实施例提供了一种语音处理方法、装置和用于语音处理的装置,应用于终端设备。其中的方法包括:接收待处理语音,所述待处理语音中包含噪音和目标用户声音,目标用户的个数大于或等于1;获取所述目标用户的注册语音特征;将所述待处理语音和所述目标用户的注册语音特征输入说话人提取模型,所述说话人提取模型根据所述目标用户的注册语音特征,提取所述待处理语音中所述目标用户的目标语音,并输出所述目标语音。本发明专利技术实施例可以提高通话语音的质量,以及保护用户隐私。以及保护用户隐私。以及保护用户隐私。

【技术实现步骤摘要】
一种语音处理方法、装置和用于语音处理的装置


[0001]本专利技术涉及语音处理
,尤其涉及一种语音处理方法、装置和用于语音处理的装置。

技术介绍

[0002]随着通信技术的发展,语音通信已经称为目前主要的通信方式,但是语音通信过程中,来自于周围环境中的噪音、干扰一直是影响用户通信体验的重要因素。
[0003]例如,用户在使用语音通信设备进行语音通信的过程中,周围环境中的噪音、干扰会一同传入用户的语音通信设备,导致通信对方无法听清该用户语音,或者,导致通信对方听到其他语音(如周围说话人的声音)而这些语音是该用户不希望通信对方听到的,这样不仅影响语音通信效果而且可能会暴露该用户的个人隐私。

技术实现思路

[0004]本专利技术实施例提供一种语音处理方法、装置和用于语音处理的装置,可以提高通话语音的质量,以及保护用户隐私。
[0005]为了解决上述问题,本专利技术实施例公开了一种语音处理方法,所述方法包括:
[0006]接收待处理语音,所述待处理语音中包含噪音和目标用户声音,目标用户的个数大于或等于1;
[0007]获取所述目标用户的注册语音特征;
[0008]将所述待处理语音和所述目标用户的注册语音特征输入说话人提取模型,所述说话人提取模型根据所述目标用户的注册语音特征,提取所述待处理语音中所述目标用户的目标语音,并输出所述目标语音。
[0009]可选地,所述方法还包括:
[0010]收集注册用户的用户语音样本;
[0011]获取所述注册用户的注册语音特征和纯净语音;
[0012]将所述用户语音样本、注册语音特征、以及纯净语音输入初始的说话人提取模型,所述说话人提取模型根据所述注册用户的注册语音特征,提取所述用户语音样本中注册用户的目标语音;
[0013]根据提取的注册用户的目标语音与注册用户的纯净语音之间的特征差异迭代优化所述说话人提取模型的模型参数,达到预设收敛条件得到训练完成的说话人提取模型。
[0014]可选地,所述说话人提取模型包括第一处理网络和第二处理网络,所述说话人提取模型根据所述注册用户的注册语音特征,提取所述用户语音样本中注册用户的目标语音,包括:
[0015]将所述用户语音样本进行短时傅里叶变换,得到样本语音幅度谱;
[0016]将所述纯净语音进行短时傅里叶变换,得到纯净语音幅度谱;
[0017]通过所述第一处理网络提取所述样本语音幅度谱的含噪语音特征;
[0018]将所述注册用户的注册语音特征与所述含噪语音特征进行矩阵的元素相乘,得到调制语音特征;
[0019]通过所述第二处理网络对所述调制语音特征进行特征提取处理,得到幅度谱掩码;
[0020]将所述样本语音幅度谱与所述幅度谱掩码进行矩阵的元素相乘,得到降噪语音幅度谱;
[0021]所述根据提取的注册用户的目标语音与注册用户的纯净语音之间的特征差异迭代优化所述说话人提取模型的模型参数,包括:
[0022]根据预设损失函数,计算所述降噪语音幅度谱与所述纯净语音幅度谱之间的特征差异;
[0023]根据所述特征差异迭代优化所述说话人提取模型的模型参数。
[0024]可选地,所述获取所述目标用户的注册语音特征,包括:
[0025]获取所述目标用户的注册语音;
[0026]将所述目标用户的注册语音输入特征提取模型,对所述目标用户的注册语音进行特征提取,得到所述目标用户的注册语音特征。
[0027]可选地,所述方法还包括:
[0028]收集注册用户的注册语音样本;
[0029]将所述注册语音样本输入初始的特征提取模型,提取得到所述注册语音样本的特征向量;
[0030]对所述注册用户的纯净语音进行特征提取,得到纯净语音的特征向量;
[0031]根据所述注册语音样本的特征向量与所述纯净语音的特征向量之间的特征差异迭代优化所述特征提取模型的模型参数,达到预设收敛条件得到训练完成的特征提取模型。
[0032]可选地,所述将所述注册语音样本输入初始的特征提取模型,提取得到所述注册语音样本的特征向量,包括:
[0033]对所述注册语音样本进行话音激活检测,过滤所述注册语音样本中的非语音段,得到过滤后语音;
[0034]将所述过滤后语音按预设帧长进行切分,得到所述过滤后语音对应的语音帧序列;
[0035]对所述语音帧序列中的各语音帧进行短时傅里叶变换,得到每个语音帧对应的语音帧幅度谱;
[0036]将所述语音帧幅度谱输入特征提取模型的特征提取网络,输出每个语音帧幅度谱的特征向量;
[0037]将所述语音帧序列中各语音帧对应语音帧幅度谱的特征向量进行求平均计算,得到所述注册语音样本的特征向量。
[0038]可选地,所述注册用户的个数大于1,所述对所述注册语音样本进行话音激活检测,过滤所述注册语音样本中的非语音段,得到过滤后语音,包括:
[0039]对每个所述注册用户的注册语音样本进行话音激活检测,得到每个注册语音样本的过滤后语音;
[0040]所述将所述过滤后语音按预设帧长进行切分,得到所述过滤后语音对应的语音帧序列,包括:
[0041]将每个注册语音样本的过滤后语音按预设帧长进行切分,得到每个注册语音样本对应的语音帧序列;
[0042]所述对所述语音帧序列中的各语音帧进行短时傅里叶变换,得到每个语音帧对应的语音帧幅度谱,包括:
[0043]对每个注册语音样本的语音帧序列中的各语音帧进行短时傅里叶变换,得到每个注册语音样本的语音帧序列中各语音帧对应的语音帧幅度谱;
[0044]所述将所述语音帧幅度谱输入特征提取模型的特征提取网络,输出每个语音帧幅度谱的特征向量,包括:
[0045]将每个注册语音样本的语音帧序列中各语音帧对应的语音帧幅度谱输入特征提取模型的特征提取网络,输出每个语音帧幅度谱的特征向量;
[0046]所述将所述语音帧序列中各语音帧对应语音帧幅度谱的特征向量进行求平均计算,得到所述注册语音样本的特征向量,包括:
[0047]将每个注册语音样本的语音帧序列中各语音帧对应的语音帧幅度谱的特征向量进行求平均计算,得到每个注册语音样本的特征向量。
[0048]可选地,所述方法还包括:
[0049]建立所述注册用户的语音特征库,所述语音特征库中保存有注册用户的注册语音特征与注册用户的用户标识之间的映射关系;
[0050]所述获取所述目标用户的注册语音特征,包括:
[0051]根据目标用户的用户标识查询所述语音特征库,得到所述目标用户的注册语音特征。
[0052]可选地,所述目标用户的个数大于1,所述将所述待处理语音和所述目标用户的注册语音特征输入说话人提取模型,包括:
[0053]将所述待处理语音和每个目标用户的注册语音特征输入说话人提取模型;
[0054]所述输出所述目标语音,包括:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,所述方法包括:接收待处理语音,所述待处理语音中包含噪音和目标用户声音,目标用户的个数大于或等于1;获取所述目标用户的注册语音特征;将所述待处理语音和所述目标用户的注册语音特征输入说话人提取模型,所述说话人提取模型根据所述目标用户的注册语音特征,提取所述待处理语音中所述目标用户的目标语音,并输出所述目标语音。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:收集注册用户的用户语音样本;获取所述注册用户的注册语音特征和纯净语音;将所述用户语音样本、注册语音特征、以及纯净语音输入初始的说话人提取模型,所述说话人提取模型根据所述注册用户的注册语音特征,提取所述用户语音样本中注册用户的目标语音;根据提取的注册用户的目标语音与注册用户的纯净语音之间的特征差异迭代优化所述说话人提取模型的模型参数,达到预设收敛条件得到训练完成的说话人提取模型。3.根据权利要求2所述的方法,其特征在于,所述说话人提取模型包括第一处理网络和第二处理网络,所述说话人提取模型根据所述注册用户的注册语音特征,提取所述用户语音样本中注册用户的目标语音,包括:将所述用户语音样本进行短时傅里叶变换,得到样本语音幅度谱;将所述纯净语音进行短时傅里叶变换,得到纯净语音幅度谱;通过所述第一处理网络提取所述样本语音幅度谱的含噪语音特征;将所述注册用户的注册语音特征与所述含噪语音特征进行矩阵的元素相乘,得到调制语音特征;通过所述第二处理网络对所述调制语音特征进行特征提取处理,得到幅度谱掩码;将所述样本语音幅度谱与所述幅度谱掩码进行矩阵的元素相乘,得到降噪语音幅度谱;所述根据提取的注册用户的目标语音与注册用户的纯净语音之间的特征差异迭代优化所述说话人提取模型的模型参数,包括:根据预设损失函数,计算所述降噪语音幅度谱与所述纯净语音幅度谱之间的特征差异;根据所述特征差异迭代优化所述说话人提取模型的模型参数。4.根据权利要求1所述的方法,其特征在于,所述获取所述目标用户的注册语音特征,包括:获取所述目标用户的注册语音;将所述目标用户的注册语音输入特征提取模型,对所述目标用户的注册语音进行特征提取,得到所述目标用户的注册语音特征。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:收集注册用户的注册语音样本;将所述注册语音样本输入初始的特征提取模型,提取得到所述注册语音样本的特征向
量;对所述注册用户的纯净语音进行特征提取,得到纯净语音的特征向量;根据所述注册语音样本的特征向量与所述纯净语音的特征向量之间的特征差异迭代优化所述特征提取模型的模型参数,达到预设收敛条件得到训练完成的特征提取模型。6.根据权利要求5所述的方法,其特征在于,所述将所述注册语音样本输入初始的特征提取模型,提取得到所述注册语音样本的特征向量,包括:对所述注册语音样本进行话音激活检测,过滤所述注册语音样本中的非语音段,得到过滤后语音;将所述过滤后语音按预设帧长进行切分,得到所述过滤后语音对应的语音帧序列;对所述语音帧序列中的各语音帧进行短时傅里叶变换,得到每个语音帧对应的语音帧幅度谱;将所述语音帧幅度谱输入特征提取模型的特征提取网络,输出每个语音帧幅度谱的特征向量;将所述语音帧序列中各语音帧对应语音帧幅度谱的特征向量进行求平均计算,得到所述注册语音样本的特征向量。7.根据权利要求6所述的方法,其特征在于,所述注册用户的个数大于1,所述对所述注册语音样本进行话音激活检测,过滤所述注册语音样本中的非语音段,得到过滤后语音,包括:对每个所述注册用户的注册语音样本进行话音激活检测,得到每个注册语音样本的过滤后语音;所述将所述过滤后语音按预设帧长进行切分,得到所述过滤后语音对应的语音帧序列,包括:将每个注册语音样本的过滤后语音按预设帧长进行切分,得到每个注册语音样本对应的语音帧序列;所述对所述语音帧序列中的各语音帧进行短时傅里叶变换,得到每个语音帧对应的语音帧幅度谱,包括:对每个注册语音样本的语音帧序列中的各语音帧进行短时傅里叶变换,得到每个注册语音样本的语音帧序列中各语音帧对应的语音帧幅度谱;所述将所述语音帧幅度谱输入特征提取模型的特征提取网络,输出每个语音帧幅度谱的特征向量,包括:将每个注册语音样本的语音帧序列中各语音帧对应的语音帧幅度谱输入特征提取模型的特征提取网络,输出每个语音帧幅度谱的特征向量;所述将所述语音帧序列中各语音帧对应语音帧幅度谱的特征向量进行求平均计算,得到所述注册语音样本的特征向量,包括:将每个注册语音样本的语音帧序列中各语音帧对应的语音帧幅度谱...

【专利技术属性】
技术研发人员:崔国辉
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1