【技术实现步骤摘要】
确定语音增强算法的性能参数的方法、装置、介质及设备
本公开涉及语音处理
,尤其涉及一种确定语音增强算法的性能参数的方法、装置、介质及设备。
技术介绍
随着智能设备的智能化程度的不断提高,智能设备接受语音控制的准确性和稳定性也不断提高。智能设备在接收语音控制数据后,为了提高识别准确度,会对此语音控制数据进行增强处理。随着用户需求的不断增加,智能设备需要具有评估增强处理算法的性能的能力。现有的有参考客观质量评价指标包括:语音质量感知评价(PESQ,PerceptualEvaluationofSpeechQuality),短时客观可理解程度(STOI,Short-TimeObjectiveIntelligibilityMeasure)。其中PESQ是基于主客观拟合,更偏向于人耳听觉感知;而STOI是基于谱距离的,更注重于语音的可懂度。上述评估方式都没有针对唤醒来评估客观质量,所以需要一种更智能并且准确度更高的用于唤醒的语音增强算法的方案。
技术实现思路
为克服相关技术中存在的问题, ...
【技术保护点】
1.一种获取语音增强算法的性能参数的方法,其特征在于,包括:/n获取N个增强带噪语音数据的第一验证集合中每个语音数据的识别结果值;其中,N个所述第一验证集合是对带噪语音数据集合采用N种增强算法进行增强处理后的数据集合,所述识别结果值包括:识别结果值为用于表示语音数据的值或用于表示非语音数据的值;所述N为大于1的整数;/n根据N个所述第一验证集合中的T个第二验证集合,获取T个第三验证集合;根据N-T个第四验证集合获取N-T个第一训练集合;T是小于N的正整数;所述第一验证集合由所述第二验证集合和所述第四验证集合组成;所述第二验证集合、第三验证集合、第四验证集合中每个集合包含的语 ...
【技术特征摘要】
1.一种获取语音增强算法的性能参数的方法,其特征在于,包括:
获取N个增强带噪语音数据的第一验证集合中每个语音数据的识别结果值;其中,N个所述第一验证集合是对带噪语音数据集合采用N种增强算法进行增强处理后的数据集合,所述识别结果值包括:识别结果值为用于表示语音数据的值或用于表示非语音数据的值;所述N为大于1的整数;
根据N个所述第一验证集合中的T个第二验证集合,获取T个第三验证集合;根据N-T个第四验证集合获取N-T个第一训练集合;T是小于N的正整数;所述第一验证集合由所述第二验证集合和所述第四验证集合组成;所述第二验证集合、第三验证集合、第四验证集合中每个集合包含的语音数据对应同一增强算法;
通过将N-T个所述第一训练集合中每个增强带噪语音数据的语音特征和相应的无噪语音数据的语音特征组合成组合式语音特征,得到N-T个组合式语音特征集合;其中,每个组合式语音特征的目标值为相应的增强带噪语音数据对应的识别结果值,带噪语音数据是在无噪语音数据的基础上增加噪声获得的语音数据;
根据N-T所述组合式语音特征集合和相应的所述目标值,训练有参考的质量评价网络模型直至训练成功;
根据所述有参考的质量评价网络模型和所述T个第三验证集合获取语音增强算法的性能参数。
2.如权利要求1所述的方法,其特征在于,
根据所述有参考的质量评价网络模型和所述T个第三验证集合获取语音增强算法的性能参数包括:将所述第三验证集合中每个语音数据输入所述有参考的质量评价网络模型获得输出结果,统计每个第三验证集合的输出结果中与对应的识别结果值相同的输出结果个数,将此输出结果个数与第三验证集合包含的语音数据的个数的比值作为所述性能参数。
3.如权利要求1所述的方法,其特征在于,
在获取N个增强带噪语音数据的第一验证集合中每个语音数据的识别结果值之前,所述方法还包括:
通过采用N种增强算法对带噪语音数据集合进行增强处理,获得N个增强带噪语音的目标数据集合;
通过分别将N个所述目标数据集合分为两子集合,获得N个增强带噪语音数据的第二训练集合和N个所述第一验证集合;
通过将每个所述第二训练集合分别与噪声数据集合构成一个唤醒模型集合,获得N个唤醒模型训练集合;
根据N个所述唤醒模型训练集合和对应的唤醒结果值分别训练N个唤醒模型;其中,所述第二训练集合中每个增强带噪语音数据与唤醒成功结果值相对应,所述噪声数据集合中每个噪声数据与唤醒失败结果值相对应;
所述获取N个增强带噪语音数据的第一验证集合中每个语音数据的识别结果值,包括:
将每个第一验证集合的语音数据输入至相同增强算法对应的唤醒模型,得到输出结果,将输出结果作为此语音数据的识别结果值。
4.如权利要求1所述的方法,其特征在于,
所述根据N个所述第一验证集合中的T个第二验证集合,获取T个第三验证集合,包括:从N个所述第一验证集合中选择T个第一验证集合作为T个第二验证集合,分别去除每个所述第二验证集合中的对增强算法不敏感的增强带噪语音数据,得到T个敏感数据集合;将T个所述敏感数据集合确定为T个所述第三验证集合;
所述根据N-T个第四验证集合获取N-T个第一训练集合包括:分别去除每个所述第四验证集合中的对增强算法不敏感的增强带噪语音数据,得到N-T个敏感数据集合;将N-T个所述敏感数据集合确定为N-T个所述第一训练集合;
其中,对增强算法不敏感的增强带噪语音数据对应的N个增强带噪语音数据的识别结果值均为唤醒成功结果值或均为唤醒失败结果值。
5.如权利要求4所述的方法,其特征在于,
所述获取N-T个第一训练集合后,还包括:确定每个第一训练集合中正样本的数量和负样本的数量,所述正样本是指识别结果值为唤醒成功结果值的语音数据,所述负样本是指识别结果值为唤醒失败结果值的语音数据,对每个第一训练集合进行更新;
所述对每个第一训练集合进行更新包括以下方式中一种:
从所述负样本中选择多个负样本,在所述第一训练集合中增加选择出的多个负样本,直至正样本的数量和负样本的数量的相同;
从所述负样本中选择多个负样本,对选择出的多个负样本进行噪声修改处理,获得噪声修改处理后的负样本,在所述第一训练集合中增加噪声修改处理后的负样本,直至正样本的数量和负样本的数量的相同。
6.如权利要求1所述的方法,其特征在于,通过将N-T个所述第一训练集合中每个增强带噪语音数据的语音特征和相应的无噪语音数据的语音特征组合成组合式语音特征包括:
将N-T个所述第一训练集合中每个增强带噪语音数据的二维语音特征和相应的无噪语音数据的二维语音特征组合为一维语音特征;
将N-T个第一训练集合中每个增强带噪语音数据的二维语音特征和相应的无噪语音数据的二维语音特征组合为三维语音特征。
7.如权利要求3所述的方法,其特征在于,
所述唤醒模型和所述有参考的质量评价网络模型是深度学习的网络模型。
8.一种获取语音增强算法的性能参数的装置,其特征在于,包括:
第一获取模块,用于获取N个增强带噪语音数据的第一验证集合中每个语音数据的识别结果值;其中,N个所述第一验证集合是对带噪语音数据集合采用N种增强算法进行增强处理后的数据集合,所述识别结果值包括:识别结果值为用于表示语音数据的值或用于表示非语音数据的值;所述N为大于1的整数;
第二获取模块,用于根据N个所述第一验证集合中的T个第二验证集合,获取T个第三验证集合;根据N-T个第四验证集合获取N-T个第一训练集合;T是小于N的正整数;所述第一验证集合由所述第二验证集合和所述第四验证集合组成;所述第二验证集合、第三验证集合、第四验证集合中每个集合包含的语音数据对应同一增强算法;
第一组合模块,用于通过将N-T个所述第一训练集合中每个增强带噪语音数据的语音特征和相应的无噪语音数据的语音特征组合成组合式语音特征,得到N-T个组合式语音特征集合;其中,每个组合式语音特征的目标值为相应的增强带噪语音数据对应的识别结果值,带噪语音数据是在无噪语音数据的基础上增加噪声获得的语音数据;
第一训练模块,用于根据N-T所述组合式语音特征集合和相应的所述目标值,训练有参考的质量评价网络模型直至训练成功;
计算模块,根据所述有参考的质量评价网络模型和所述T个第三验证集合获取语音增强算法的性能参数。
9.如权利要求8所述的装置,其特征在于,
所述计算模块包括运算模块和统计模块;
所述运算模块,...
【专利技术属性】
技术研发人员:杨玉红,冯佳倩,相非,李世聪,蔡林君,张会玉,苏宇辉,艾浩军,涂卫平,
申请(专利权)人:北京小米智能科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。