【技术实现步骤摘要】
一种解决关键词识别样本不均衡的方法
本专利技术涉及连续语音关键词识别领域,具体涉及一种解决关键词识别样本不均衡的方法。
技术介绍
在近几年最重要的技术进步中,语音识别技术无疑将排列在首位,它在实际的应用中也有着很大的市场。关键词识别一般也称为关键词确认或词确认,近年来已成为语音识别研究中颇受重视中的一个重要领域。通俗的讲就是从说话人连续的语音中辨认出一些敏感或者给定的关键词.由于各个语言的词汇量特别的大,想设计出覆盖所有词汇量地语音识别系统几乎是不可能的,而从语音信号中识别出少量的关键词对一些实际应用要求又是很重要的,并有很大应用前景和市场。但不同的是前者是从连续的语音流中识别并转换成一系列连续的文本,而这些文本就是说话人所说的内容。而关键词识别更加灵活,其既精确,计算量又小,并具有较大的弹性。关键词识别不要求把整个语音流全部识别出来,说话人可以随便谈话,关键词识别只要检出某些关键词而不用考虑其他词,且一般与说话人无关。当说话人在不合作或噪声的环境下工作,关键词识别系统也能得出很好的效果,而连续语音识别则对说话人的态度有一定的要求,因此关键词识别系统在监听方面有着 ...
【技术保护点】
1.一种解决关键词识别样本不均衡的方法,其特征在于,包括改变含有关键词的语音基频并保持语音语义不变,利用语音转换技术对含关键词的语音进行转换,获得同一语义样本的不同性别、不同年龄说话人的多个语音样本;根据多个语音样本对神经网络模型中的损失函数做自适应加权处理:使用重量交叉熵时,在每轮训练中分别计算关键词语料和非关键词语料的准确率,根据两者之差自动调节第k轮的加权系数Wk;自适应帧数:在使用DNN作为训练模型时根据关键词长度对不同关键词使用不同的检出帧数Li。
【技术特征摘要】
1.一种解决关键词识别样本不均衡的方法,其特征在于,包括改变含有关键词的语音基频并保持语音语义不变,利用语音转换技术对含关键词的语音进行转换,获得同一语义样本的不同性别、不同年龄说话人的多个语音样本;根据多个语音样本对神经网络模型中的损失函数做自适应加权处理:使用重量交叉熵时,在每轮训练中分别计算关键词语料和非关键词语料的准确率,根据两者之差自动调节第k轮的加权系数Wk;自适应帧数:在使用DNN作为训练模型时根据关键词长度对不同关键词使用不同的检出帧数Li。2.根据权利要求1所述的方法,其特征在于,音频基频的改变是利用soundtouch库对不同基频的语音Hm做语音转换,正常人声的平均基频范围为(136,332),将正常人声的平均基频范围平均分成N段,计算当前音频平均基频所在分段,利用语...
【专利技术属性】
技术研发人员:贺前华,汪星,严海康,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。