一种可支持自定唤醒词的关键词检测方法技术

技术编号:26344799 阅读:64 留言:0更新日期:2020-11-13 21:02
本发明专利技术公开了一种可支持自定唤醒词的关键词检测方法,属于基于神经网络的关键词检测技术领域。本发明专利技术通过移除神经网络的分类层,直接比较神经网络输出结果的相似度,解除了分类数目固定所带来的无法对类外唤醒词进行分类的技术问题;通过细粒度分类训练手段,提高了神经网络对短词分类的泛化能力,从而得到一个初始化较好的网络模型用于自定唤醒词的微调训练;通过数据增强并辅以部分网络层的增量训练,使神经网络在小样本的情况下经过微调训练也能达到一个较高的准确率。本发明专利技术的支持多个唤醒词和自定唤醒词的关键词检方法可用于嵌入设备,实现根据用户的个性和需求随时更改唤醒词,提高用户的体验和减去个性定制所引入的成本。

【技术实现步骤摘要】
一种可支持自定唤醒词的关键词检测方法
本专利技术属于基于神经网络的关键词检测
,具体涉及一种可支持自定唤醒词的关键词检测方案。
技术介绍
关键词检测技术是指设备从连续不断的语音流中检测特定的关键词,当检测到特定的关键词时,便会发出一个信号,表示该定关键词被检测到,而该关键词被称为唤醒词。其中,基于神经网络的关键词检测方式是一种经典的关键词检测领域的传统方法。神经网络是一种抽象于人类大脑神经工作机理,进行数据分类识别的机器学习算法。神经网络将人脑神经元之间的联系抽象为矩阵运算,抽象层次较高。神经网络在结构上可以划分为输入层、隐藏层、输出层,输出层也可称为分类层,每一层均包含一个权值矩阵,有时还包含一个偏差向量。神经网络的输入为一个矩阵或者一个向量,需要依次与神经网络各层的权值矩阵进行一系列的矩阵计算,最终由神经网络的分类层输出各个类别的预测概率,而根据预测概率的大小即可输出最终的分类结果,这一过程称为神经网络的前向计算。为了得到准确的分类结果,神经网络需要大量带有标签的数据用于训练,衡量训练效果的指标为损失函数,在训练过程中,损失函本文档来自技高网...

【技术保护点】
1.可支持自定唤醒词的关键词检测方法,其特征在于,包括下列步骤:/n步骤1:预训练处理:/n设置预训练处理的训练语料,所述训练语料包括:词的样本和噪声语料的样本;/n对训练预料的每个样本进行预处理,得到每个样本的特征矩阵;/n构建基于神经网络的语音关键词检测网络模型,所述语音关键词检测网络模型包括依次连接的输入层、隐藏层和分类层;其中,分类层用于输出输入的特征矩阵为指定类别的预测概率;/n以训练预料的每个样本的特征矩阵为语音关键词检测网络模型的输入层的输入数据,对语音关键词检测网络模型进行分类训练,得到预训练好的语音关键词检测网络模型;/n步骤2:微调训练处理:/n移除预训练好的语音关键词检测...

【技术特征摘要】
1.可支持自定唤醒词的关键词检测方法,其特征在于,包括下列步骤:
步骤1:预训练处理:
设置预训练处理的训练语料,所述训练语料包括:词的样本和噪声语料的样本;
对训练预料的每个样本进行预处理,得到每个样本的特征矩阵;
构建基于神经网络的语音关键词检测网络模型,所述语音关键词检测网络模型包括依次连接的输入层、隐藏层和分类层;其中,分类层用于输出输入的特征矩阵为指定类别的预测概率;
以训练预料的每个样本的特征矩阵为语音关键词检测网络模型的输入层的输入数据,对语音关键词检测网络模型进行分类训练,得到预训练好的语音关键词检测网络模型;
步骤2:微调训练处理:
移除预训练好的语音关键词检测网络模型的分类层,作为支持自定唤醒词的关键词检测模型;
用户对其自定义唤醒词进行样本注册;
对用户注册的自定义唤醒词样本进行数据增强处理,将增强处理前后的自定义唤醒词样本一并作为微调训练处理的微调训练样本;
对微调训练样本进行预处理,得到微调训练样本的特征矩阵;
基于微调训练样本的特征矩阵,采用端对端的损失函数对支持自定唤醒词的关键词检测模型的指定网络层进行增量训练,并将训练好的支持自定唤醒词的关键词检测模型作为支持自定唤醒词的关键词检测器;
步骤3:检测处理:
将增强处理前的自定义唤醒词样本的特征矩阵输入支持自定唤醒词的关键词检测器进行前向计算,并将前向计算的输出结果作为每个自定唤醒词的模板;
对待检测语音进行预处理,得到待检测的特征矩阵,并将待检测的特征矩阵输入支持自定唤醒词的关键词检测器进行前向计算,得到待检测的输出结果;
计算待检测的输出结果与每个自定唤醒词的模板之间的相似度,若最大相似度大于或等于相似度阈值,则基于最大相似度对应的自定唤醒词得到待检测语音的关键词检测结果。


2.如权利要求1所述的关键词检测方法,其特征在于,步骤1中,将分类层对应的指定类别设置为:K个唤醒词类、N-K个非唤醒词类和1个静音类;其中,K表示从训练语料包括的所有词中指定的唤醒词数量,N表示训练语料包括的词数量。


3.如权利要求1所述的关键词检测方法,其特征在于,步骤2中,数据增强处理包括:对语音音量增益3dB,衰减3dB,以及对语音语速变速至原音频的75%和变速至原音频的125%四种处理方式。


4.如权利要求1所述的关键词检测方法,其特征在于,步骤1中,语音关键词检测网络模型的隐藏层包括依次连接的卷积块Conv1、...

【专利技术属性】
技术研发人员:周军刘力刘青松
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1