【技术实现步骤摘要】
语音唤醒方法、装置、存储介质及智能设备
本专利技术涉及到语音唤醒领域,特别是涉及到一种语音唤醒方法、装置、存储介质及智能设备。
技术介绍
现有翻译、语音识别等领域中,当前构建语音识别模型可选择的基础网络结构包括CNN、RNN/LSTM以及多头注意力机制等,各家厂商都会选择合适自己应用需求的网络去构建语音识别模型;基于多头注意力机制的transformer所能达到的效果要比基于cnn/lstm结合CTC(ConnectionistTemporalClassification)结构进行预测的模型效果好,说明多头注意力机制在特征提取方面有着特有的优势,但是相比之下transformer结构更加的复杂,模型也比较大,不适合语音唤醒的场景中。
技术实现思路
本专利技术的主要目的为提供一种语音唤醒方法、装置、存储介质及智能设备,可以解决现有Transformer结构不适合应用于语音唤醒的问题。本专利技术提出一种语音唤醒方法,包括如下步骤:通过Encoder将输入的语音序列进行编码计算,输出与语音序列同 ...
【技术保护点】
1.一种语音唤醒方法,其特征在于,包括如下步骤:/n通过Encoder将输入的语音序列进行编码计算,输出与语音序列同行列数的第一矩阵;/n通过前馈神经网络对第一矩阵进行线性再表达,输出第二矩阵,所述第二矩阵的行列数与第一矩阵行列数相同;/n通过soft-attention对第二矩阵进行维度压缩得到注意力向量;/n根据注意力向量识别出多个类别的概率;/n根据类别的概率结果,判断是否执行唤醒功能。/n
【技术特征摘要】
1.一种语音唤醒方法,其特征在于,包括如下步骤:
通过Encoder将输入的语音序列进行编码计算,输出与语音序列同行列数的第一矩阵;
通过前馈神经网络对第一矩阵进行线性再表达,输出第二矩阵,所述第二矩阵的行列数与第一矩阵行列数相同;
通过soft-attention对第二矩阵进行维度压缩得到注意力向量;
根据注意力向量识别出多个类别的概率;
根据类别的概率结果,判断是否执行唤醒功能。
2.根据权利要求1所述的语音唤醒方法,其特征在于,所述根据类别的概率结果,判断是否执行唤醒功能的步骤包括:
提取概率最大的类别作为识别的类别;
判断所述识别的类别是否为目标类别:
若是,则判断所述识别的类别的概率是否达到阈值;
若达到,则执行类别对应的唤醒功能;
若没达到,则忽略识别结果,不执行唤醒功能。
3.根据权利要求1所述的语音唤醒方法,其特征在于,所述通过Encoder将输入的语音序列进行编码计算,输出与语音序列同行列数的第一矩阵的步骤,包括:
通过N层叠加的Encoder将输入的语音序列进行编码计算,输出与语音序列同行列数的第一矩阵,所述N为正整数。
4.根据权利要求1所述的语音唤醒方法,其特征在于,所述根据注意力向量识别出多个类别的概率的步骤,包括:
将所述注意力向量输入到全连接层进行分类,得到多个类别;
根据softmax函数计算得到属于每个类别的概率。
5.根据权利要求1所述的语音...
【专利技术属性】
技术研发人员:徐泓洋,王广新,杨汉丹,
申请(专利权)人:深圳市友杰智新科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。