语音唤醒方法、装置、存储介质及智能设备制造方法及图纸

技术编号:24012947 阅读:45 留言:0更新日期:2020-05-02 02:22
本发明专利技术揭示了一种语音唤醒方法、装置、存储介质及智能设备;方法包括:通过Encoder将输入的语音序列进行编码计算,输出与语音序列同行列数的第一矩阵;通过前馈神经网络对第一矩阵进行线性再表达,输出第二矩阵,第二矩阵的行列数与第一矩阵行列数相同;通过soft‑attention对第二矩阵进行维度压缩得到注意力向量;根据注意力向量识别出多个类别的概率;根据类别的概率结果,判断是否执行唤醒功能。通过Encoder、前馈神经网络、soft‑attention等结构,借鉴Transformer的内部结构,最终生成包含局部和全局信息的注意力向量,得到类别的概率,根据类别的概率结果,判断是否执行唤醒功能,参数量更少,实现端到端的语音唤醒判断,使语音唤醒方法的响应速度更快,适用于语音唤醒中。

Voice wake-up method, device, storage medium and intelligent device

【技术实现步骤摘要】
语音唤醒方法、装置、存储介质及智能设备
本专利技术涉及到语音唤醒领域,特别是涉及到一种语音唤醒方法、装置、存储介质及智能设备。
技术介绍
现有翻译、语音识别等领域中,当前构建语音识别模型可选择的基础网络结构包括CNN、RNN/LSTM以及多头注意力机制等,各家厂商都会选择合适自己应用需求的网络去构建语音识别模型;基于多头注意力机制的transformer所能达到的效果要比基于cnn/lstm结合CTC(ConnectionistTemporalClassification)结构进行预测的模型效果好,说明多头注意力机制在特征提取方面有着特有的优势,但是相比之下transformer结构更加的复杂,模型也比较大,不适合语音唤醒的场景中。
技术实现思路
本专利技术的主要目的为提供一种语音唤醒方法、装置、存储介质及智能设备,可以解决现有Transformer结构不适合应用于语音唤醒的问题。本专利技术提出一种语音唤醒方法,包括如下步骤:通过Encoder将输入的语音序列进行编码计算,输出与语音序列同行列数的第一矩阵;<本文档来自技高网...

【技术保护点】
1.一种语音唤醒方法,其特征在于,包括如下步骤:/n通过Encoder将输入的语音序列进行编码计算,输出与语音序列同行列数的第一矩阵;/n通过前馈神经网络对第一矩阵进行线性再表达,输出第二矩阵,所述第二矩阵的行列数与第一矩阵行列数相同;/n通过soft-attention对第二矩阵进行维度压缩得到注意力向量;/n根据注意力向量识别出多个类别的概率;/n根据类别的概率结果,判断是否执行唤醒功能。/n

【技术特征摘要】
1.一种语音唤醒方法,其特征在于,包括如下步骤:
通过Encoder将输入的语音序列进行编码计算,输出与语音序列同行列数的第一矩阵;
通过前馈神经网络对第一矩阵进行线性再表达,输出第二矩阵,所述第二矩阵的行列数与第一矩阵行列数相同;
通过soft-attention对第二矩阵进行维度压缩得到注意力向量;
根据注意力向量识别出多个类别的概率;
根据类别的概率结果,判断是否执行唤醒功能。


2.根据权利要求1所述的语音唤醒方法,其特征在于,所述根据类别的概率结果,判断是否执行唤醒功能的步骤包括:
提取概率最大的类别作为识别的类别;
判断所述识别的类别是否为目标类别:
若是,则判断所述识别的类别的概率是否达到阈值;
若达到,则执行类别对应的唤醒功能;
若没达到,则忽略识别结果,不执行唤醒功能。


3.根据权利要求1所述的语音唤醒方法,其特征在于,所述通过Encoder将输入的语音序列进行编码计算,输出与语音序列同行列数的第一矩阵的步骤,包括:
通过N层叠加的Encoder将输入的语音序列进行编码计算,输出与语音序列同行列数的第一矩阵,所述N为正整数。


4.根据权利要求1所述的语音唤醒方法,其特征在于,所述根据注意力向量识别出多个类别的概率的步骤,包括:
将所述注意力向量输入到全连接层进行分类,得到多个类别;
根据softmax函数计算得到属于每个类别的概率。


5.根据权利要求1所述的语音...

【专利技术属性】
技术研发人员:徐泓洋王广新杨汉丹
申请(专利权)人:深圳市友杰智新科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1