语音唤醒方法、装置、设备及存储介质制造方法及图纸

技术编号:24358010 阅读:33 留言:0更新日期:2020-06-03 02:59
本申请实施例公开了一种语音唤醒方法、装置、设备及存储介质,属于人机交互领域。所述方法包括:对采集的语音数据进行特征提取,得到语音特征;通过U型卷积神经网络模型对语音特征进行特征提取和特征融合,得到第一输出特征;通过注意力模型对第一输出特征的各个通道的特征进行注意力计算,得到注意力权重向量,对注意力权重向量进行尺度化处理,根据处理后的注意力权重向量对第一输出特征进行加权处理,得到第二输出特征;对第二输出特征进行概率转换,得到唤醒词概率;基于唤醒词概率,对电子设备进行唤醒。本申请由于对提取的特征进行了充分的特征融合和注意力计算,因此基于预测的唤醒词概率更加准确,泛化能力更强,减小了误唤醒概率。

Voice wake-up method, device, equipment and storage medium

【技术实现步骤摘要】
语音唤醒方法、装置、设备及存储介质
本申请实施例涉及人机交互领域,特别涉及一种语音唤醒方法、装置、设备及存储介质。
技术介绍
在人机交互领域,为了便于用户对设备进行控制,以及提高人机交互乐趣,对于具有语音功能的设备,用户可以通过语音唤醒技术来对其进行唤醒。语音唤醒是指在设备处于休眠状态时,通过特定的唤醒词唤醒设备,使设备从休眠状态切换为工作状态,开始为用户进行服务。相关技术中,设备可以在休眠状态下不断获取外界的语音数据,然后对语音数据进行预处理,对处理后的语音数据进行特征提取,得到语音特征,再将语音特征作为高斯混合模型的输入,通过高斯混合模型来预测唤醒词概率,根据唤醒词概率确定是否对设备进行唤醒。其中,唤醒词概率用于指示语音数据中包含预设唤醒词的概率。但是,由于高斯混合模型对提取的语音特征的处理能力不足,泛化能力较差,而且高斯混合模型主要是对孤立的唤醒词进行识别,对于连续语音中包含唤醒词的情况识别效果不是很好,这将导致对唤醒词概率的预测准确率较低,进而导致容易出现误唤醒的情况。专利技术内容本申请实本文档来自技高网...

【技术保护点】
1.一种语音唤醒方法,其特征在于,所述方法包括:/n对采集的语音数据进行特征提取,得到语音特征;/n将所述语音特征作为U型卷积神经网络模型的输入,通过所述U型卷积神经网络模型对所述语音特征进行特征提取和特征融合,得到第一输出特征;/n将所述第一输出特征作为注意力模型的输入,通过所述注意力模型对所述第一输出特征的各个通道的特征进行注意力计算,得到注意力权重向量,对所述注意力权重向量进行尺度化处理,根据处理后的注意力权重向量和所述第一输出特征,确定第二输出特征;/n对所述第二输出特征进行概率转换,得到第一唤醒词概率,所述第一唤醒词概率用于指示所述语音数据中包括预设唤醒词的概率;/n基于所述第一唤醒...

【技术特征摘要】
1.一种语音唤醒方法,其特征在于,所述方法包括:
对采集的语音数据进行特征提取,得到语音特征;
将所述语音特征作为U型卷积神经网络模型的输入,通过所述U型卷积神经网络模型对所述语音特征进行特征提取和特征融合,得到第一输出特征;
将所述第一输出特征作为注意力模型的输入,通过所述注意力模型对所述第一输出特征的各个通道的特征进行注意力计算,得到注意力权重向量,对所述注意力权重向量进行尺度化处理,根据处理后的注意力权重向量和所述第一输出特征,确定第二输出特征;
对所述第二输出特征进行概率转换,得到第一唤醒词概率,所述第一唤醒词概率用于指示所述语音数据中包括预设唤醒词的概率;
基于所述第一唤醒词概率,对电子设备进行唤醒。


2.根据权利要求1所述的方法,其特征在于,所述U型卷积神经网络包括N个网络层组,每个网络层组包括卷积神经网络层、批归一化层和线性激活层,且所述N个网络层组中指定浅层网络层的输出特征流向指定深层网络层,以对所述N个网络层中的浅层网络与深层网络进行特征融合。


3.根据权利要求1所述的方法,其特征在于,所述注意力模型包括池化层、卷积层、第一全连接层和第一非线性激活层;
所述通过所述注意力模型对所述第一输出特征的各个通道的特征进行注意力计算,得到注意力权重向量,包括:
通过所述池化层对所述第一输出特征的各个通道的特征分别进行池化操作,得到所述池化层的输出特征;
将所述池化层的输出特征作为所述卷积层的输入,通过所述卷积层对所述池化层的输出特征进行卷积处理,得到所述卷积层的输出特征;
将所述卷积层的输出特征作为所述第一全连接层的输入,通过所述第一全连接层对所述卷积层的输出特征进行处理,得到所述第一全连接层的输出特征;
将所述第一全连接层的输出特征作为所述非线性激活层的输入,通过所述非线性激活层对所述第一全连接层的输出特征进行非线性处理,得到所述注意力权重向量。


4.根据权利要求3所述的方法,其特征在于,所述注意力模型还包括注意力尺度化层,所述注意力尺度化层的输入包括所述第一输出特征和所述注意力权重向量;
所述根据处理后的注意力权重向量和所述第一输出特征,确定第二输出特征,包括:
通过所述注意力尺度化层,对所述注意力权重向量进行尺度化处理,得到第一尺度化权重向量;
通过所述注意力尺度化层,对所述第一尺度化权重向量进行归一化处理,得到第二尺度化权重向量;
通过所述注意力尺度化层,根据所述第二尺度化权重向量对所述第一输出特征进行加权处理,得到所述第三输出特征;
根据所述第三输出特征,确定所述第二输出特征。


5.根据权利要求4所述的方法,其特征在于,所述注意力模型的输入还包括所述语音特征;
所述根据所述第三输出特征,确定所述第二输出特征,包括:
将所述语音特征与所述第三输出特征进行合并,得到所述第二输出特征。


6.根据权利要求1所述的方法,其特征在于,所述对所述第二输出特征进行概率转换,得到第一唤醒词概率,包括:
对所述第二输出特征进行全局池化操作,得到全局池化特征;
对所述全局池化特征进行全局归一化处理,得到所述第一唤醒词概率。


7.根据权利要求1-6所述的方法,其特征在于,所述基于所述第一唤醒词概率,对电子设备进行唤醒,包括:
确定M个历史唤醒词概率,所述M个历史唤醒词概率是对历史语音数据进行预测得到;
对所述M个历史唤醒词概率和所述第一唤醒词概率进行融合处理,得到第二唤醒词概率;
基于所述第二唤醒词概率,对所述电子设备进行唤醒。


8.根据权利要求7所述的方法,其特征在于,所述对所述M个历史唤醒词概率和所述第一唤醒词概率进行融合处理,得到第二唤醒词概率,包括:
将所述M个历史唤醒词概率和所述第一唤醒词概率作为历史窗口记忆模型的输入,通过所述历史窗口记忆模型,对所述M个历史唤醒词概率进行特征提取,将提取的特征与所述第一唤醒词概率进行逐点相乘,得到融合特征;
将所述第一唤醒词概率作为特征提取模型的输入,通过所述特征提取模型,对所述第一唤醒词概率进行特征提取,得到第一概率特征;
根据所述第一概率特征和所述融合特征,确定所述第二唤醒词概率。


9.根据权利要求8所述的方法,其特征在于,所述历史窗口记忆模型包括双向循环神经网络RNN层、第一逐点相乘层、归一化处理层和第二逐点相乘层,所述双向RNN层包括第一RNN层和第二RNN层;
所述将所述M个历史唤醒词概率和所述第一唤醒词概率作为历史窗口记忆模型的输入,通过所述历史窗口记忆模型,对所述M个历史唤醒词概率进行特征提取,将提取的特征与所述第一唤醒词概率进行逐点相乘,得到融合特征,包括:
将所述M个历史唤醒词概率作为所述双向RNN层的输入,通过所述第一RNN层和所述第二RNN层分别对所述M个历史唤醒词概率进行特征提取,得到第二概率特征和第三概率特征;
将所述第一唤醒词概率和所述第二概率特征作为第一逐点相乘层的输入,通过所述第一逐点相乘层对所述第一唤醒词概率和所述第二概率特征进行逐点相乘,得到所述第一逐...

【专利技术属性】
技术研发人员:宋天龙
申请(专利权)人:OPPO广东移动通信有限公司上海瑾盛通信科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1