【技术实现步骤摘要】
一种语音唤醒方法及装置
本专利技术涉及语音识别
,尤其涉及一种语音唤醒方法及装置。
技术介绍
目前,语音唤醒的应用场景越来越广泛,例如机器人、手机、可穿戴设备、智能家居、车载等。几乎很多带有语音功能的设备都会需要语音唤醒技术作为人和机器互动的一个开始或入口。不同的产品会有不同的唤醒词,用户可以通过说出特定的唤醒词来激活设备然后进行下一步交互操作,现有效果较好的唤醒设备一般存在模型体积大,计算复杂度高,更换唤醒词不容易等问题。
技术实现思路
本专利技术的主要目的在于提出一种语音唤醒方法及装置,通过增量式训练神经网络模型,降低了对正样本数据量的需求,降低了计算复杂度,减小了模型体积;并能有效过滤误触发数据,提高了语音唤醒效率。为实现上述目的,本专利技术提供的一种语音唤醒方法,包括:采集声音数据,提取所述声音数据中的语音;提取每一帧所述语音的语音特征;将所述语音特征送入神经网络模型进行识别,所述神经网络模型采用增量式方法进行训练;根据识别结果对所述语音进行过滤。可选地,所述采集声音数据,提取所述声音数据中的语音包括:通过麦克风采集声音数据,并对所述声音数据进行缓存;将 ...
【技术保护点】
1.一种语音唤醒方法,其特征在于,包括:采集声音数据,提取所述声音数据中的语音;提取每一帧所述语音的语音特征;将所述语音特征送入神经网络模型进行识别,所述神经网络模型采用增量式方法进行训练;根据识别结果对所述语音进行过滤。
【技术特征摘要】
1.一种语音唤醒方法,其特征在于,包括:采集声音数据,提取所述声音数据中的语音;提取每一帧所述语音的语音特征;将所述语音特征送入神经网络模型进行识别,所述神经网络模型采用增量式方法进行训练;根据识别结果对所述语音进行过滤。2.根据权利要求1所述的一种语音唤醒方法,其特征在于,所述采集声音数据,提取所述声音数据中的语音包括:通过麦克风采集声音数据,并对所述声音数据进行缓存;将缓存中的声音数据进行分帧;通过语音活动检测模块对每一帧声音数据进行识别,若该帧声音数据为语音,则保留在所述缓存中,若该帧声音数据为非语音,则从所述缓存中去除该帧声音数据。3.根据权利要求1所述的一种语音唤醒方法,其特征在于,所述语音特征为梅尔频率倒谱系数MFCC;所述神经网络模型为循环神经网络RNN。4.根据权利要求1所述的一种语音唤醒方法,其特征在于,所述神经网络模型采用增量式方法进行训练具体为:通过负样本和正样本初始化训练模型,所述负样本的数量大于所述正样本的数量;通过初始化后的训练模型进行实时测试,并保存误触发数据;将所述误触发数据融合到负样本数据集中进行再次训练,并重复以上过程。5.根据权利要求4所述的一种语音唤醒方法,其特征在于,所述根据识别结果对所述语音进行过滤具体为:通过神经网络模型计算所述语音触发的概率数据;根据预设的概率门限、预设的最少触发次数和最小触发间隔对所述语音进行过滤。6.一种语音唤醒装置,其特...
【专利技术属性】
技术研发人员:王维,杨汉丹,王广新,
申请(专利权)人:深圳市友杰智新科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。