一种语音唤醒方法及装置制造方法及图纸

技术编号:21345761 阅读:27 留言:0更新日期:2019-06-13 23:18
本发明专利技术涉及语音识别技术领域,公开了一种语音唤醒方法及装置,该方法包括:采集声音数据,提取所述声音数据中的语音;提取每一帧所述语音的语音特征;将所述语音特征送入神经网络模型进行识别,所述神经网络模型采用增量式方法进行训练;根据识别结果对所述语音进行过滤;通过增量式训练神经网络模型,降低了对正样本数据量的需求,降低了计算复杂度,减小了模型体积;并能有效过滤误触发数据,提高了语音唤醒效率。

【技术实现步骤摘要】
一种语音唤醒方法及装置
本专利技术涉及语音识别
,尤其涉及一种语音唤醒方法及装置。
技术介绍
目前,语音唤醒的应用场景越来越广泛,例如机器人、手机、可穿戴设备、智能家居、车载等。几乎很多带有语音功能的设备都会需要语音唤醒技术作为人和机器互动的一个开始或入口。不同的产品会有不同的唤醒词,用户可以通过说出特定的唤醒词来激活设备然后进行下一步交互操作,现有效果较好的唤醒设备一般存在模型体积大,计算复杂度高,更换唤醒词不容易等问题。
技术实现思路
本专利技术的主要目的在于提出一种语音唤醒方法及装置,通过增量式训练神经网络模型,降低了对正样本数据量的需求,降低了计算复杂度,减小了模型体积;并能有效过滤误触发数据,提高了语音唤醒效率。为实现上述目的,本专利技术提供的一种语音唤醒方法,包括:采集声音数据,提取所述声音数据中的语音;提取每一帧所述语音的语音特征;将所述语音特征送入神经网络模型进行识别,所述神经网络模型采用增量式方法进行训练;根据识别结果对所述语音进行过滤。可选地,所述采集声音数据,提取所述声音数据中的语音包括:通过麦克风采集声音数据,并对所述声音数据进行缓存;将缓存中的声音数据进行分帧;通过语音活动检测模块对每一帧声音数据进行识别,若该帧声音数据为语音,则保留在所述缓存中,若该帧声音数据为非语音,则从所述缓存中去除该帧声音数据。可选地,所述语音特征为梅尔频率倒谱系数MFCC;所述神经网络模型为循环神经网络RNN。可选地,所述神经网络模型采用增量式方法进行训练具体为:通过负样本和正样本初始化训练模型,所述负样本的数量大于所述正样本的数量;通过初始化后的训练模型进行实时测试,并保存误触发数据;将所述误触发数据融合到负样本数据集中进行再次训练,并重复以上过程。可选地,所述根据识别结果对所述语音进行过滤具体为:通过神经网络模型计算所述语音触发的概率数据;根据预设的概率门限、预设的最少触发次数和最小触发间隔对所述语音进行过滤。作为本专利技术的另一方面,提供的一种语音唤醒装置,包括:采集模块,用于采集声音数据,提取所述声音数据中的语音;特征提取模块,用于提取每一帧所述语音的语音特征;识别模块,用于将所述语音特征送入神经网络模型进行识别,所述神经网络模型采用增量式方法进行训练;过滤模块,用于根据识别结果对所述语音进行过滤。可选地,所述采集模块包括:采集单元,用于通过麦克风采集声音数据,并对所述声音数据进行缓存;分帧单元,用于将缓存中的声音数据进行分帧;提取单元,用于通过语音活动检测模块对每一帧声音数据进行识别,若该帧声音数据为语音,则保留在所述缓存中,若该帧声音数据为非语音,则从所述缓存中去除该帧声音数据。可选地,所述语音特征为梅尔频率倒谱系数MFCC;所述神经网络模型为循环神经网络RNN。可选地,所述神经网络模型采用增量式方法进行训练具体为:通过负样本和正样本初始化训练模型,所述负样本的数量大于所述正样本的数量;通过初始化后的训练模型进行实时测试,并保存误触发数据;将所述误触发数据融合到负样本数据集中进行再次训练,并重复以上过程。可选地,所述过滤模块具体为:通过神经网络模型计算所述语音触发的概率数据;根据预设的概率门限、预设的最少触发次数和最小触发间隔对所述语音进行过滤。本专利技术提出的一种语音唤醒方法及装置,该方法包括:采集声音数据,提取所述声音数据中的语音;提取每一帧所述语音的语音特征;将所述语音特征送入神经网络模型进行识别,所述神经网络模型采用增量式方法进行训练;根据识别结果对所述语音进行过滤;通过增量式训练神经网络模型,降低了对正样本数据量的需求,降低了计算复杂度,减小了模型体积;并能有效过滤误触发数据,提高了语音唤醒效率。附图说明图1为本专利技术实施例一提供的一种语音唤醒方法的流程图;图2为本专利技术实施例一提供的特征提取算法示意图;图3为本专利技术实施例一提供的神经网络模型的网络结构图;图4为图1中步骤S10的流程图;图5为本专利技术实施例二提供的一种语音唤醒装置的示范性结构框图;图6为图5中采集模块的示范性结构框图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本专利技术的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。实施例一如图1所示,在本实施例中,一种语音唤醒方法,包括:S10、采集声音数据,提取所述声音数据中的语音;S20、提取每一帧所述语音的语音特征;S30、将所述语音特征送入神经网络模型进行识别,所述神经网络模型采用增量式方法进行训练;S40、根据识别结果对所述语音进行过滤。在本实施例中,通过增量式训练神经网络模型,降低了对正样本数据量的需求,降低了计算复杂度,减小了模型体积;并能有效过滤误触发数据,提高了语音唤醒效率。在本实施例中,本方法提供了一种轻量级语音唤醒技术,可以方便部署在大部分设备前端,并且支持用户自定义唤醒词。在本实施例中,所述语音特征为梅尔频率倒谱系数MFCC;所述神经网络模型为循环神经网络RNN。在本实施例中,梅尔频率倒谱系数MFCC(Mel-scaleFrequencyCepstralCoefficients,简称MFCC),考虑到人耳对不同频率的感受程度,因此特别适合用在语音辨识领域,其特征提取过程如图2所示,语音数据依次通过预加重、分帧加窗、快速傅里叶变换FFT、Mel滤波、取对数、离散余弦变换DCT变换后得到MFCC特征。在本实施例中,循环神经网络RNN(RecurrentNeuralNetworks)的目的是用来处理序列数据。在传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如,你要预测句子的下一个单词是什么,一般需要用到前面的单词,因为一个句子中前后单词并不是独立的。RNNs之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上,RNNs能够对任何长度的序列数据进行处理。但在本实施例中,为了兼顾唤醒效果以及训练数据需求量,识别网络选择了一个GRU层和一个全连接Dens层,网络结构如图3所示。如图4所示,在本实施例中,所述步骤S10包括:S11、通过麦克风采集声音数据,并对所述声音数据进行缓存;S12、将缓存中的声音数据进行分帧;S13、通过语音活动检测模块对每一帧声音数据进行识别,若该帧声音数据为语音,则保留在所述缓存中,若该帧声音数据为非语音,则从所述缓存中去除该帧声音数据。在本实施例中,所述神经网络模型采用增量式方法进行训练具体为:通过负样本和正样本初始化训练模型,所述负样本的数量大于所述正样本的数量;通过初始化后的训练模型进行实时测试,并保存误触发数据;将所述误触发数据融合到负样本数据集中进行再次训练,并重复以上过程。在本实施例中,正样本采集成本较高,因此,先用大量负样本和少量正样本本文档来自技高网...

【技术保护点】
1.一种语音唤醒方法,其特征在于,包括:采集声音数据,提取所述声音数据中的语音;提取每一帧所述语音的语音特征;将所述语音特征送入神经网络模型进行识别,所述神经网络模型采用增量式方法进行训练;根据识别结果对所述语音进行过滤。

【技术特征摘要】
1.一种语音唤醒方法,其特征在于,包括:采集声音数据,提取所述声音数据中的语音;提取每一帧所述语音的语音特征;将所述语音特征送入神经网络模型进行识别,所述神经网络模型采用增量式方法进行训练;根据识别结果对所述语音进行过滤。2.根据权利要求1所述的一种语音唤醒方法,其特征在于,所述采集声音数据,提取所述声音数据中的语音包括:通过麦克风采集声音数据,并对所述声音数据进行缓存;将缓存中的声音数据进行分帧;通过语音活动检测模块对每一帧声音数据进行识别,若该帧声音数据为语音,则保留在所述缓存中,若该帧声音数据为非语音,则从所述缓存中去除该帧声音数据。3.根据权利要求1所述的一种语音唤醒方法,其特征在于,所述语音特征为梅尔频率倒谱系数MFCC;所述神经网络模型为循环神经网络RNN。4.根据权利要求1所述的一种语音唤醒方法,其特征在于,所述神经网络模型采用增量式方法进行训练具体为:通过负样本和正样本初始化训练模型,所述负样本的数量大于所述正样本的数量;通过初始化后的训练模型进行实时测试,并保存误触发数据;将所述误触发数据融合到负样本数据集中进行再次训练,并重复以上过程。5.根据权利要求4所述的一种语音唤醒方法,其特征在于,所述根据识别结果对所述语音进行过滤具体为:通过神经网络模型计算所述语音触发的概率数据;根据预设的概率门限、预设的最少触发次数和最小触发间隔对所述语音进行过滤。6.一种语音唤醒装置,其特...

【专利技术属性】
技术研发人员:王维杨汉丹王广新
申请(专利权)人:深圳市友杰智新科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1