【技术实现步骤摘要】
一种基于多命令词的语音唤醒方法及其系统
本专利技术涉及嵌入式系统语音检测技术,具体涉及一种基于多命令词的语音唤醒方法及其系统。
技术介绍
通过识别语音信号反馈数据信号进行唤醒是时下电子时代急需的技术。在现有技术中,通常在特征提取过程中采用了梅尔频率倒谱系数(Mel-frequencycepstralcoefficients)的方案,对麦克风收集到语音信号进行预加重、分帧、加窗,得到一帧一帧的语音信号,再通过短时快速傅里叶变换(FFT)、计算不同FFT子带的能量、梅尔滤波、dct变换、lifter变换后得到语音信号的梅尔特征(MFCC),将这些MFCC特征视为神经网络的输入来训练模型;神经网络则采用最原始的循环神经网络(GRU),将上一层输入的MFCC特征通过循环神经网络(GRU)各个节点的计算逻辑得出每一帧语音信号的唤醒概率,并将每一帧的唤醒概率输入到下一层注意力机制层(attention)中进行计算,并得出最终的置信度。根据不同关键词的数目,置信度的标签数目也会不同,每个标签位置就代表一个不同的关键词,其置信度数值 ...
【技术保护点】
1.一种基于多命令词的语音唤醒方法,其特征在于,包括以下步骤:/na、接收语音数据,进行CGA模型训练,获取优选神经网络参数;/nb、接收语音数据,对每一帧数据进行预处理,获取可供训练的数据,并将数据输入CGA神经网络;/nc、进行CGA神经网络训练,输出预测概率值;/nd、对输出的预测概率值进行解码、计算,获取关键词检测结果,并反馈。/n
【技术特征摘要】
1.一种基于多命令词的语音唤醒方法,其特征在于,包括以下步骤:
a、接收语音数据,进行CGA模型训练,获取优选神经网络参数;
b、接收语音数据,对每一帧数据进行预处理,获取可供训练的数据,并将数据输入CGA神经网络;
c、进行CGA神经网络训练,输出预测概率值;
d、对输出的预测概率值进行解码、计算,获取关键词检测结果,并反馈。
2.根据权利要求1所述的基于多命令词的语音唤醒方法,其特征在于,所述步骤a包括以下步骤:
a10、接收语音数据,对每一帧数据进行预处理,获取可供训练的数据;
a20、进行CGA神经网络训练,输出预测概率值;
a30、将预测概率值与期望值进行对比,以交叉熵作为损失函数,计算出最终损失值loss,并进行反向传播。
3.根据权利要求2所述的基于多命令词的语音唤醒方法,其特征在于,所述步骤a10和步骤b中的预处理,包括以下步骤:
y10、对接收的语音数据进行预加重,其中预加重因子为0.97;
y20、基于汉明窗进行加窗,汉明窗函数为:
y30、针对每一帧数据,提取40个特征,并将40个特征输入CGA神经网络。
4.根据权利要求3所述的基于多命令词的语音唤醒方法,其特征在于,所述步骤y30中提取特征包括以下步骤:
y301、通过短时快速傅里叶变换(FFT),将信号分离到不同的子带;
y302、计算出不同子带的能量;
y303、基于梅尔滤波函数生成相应的梅尔滤波器,并对不同子带进行滤波,其中,梅尔滤波函数为:
y304、根据下列公式提取特征,得到可供训练的数据:
5.根据权利要求2所述的基于多命令词的语音唤醒方法,其特征在于,所述步骤c和步骤a20中的CGA神经网络训练,包括以下步骤:
x10、接收所提取的特征,利用卷积神经网络进行卷积,得到CNN层的输出特征;
x20、针对CNN层的输出特征,结合历史状态进行记忆、更新和重置,得到GRU当前帧的状态;<...
【专利技术属性】
技术研发人员:王蒙,姜黎,胡奎,付志勇,
申请(专利权)人:杭州芯声智能科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。