【技术实现步骤摘要】
一种语音唤醒方法及设备
[0001]本专利技术涉及语音识别技术,尤其涉及一种语音唤醒方法及设备。
技术介绍
[0002]声纹唤醒技术是语音识别领域中的一个重要分支,被广泛应用于手机终端、智能家居、车载导航、智能穿戴等语音交互系统中,方便特定用户使用语音指令唤醒设备。更具体地,声纹唤醒任务就是在后台不间断地接受语音并自动检测出预定义的唤醒词,当检测到相应的唤醒词之后还需要鉴别该唤醒词是否是特定说话人所发出的,这样能够保证只有特定说话人喊出唤醒词才能唤醒设备,并使设备进入特定的工作状态。上述唤醒词的检出需通过唤醒模型来实现,确定说话人身份则是通过声纹模型来实现。
[0003]由于唤醒模型需要后台全时运行,对于穿戴设备而言,采用大模型虽能保证性能,但对续航影响较大。若使用小模型,性能很难保证,从而言重影响用户体验。针对该问题,现有技术提出了采用两级模型的解决方法,第一级唤醒模型功耗较低,精度也较低,第二级模型功耗较高,精度也较高。由于第一唤醒模型功耗较低,可以用于对语音数据流的初步识别,当第一唤醒模型识别结果表征语音数据流中包括唤醒词对应的片段时,可以将该语音数据流输入至第二唤醒模型进行二次识别,由于第二唤醒模型精度较高,因此可以实现对于语音数据流的精确识别。并且,通过第一唤醒模型可以过滤掉较多的数据,因此输入至第二唤醒模型的数据大幅减小,如此可以有效降低功耗。
[0004]然而,由于现有二级唤醒模型均是基于帧建模,二级唤醒模型无法获取准确的唤醒词边界,导致二级模型的卷积通道的特征提取能力受限,进而导致唤醒 ...
【技术保护点】
【技术特征摘要】
1.一种语音唤醒方法,其特征在于,包括:接收音频序列;对音频序列进行音频事件检测,切除音频序列中不含语音的片段,只保留带有语音的音频片段;将带有语音的音频片段输入第一级唤醒模型;当第一级唤醒模型检测到唤醒词时,将音频片段输入第二级唤醒模型;当第二级唤醒模型检测到唤醒词时,将音频片段输入声纹模型;当声纹模型判断说话人为注册人时,系统被唤醒;其中,所述第一级唤醒模型为流式模型并以字为单元建模;所述第二级唤醒模型为非流式模型,所述第二级唤醒模型的卷积输出通道分配有注意力权重。2.根据权利要求1所述的语音唤醒方法,其特征在于:所述第一级唤醒模型对唤醒词逐字建模,并使用滑动窗来统计唤醒词的置信度h(x)其中为滑动窗内的输入序列,T
conf
为滑动窗长,1≤t1≤t2...≤T
conf
表示整个解码网络的路径只能是单调的,表示时刻t
i
模型输出唤醒词为ω
i
的概率,唤醒词共有M个字,即:ω={ω1,ω2,....,ω
M
},h(x)表示在满足解码网络的前提下,滑动窗内的后验概率能够取得的最大值;当置信度h(x)大于第一阈值时,认为滑动窗内检测到了唤醒词。3.根据权利要求1所述的语音唤醒方法,其特征在于:所述第二级唤醒模型采用多层FSMN堆叠架构,其卷积感受野与唤醒词的感受野相当,模型各层输出节点代表感受野中包含唤醒词的概率值,当概率值大于第二阈值时,则判定检测到了唤醒词。4.根据权利要求3所述的语音唤醒方法,其特征在于,所述第二级唤醒模型的卷积输出通道通过以下方法分配注意力权重:假设卷积的通道输出为U∈R
o
×
L
,其中o表示输出通道数,L表示输出的时序长度,计算U的各个通道的注意力权重Atten∈R
o
×1:Atten=sigmoid(linear(avgpool(U)))其中avgpool表示对U的第二维进行平均池化,linear表示全连接层,sigmoid表示sigmoid激活函数;将注意力Atten用于强化卷积输出通道:其中表示矩阵的哈达玛积运算。5.根据权利要求1所述的语音唤醒方法,其特征在于,所述声纹模型为以ASP池化作为输出的三层LSTM模型,声纹模型对每个唤醒词提取一个声纹向量,并将唤醒词的声纹向量与预存储的声纹向量进行比对,若唤醒词的声纹向量与预存储的声纹向量相似度大于第三阈值,则判断说话人为注册人。
6.根据权利要求5所述的语音唤醒方法,其特征在于,在将唤醒词的声纹向量与预存储的声纹向量...
【专利技术属性】
技术研发人员:王飞,王欢良,肖佳林,吴天昕,
申请(专利权)人:苏州奇梦者科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。