【技术实现步骤摘要】
语音唤醒方法、装置、存储介质和电子设备
[0001]本公开涉及语音唤醒
,具体地,涉及一种语音唤醒方法、装置、存储介质和电子设备。
技术介绍
[0002]语音唤醒是用户与智能语音设备交互的第一步,当用户说出智能语音设备的唤醒词后,智能语音设备唤醒,进入工作状态。语音唤醒的延迟决定着用户与设备的人机语音交互的体验,当用户说完唤醒词到设备响应的时间为唤醒延迟时间,唤醒延迟时间越低则用户等待时长越短,有利于提升用户的体验。通常来说,语音唤醒的模型在从用户语音中识别唤醒词的过程中,一般会右看几帧语音来保证唤醒效果,这样会增加唤醒延迟时间,为了减少延迟,可以选择减少右看的帧数,但这样又会带来一定唤醒效果的损伤。
技术实现思路
[0003]提供该部分内容以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0004]第一方面,本公开提供一种语音唤醒方法,包括:
[0005 ...
【技术保护点】
【技术特征摘要】
1.一种语音唤醒方法,其特征在于,包括:确定连续多帧语音对应的字符概率向量;其中,每帧语音对应的字符概率向量是根据本帧语音的状态信息和右看M帧语音的状态信息得到;在所述连续多帧语音对应的字符概率向量中,以预设的预唤醒词作为解码字符路径,确定所述预唤醒词对应的第一路径解码分数;其中,所述预唤醒词由预设的完整唤醒词的前N个字符组成,M和N均为正整数;响应于所述第一路径解码分数大于第一阈值,依次提取当前缓存的M帧状态信息,根据每次提取的状态信息得到对应的字符概率向量;根据所述预唤醒词的路径解码信息以及所述M帧状态信息对应的M个字符概率向量,确定所述完整唤醒词对应的第二路径解码分数;响应于所述第二路径解码分数大于第二阈值,确定唤醒设备。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在每获取到一帧语音后对该帧语音进行处理,得到并缓存该帧语音对应的状态信息;根据第k帧语音对应的状态信息与缓存的第k+1帧至第k+M帧语音对应的状态信息,得到第k帧语音对应的字符概率向量;其中,k为正整数。3.根据权利要求1所述的方法,其特征在于,所述依次提取当前缓存的M帧状态信息,根据每次提取的状态信息得到对应的字符概率向量,包括:依次提取当前缓存的M帧状态信息,且针对每次提取的一帧状态信息,根据该帧状态信息、所述M帧状态信息中剩余帧的状态信息以及相应帧数的零状态,得到长度为M+1帧的完整状态信息;根据所述完整状态信息,得到与本次提取的该帧状态信息对应的字符概率向量。4.根据权利要求1所述的方法,其特征在于,所述响应于所述第一路径解码分数大于第一阈值,依次提取当前缓存的M帧状态信息,根据每次提取的状态信息得到对应的字符概率向量,包括:响应于所述第一路径解码分数大于第一阈值,根据所述预唤醒词的路径解码信息确定所述预唤醒词对应的发音时长;确定所述发音时长是否处于预设时长范围内,所述预设时长范围内预设的最小值和最大值分别表示发音所述预唤醒词所需的最短时间和最长时间;如果所述发音时长处于所述预设时长范围内,则执行所述依次提取当前缓存的M帧状态信息,根据每次提取的状态信息得到对应的字符概率向量的步骤。5.根据权利要求1所述的方法,其特征在于,所述根据所述预唤醒词的路径解码信息以及所述M帧状态信息对应的M个字符概率向量,确定所述完整唤醒词对应的第二路径解码分数,包括:在每获取到一个对应的字符概率向量后,根据所述预唤醒词的路径解码信息和已获取到的所述对应的字符概率向量,以所述完整唤醒词中除所述预唤醒词外的剩余字符作为解码字符,确定所述剩余字符对应的解码分数;根据所述预唤醒词对应的第一路径解码分数与所述剩余字符对应的解码分数,确定所述完整唤醒词对应的第二路径解码分数。6.根据权利要求5所述的方法,其特征在于,所述响应于所述第二路径解码分数大于第
二阈值,确定唤醒设备,包括:响应于所述第二路径解码分数大于第二阈值,判断所述第二路径解码分数中的所述剩余字符对应的解码分数是否大于第三阈值;响应于所述剩余字符对应的解码分数大于第三阈值,确定唤醒设备。7.根据权利要求3所述的方法,其特征在于,所述状态信息和所述字符概率向量是通过目标模型进行处理得到,所述目标模型用于接收一帧语音并对该帧语音进行处理,输出该帧语音...
【专利技术属性】
技术研发人员:李亚伟,田垚,马泽君,
申请(专利权)人:北京有竹居网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。