语音唤醒方法及装置制造方法及图纸

技术编号:20223156 阅读:26 留言:0更新日期:2019-01-28 21:16
本发明专利技术实施例提供一种语音唤醒方法及装置,属于语音识别技术领域。该方法包括:获取语音数据中唤醒词的声学特征;将声学特征输入至唤醒判定网络,输出唤醒判定结果,唤醒判定结果用于指示是否唤醒成功,唤醒判定网络是基于样本声学特征训练得到的,唤醒判定网络用于对唤醒词进行置信度判定。本发明专利技术实施例通过获取语音数据中唤醒词的声学特征。将声学特征输入至唤醒判定网络,输出唤醒判定结果,唤醒判定结果用于指示是否唤醒成功。由于在用户自定义的任何唤醒词下,均可通过唤醒判定网络进行唤醒判定,而不用依赖于固定的预设阈值,从而可提高唤醒成功率,唤醒过程适用的场景更加广泛。

【技术实现步骤摘要】
语音唤醒方法及装置
本专利技术实施例涉及语音识别
,尤其涉及一种语音唤醒方法及装置。
技术介绍
随着智能家居的发展,语音唤醒功能越来越普及。语音唤醒主要是通过理解用户的语音数据,以唤醒智能终端。目前在实现语音唤醒时,通常是根据唤醒词识别过程中分别对应的唤醒词路径和filler路径的声学似然度;若声学似然比大于固定的预设阈值,则确认唤醒词的识别结果可信,并成功唤醒智能终端。由于预设阈值是固定的,若唤醒口令发生了变化,则预设阈值可能不能适用于当前唤醒语的判定过程,从而降低唤醒成功率。
技术实现思路
为了解决上述问题,本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的语音唤醒方法及装置。根据本专利技术实施例的第一方面,提供了一种语音唤醒方法,包括:获取语音数据中唤醒词的声学特征;将声学特征输入至唤醒判定网络,输出唤醒判定结果,唤醒判定结果用于指示是否唤醒成功,唤醒判定网络是基于样本声学特征训练得到的,唤醒判定网络用于对唤醒词进行置信度判定。本专利技术实施例提供的方法,通过获取语音数据中唤醒词的声学特征。将声学特征输入至唤醒判定网络,输出唤醒判定结果,唤醒判定结果用于指示是否唤醒成功。由于在用户自定义的任何唤醒词下,均可通过唤醒判定网络进行唤醒判定,而不用依赖于固定的预设阈值,从而可提高唤醒成功率,唤醒过程适用的场景更加广泛。根据本专利技术实施例的第二方面,提供了一种语音唤醒装置,包括:获取模块,用于获取语音数据中唤醒词的声学特征;输出模块,用于将声学特征输入至唤醒判定网络,输出唤醒判定结果,唤醒判定结果用于指示是否唤醒成功,唤醒判定网络是基于样本声学特征训练得到的,唤醒判定网络用于对唤醒词进行置信度判定。根据本专利技术实施例的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与处理器通信连接的至少一个存储器,其中:存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的语音唤醒方法。根据本专利技术的第四方面,提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的语音唤醒方法。应当理解的是,以上的一般描述和后文的细节描述是示例性和解释性的,并不能限制本专利技术实施例。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种语音唤醒方法的流程示意图;图2为本专利技术实施例提供的一种唤醒词识别网络的结构示意图;图3为本专利技术实施例提供的一种唤醒识别网络的结构示意图;图4为本专利技术实施例提供的一种语音唤醒装置的结构示意图;图5为本专利技术实施例提供的一种电子设备的框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。随着智能家居的发展,语音唤醒功能越来越普及。语音唤醒主要是通过理解用户的语音数据,以唤醒智能终端。目前在实现语音唤醒时,通常是根据唤醒词识别过程中分别对应的唤醒词和非唤醒词的声学似然度;计算唤醒词和非唤醒词的声学似然度之间的比值得到唤醒词的声学似然比;若声学似然比大于固定的预设阈值,则确认唤醒词的识别结果可信,并成功唤醒智能终端。由于预设阈值是固定的,若唤醒口令发生了变化,则预设阈值可能不能适用于当前唤醒语的判定过程,从而降低唤醒成功率。例如,若当前预设的唤醒口令为“叮咚叮咚”,通过将唤醒词“叮咚叮咚”的声学似然比与预设阈值进行比较,能够较精准地确定用户讲出的唤醒口令能否唤醒智能终端。若用户自行自定义新的唤醒口令,如“你好,小飞”,则固定的预设阈值可能不适用于用户自定义的唤醒口令,从而会降低唤醒成功率。针对上述情形,本专利技术实施例提供了一种语音唤醒方法。需要说明的是,该方法可应用于具有唤醒功能的智能终端,如智能音箱、穿戴设备或智能家电等。参见图1,该方法包括但不限于:101、获取语音数据中唤醒词的声学特征。在执行101之前,可将语音数据输入至唤醒词识别网络,以识别出唤醒词。具体地,唤醒识别网络可以为基于隐马尔科夫模型的KeywordandFiller网络,该网络如图2所示,包含了Keyword和Filler的途径。其中,Filler路径表示非唤醒词路径,除了唤醒词以外的词汇都包含在Filler路径当中。在识别唤醒词的同时,还可同时提取唤醒词语的声学特征。102、将声学特征输入至唤醒判定网络,输出唤醒判定结果,唤醒判定结果用于指示是否唤醒成功,唤醒判定网络是基于样本声学特征训练得到的,唤醒判定网络用于对唤醒词进行置信度判定。在执行102之前,可训练得到唤醒判定网络。具体地,可将正例的样本声学特征及反例的样本声学特征对初始判定网络进行训练,以得到唤醒判定网络。其中,正例的样本声学特征指的是能够成功唤醒的唤醒词的声学特征,反例的样本声学特征指的是唤醒失败的非唤醒词的声学特征。基于上述实施例的内容,作为一种可选实施例,唤醒判定网络可以为encoder-decoder模型。相应地,初始判定网络可包括encoder端及decoder端,唤醒词可包括多个子词。encoder端可以采用循环神经网络、长短时记忆网络等序列建模网络,将每个子词的声学特征输入序列建模网络,可获得每个子词的表征向量,再将每个子词的表征向量接入注意力机制,从而获得每个子词的表征向量对唤醒词的影响权重,进而获得整词的表征向量,再依据此进行判决。唤醒判定网络的结构可参考图3,对于encoder编码器,x1~xT表示各子词的声学特征的特征向量,h1~hT为子词的特征向量经过序列建模网络后的表征向量,at,1~at,T为各表征向量通过注意力机制后获得的权重,ct为整词的表征向量。对于decoder解码器,yt-1表示之前历史解码结果。yt表示最终的解码结果,即用于指示是否唤醒成功。st-1表示之前解码过程的中间信息,st表示本次解码过程中的中间信息。需要说明的是,唤醒判定网络使用encoder-decoder模型,可以满足不同长度的唤醒词需求。本专利技术实施例提供的方法,通过获取语音数据中唤醒词的声学特征。将声学特征输入至唤醒判定网络,输出唤醒判定结果,唤醒判定结果用于指示是否唤醒成功。由于在用户自定义的任何唤醒词下,均可通过唤醒判定网络进行唤醒判定,而不用依赖于固定的预设阈值,从而可提高唤醒成功率,唤醒过程适用的场景更加广泛。基于上述实施例的内容,作为一种可选实施例,声学特征包括以下五种信息中的至少任意一种,以下五种信息分别为唤醒词中子词的唤醒词得分、唤醒词中子词的非唤醒词得分、唤醒词中子词对应的帧数、唤醒词中子词对应声学特征的得分分布及唤醒词中子词的嵌入特征。本专利技术实施例提供的五种信息,获取该五种信息的执行本文档来自技高网...

【技术保护点】
1.一种语音唤醒方法,其特征在于,包括:获取语音数据中唤醒词的声学特征;将所述声学特征输入至唤醒判定网络,输出唤醒判定结果,所述唤醒判定结果用于指示是否唤醒成功,所述唤醒判定网络是基于样本声学特征训练得到的,所述唤醒判定网络用于对所述唤醒词进行置信度判定。

【技术特征摘要】
1.一种语音唤醒方法,其特征在于,包括:获取语音数据中唤醒词的声学特征;将所述声学特征输入至唤醒判定网络,输出唤醒判定结果,所述唤醒判定结果用于指示是否唤醒成功,所述唤醒判定网络是基于样本声学特征训练得到的,所述唤醒判定网络用于对所述唤醒词进行置信度判定。2.根据权利要求1所述的方法,其特征在于,所述声学特征包括以下五种信息中的至少任意一种,所述以下五种信息分别为所述唤醒词中子词的唤醒词得分、所述唤醒词中子词的非唤醒词得分、所述唤醒词中子词对应的帧数、所述唤醒词中子词对应声学特征的得分分布及所述唤醒词中子词的嵌入特征。3.根据权利要求2所述的方法,其特征在于,所述声学特征包括所述唤醒词中子词对应声学特征的得分分布;相应地,所述将所述声学特征输入至唤醒判定网络,输出唤醒判定结果之前,还包括:对于所述唤醒词中的任一子词,确定所述任一子词对应的声学特征从属于每一示例音素的概率值,并作为所述任一子词对应声学特征的得分分布。4.根据权利要求3所述的方法,其特征在于,所述确定所述任一子词对应的声学特征从属于每一示例音素的概率值,包括:计算所述任一子词中每一帧声学特征从属于每一示例音素的概率值,得到每一帧对应的概率值序列;根据所述任一子词包含的总帧数,对每一帧对应的概率值序列进行规整,得到所述任一子词对应的声学特征从属于每一示例音素的概率值。5.根据权利要求2至4中任一项所述的方法,其特征在于,所述子词为...

【专利技术属性】
技术研发人员:吴国兵潘嘉
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1