语音唤醒方法、装置、电子设备及存储介质制造方法及图纸

技术编号:22818630 阅读:26 留言:0更新日期:2019-12-14 13:42
一种语音唤醒,应用于语音交互技术领域,包括:构建WFST解码图,该WFST解码图包括唤醒词解码图和基本解码图,当接收到待解码的语音信号后,分别利用该唤醒词解码图和该基本解码图对待解码的语音信号进行解码,得到待解码的语音信号分别基于该唤醒词解码图的第一得分和基于该基本解码图的第二得分,利用第一得分与第二得分,判断是否进入唤醒状态。本申请还公开了一种语音唤醒装置、电子设备及存储介质。可提高语音唤醒识别效果,有效避免仅使用基本解码图进行语音识别导致的唤醒准确率低的技术问题,同时,采用唤醒词解码图可支持多个唤醒词唤醒。

Voice wake-up method, device, electronic equipment and storage medium

【技术实现步骤摘要】
语音唤醒方法、装置、电子设备及存储介质
本申请涉及语音交互
,尤其涉及一种语音唤醒方法、装置、电子设备及存储介质。
技术介绍
随着智能交互技术的快速发展和市场需求的不断扩展,语音唤醒技术在近年来取得长足发展,至今已经在多个领域中得到广泛的应用。语音唤醒技术,是对输入的语音信号进行检测,确定语音信号中是否包含唤醒词。利用语音唤醒技术可以实现众多应用场景中的智能语音交互,例如智能音箱,车载、智能家居控制等。现有技术中,实现语音唤醒的方法通常是使用深度神经网络训练一个二分类的神经网络,将待识别的语音信号输入该二分类的神经网络,由该二分类的神经网络返回判断结果,即这段音频是否包括唤醒词,根据判断结果确定是否进行唤醒。采用这种方案,首先二分类的神经网络训练时间长,且二分类的神经网络建模粒度很大,识别效果难以保证,同时一个神经网络只支持一个唤醒词,如果换一个唤醒词的话还需要重新开始训练一个新的二分类的神经网络。
技术实现思路
本申请的主要目的在于提供一种语音唤醒方法、装置、电子设备及存储介质,旨在解决现有技术中语音唤醒识别效果不佳,无法同时支持多个唤醒词的技术问题。为实现上述目的,本申请实施例第一方面提供一种语音唤醒方法,包括:构建WFST解码图,所述WFST解码图包括唤醒词解码图和基本解码图;当接收到待解码的语音信号后,分别利用所述唤醒词解码图和所述基本解码图对所述待解码的语音信号进行解码,得到所述待解码的语音信号分别基于所述唤醒词解码图的第一得分和基于所述基本解码图的第二得分;利用所述第一得分与所述第二得分,判断是否进入唤醒状态。进一步地,所述分别利用所述唤醒词解码图和所述基本解码图对所述待解码的语音信号进行解码,得到所述待解码的语音信号分别基于所述唤醒词解码图的第一得分和基于所述基本解码图的第二得分包括:从所述待解码的语音信号中获取当前语音帧;提取所述当前语音帧的声学特征;将所述声学特征输入至预先构建的声学模型,得到所述当前语音帧内各声学单元的后验概率;遍历所述唤醒词解码图和所述基本解码图中所有活跃节点的出边;获取所述出边的输入标签对应的声学单元对应的后验概率,将所述后验概率表示为所述出边的分数;将所述出边的分数和所述出边对应的源节点上的分数进行累计,得到累计分数,将所述累计分数作为所述出边的到达节点的分数;判断所述待解码的语音信号是否已到达最后语音帧;若否,则将所述待解码的语音信号的下一帧作为当前语音帧,将当前的活跃节点和所述当前的活跃节点的出边的到达节点作为所述当前语音帧的活跃节点,执行所述提取所述当前语音帧的声学特征的步骤;若是,则将所述唤醒词解码图的终止节点上的累计分数作为所述第一得分,以及,将所述基本解码图的终止节点上的累计分数作为所述第二得分。进一步地,所述将所述累计分数作为所述出边的到达节点的分数时,若所述到达节点上存在已有分数,则比较所述累计分数与所述已有分数的大小,将数值大的分数作为所述出边的到达节点的分数。进一步地,所述唤醒词解码图和所述基本解码图具有同一起始节点;当所述当前语音帧为所述待解码语音信号的首个语音帧时,将所述起始节点设置为活跃节点。进一步地,所述利用所述第一得分与所述第二得分,判断是否进入唤醒状态包括:计算所述第一得分和所述第二得分之间的差值;判断所述差值是否小于预设阈值;若所述差值小于所述预设阈值,则进入唤醒状态。进一步地,所述构建WFST解码图包括:获取用户上传的唤醒词;在所述唤醒词解码图中设置所述唤醒词的解码路径。本申请实施例第二方面提供一种语音唤醒装置,包括:构建模块,用于构建WFST解码图,所述WFST解码图包括唤醒词解码图和基本解码图;解码模块,用于当接收到待解码的语音信号后,分别利用所述唤醒词解码图和所述基本解码图对所述待解码的语音信号进行解码,得到所述待解码的语音信号分别基于所述唤醒词解码图的第一得分和基于所述基本解码图的第二得分;判断模块,用于利用所述第一得分与所述第二得分,判断是否进入唤醒状态。进一步地,所述解码模块包括:第一获取子模块,用于从所述待解码的语音信号中获取当前语音帧;提取子模块,用于提取所述当前语音帧的声学特征;输入子模块,用于将所述声学特征输入至预先构建的声学模型,得到所述当前语音帧内各声学单元的后验概率;遍历子模块,用于遍历所述唤醒词解码图和所述基本解码图中所有活跃节点的出边;第二获取子模块,用于获取所述出边的输入标签对应的声学单元对应的后验概率,将所述后验概率表示为所述出边的分数;累计子模块,用于将所述出边的分数和所述出边对应的源节点上的分数进行累计,得到累计分数,将所述累计分数作为所述出边的到达节点的分数;判断子模块,用于判断所述待解码的语音信号是否已到达最后语音帧;第一执行子模块,用于若否,则将所述待解码的语音信号的下一帧作为当前语音帧,将当前的活跃节点和所述当前的活跃节点的出边的到达节点作为所述当前语音帧的活跃节点,执行所述提取所述当前语音帧的声学特征的步骤;第二执行子模块,用于若是,则将所述唤醒词解码图的终止节点上的累计分数作为所述第一得分,以及,将所述基本解码图的终止节点上的累计分数作为所述第二得分。本申请实施例第三方面提供了一种电子设备,包括:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本申请实施例第一方面提供的语音唤醒方法。本申请实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例第一方面提供的语音唤醒方法。从上述本申请实施例可知,本申请提供的语音唤醒方法、装置、电子设备及存储介质,通过构建WFST解码图,该WFST解码图包括唤醒词解码图和基本解码图,当接收到待解码的语音信号后,分别利用该唤醒词解码图和该基本解码图对待解码的语音信号进行解码,得到待解码的语音信号分别基于该唤醒词解码图的第一得分和基于该基本解码图的第二得分,利用第一得分与第二得分,判断是否进入唤醒状态,可提高语音唤醒识别效果,有效避免仅使用基本解码图进行语音识别导致的唤醒准确率低的技术问题,同时,采用唤醒词解码图可支持多个唤醒词唤醒。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本中请一实施例提供的语音唤醒方法的流程示意图;图2为本申请一实施例提供的语音唤醒方法中解码过程的流程示意图;图3为本申请一实施例提供的WFST解码图的结构示意图;图4为本申本文档来自技高网...

【技术保护点】
1.一种语音唤醒方法,其特征在于,包括:/n构建WFST解码图,所述WFST解码图包括唤醒词解码图和基本解码图;/n当接收到待解码的语音信号后,分别利用所述唤醒词解码图和所述基本解码图对所述待解码的语音信号进行解码,得到所述待解码的语音信号分别基于所述唤醒词解码图的第一得分和基于所述基本解码图的第二得分;/n利用所述第一得分与所述第二得分,判断是否进入唤醒状态。/n

【技术特征摘要】
1.一种语音唤醒方法,其特征在于,包括:
构建WFST解码图,所述WFST解码图包括唤醒词解码图和基本解码图;
当接收到待解码的语音信号后,分别利用所述唤醒词解码图和所述基本解码图对所述待解码的语音信号进行解码,得到所述待解码的语音信号分别基于所述唤醒词解码图的第一得分和基于所述基本解码图的第二得分;
利用所述第一得分与所述第二得分,判断是否进入唤醒状态。


2.根据权利要求1所述的语音唤醒方法,其特征在于,所述分别利用所述唤醒词解码图和所述基本解码图对所述待解码的语音信号进行解码,得到所述待解码的语音信号分别基于所述唤醒词解码图的第一得分和基于所述基本解码图的第二得分包括:
从所述待解码的语音信号中获取当前语音帧;
提取所述当前语音帧的声学特征;
将所述声学特征输入至预先构建的声学模型,得到所述当前语音帧内各声学单元的后验概率;
遍历所述唤醒词解码图和所述基本解码图中所有活跃节点的出边;
获取所述出边的输入标签对应的声学单元对应的后验概率,将所述后验概率表示为所述出边的分数;
将所述出边的分数和所述出边对应的源节点上的分数进行累计,得到累计分数,将所述累计分数作为所述出边的到达节点的分数;
判断所述待解码的语音信号是否已到达最后语音帧;
若否,则将所述待解码的语音信号的下一帧作为当前语音帧,将当前的活跃节点和所述当前的活跃节点的出边的到达节点作为所述当前语音帧的活跃节点,执行所述提取所述当前语音帧的声学特征的步骤;
若是,则将所述唤醒词解码图的终止节点上的累计分数作为所述第一得分,以及,将所述基本解码图的终止节点上的累计分数作为所述第二得分。


3.根据权利要求2所述的语音唤醒方法,其特征在于,所述将所述累计分数作为所述出边的到达节点的分数时,若所述到达节点上存在已有分数,则比较所述累计分数与所述已有分数的大小,将数值大的分数作为所述出边的到达节点的分数。


4.根据权利要求2或3所述的语音唤醒方法,其特征在于,所述唤醒词解码图和所述基本解码图具有同一起始节点;
当所述当前语音帧为所述待解码语音信号的首个语音帧时,将所述起始节点设置为活跃节点。


5.根据权利要求1所述的语音唤醒方法,其特征在于,所述利用所述第一得分与所述第二得分,判断是否进入唤醒状态包括:
计算所述第一得分和所述第二得分之间的差值;
判断所述差值是否小于预设阈值;
若所...

【专利技术属性】
技术研发人员:陈孝良焦伟冯大航
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1