语音唤醒模型的训练和使用方法及装置制造方法及图纸

技术编号:22660162 阅读:20 留言:0更新日期:2019-11-28 03:59
本发明专利技术公开语音唤醒模型的训练和使用方法及装置,其中,一种语音唤醒模型的训练方法,包括:获取针对语音唤醒模型的训练语音数据;将所述训练语音数据分别输入至关键字检测系统和语速检测系统;获取所述关键字检测系统输出的所述训练语音数据是否包含指定唤醒词的第一输出结果,获取所述语速检测系统输出的所述训练语音数据的快慢的第二输出结果;至少将所述训练语音数据的所述第一属性和所述第二属性作为基准对所述关键字检测系统和所述语速检测系统进行训练。本申请的方法和装置提供的方案通过考虑语速对唤醒结果的影响,加入语速检测,对于不同语速的语音采用不同长度的滑动窗,从而可以极大地降低语速对唤醒结果的影响。

Training and using method and device of voice wake-up model

The invention discloses a method and device for training and using a voice wake-up model, wherein, a method for training a voice wake-up model includes: acquiring training voice data for the voice wake-up model; inputting the training voice data to a keyword detection system and a speed detection system respectively; acquiring whether the training voice data output by the keyword detection system includes The first output result of the wake-up word is specified to obtain the second output result of the speed of the training voice data output by the speed detection system; at least the first attribute and the second attribute of the training voice data are used as the reference to train the keyword detection system and the speed detection system. The method of the application and the scheme provided by the device can greatly reduce the influence of the speech speed on the wake-up result by considering the influence of the speech speed on the wake-up result, adding the speech speed detection, and adopting different length sliding windows for the speech with different speech speed.

【技术实现步骤摘要】
语音唤醒模型的训练和使用方法及装置
本专利技术属于语音唤醒
,尤其涉及语音唤醒模型的训练和使用方法及装置。
技术介绍
相关技术中,存在基于深度学习的关键字识别技术,即语音唤醒技术,例如一个语音交互系统,当用户说出指令,系统判断是否是唤醒词,如果是,交互系统被唤醒,如果不是,交互系统不被唤醒。语音唤醒模型需要给定唤醒词,要经过前期的训练,得到唤醒模型。专利技术人在实现本申请的过程中发现,基于深度学习的语音唤醒技术在用户的正常语速下表现优异,在快语速下表现较差;同一个唤醒词,在正常语速下唤醒率是90%,在快语速下可以低至70%。
技术实现思路
本专利技术实施例提供一种语音唤醒模型的训练和使用方法及装置,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种语音唤醒模型的训练方法,包括:获取针对语音唤醒模型的训练语音数据,其中,所述训练语音数据具有已知的第一属性和已知的第二属性,所述第一属性为是否包含指定唤醒词,所述第二属性为语速快慢;将所述训练语音数据分别输入至关键字检测系统和语速检测系统,其中,所述关键字检测系统用于检测语音数据中是否包含指定唤醒词,所述语速检测系统用于检测语音数据的语速快慢;获取所述关键字检测系统输出的所述训练语音数据是否包含指定唤醒词的第一输出结果,获取所述语速检测系统输出的所述训练语音数据的快慢的第二输出结果;至少将所述训练语音数据的所述第一属性和所述第二属性作为基准对所述关键字检测系统和所述语速检测系统进行训练。第二方面,本专利技术实施例提供一种语音唤醒模型的使用方法,包括:获取用户的待检测语音数据;将所述待检测语音数据输入至经过第一方面的方法训练后的语速检测系统中;获取所述语速检测系统的语速快慢结果;基于所述语速快慢结果确定在所述关键字检测系统使用的滑动窗的对应滑动窗长度;将所述待检测语音数据输入至经过第一方面的方法训练后的且使用所述对应滑动窗长度的滑动窗的关键字检测系统中;获取所述关键字检测系统的输出,基于所述输出给出唤醒结果。第三方面,本专利技术实施例提供一种语音唤醒模型的训练装置,包括:训练获取模块,配置为获取针对语音唤醒模型的训练语音数据,其中,所述训练语音数据具有已知的第一属性和已知的第二属性,所述第一属性为是否包含指定唤醒词,所述第二属性为语速快慢;输入模块,配置为将所述训练语音数据分别输入至关键字检测系统和语速检测系统,其中,所述关键字检测系统用于检测语音数据中是否包含指定唤醒词,所述语速检测系统用于检测语音数据的语速快慢;输出获取模块,配置为获取所述关键字检测系统输出的所述训练语音数据是否包含指定唤醒词的第一输出结果,获取所述语速检测系统输出的所述训练语音数据的快慢的第二输出结果;以及训练模块,配置为至少将所述训练语音数据的所述第一属性和所述第二属性作为基准对所述关键字检测系统和所述语速检测系统进行训练。第四方面,本专利技术实施例提供一种语音唤醒模型的使用装置,包括:检测获取模块,配置为获取用户的待检测语音数据;语速检测模块,配置为将所述待检测语音数据输入至经过第一方面的方法训练后的语速检测系统中;语速获取模块,配置为获取所述语速检测系统的语速快慢结果;滑动窗长度确定模块,配置为基于所述语速快慢结果确定在所述关键字检测系统使用的滑动窗的对应滑动窗长度;关键字检测模块,配置为将所述待检测语音数据输入至经过第一方面的方法训练后的且使用所述对应滑动窗长度的滑动窗的关键字检测系统中;以及唤醒结果输出模块,配置为获取所述关键字检测系统的输出,基于所述输出给出唤醒结果。第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的语音唤醒模型的训练和使用方法的步骤。第六方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的语音唤醒模型的训练和使用方法的步骤。本申请的方法和装置提供的方案通过同时训练两个系统:语速检测系统和关键字检测系统,考虑语速对唤醒结果的影响,加入语速检测,对于不同语速的语音采用不同长度的滑动窗,从而可以极大地降低语速对唤醒结果的影响,提高唤醒率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的一种语音唤醒模型的训练方法的流程图;图2为本专利技术一实施例提供的另一种语音唤醒模型的训练方法的流程图;图3为本专利技术一实施例提供的又一种语音唤醒模型的使用方法的流程图;图4为本专利技术一实施例提供的再一种语音唤醒模型的训练和使用方法的一个具体示例的框图;图5为本专利技术一实施例提供的还一种语音唤醒模型的训练装置的框图;图6为本专利技术一实施例提供的还一种语音唤醒模型的使用装置的框图;图7是本专利技术一实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,其示出了本申请的语音唤醒模型的训练方法一实施例的流程图,本实施例的语音唤醒模型的训练方法可以适用于具备智能语音对话唤醒功能的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的支持语音唤醒的智能终端等。如图1所示,在步骤101中,获取针对语音唤醒模型的训练语音数据;在步骤102中,将训练语音数据分别输入至关键字检测系统和语速检测系统;在步骤103中,获取关键字检测系统输出的训练语音数据是否包含指定唤醒词的第一输出结果,获取语速检测系统输出的训练语音数据的快慢的第二输出结果;在步骤104中,至少将训练语音数据的第一属性和第二属性作为基准对关键字检测系统和语速检测系统进行训练。在本实施例中,对于步骤101,语音唤醒模型的训练装置首先获取训练语音数据,其中,该训练语音数据具有已知的第一属性和已知的第二属性,第一属性为是否包含指定唤醒词,第二属性为语速快慢,即训练语音数据中是否包含指定唤醒词和训练语音数据的语速快慢是已知的。之后,对于步骤102,语音唤醒模型的训练装置将该训练语音数据分别输入至关键字检测系统和语速检测系统中,其中,关键字检测系统用于检测语音数据中是否包含指定唤醒词,语速检测系统用于检测语音数据的语速快慢本文档来自技高网...

【技术保护点】
1.一种语音唤醒模型的训练方法,包括:/n获取针对语音唤醒模型的训练语音数据,其中,所述训练语音数据具有已知的第一属性和已知的第二属性,所述第一属性为是否包含指定唤醒词,所述第二属性为语速快慢;/n将所述训练语音数据分别输入至关键字检测系统和语速检测系统,其中,所述关键字检测系统用于检测语音数据中是否包含指定唤醒词,所述语速检测系统用于检测语音数据的语速快慢;/n获取所述关键字检测系统输出的所述训练语音数据是否包含指定唤醒词的第一输出结果,获取所述语速检测系统输出的所述训练语音数据的快慢的第二输出结果;/n至少将所述训练语音数据的所述第一属性和所述第二属性作为基准对所述关键字检测系统和所述语速检测系统进行训练。/n

【技术特征摘要】
1.一种语音唤醒模型的训练方法,包括:
获取针对语音唤醒模型的训练语音数据,其中,所述训练语音数据具有已知的第一属性和已知的第二属性,所述第一属性为是否包含指定唤醒词,所述第二属性为语速快慢;
将所述训练语音数据分别输入至关键字检测系统和语速检测系统,其中,所述关键字检测系统用于检测语音数据中是否包含指定唤醒词,所述语速检测系统用于检测语音数据的语速快慢;
获取所述关键字检测系统输出的所述训练语音数据是否包含指定唤醒词的第一输出结果,获取所述语速检测系统输出的所述训练语音数据的快慢的第二输出结果;
至少将所述训练语音数据的所述第一属性和所述第二属性作为基准对所述关键字检测系统和所述语速检测系统进行训练。


2.根据权利要求1所述的方法,其中,所述语速检测系统为二分类器,所述语速检测系统内设置有一个语速阈值,其中,
当语速大于等于所述语速阈值时,输出语速为快;
当语速小于所述语速阈值时,输出语速为慢。


3.根据权利要求1所述的方法,其中,所述至少将所述训练语音数据的所述第一属性和所述第二属性作为基准对所述关键字检测系统和所述语速检测系统进行训练包括:
调节语速检测系统的参数以使得语速检测系统的第二输出结果基本等于所述第二属性;
对应于所述语速检测系统检测出来的不同的语速,通过在训练的过程中调节关键字检测系统的参数以使得关键字检测系统的第一输出结果基本等于所述第一属性。


4.根据权利要求3所述的方法,其中,所述关键字检测系统的参数包括滑动窗长度。


5.一种语音唤醒模型的使用方法,包括:
获取用户的待检测语音数据;
将所述待检测语音数据输入至经过权利要求1-4训练后的语速检测系统中;
获取所述语速检测系统的语速快慢结果;
基于所述语速快慢结果确定在所述关键字检测系统使用的滑动窗的对应滑动窗长度;
将所述待检测语音数据输入至经过权利要求1-4训练后的且使用所述对应滑动窗长度的滑动窗的关键字检测系统中;
获取所述关键字检测系统的输出,基于所述输出给出唤醒结果。


6.根据权利要求5所述的方法,其中,所述基于所述语速快慢结果确定在所述关键字检测系统使用的滑动窗的对应滑动窗长度包括:
当所述语速快慢结果为快语速时,将所述关键字检测系统...

【专利技术属性】
技术研发人员:王蒙
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1