基于关键词识别技术的语音唤醒方法、装置、设备以及可读存储介质制造方法及图纸

技术编号:34494756 阅读:22 留言:0更新日期:2022-08-10 09:14
本发明专利技术公开了基于关键词识别技术的语音唤醒方法、装置、设备以及可读存储介质,包括:将获取到的语音数据输入预先训练好的神经网络模型进行计算,以获取语音数据的语音特征的概率分布;将概率分布输入神经网络模型进行快速校验;对快速校验的结果进行判断,若快速校验的结果为可信,则进行语音唤醒;若结果为不可信,则对语音数据进行持续时间和阈值的判断;若语音数据的持续时间和阈值达到了最低要求,则对语音数据进行对唤醒词的语音识别。本申请实施例通过提供基于关键词识别技术的语音唤醒方法、装置、设备以及可读存储介质,解决了现有技术中语音识别准确性不足的问题,实现了语音识别的性能功耗与准确性的平衡。了语音识别的性能功耗与准确性的平衡。了语音识别的性能功耗与准确性的平衡。

【技术实现步骤摘要】
基于关键词识别技术的语音唤醒方法、装置、设备以及可读存储介质


[0001]本专利技术涉及人工智能领域,尤其涉及基于关键词识别技术的语音唤醒方法装置、设备以及可读存储介质。

技术介绍

[0002]关键词识别是语音识别的研究方向之一,已经在实践中取得了广泛的运用,特别是在嵌入式设备中,关键词唤醒的主要目的是让语音识别系统平时处于低功耗的唤醒监听状态,在监听到关键词时再开启语音识别功能,有效地节约了资源。
[0003]与将语言流转换成对应的字符串的语音识别不同,关键词唤醒是从语音流中探测特定的词汇,具有功耗低、响应迅速的特点。如误唤醒和唤不醒的现象。

技术实现思路

[0004]本申请实施例通过提供基于关键词识别技术的语音唤醒方法、装置、设备以及可读存储介质,解决了现有技术中语音识别准确性不足的问题,实现了语音唤醒的性能功耗与准确性的平衡。
[0005]第一方面,本申请实施例提供了基于关键词识别技术的语音唤醒方法,包括:
[0006]将获取到的语音数据输入预先训练好的神经网络模型进行计算,以获取所述语音数据的语音特征的概率分布;
[0007]将所述概率分布输入所述神经网络模型进行快速校验;
[0008]对所述快速校验的结果进行判断,若所述快速校验的结果为可信,则进行语音唤醒;
[0009]若所述结果为不可信,则对所述语音数据进行持续时间和阈值的判断;
[0010]若所述语音数据的持续时间和阈值达到了最低要求,则对所述语音数据进行对唤醒词的语音识别,若所述语音识别的结果为通过,则进行语音唤醒;若所述语音识别的结果为不通过,则不进行语音唤醒;
[0011]若所述概率分布的持续时间和阈值没有达到最低要求,则不进行语音唤醒。
[0012]在其中一个实施例中,所述预先训练神经网络模型,包括:
[0013]建立神经网络模型;
[0014]重复多次将语音数据输入所述神经网络模型进行快速校验的训练和判断所述语音数据的持续时间与阈值的训练。
[0015]在其中一个实施例中,所述概率分布,包括:
[0016]所述语音数据的首个音的概率、最后一个音的概率,单个音的持续时间以及整个词的概率。
[0017]在其中一个实施例中,所述一种基于关键词识别技术的级联唤醒方法还包括:
[0018]若所述神经网络模型输出的所述概率分布不为音或字的概率,则对所述概率分布
进行预处理。
[0019]在其中一个实施例中,所述预处理的方式包括平滑。
[0020]在其中一个实施例中,所述快速校验,包括:
[0021]判断所述语音数据的所述首个音的概率、所述最后一个音的概率、所述单个音的持续时间以及所述整个词的概率是否都满足阈值。
[0022]第二方面,本专利技术提供基于关键词识别技术的语音唤醒装置,包括:
[0023]计算模块;所述计算模块用于计算获取的所述语音数据的语音特征的概率分布;
[0024]校验模块;所述校验模块用于将所述概率分布输入所述神经网络模型进行快速校验;
[0025]判断模块;所述判断模块用于对所述快速校验的结果进行判断;若所述快速校验的结果为可信,则进行语音唤醒;若所述结果为不可信,则对所述语音数据进行持续时间和阈值的判断;若所述语音数据的持续时间和阈值达到了最低要求,则对所述语音数据进行对唤醒词的语音识别,若所述语音识别的结果为通过,则进行语音唤醒;若所述语音识别的结果为不通过,则不进行语音唤醒;若所述概率分布的持续时间和阈值没有达到最低要求,则不进行语音唤醒。
[0026]第三方面,本专利技术提供一种设备,所述设备包括存储器和处理器;
[0027]所述存储器用于存储程序;
[0028]所述处理器用于执行所述程序并在执行所述程序时实现如上述提供的任一基于关键词识别技术的语音唤醒方法。
[0029]第四方面,本专利技术提供一种可读存储介质,所述可读存储介质存储有程序,所述程序被处理器执行时使所述处理器实现如上述提供的任一所述的基于关键词识别技术的语音唤醒方法。
[0030]在现有技术中,关键词唤醒存在准确性不足的问题,本专利技术提供的基于关键词识别技术的语音唤醒方法、装置、设备及可读储存介质,采用了快速校验与语音识别相结合的方法,能够以迅速地以快速校验的方式对语音数据做出是否唤醒的判断,如果不能做出唤醒的判断,则进入语音识别对其进行判断,快速校验迅速又省能,语音识别高效又准确,以两者结合的形式对语音数据进行唤醒判断,能够解决现有技术中准确率低的问题,并且达成了准确率与性能的平衡。
附图说明
[0031]图1是本专利技术第一实施例提供的基于关键词识别技术的语音唤醒方法示意图;
[0032]图2是本专利技术第二实施例提供的预先训练神经网络模型流程示意图;
[0033]图3是本专利技术提供的基于关键词识别技术的语音唤醒装置示意图;
[0034]图4是本专利技术实施例提供的设备结构示意性框图。
具体实施方式
[0035]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施
例,都属于本申请保护的范围。
[0036]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0037]以下结合具体实施例对本专利技术的实现进行详细的描述。
[0038]参阅图1所示,图1是本专利技术第一实施例提供的基于关键词识别技术的语音唤醒方法示意图。
[0039]本专利技术提供基于关键词识别技术的语音唤醒方法,包括以下步骤:
[0040]步骤S1:将获取到的语音数据输入预先训练好的神经网络模型进行计算,以获取语音数据的语音特征的概率分布;
[0041]具体地,神经网络模型需要预先完成训练,神经网络模型在本专利技术提供的实施例中用于对语音数据进行快速校验和判断语音数据的持续时间与阈值是否达到最低标准。
[0042]更具体地,本实施例中获取的语音数据来自人发出的声音,且在具有本专利技术提供的语音唤醒功能的系统中,需要预先进行唤醒词的设置,唤醒词是触发系统的语音唤醒功能的一个指令,唤醒词可以是特定的字或词语,即唤醒词是能够唤醒系统的一段特定的语音数据;可以理解的是,当获取的语音数据中包含有反映唤醒词的特定语音数据时,即说明系统接收到了进行语音唤醒的指令,则对系统进行语音唤醒。
[0043]更具体地,语音数据的语音特征的概率分布为语音数据的首个音的概率、最后一个音的概率、单个音的持续时间以及整个词的概率;可以理解的是,反映唤醒词的特定语音数据是由多个音以一定顺序组成的,当在获取的语音数据中检测到了反映唤醒词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于关键词识别技术的语音唤醒方法,其特征在于,包括:将获取到的语音数据输入预先训练好的神经网络模型进行计算,以获取所述语音数据的语音特征的概率分布;将所述概率分布输入所述神经网络模型进行快速校验;对所述快速校验的结果进行判断,若所述快速校验的结果为可信,则进行语音唤醒;若所述结果为不可信,则对所述语音数据进行持续时间和阈值的判断;若所述语音数据的持续时间和阈值达到了最低要求,则对所述语音数据进行对唤醒词的语音识别,若所述语音识别的结果为通过,则进行语音唤醒;若所述语音识别的结果为不通过,则不进行语音唤醒;若所述概率分布的持续时间和阈值没有达到最低要求,则不进行语音唤醒。2.如权利要求1所述的基于关键词识别技术的语音唤醒方法,其特征在于,所述预先训练神经网络模型,包括:建立神经网络模型;重复多次将语音数据输入所述神经网络模型进行快速校验的训练和判断所述语音数据的持续时间与阈值的训练。3.如权利要求1所述的基于关键词识别技术的语音唤醒方法,其特征在于,所述概率分布,包括:所述语音数据的首个音的概率、最后一个音的概率、单个音的持续时间以及整个词的概率。4.如权利要求1所述的基于关键词识别技术的语音唤醒方法,其特征在于,在所述将获取到的语音数据输入预先训练好的神经网络模型进行计算,以获取所述语音数据的语音特征的概率分布的步骤之后,还包括:若所述神经网络模型输出的所述概率分布不为音或字的概率,则对所述概率分布进行预处理。5.如权利要求4所述的基...

【专利技术属性】
技术研发人员:赵茂祥李全忠何国涛蒲瑶
申请(专利权)人:普强时代珠海横琴信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1