语音控制方法、装置、电子设备和存储介质制造方法及图纸

技术编号:27401146 阅读:17 留言:0更新日期:2021-02-21 14:13
本申请公开了语音控制方法、装置、电子设备和存储介质,涉及语音技术、云计算和自然语言处理NLP技术领域。具体实现方案为:获取客户端发送的目标音频,目标音频包括客户端在唤醒之前的目标时长内采集的音频,以及唤醒之后采集的音频,增加了目标音频中包含唤醒词的可能性,并提高了获取到的目标音频的可靠性和准确度,进而,在目标音频开始的第一音频片段内识别出唤醒词的情况下,根据目标音频的第二音频片段内所识别出的指令对客户端进行控制,其中,第二音频片段晚于第一音频片段,或者与第一音频片段存在交叠部分,通过将识别到的唤醒词的音频帧划分第一音频频段和第二音频片段,并进行连续的识别,提高了指令识别的效率和可靠性。靠性。靠性。

【技术实现步骤摘要】
语音控制方法、装置、电子设备和存储介质


[0001]本申请涉及计算机和深度学习
,具体涉及语音技术、云计算和自然语言处理NLP
还涉及语音控制方法、装置、电子设备和存储介质。

技术介绍

[0002]随着智能语音交互的普及,智能语音交互的应用和产品不断面世,而对提升语音识别率的要求也逐步提高。
[0003]智能设备根据获取到的语音,进行唤醒词检测,并在检测到唤醒词后,将获取到的包含唤醒词的语音上传至语音服务器进行识别,得到语音识别结果,根据语言识别的结果对设备进行控制,从而准确获取语音的识别结果,对于提高设备语音控制的准确度至关重要。因此,如何准确识别语音中的指令,是亟待解决的技术问题。

技术实现思路

[0004]本申请提供了一种用于提高语音控制准确度的语音控制方法、装置、电子设备和存储介质。
[0005]根据本申请的一方面,提供了一种语音控制方法,该方法包括:
[0006]获取客户端发送的目标音频;其中,所述目标音频包括所述客户端在唤醒之前的目标时长内采集的音频,以及唤醒之后采集的音频;
[0007]对所述目标音频进行语音识别;
[0008]在所述目标音频开始的第一音频片段内识别出唤醒词的情况下,根据所述目标音频的第二音频片段内所识别出的指令,对所述客户端进行控制;其中,所述第二音频片段晚于所述第一音频片段,或者与所述第一音频片段存在交叠部分。
[0009]根据本申请的另一方面,提供了另一种语音控制方法,包括:
[0010]在待机状态下,采集音频并对采集到的音频识别唤醒词;
[0011]在识别出所述唤醒词的情况下唤醒;
[0012]将唤醒之前的目标时长内采集的音频,以及唤醒之后采集的音频作为目标音频发送至服务器;其中,所述目标音频,用于语音识别,在所述目标音频开始的第一音频片段内识别出唤醒词的情况下,根据所述目标音频的第二音频片段内所识别出的指令进行控制;所述第二音频片段晚于所述第一音频片段,或者与所述第一音频片段存在交叠部分。
[0013]根据本申请的另一方面,提供了一种语音控制装置,包括:
[0014]获取模块,用于获取客户端发送的目标音频;其中,所述目标音频包括所述客户端在唤醒之前的目标时长内采集的音频,以及唤醒之后采集的音频;
[0015]识别模块,用于对所述目标音频进行语音识别;
[0016]控制模块,用于在所述目标音频开始的第一音频片段内识别出唤醒词的情况下,根据所述目标音频的第二音频片段内所识别出的指令,对所述客户端进行控制;其中,所述第二音频片段晚于所述第一音频片段,或者与所述第一音频片段存在交叠部分。
[0017]根据本申请的另一方面,提供了另一种语音控制装置,包括:
[0018]采集模块,用于在待机状态下,采集音频并对采集到的音频识别唤醒词;
[0019]唤醒模块,用于在识别出所述唤醒词的情况下唤醒;
[0020]发送模块,用于将唤醒之前的目标时长内采集的音频,以及唤醒之后采集的音频作为目标音频发送至服务器;其中,所述目标音频,用于语音识别,在所述目标音频开始的第一音频片段内识别出唤醒词的情况下,根据所述目标音频的第二音频片段内所识别出的指令进行控制;所述第二音频片段晚于所述第一音频片段,或者与所述第一音频片段存在交叠部分。
[0021]根据本申请的另一方面,提供了一种电子设备,包括:
[0022]至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的语音控制方法,或执行第二方面所述的语音控制方法。
[0023]根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面所述的语音控制方法,或执行第二方面所述的语音控制方法。
[0024]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0025]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0026]图1为本申请实施例所提供的一种语音控制方法的流程示意图;
[0027]图2为本申请实施例提供的另一种语音控制方法的流程示意图;
[0028]图3为本申请实施例提供的另一种语音控制方法的流程示意图;
[0029]图4为本申请实施例提供的另一种语音控制方法的流程示意图;
[0030]图5为本申请实施例提供的又一种语音控制方法的流程示意图;
[0031]图6为本申请实施例提供的一种语音控制装置的结构示意图;
[0032]图7为本申请实施例提供的另一种语音控制装置的结构示意图;
[0033]图8是本申请实施例的语音控制的方法的电子设备的框图。
具体实施方式
[0034]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0035]随着智能语音交互的普及,智能语音交互的应用和产品不断面世,而对提升语音识别率的要求也逐步提高。
[0036]智能设备根据获取到的语音,进行唤醒词检测,并在检测到唤醒词后,启动语音起点和尾点的检测,并将起始点之间的语音上传至语音服务器进行识别,得到语音识别结果。
然而,基于语音起始点和尾点检测的算发获取到的语音,进行语音识别,存在以下的问题:
[0037](1)唤醒误报:由于唤醒检测算法本身不是严格精确的,会将不是唤醒词的语音检测为唤醒词,那么这时启动语音起尾点检测的行为本身就是不对的,从而将不是用户真实意图的语音送给识别。
[0038](2)可靠性差:由于唤醒算法检测到的唤醒时机不一定准确,那么根据唤醒时机来启动语音起点检测的操作,得到的语音起点也就不一定准。从而,云端获基于获取到的语音数据,识别得到的数据则不是精确的,那么识别引擎对收到的数据进行识别时,就得不到完全一致的识别结果,从而影响识别性能。
[0039]为此,本申请实施例提供了一种语音控制方法,以提高语音控制准确度,并提高了指令识别的效率和可靠性。
[0040]下面参考附图描述本申请实施例的语音控制方法、装置、电子设备和存储介质。
[0041]图1为本申请实施例所提供的一种语音控制方法的流程示意图。
[0042]如图1所示,该方法包括以下步骤:
[0043]步骤101,获取客户端发送的目标音频,其中,目标音频包括客户端在唤醒之前的目标时长内采集的音频,以及唤醒之后采集的音频。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音控制方法,包括:获取客户端发送的目标音频;其中,所述目标音频包括所述客户端在唤醒之前的目标时长内采集的音频,以及唤醒之后采集的音频;对所述目标音频进行语音识别;在所述目标音频开始的第一音频片段内识别出唤醒词的情况下,根据所述目标音频的第二音频片段内所识别出的指令,对所述客户端进行控制;其中,所述第二音频片段晚于所述第一音频片段,或者与所述第一音频片段存在交叠部分。2.根据权利要求1所述的语音控制方法,其中,所述对所述目标音频进行语音识别之后,还包括:在所述第一音频片段内未识别出所述唤醒词的情况下,或者,在所述第二音频片段内未识别出所述指令的情况下,将所述目标音频起始位置的所述目标时长的音频片段删除,以得到保留的音频;对所述保留的音频重新进行语音识别;根据重新进行语音识别所得到的指令,对所述客户端进行控制。3.根据权利要求1所述的语音控制方法,其中,所述第一音频片段的时长大于所述目标时长;所述第二音频片段的时长大于所述第一音频片段。4.根据权利要求1-3任一项所述的语音控制方法,其中,所述对所述目标音频进行语音识别之后,还包括:对语音识别得到的文本进行所述唤醒词过滤;在过滤出所述唤醒词的情况下,在所述目标音频中确定与所述唤醒词匹配的文本对应的目标音频帧;若在所述目标音频中所述目标音频帧的出现时刻早于所述第一音频片段的结束时刻,则确定在所述第一音频片段内识别出所述唤醒词。5.根据权利要求4所述的语音控制方法,其中,所述根据所述目标音频的第二音频片段内所识别出的指令,对所述客户端进行控制之前,还包括:在所述目标音频中,将所述目标音频帧之后的相邻音频帧的出现时刻作为所述第二音频片段的起始时刻;根据所述第二音频片段的起始时刻,以及所述第二音频片段的设定时长,确定所述第二音频片段。6.一种语音控制方法,包括:在待机状态下,采集音频并对采集到的音频识别唤醒词;在识别出所述唤醒词的情况下唤醒;将唤醒之前的目标时长内采集的音频,以及唤醒之后采集的音频作为目标音频发送至服务器;其中,所述目标音频,用于语音识别,在所述目标音频开始的第一音频片段内识别出唤醒词的情况下,根据所述目标音频的第二音频片段内所识别出的指令进行控制;所述第二音频片段晚于所述第一音频片段,或者与所述第一音频片段存在交叠部分。7.根据权利要求6所述的语音控制方法,其中,所述目标音频为音频流格式。
8.一种语音控制装置,包括:获取模块,用于获取客户端发送的目标音频;其中,所述目标音频包括所述客户端在唤醒之前的目标时长内采集的音频,以及唤醒之后采集的音频;识别模块,用于对所述目标音频进行语音识别;控制模块,用于在所述目标音频开始的第一音频片段内识别出唤醒词的情况下,根...

【专利技术属性】
技术研发人员:杨松邹赛赛曹介谊邵俊尧
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1