语音控制方法、装置、电子设备和存储介质制造方法及图纸

技术编号：27401146 阅读：17 留言：0更新日期：2021-02-21 14:13

本申请公开了语音控制方法、装置、电子设备和存储介质，涉及语音技术、云计算和自然语言处理NLP技术领域。具体实现方案为：获取客户端发送的目标音频，目标音频包括客户端在唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频，增加了目标音频中包含唤醒词的可能性，并提高了获取到的目标音频的可靠性和准确度，进而，在目标音频开始的第一音频片段内识别出唤醒词的情况下，根据目标音频的第二音频片段内所识别出的指令对客户端进行控制，其中，第二音频片段晚于第一音频片段，或者与第一音频片段存在交叠部分，通过将识别到的唤醒词的音频帧划分第一音频频段和第二音频片段，并进行连续的识别，提高了指令识别的效率和可靠性。靠性。靠性。

全部详细技术资料下载

【技术实现步骤摘要】
语音控制方法、装置、电子设备和存储介质

[0001]本申请涉及计算机和深度学习
，具体涉及语音技术、云计算和自然语言处理NLP
还涉及语音控制方法、装置、电子设备和存储介质。

技术介绍

[0002]随着智能语音交互的普及，智能语音交互的应用和产品不断面世，而对提升语音识别率的要求也逐步提高。
[0003]智能设备根据获取到的语音，进行唤醒词检测，并在检测到唤醒词后，将获取到的包含唤醒词的语音上传至语音服务器进行识别，得到语音识别结果，根据语言识别的结果对设备进行控制，从而准确获取语音的识别结果，对于提高设备语音控制的准确度至关重要。因此，如何准确识别语音中的指令，是亟待解决的技术问题。

技术实现思路

[0004]本申请提供了一种用于提高语音控制准确度的语音控制方法、装置、电子设备和存储介质。
[0005]根据本申请的一方面，提供了一种语音控制方法，该方法包括：
[0006]获取客户端发送的目标音频；其中，所述目标音频包括所述客户端在唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频；
[0007]对所述目标音频进行语音识别；
[0008]在所述目标音频开始的第一音频片段内识别出唤醒词的情况下，根据所述目标音频的第二音频片段内所识别出的指令，对所述客户端进行控制；其中，所述第二音频片段晚于所述第一音频片段，或者与所述第一音频片段存在交叠部分。
[0009]根据本申请的另一方面，提供了另一种语音控制方法，包括：
[0010]在待机状...

【技术保护点】

【技术特征摘要】
1.一种语音控制方法，包括：获取客户端发送的目标音频；其中，所述目标音频包括所述客户端在唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频；对所述目标音频进行语音识别；在所述目标音频开始的第一音频片段内识别出唤醒词的情况下，根据所述目标音频的第二音频片段内所识别出的指令，对所述客户端进行控制；其中，所述第二音频片段晚于所述第一音频片段，或者与所述第一音频片段存在交叠部分。2.根据权利要求1所述的语音控制方法，其中，所述对所述目标音频进行语音识别之后，还包括：在所述第一音频片段内未识别出所述唤醒词的情况下，或者，在所述第二音频片段内未识别出所述指令的情况下，将所述目标音频起始位置的所述目标时长的音频片段删除，以得到保留的音频；对所述保留的音频重新进行语音识别；根据重新进行语音识别所得到的指令，对所述客户端进行控制。3.根据权利要求1所述的语音控制方法，其中，所述第一音频片段的时长大于所述目标时长；所述第二音频片段的时长大于所述第一音频片段。4.根据权利要求1-3任一项所述的语音控制方法，其中，所述对所述目标音频进行语音识别之后，还包括：对语音识别得到的文本进行所述唤醒词过滤；在过滤出所述唤醒词的情况下，在所述目标音频中确定与所述唤醒词匹配的文本对应的目标音频帧；若在所述目标音频中所述目标音频帧的出现时刻早于所述第一音频片段的结束时刻，则确定在所述第一音频片段内识别出所述唤醒词。5.根据权利要求4所述的语音控制方法，其中，所述根据所述目标音频的第二音频片段内所识别出的指令，对所述客户端进行控制之前，还包括：在所述目标音频中，将所述目标音频帧之后的相邻音频帧的出现时刻作为所述第二音频片段的起始时刻；根据所述第二音频片段的起始时刻，以及所述第二音频片段的设定时长，确定所述第二音频片段。6.一种语音控制方法，包括：在待机状态下，采集音频并对采集到的音频识别唤醒词；在识别出所述唤醒词的情况下唤醒；将唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频作为目标音频发送至服务器；其中，所述目标音频，用于语音识别，在所述目标音频开始的第一音频片段内识别出唤醒词的情况下，根据所述目标音频的第二音频片段内所识别出的指令进行控制；所述第二音频片段晚于所述第一音频片段，或者与所述第一音频片段存在交叠部分。7.根据权利要求6所述的语音控制方法，其中，所述目标音频为音频流格式。
8.一种语音控制装置，包括：获取模块，用于获取客户端发送的目标音频；其中，所述目标音频包括所述客户端在唤醒之前的目标时长内采集的音频，以及唤醒之后采集的音频；识别模块，用于对所述目标音频进行语音识别；控制模块，用于在所述目标音频开始的第一音频片段内识别出唤醒词的情况下，根...

【专利技术属性】
技术研发人员：杨松，邹赛赛，曹介谊，邵俊尧，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人