用于不间断应用唤醒和语音识别的系统和方法技术方案

技术编号：23352402 阅读：36 留言：0更新日期：2020-02-15 07:08

提供了用于应用唤醒和语音识别的系统和方法。该系统(102、500)可以包括麦克风(103、108、512)，被配置为记录音频队列中的音频。该系统(102、500)还可以包括处理器(104、504)，该处理器被配置用于监视音频队列以获得唤醒短语，响应于检测唤醒短语，从音频队列获取音频片段，并将获得的音频片段发送到服务器(109)。音频的记录从唤醒短语的开始到音频片段的结束可以是连续的。

The system and method of wake-up and speech recognition for continuous application

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于不间断应用唤醒和语音识别的系统和方法
本申请一般涉及用于应用唤醒和语音识别的方法和技术。
技术介绍
人机交互的进步可以让人们用自己的声音来实现控制。例如，通过语音可以实现通过键盘，鼠标或触摸筛选的传统指令输入以触发各种应用或过程。尽管如此，还是需要克服许多障碍才能简化这一过程。
技术实现思路
本申请的各种实施例包括用于应用唤醒和语音识别的系统，方法和非暂时性计算机可读介质。示例性系统可以包括麦克风，被配置为在音频队列中记录音频。该系统还可以包括处理器，该处理器被配置用于监视音频队列为唤醒短语，响应于检测唤醒短语，从音频队列中获取音频片段，并将获得的音频片段发送到服务器。从唤醒短语的开始到音频片段的结束的音频的记录可以是连续的。在一些实施例中，示例性系统可以在包括移动电话的移动设备上实现。可以使服务器在音频片段上执行语音识别，并基于语音识别将信息返回到移动设备。在一些实施例中，示例性系统还可以包括用于显示返回信息的显示器。返回的信息可以包括对应于音频片段的机器识别的语音的文本。在...

【技术保护点】
1.一种应用唤醒和语音识别的计算系统，包括：/n麦克风，被配置为记录音频队列中的音频；以及/n处理器，被配置为：/n监视所述音频队列为唤醒短语；/n响应于检测到所述唤醒短语，从所述音频队列中获取音频片段；以及/n将所述获得的音频片段发送到服务器，其中从所述唤醒短语的开始到所述音频片段的结束的所述音频的记录是连续的。/n

【技术特征摘要】
【国外来华专利技术】1.一种应用唤醒和语音识别的计算系统，包括：
麦克风，被配置为记录音频队列中的音频；以及
处理器，被配置为：
监视所述音频队列为唤醒短语；
响应于检测到所述唤醒短语，从所述音频队列中获取音频片段；以及
将所述获得的音频片段发送到服务器，其中从所述唤醒短语的开始到所述音频片段的结束的所述音频的记录是连续的。

2.根据权利要求1所述的系统，其特征在于：
所述系统在包括移动电话的移动设备上实现；
所述服务器在所述音频片段上执行语音识别，并基于所述语音识别将信息返回给所述移动设备。

3.根据权利要求2所述的系统，还包括：
显示器，被配置为显示所述返回的信息，其中所述返回的信息包括对应于所述音频片段的机器识别的语音的文本。

4.根据权利要求1所述的系统，其特征在于：
所述音频队列与时间有关；以及
为了监视所述音频队列为所述唤醒短语，所述处理器被配置为筛选所述记录的音频与所述唤醒短语相匹配。

5.根据权利要求4所述的系统，其特征在于：
所述音频队列中的所述音频的记录在所述唤醒短语的所述检测的整个过程中是连续的。

6.根据权利要求4所述的系统，其特征在于：
为了从所述音频队列中获取音频片段以响应于检测到所述唤醒短语，所述处理器被配置为：
监视所述音频队列为语音活动的第一缺失，其中所述语音活动的第一缺失对应于在超过第一预设阈值没有语音记录的唤醒短语之后在所述音频队列中的第一检测的持续时间；
响应于检测到超过第一预设阈值的所述语音活动的第一缺失，监视所述音频队列为语音活动为在所述语音活动的第一缺失之后的语音活动的第一存在，其中所述语音活动的第一存在对应于在所述语音活动的第一缺失之后在音频队列中存在语音记录的第一检测的持续时间；
响应于从所述唤醒短语的结束未检测到在第二预设阈值内的所述语音活动的第一存在，获取包括从所述唤醒短语的结束到所述语音活动的第一缺失的开始的所述语音队列的至少一部分的音频片段。

7.根据权利要求6所述的系统，其特征在于：
所述音频片段还包括所述唤醒短语。

8.根据权利要求4所述的系统，其特征在于：
为了从所述音频队列中获取音频片段以响应于检测到所述唤醒短语，所述处理器被配置为：
监视所述音频队列为语音活动的第一缺失，其中所述语音活动的第一缺失对应于在超过第一预设阈值没有语音记录的唤醒短语之后在所述音频队列中的第一检测的持续时间；
响应于检测到超过第一预设阈值的所述语音活动的第一缺失，监视在所述语音活动的第一缺失之后的所述音频队列为语音活动的第一存在，其中所述语音活动的第一存在对应于在所述语音活动的第一缺失之后在音频队列中存在语音记录的第一检测的持续时间；
响应于从所述唤醒短语的结束检测到在第二预设阈值内的所述语音活动的第一存在，监视所述音频队列为语音活动的第二缺失，其中所述语音活动的第二缺失对应于在超过第一预设阈值没有语音记录在所述语音活动的第一存在后的在音频队列中的第一检测的持续时间；以及
响应于检测到所述语音活动的第二缺失，获取包括从所述语音活动的第一存在的开始到所述语音活动的第一存在的结束的所述语音活动的至少一部分的音频片段。

9.根据权利要求8所述的系统，其特征在于：
所述第一预设阈值是700毫秒；以及
所述第二预设阈值比所述第一预设阈值长。

10.一种应用唤醒和语音识别的方法，包括：
记录音频队列中的音频；以及
监视所述音频队列为唤醒短语；
响应于检测到所述唤醒短语，从所述音频队列获取音频片段；以及
将所述获得的音频片段发送到服务器，其中所述音频的所述记录从所述唤醒短语的开始到所述音频片段的结束是连续的。

11.根据权利要求10所述的方法，其特征在于：
所述方法由包括移动电话的移动设备实现；
所述服务器在所述音频片段上执...

【专利技术属性】
技术研发人员：郭立颋，胡刚涛，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人