不中断回放音频而进行语音识别制造技术

技术编号:18352743 阅读:47 留言:0更新日期:2018-07-02 03:37
本文公开了用于捕获来自用户的语音输入的系统、方法和设备。一种系统包括回放音频部件、音频渲染部件、捕获部件、过滤器部件以及语音识别部件。回放音频部件被配置为缓冲用于声音的产生的音频数据。音频渲染部件被配置为在一个或多个扬声器上播放音频数据。捕获部件被配置为使用麦克风捕获音频(捕获的音频)。过滤器部件被配置为过滤捕获的音频以生成过滤的音频,其中过滤包括使用缓冲的音频数据进行过滤,以从捕获的音频中去除与音频数据相对应的音频。语音识别部件被配置为基于过滤的音频生成文本或命令。

【技术实现步骤摘要】
不中断回放音频而进行语音识别
本公开总体上涉及用于语音识别的方法、系统和装置,并且更具体地,涉及不中断回放音频而进行语音识别。
技术介绍
语音识别允许用户说出的语音命令被计算系统或其他电子设备解释。例如,语音命令可以被移动电话、移动计算设备、车辆装在仪表板上的计算系统等识别和解释。基于语音命令,系统可以执行或启动指令或过程。
技术实现思路
根据本专利技术,提供一种用于捕获来自用户的语音输入的方法,所述方法包括:缓冲用于声音的产生的音频数据;在一个或多个扬声器上播放音频数据;使用麦克风捕获音频(捕获的音频);过滤捕获的音频以产生过滤的音频,其中过滤包括使用缓冲的音频数据进行过滤以从过滤的音频中去除对应于音频数据的音频;以及基于过滤的音频生成文本或命令。根据本专利技术的一个实施例,其中使用麦克风捕获捕获的音频包括在一个或一个以上扬声器上播放音频数据期间捕获。根据本专利技术的一个实施例,该方法还包括确定是否正在播放任何音频数据,其中缓冲音频数据包括响应于确定音频数据正在被播放而进行缓冲。根据本专利技术的一个实施例,该方法还包括确定播放音频数据的定时。根据本专利技术的一个实施例,其中使用缓冲的音频数据来过滤捕获的音频包括基于用于播放音频数据的定时来过滤。根据本专利技术的一个实施例,其中缓冲用于声音的产生的音频数据包括在从原始音频缓冲器移除之前从原始音频缓冲器捕获音频数据,其中在一个或多个扬声器上播放之前将音频数据放置在原始音频缓冲器中。根据本专利技术的一个实施例,其中音频数据包括音乐、对应于视频的音频、通知声音和语音指令。根据本专利技术的一个实施例,该方法还包括基于文本或命令来确定计算设备或受控系统要执行的动作。根据本专利技术的一个实施例,该方法还包括接收指示以激活语音识别,其中缓冲音频数据、捕获音频、过滤捕获的音频以及执行语音到文本转换包括响应于接收指示而进行缓冲、捕获、过滤和执行。根据本专利技术,提供一种系统,该系统包括:回放音频部件,回放音频部件被配置为缓冲用于声音的产生的音频数据;音频渲染部件,音频渲染部件被配置为在一个或多个扬声器上播放音频数据;捕获部件,捕获部件被配置为使用麦克风捕获音频(捕获的音频);过滤器部件,过滤器被配置为对捕获的音频进行过滤以生成过滤的音频,其中过滤包括使用缓冲的音频数据进行过滤,以从捕获的音频中去除与音频数据相对应的音频;以及语音识别部件,语音识别部件被配置为基于过滤的音频生成文本或命令。根据本专利技术的一个实施例,其中捕获部件被配置成在一个或多个扬声器上播放音频数据期间捕获捕获的音频。根据本专利技术的一个实施例,其中回放音频部件还被配置为确定是否正在播放任何音频数据,其中回放音频被配置为响应于确定音频数据正在被播放而缓冲音频数据。根据本专利技术的一个实施例,其中回放音频部件还被配置为确定播放音频数据的定时。根据本专利技术的一个实施例,其中过滤器部件被配置为基于播放音频数据的定时,使用缓冲的音频数据来过滤捕获的音频。根据本专利技术的一个实施例,其中语音识别部件还被配置为基于文本或命令来确定计算设备或控制系统要执行的动作。根据本专利技术,提供一种存储指令的计算机可读存储介质,指令在由一个或多个处理器执行时使一个或多个处理器执行:缓冲用于声音的产生的音频数据;在一个或多个扬声器上播放音频数据;使用麦克风捕获音频(捕获的音频);过滤捕获的音频以产生过滤的音频,其中过滤包括使用缓冲的音频数据进行过滤以从捕获的音频中去除对应于音频数据的音频;以及根据过滤的音频生成文本或命令。根据本专利技术的一个实施例,其中指令还使得一个或多个处理器在一个或多个扬声器上播放音频数据期间捕获捕获的音频。根据本专利技术的一个实施例,其中指令还使得一个或多个处理器确定播放音频数据的定时。根据本专利技术的一个实施例,其中指令还使得一个或多个处理器基于用于播放音频数据的定时,使用缓冲的音频数据来过滤捕获的音频。根据本专利技术的一个实施例,其中指令还使一个或多个处理器基于文本或命令来确定计算设备或控制系统要执行的动作。附图说明参考以下附图来描述本公开的非限制性和非穷尽性实施方式,其中除非另有说明,否则在各个视图中相同的附图标记指示相同的部分。关于以下描述和附图,本公开的优点将变得更好理解,其中:图1是示出根据一个实施方式的语音识别系统的示意性框图;图2是示出根据一个实施方式的在音频回放期间的语音识别的示意图;图3是示出根据一个实施方式的文本到语音转换部件的示例部件的示意性框图;图4是示出根据一个实施方式的用于捕获来自用户的语音输入的方法的示意性流程图;以及图5是示出根据一个实施方式的计算系统的示意性框图。具体实施方式诸如车载信息娱乐系统、智能电话等的一些语音识别系统也能够播放音乐和声音。声音可以包括警报、响铃、语音指示、伴随着视频或图形显示的声音等。但是,当语音识别会话被激活时,这些系统停止音乐或声音回放。在音乐或声音中断期间,系统可以从用户捕获语音数据/命令并且可以恢复回放。在捕获语音数据之后,系统可以继续处理语音数据并理解所说的内容(例如语音到文本或语音/声音识别)。申请人已经改进了用于捕获来自用户的语音输入的系统、方法和设备,其中不需要停止、暂停、延迟、或中断声音回放以便记录/获取语音数据。根据一个实施例,系统包括回放音频部件、音频渲染部件、捕获部件、过滤器部件和语音识别部件。回放音频部件被配置为缓冲用于声音产生的音频数据。音频渲染部件被配置为在一个或多个扬声器上播放音频数据。捕获部件被配置为使用麦克风捕获音频(捕获的音频)。过滤器部件被配置为过滤捕获的音频以生成过滤的音频,其中过滤包括使用缓冲的音频数据过滤以从捕获的音频中去除与音频数据相对应的音频。语音识别部件被配置为基于过滤的音频生成文本或命令。根据一个实施例,当音乐或声音回放打开并且用户选择激活语音识别时,系统让回放继续并激活语音会话。在语音会话期间,麦克风可以捕获语音数据以及通过扬声器播放的回放音频(麦克风捕获的语音样本)。麦克风将捕获语音、环境声音和/或扬声器播放的音频。系统可以在内部捕获通过扬声器播放的回放音频数据(例如解码的原始音频缓冲)。因此,不需要任何外部/辅助麦克风来捕获来自扬声器的回放。麦克风捕获的语音样本和回放音频数据可以被馈送到音频过滤器(或声学模块)。音频过滤器可以从麦克风捕获的语音样本中过滤/逐步停止(phaseout)回放音频,这只会导致语音数据(或环境声音减去扬声器上播放的回放音频)。这个过滤后的语音数据可以进一步用来理解用户所说的内容。在一个实施例中,这里指示的方法可以使用软件来执行,并且因此可以使用软件更新在现有设备中实现。将结合下面的附图讨论另外的实施例和示例。图1是示出语音识别系统100的示意性框图。系统100包括用于播放媒体内容的回放系统102。回放系统102可以包括内容缓冲器104,其缓冲要由扬声器110和/或显示器112上的音频驱动器106或显示驱动器108播放或渲染的内容。内容缓冲器104可以包括存储器或寄存器,其保存将被提供给驱动器106、108用于渲染/回放的内容。内容缓冲器104可以从一个或多个内容源114接收内容。内容源114可以包括存储介质或者从存储介质检索要由回放系统102播放的内容。内容源114可以从任何源或存储介质获得内容。例如,内容源114可以包括磁性、固本文档来自技高网...
不中断回放音频而进行语音识别

【技术保护点】
1.一种用于捕获来自用户的语音输入的方法,所述方法包括:缓冲用于声音的产生的音频数据;在一个或多个扬声器上播放所述音频数据;使用麦克风捕获音频(捕获的音频);过滤所述捕获的音频以产生过滤的音频,其中过滤包括使用所述缓冲的音频数据进行过滤以从所述捕获的音频中去除对应于所述音频数据的音频;以及基于所述过滤的音频生成文本或命令。

【技术特征摘要】
2016.12.13 US 15/377,6001.一种用于捕获来自用户的语音输入的方法,所述方法包括:缓冲用于声音的产生的音频数据;在一个或多个扬声器上播放所述音频数据;使用麦克风捕获音频(捕获的音频);过滤所述捕获的音频以产生过滤的音频,其中过滤包括使用所述缓冲的音频数据进行过滤以从所述捕获的音频中去除对应于所述音频数据的音频;以及基于所述过滤的音频生成文本或命令。2.根据权利要求1所述的方法,其中使用所述麦克风捕获所述捕获的音频包括在所述一个或一个以上扬声器上播放所述音频数据期间捕获。3.根据权利要求1所述的方法,还包括以下中的一个或多个:确定是否正在播放任何音频数据,其中缓冲所述音频数据包括响应于确定音频数据正在被播放而进行缓冲;确定播放所述音频数据的定时;基于所述文本或命令来确定计算设备或受控系统要执行的动作;以及接收激活语音识别的指示,其中缓冲所述音频数据、捕获音频、过滤捕获的音频以及执行语音到文本转换包括响应于接收到所述指示而进行缓冲、捕获、过滤和执行。4.根据权利要求1所述的方法,其中使用所述缓冲的音频数据来过滤所述捕获的音频包括基于用于播放所述音频数据的所述定时来过滤。5.根据权利要求1所述的方法,其中缓冲用于声音的产生的所述音频数据包括在从原始音频缓冲器移除之前从所述原始音频缓冲器捕获所述音频数据,其中在所述一个或多个扬声器上播放之前将所述音频数据放置在所述原始音频缓冲器中。6.根据权利要求1所述的方法,其中所述音频数据包括音乐、对应于视频的音频、通知声音和语音指令。7.一种系统,包括:回放音频部件,所述回放音频部件被配置为缓冲用于声音的产生的音频数据;音频渲染部件,所述音频渲染部件被配置为在一个或多个扬声器上播放所述音频数据;捕获部件,所述捕获部件被配置为使用麦克风捕获音频(捕获的音频);过滤器部件,所述过滤器被配置为对所述捕获的...

【专利技术属性】
技术研发人员:桑迪普·拉杰·甘迪迦
申请(专利权)人:福特全球技术公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1