当前位置: 首页 > 专利查询>搜诺思公司专利>正文

基于仲裁的语音识别制造技术

技术编号:21739504 阅读:37 留言:0更新日期:2019-07-31 20:51
检测第一语音输入,并确定与第一语音输入相关联的第一置信度。接收消息,该消息包括与网络设备检测到第一语音输入相关联的第二置信度。确定第一置信度是否大于第二置信度。基于确定第一置信度大于第二置信度,将第二语音输入发送给服务器。

Arbitration-based Speech Recognition

【技术实现步骤摘要】
【国外来华专利技术】基于仲裁的语音识别相关申请的交叉引用本申请要求2016年10月19日提交的标题为“基于仲裁的语音识别(Arbitration-BasedVoiceRecognition)”的美国专利申请第15/297,627号的优先权,其内容整体以引用方式并入本文中用于所有目的。
本专利技术涉及消费品,并且更具体地,涉及针对媒体播放或其一些方面的方法、系统、产品、特征、服务和其他元素。
技术介绍
在大声的环境中访问和收听数字音频的选项有限,直到2003年SONOS公司提交其首批专利申请中标题为“多个联网设备之间同步音频播放的方法(MethodforSynchronizingAudioPlaybackbetweenMultipleNetworkedDevices)”的一个申请,并开始提供2005年出售的媒体播放系统。Sonos无线高保真系统使人们可以经由一个或多个联网播放设备体验来自多个来源的音乐。通过安装在智能手机、平板电脑或计算机上的软件控制应用,可以在任何具有联网播放设备的房间中播放他或她想要的内容。另外,例如使用控制器,可以使用播放设备将不同的歌曲流式传输到每个房间,可以将房间组合在一起以进行同步播放,或者可以在所有房间中同步地收听相同的歌曲。鉴于对数字媒体的兴趣日益增长,仍然需要开发消费者可访问的技术以进一步增强收听体验。
技术实现思路
附图说明关于以下具体实施方式、所附权利要求和附图,可以更好地理解本专利技术技术的特征、方面和优点,其中:图1示出了可以实践某些实施例的示例媒体播放系统配置;图2示出了示例播放设备的功能框图;图3示出了示例控制设备的功能框图;图4示出了示例控制器接口;图5示出了多个示例网络设备;图6示出了示例网络麦克风设备的功能框图;图7示出了与网络麦克风设备之间的仲裁相关联的功能的简化流程图;图8示出了示例仲裁消息;图9示出了根据第一实施例的与网络麦克风设备之间的仲裁相关联的功能的详细流程图;图10示出了根据第二实施例的与网络麦克风设备之间的仲裁相关联的功能的详细流程图;图11示出了仲裁功能的流程图;以及图12示出了与网络麦克风设备和服务器之间的语音识别相关联的流程图。附图是为了说明示例实施例的目的,但是应该理解,本专利技术不限于附图中所示的布置和工具。具体实施方式I.概述收听大声媒体内容是涉及家人、朋友和客人的社交活动。媒体内容可以包括例如谈话电台、书籍、来自电视的音频、存储在本地驱动器上的音乐、来自媒体源的音乐(例如,Radio、Radio、GooglePlayTM、iTunesRadio)和其他声音材料。例如,人们可以在聚会和其他社交聚会上大声播放音乐。此外,音乐可以同时在一个收听区或多个收听区中播放,使得每个收听区中的音乐可以同步,而没有可听见的回声或瑕疵。当语音输入用于控制音频播放设备或系统以及其他设备(例如,灯)时,可以丰富音乐体验。例如,用户可能希望更改正在播放的音频内容、播放列表、播放队列或收听区,将音乐曲目添加到播放列表或播放队列,或者更改播放设置(例如,播放、暂停、下一曲目、上一曲目、播放音量和EQ设置等)。用户可以提供与音频播放设备以及其他设备的控制相关联的语音输入,语音输入由联网麦克风设备(NMD)接收。NMD可以包括用于检测语音输入的麦克风。NMD可以是例如能够经由麦克风接收语音输入以控制音频播放设备或系统以及其他设备的播放设备、服务器或系统。另外或替代地,NMD可以是例如能够经由麦克风接收语音输入以控制音频播放设备或系统以及其他设备的设备、服务器或系统。标题为“默认播放设备指定(DefaultPlaybackDeviceDesignation)”的美国申请第15/098,867号提供了支持语音的家庭体系结构的示例,其内容以引用方式并入本文中。来自用户的语音输入可以由唤醒字后跟语音命令组成。唤醒字可以向NMD指示后跟呈语音命令形式的语音输入。唤醒字可以是口头语音输入,诸如“Alexa”、“OKGoogle”、“HeySonos”或“HeySiri”以及其他示例。语音命令可以是口头语音输入,其向NMD指示请求控制媒体播放设备或系统以及其他设备。示例语音命令可以包括用于修改任何媒体播放播放设置的命令,诸如播放音量、播放传输控制、音乐源选择和分组以及其它可能性。或者,语音命令可以是请求诸如“音量设置是多少?”或“播放列表中有哪些歌曲?”之类的信息的口头语音输入。收听范围内的多个NMD可以检测唤醒字并接收跟随唤醒字的语音命令。本文描述的实施例涉及用于仲裁多个NMD中哪个NMD可以向基于云的计算设备(例如,服务器)发送语音输入(例如,语音命令或唤醒字和语音命令)的方法和系统。NMD可以将语音输入发送给基于云的计算设备,使得基于云的计算设备可以对语音输入执行语音识别。语音识别允许识别所请求的控制或信息。例如,仲裁过程避免让多个NMD向基于云的计算设备发送相同的语音命令,从而避免可能浪费的带宽,而该带宽可用于其他活动,诸如播放音乐。仲裁过程可以从NMD检测到唤醒字开始。NMD可以识别唤醒字,例如,唤醒字是“Alexa”、“OKGoogle”、“HeySonos”还是“HeySiri”,并且还确定与检测到唤醒字的程度相关联的置信度。当检测到唤醒字时,NMD还可以播放音频内容。在这种情况下,NMD还可以调整NMD正在播放的音频,以便可以通过正在播放的音频清楚地接收跟随唤醒字的语音命令。可以以各种方式调整音频,包括暂停正在播放的音频或者调低正在播放的音频的音量。在一些实施例中,NMD可以定义指示NMD在确定是否将语音命令发送给基于云的计算设备之前可以等待多久的时间间隔。时间间隔可以是静态参数或动态参数。可以选择时间间隔以平衡提供足够的时间来完成下面更详细描述的仲裁和解决延迟问题的需要。在一些实施例中,NMD可以生成在本文也称为仲裁消息的消息,该消息被发送给例如家庭中的其他NMD。仲裁消息可以包括由NMD接收的唤醒字的标识符中的一个或多个,检测到唤醒字的程度的置信度以及时间间隔。检测到唤醒字的其他NMD中的每一个可以将与检测到的唤醒字相关联的类似仲裁消息发送给其他NMD。如果NMD从另一NMD接收到仲裁消息,则NMD可以确定它是否赢得与另一NMD的仲裁。如果如由接收到的仲裁消息指示,由NMD检测到的唤醒字的置信度大于由其他NMD检测到的置信度,则NMD可以赢得仲裁。具有与检测到的唤醒字相关联的更大置信度的NMD可以处于更好的位置以清楚地接收跟随唤醒字的语音命令。如果NMD输掉仲裁,则NMD可以恢复NMD正在播放的音频。例如,NMD可以取消降低音频音量或取消暂停音频。或者,可以不调整音频,直到音频接到赢得仲裁的NMD,与NMD的绑定区域中的另一NMD或基于云的计算设备的通知。如果NMD建立时间间隔,则NMD可以从其他NMD接收附加仲裁消息,直到该时间间隔到期为止。NMD可以对这些附加仲裁消息执行仲裁。如果NMD继续赢得仲裁,则NMD可以在时间间隔到期时将所接收的语音命令发送给基于云的计算设备。基于云的计算设备可以对语音命令执行语音识别。例如,基于云的计算设备可以将语音命令转换为文本,解释文本,然后基于文本来制定响应。如果语音命令是对信息的请求,则响应可以是以文本形式发送给NMD的请求的信息,本文档来自技高网...

【技术保护点】
1.一种用于第一网络设备(600)的方法,所述方法包括:检测第一语音输入;确定第一置信度(806),所述第一置信度指示所述第一网络设备(600)检测到所述第一语音输入的程度;接收消息(800),所述消息包括第二置信度(806),所述第二置信度指示第二网络设备(600)检测到所述第一语音输入的程度;检测所述第一语音输入之后的第二语音输入;当确定所述第一置信度(806)大于所述第二置信度(806)时,由所述第一网络设备(600)将所述第二语音输入发送给服务器。

【技术特征摘要】
【国外来华专利技术】2016.10.19 US 15/297,6271.一种用于第一网络设备(600)的方法,所述方法包括:检测第一语音输入;确定第一置信度(806),所述第一置信度指示所述第一网络设备(600)检测到所述第一语音输入的程度;接收消息(800),所述消息包括第二置信度(806),所述第二置信度指示第二网络设备(600)检测到所述第一语音输入的程度;检测所述第一语音输入之后的第二语音输入;当确定所述第一置信度(806)大于所述第二置信度(806)时,由所述第一网络设备(600)将所述第二语音输入发送给服务器。2.根据任一前述权利要求所述的方法,其中所述第一语音输入是唤醒字。3.根据任一前述权利要求所述的方法,其中所述第二语音输入是以下中的一项:对信息的请求;以及用于修改媒体播放系统的播放设置的命令。4.根据任一前述权利要求所述的方法,其中,当所述第一置信度(806)不大于所述第二置信度(806)时,所述第一网络设备(600)丢弃所接收的第二语音命令的记录。5.根据任一前述权利要求所述的方法,其中多个网络设备(600)经由通信装置(546)通信地耦合,所述多个网络设备(600)包括至少所述第一网络设备(600)和第二网络设备(600)。6.根据权利要求5所述的方法,还包括由所述第一网络设备(600)向耦合到所述通信装置(546)的所述多个网络设备(600)发送包括所述第一置信度(806)的第二消息(800)。7.根据任一前述权利要求所述的方法,其中所述一个或多个消息(800)还包括以下中的至少一项:对应于所述第一语音输入的唤醒字的标识符(802);标识所述唤醒字的说话者的语音标识符(804);以及指示所述第二网络设备(600)在确定是否将所述第二语音输入发送给所述服务器之前将等待多久的时间间隔(808)。8.根据任一前述权利要求所述的方法,还包括在将所述第二语音输入发送给所述服务器之前等待时间间隔(808)的到期,其中检测到所述第一语音输入将触发所述时间间隔(808)的开始。9.根据权利要求8所述的方法,还包括:在时间间隔(808)到期之前,接收包括相应置信度(806)的一个或多个附加消息(800);以及确定所述第一置信度(806)是否大于在所述时间间隔(808)到期之前接收的消息(800)的所有置信度(806);并且当所述第一置信度(806)是所接收的置信度(806)中的最大值时,在所述时间间隔(808)到期时将所述第二语音输入发送给所述服务器。10.根据...

【专利技术属性】
技术研发人员:史蒂芬·贝克哈德特德·林
申请(专利权)人:搜诺思公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1