用于电子设备的上下文感知查询识别制造技术

技术编号:20929308 阅读:16 留言:0更新日期:2019-04-20 12:34
用于电子设备中的上下文感知查询识别的方法包括从输入设备接收用户语音。从用户语音生成语音信号。确定语音信号是否包括要被执行的动作以及电子设备是否是用户语音的预期接收者。如果已识别的语音信号包括动作并且用户语音的预期接收者是电子设备,则生成用于电子设备执行动作的命令。

Context-aware Query Recognition for Electronic Equipment

A method for context-aware query recognition in electronic devices includes receiving user voice from an input device. The speech signal is generated from the user's voice. Determine whether the voice signal includes the action to be performed and whether the electronic device is the intended receiver of the user's voice. If the recognized speech signal includes actions and the intended recipient of the user's voice is an electronic device, commands for the electronic device to perform actions are generated.

【技术实现步骤摘要】
【国外来华专利技术】用于电子设备的上下文感知查询识别本申请要求2016年9月29日提交的美国申请序列号15/280,809的优先权的权益,所述美国申请通过引用以其全部内容结合在此。
本文所描述的实施例一般涉及语音查询的识别和理解,尤其涉及提供电子设备的上下文感知查询。背景口语理解(SLU)是语音信号被解释为提供人/计算机界面的过程。由用户来明确定义查询的接收者。例如,当用户与计算机通话时,用户按下按钮或用计算机已知的专用短语(例如,你好计算机)开始查询。按钮或专用短语通知计算机假定下一个语句被引导到计算机以进行识别和解释。这些是任何人/计算机界面的重要约束和设计限制。附图说明图1示出了根据各个实施例的用于识别和解释语音信号的电子设备的示例。图2示出了根据各个实施例的用于电子设备中的上下文感知查询识别的方法的流程图。图3示出了根据各个实施例的用于意图识别的方法的流程图。图4示出了根据各个实施例的用于接收者识别的方法的流程图。图5示出了根据各个实施例的用于接收者检测和意图检测的方法的流程图。具体实施方式传统的人/计算机界面使用某种形式向计算机指示以下会话实际上是针对计算机的查询。在一个示例中,用户可以在实际查询之前说出专用的唤醒短语。在另一个示例中,用户可能必须按下按钮,从而发信号到计算机:当按下该按钮时正在发生的对话是用于计算机识别和解释的查询。这种人/计算机界面限制了在启动计算机查询之前必须按下按钮或记得说出唤醒短语的用户。所公开的实施例提供了一种用户在没有专用的唤醒短语或信号按钮的情况下查询电子设备的方式。使用对话语音或文本中的查询的语音检测和上下文感知理解,电子设备可以从语音音频信号或文本信号确定用户的意图并作用于查询。这种方法使用户能够以更自然的对话方式与电子设备说话。在以下实施例中,唤醒短语可以被定义为计算机用于确定该语音之后的所有内容都是要由计算机识别的查询的任何语音或语音信号。如本文所使用的,“计算机”可以是具有以下能力的任何电子设备:接收表示用户对话的信号(例如,音频信号),使用语音识别确定在对话中说出的内容,并解释该对话以确定它是否是针对该设备的。这样的电子设备可以是服务器、计算机(例如,具有中央处理单元(CPU)、存储器、输入/输出)、具有电子控制器的厨房电器、车辆中的控制系统、个人电子设备、家用控制器/安全系统,或具有这种能力的任何其他电子系统。图1示出了根据各个实施例的用于识别和解释语音信号的电子设备的示例。电子设备100还可以被称为计算机或控制器,以执行本文公开的任何方法。该框图仅出于说明的目的,因为其他电子设备可具有不同的架构并且仍能够实现本文公开的上下文感知查询识别方法。如本文所述,示例可以包括逻辑或多个组件、模块或机制,或可以在逻辑或多个组件、模块或机制上操作。模块是能够执行指定操作的有形实体(例如,硬件),并且可以以某种方式配置或布置。在示例中,电路可以以指定方式被安排(例如,内部地或关于外部实体(诸如其他电路))为模块。在示例中,一个或多个计算机系统(例如,独立的、客户端或服务器计算机系统)或一个或多个硬件处理器102的至少一部分可以由固件或软件(例如,指令、应用部分或应用)配置作为操作以执行指定操作的模块。在示例中,软件可以驻留在瞬态或非瞬态计算机可读介质上。在示例中,软件在由模块的底层硬件执行时使硬件执行指定的操作。电子设备100可以包括硬件处理器102(例如,中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核或其任何组合),以及存储器104。计算机的各种元件可以通过互连链路(即,总线)108彼此通信。电子设备100可以进一步包括耦合到互连链路108的显示单元110和输入设备112(例如,小键盘、键盘、麦克风)。在示例中,显示单元110和输入设备112一起可以是触摸屏显示器。触摸屏显示器可以包含在平板计算机、智能手机设备、厨房电器、个人电子设备或其他这样的电子设备中。电子设备100可以附加地包括存储设备(例如,闪存、随机存取存储器(RAM)、只读存储器(ROM)、磁盘驱动器、光盘驱动器)116、信号发生设备118(例如,扬声器)、传感器和网络接口设备120,以及一个或多个传感器121。传感器121可以包括成像传感器,用于确定用户相对于电子设备的位置或由用户执行的任何移动或手势。传感器121可以进一步包括用于确定用户的身份的生物统计传感器(例如,指纹、视网膜数据、语音识别)。如果传感器通过无线信道耦合到电子设备,则传感器和网络接口设备120可以包括与传感器通信的必要的(多个)无线电设备。存储器104可包括至少一个瞬态或非瞬态计算机可读介质,其上存储有一组或多组数据结构或指令124(例如,软件),所述一组或多组数据结构或指令体现本文中所描述的技术、方法或功能中的任何一项或多项或者由本文中所描述的技术、方法或功能中的任何一项或多项来利用。指令124还可以至少部分地驻留在附加的计算机可读存储器中(诸如在由系统100执行期间在硬件处理器102内)。在示例中,硬件处理器102、存储器104或大容量存储设备116中的一个或任何组合可以构成非瞬态计算机可读介质。网络接口设备120还可以是传感器接口,并且包括任何有线或无线接口,诸如无线电,用于通过无线信道读取传感器。无线电可以使用IEEE802.11标准或用于通过无线信道从传感器读取数据的任何其他标准来操作。网络可以是对等网络、局域网(LAN)或包括因特网的广域网(WAN)。图2示出了根据各个实施例的用于电子设备中的上下文感知查询识别的方法的流程图。该方法的各个框的执行可以全部由分布在多个电子设备当中的电子设备来执行、由分布在一个或多个电子设备当中的电子设备和通过互联网连接的一个或多个服务器来执行,或者整个执行可以由通过互联网连接的该一个或多个服务器来执行。由于用于上下文感知查询识别的方法监视来自用户的所有语音,因此通过互联网发送会话可能导致隐私问题。一种避免这种问题的方法是,接收用户语音200的电子设备在通过互联网连接传输之前对语音的传输进行加密。加密可以内置到图2的框200、202、203、204、206中的任何一个中,这取决于在电子设备中执行该方法的哪个部分以及哪个部分由互联网服务器执行。语音识别202用于标识用户的对话200中的单词。用户的对话可以由如图1的电子设备中所示的麦克风112接收。语音识别可以是说话者相关的(例如,需要对用户的语音进行训练)或说话者无关的(例如,不需要对用户的语音进行训练)。用户语音不需要包括用于操作用于上下文感知查询识别的方法的唤醒短语。语音识别202可以在上下文窗口上执行,该上下文窗口定义特定时间段,在此特定时间段内,语音识别202假定用户的查询仍在发生。上下文窗口可以由用户正在讲话的特定时间段(例如,5秒)或者当用户在语音信号被接收之后静音特定时间段(例如,1秒)来定义。语音识别202可以在基于统计的语音识别算法中使用声学建模和/或语言建模,以响应于用户语音200生成被识别的语音信号。例如,可以使用隐马尔可夫模型(HMM)作为用于语音识别202的算法。HMM只是语音识别算法202的一个例子。其他实施例可以使用其他方式来执行语音识别。被识别的语音信号不需要包括用于操作用于上下文感知本文档来自技高网...

【技术保护点】
1.一种用于执行上下文感知查询识别的电子设备,所述设备包括:输入设备,用于接收用户语音;存储器,用于存储用于执行上下文感知查询的指令;以及控制器,耦合到所述存储器和所述输入设备,用于响应于所述用户语音而生成语音信号,确定所述语音信号是否包括要被执行的动作,确定所述用户语音的预期接收者,以及如果所述语音信号包括动作并且所述用户语音的所述预期接收者是所述电子设备,则生成用于所述电子设备执行动作的命令,其中所述用户语音和所述语音信号不包括唤醒短语。

【技术特征摘要】
【国外来华专利技术】2016.09.29 US 15/280,8091.一种用于执行上下文感知查询识别的电子设备,所述设备包括:输入设备,用于接收用户语音;存储器,用于存储用于执行上下文感知查询的指令;以及控制器,耦合到所述存储器和所述输入设备,用于响应于所述用户语音而生成语音信号,确定所述语音信号是否包括要被执行的动作,确定所述用户语音的预期接收者,以及如果所述语音信号包括动作并且所述用户语音的所述预期接收者是所述电子设备,则生成用于所述电子设备执行动作的命令,其中所述用户语音和所述语音信号不包括唤醒短语。2.如权利要求1所述的设备,进一步包括耦合到所述控制器的传感器,用于生成到所述控制器的传感器输入。3.如权利要求2所述的设备,其特征在于,所述传感器包括以下中的至少一个:用于生成图像数据的图像传感器、用于接收所述用户语音的音频传感器或用于生成生物统计传感器数据的生物统计传感器。4.如权利要求3所述的设备,其特征在于,所述控制器进一步用于基于所述图像数据或所述生物统计传感器数据中的至少一个来确定所述预期接收者。5.如权利要求3所述的设备,其特征在于,所述控制器进一步用于基于所述图像数据或所述生物统计传感器数据中的至少一个来确定所述语音信号是否包括要被执行的动作。6.如权利要求1所述的设备,其特征在于,所述控制器进一步用于基于所述命令来执行数据库搜索。7.如权利要求1所述的设备,其特征在于,所述控制器进一步用于执行基于所述命令的万维网搜索、将所述命令输入到对话引擎、或者将所述命令输入到聊天机器人中的至少一个。8.如权利要求1所述的设备,其特征在于,所述控制器进一步用于将所述命令传递到应用程序接口以供执行。9.一种用于电子设备中的上下文感知查询识别的计算机实现的方法,所述方法包括:从输入设备接收用户语音;响应于所述用户语音生成语音信号,其中所述用户语音和所述语音信号不包括唤醒短语;确定所述语音信号是否包括要被执行的动作;确定所述用户语音的预期接收者;以及如果所述语音信号包括所述动作并且所述用户语音的预期接收者是电子设备,则生成用于所述电子设备执行所述动作的命令。10.如权利要求9所述的方法,进一步包括接收包括图像、音频或生物统计数据的传感器输入。11.如权利要求10所述的方法,进一步包括:基于所述传感器输入来确定所述语音信号是否包括所述动作。12.如权利要求11所述的方法,进一步包括:基于所述传感器输入来确定所述用户语音的所述预期接收者。13.如权利要求9所述的方法,其特征在于,确定所述语音信号是否包括要被执行的动作包括:从所述语音信号接收单词或音素中的至少一个;确定所述单词或所述音...

【专利技术属性】
技术研发人员:M·N·A·乔治斯G·施特默尔J·霍费尔
申请(专利权)人:英特尔IP公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1