协作会话语音用户界面的系统和方法技术方案

技术编号:5476274 阅读:192 留言:0更新日期:2012-04-11 18:40
提供了协作会话语音用户界面。协作会话语音用户界面可以基于短期和长期共享知识,以生成有关用户发声的意图的一个或多个显式的和/或隐式的假设。可以基于变化的确定程度,对假设进行分级,并可以为用户生成适应性响应。可以基于确定程度,用言辞来表达响应,并使随后发声的适当域成帧。在一种实现方式中,错误识别可以容忍,可以基于随后的发声和/或响应,纠正会话过程。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及人机语音用户界面的协作性会话模型。
技术介绍
相比之下,复杂的人机界面不允许用户直观地利用技术, 这阻碍了各种技术的大量的采用。利用语音界面,通过使交互更加容 易,更快,有助于减轻此负担,但是,现有的语音界面(当他们实际 工作时)仍需要用户进行很多的学习。即,现有的语音界面不能在古 老的人机界面和谈话语音之间架起桥梁,使得与系统的交互感觉起来 很普通。用户应该能够以普通的谈话方式直接从系统请求他们所需要 的东西,无需记住准确的词语。或者,当用户不能确定特定需求时, 他们应该能够使系统参加有成果的对话,以解决他们的请求。相反, 现有的语音界面迫使用户为了配合简单语言的简单指令集以便以系 统可以理解的方式发出请求而不说出他们的请求。通过使用现有的语音界面,用户和系统之间的对话几乎没有办法满足相互的目标。 根据本专利技术的各个实施例和方面,协作性的谈话语音用 户界面可以理解自由形式的人类发声,把用户从被限制于固定的命令 集和/或请求中解放出来。相反地,用户可以使用天然的、直观的,自 由形式的表达方式,参与与机器的协作性的谈话,以完成请求或一系 列请求。根据本专利技术的另一个方面,会话语音引擎可以包括噪声耐 量模块,该噪声耐量模块可以丢弃给定上下文中的没有含义的词或噪 声,以降低混淆的可能性。此外,噪声耐量模块250还可以过滤掉 环境和非人类的噪声,以进一步降低混淆的可能性。在一种实现方式中,噪声耐量模块可以与其他模块和功能协作,以过滤掉不适合标识 的上下文的词。例如,噪声耐量模块可以过滤掉一系列一个或多个麦 克风内的其他人类对话和/或发声。例如,单一设备可以包括多个麦克 风,或者多个设备可以各自包括一个或多个麦克风,噪声耐量模块可 以校对输入,并通过比较来自各个麦克风的语音信号来协作地过滤声 音。噪声耐量模块也可以过滤掉多个麦克风内的非人类的环境噪音, 由说话者的歧义或词语误用所引起的词汇表之外的词,或可能与目标 请求不相关的其他噪声。噪声耐量模块的性能基准可以由基于人类的条件的噪声模型进行定义。例如,当汽车以65英里每小时行驶时窗 户毁损,汽车的驾驶员有92%的可能被乘客所理解,那么,噪声耐 量模块的性能基准在这样的条件下可以具有类似的性能。根据本专利技术的另一个方面,可以从智能假设生成句法上、 语法上以及在上下文中敏感的"智能响应",这些响应可以用来生成用 户的谈话体验,而同时还引导用户以有利于识别方式应答。智能响应 可以通过适应用户的说话方式、适当地使响应成帧,具有天然变化和 /或个性(例如,通过改变语气、速度、定时、语气变化,措词,行话 及口头或音频响应中的其他变化),产生谈话的感觉。根据本专利技术的另一个方面,智能响应可以包括对用户的多 模或跨模的响应。在一种实现方式中,响应可以识别并控制一个或多 个设备和/或接口,用户可以通过使用最方便的任何一种输入方法或输 入方法的组合来作出响应。请参看图2,该示范性方框图显示了根据本专利技术的一个方 面的会话语音引擎215。会话语音引擎215可以包括会话语言处理器220,该处理器使用自由形式的语音搜索模块245、噪声耐量模块 250,和/或上下文判断进程255,生成对一个请求或一系列请求的自 适应会话响应。根据本专利技术的一个方面,模块245-255可以与语音搜 索引擎225进行通信,语音搜索引擎225包括一个或多个上下文域 代理230和/或一个或多个词汇表235,以帮助解释发声和生成响应, 如Tom Freeman和Larry Baldwin所著的"Enhancing the VUETM (Voce画User-Experience) Through Conversational Speech,,所描述的, 在此引用该申请的全部内容作为参考。会话语音引擎215可以生成 针对一个或多个请求的自适应会话响应,其中,请求可以取决于未说 出口的假设、不完整的信息、由以前的发声建立的上下文、用户概况、 历史概况、环境概况,或其他信息。此外,会话语音引擎215可以 跟踪哪些请求已经完成,哪些请求正在被处理中,和/或哪些请求由于 信息不完整或不准确而不能处理,并可以相应地生成响应。根据本专利技术的一个方面,自由形式的语音搜索模块245 可以理解使用典型的日常的语言(即,自由形式的)的发声,并可以 解释人通常如何说话的变化,它们使用的词汇表,以及他们说话时所 处的条件。由于诸如应力、分心,以及偶然发现之类的可变因素始终 是不同的并且无限地变化的,自由形式的搜索模块245可以这样设 计,目标是应该理解,没有人以同样的方式来到相同的人机界面的情 况两次。如此,自由形式的搜索模块245可以实现模型化偶然的人 的语音的一个或多个特点。在各种实现方式中,自由形式的搜索模块 245可以包括,其中,自由形式的发声功能、 一步访问功能、推理计 划的操作功能、交替表达功能,和/或有缺点的语音功能。自由形式的发声功能可以理解特殊的行话和/或俚语,容忍 词语顺序的变化(例如,无论请求的主体先于或后于动词,可能不相 关),并容忍唠叨的暂停(例如,"um"、 "ah"、 "eh",及其他没有 意义的发声)。例如,自由形式的发声功能可以以与自由形式的请求 (名词可能在动词前面)的等效的方式对待形式化的英语"动词在名 词之前,,的请求。例如,可以等效地对待用户的发声"Change it to theSquizz,,和"You know, um, that Squizz channel, ah, switch it there" (其中,Squizz是XM Satellite Radio上的一个频道)。不论是哪 一种情况,自由形式的发声功能能够将"Squizz,,识别为发声的主体, 而将"Change it"或"switch it"识别为发声的动词或请求(例如,通过 与上下文判断过程255或者其他功能协作,并标识相关上下文域代 理230和/或词汇表235,以解释发声)。交替表达功能可以识别名词和动词的常见的备选方案,以 根据各种条件反映使用模式的变化。例如,用户可以基于年龄、社会经济背景、种族、用户的怪念头或其他因素,改变表达方式。如此, 交替表达功能可以支持表达方式的变化,词序是不重要的或不曾预料 到的。基于各种条件或人口资料的表达式的备选方案可以加载到上下 文域代理230和/或词汇表235中,交替表达功能可以基于推断的或 新发现的变化,更新上下文域代理230和/或词汇表235。在一种实 现方式中,谈话语音引擎215可以包括预订接口,以更新对上下文 域代理230和/或词汇表235的更改(例如,储存库可以综合各种用 户发声和部署全系统的更新)。在操作中,交替表达功能可以允许名词和/或动词以不同的方式表示,以给出简单化的,但典型的示例。例 如,对Washington, D.C.的天气预^^感兴趣的用户可能提供任何一 个下面的发声,其中每一个都被等效地解释"What'sthe weather like in DC", "Is it raining inside the Beltway", "Gimme the forecast for the capital,,等等。类似地,"Go to my home",本文档来自技高网...

【技术保护点】
一种用于提供生成对用户发声的协作会话响应的语音用户界面的方法,所述响应基于有关当前谈话和/或一个或多个过去的谈话的共享知识,所述方法包括: 接收输入,所述输入至少包括一个发声; 更新所述共享知识以包括关于所述至少一个发声的知识;  基于所述更新的共享知识,确定所述至少一个发声的预定的含义;以及 基于所述确定的预定的含义生成响应。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:L贝尔德文T弗莱曼M特加尔弗B艾弗尔索德C威德尔
申请(专利权)人:沃伊斯博克斯科技公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1