用于认知超负荷的设备用户的交互式对话制造技术

技术编号:7017122 阅读:205 留言:0更新日期:2012-04-11 18:40
一种与认知超负荷的设备用户进行交互式对话的系统和方法,包括维护与设备和领域有关的信息的知识库;采用关系方式和本体方式中的至少一种组织所述信息;从用户处接收语音;将语音转换为单词序列;识别单词序列中的部分专有名词;使用所述领域信息的模型从单词序列中确定含意结构;调节所述部分专有名词的边界以增强所述含意结构的准确率;使用所述知识库在与认知超负荷的用户的对话的上下文中理解该含意结构;选择对于认知超负荷的用户的应答内容;基于所选择内容、所述对话的上下文以及语法规则生成所述应答;以及合成所述应答的语音波形。

【技术实现步骤摘要】

本专利技术涉及用于认知超负荷的设备用户的交互式对话的方法和系统。
技术介绍
带有口语对话接口的系统已经在广泛应用中获得稳步增长的认可。但是,口语对话接口系统可以使用受限语言和脚本对话交互。特别是,口语语言对话系统可以包括极少被关注的语言理解和对话交互的简单模型。然而,真实的人类对话可能很大程度上依赖于上下文和环境,充满不合语法的言辞(utterance)和不完整句,并且很可能是相当交互性和协作性的。例如,说话人可能互相打断,说完各自的句子,以及共同对共享的上下文做出贝献。理解语言和对自然对话建模在建造友好的口语语言接口中是很重要,并且在用户对外部任务非常关心的设置中至关重要,例如驾驶直升飞机或汽车。在这种场景中,用户可能在适当时刻之前不能提前计划好他们的措辞或“保持那种想法”。而是用户可能需要能够打断对话系统并做出基于上下文和环境的指示。相反的,对话系统必须在上下文中理解这些贡献,并且应该仅在合适时打断用户(比如在关键情况下),并且任何来自系统的问题都应该尽可能的集中。由此,在高度着重的或认知超负荷的领域(domain)中的会话接口,即那些涉及到专注于其他任务的用户的领域,可能需要更灵活的对话,并且其具有鲁棒性的、 覆盖广泛的语言理解。例如,在汽车工业中,对话系统可以提供对设备的命令和控制。然而,这些系统可能为了语言理解和对话管理而依赖于关键字识别技术和有限状态技术。这些系统可能还会碰到与更新数据库或接入到新设备/应用程序相关的困难。由此,由于这些系统所使用技术的限制,只能处理具有约束性的口语语言表达。此外,较为频繁发生的语言现象,例如代词,歧义和修正,可能不能正确处理。
技术实现思路
本专利技术的典型实施例和/或典型方法提供了一种典型的灵活的对话系统和/或方法,其允许用户在口头上与多种设备交互,并且能够进行具有完全口语理解的丰富对话、多线程对话管理、信息的动态更新、部分专有名词(partial proper name)的识别、并且允许简单有效的即插即用的领域端口。在这点上,根据本专利技术的典型对话系统和/或典型方法理解特定语言现象,该特定语言现象可能在人的对话中是普遍的但可能不容易被现有技术处理。特别是,根据本专利技术的典型对话系统可以提供完全的语言分析,在分析中,该典型系统理解不包含内容的单词的微妙之处,这些单词例如“一个(a)”、“该(the)”、“这个(this)”、“那个(that)”和“其4他的(other)”。此外,典型对话系统可以对用户的言辞提供基于环境和上下文的理解。本专利技术的典型实施例和/或典型方法可以提供动态更新,从而可以动态地添加和扩展设备和信息内容。在这点上,本专利技术可以使用一组技术,其允许新内容的动态更新和新领域的快速适应。本专利技术的典型实施例和/或典型方法可以在管理庞大数量的内容方面给用户增加用户易用性,由此可以加速技术的市场接受程度。本专利技术的典型实施例和/或典型方法可以实现多种应用,并且允许公司快速添加新应用以便获取产业内的市场份额,比如汽车,手持设备和蜂窝电话。本专利技术的典型实施例和/或典型方法使用新的一组技术,其允许动态内容更新并且在管理用户喜欢的内容项目上为用户提供更多的方便。所述新技术还可以允许开发者/公司以更快、更节省成本的方式提出新应用。本专利技术的典型系统和/或典型方法可以包含统计式自然语言理解(NLU)模块,以提供鲁棒的全句分析,以及对话管理器(DM),以支持基于上下文的理解并且管理用户-系统的交互。本专利技术的典型系统和/或典型方法在面对来自语音识别(SR)模块和人类用户的不完整输入时,可以提供鲁棒性,所述不完整输入包括,例如包含对部分专有名词的不完整引用的输入。本专利技术的典型对话系统和/或典型方法可以支持的对话包括对MP3音乐播放器 (在处理专有名词方面具有挑战性的领域)、蜂窝电话、导航系统和/或其他感兴趣点服务的控制。附图说明图IA示出了根据本专利技术的典型对话系统;图IB示出了典型自然语言理解模块;图IC示出了典型对话管理模块;图2示出了用户和图IA的典型系统之间的简单对话,包括MP3音乐播放器的控制;图3示出了典型活动模型和语言映射实现的典型伪代码;图4A示出了与认知超负荷的设备用户进行交互式交谈的典型方法;图4B示出了对从认知超负荷的设备用户处接收到的语音转换的单词序列的含意结构进行确定的典型方法;图5示出了为图1所述的典型系统的用户提供的典型接口,其集成了多个设备;图6示出了图1的典型系统与该典型系统的用户之间的典型对话;以及图7示出了图1的典型系统执行的典型任务分配过程的典型伪代码。具体实施例方式图1示出了典型对话系统100,用于为用户与多个设备151的交互提供端对端口语处理。该典型系统100包括语音增强器模块101、语音识别模块102、自然语言理解(NLU) 模块103、对话管理模块104、应答生成模块105、语音合成模块106、知识库模块107、知识管理模块108、韵律检测模块109以及设备/应用程序管理器110。语音增强器模块101增强典型对话系统100所接收的语音。特别是,语音增强器模块101可以提供例如噪声减少和/或回音消除。语音识别模块102接收声学信号并且输出带有附加标记(例如置信值)的单词序列或者单词网格(lattice)。在这点上,语音识别模块102可以包含采用基于分类的n-gram 和动态语法的细微差别语言识别引擎(Nuance speech recognition engine)。N-gram涉及统计算法,该统计算法基于概率将单词和分类联系起来。自然语言理解模块103接收带有附加置信值的单词序列或单词网格,并且基于针对领域中的语言数据训练得到的统计模型而输出结构化的含意表达。在这点上,自然语言理解(NLU)模块103目的是提供灵活且鲁棒的口语能力。对话管理模块104获取所述结构化的含意表达,并且基于对话上下文和从知识库 107获得的知识,向其他模块发出合适的指令。知识库107与例如用户、设备、外部环境和当前上下文情况有关的知识。知识库107可以包括一个或多个数据库,例如包括关系数据库和本体数据库(ontological database)。特别是,知识库107可以包括例如歌曲、流派、艺术家和其他属性之间的本体关系数据库。知识库107还可以包括,例如导航任务与感兴趣点(POI)服务的本体关系的数据库。在这点上,知识库107可以获取领域数据/知识,以训练在语言理解中使用的统计模型。所述领域数据/知识可以包括,例如用于描绘和预测用户行为的统计量。知识库107 还可以包括语言学的知识,以便解决例如歧义。在这点上,所述语言学知识可以,例如从广泛可用的字典和其他来源中构建,所述其他来源包括,例如朗文出版公司出版的朗文当代英语字典(LDOCE),或者WordNet——由普林斯顿大学的George Miller教授和他的助手们提供的开放资源(请见Cognitive science Group下的普林斯顿大学网站)。知识管理模块108管理知识库107、普通本体,领域特有本体以及用于任何活动领域的任何数据库。知识管理模块108还在不同模块之间更新并且同步当前知识库107。应答生成模块105从对话管理模块104获取内容,选取在该上下文中的相关部分, 并且以简洁的本文档来自技高网
...

【技术保护点】
1.一种用于帮助用户与多个设备交互的对话系统,包括:对话管理模块(104),其配置用于理解从所述用户的输入获得的单词序列以为所述多个设备确定任务;以及设备应用程序管理器(110),其配置用于基于所述理解以及基于下列各项中的至少一项从所述多个设备中自动选择设备:(a)在当前语言上下文中使用的设备;(b)指示上下文变化的语言线索;(c)对设备的明确的访问;以及(d)对于与所述设备的活动模型选择性关联的语言模板的所述单词序列的匹配。

【技术特征摘要】
2004.09.27 US 10/952,0691.一种用于帮助用户与多个设备交互的对话系统,包括对话管理模块(104),其配置用于理解从所述用户的输入获得的单词序列以为所述多个设备确定任务;以及设备应用程序管理器(110),其配置用于基于所述理解以及基于下列各项中的至少一项从所述多个设备中自动选择设备(a)在当前语言上下文中使用的设备;(b)指示上下文变化的语言线索;(c)对设备的明确的访问;以及(d)对于与所述设备的活动模型选择性关联的语言模板的所述单词序列的匹配。2.根据权利要求1所述的对话系统,还包括知识库,其用于存储与所述多个设备有关的设备信息,并且用于采用关系方式和本体方式中的至少一种方式来对所述设备信息进行分类;其中,所述设备应用程序管理器配置用于以隔离所述知识库中的所有其他设备信息以及隔离所述知识库中的不依赖于设备的信息的方式,封装所述知识库中的所述多个设备中的每一个设备的各自的设备信息。3.根据权利要求2所述的对话系统,还包括应答生成模块,其用于选择内容并且基于所述上下文和语法规则生成对所述用户的应答;以及语音合成模块,其用于合成所述应答的语音波形。4.根据权利要求1所述的对话系统,其中,所述活动模型是多个活动模型中的一个,所述多个活动模型中的每一个说明性地指定了所述多个设备中的各个设备的能力并且包括从动词及其参数到设备动作的映射。5.根据权利要求1所述的对话系统,其中,所述对话管理模块配置用于向所述多个设备查询它们各自的与所述任务有关的能力,并且基于来自所述多个设备的应答执行以下操作之一 (1)将所述任务发送到合适的设备;以及( 如果所述设备中不止一个设备适于所述任务,则询问所述用户以确定使用哪个设备来执行所述任务。6.根据权利要求1所述的对话系统,其中,在所述当前语言上下文中的设备被重设,使得它在上下文中预定时间量之后不再被认为是在所述当前语言上下文中。7.根据权利要求1所述的对话系统,其中,设备通过下列两种方式之一成为在所述当前语言上下文中的设备(1)被所述用户明确地访问;以及( 被命令指示。8.根据权利要求1所述的对话系统,还包括语音识别模块(102),其配置用于从所述用户处接收言辞并将所述言辞转换为所述单词序列;以及自然语言理解模块(103),其配置用于从所述单词序列中确定含意结构;其中,所述单词序列的所述理解包括理解所述含意结构以确定所述任务。9.一种用于帮助用户与多个设备交互...

【专利技术属性】
技术研发人员:翁富良L·卡维多B·拉格胡那坦D·米尔科维奇L·希亚特H·施密特A·格林施泰因S·彼得斯
申请(专利权)人:罗伯特·博世有限公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1