在自然语言处理中使用先前对话行为进行的语境解释制造技术

技术编号:15530004 阅读:64 留言:0更新日期:2017-06-04 17:13
公开了用于在多轮对话交互中处理并且解释自然语言(诸如用户话语的解释)的特征。可以维持语境信息,所述语境信息有关用户话语的解释和对所述用户话语的系统响应。可以使用所述语境信息来解释后续用户话语,而非在没有语境的情况下解释后续用户话语。在一些情况下,可以使用基于规则的框架将后续用户话语的解释与先前用户话语的解释合并。可定义规则来确定可合并哪个解释以及在什么条件下可合并它们。

In Natural Language Processing, use contextual explanations of previous conversational behavior

Features are disclosed for processing and interpreting natural language (such as user utterance explanations) in a plurality of rounds of dialog interaction. Contextual information can be maintained, the contextual information relating to the interpretation of user utterances, and the system response to the user utterances. The contextual information can be used to interpret subsequent user utterances, rather than explaining subsequent user utterances without context. In some cases, a rule-based framework can combine the interpretation of subsequent user utterances with the interpretation of previous user utterances. Rules can be defined to determine which ones can be merged and which conditions can be merged.

【技术实现步骤摘要】
【国外来华专利技术】在自然语言处理中使用先前对话行为进行的语境解释背景语音处理系统包括用于从用户接收口头输入并且确定用户是什么意思的各种模块和部件。在一些实现方式中,语音处理系统包括接收用户话语音频输入并且生成一个或多个可能的话语录音的自动语音识别("ASR")模块。ASR模块通常使用声学模型和语言模型。声学模型用来生成假设,针对所述假设,词或子词单元(例如,音素)基于话语的声学特征来对应于话语。语言模型用来基于说出话语的语言的词汇特征来确定使用声学模型生成的哪个假设是最可能的话语录音。语音处理系统还可包括自然语言理解("NLU")模块,所述自然语言理解模块接收文本输入,诸如用户话语的录音,并且使用能以诸如计算机应用程序应用的方式来确定文本的含义。例如,NLU模块可用来使用统计语言模型来确定由ASR模块生成的文本的含义。NLU模块可以随后根据ASR输出来确定用户意图并且将所述意图提供到某个下游处理,所述某个下游处理响应于确定的用户意图来执行某项任务(例如,生成启动电话呼叫、启动所请求音乐的回放、提供所请求信息等命令)。一些语音处理系统配置成与用户进行多轮对话交互。例如,用户可能希望启动某个处理或任务,但是可能未提供全部的必需信息。在这种情况下,语音处理系统可以提示用户缺失的必需信息。作为另一个实例,用户可能希望从系统接收信息。语音处理系统可以提供所请求的信息并且允许用户基于所提供的信息启动后续的处理。附图简述现在将参考以下附图来描述各个专利技术特征的实施方案。在全部附图中,参考数字可被重复使用来指示所参考元件之间的对应关系。附图被提供来示出本文所述的示例性实施方案,并且并不意图限制本公开的范围。图1是在使用先前轮的语境信息进行的多轮对话话语处理期间语音处理系统的各模块之间的说明性数据流的框图。图2是在使用语境解释器进行的话语处理期间客户端装置与语音处理系统之间的说明性数据流的框图。图3是在使用语境解释器进行的话语处理期间客户端装置与语音处理系统之间的说明性数据流的框图。图4是使用语境解释器来处理话语的说明性处理的流程图。图5是确定当前话语解释是否可以与先前话语解释合并的说明性处理的流程图。详述引言本公开涉及增强语音处理系统自然地参与—并且准确地管理—与用户进行的多轮对话交互(例如,包括多个用户话语和/或多个系统响应以完成某项任务的口头对话会期)的能力。大体来描述,多轮对话交互的语音处理结果的准确度至少部分地取决于:能够确定用户话语在先前的用户启动和/或系统启动的对话交互中所传达的意图或信息。当语音处理系统未能维持多轮对话交互的适当语境时,或当用户偏题、说出有关未预期意图的话语、说出句子片段等等时,语音处理系统可能无法准确地响应用户的话语。一些系统使用严格的语法或高度结构化对话,其仅允许特定响应(例如,推导特定信息的提示仅可用推导出的信息来响应—所有的其他响应都被拒绝)。然而,此类系统不允许很多用户和应用程序开发商所期望的自然口头交互。其他系统使用内部"提示问题"或关于未来用户话语的预期主题(例如,预期意图或与意图相关的信息)的其他信息。可在偏向预期主题的情况下处理下一个用户话语,同时仍然允许接受并且恰当地处理有关未预期主题的话语。然而,此类系统可能无法恰当地处理从正在进行的多轮对话交互偏题和返回到所述多轮对话交互,或此类系统可能过于频繁或过快地丢失多轮对话交互的当前语境。本公开的方面涉及维持多轮对话交互(为了方便起见,在本文中也称作"多轮交互")的轮历史。在一些实施方案中,可以维持先前用户话语的语义表达(在本文中也称作"解释")和先前系统响应和行动(在本文中也称作"对话行为")的语义表达。通过维持用户与系统二者的先前轮的语义表达,系统可以在解释相同多轮交互中的后续用户话语时再参考它们。例如,语音处理系统可以再参考用户在多轮交互的先前轮期间已说内容的解释,以获得额外信息或做出有关如何响应当前话语的决定。语音处理系统还可以再参考在多轮交互的先前轮期间系统本身响应于这些交互所做出的行为。以此方式,语音处理系统可以更准确地解释与多轮交互中的一些或所有先前用户话语和系统响应相关的当前用户话语。有利地,访问多轮交互语境的能力可以允许系统正确地解释句子片段(在本文中也称作"非句子话语"或"NSU")、偏题、有歧义的意图等等。例如,多轮交互可包括搜索从具体离开位置到具体目的位置的航班(例如,"搜索从洛杉矶到芝加哥的航班")的请求。多轮交互中的一轮可对应于NSU"星期五上午"。可以使用多轮交互语境推断这个话语的完整含义。它可以被解释为"搜索星期五上午从洛杉矶到芝加哥的航班",但是它也可被解释为返程日期或其他含义。如果多轮交互语境包括系统提示"您希望什么时候返程?",那么对NSU的恰当解释将是搜索星期五上午返程的往返航班。如本文中所使用,术语"语义表达"是指用户话语含义的处理后表达,或响应于用户话语所触发的对话行为含义的非歧义表达。用户话语的语义表达可以是对用户话语意图的解释而不仅是对用户话语的录音或其他词汇表达。例如,如果用户已经说出词"明天",那么其他词或短语(例如,星期几(诸如"星期四")、日历日期(诸如"2014年4月24日")等)在语义意义上可以是等效的。如果仅保存了字符串"明天",那么当随后的话语或对话行为取决于特定日期等时,这个语境可能没有用。说明性地,用户话语的语义表达可以是由语音处理系统的NLU模块或部件生成的数据结构或可编程对象的实例,用来存储关于用户话语解释的信息,诸如解释的域、解释所表达的意图、与意图相关联的信息(例如,意图"时隙"的价值)等。系统对话行为的语义表达可以是将由语音处理系统采取的行动或处理的某个内部识别符。例如,如果语音处理系统从用户推导出额外信息(例如,响应于机票搜索请求而询问旅程日期),那么那个对话行为的语义表达可以是由语音处理系统处理成用户可理解的提示(例如,合成语音或视觉显示)的代码、名称、签名或其他识别符(和相关信息)。在一些实施方案中,对话行为的语义表达可以是由语音处理系统的对话管理器或某个其他部件生成的数据结构或可编程对象,用来存储有关对话行为的信息,诸如对话行为的域、解释所表达的行动(例如,信息推导、意图确认等)、与确定的意图相关联的信息(例如,"时隙")等。本公开的额外方面涉及在多轮交互中解释语境(先前用户和系统轮的语义表达)的基于规则的方法。所述基于规则的方法可以通过提供框架来提升自然语言理解的准确度,以在所述框架中考虑到如上述保存的先前解释和对话行为来解释当前用户话语。在一些实施方案中,取决于用户在当前的多轮交互中已经说出什么先前话语和/或先前已经触发什么对话行为,规则可限定或以其他方式帮助确定响应于用户话语来触发什么对话行为。例如,如果用户启动对机票的搜索,那么用户可提供与搜索相关的某些信息(例如,旅程日期、航空公司和离开位置)。系统可提示用户目的地,并且用户可能因询问各个位置的天气状况而偏题。在这种情况下,用户可预期系统维持了先前为了搜索机票已完成的工作(例如,指定旅程日期、航空公司和离开位置),并且用户可响应于目的地信息的系统推导来简单地提供目的地。通过存储先前话语和对话行为的语义表达,语音处理系统可以(通过例如将话语与先前提供的信息合并到完整形成的意图和对应的时本文档来自技高网...
在自然语言处理中使用先前对话行为进行的语境解释

【技术保护点】
一种系统,其包括:计算机可读存储器,其存储可执行指令;以及一个或多个处理器,其与所述计算机可读存储器通信,其中所述一个或多个处理器由所述可执行指令编程,以至少:获取与用户的第一话语有关的第一音频数据;至少部分地基于所述第一音频数据生成第一语音处理结果,所述第一语音处理结果包括所述第一话语的语义表达;至少部分地基于所述第一语音处理结果生成用于向所述用户呈现的第一响应;存储语境信息,所述语境信息包括所述第一话语的语义表达和所述第一响应的语义表达;获取与所述用户的第二话语有关的第二音频数据;使用所述第二音频数据、所述语境信息和语境解释规则生成第二语音处理结果,其中所述语境解释规则与用所述第二话语的语义表达的时隙值或意图中的至少一个替换所述第一话语的所述语义表达的时隙值或意图中的至少一个有关,并且其中所述语境规则至少部分地基于所述第一响应的所述语义表达;以及至少部分地基于所述第二语音处理结果生成用于向所述用户呈现的第二响应。

【技术特征摘要】
【国外来华专利技术】2014.05.20 US 14/283,0171.一种系统,其包括:计算机可读存储器,其存储可执行指令;以及一个或多个处理器,其与所述计算机可读存储器通信,其中所述一个或多个处理器由所述可执行指令编程,以至少:获取与用户的第一话语有关的第一音频数据;至少部分地基于所述第一音频数据生成第一语音处理结果,所述第一语音处理结果包括所述第一话语的语义表达;至少部分地基于所述第一语音处理结果生成用于向所述用户呈现的第一响应;存储语境信息,所述语境信息包括所述第一话语的语义表达和所述第一响应的语义表达;获取与所述用户的第二话语有关的第二音频数据;使用所述第二音频数据、所述语境信息和语境解释规则生成第二语音处理结果,其中所述语境解释规则与用所述第二话语的语义表达的时隙值或意图中的至少一个替换所述第一话语的所述语义表达的时隙值或意图中的至少一个有关,并且其中所述语境规则至少部分地基于所述第一响应的所述语义表达;以及至少部分地基于所述第二语音处理结果生成用于向所述用户呈现的第二响应。2.如权利要求1所述的系统,其中所述第一话语的所述语义表达包括意图和与所述意图相关联的一个或多个时隙。3.如权利要求1所述的系统,其中所述一个或多个处理器还被编程以在存储与所述第一话语相关联的所述语境信息之后并且在生成针对所述第二用户话语的所述第二语音处理结果之前生成针对中间用户话语的中间语音处理结果。4.一种计算机实现的方法,其包括:在配置有具体计算机可执行指令的一个或多个计算装置的控制下,存储与所述第一自然语言输入和对所述第一自然语言输入的第一响应相关联的语境信息,其中所述语境信息包括所述第一自然语言输入的语义表达和对所述自然语言输入的所述第一响应的语义表达;至少部分地基于所述语境信息生成针对第二自然语言输入的自然语言处理结果,其中所述自然语言处理结果包括与所述第一自然语言输入的所述语义表达合并的所述第二自然语言输入的语义表达的至少一部分;以及至少部分地基于所述自然语言处理结果生成对...

【专利技术属性】
技术研发人员:朱塞佩·迪法布里奇奥希希尔·斯里德哈·巴拉蒂Y·史兰伯特·马赛厄斯
申请(专利权)人:亚马逊技术有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1