语音对话设备、方法和机器人设备技术

技术编号:3045877 阅读:422 留言:0更新日期:2012-04-11 18:40
在传统的语音对话设备中,有着难于与用户进行自然对话的情况。对用户的话音进行话音识别,并根据话音识别的结果,按照预定的场景来控制与用户的对话,并且,如果必要的话,根据用户话音的内容而生成响应句子,从而音频合成一个再现场景的句子或者生成的响应句子。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及语音对话系统和方法以及机器人设备,例如,适合于娱乐用的机器人。
技术介绍
由语音对话系系统通过语音与人进行对话的方法可以根据内容分为两类。它们是“有场景(scenario)对话”和“无场景对话”。在这两类方法之中,“无场景对话”方法是一种称为“非人工智能”的对话方法,它是通过E1iza为代表的一个简单答复句子产生算法而实现的(见非专利文献1)。在“无场景的对话”方法中,如图36所示,通过重复一个反复的过程来进行处理(步骤SP92),如果用户说出几句话,语音对话系统就对这些话进行话音识别(步骤SP90),并根据识别结果来产生答复句子,以及用声音发出此答复句子(步骤SP91)。在“无场景的对话”方法中的问题是如果用户不发声的话,对话就不进行。例如,如果图36的步骤SP91中产生的响应是促使用户说出下一句的内容,那么对话进行,然而,如果不是,例如,如果用户进入“不能说下一句话”的状况,语音对话系统就继续等待用户发声并且不进行对话。进而,在“无场景对话”方法中,由于对话没有场景,因此,有这样的问题,这就是在图36的步骤SP91中,在产生响应时,在对话流中难于产生所考虑的答复句子。例如,难于进行这样的处理,这就是在听到用户的简述过后(profile over)之后,语音对话系统将它反映在对话中。另一方面,“有场景对话”是这样的一个对话方法,其中,通过语音对话系统根据预定的场景连续地发声来进行对话,并且它的进行是通过两轮(turn)的组合来完成的,即,一轮是语音对话系统单方面地讲话,另一轮是语音对话系统询问用户并进而响应用户对问题的答复。应当说明的是,“轮”是指对话中明显独立的发声或者是对话的一个单元。在这种对话方法的情况下,用户只答复问题,因此,用户并没有失去他所说的东西。进而,可以用问题的内容来限制用户的言词,因此,在语音对话系统根据用户的答复做出进一步响应的轮中,答复句子的设计是比较容易的。例如,作为语音对话系统向用户提问的一轮,只准备“是”和“否”两种答案就行了。此外,还有一个优点,这就是语音对话系统能通过使用一个情节流(a flow of story)来产生答复句子。专利文献1“Artificial Unintelligence Review”,[在线],[于2003年3月14日(Heisei15)查到],互联网<URLhttp//www.ycf.nanet.cojp/-skato/muno/review.htm> 然而,这个对话方法也有一些问题。首先,由于语音对话系统只能根据假设用户的答复内容而事先设计出来的场景来讲话,因此,在用户说出预料之外的话时,该语音对话系统就不能做出响应。例如,对于能用“是/否”来答复的提问,如果用户答复两者皆可,但是,他从未想过这样的一个事情或类似的事情,语音对话系统不能做出任何响应,即使做出响应,也只能是对用户答复的极不合适的响应。进而,在这样的情况下,以后情节变得不自然的可能性就会升高。其次,难于设置以下两轮出现比率的程度,即,一轮语音对话系统单方面讲话和一轮语音对话系统向用户提问并进而根据用户对问题的答复加以响应。实际上,在上述的语音对话系统中,如果前一轮太频繁,那就造成语音对话系统单方面对用户讲话的印象,而用户并不感觉到“正在进行对话”。相反,如果后一轮太频繁,那就造成这样的感觉,用户是在答复对用户的调查或查询;在此情况下,用户也不感觉到“在进行对话”。相应地,可以考虑,通过解决常规的语音对话系统中的问题,语音对话系统能和用户进行正常的对话,并能明显地改进可行性和娱乐能力。
技术实现思路
本专利技术考虑到以上各点,本专利技术于提供一种语音对话系统、语音对话方法和机器人设备,它们能够和用户进行自然对话。为了解决上述的问题,根据本专利技术,在该语音对话系统中,提供了对话控制装置,用于根据由话音识别装置的话音识别结果并按照以前给出的场景来控制与用户的对话,该话音识别装置对用户的讲话进行话音识别;还提供了响应产生装置,用于产生与用户讲话内容相应的答复句子,并响应来自对话控制装置的请求。对话控制装置根据用户讲话的内容对响应产生装置提出请求,以产生作为场合要求的答复句子。因此,在该语音对话系统中,能够防止与用户的对话变得不自然,并且能给上述的用户一种“正在进行对话”的感觉。此外,根据本专利技术,第一步是对用户的讲话进行话音识别;第二步是根据话音识别的结果并按照以前给出的场景来控制与用户的对话,如果需要,就产生与用户讲话的内容相应的答复句子;第三步是在再现的场景或在所产生的答复句子中对一个句子进行语音合成处理。在第二步中,根据用户讲话的内容并产生与用户讲话内容相应的、作为场合要求的答复句子。因此,利用该语音对话方法,能防止与用户的对话变得不自然,并能给上述的用户一种“正在进行对话”的感觉。此外,根据本专利技术,在机器人设备中,提供了对话控制装置,用于根据由话音识别装置的话音识别结果并按照以前给出的场景来控制与用户的对话,该话音识别装置对用户的讲话进行话音识别,还提供了响应产生装置,用于产生与用户讲话内容相应的答复句子,并响应来自对话控制装置的请求。对话控制装置根据用户讲话的内容对响应产生装置提出请求,以产生作为场合要求的答复句子。结果,在此机器人装置中,能够防止与用户的对话变得不自然,并能给上述的用户一种“正在进行对话”的感觉。附图说明图1是根据本专利技术的具体实施例示出了机器人的外部结构的透视图。图2是根据本专利技术的具体实施例示出了机器人的外部结构的透视图。图3是根据本专利技术的具体实施例来说明机器人的外部结构的概念图。图4是根据本专利技术的具体实施例来说明机器人的内部结构的概念图。图5是根据本专利技术的具体实施例来说明机器人的内部结构的方块图。图6是用于说明由与对话控制相关的主控制部分处理的内容的方块图。图7是用于说明场景的结构的概念图。图8示出了每个块的脚本格式(script format)示意图。图9示出了单句场景块的程序结构的例子的示意图。图10示出了再现单句场景块的程序的流程图。图11示出了提问块程序结构的例子的示意图。图12示出了再现提问块的过程的流程图。图13示出了语义学定义文件的例子的示意图。图14示出了第一提问/答复块的程序结构的例子的示意图。图15示出了再现第一提问/答复块的过程的流程图。图16示出了要用在响应产生部分中的标签的类型。图17示出了答复句子产生规则文件的例子的示意图。图18示出了答复句子产生规则文件的例子的示意图。图19示出了答复句子产生规则文件的例子的示意图。图20示出了答复句子产生规则文件的例子的示意图。图21示出了答复句子产生规则文件的例子的示意图。图22示出了规则表的例子的示意图。图23示出了第二提问/答复块的程序结构的例子的示意图。图24示出了再现第二个提问/答复块的过程的流程图。图25示出了第三个提问/答复块的程序结构的例子的示意图。图26示出了再现第三个提问/答复块的过程的流程图。图27示出了第四个提问/答复块的程序结构的例子的示意图。图28示出了再现第四提问/答复块的过程的流程图。图29示出了第一对话块的程序结构的例子的示意图。图30示出了第一对话块的程序结构的例子的示意图。图31示出了再现第一对话块的过程的流程本文档来自技高网
...

【技术保护点】
一种语音对话系统,该系统包括:话音识别装置,用于对用户的讲话进行话音识别;对话控制装置,用于根据由所述话音识别装置的话音识别结果、按照以前给定的场景来控制与所述用户的对话;响应产生装置,用于产生与用户的讲话内容相应的答复句子,并响应来自所述对话控制装置的请求;话音合成装置,用于对由所述对话控制装置再现的所述场景中的一个句子或对由所述响应产生装置产生的所述答复句子进行话音合成处理;和所述语音对话系统,其中,所述对话控制装置根据所述用户的讲话内容、请求所述响应产生装置产生作为场合要求的所述答复句子。

【技术特征摘要】
【国外来华专利技术】JP 2003-3-20 078086/20031.一种语音对话系统,该系统包括话音识别装置,用于对用户的讲话进行话音识别;对话控制装置,用于根据由所述话音识别装置的话音识别结果、按照以前给定的场景来控制与所述用户的对话;响应产生装置,用于产生与用户的讲话内容相应的答复句子,并响应来自所述对话控制装置的请求;话音合成装置,用于对由所述对话控制装置再现的所述场景中的一个句子或对由所述响应产生装置产生的所述答复句子进行话音合成处理;和所述语音对话系统,其中,所述对话控制装置根据所述用户的讲话内容、请求所述响应产生装置产生作为场合要求的所述答复句子。2.根据权利要求1的语音对话系统,其中,所述对话控制装置根据由所述响应产生装置产生的所述答复句子的属性来控制与所述用户的所述对话。3.根据权利要求1的语音对话系统,其中,通过按任意顺序组合为与所述用户一轮对话提供的、任意数量的并具有相应预定格式的多种类型的若干块来制作所述场景。4.根据权利要求3的语音对话系统,其中包括,作为所述块之一,第一个块具有第一再现步骤,用于再现所述一个句子,以促使所述用户讲话;第一讲话等待和识别步骤,用于在上述的第一再现步骤之后,等待所述用户的讲话,并在所述用户讲话时,识别上面讲话的内容;第二再现步骤,在所述第一讲话等待和识别步骤之后,根据上面讲话的内容是肯定的还是否定的,来再现以前提供的一个相应的句子。5.根据权利要求4的语音对话系统,包括作为所述块之一,第二块具有第一答复句子请求的产生步骤,当在所述第一讲话等待和识别步骤中所识别的所述用户的讲话内容既非是肯定的也非否定的时,就请求所述响应产生装置产生相应于所述用户讲话的内容的所述答复句子。6.根据权利要求5的语音对话系统,包括作为所述块之一,第三块具有第一循环,其中,如果所述答复句子的属性是第一循环类型,就返回到所述第一讲话等待和识别步骤,所述答复句子是由响应所述第一答复句子请求的产生步骤中的所述请求的响应产生部分产生的。7.根据权利要求5的语音对话系统,其中包括作为所述块之一,第四块具有第二循环,其中,如果所述答复句子的属性是第二循环类型,就等待所述用户的讲话,并且在所述用户讲话时,就识别上面讲话的内容,然后返回到所述答复句子请求的产生步骤,所述答复句子是由响应所述第一产生答复句子的请求步骤中的所述请求的响应产生部分产生的。8.根据权利要求5的语音对话系统,包括作为所述块之一,第五块具有确定步骤,用于确定所述答复句子的属性,该答复句子是由所述第一产生答复句子的请求步骤中的所述请求的响应产生部分产生的。第一循环,其中,如果在上述确定步骤中确定的所述答复句子的所述属性是第一循环类型,就返回到所述第一讲话等待和识别步骤;和第二循环,其中,如果在上述确定步骤中确定的所述答复句子的所述属性是第二循环类型,就等待所述用户的讲话,并在所述用户讲话时,识别上面讲话的内容,然后返回到所述答复句子请求的产生步骤。9.根据权利要求3的语音对话系统,包括作为所述块之一,第六块具有第二再现步骤,用于再现所述一个句子,如果需要,可在所述场景中省略这个句子;第二讲话等待和识别步骤,用于在所述第二再现步骤之后等待所述用户的讲话,并在所述用户讲话时,用于识别上述讲话的内容;和第二答复句子请求的产生步骤,在所述第二讲话等待和识别步骤之后,用于请求所述响应产生装置产生相应于所述用户讲话的内容的所述答复句子。10.根据权利要求9的语音对话系统,其中包括作为所述块之一,第七块具有第三循环,其中,如果答复句子的属性是第三循环类型,就返回到所述第二讲话等待和识别步骤,所述答复句子是由响应所述第二答复句子请求的产生步骤中的所述请求的响应产生部分产生的。11.一种语音对话方法...

【专利技术属性】
技术研发人员:广江厚夫下村秀树赫尔穆特勒克南野活树加藤晴
申请(专利权)人:索尼株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1