语音对话系统以及语音对话方法技术方案

技术编号:17616414 阅读:40 留言:0更新日期:2018-04-04 07:26
本发明专利技术提供一种语音对话系统、语音对话方法以及计算机可读介质。语音对话系统具备:对话脚本存储单元,储存有多个对话脚本;以及对话语句生成单元,根据语音识别的结果生成对用户发声进行应答的对话语句。所述对话脚本是以3个发声的内容为1个组的脚本,该3个发声内容为第1系统发声的内容、期待为针对该第1系统发声的应答的用户发声的内容以及作为针对所期待的用户发声的应答的第2系统发声的内容。对话语句生成单元判断所述用户发声是否为被期待为前1个系统发声的应答的发声,在是期待的用户发声的情况下,生成作为针对该期待的用户发声的应答而在对话脚本中定义的第2系统发声,来作为对所述用户发声进行应答的对话语句。

Speech dialogue system and speech dialogue method

The invention provides a voice dialogue system, a speech dialogue method and a computer readable medium. The speech dialogue system has: dialogue script storage unit, store multiple dialogue scripts, and dialogue dialogue generation unit, according to the result of speech recognition, generates dialogue dialogue to users' voicing. The dialogue script is with 3 voice of the contents of the 1 groups of the script, the 3 voice content for the first system sound content, expect for the first voice sound system response user's content as well as the second system for the expected user response content of vocal sound. The conversation sentence generating unit determines whether the user is expected to be vocal sound 1 sound system in response, is looking forward to the user utterance situation, as for the expected user generated voice response system second is defined in the dialogue script sound, as the response to the voice dialogue statement the user.

【技术实现步骤摘要】
语音对话系统以及语音对话方法
本专利技术涉及语音对话系统。
技术介绍
语音对话系统期望能够与用户之间进行自然流畅的对话。专利文献1提出有对用户发声的意图进行解释,判断是否是请求信息的检索的发声。该判断根据文章中是否包含预定的字符串等进行。在用户发声的意图为信息的检索的情况下,利用外部的搜索引擎等检索信息,获取检索结果。另一方面,在用户发声的意图不是信息的检索的情况下,从预先确定的闲聊数据中抽取与发声相应的数据。专利文献2公开有如下内容:关于用自然语言描述的文档所包含的语句,进行语句彼此、单词彼此以及语句与单词的对应关联,将该信息保存到会话数据库。当从用户受理了用自然语言描述的疑问句的输入时,计算会话数据库中积蓄的语句与输入的疑问句的类似度,将类似度高的语句选择为回答语句。专利文献1:日本特开2014-98844号公报专利文献2:日本特开2001-175657号公报
技术实现思路
专利文献1、2都是确定针对用户发声的应答语句的专利文献,但由于根据用户的1个发声确定应答,所以有时无法确定适当的系统应答。例如,在用户仅回答了“是”或者“否”的情况下,难以继续进行会话。本专利技术的目的在于提供一种语音对话系统,该语音对话系统即使在用户的发声为短词的情况下也能够掌握意思并回送应答。本专利技术的第一方案为一种语音对话系统(voicedialoguesystem),具备:语音识别单元(voicerecognizer),获取用户发声(userutterance)的语音识别的结果;对话脚本存储单元(dialoguescenariostorage),储存有多个对话脚本;以及对话语句生成单元(dialoguetextgenerator),根据所述语音识别的结果生成对所述用户发声进行应答的对话语句,所述对话脚本是以3个发声的内容为1个组的脚本,该3个发声内容为第1系统发声的内容、期待为针对该第1系统发声的应答的用户发声的内容以及第2系统发声的内容,该第2系统发声的内容是针对所期待的用户发声的应答,所述对话语句生成单元判断所述用户发声是否为被期待为前1个系统发声的应答的用户发声,在是期待的用户发声的情况下,将作为针对该期待的用户发声的应答而在对话脚本中定义的第2系统发声生成为对所述用户发声进行应答的对话语句。根据这样的结构,由于使用了对话脚本(会话模板),所以不论用户发声的长短,都能够回复考虑了前1个系统发声的内容的自然的应答。在1个对话脚本中,也可以针对第1系统发声定义多个期待的用户发声。在该情况下,根据用户发声的内容分别登记第2系统发声的内容。因而,针对相同的系统发声,能够容易地使系统的第2应答根据用户的应答而不同。在本专利技术中,所述对话语句生成单元也可以在所述用户发声不是被期待为前1个系统发声的应答的用户发声的情况下,从储存于所述对话脚本存储单元的多个对话脚本中选择任意的对话脚本,生成选择出的对话脚本中的第1系统发声的内容来作为对所述用户发声进行应答的对话语句。此时,还优选为考虑此前的会话的话题、当前的状况(场景)、用户的情绪中的至少一方来选择对话脚本。为了能够进行这样的选择,可以在对话脚本存储单元中与对话脚本对应关联地存储会话的话题、状况、用户的情绪。另外,在本专利技术中,当在选择对话脚本而进行了对话语句的生成以及语音输出之后获取到用户发声的情况下,根据所述用户发声是否为在所选择出的所述对话脚本中被储存为所期待的应答的用户发声来进行所述用户发声是否为被期待为前1个系统发声的应答的用户发声的判断。另外,在本专利技术中,也可以在所述对话脚本存储单元中储存有其它对话脚本,该其它对话脚本中作为第1系统发声的内容而具有至少一部分对话脚本中的第2系统发声的内容。还考虑在1个对话脚本中定义比3个发声长的对话,只要准备多个包括3个发声的脚本并将它们衔接起来进行对话,则对话脚本的管理就变容易了。此外,本专利技术能够理解为具备上述单元的至少一部分的语音对话系统。另外,本专利技术还能够理解为构成语音对话系统的语音对话装置或者对话服务器。另外,本专利技术还能够理解为执行上述处理的至少一部分的语音对话方法。另外,本专利技术还能够理解为用于使计算机执行该方法的计算机程序、或者非临时地存储该计算机程序的计算机可读存储介质。能够最大限地相互组合上述单元以及处理的每一个来构成本专利技术。根据本专利技术,在语音对话系统中,即使在用户的发声为短词的情况下也能够掌握意思并返回应答。附图说明图1是示出实施方式的语音对话系统的结构的图。图2是示出变形例的语音对话系统的结构的图。图3的(A)以及图3的(B)是示出对话脚本的例子的图。图4是示出实施方式的语音对话系统中的处理的流程的例子的图。图5是实施方式中的用户与系统之间的对话的例子。具体实施方式以下,参照附图,举例来详细说明本专利技术的一个实施方式。以下说明的实施方式是将语音对话机器人用作语音对话终端的系统,但语音对话终端并不是非机器人不可,能够使用任意的信息处理装置、语音对话接口等。<系统结构>图1是示出本实施方式的语音对话系统(语音对话机器人)的结构的图。本实施方式的语音对话机器人100是包括麦克风101、传感器103、扬声器108、微型处理器等运算装置、存储器以及通信装置等的计算机。利用微型处理器执行程序,从而语音对话机器人100作为语音识别部(voicerecognizer)102、场景推测部(sceneestimator)104、对话语句生成部(dialoguetextgenerator)105、对话脚本存储部(dialoguescenariostorage)106、语音合成部(voicesynthesizer)107发挥功能。虽未图示,但语音对话机器人100也可以具备图像获取装置(照相机)、可动关节部、移动单元等。语音识别部102对从麦克风101输入的用户发声的语音数据进行噪音去除、声源分离、特征量抽取等处理,使用户发声的内容文本化。语音识别部102根据用户发声的内容推测话题,或者根据用户发声的内容或语音特征量推测用户的情绪。场景推测部104根据从传感器103得到的传感器信息推测当前的场景。传感器103可以是任意的传感器,只要能够获取周围的信息即可。例如,能够使用获取位置信息的GPS传感器,判断当前的场景是呆在家中、在工作单位工作中、还是逗留在旅游景点等。除此以外,还可以将时钟(时刻获取)、照度传感器、降雨传感器、速度传感器、加速度传感器等用作传感器103来推测当前的场景。对话语句生成部105确定要向用户发出的系统发声的内容。典型地,对话语句生成部105根据用户发声的内容或当前会话的话题、用户的情绪、当前的场景等生成对话语句。对话语句生成部105参照存储于对话脚本存储部106的会话模板(对话脚本)确定对话语句。会话模板是(1)系统发声、(2)期待为系统发声的应答的用户发声、(3)对所期待的用户发声进行应答的系统发声这3个发声为1组的模板。如果在依照会话模板发声之后从用户得到的应答是被期待为最初的系统发声的应答的应答,则对话语句生成部105将会话模板中定义的系统应答确定为用于对用户发声进行应答的对话语句。详情如后所述。语音合成部107从对话语句生成部105接收发声内容的文本,进行语音合成而生成应答语音数据。从扬声器本文档来自技高网...
语音对话系统以及语音对话方法

【技术保护点】
一种语音对话系统,其特征在于,具备:语音识别单元,获取用户发声的语音识别的结果;对话脚本存储单元,储存有多个对话脚本;以及对话语句生成单元,根据所述语音识别的结果生成对所述用户发声进行应答的对话语句,所述对话脚本是以3个发声的内容为1个组的脚本,该3个发声内容为第1系统发声的内容、期待为针对该第1系统发声的应答的用户发声的内容以及第2系统发声的内容,该第2系统发声的内容是针对所期待的用户发声的应答,所述对话语句生成单元构成为判断所述用户发声是否为被期待为前1个系统发声的应答的用户发声,在是期待的用户发声的情况下,根据作为针对该期待的用户发声的应答而在对话脚本中定义的第2系统发声生成对所述用户发声进行应答的对话语句。

【技术特征摘要】
2016.09.28 JP 2016-1893821.一种语音对话系统,其特征在于,具备:语音识别单元,获取用户发声的语音识别的结果;对话脚本存储单元,储存有多个对话脚本;以及对话语句生成单元,根据所述语音识别的结果生成对所述用户发声进行应答的对话语句,所述对话脚本是以3个发声的内容为1个组的脚本,该3个发声内容为第1系统发声的内容、期待为针对该第1系统发声的应答的用户发声的内容以及第2系统发声的内容,该第2系统发声的内容是针对所期待的用户发声的应答,所述对话语句生成单元构成为判断所述用户发声是否为被期待为前1个系统发声的应答的用户发声,在是期待的用户发声的情况下,根据作为针对该期待的用户发声的应答而在对话脚本中定义的第2系统发声生成对所述用户发声进行应答的对话语句。2.根据权利要求1所述的语音对话系统,其特征在于,所述对话语句生成单元构成为在所述用户发声不是被期待为前1个系统发声的应答的用户发声的情况下,从储存于所述对话脚本存储单元的多个对话脚本中选择任意的对话脚本,生成选择出的对话脚本中的第1系统发声的内容来作为对所述用户发声进行应答的对话语句。3.根据权利要求2所述的语音对话系统,其特征在于,当在选择对话脚本而进行了对话语句的生成以及语音输出之后获取到用户发声的情况下,根据所述用户发声是否为在所选择出的所述对话脚本中被储存为所期待的应答的用户发声来进行所述用户发声是否为被期待为前1个系统发声的应答的用户发声的判断。4.根据权利要求1所述的语音对话系统,其特征在于,所述对话脚本存储单元中储存有其它对话脚本,该其它对话脚本中作为第1系统发声的内容而具有至少一部分对话脚本中的第2系统发声的内容。5.一种语音对话方法,其特...

【专利技术属性】
技术研发人员:池野笃司岛田宗明畠中浩太西岛敏文片冈史宪刀根川浩巳梅山伦秀
申请(专利权)人:丰田自动车株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1