语音对话装置、语音对话方法以及存储介质制造方法及图纸

技术编号:20628725 阅读:38 留言:0更新日期:2019-03-20 18:16
在以往技术中,无法适当地辅助基于多个语言的语音对话。本发明专利技术能够通过语音对话装置,适当地辅助基于多个语言的语音对话,所述语音对话装置具备:受理部,对于通过两个以上的不同语言发声的输入语音,对该讲话的起始端到终止端进行检测,取得该区间的语音数据;语言识别符取得部,取得识别输入语音的语言的语言识别符;语音识别部,根据输入语音以及语言识别符生成作为语音识别结果的文本;对话控制部,输入语音识别结果的文本与语言识别符,即使语言识别符相对于上一次发生变化也维持对话的履历,并且根据语言识别符生成不同内容的输出语句;语音合成部,根据输出语句以及语言识别符生成语音波形;以及语音输出部,输出与语音合成部取得的语音波形相应的语音。

Voice Dialogue Device, Voice Dialogue Method and Storage Media

In the past, voice dialogue based on multiple languages can not be properly assisted. The invention can appropriately assist voice dialogue based on multiple languages through voice dialogue device. The voice dialogue device has the following functions: the reception unit detects the input voice produced by more than two different languages from the beginning to the end of the speech, and obtains the voice data in the area; the acquisition unit of language identifier obtains the language identifying the input voice. The speech recognition unit generates the text as the result of speech recognition according to the input speech and the language recognizer; the dialogue control unit maintains the resume of the dialogue even if the language recognizer changes relative to the last time, and generates the output sentences of different contents according to the language recognizer; and the speech synthesis unit, The speech waveform is generated according to the output statement and the language recognizer, and the speech output unit outputs the speech corresponding to the speech waveform obtained by the speech synthesis unit.

【技术实现步骤摘要】
【国外来华专利技术】语音对话装置、语音对话方法以及存储介质
本专利技术涉及作为辅助使用多个语言的对话的语音对话装置的跨语言的语音对话装置等。
技术介绍
将能够在混有基于多个语言的语音的情况下接管基于不同语言的对话的履历并生成语音的对话语句的系统称为跨语言语音对话系统。以往,存在使用加权有限状态转换器(WFST)的框架的跨语言语音对话系统(例如,参照非专利文献1)。在先技术文献非专利文献非专利文献1:冈本拓磨,广江厚夫,堀智织,河井恒,“言語理解WFST並列連続に基づくクロスリンガル音声対話”,2015年秋季日本声学会研究发表会讲演论文集,pp.35~38,2015年9月。
技术实现思路
专利技术所要解决的技术问题然而,在以往技术中,即使用户使用的语言(输入语言)切换,语音对话系统也接管对话的履历,但无法根据输入语言改变响应。另外,在以往技术中,在将语音对话装置用于电视电话或电视会议系统等的情况等、说不同语言的多个用户位于分离的场所的情况下,难以一边适当地利用语音对话装置一边进行人与人之间的通话。例如,在电视电话的进行过程中,一个用户对语音对话系统进行提问,系统对其回答,说其他语言的另一个用户对该回答用其他语言向系统提问,系统难以对其也适当地回答。鉴于上述技术问题,本专利技术的目的在于适当地辅助基于多个语言的语音对话。用于解决技术问题的方案本申请的第一专利技术的语音对话装置具备:受理部,对于通过两个以上的不同语言发声的输入语音,对该讲话的起始端到终止端进行检测,取得该区间的语音数据;语言识别符取得部,取得识别输入语音的语言的语言识别符;语音识别部,根据输入语音以及语言识别符生成作为语音识别结果的文本;对话控制部,输入语音识别结果的文本与语言识别符,即使语言识别符相对于上一次发生变化也维持对话的履历,并且根据语言识别符生成不同内容的输出语句;语音合成部,根据输出语句与语言识别符生成语音波形;以及语音输出部,输出与语音合成部取得的语音波形相应的语音。根据该结构,通过识别用户的使用语言,能够返回与用户相应的适当的响应。另外,相对于第一专利技术,本申请的第二专利技术的语音对话装置进一步具备:对话构造信息存储部,能够存储对话构造信息,所述对话构造信息是表示对话的关联的信息并且具有一个以上的对话连接信息,所述对话连接信息具有对第一说话者的输入语音进行抽象的第一对话行为标签以及对第二说话者的输出语音进行抽象的第二对话行为标签;以及输出语句信息存储部,能够存储具有第二对话行为标签与一个以上的语句的输出语音信息;对话控制部具备:第一对话行为标签取得单元,使用语音识别单元取得的字符串,从对话构造信息存储部中取得与字符串相对应的第一对话行为标签;第二对话行为标签取得单元,取得与第一对话行为标签取得单元取得的第一对话行为标签相对应的一个以上的第二对话行为标签中的、一个第二对话行为标签;语句取得单元,从输出语句信息存储部中取得与第二对话行为标签取得单元取得的第二对话行为标签相对应的语句;以及语句变更单元,根据语言识别符取得部取得的语言识别符变更语句取得单元取得的语句,并取得变更后的语句。根据该结构,通过识别用户的使用语言,能够返回与用户相应的适当的响应。另外,相对于第一专利技术,本申请的第三专利技术的语音对话装置进一步具备:对话构造信息存储部,能够存储对话构造信息,所述对话构造信息是表示对话的关联的信息并且具有一个以上的对话连接信息,所述对话连接信息具有对第一说话者的输入语音进行抽象的第一对话行为标签以及对第二说话者的输出语音进行抽象的第二对话行为标签,并且所述对话构造信息具有与第一对话行为标签连接、且与语言识别符相对应的两个以上的第二对话行为标签;以及输出语句信息存储部,能够存储具有第二对话行为标签与一个以上的语句的输出语音信息;对话控制部具备:第一对话行为标签取得单元,使用语音识别单元取得的字符串,从对话构造信息存储部中取得与字符串相对应的第一对话行为标签;第二对话行为标签取得单元,取得与第一对话行为标签取得单元取得的第一对话行为标签相对应的一个以上的第二对话行为标签中的、与语言识别符取得部取得的语言识别符相对应的一个第二对话行为标签;以及语句取得单元,从输出语句信息存储部中取得与第二对话行为标签取得单元取得的第二对话行为标签相对应的语句。根据该结构,通过识别用户的使用语言,能够返回与用户相应的适当的响应。另外,本申请的第四专利技术的服务器装置具备:受理部,从第一终端接收第一说话者的输入语音,对该讲话的起始端到终止端进行检测,取得该区间的语音数据;语音识别部,对输入语音进行语音识别,取得字符串;输出目的地确定部,确定输出基于输入语音的信息的目的地;发送部,在输出目的地确定部确定的输出目的地为第二终端的情况下,将基于输入语音的信息发送至第二终端,在输出目的地确定部确定的输出目的地为语音对话装置的情况下,将语音识别部取得的字符串传送至语音对话装置;响应受理部,从语音对话装置受理与字符串相对应的响应;以及响应发送部,将响应受理部受理的响应发送至第一终端以及第二终端。根据该结构,即使在说不同语言的两个以上的用户位于分离的场所的情况下,也能够进行将语音对话装置适当地用于电视电话与电视会议系统等中的对话。另外,相对于第四专利技术,本申请的第五专利技术的服务器装置为如下的服务器装置:输出目的地确定部根据语音识别部取得的字符串中包含的一个以上的用语,确定输出基于输入语音的信息的目的地。根据该结构,即使在说不同语言的两个以上的用户位于分离的场所的情况下,也能够进行将语音对话装置适当地用于电视电话与电视会议系统等中的对话。另外,相对于第四专利技术,本申请的第六专利技术的服务器装置为如下的服务器装置:输出目的地确定部根据从第一终端发送的用户的指示,确定输出基于输入语音的信息的目的地。根据该结构,即使在说不同语言的两个以上的用户位于分离的场所的情况下,也能够在电视电话与电视会议系统等中一边适当地利用语音对话装置,一边进行人与人之间的通话以及人与装置之间的对话。专利技术的效果根据本专利技术的语音对话装置,能够适当地辅助基于多个语言的语音对话。附图说明图1是本专利技术的第一实施方式中的语音对话装置的框图。图2是示出该实施方式中的语音对话装置的动作的流程图。图3是示出该实施方式中的第一对话行为标签取得处理的动作的流程图。图4是示出该实施方式中的第二对话行为标签取得处理的动作的流程图。图5是示出该实施方式中的语句取得处理的动作的流程图。图6是示出该实施方式中的语句变更处理的动作的流程图。图7是示出该实施方式中的后处理的动作的流程图。图8是示出该实施方式中的对话构造信息管理表的图。图9是该实施方式中的对话状态迁移图。图10是示出该实施方式中的语句对话行为信息管理表的图。图11是示出该实施方式中的输出语句信息管理表的图。图12是示出该实施方式中的关键词管理表的图。图13是示出该实施方式中的输出语句变更信息管理表的图。图14是本专利技术的第二实施方式中的语音对话装置的框图。图15是示出该实施方式中的语音对话装置的动作的流程图。图16是示出该实施方式中的第二对话行为标签取得处理的动作的流程图。图17是示出该实施方式中的对话构造信息管理表的图。图18是该实施方式中的对话状态迁移图。图19是示出该实施方式中的输出语句信息管理表的图。图20是本发本文档来自技高网...

【技术保护点】
1.一种语音对话装置,具备:受理部,对于通过两个以上的不同语言发声的输入语音,对该讲话的起始端到终止端进行检测,取得该区间的语音数据;语言识别符取得部,取得识别所述输入语音的语言的语言识别符;语音识别部,根据所述输入语音以及所述语言识别符生成作为语音识别结果的文本;对话控制部,输入语音识别结果的文本与语言识别符,即使语言识别符相对于上一次发生变化也维持对话的履历,并且根据语言识别符生成不同内容的输出语句;语音合成部,根据输出语句与语言识别符生成语音波形;以及语音输出部,输出与所述语音合成部取得的语音波形相应的语音。

【技术特征摘要】
【国外来华专利技术】2016.07.28 JP 2016-1489841.一种语音对话装置,具备:受理部,对于通过两个以上的不同语言发声的输入语音,对该讲话的起始端到终止端进行检测,取得该区间的语音数据;语言识别符取得部,取得识别所述输入语音的语言的语言识别符;语音识别部,根据所述输入语音以及所述语言识别符生成作为语音识别结果的文本;对话控制部,输入语音识别结果的文本与语言识别符,即使语言识别符相对于上一次发生变化也维持对话的履历,并且根据语言识别符生成不同内容的输出语句;语音合成部,根据输出语句与语言识别符生成语音波形;以及语音输出部,输出与所述语音合成部取得的语音波形相应的语音。2.根据权利要求1所述的语音对话装置,其中,进一步具备:对话构造信息存储部,能够存储对话构造信息,所述对话构造信息是表示对话的关联的信息并且具有一个以上的对话连接信息,所述对话连接信息具有对第一说话者的输入语音进行抽象的第一对话行为标签以及对第二说话者的输出语音进行抽象的第二对话行为标签;以及输出语句信息存储部,能够存储具有第二对话行为标签与一个以上的语句的输出语音信息;所述对话控制部具备:第一对话行为标签取得单元,使用所述语音识别单元取得的字符串,从所述对话构造信息存储部中取得与该字符串相对应的第一对话行为标签;第二对话行为标签取得单元,取得与所述第一对话行为标签取得单元取得的第一对话行为标签相对应的一个以上的第二对话行为标签中的、一个第二对话行为标签;语句取得单元,从所述输出语句信息存储部中取得与所述第二对话行为标签取得单元取得的第二对话行为标签相对应的语句;以及语句变更单元,根据所述语言识别符取得部取得的语言识别符变更所述语句取得单元取得的语句,并取得变更后的语句。3.根据权利要求1所述的语音对话装置,其中,进一步具备:对话构造信息存储部,能够存储对话构造信息,所述对话构造信息是表示对话的关联的信息并且具有一个以上的对话连接信息,所述对话连接信息具有对第一说话者的输入语音进行抽象的第一对话行为标签以及对第二说话者的输出语音进行抽象的第二对...

【专利技术属性】
技术研发人员:广江厚夫冈本拓磨
申请(专利权)人:国立研究开发法人情报通信研究机构
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1