声音对话系统、声音对话方法及计算机可读存储介质技术方案

技术编号:19323372 阅读:22 留言:0更新日期:2018-11-03 12:20
本发明专利技术提供一种声音对话系统、声音对话方法及计算机可读存储介质。声音对话系统具备:扬声器;麦克风,在从所述扬声器输出声音的期间将麦克风增益设定得低;声音识别部,对从所述麦克风输入的输入声音数据实施声音识别处理;声音输出部,生成输出声音数据而从所述扬声器输出;以及不可听声输出部,在以阈值以下的时间间隔输出多个声音输出的情况下,至少在所述多个声音输出之间从所述扬声器输出不可听声。

Voice dialogue system, voice conversation method and computer readable storage medium

The invention provides a voice conversation system, a voice conversation method and a computer readable storage medium. The voice dialog system includes: a loudspeaker; a microphone, which sets the microphone gain low during the period of output sound from the loudspeaker; a voice recognition unit, which performs voice recognition processing for input sound data input from the microphone; a voice output unit, which generates output sound data and outputs it from the loudspeaker; and The inaudible sound output unit outputs inaudible sound from the loudspeaker at least between the plurality of sound outputs at intervals below the threshold value.

【技术实现步骤摘要】
声音对话系统、声音对话方法及计算机可读存储介质
本专利技术涉及声音对话系统。
技术介绍
作为声音对话系统声音识别失败的原因,可举出如下原因:麦克风拾取正从扬声器输出的声音,以拾取到的声音为对象而开始声音识别处理。为了应对这种情况,声音对话系统具有在声音输出过程中关断麦克风或者下调增益的声音开关功能。在此,在声音对话系统以比较短的间隔连续地进行两个声音输出的情况下,在其之间麦克风按以往那样发挥功能。设想在其之间用户开始发声,在该情况下,在由于第2个声音输出而麦克风被关断的时间点用户发声的输入被切断,所以会根据至中途为止的发声来进行声音识别从而不正确地进行动作。另外,声音对话系统还有时发出声音数据,之后隔开些微的时间来输出表示能够接受用户的声音输入的信号(例如“噼叩(piko)”声)。此时,在发声数据的输出过程中以及信号音的输出过程中不拾取声音,但产生在两个输出之间拾取到不需要的声音(不想输入的用户语音或周围的噪音)这样的问题。在现有技术(专利文献1-5)中,为了防止输入目的声音以外的声音而进行使非目的声音衰减的操作。在这些文献中进行如下处理。首先,判别作为目的的说话者的输入声音信号从目的方向到来的目的声音区间、以及作为说话者以外的声音的干扰声音(说话者以外的声音)、与其重叠的周边噪音等非目的声音区间。然后,在非目的声音区间,下调麦克风的增益,从而使非目的声音衰减。然而,在这些现有技术中,无法解决上述问题。现有技术文献专利文献专利文献1:日本特开2013-125085号公报专利文献2:日本特开2013-182044号公报专利文献3:日本特开2014-75674号公报专利文献4:国际公开第2014/054314号公报专利文献5:日本特开2005-25100号公报
技术实现思路
本专利技术的目的在于防止在声音对话系统以短时间输出多次声音的情况下接受不需要的声音输入而产生设想外的动作。本专利技术的一个方案的声音对话系统,具备:扬声器;麦克风,在从所述扬声器输出声音的期间将麦克风增益设定得低;声音识别部,对从所述麦克风输入的输入声音数据实施声音识别处理;声音输出部,将输出声音数据从所述扬声器输出;以及不可听声输出部,在以阈值以下的时间间隔输出多个声音输出的情况下,至少在所述多个声音输出之间从所述扬声器输出不可听声。在本方案的声音对话系统中,在从扬声器输出声音的期间,与不是这样的情况相比,将麦克风增益设定得低。要将麦克风增益设定得低,还包括关断麦克风功能。本方案中的扬声器能够输出不可听声。不可听声既可以比可听声高也可以比其低。可听声一般是指20Hz~20kHz,但只要为17kHz左右以上就无法听到的用户十分多,所以作为不可听声,也可以采用17kHz或者其以上的声。另外,不可听声只要为如在通常的使用方案中用户无法听到那样的声即可,也可以包含一部分可听声频率的声分量。本方案中的麦克风既可以能够获取扬声器输出的不可听声,也可以无法获取扬声器输出的不可听声。本方案中的不可听声输出部在声音对话系统以阈值以下的时间间隔输出多个声音输出的情况下,至少在其之间从扬声器输出不可听声。时间间隔阈值例如只要设为如两个声音输出连续且不设想在两个声音之间用户发声那样的时间间隔即可。输出的不可听声可以是任意的,例如能够采用不可听声频域内的白噪声或单一频率声。输出不可听声的定时包括从先前的声音输出的结束时间点至之后的声音输出的开始时间点为止即可。例如,输出不可听声的定时可以设为从先前的声音输出的开始时间点至之后的声音输出的结束时间点为止。在本方案中,优选具有在以所述阈值以下的时间间隔输出第1声音和第2声音的情况下进行以下记载的处理的控制部。即,控制部指示第1声音的再生开始,并且指示不可听声的连续再生开始,在第1声音的再生结束后,指示第2声音的再生开始以及不可听声的连续再生结束。不可听声的连续再生结束的指示优选与第2声音的再生开始指示同时或者在其之后进行。或者,控制部也可以指示第1声音的再生开始,并且指示所述不可听声的连续再生开始,在第1声音的再生结束后指示第2声音的再生开始,在第2声音的再生结束后指示不可听声的连续再生结束。本方案中的声音识别部对从麦克风输入的输入声音数据实施声音识别处理。此时,声音识别部在输入声音数据的可听频带下的音量为预定值以上的情况下进行声音识别处理即可。另外,声音识别部将通过滤波处理而去除不可听声后的声音数据作为识别对象。此外,本专利技术还能够理解成具备上述单元中的至少一部分单元的声音对话系统。本专利技术另外能够理解成执行上述处理中的至少一部分处理的声音对话方法或者发声输出方法。另外,本专利技术还能够理解成用于使计算机执行该方法的计算机程序、或者非临时地存储有该计算机程序的计算机可读存储介质。上述单元以及处理分别能够尽可能地相互组合而构成本专利技术。根据本专利技术,能够防止在声音对话系统短时间输出多次声音的情况下产生接受不需要的声音输入而产生的非预期的动作。附图说明图1是示出实施方式的声音对话系统的系统结构的图。图2是示出实施方式的声音对话系统的功能结构的图。图3是示出实施方式的声音对话系统中的声音对话方法的整体的处理的流程的流程图。图4是示出实施方式的声音对话系统中的对话处理(发声处理)的流程的例子的图。图5是说明实施方式的声音对话系统中的对话处理(发声处理)的图。具体实施方式以下,参照附图,例示性地详细说明本专利技术的优选实施方式。以下说明的实施方式是将声音对话机器人用作本地的声音对话终端的系统,但本地的声音对话终端不是必须为机器人,能够使用任意的信息处理装置、声音对话接口等。<系统结构>图1是示出本实施方式的声音对话系统的系统结构的图,图2是示出功能结构的图。如图1、图2所示,本实施方式的声音对话系统包括机器人100、智能手机110、声音识别服务器200、对话服务器300。机器人(声音对话机器人)100包括麦克风(声音输入部)101、扬声器(声音输出部)102、声音开关控制部103、不可听声噪声输出部104、命令收发部105、通信部(BT:蓝牙(Bluetooth(注册商标)))106。虽然省略了图示,但机器人100具有图像输入部(摄像机)、可动关节(脸部、手臂、腿部等)、该可动关节的驱动控制部、各种灯、该灯的点亮及熄灭等的控制部等。机器人100利用麦克风101获取来自用户的声音,利用图像输入部获取对用户进行拍摄而得到的图像。机器人100经由通信部105将输入声音和输入图像发送到智能手机110。机器人100当从智能手机110获取命令时,与其相应地从扬声器102输出声音、或者驱动可动关节部。声音开关控制部103在从扬声器102输出声音的期间,进行使麦克风101的增益下降的处理。如后所述,在本实施方式中,在输入声音的音量为阈值以上的情况下进行声音识别处理。因而,声音开关控制部103只要使麦克风的增益下降成为不使声音识别处理开始的程度的音量即可。声音开关控制部103也可以将增益设定为零。在本实施方式中,机器人100针对麦克风101及扬声器102不进行开启/关断控制,这些开启/关断控制根据来自智能手机110的指示而进行。机器人100利用声音开关控制部103防止从扬声器102输出的声音被输入到麦克风101。不可听声噪声输出本文档来自技高网
...

【技术保护点】
1.一种声音对话系统,具备:扬声器;麦克风,在从所述扬声器输出声音的期间将麦克风增益设定得低;声音识别部,对从所述麦克风输入的输入声音数据实施声音识别处理;声音输出部,将输出声音数据从所述扬声器输出;以及不可听声输出部,在以阈值以下的时间间隔输出多个声音输出的情况下,至少在所述多个声音输出之间从所述扬声器输出不可听声。

【技术特征摘要】
2017.04.25 JP 2017-0862571.一种声音对话系统,具备:扬声器;麦克风,在从所述扬声器输出声音的期间将麦克风增益设定得低;声音识别部,对从所述麦克风输入的输入声音数据实施声音识别处理;声音输出部,将输出声音数据从所述扬声器输出;以及不可听声输出部,在以阈值以下的时间间隔输出多个声音输出的情况下,至少在所述多个声音输出之间从所述扬声器输出不可听声。2.根据权利要求1所述的声音对话系统,其中,所述声音对话系统还具备控制部,该控制部在以所述阈值以下的时间间隔输出第1声音和第2声音的情况下,指示所述第1声音的再生开始,并且指示所述不可听声的连续再生开始,在所述第1声音的再生结束后,指示所述第2声音的再生开始以及所述不可听声的连续再生结束。3.根据权利要求1所述的声音对话系统,其中,所述声音对话系统还具备控制部,该控制部在以所述阈值以下的时间间隔输出第1声音和第2声音的情况下,指示所述第...

【专利技术属性】
技术研发人员:池野笃司水摩智坂本快矢统今野裕人西岛敏文刀根川浩巳梅山伦秀佐佐木悟
申请(专利权)人:丰田自动车株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1