语音对话方法及语音对话装置制造方法及图纸

技术编号:22506153 阅读:31 留言:0更新日期:2019-11-09 03:57
语音对话装置(100)具有:音高调整部(43),其与用于对话的对话语音的音高相应地,对先于该对话语音而播放的先发语音的音高进行调整;第1播放指示部(45),其对由音高调整部(43)调整后的先发语音的播放进行指示;以及第2播放指示部(47),其对通过第1播放指示部(45)实现的先发语音播放后的对话语音的播放进行指示。

Voice dialogue method and voice dialogue device

The voice dialogue device (100) is provided with a pitch adjusting unit (43), which adjusts the pitch of the first speech played prior to the dialogue speech corresponding to the pitch of the dialogue speech used for dialogue; a first playback indicating unit (45), which indicates the playback of the first speech adjusted by the pitch adjusting unit (43); and a second playback indicating unit (47), which indicates the playback of the first speech played through the first playback indicating unit (45) The implementation of the first voice play after the dialogue voice play instructions.

【技术实现步骤摘要】
【国外来华专利技术】语音对话方法及语音对话装置
本专利技术涉及语音对话。
技术介绍
以往提出了一种语音对话的技术,该语音对话的技术通过播放针对由利用者所说的话的应答(例如针对提问的回答)的语音,从而实现与利用者的对话。在例如专利文献1中公开了下述技术,即,通过针对利用者的说话语音的语音识别而对说话内容进行解析,对与解析结果相对应的应答语音进行合成及播放。专利文献1:日本特开2012-128440号公报
技术实现思路
但是,基于包含专利文献1的已有技术,存在下述问题,即,实际上难以实现忠实地反映出现实的人彼此的对话倾向的自然的语音对话,利用者可能感受到机械性、不自然的印象。考虑到以上的情况,本专利技术以实现自然的语音对话为目的。为了解决以上的课题,本专利技术的优选的方式所涉及的语音对话方法包含下述步骤:韵律调整步骤,与用于对话的对话语音的韵律相应地,对先于该对话语音而播放的先发语音的韵律进行调整;第1播放指示步骤,对在所述韵律调整步骤中调整后的所述先发语音的播放进行指示;以及第2播放指示步骤,对通过所述第1播放指示步骤实现的所述先发语音播放后的所述对话语音的播放进行指示。本专利技术的优选的方式所涉及的语音对话装置具有:韵律调整部,其与用于对话的对话语音的韵律相应地,对先于该对话语音而播放的先发语音的韵律进行调整;第1播放指示部,其对由所述韵律调整部调整后的所述先发语音的播放进行指示;以及第2播放指示部,其对通过所述第1播放指示部实现的所述先发语音播放后的所述对话语音的播放进行指示。附图说明图1是第1实施方式中的语音对话装置的结构图。图2是第1实施方式中的间投词语音及应答语音的说明图。图3是第1实施方式中的控制装置所执行的处理的流程图。图4是第2实施方式中的说话语音、2个间投词语音及应答语音的说明图。图5是第2实施方式中的控制装置执行的处理的流程图。具体实施方式<第1实施方式>图1是本专利技术的第1实施方式所涉及的语音对话装置100的结构图。第1实施方式的语音对话装置100是播放针对由利用者U发出的语音(以下称为“说话语音”)Vx的应答的语音(以下称为“应答语音”)Vz的语音对话系统。例如便携电话机、智能手机等移动式的信息处理装置、或者个人计算机等信息处理装置能够利用作为语音对话装置100。另外,也能够通过模拟出动物等的外观的玩具(例如动物娃娃等玩偶)、机器人的形态实现语音对话装置100。说话语音(speechsound)Vx例如是包含询问(提问)及交谈在内的说话的语音,应答语音(对话语音的例示)Vz是包含针对询问的回答或者针对交谈的回应在内的应答的语音。第1实施方式的应答语音(对话语音)Vz是由大于或等于1个语句构成的具有特定的意思的语音。例如,针对说话语音Vx“请告诉学校的地址?”的应答语音Vz,可设想到“第三条街的拐角”。在这里,在现实的人和人之间的对话中,在说话者的说话语音和对话对象发出的应答语音之间存在下述倾向,即,由对话对象发出某种语音(在典型情况下为间投词的语音)。因此,如果在紧接说话语音Vx之后播放应答语音Vz,则会对利用者U造成机械性、不自然的印象。因此,第1实施方式的语音对话装置100如图2所例示这样,在从说话语音Vx的发出(例如说话语音Vx的发音结束时)至应答语音Vz的播放(例如应答语音Vz的播放开始时)为止的期间(以下称为“等待期间”)Q内,播放间投词的语音(以下称为“间投词语音”)Vy。即,间投词语音(先发语音的例示)Vy,是先于应答语音(对话语音)Vz而播放的语音。间投词语音(先发语音)Vy是表示间投词的语音。间投词是从其他词节独立而利用的没有实际效用的独立词(叹词或者感叹词)。具体地说,作为间投词而能够例示下述词:表示说话彼此的搭腔的“嗯(un)”及“诶(ee)”等语句(在英语中为“aha”或者“right”)、表示停顿(应答的停滞)的“这个~(eto)”及“那个~(ano)”等语句(在英语中为“um”或者“er”)、表示应答(针对提问的肯定或者否定)的“是(hai)”及“不是(iie)”等语句(在英语中为“yes”或者“no”)、表示说话者的感叹的“啊(aa)”及“哦(oo)”等语句(在英语中为“ah”或者“woo”)、及表示针对说话的反问(重问)的“什么?(e)”“啥?(nani)”等语句(在英语中为“pardon?”或者“sorry?”)。应答语音(对话语音)Vz定位为针对说话语音Vx的必要的应答,与此相对,间投词语音(先发语音)Vy定位为在应答语音Vz之前补充性(辅助性)以及追加性地发出的任意性的应答(在对话中可省略的应答)。间投词语音Vy也可以换言为是不包含于应答语音Vz中的单独的语音。如图2中例示这样,在第1实施方式中,例示出下述情况,即,针对“请告诉学校的地址?”这样的询问的说话语音Vx,播放“这个~”这样的表示停顿的间投词语音Vy,在间投词语音Vy之后播放“第三条街的拐角”这样的回答的应答语音Vz。第1实施方式的语音对话装置100如图1中例示这样,具有拾音装置20、存储装置22、控制装置24和放音装置26。拾音装置20(例如传声器)生成表示利用者U的说话语音Vx的信号(以下称为“说话信号”)X。此外,为了方便而省略了将由拾音装置20生成的说话信号X从模拟变换为数字的A/D变换器的图示。放音装置26(例如扬声器或者耳机)对与从控制装置24供给的信号相对应的声音进行播放。第1实施方式的放音装置26根据控制装置24的指示对间投词语音Vy和应答语音Vz进行播放。存储装置22对由控制装置24执行的程序、由控制装置24使用的各种数据进行存储。例如半导体记录介质或者磁记录介质等公知的记录介质、或者多个记录介质的组合可以作为存储装置22而任意地采用。具体地说,存储装置22对表示停顿的间投词语音Vy的语音信号Y1进行存储。在下面的说明中,例示出表示停顿“这个~”的任意的韵律的、表示间投词语音Vy的语音信号Y1存储于存储装置22的情况。在本实施例中,作为韵律而使用音高。语音信号Y1事先被收录,例如作为wav形式等任意的形式的语音文件而存储于存储装置22。控制装置24是对语音对话装置100的各要素集中地控制的运算处理装置(例如CPU)。控制装置24执行在存储装置22中存储的程序,由此实现用于使与利用者U的对话成立的多个功能(应答生成部41、音高调整部43(韵律调整部)、第1播放指示部45及第2播放指示部47)。此外,也可以采用下述结构,即,将控制装置24的功能通过多个装置(即,系统)实现的结构,或者将控制装置24的功能的一部分由专用的电子电路分担的结构。图1的应答生成部41生成针对说话语音Vx的应答语音Vz。第1实施方式的应答生成部41通过针对说话信号X的语音识别和利用了该语音识别的结果的语音合成,生成表示应答语音Vz的应答信号Z。具体地说,应答生成部41,第1是通过针对由拾音装置20生成的说话信号X的语音识别而对说话语音Vx的内容(以下称为“说话内容”)进行确定。在第1实施方式中,对说话语音Vx“请告诉学校的地址?”这一说话内容进行确定。在说话信号X的语音识别时,可任意地采用例如利用了HMM(HiddenMarkovModel)等音响模型和表示语言性的限制的语言模型的识别技术等公知的技术。应答生成部41,第2本文档来自技高网...

【技术保护点】
1.一种语音对话方法,其包含下述步骤:韵律调整步骤,与用于对话的对话语音的韵律相应地,对先于该对话语音而播放的先发语音的韵律进行调整;第1播放指示步骤,对在所述韵律调整步骤中调整后的所述先发语音的播放进行指示;以及第2播放指示步骤,对通过所述第1播放指示步骤实现的所述先发语音播放后的所述对话语音的播放进行指示。

【技术特征摘要】
【国外来华专利技术】2017.03.09 JP 2017-0445571.一种语音对话方法,其包含下述步骤:韵律调整步骤,与用于对话的对话语音的韵律相应地,对先于该对话语音而播放的先发语音的韵律进行调整;第1播放指示步骤,对在所述韵律调整步骤中调整后的所述先发语音的播放进行指示;以及第2播放指示步骤,对通过所述第1播放指示步骤实现的所述先发语音播放后的所述对话语音的播放进行指示。2.根据权利要求1所述的语音对话方法,其中,所述对话语音为针对说话语音的应答语音,所述先发语音为间投词的语音,在所述第1播放指示步骤中,在从所述说话语音至所述应答语音的播放为止的等待期间内对所述先发语音的播放进行指示。3.根据权利要求1所述的语音对话方法,其中,所述韵律包含音高,在所述韵律调整步骤中,与所述对话语音的音高相应地对所述先发语音的音高进行调整。4.根据权利要求3所述的语音对话方法,其中,在所述韵律调整步骤中,与所述对话语音中的末尾区间的音高相应地对所述先发语音的音高进行调整。5.根据权利要求4所述的语音对话方法,其中,在所述韵律调整步骤中,进行调整以使得所述先发语音的终点的音高与所述对话语音中的所述末尾区间的最低音高一...

【专利技术属性】
技术研发人员:嘉山启松原弘明浦纯也
申请(专利权)人:雅马哈株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1