语音对话装置及语音对话方法制造方法及图纸

技术编号:18466335 阅读:28 留言:0更新日期:2018-07-18 16:11
响应模式对应表格(14)中定义有指示语音对话开始的关键字与响应的模式之间的对应关系。响应模式选择部(13)使用响应模式对应表格(14),来选择与语音识别部(10)的识别结果中所包含的关键字相对应的响应的模式。对话控制部(15)在语音识别部(10)的识别结果中包含了关键字的情况下开始语音对话,根据之后来自语音识别部(10)的识别结果决定响应,并将该响应的模式控制为响应模式选择部(13)所选择的模式。语音输出控制部(17)基于由对话控制部(15)进行控制的响应和模式来生成语音数据,并输出至扬声器(4)。

Speech dialogue device and speech dialogue method

In response mode corresponding table (14), there is a corresponding relationship between the key and the response pattern indicating the beginning of the voice dialogue. The response mode selection unit (13) uses a response mode corresponding table (14) to select the mode of response corresponding to the keyword contained in the recognition result of the speech recognition unit (10). The dialogue control unit (15) starts the speech dialogue in the case of the recognition section (10) of the speech recognition unit (10), and determines the response according to the recognition result from the speech recognition unit (10), and controls the mode of the response to the mode selected by the response mode selection unit (13). The voice output control unit (17) generates voice data based on the response and mode controlled by the dialogue control unit (15) and outputs to the speaker (4).

【技术实现步骤摘要】
【国外来华专利技术】语音对话装置及语音对话方法
本专利技术涉及根据对用户的说话进行识别而得到的结果来操作对象设备的语音对话装置及语音对话方法。
技术介绍
搭载于现有的车载导航装置等的语音对话装置中,为了防止因用户说话以外的杂音等而导致的误识别,从用户处接受语音识别开始的指示。因此,例如,在方向盘等上设置有指示语音识别开始的按钮(以下,称为“语音识别开始指示按钮”)。用户在按下语音识别开始指示按钮之后,说出用于对作为操作对象的设备进行操作的指令等(以下,称为“设备操作指令等”)。语音对话装置在检测出按下了语音识别开始指示按钮后开始识别,并根据所发出的语音来识别设备操作指令等。此外,使用语音对话装置的用户中,关于语音对话的习惯程度,从初学者到熟练者各自不同,因此,语音对话装置需要与各种熟练度的用户相对应。为此,专利文献1中记载了如下技术:根据用户对语音对话的熟悉度来变更系统响应,该系统响应包含与用户应当作出响应的内容相关的指南。现有技术文献专利文献专利文献1:日本专利特开2004-258233号公报
技术实现思路
专利技术所要解决的技术问题现有的语音对话装置中,通过按下语音识别开始指示按钮从而开始设备操作指令等的语音识别,并在指南的输出次数超过规定的阈值时变更系统响应的模式等,一边推进对话一边变更响应模式。因此,响应模式的变更需要时间。特别地,如车载导航装置等车载设备那样,当存在由语音对话熟练度不同的多个用户共同使用的情况时,无法在说话者改变的瞬间变更响应模式。作为用于快速变更响应模式的语音对话装置的结构,考虑以下结构:在画面中显示预先定义有响应模式的按钮(以下,称为“预设按钮”。),并在与由用户按下的预设按钮相对应的响应模式下开始语音对话。然而,如车载导航装置等车载设备那样,当存在由语音对话熟练度不同的多个用户共同使用的情况时,每当说话者发生变化,用户就需要从多个预设按钮中选择并按下定义有所希望的响应模式的预设按钮,比较耗费精力。此外,在车载设备那样的存在显示限制的装置中,显示多个预设按钮比较困难。由于现有的语音对话装置具有如上所述的结构,因此存在无法在语音对话中瞬间且简单地对响应的形态进行变更的问题。本专利技术是为了解决上述问题而完成的,其目的在于,在语音对话中瞬间且简单地变更响应的模式。解决技术问题所采用的技术方案本专利技术所涉及的语音识别装置包括:语音识别部,该语音识别部识别说话语音;响应模式选择部,该响应模式选择部使用定义了指示语音对话开始的关键字与响应的模式之间的对应关系的响应模式对应表格,来选择与语音识别部的识别结果中所包含的关键字相对应的响应的模式;对话控制部,该对话控制部在语音识别部的识别结果中包含了关键字的情况下开始语音对话,根据之后来自语音识别部的识别结果来决定响应,并将该响应的模式控制为响应模式选择部所选择的模式;以及语音输出控制部,该语音输出控制部根据由对话控制部进行控制的响应生成语音数据,并输出至扬声器。专利技术效果根据本专利技术,控制为与指示开始语音对话的关键字相对应的响应的模式,因此,通过由用户说出指示开始语音对话的关键字,从而语音对话装置开始语音对话,并切换响应的模式。因此,能在语音对话中瞬间且简单地变更响应的模式。附图说明图1是示出应用了本专利技术实施方式1所涉及的语音对话装置的语音对话系统的整体结构的框图。图2是示出实施方式1所涉及的语音对话装置的结构例的框图。图3是示出实施方式1所涉及的语音对话装置中的响应模式对应表格的示例的图。图4是示出实施方式1所涉及的语音对话装置中的响应模式数据库的示例的图。图5A是示出在实施方式1所涉及的语音对话装置中等待用于开始语音对话的指示时的动作的流程图。图5B是示出在实施方式1所涉及的语音对话装置中语音对话开始后的语音识别时的动作的流程图。图6是在实施方式1所涉及的语音对话装置中面向初学者的、信息量较多的响应显示例。图7是在实施方式1所涉及的语音对话装置中面向中级者的、信息量较为普通的响应显示例。图8是在实施方式1所涉及的语音对话装置中面向熟练者的、信息量较少的响应显示例。图9是示出本专利技术实施方式2所涉及的语音对话装置的结构例的框图。图10是示出在实施方式2所涉及的语音对话装置1中登记用户ID时的动作的流程图。图11是示出在实施方式2所涉及的语音对话装置1中将用户ID与响应模式ID对应起来进行登记时的动作的流程图。图12是示出在实施方式2所涉及的语音对话装置1中按下指示语音对话开始的按钮时的动作的流程图。图13是应用了本专利技术各实施方式所涉及的语音对话装置的语音对话系统的硬件结构图。具体实施方式下面,为了更详细地说明本专利技术,根据附图对用于实施本专利技术的方式进行说明。实施方式1.图1是示出应用了本专利技术实施方式1所涉及的语音对话装置1的语音对话系统的整体结构的框图。该语音对话系统中,语音对话装置1与用户进行语音对话,并根据对用户的说话语音进行识别而得到的结果来操作对象设备6。该语音对话装置1连接有麦克风2、语音输入部3、扬声器4、显示器5以及对象设备6。以下,以将语音对话系统搭载于车辆的情况为例,对实施方式1进行说明。图1的示例中,示出了语音对话装置1与对象设备6相互独立的结构,然而也可以设为将语音对话装置1组装入对象设备6的结构。例如,语音对话装置1为PC(PersonalComputer:个人计算机)、平板PC或智能手机等移动信息终端。或者,语音对话装置1也可以组装入作为对象设备6的车载导航装置或汽车音响装置等。或者,语音对话装置1所具有的功能也可以分散在网络上的服务器、智能手机等移动信息终端、以及车载导航装置等车载设备中。图2是示出实施方式1所涉及的语音对话装置1的结构例的框图。语音对话装置1包括:语音识别部10、辞典选择部11、本地语音识别辞典12、响应模式选择部13、响应模式对应表格14、对话控制部15、响应模式DB(Database:数据库)16、语音输出控制部17以及显示输出控制部18。麦克风2获取由用户发出的语音,并将其输出至语音输入部3。语音输入部3例如通过PCM(PulseCodeModulation:脉冲编码调整)对来自麦克风2的语音进行A/D(Analog/Digital:模拟/数字)转换,并输入至语音对话装置1。语音识别部10包括本地识别部10a及服务器识别部10b。其中,服务器识别部10b并不是必须的结构。语音识别部10从语音输入部3接收数字化后的语音数据。语音识别部10从语音数据中检测出相当于用户所说话的内容的语音区间(以下,称为“说话区间”),并输出至本地识别部10a或服务器识别部10b。本地识别部10a从所输入的说话区间的语音数据中提取出特征量。然后,本地识别部10a基于该特征量,使用本地语音识别辞典12的待机用辞典12a或语音对话用辞典12b来进行识别处理,并将识别结果输出至响应模式选择部13或对话控制部15。作为本地识别部10a中的识别处理的方法,利用例如HMM(HiddenMarkovModel:隐马尔可夫模型)法那样的一般方法即可,因此省略详细的说明。服务器识别部10b将所输入的说话区间的语音数据输出到网络上的语音识别服务器7,并接收来自语音识别服务器7的识别结果。语音识别服务器7具备未图示的语音识别辞典,对从服务器识别部10b接收到的本文档来自技高网...

【技术保护点】
1.一种语音对话装置,其特征在于,包括:语音识别部,该语音识别部识别说话语音;响应模式选择部,该响应模式选择部使用定义了指示语音对话开始的关键字与响应的模式之间的对应关系的响应模式对应表格,来选择与所述语音识别部的识别结果中所包含的所述关键字相对应的响应的模式;对话控制部,该对话控制部在所述语音识别部的识别结果中包含了所述关键字的情况下开始语音对话,根据之后来自所述语音识别部的识别结果决定响应,并将该响应的模式控制为所述响应模式选择部所选择的模式;以及语音输出控制部,该语音输出控制部基于由所述对话控制部进行控制的响应和模式来生成语音数据,并输出至扬声器。

【技术特征摘要】
【国外来华专利技术】1.一种语音对话装置,其特征在于,包括:语音识别部,该语音识别部识别说话语音;响应模式选择部,该响应模式选择部使用定义了指示语音对话开始的关键字与响应的模式之间的对应关系的响应模式对应表格,来选择与所述语音识别部的识别结果中所包含的所述关键字相对应的响应的模式;对话控制部,该对话控制部在所述语音识别部的识别结果中包含了所述关键字的情况下开始语音对话,根据之后来自所述语音识别部的识别结果决定响应,并将该响应的模式控制为所述响应模式选择部所选择的模式;以及语音输出控制部,该语音输出控制部基于由所述对话控制部进行控制的响应和模式来生成语音数据,并输出至扬声器。2.如权利要求1所述的语音对话装置,其特征在于,包括个人识别部,该个人识别部对操作了指示开始语音对话的按钮的用户进行识别,所述响应模式选择部使用定义了用户和响应的模式之间的对应关系的用户响应模式对应表格,来选择与所述个人识别部所识别出的所述用户相对应的响应的模式,所述对话控制部在所述按钮被操作的情况下开始语音对话,根据之后来自所述语音识别部的识别结果决定响应,并将该响应的模式控制为所述响应模式选择部所选择的模式。3.如权利要求1所述的语音对话装置,其特征在于,作为响应的模式,所述响应模式选择部选择响应的语音的速度、性别、年龄、音量或音程。4.如权利要求1所述的语音对话装置,其特征在于,作为响应的模式,所述响应模式选择部选择响应的语言或各语言内的方言。5.如权利要求1所述的语音对话装置,其特征在于,所述语音识别部包括:本地识别部,该本地识别部使用语音对话装置内的本地语音识别辞典...

【专利技术属性】
技术研发人员:马场直哉古本友纪大泽政信武井匠
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1