语音识别设备、语音识别方法、会话控制设备以及会话控制方法技术

技术编号:3046529 阅读:179 留言:0更新日期:2012-04-11 18:40
一种自动会话设备包括:语音识别装置(200),接收语音信号并输出与语音信号对应的字符/字符串作为识别结果;语音识别词典存储装置(700),存储用于确定对应于语音信号的多个候选的语言模型;会话数据库装置(500),存储多条话题指定信息;语句分析装置(400),分析从语音识别装置(200)输出的字符/字符串;和会话控制装置(300),存储会话历史记录,并根据语句分析装置(400)的分析而获取应答语句。语音识别装置(200)包括:单词对照装置(200C),参照语音识别词典存储装置(700)而输出多个候选;和候选确定装置(200E),参照会话数据库装置(500),将单词对照装置输出的多个候选与对应于会话历史记录的话题指定信息进行比较,并根据该比较输出一个候选。

【技术实现步骤摘要】

本专利技术涉及一种。更具体地,本专利技术涉及可以利用过去的会话历史记录等,优先选择符合或者与过去会话的话题相关联的候选的。
技术介绍
作为在连续语音识别中识别特定词汇的传统方法,已经开发出了从连续的会话语音中提取预先设定的识别候选单词的单词辨识技术(wordspotting)。已经确定,如果需要设定的单词数目较少,则利用该方法可以有效地提取单词。然而,已经知道提取的精度会随着要设定的单词数目增加而降低。此外,由于利用该方法不能识别所设定的单词以外的任何单词,因此,该方法不能用于需要对词汇进行连续语音识别的应用。因此,需要一种在大词汇量连续语音识别的框架中主要识别大量指定单词的方法。语音识别是根据所观测到的语音信号来推定说话者所讲的内容。如果说话者已讲了某个单词,并且通过特征提取已得到一特征参数x,则只需根据模式识别理论来计算使后验概率p(w|x)最大的w。通常,由于难于直接地找到后验概率p(w|x),因此根据贝叶斯(Bayes)定理(p(w|x)=p(x|w)p(w)/p(x))来计算使p(x|w)p(w)最大的w(在此情况中,p(x)不随w而变化),而不是找出使后验概率p(w|x)最大的w。根据以音素(phoneme)等为单位的声学模型,预先由通过学习而获得的数据计算出p(x|w),作为特征参数的出现几率。根据以单词等为单位的语言模型来计算p(w)。作为大词汇量连续语音识别的框架,已经确定,使用音素隐马尔可夫模型(Hidden Markov Model)和统计语言模型对所输入的语音信号的似然度进行计算和比较的方法是有效的。通常,作为统计语言模型,通常的作法是,对于预先准备的大量文本数据,找出两个单词或者三个单词之间的链概率(chain possibility),并且在语音识别过程中使用该链概率。通常,在上述语音识别系统中,为了缩减因不能确定地识别语音而产生的数目众多的话语候选,使用“通过对单词之间的关联进行建模而得到的语言模型”来提取具有高识别率的一个话语候选,作为最佳话语候选。作为这样的语言模型,在日本专利申请特开2002-366190号( 段至 段)中公开了使用语料库(语言/语音数据库)而建立的一种统计语言模型,并且在日本专利申请特开11-85180号中公开了一种在语法上考虑了单词对限制等的语言模型。将这种模型称为“传统语言模型”。还未提出使用“会话历史记录”来关联各个单词以进行上述缩减的语言模型。然而,利用传统语言模型的语音识别系统存在的问题是,当重复输入诸如“chat”的短语音或者使用缩略语时,识别率会下降。例如,考查对说话者所说的与电影摄影话题相关的语音进行语音识别的情况。当用户说出“kantoku”(导演)时,该语音识别系统根据由该话语所产生的语音信号输出若干话语候选,即(1)“kantaku”,(2)“kataku”,以及(3)“kantoku”,并且选择具有最高识别率的(1)“kantaku”。因此,即使在话语候选中包含与用户的语音(在此情况中为“kantoku”)相同的内容,该语音识别系统也不能选择该单词作为最佳候选。因此,有必要建立一种“机制(考虑会话历史记录的语音识别系统)”,利用过去的会话历史记录等来选择候选,即使判定该候选的识别率比较低时,也将其作为合适的单词,并且提高语音识别率。
技术实现思路
作为解决上述问题的手段,本专利技术具有下述特征。本专利技术的第一个方面是一种语音识别设备。该语音识别设备包括语音识别装置(语音识别单元);语音识别词典存储装置(语音识别词典存储单元);会话数据库装置(会话数据库),在其中存储有多条话题指定信息;以及会话历史记录存储装置(会话控制单元),其存储过去的会话中所包含的多个主题。该语音识别装置(语音识别单元)的特征在于,根据存储在该语音识别词典存储装置(语音识别词典存储单元)中的内容,选择与语音信号对应的多个候选,选择与话题指定信息对应的候选,该话题指定信息与存储在该会话历史记录存储装置(会话控制单元)中的会话历史记录对应,并且输出该候选,作为识别结果。非常可能的是,对应于会话历史记录的话题指定信息与说话者所说的内容相对应。例如,当说话者谈论棒球时,存储一个单词“kantoku”(球队经理),作为与一会话历史记录(棒球)对应的话题指定信息。在此情况中,如果获得“kantaku”、“kataku”、“kantoku”作为多个候选,则输出与该话题指定信息“kantoku”(该话题指定信息“kantoku”与会话历史记录(棒球)对应)对应的候选“kantoku”,作为识别结果。这样,根据本方面的该语音识别设备进行工作,以输出与会话的主题相符的识别结果。本专利技术的第二个方面是一种语音识别设备。该语音识别设备包括语音识别装置(语音识别单元),其接收语音信号;语音识别词典存储装置(语音识别词典存储单元),其存储用于确定与语音信号对应的候选的模型;会话数据库装置(会话数据库),在其中存储有多条话题指定信息;以及,会话历史记录存储装置(会话控制单元),其存储会话历史记录。在该语音识别设备中,该语音识别装置(语音识别单元)的特征在于,该语音识别装置包括单词对照装置(单词对照单元),其根据所输入的语音信号,参照该语音识别词典存储装置(语音识别词典存储单元)而输出多个候选;以及,候选确定单元,其参照该会话数据库装置(会话数据库)而将从单词对照装置(单词对照单元)输出的多个候选与对应于会话历史记录的话题指定信息进行比较,并且根据该比较的结果输出多个候选中的任何一个候选,作为识别结果。语音识别词典存储装置(语音识别词典存储单元)所存储的模型是声学模型、语言模型、统计语言模型(隐马尔可夫模型(HMM))、或者这些模型中的两个或更多个的组合。该模型可以是上述模型中的任何一个,只要该模型可以根据语音的声学特征选择与该语音对应的多个候选即可。如在第一方面中一样,根据第二方面的语音识别设备进行工作,以输出与说话者谈论的内容相符(或相关)的识别结果,以从多个候选中选择与话题指定信息(该话题指定信息对应于会话历史记录)对应的一个候选。此外,在根据第二方面的语音识别设备中,会话数据库装置(会话数据库)可以存储与会话主题相关的第一话题指定信息,以及与会话主题不相关的第二话题指定信息。候选确定装置可以将多个候选与对应于会话历史记录的第一话题指定信息进行比较,以输出所述多个候选中的任何一个候选作为识别结果。该第一话题指定信息是,例如,有意义的话题指定信息(例如,“棒球”、“电影”),而该第二话题指定信息是,例如,无意义的话题指定信息(例如,“你好(hello)”、“我明白了(I see)”)。如上所述,根据本方面的语音识别设备仅使用第一话题指定信息来输出多个候选中的任何一个作为识别结果,因此可以避免输出与话题无关的候选作为识别结果,并且进一步提高了识别率。本专利技术的第三个方面是一种语音识别方法,该语音识别方法用于输出与所输入的语音对应的多个字符或者字符串,作为该语音的识别结果。该语音识别方法的特征在于,包括以下步骤根据从所输入的语音所获得的语音信号,分析声学特征;根据该声学特征输出多个候选;获得与预先存储的会话历史记录对应的话题指定信息;并且,将所述多个候选与所获得的话题指定信息进行比较,本文档来自技高网
...

【技术保护点】
一种语音识别设备,其具有:语音识别装置(200);语音识别词典存储装置(700);会话数据库装置(500),其中存储有多条话题指定信息的;以及会话历史记录存储装置(300),其存储在过去的会话中包含的主题,所述语音识别设备的特征在于:   所述语音识别装置(200)根据所述语音识别词典存储装置中存储的内容,选择与语音信号对应的多个候选,在所选择的多个候选中选择出对应于与所述会话历史记录存储装置(300)中存储的会话历史记录相关联的话题指定信息的一个候选,并且输出该候选作为识别结果。

【技术特征摘要】
JP 2003-6-20 177356/20031.一种语音识别设备,其具有语音识别装置(200);语音识别词典存储装置(700);会话数据库装置(500),其中存储有多条话题指定信息的;以及会话历史记录存储装置(300),其存储在过去的会话中包含的主题,所述语音识别设备的特征在于所述语音识别装置(200)根据所述语音识别词典存储装置中存储的内容,选择与语音信号对应的多个候选,在所选择的多个候选中选择出对应于与所述会话历史记录存储装置(300)中存储的会话历史记录相关联的话题指定信息的一个候选,并且输出该候选作为识别结果。2.一种语音识别设备,其具有语音识别装置(200),其接收语音信号;语音识别词典存储装置(700),在其中存储有用于确定与所述语音信号对应的多个候选的语言模型;会话数据库装置(500),在其中存储有多条话题指定信息;以及会话历史记录存储装置(300),其存储会话历史记录,所述语音识别设备的特征在于所述语音识别装置(200)具有单词对照装置(200C),其根据所输入的语音信号,参照所述语音识别词典存储装置(700)而输出多个候选;以及候选确定装置(200E),其参照所述会话数据库装置(500),将从所述单词对照装置(200C)输出的所述多个候选与对应于所述会话历史记录的所述话题指定信息进行比较,并且根据所述比较的结果输出一个候选作为识别结果。3.根据权利要求2所述的语音识别设备,其特征在于,所述候选确定装置(200E)参照所述会话数据库装置(500),将所述多个候选与对应于会话历史记录的话题指定信息进行比较,判断在所述多个候选中是否存在与对应于所述会话历史记录的所述话题指定信息匹配的候选,如果存在与所述话题指定信息匹配的候选,则输出该候选作为识别结果。4.根据权利要求3所述的语音识别设备,其特征在于,所述语音识别设备还包括候选缩减装置(200F),其中作为所述多个候选与对应于所述会话历史记录的所述话题指定信息的比较结果,如果不存在与所述话题指定信息匹配的候选,则所述候选确定装置(200E)请求所述候选缩减装置(200F)来缩减所述多个候选,并且所述候选缩减装置(200F)响应于所述请求而输出所述多个候选中的具有最大似然度的候选作为识别结果。5.根据权利要求2至4中任何一项所述的语音识别设备,其特征在于,所述会话数据库装置(500)存储有与会话的主题相关的第一话题指定信息以及与会话的主题不相关的第二话题指定信息,并且所述候选确定装置(200E)将所述多个候选与对应于会话历史记录的所述第一话题指定信息进行比较,并输出所述多个候选中的任何一个候选作为识别结果。6.一种语音识别方法,用于输出与所输入的语音相对应的字符或者字符串作为识别结果,所述语音识别方法的特征在于所述语音识别方法包括以下步骤根据从所输入的语音获得的语音信号,分析声学特征;根据所述声学特征输出多个候选;获得与预先存储的会话历史记录对应的话题指定信息;以及将所述多个候选与所获得的话...

【专利技术属性】
技术研发人员:黄声扬胜仓裕
申请(专利权)人:PtoPA株式会社
类型:发明
国别省市:JP[日本]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1