语音命令检测方法和系统,以及信息处理系统技术方案

技术编号:10666162 阅读:173 留言:0更新日期:2014-11-20 11:57
本发明专利技术涉及语音命令检测方法和系统,以及信息处理系统。一种语音命令检测方法包括:提取输入到系统的语音信号的语音特征;将所述语音特征转换为词序列,其中所述词序列包括至少两个连续的非命令词以及至少一个命令词候选,并且获得所述每一个非命令词对应的语音片段的持续时间以及所述每一个命令词候选的声学得分;基于所述持续时间计算所述语音信号的节奏特征;以及基于所述声学得分和所述节奏特征将所述至少一个命令词候选对应的语音识别为针对于系统的语音命令或者不针对于系统的语音;其中,节奏特征描述所述每一个非命令词对应的语音片段的持续时间的相似度,和/或描述每一个非命令词对应的语音片段的能量变化的相似度。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及语音命令检测方法和系统,以及信息处理系统。一种语音命令检测方法包括:提取输入到系统的语音信号的语音特征;将所述语音特征转换为词序列,其中所述词序列包括至少两个连续的非命令词以及至少一个命令词候选,并且获得所述每一个非命令词对应的语音片段的持续时间以及所述每一个命令词候选的声学得分;基于所述持续时间计算所述语音信号的节奏特征;以及基于所述声学得分和所述节奏特征将所述至少一个命令词候选对应的语音识别为针对于系统的语音命令或者不针对于系统的语音;其中,节奏特征描述所述每一个非命令词对应的语音片段的持续时间的相似度,和/或描述每一个非命令词对应的语音片段的能量变化的相似度。【专利说明】语音命令检测方法和系统,以及信息处理系统
本专利技术涉及用于语音检测及处理的方法和系统。特别地,本专利技术涉及用于语音命 令的检测方法和系统。
技术介绍
语音技术是随着20世纪60年代的数字信号处理技术的发展而发展起来的一种人 工智能信息技术。由于语音技术在产品自动化方面的贡献,语音技术已成为目前最热门的 技术之一。 语音技术的一种重要应用在于能够利用其对系统进行操作。特别地,对于例如儿 童或老人等用户以及视力残障者来说,语音是进行系统操作的一种有效的用户接口。 对于语音控制系统,一个重要的问题是将用户向系统说出的语音命令与其它语音 (例如来自电视的背景噪声以及用户交谈的语言)区分开来。例如,用户针对其他收听者的 语音不应该被识别为针对于系统的语音命令。 该问题可以通过使用用于控制输入语音的按钮来解决。例如,可以开发这样一种 系统,该系统包括一个按钮,仅在用户按下按钮时将语音识别为针对于系统的语音命令。但 是这种方法会产生一个问题,即需要手动操作,因此在手繁忙的情况下是不适用的。 另一方面,现有技术中的一些方法利用人的身体行为来估计用户语音的目 标。例如,在 T. Yonezawa, H. Yamazoe, A. Utusmi and S. Abe, "Evaluating Crossmodal Awareness of Daily-partner Robot to User, s Behaviors with Gaze and Utterance Detection",published in Proceedings of the ACM International Workshop on Context-Awareness for Self-Managing Systems, "2009, pp. 1-8 以及 Fujie, T. Yamahata, and T.Kobayashi,^Conversation root with the function of gaze recognition", published in"Proceedings of the IEEE-RAS International Conference on Humanoid Robots, 2006, pp. 364-369中描述了以下的方法:检测用户的视线方向或用户 的身体方向,当用户的视线方向或用户的身体方向朝向系统时,将语音识别为针对于系统 的语音命令。但是,为了实施上述方法,除了麦克风之外,该系统还需要其它的传感器(例 如,摄像机),来识别用户的视线方向或用户的身体方向,这样增加了系统的制造成本。此 夕卜,即使用户面对系统,也不能确保系统所接收到的语音就是针对于系统的语音命令,因此 该系统的可靠性不高。 为了解决上述问题,人们希望能够在不使用按钮或者各种人体行为的情况下,仅 仅利用语音就能够检测语音命名。 苹果公司开发了一种Mac 0S语音识别系统,利用该系统用户可以通过说出的语音 命令来控制计算机。其中,语音命令可以是单个命令词或者多个命令词的一个序列。图1A 示出了 Mac 0S语音识别系统的界面。对于该系统,用户可以选择两种方式来进行语音命令 的识别。 在第一种方式中,在每一个语音命令之前用户需要说出一个预定的先行词 (preceding word)。例如,用户预先确定先行词是"Hi Canon",用户希望系统接收的语音命 令是"DELETE (删除)"。当用户说出"Hi Canon,DELETE"时,系统能够确定针对其的语音命 令是 "DELETE"。 图1B是在现有技术的Mac 0S语音识别系统的第一种方式中的语音命令检测方法 的流程图。首先在步骤S11中提取输入语音的特征。然后在步骤S12中,根据所存储的声 学模型、词典和语法,基于所提取的语音特征进行语音识别,得到词序列。在步骤S13中,根 据语音识别步骤所得到的词序列进行分类,即如果词序列包括先行词和命令词候选,则将 该命令词候选对应的语音识别为针对于系统的语音命令,否则将输入语音识别为不是针对 于系统的语音。 图2A示出了在现有技术的Mac 0S语音识别系统的第一种方式中使用的语法,其 中"C"表示命令词候选,"GBG"表示垃圾词,"P"表示先行词,"开始"和"结束"分别表示在 感兴趣的语音之前和之后的静音部分。如果通过该语法进行语音识别,识别出的词序列包 括先行词和命令词候选,则将该命令词候选确定为针对于系统的语音命令。 在这种方式中,系统的性能完全依赖于系统所使用的语音识别引擎的精度。在语 音识别的精度低的情况下(例如低信噪比的情况下),系统的可靠性低。 在第二种方式中,用户可以在任何时刻发出语音命令而不必说出先行词。在该方 式中,通过使用现有技术中的关键词识别(keyword spotting)技术来进行语音命令的检 测。 图1C是在现有技术的Mac 0S语音识别系统的第二种方式中的语音命令检测方法 的流程图。首先在步骤S21中提取输入语音的特征。然后在步骤S22中,根据所存储的声 学模型、词典和语法,基于所提取的语音特征进行语音识别,得到词序列。在步骤S23中,根 据语音识别步骤所得到的词序列进行分类,即如果在步骤S22中得到的词序列中识别出命 令词候选,则将输入语音识别为包括针对于系统的语音命令,否则将输入语音识别为不是 针对于系统的语音。 图2B示出了在现有技术的Mac 0S语音识别系统的第二种方式中使用的语法,其 中"C"表示命令词候选,"GBG"表示垃圾词,"开始"和"结束"分别表示在感兴趣的语音之 前和之后的静音部分。通过该语法进行语音识别,输入语音中的命令词(C)将会被识别出 来,从而确定输入语音中是否包括针对于系统的语音命令。 同样,对于第二种方式,由于系统的性能完全依赖于系统所使用的语音识别引擎 的性能,所以在某些情况下(例如低信噪比的情况下),当语音识别的性能低下时,该系统的 性能也大幅下降。 在中国专利申请CN200810021973. 8中公开了另一种语音命令检测方法,在该方 法中基于语音命令候选之前的先行词以及语音命令候选之后的后续词(succeeding word) 二者对语音命令进行检测。与苹果公司的Mac 0S语音识别系统类似,该方法在低信噪比的 情况下可靠性也变低。 因此,需要提出一种新的技术来解决上述现有技术中本文档来自技高网...

【技术保护点】
一种语音命令检测方法,包括:特征提取步骤,用于提取输入到系统的语音信号的语音特征;语音识别步骤,用于将所述语音特征转换为词序列,其中所述词序列包括至少两个连续的非命令词以及至少一个命令词候选,并且获得所述每一个非命令词对应的语音片段的持续时间以及所述每一个命令词候选的声学得分;节奏分析步骤,用于基于所述持续时间计算所述语音信号的节奏特征;以及分类步骤,用于基于所述声学得分和所述节奏特征将所述至少一个命令词候选对应的语音识别为针对于系统的语音命令或者不针对于系统的语音;其中,所述节奏特征描述所述每一个非命令词对应的语音片段的持续时间的相似度,和/或描述所述每一个非命令词对应的语音片段的能量变化的相似度。

【技术特征摘要】

【专利技术属性】
技术研发人员:左祥胡伟湘刘贺飞
申请(专利权)人:佳能株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1