当前位置: 首页 > 专利查询>索尼公司专利>正文

语音识别装置及语音识别方法制造方法及图纸

技术编号:3046818 阅读:177 留言:0更新日期:2012-04-11 18:40
一种能够改善语音识别准确度的语音识别装置和语音识别方法。距离计算器(47)计算发声用户和麦克风(21)之间的距离并将该距离提供给语音识别单元(41B)。语音识别单元(41B)包含多组从通过记录在多个不同距离所发出的语音形成的语音数据中产生的声学模式。语音识别单元(41B)选择一组离由距离计算器(47)所提供的距离最近的距离处的声学模式,并且通过利用该声学模式组进行语音识别。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种语音识别装置和一种语音识别方法,尤其涉及一种用他于借助利用一组与从语音识别装置至声源的距离对应的声学模式以改善的准确度识别语音的语音识别装置和语音识别方法。
技术介绍
近年来,已经实现了CPU(中央处理单元)的操作速度和存储器存储容量的增加。这使得通过利用大量的语音数据或者文本数据的统计模型实现能够识别好几十万字的大词汇量的语音识别系统成为可能。在包括这样一种大词汇量语音识别系统的语音识别系统中,对将要识别的语音输入其中的麦克风的附近位置所发出的语音能够获得高的语音识别准确度。不过,如果在远处发出语音,由于噪声等的影响,则语音识别准确度会随着麦克风和发出语音处的位置之间的距离而降低。例如,在题为“在有噪声/回响的环境中借助利用麦克风阵列的HHM分解/组合的语音识别(Speech Recognition in Noisy/Reverberant Environmentby means of HHM Decomposition/Composition Using a Microphone Array)”的论文中披露了为避免上述问题的第一个已知技术(Miki,Nishiura,和Shikano,电子、信息和通信工程师协会学报D-II,第J83-DII卷,第11期,2206-2214页,2000年11月)(此后,称作为对比文件1)。在此技术中,用麦克风阵列来改善在远离麦克风的位置所发出的语音的信噪比(SN),并且以改善的信噪比对语音进行语音识别。例如,在题为“考虑空间声学特征的空间分集健壮性的语音识别(SpaceDiversity Robust Speech Recognition Taking Into Account Space AcousticCharacteristic)”的论文中披露了第二个已知技术(Shimizu,Kazita,Takeda和Itakur,电子、信息和通信工程师协会学报D-II,第J83-DII卷,第11期,2448-2456页,2000年11月)(此后,称作为对比文件2)。在利用此第二种技术的语音识别中,将多个麦克风放置在房间的不同位置,并将离开各个麦克风的不同距离的位置处的脉冲响应和将要学习的语音数据进行卷积,并考虑各个距离处的脉冲响应学习所得的语音数据以产生HMM(隐马尔可夫模型)。接着,考虑各个距离处的脉冲响应计算输入到各个麦克风的每一个语音的相似性。不过,在如上所述的第一种和第二种技术中,必须在限定的位置放置麦克风。在某些情况下,对麦克风位置的限定使得难于使用这些技术。近年来,已经将自动行为的机器人玩具(例如以填馅动物玩具的形式)投放到了市场。此机器人能够识别由用户发出的语音,并且根据所识别的结果,进行动作或者输出合成的语音。如果在这样的机器人上安装了利用所述第一种技术的语音识别装置,则对形成麦克风阵列的多个麦克风的位置限制使得用小尺寸实现机器人困难,并且所述限制同样也使得在设计机器人中的自由度降低。另一方面,在将利用第二种技术的语音识别装置安装在机器人上的情形中,要求在使用机器人的每个房间放置多个麦克风。这是不切实际的。而且,在第二种技术中,要求考虑各个距离处的脉冲响应来计算输入到多个麦克风的语音的HHM相似性,并因此在语音识别中需要大量的计算。
技术实现思路
鉴于上述情况,本专利技术的目的是在不使得语音识别的计算量显著增加的情况下,提供一种用于改善在远离麦克风处的用户所发出的语音的语音识别准确度的技术。本专利技术提供的第一语音识别装置包括距离计算装置,用于确定到语音声源的距离;采集装置,用于采集一组与由距离计算装置所确定的距离对应的声学模式;以及语音识别装置,用于根据由采集装置所采集的一组声学模式识别所述语音。本专利技术同样也提供了第一语音识别方法,包括步骤确定到语音声源的距离;采集一组与由距离计算步骤所确定的距离对应的声学模式;以及根据由采集步骤所采集的一组声学模式识别所述语音。本专利技术同样也提供了第一程序,包括确定到语音声源的距离;采集一组与由距离计算步骤所确定的距离对应的声学模式;以及根据由采集步骤所采集的一组声学模式识别所述语音。本专利技术同样也提供了将程序存储其上的第一存储介质,其中,所述程序包括步骤确定到语音声源的距离;采集一组与由距离计算步骤所确定的距离对应的声学模式;以及根据由采集步骤所采集的一组声学模式识别所述语音。本专利技术同样也提供了第二语音识别装置,包括距离计算装置,用于确定到语音声源的距离;采集装置,用于采集用于实现具有对应于由距离计算装置所确定的距离的频率特征的逆滤波器的抽头系数;滤波器装置,用于利用由采集装置所采集的抽头系数滤波所述语音;以及语音识别装置,用于根据一特定组的声学模式,识别由滤波装置滤波所述语音。本专利技术同样也提供了第二语音识别方法,包括步骤确定到语音声源的距离;采集用于实现具有对应于由距离确定步骤所确定的距离的频率特征的逆滤波器的抽头系数;利用由采集步骤所采集的抽头系数滤波所述语音;以及根据一特定组的声学模式,识别由所述滤波步骤滤波的所述语音。本专利技术同样也提供了第二程序,包括步骤确定到语音声源的距离;采集用于实现具有对应于由距离确定步骤所确定的距离的频率特征的逆滤波器的抽头系数;利用由采集步骤所采集的抽头系数滤波所述语音;以及根据一特定组的声学模式,识别由所述滤波步骤滤波的所述语音。本专利技术同样也提供了在其上存储有程序的第二存储介质,其中所述程序包括步骤确定到语音声源的距离;采集用于实现具有对应于由距离确定步骤所确定的距离的频率特征的逆滤波器的抽头系数;利用由采集步骤所采集的抽头系数滤波所述语音;以及根据一特定组的声学模式,识别由所述滤波步骤滤波的所述语音。在根据本专利技术的第一语音识别装置、第一语音识别方法、以及第一程序中,确定到声源的距离并采集对应该距离的一组声学模式。利用所采集的声学模式组进行语音识别。在根据本专利技术的第二语音识别装置、第二语音识别方法、以及第二程序中,确定到声源的距离并采集用于实现具有对应于所述距离的频率特征的逆滤波器的抽头系数。利用所采集的抽头系数滤波语音并利用一特定组的声学模式识别被滤波的语音。附图说明图1是说明根据本专利技术的宠物机器人的外部面貌的透视图。图2是说明宠物机器人的硬件结构的例子的方框图。图3是说明控制器11的功能结构的例子的方框图。图4是说明用参照摄像机22L和检测摄像机22R摄取用户图像的方式的例图。图5是说明外极线(epipolar line)的图。图6A是说明参考摄像机图像的图。图6B是说明检测摄像机图像的图。图7是说明各种点的评估值的图。图8A是说明给定点-距离表的图。图8B是说明视差-距离的表的图。图9是说明语音识别单元41B的结构例子的方框图。图10是说明与语音识别单元41B相联系的处理的流程图。图11是说明宠物机器人的硬件结构的另一个例子的方框图。图12是说明与超声波传感器111相联系的处理图。图13是说明控制器11的功能结构的例子的方框图。图14是说明语音识别单元41的结构的另一个例子的方框图。具体实施例方式图1是说明根据本专利技术的宠物机器人的外表的透视图,而图2是说明其内部结构的例子的方框图。在本实施例中,以具有4只腿的动物的形式构造宠物机器人,其中,所述宠物机器人主要由本文档来自技高网
...

【技术保护点】
一种用于识别输入语音的语音识别装置,包括:距离计算装置,用于确定到所述语音的声源的距离;采集装置,用于采集与由距离计算装置所确定的距离对应的一组声学模式;以及语音识别装置,用于根据由采集装置所采集的一组声学模式识别所 述语音。

【技术特征摘要】
JP 2001-10-22 323012/011.一种用于识别输入语音的语音识别装置,包括距离计算装置,用于确定到所述语音的声源的距离;采集装置,用于采集与由距离计算装置所确定的距离对应的一组声学模式;以及语音识别装置,用于根据由采集装置所采集的一组声学模式识别所述语音。2.如权利要求1所述的语音识别装置,还包括存储装置,用于存储由位于不同位置的声源所发出的语音产生的多组声学模式;其中,所述采集装置从在存储介质中所存储的用于各个距离的多组声学模式中,选择与由所述距离计算装置所确定的距离相对应的一组声学模式。3.如权利要求1所述的语音识别装置,其中,所述距离计算装置通过对由用于摄取图像的多个图象传感器装置所输出的图像进行立体效果处理,来确定到所述声源的距离。4.如权利要求1所述的语音识别装置,其中,所述距离计算装置根据超声波传感器的输出确定到所述声源的距离。5.一种用于识别输入语音的语音识别方法,包括步骤确定到所述语音的声源的距离;采集与由距离计算步骤所确定的距离对应的一组声学模式;以及根据由采集步骤所采集的一组声学模式识别所述语音。6.一种用于使计算机识别输入语音的程序,所述程序包括步骤确定到所述语音的声源的距离;采集与由距离计算步骤所确定的距离对应的一组声学模式;以及根据由采集步骤所采集的一组声学模式识别所述语音。7.一种将使计算机识别输入语音的程序存储于其上的存储介质,所述程序包括步骤确定到...

【专利技术属性】
技术研发人员:浅野康治
申请(专利权)人:索尼公司
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1