声音识别装置以及方法制造方法及图纸

技术编号:3046610 阅读:173 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种具有将所识别的说话声音反馈给使用者的对讲(talkback)功能的声音识别装置,不必进行繁杂的按钮操作,可以缩短声音识别的操作时间。具有:自适应滤波器4,对模拟了输入声音指令的说话声音以及来自扬声器52的对讲声音的麦克风53的位置的传递系统的滤波系数进行设定,滤波处理对讲声音x(n)、由此生成对讲模拟声音y(n);减法器5,通过将麦克风输入的混杂声音减去对讲模拟声音y(n)来提取说话声音;从说话声音和对讲声音混杂在一起的声音中只衰减掉对讲声音并提供给声音识别引擎54,这样,就可以不必进行每次说话时都要按下说话按钮而中断对讲的繁杂的操作,在对讲过程中随时可以进行声音输入。

【技术实现步骤摘要】

本专利技术涉及识别使用者发出的声音指令并进行仪器控制的,特别涉及具有将所识别的说话声音反馈给使用者的对讲(talkback)功能的声音识别装置。
技术介绍
现有,在例如车辆上所搭载的导航装置、免提装置或者个人电子计算机等领域中,通过使用遥控器、触摸屏、键盘或者鼠标以及声音识别装置,使用者可以通过输入声音进行仪器的操作。在这种声音识别装置中,通过按下所配备的说话按钮进入声音识别模式,识别使用者的说话声音执行指令。说话方法主要包括两种。第1种方法为使用者按一下说话按钮则进入声音识别模式,必要时仪器提醒使用者进行声音输入,使用者与仪器之间以对话的方式进行交流的方法。第2种方法为使用者每次按下说话按钮只可以在一定时间里进行声音输入的方法。几乎所有的声音识别装置都具有将所识别的说话声音从扬声器等向使用者反馈的对讲功能。使用者听到对讲声音确认是否正确,如果发现错误就进行声音输入修正,正确的话将命令指示给声音识别装置。声音识别装置通过接受该指示执行各种控制。通常,在声音识别装置中所预备的多个声音指令根据操作内容对控制对象的仪器分成多个层次进行管理。比如,在导航装置中,用地址设定目的地时,按照[都道府县→市区街村→地址以及其它]的形式,将地址分成多个分层进行声音输入。此时,由于在每次进行各分层声音输入时都要进行对讲,因此,在一连串的声音输入完成时大多要花费很长的时间。对此,就有了缩短声音的识别时间的尝试。其中一个例子就是提出了削减对讲的运算量以求达到缩短识别时间的装置(参照例如专利文献1)。日本专利特开平6-149287号公报但是,现有的声音识别装置在进行对讲的中间时,为不能接受下一个声音输入的状态。如果对讲的声音与说话声音混杂的话,容易发生误识别说话声音的情况。图4(a)为表示现有的声音识别装置的接受声音输入状态的变化的形式的时间图。另外,该图4(a)表示上述第1说话方法的接受声音输入的状态的变化。如图4(a)所示,在第1说话方法中,使用者最初按下说话按钮就进入声音识别模式,进入在一定时间内接受声音输入的状态。使用者在进入接受声音输入状态的期间发出所希望的声音指令。虽然在进行发声时,声音识别装置进行该输入声音的识别处理以及对讲处理,但此时为不接受声音输入的状态。当对讲完成时,再次进入接受声音输入的状态,可以进行下一个声音输入。这样,在第1说话方法中,由于在对讲完成之前不能接受下一个声音输入,因此使用者不能在所希望的时间里说话。即,必须要等到听完对讲之后,所以就出现了进行一连串的声音输入需要花费很长的时间的问题。而如果采用第2种说话方法的话,通过按下说话按钮来中断对讲,可以进行下一次声音输入。但是,在此种情况下,在横跨多个分层进行声音输入时,在每次进行各分层的声音输入时都必须按下说话按钮,所以又出现了操作非常繁杂的问题。
技术实现思路
本专利技术就是为了解决这些问题,目的是不需要进行多次按下说话按钮的繁杂的操作,使缩短声音识别的操作时间成为可能。为了解决上述问题,本专利技术的声音识别装置用自适应滤波器模拟从扬声器输出并输入到麦克风中的对讲声音,从麦克风输入声音中减去该对讲模拟声音,由此从说话声音与对讲声音混杂的麦克风输入声音中只提取说话声音。如果采用上述结构的本专利技术,即使在进行对讲的过程中输入声音,也可以除去对讲声音而只提取说话声音并提供给声音识别引擎。由此,即使在对讲过程中输入声音也能够抑制产生说话声音的误识别的错误情况,即使在对讲过程中也可随时接受声音的输入。附图的简要说明图1表示第1实施形态的声音识别装置的主要部分的结构的方框2表示自适应滤波器的结构的3表示第1实施形态的声音识别处理的动作的流程4A、4B表示将本实施形态的接受声音输入的状态的变化形式与现有技术相比较的时间5表示第2实施形态的声音识别装置的主要部分结构的方框6表示第2实施形态的声音识别处理的动作的流程7表示第3实施形态的声音识别装置的主要部分结构的方框图本专利技术的实施形态(第1实施形态)下面根据附图说明本专利技术的第1实施形态。图1为表示第1实施形态的声音识别装置的主要部分的结构的方框图。如图1所示,本实施形态的声音识别装置100的结构包括音量装置(volumn)或者均衡器(以下简单称为音量装置等)1、增益控制器2、输出放大器3、自适应滤波器(ADF)4、减法器5、声音输出单元51、扬声器52、麦克风53以及声音识别引擎54。声音输出单元51生成对讲声音进行输出处理。扬声器52输出由音量装置1等进行增益控制并再次由输出放大器3增幅的对讲声音。麦克风53是说话声音输入用部件,实际上,不只是发出的声音指令,从扬声器52输出的对讲声音、行走噪音等周围噪音也全部输入同一个麦克风53中。声音识别引擎54识别由麦克风输入的说话声音,对图中没有示出的控制对像的仪器(比如,导航装置)执行与该说话声音相对应的指令。如图2所示,自适应滤波器4的结构中包含系数鉴别单元21以及声音修正滤波器22。系数鉴别单元21是用来识别从扬声器52到麦克风53之间的音响系统的传递函数(声音修正滤波器22的滤波系数)的滤波器,使用基于LMS(Least Mean Square最小均方)算法和N-LMS(Normalized-LMS标准最小均方)算法的自适应滤波器。该系数鉴别单元21动作,使减法器5输出的误差e(n)的功率最小,鉴别音响系统的脉冲应答。声音修正滤波器22通过使用系数鉴别单元21所确定的滤波系数w(n)和作为控制对象的对讲声音x(n)进行叠加运算,将与上述音响系统相同的传达特性付与对讲声音x(n)。由此,生成模拟了麦克风53的位置上的对讲声音的对讲模拟声音y(n)。这样,自适应滤波器4构成了本专利技术的自适应滤波器。减法器5通过将麦克风53输入的声音(声音指令、对讲声音和环境噪音混杂一起的声音)减去自适应滤波器4生成的对讲模拟声音y(n),提取声音指令(说话声音)和环境噪音(例如行走噪音)。这样,减法器5构成本专利技术的说话声音提取单元。该减法器5提取的说话声音和环境噪音的混杂声音提供给声音识别引擎54。声音识别引擎54在进行杂音处理之后进行声音指令的识别处理。此时的杂音处理是指由滤波器进行的处理和频谱子结构(スペクトラムサブストラクシヨン)等现有的代表性的处理。另外,减法器5所提取的说话声音以及环境噪音的混杂声音也反馈给自适应滤波器4的系数鉴别单元21以及增益控制器2作为误差e(n)。增益控制器2根据自适应滤波器4输出的对讲模拟声音y(n)和减法器5输出的说话声音以及环境噪音的混杂声音e(n)计算出对声音输出单元51输出的控制对象的对讲声音施加的最适合的增益,将计算出的增益值输出给音量装置1等。在这里,将说话声音以及环境噪音的混杂声音e(n)看作是对讲声音的噪音,为了使使用者能清晰地听到扬声器52输出的对讲声音,进行该对讲声音的增益调整。音量装置1等对声音输出单元51输出的对讲声音进行增益修正。即,将增益控制器2算出的增益给予声音输出单元51输出的对讲声音,由此修正该对讲声音。该修正例如分别对分割成多个频率的每一个进行。接下来,对有上述结构的声音识别装置100的动作进行简单的说明。声音输出51输出的对讲声音通过音量装置1等以及增益控制器2进行增益调整,改善该对讲声音的清晰度。音量装置本文档来自技高网
...

【技术保护点】
一种声音识别装置(100),具备识别从麦克风(53)输入的说话声音并通过扬声器(52)对讲的功能,其特征在于,包括:自适应滤波器(4),对模拟了从上述扬声器(52)输出的对讲声音输入到上述麦克风(53)中的传递系统的滤波系数进行设定、对从上述扬声器(52)输出之前的对讲声音进行滤波处理,由此生成位于上述麦克风(53)的对讲模拟声音;    说话声音提取单元(5),从上述麦克风(53)输入的声音中减去上述对讲模拟声音,由此提取说话声音。

【技术特征摘要】
JP 2003-5-2 2003-1273781.一种声音识别装置(100),具备识别从麦克风(53)输入的说话声音并通过扬声器(52)对讲的功能,其特征在于,包括自适应滤波器(4),对模拟了从上述扬声器(52)输出的对讲声音输入到上述麦克风(53)中的传递系统的滤波系数进行设定、对从上述扬声器(52)输出之前的对讲声音进行滤波处理,由此生成位于上述麦克风(53)的对讲模拟声音;说话声音提取单元(5),从上述麦克风(53)输入的声音中减去上述对讲模拟声音,由此提取说话声音。2.如权利要求1所述的声音识别装置(100),其特征在于,包括清晰度改善处理单元(1,2),使用上述自适应滤波器(4)生成的上述对讲模拟声音和从上述麦克风(53)输入的声音中减去上述对讲模拟声音以后的声音,进行从上述扬声器(52)输出之前的对讲声音的清晰度改善处理。3.如权利要求1所述的声音识别装置(100),其特征在于,还包括第2扬声器(62-1、62-2);第2自适应滤波器(7-1,7-2),对模拟了从上述第2扬声器(62-1、62-2)输出的音频音输入到上述麦克风(53)中去的传递系统的第2滤波系数进行设定,对从上述第2扬声器(62-1、62-2)输出之前的音频音进行滤波处理,由此生成位于上述麦克风(53)生成音频模拟音;说话声音提取单元(9),将从上述麦克风(53)经由说话声音提取单元(5)输入的声音减去上述音频模拟音,由此提取说话声音。4.如权利要求3所述的声音识别装置(200),其特征在于,设置了将音频音相加的加法器(11),上述第2扬声器(62-1、62-2)中的至少一个扬声器(62-1)用上述加法器(11)进行音频音的相加。5.如权利要求4所述的声音识别装置(300),其特征在于,上述第2自适应滤波器(7-1,7-2)中的至少一个自适应滤波器(7-1),对模拟了上述扬声器(62-1)输出的对讲声音和音频音的混合声音输入到上述麦克风(53)中的传递系统的滤波系数进行设定,对从上述扬声器(62-1)输出之前的混合声音进行滤波处理,由此生成位于上述麦克风(53)的混合模拟声音。6.如权利要求4所述的声音识别装置(300),其特征在于,上述第2自适应滤波器(7-1,7-2)中的另一个自适应滤波器(7-2),对模拟了上述多个扬声器(62-1,62-2)中的另一个扬声器(62-2)输出的另一个声道的音频音输入到上述麦克风(53)中的传递系统的第2滤波系数进行设定,对从上述另一个扬声器(62-2)输出之前的音频音进行滤波处理,由此生成位于上述麦克风(53)的音频模拟音。7.如权利要求6所述的声音识别装置(300),其特征在于,还包括可变滤波器(10),复制上述自适应滤波器(7-1)设定的滤波系数并进行设定,对从上述至一个扬声器(62-1)输出之前的对讲声音进行滤波处理,由此生成位于上述麦克风(53)的对讲模拟声音。8.一种声音识别方法,其特征在于,包括以下步骤当识...

【专利技术属性】
技术研发人员:松本修一丸本彻
申请(专利权)人:阿尔派株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1