语音识别装置和语音识别方法制造方法及图纸

技术编号:3404764 阅读:141 留言:0更新日期:2012-04-11 18:40
本发明专利技术利用话筒1采集说话者发出的语音,通过A/D变换器2提供给信号延迟单元3及声级推定单元4。声级推定单元4根据提供的数字语音信号进行声级推定值的计算。信号延迟单元3将延迟了预定的声级上升沿时间的数字语音信号提供给声级调整单元5,声级调整单元5根据声级推定值进行数字语音信号的声级调整,将声级调整后的输出提供给语音识别单元6,语音识别单元6根据提供的声级调整后的输出,进行语音识别。

【技术实现步骤摘要】

本专利技术涉及对说话者发出的语音进行识别的语音识别装置、语音识别方法及语音识别程序。
技术介绍
近年来,关于语音识别技术的发展非常迅速。所谓该语音识别,是指计算机或机械等自动理解人的语音。例如,通过利用该语音识别,使计算机或机械能够根据人的语音进行动作,或者能够使人的语音变换为文字。在语音识别中主要采用的方法是,抽取发出的语音所具有的频谱等物理特征,与预先存储的母音、子音或单词的物理特征模型进行比较。但是,在对许多不确定说话者进行语音识别时,由于说话者各自的个人差是造成语音所具有的物理特征差异的主要原因,因而不能进行正确的语音识别。另外,在对确定说话者进行语音识别时,也由于昼夜等周围环境的变化而产生的噪声(干扰)或者由于说话者身体状况等而引起语音所具有的物理特征的变化,成为进行语音识别时使识别率下降的主要原因,因而不能进行正确的语音识别。图13所示为进行语音识别时声级与识别率的关系的一个例子的示意图。图13所示的示意图中,纵轴表示识别率(%),横轴表示声级(dB)。这里所谓声级意味着声能级,例如0dB是指负载电阻为600Ω,端电压为0.775V,功耗为1mW。如图13所示,在以往的语音识别中,在声级低于-19dB或声级高于-2dB时,识别率有下降的趋势。在以往的语音识别中,在预先存储有母音、子音或单调的物理特征模型的声级时,在声级附近的识别率高,即由于是将预先存储的声级与输入的声级进行比较来进行语音识别的,因此在声级从低到高的情况下,不能平均得到高的识别率。因此在日本专利实开昭59-60700号公报中揭示了一种语音识别装置,它是在输入语音时使用的微型放大器中采用AGC电路(Auto Gain Controller自动增益控制电路),始终保持输入的声级近似一定。另外,在日本专利实开平01-137497号公报及特开昭63-014200号公报揭示了一种语音识别装置,它是利用适当的手段使说话者知道声级,并促使其以最佳的声级进行发声。但是,在实开昭59-60700号公报所揭示的语音识别装置中,有的情况下利用AGC电路使不应该放大语音以外的噪声(干扰)也被放大,由于放大的噪声使识别率降低。再有,输入的语音中,每个单词存在表示语言的抑扬顿挫的语调。因此,通过利用AGC电路频繁地将输入的声级放大或不放大,在放大为近似一定声级的语音波形要产生失真。由于该语音波形失真,则表示每个单词所包含的语言抑扬顿挫的声调产生失真,使识别率下降。另一方面,在实开平01-137497号公报及特开昭63-014200号公报所揭示的语音识别装置中,有的情况下由于周围环境的变化或说话者本身的身体状况不良等影响,由说话者输入的声级达不到预定的规定值,另外也有的情况下,即使说话者的发声达到预定的规定声级,语音识别装置也不识别。例如有的情况下,由说话者发出的声级具有个人特有的物理特征,若勉强使其改变发声,则物理特征变为不同的特征。因而使语音识别率下降。专利技术揭示本专利技术的目的是提供能够不受说话者声级影响、提高语音识别的识别率的语音识别装置、语音识别方法及语音识别程序。本专利技术的一个方面的语音识别装置具有输入数字语音信号的输入手段、在利用输入手段输入的语音区间内根据一部分时间内的数字语音信号推定语音区间的声级的声级推定手段、根据利用声级推定手段推定的声级及预先设定的目标声级调整利用输入手段输入的语音区间数字语音信号声级的声级调整手段、以及根据利用声级调整手段调整的数字语音信号进行语音识别的语音识别手段。在本专利技术的语音识别装置中,利用输入手段输入数字语音信号,在利用输入手段输入的语音区间内根据预定时间的数字语音信号,利用声级推定手段推定语音区间的声级。根据利用声级推定手段推定的声级及预先设定的目标声级,利用声级调整手段在利用输入手段输入的语音区间内调整数字语音信号的声级,再根据利用声级调整手段调整的数字语音信号,利用语音识别手段进行语音识别。在这种情况下,根据语音区间内的一部分时间的数字语音信号,推定整个语音区间的声级,根据推定的声级及预先设定的目标声级,将语音区间的数字语音信号的声级调整为一致。这样,能够使说话者的语音具有的表示语言抑扬顿挫的语调不产生失真,进行语音识别。因而能够提高语音识别的识别率。声级推定手段也可以在利用输入手段输入的语音区间内,根据最初的规定时间内的数字语音信号,推定语音区间的声级。在这种情况下,通常能够利用语音区间内的最初的规定时间内的声级上升沿部分,判断整个语音区间的声级。因而,通过在语音区间内根据最初的规定时间内的数字语音信号进行声级推定,能够在短时间内正确推定语音区间内的声级。声级推定手段也可以在利用输入手段输入的语音区间内将最初的规定时间内的数字语音信号平均值推定作为语音区间的声级。在这种情况下,通过在语音区间的最初的规定时间内计算数字语音信号的平均值,能够更正确地推定语音区间的声级。声级调整手段也可以利用预先设定的目标声级与利用声级推定手段推定的声级之比确定放大倍数,以该放大倍数使利用输入手段输入的语音区间的数字语音信号声级放大或衰减。在这种情况下,通过以目标声级与推定的声级之比确定的放大倍数使语音区间的数字信号的声级增加或衰减,能够将语音区间的声级设定为目标声级。语音识别装置也可以还具有使利用输入手段输入的数字语音信号延迟的延迟电路,使利用输入手段输入的数字语音信号与利用声级推定手段推定的声级同步,一起提供给声级调整手段。在这种情况下,能够采用与数字语音信号对应的声级推定值进行声级调整。这样,能够正确调整语音区间的声级。声级推定手段也可以包含检测利用输入手段输入的语音区间的开始点的语音检测单元、在利用输入手段输入的语音区间内根据最初的规定时间内的数字语音信号推定语音区间的声级的声级推定单元、保持利用声级推定单元推定的声级的保持电路、以及存储电路,所述存储电路对于利用语音检测单元的检测进行响应,将利用输入手段输入的语音区间的数字语音信号加以存储,同时使存储的语音区间的数字语音信号与保持电路保持的声级同步,输出给声级调整手段。在这种情况下,利用语音检测单元检测利用输入手段输入的语音区间的数字语音信号开始点,根据利用输入手段输入的语音区间内的最初的规定时间内的数字语音信号,利用声级推定单元推定语音区间的声级。利用声级推定单元推定的声级利用保持电路加以保持,再对于利用语音检测单元的检测进行响应,将利用输入手段输入的语音区间的数字语音信号存储在存储电路中,同时使存储的语音区间的数字语音信号与保持电路保持的声级同步,利用存储电路输出给声级调整手段。在这种情况下,从语音区间的开始点起,将数字语音信号存储在存储电路中,采用与存储的数字语音信号对应的声级推定值调整声级。这样,能够将数字语音信号调整为正确的声级,能够提高语音识别的识别率。存储电路也可以包含将利用输入手段输入的语音区间的数字语音信号交替存储,同时将存储的语音区间的数字语音信号交替输出给声级调整手段的第1及第2缓冲器。在这种情况下,即使输入包含许多单词的长时间的语音,也能够在第1及第2缓冲器内交替存储语音区间的数字语音信号,同时从第1或第2缓冲器输出语音区间的数字语音信号。这样,能够用小容量的第1或第2缓冲器对包含许多单词的长时间的语音进行识别。语音识别手段也本文档来自技高网...

【技术保护点】
一种语音识别装置,其特征在于,具有 输入数字语音信号的输入手段、 在利用所述输入手段输入的语音区间内根据一部分时间内的数字语音信号推定所述语音区间的声级的声级推定手段、 根据利用所述声级推定手段推定的声级及预先设定的目标声级调整利用所述输入手段输入的所述语音区间的数字语音信号声级的声级调整手段。 以及根据利用所述声级调整手段调整的数字语音信号进行语音识别的语音识别手段。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:川根友惠金森丈郎
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利