改进噪声环境和频率失谐条件下话音识别性能的系统和方法技术方案

技术编号:3046863 阅读:296 留言:0更新日期:2012-04-11 18:40
通过改善语音识别系统10的语音识别器,实现了一种可以改善语音识别性能的方法和系统。为了减少附加噪声效应提高语音识别系统的准确度,采用了吠声振幅的μ律压缩20。采用吠声振幅的A律压缩,来提高语音识别器的准确度。在语音识别器中,可以同时采用μ律压缩20和μ律扩展22,来提高语音识别器的准确度。在语音识别器中,可以同时采用A律压缩21和A律扩展,来提高语音识别器的准确度。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】背景1、领域本专利技术涉及通信领域,尤其涉及噪声环境和频率失谐条件下改善语音识别性能的系统和方法。2、背景语音识别(VR)是一种非常重要的技术,它通过赋予机器具有模拟智能来识别使用者或者使用者的语音命令,而且促进了人和机器的交流。语音识别也是一种理解人类语言的非常重要的技术。采用某些技术将声学语音信号恢复成语言信息的系统称为话音识别器。这里使用的术语“话音识别器”通常是指任意的使用者语音接口使能装置。由于安全的原因,话音识别的使用(通常也叫语言识别)变得越来越重要。例如,可以使用语音识别来代替无线电话键盘上手动操作按键。当使用者在驾驶车辆的同时使用电话时,这一点变得尤为重要。当使用没有语音识别的电话机时,驾驶员必须把一只手从方向盘上拿开打电话,而且要在按键拨打电话的时候看着电话键盘。这些动作增加了发生车祸的可能性。语音使能电话(即,为语音识别而设计的电话)使得驾驶员能够在持续看着路面的情况下拨打电话。另外,手持车载系统使得驾驶员能够在电话呼叫的时候将双手保持在方向盘上。语音识别装置可以分为依赖于说话者的设备(SD)和不依赖于的说话者的设备(SI)。依赖于说话者的设备(SD)较为常用,其设计用于识别来自特定使用者的命令。相反,不依赖于说话者的设备(SI)能够接受来自任何使用值的话音命令。为了提高给定语音识别系统(无论是依赖于说话者的设备(SD)还是不依赖于说话者的设备(SI))的性能,都要进行训练,使系统具有有效的参数。换句话讲,在系统能够很好的工作之前,需要进行学习。典型的手持车载系统可以包括键盘上的数字键;关键词“呼叫”、“发送”、“拨号”、“取消”、“清除”、“添加”、“删除”、“历史”、“程序”、“是”和“否”;以及预定个同事、朋友和家人的名字。一旦训练结束,使用者可以通过讲出训练过的关键词来拨打电话,其中,训练过的语音识别装置通过将发出的语音与以往存储在模板中的训练时发出的语音进行比较并采用采用最佳匹配来进行识别。例如,假设“约翰”是一个训练过的名字,使用者可以通过讲出“呼叫约翰”这个短语来进行呼叫。语音识别系统可以识别“呼叫”和“约翰”这两个词语,而且可以拨打使用者事先存储的约翰的电话号码。无用模板(garbage template)用来表示词汇表中不存在的词语。将多个引擎组合起来提供了更高的准确度,并在输入语音信号中利用更大量的信息。组合多个语音识别引擎的系统和方法见美国专利申请09/618,177(在下文中称为′177号申请),其标题是“Combined Engine System and Method forVoice Recognition”,其申请日为2000年7月18日;以及美国专利申请号为09/657,760(在下文中称为′760号申请),其标题是“System and Method forAutomatic Voice Recognition Using Mapping”,其申请日为2000年9月8日,此二专利已转让给本专利技术的受让人,在此引述供参考。虽然具有组合语音识别引擎的语音识别系统比采用单独语音识别引擎的系统更准确,但是由于嘈杂环境的影响,组合语音识别系统中的每个语音识别引擎可能引入不准确度。由于背景噪声,可能无法识别输入语音信号。背景噪声可能导致输入语音信号与语音识别系统词汇表模板之间的不匹配,或者引起两者的错误匹配。当输入语音信号和模板之间不匹配时,输入语音信号将被拒绝。而当发生错误匹配时,语音识别系统选定了一个不对应于输入语音信号的模板。这个错误匹配的情况也被认为是一种替换——错误模板替换了正确模板。人们希望得到一种在存在背景噪声的情况下,可以提高语音识别准确度的具体方法。一个背景噪声引起拒绝或错误匹配的例子是,当在驾驶的过程中使用移动电话进行语音拨号时,麦克风接收的输入语音信号会受到附加公路噪声的严重干扰。附加公路噪声可能会劣化话音识别率和准确率,并引起拒绝或错误匹配。另一个噪声引起拒绝或错误匹配的例子是,当麦克风放在护目镜或者耳机上时,接收的语音信号会受到环绕失真。环绕失真引起的噪声称为环绕噪声和频率错误匹配。环绕失真取决于很多因素,例如嘴和麦克风间的距离、麦克风的频率响应、汽车内部的声学特性等等。这些情况都可能降低语音识别准确度。传统上,现有技术的语音识别系统包含RASTA滤波器来过滤环绕噪声。但是,背景噪声是不能被RASTA滤波器过滤掉的。因此,需要一种技术可以同时过滤环绕噪声和背景噪声。这种技术可以提高语音识别系统的准确度。3、专利技术概述本文所描述的实施例提供了一种改善语音识别系统的前端的系统和方法。一方面,语音识别的系统和方法包含吠声振幅的μ律压缩。另一方面,话音识别的系统和方法包含吠声振幅的A-律压缩。吠声振幅的μ律和A律压缩都减小了嘈杂环境的影响,因此,提高了整个话音识别系统的准确度。另一方面,话音识别的系统和方法包含吠声振幅的μ律压缩和RelAtiveSpecTrAl(RASTA)滤波器输出的μ律扩展。在另一个方面,话音识别的系统和方法包含吠声振幅的A律压缩和RASTA滤波器输出的A律扩展。当使用μ律压缩和μ律扩展,或者A律压缩和A律扩展时,匹配引擎如“动态时间扭曲(Dynamic Time Warping,DTW)”引擎更适合于处理信道错误匹配的情况。4、附图简述通过接下来的详细描述和对应的附图,可以使这个专利技术的特点、目标和优点变得更加清楚。图中,相同的标记所表示的意义相同。附图说明图1是语音识别系统中的典型语音识别前端;图2是语音识别系统中隐藏Markov模型(HMM)模块的前端;图3是用μ律压扩方案代替对数(log)压缩的前端;图4是用A律压扩方案代替对数压缩的前端;图5是Log10()函数和μ-log函数固定点执行图,其中C=50;图6是按照采用μ律压缩和μ律扩展的实施例的前端;图7是按照采用A律压缩和A律扩展的实施例的前端。5、特定实施例的描述为了给出一个语言段的特性,语音识别系统包含一个进行前端处理的前端。图1是语音识别系统中的典型语音识别前端10。在每隔T毫秒,吠声振幅产生模块12把数字化的语音信号s(n)转换成k个吠声振幅一次。在一个实施例中,T是10毫秒,k是16个吠声振幅。因此,每10毫秒就有16个吠声振幅。本领域中的普通技术人员能够理解,k可以是任何的正整数。本领域中的普通技术人员也能够理解,T可以是任意的时间段。吠声范围是和人类听力感觉相对应的临界带的频率偏差范围。LawrenceRabiner和Biiing-Hwang Juang的“Fundamentals of Speech Recognition”(1993)所描述的吠声振幅计算是本领域中的普通技术人员能够理解的。该文献在此引述供参考。吠声振幅产生模块12和对数(Log)压缩模块14相连接。通过对每一个吠声振幅取对数,对数(Log)压缩模块14把吠声振幅变换成log10的标度。对数(Log)压缩模块14和对数倒频谱转换模块16相连接。对数倒频谱转换模块16计算j静态对数倒频谱系数和j动态对数倒频谱系数。对数倒频谱转换是一个大家都了解的余弦转换。参考前面的参考文献引用的Lawrence Rabiner和Biiing-Hwang Juang的例子。在一个实施例本文档来自技高网...

【技术保护点】
一种分布式语音识别系统的语音识别器,其特征在于,它包括:配置用于将数字化语音信号转变为吠声(bark)振幅的吠声振幅生成模块;与吠声振幅生成模块相连接的μ-log压缩模块,所述μ-log压缩模块用以对吠声振幅执行μ-log压缩; 与所述μ-log压缩模块相连的RASTA滤波模块,所述RASTA滤波模块用以对μ-log吠声振幅进行RASTA滤波;以及与所述RASTA滤波模块相连的对数倒频谱转换模块,所述对数倒频谱转换模块用于生成J静态对数倒频谱系数以及J动态对数倒 频谱系数。

【技术特征摘要】
【国外来华专利技术】US 2000-10-31 09/703,1911.一种分布式语音识别系统的语音识别器,其特征在于,它包括配置用于将数字化语音信号转变为吠声(bark)振幅的吠声振幅生成模块;与吠声振幅生成模块相连接的μ-log压缩模块,所述μ-log压缩模块用以对吠声振幅执行μ-log压缩;与所述μ-log压缩模块相连的RASTA滤波模块,所述RASTA滤波模块用以对μ-log吠声振幅进行RASTA滤波;以及与所述RASTA滤波模块相连的对数倒频谱转换模块,所述对数倒频谱转换模块用于生成J静态对数倒频谱系数以及J动态对数倒频谱系数。2.如权利要求书1所述的语音识别器,其特征在于,它还包含处理J静态对数倒频谱系数以及J动态对数倒频谱系数以及产生识别假说的末端。3.如权利要求书1所述的语音识别器,其特征在于,所述μ-log压缩是G.711μ-log压缩。4.如权利要求书1所述的语音识别器,其特征在于,所述吠声振幅生成模块每隔T毫秒的时间,将数字语音信号转换成K吠声振幅。5.如权利要求书4所述的语音识别器,其特征在于,所述对数倒频谱转换模块用来每隔T毫秒的时间,生成J静态对数倒频谱系数以及J动态对数倒频谱系数。6.如权利要求书4所述的语音识别器,其特征在于,K等于16。7.如权利要求书4所述的语音识别器,其特征在于,T等于10。8.一种分布式语音识别系统的语音识别器,其特征在于,它包括配置用于将数字化语音信号转变为吠声振幅的吠声振幅生成模块;与吠声振幅生成模块相连接的A-log压缩模块,所述A-log压缩模块用以对吠声振幅执行A-log压缩;与所述A-log压缩模块相连的RASTA滤波模块,所述RASTA滤波模块用以对A-log吠声振幅进行RASTA滤波;以及与所述RASTA滤波模块相连的对数倒频谱转换模块,所述对数倒频谱转换模块用于生成J静态对数倒频谱系数以及J动态对数倒频谱系数。9.如权利要求书8所述的语音识别器,其特征在于,它还包含处理J静态对数倒频谱系数以及J动态对数倒频谱系数以及产生识别假说的末端。10.如权利要求书8所述的语音识别器,其特征在于,所述μ-log压缩是G.711μ-log压缩。11.如权利要求书8所述的语音识别器,其特征在于,所述吠声振幅生成模块每隔T毫秒的时间,将数字语音信号转换成K吠声振幅。12.如权利要求书11所述的语音识别器,其特征在于,所述对数倒频谱转换模块用来每隔T毫秒的时间,生成J静态对数倒频谱系数以及J动态对数倒频谱系数。13.如权利要求书11所述的语音识别器,其特征在于,K等于16。14.如权利要求书12所述的语音识别器,其特征在于,T等于10。15.一种分布式语音识别系统的语音识别器,其特征在于,它包括配置用于将数字化语音信号转变为吠声振幅的吠声振幅生成模块;与所述吠声振幅生成模块相连接的μ-log压缩模块,所述μ-log压缩模块用以对所述吠声振幅执行μ-log压缩;与所述μ-log压缩模块相连的RASTA滤波模块,所述RASTA滤波模块用以对μ-log吠声振幅进行RASTA滤波;以及与所述RASTA滤波模块相连的μ-log扩展模块,所述μ-log扩展模块用于对经滤波的μ-log吠声振幅进行μ-log扩展。16.如权利要求书15所述的语音识别器,其特征在于,它还包括用于处理经扩展的吠声振幅和产生识别假设的末端。17.如权利要求书15所述的语音识别器,其特征在于,所述μ-log压缩和扩展是G.711μ-log压缩和扩展。18.如权利要求书15所述的语音识别器,其特征在于,所述吠声振幅生成模块每隔T毫秒的时间,将数字语音信号转变为K吠声振幅。19.如权利要求书18所述的语音识别器,其特征在于,所述μ-log扩展模块用来将经滤波的μ-log吠声振幅扩展成K扩展的吠声振幅。20.如权利要求书18所述的语音识别器,其特征在于,K等于16。21.如权利要求书19所述的语音识别器,其特征在于,所述T等于10。22.一种分布式语音识别系统的语音识别器,其特征在于,它包括配置用于将数字化语音信号转变为吠声振幅的吠声振幅生成模块;与所述吠声振幅生成模块相连接的A-log压缩模块,所述A-log压缩模块用以对所述吠声振幅执行A-log压缩;与所述A-log压缩模块相连的RASTA滤波模块,所述RASTA滤波模块用以对A-log吠声振幅进行RASTA滤波;以及与所述RASTA滤波模块相连的A-log扩展模块,所述μ-log扩展模块用于对经滤波的μ-log吠声振幅进行A-log扩展。23.如权利要求书22所述的语音识别器,其特征在于,它还包括处理经扩展的吠声振幅和产生识别假设的末端。24.如权利要求书22所述的...

【专利技术属性】
技术研发人员:H加鲁达德里
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1