语音识别方法及语音识别装置制造方法及图纸

技术编号:3044846 阅读:202 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种语音识别方法、语音识别装置及计算机程序。其中,语音识别装置基于周期性发生的脉冲噪声的发生周期和持续时间,预测脉冲噪声发生的段,基于除与所预测的段相对应的帧的特征分量之外的剩余帧的特征分量,或者基于从其中删除了与所预测的段相对应的部分之后的声音数据而创建的帧中提取的特征分量,执行语音识别处理。

【技术实现步骤摘要】

本专利技术涉及语音识别方法,所述方法由通过对声音进行采样而获取的声 音数据来创建预定长度的多个帧,并且基于从各帧提取的特征分量进行语音 识别处理。本专利技术还涉及采用上述语音识别方法的语音识别装置以及实现该 语音识别装置的计算机程序。本专利技术尤其涉及用于去除诸如车辆中设置的危机报警闪光器的交替声(relay sound)的脉冲噪声的语音识别方法、语音识 别装置及计算机程序。
技术介绍
车载装置,如汽车导航装置,通常具有语音识别功能。具有语音识别功 能的车载装置在稳态噪声(诸如道路噪声和引擎噪声)环境下具有高语音识 别准确性,但是在突然发生的非稳态噪声的环境下识别准确性不够高。特别 地,当非稳态噪声在一段语音中间发生时,则此段语音的识别率会下降。作为去除非稳态噪声的方法,日本公开专利申请2003 — 308092公开了 如下技术获知噪声段中以一定周期发生的非稳态噪声的周期,并在非稳态 噪声叠加于语音段时,从叠加有噪声的语音功率谱中减去与非稳态噪声相关 的噪声功率谱。但是,在日本公开专利申请2003-0308092公开的传统方法中,当持续 时间短、并随时间快速变化的脉冲噪声(例如危机报警闪光器的交替声)作 为非稳态噪声叠加在语音段上时,由于很难在时间分辨率低的功率谱区域准 确减去随时间快速变化的所述脉冲噪声,因此存在语音识别的正确率下降的 问题。
技术实现思路
本专利技术旨在解决上述问题,本专利技术的目的在于提供一种语音识别方法, 所述方法可在发生的脉冲噪声持续时间短并随时间迅速变化的环境下高度准确地执行语音识别处理,这通过在将被预测叠加有脉冲噪声的声音数据或 基于所述声音数据创建的帧删除后,进行语音识别处理过程来实现。本专利技术 的另一 目的在于提供一种采用上述语音识别方法的语音识别装置。本专利技术的 再一 目的在于提供一种用于实现上述语音识别装置的计算机程序。根据本专利技术第一方案,提供一种语音识别方法,该方法根据对声音进行 采样所获取的声音数据而创建预定长度的多个帧,并基于从各个帧中提取的 特征分量执行语音识别处理,该方法包括以下步骤记录周期性发生的脉冲 噪声的发生周期和持续时间;基于记录的发生周期和持续时间,预测其中发 生脉冲噪声的段;以及基于除与所预测的段相对应的帧的特征分量之外的剩 余帧的特征分量执行语音识别处理。在本专利技术中,由于基于脉冲噪声的发生周期和持续时间预测其中发生脉 冲噪声的段,以及基于除与所预测的段相对应的帧的特征分量之外的剩余帧 的特征分量执行语音识别处理,所以所述语音识别处理的执行并不使用受叠 加在帧上的脉冲噪声影响的特征分量。因此,可避免由于脉冲噪声导致的识 别错误,而且可在发生脉冲噪声的环境下高度准确地执行语音识别处理。根据本专利技术第二方案,提供一种语音识别方法,该方法根据对声音进行 采样所获取的声音数据而创建预定长度的多个帧,并基于从各个帧中提取的 特征分量执行语音识别处理,该方法包括以下步骤记录周期性发生的脉冲 噪声的发生周期和持续时间;基于记录的发生周期和持续时间,预测其中发 生脉冲噪声的段;根据删除了与所预测的段相对应的部分之后的所述声音数 据创建预定长度的多个帧,以及基于从各个帧中提取的特征分量执行语音识 别处理。在本专利技术中,由于基于脉冲噪声的发生周期和持续时间预测其中发生脉 冲噪声的段,根据删除了与所预测的段相对应的部分的所述声音数据创建预 定长度的多个帧,以及基于从各个帧中提取的特征分量执行语音识别处理, 所以所述语音识别处理的执行并不使用受叠加在帧上的脉冲噪声影响的特 征分量。因此,可避免由于脉冲噪声导致的识别错误,而且可在发生脉冲噪 声的环境下高度准确地执行语音识别处理过程。根据本专利技术第三方案,提供一种语音识别装置,包括用于存储从预定长 度的多个帧提取的特征分量的缓冲器,所述多个帧通过对声音进行采样所获取的声音数据而创建,该语音识别装置基于存储在缓冲器中的各个帧的特征 分量执行语音识别处理,其中该语音识别装置包括记录部件,用于记录周 期性发生的脉冲噪声的发生周期和持续时间;预测部件,用于基于在该记录 部件中记录的发生周期和持续时间,预测其中发生脉冲噪声的段;以及删除 部件,用于从所述缓冲器中删除与预测的段相对应的帧的特征分量。在本专利技术中,由于基于脉冲噪声的发生周期和持续时间预测其中发生脉 冲噪声的段,以及基于除与所预测的段相对应的帧的特征分量之外的剩余帧 的特征分量执行语音识别处理,所以所述语音识别处理的执行并不使用受叠 加在帧上的脉冲噪声影响的特征分量。因此,可避免由于脉冲噪声导致的识 别错误,而且可在发生脉冲噪声的环境下高度准确地执行语音识别处理过 程。根据本专利技术第四方案,提供一种语音识别装置,包括用于存储预定长度 的多个帧的缓冲器,所述多个帧通过对声音进行采样所获取的声音数据而创 建,该语音识别装置基于从存储在所述缓冲器中的各个帧提取的特征分量执 行语音识别处理,其中该语音识别装置包括记录部件,用于记录周期性发 生的脉冲噪声的发生周期和持续时间;预测部件,用于基于所述记录部件中 记录的发生周期和持续时间,预测其中发生脉冲噪声的段;删除部件,用于 从所述声音数据中删除与所预测的段相对应的部分;创建部件,用于根据删 除了与所预测的段相对应的部分之后的所述声音数据创建预定长度的多个 帧;以及存储部件,用于将所创建的帧存储在该缓冲器中。在本专利技术中,由于基于脉冲噪声的发生周期和持续时间预测其中发生脉 冲噪声的段,根据删除了与所预测的段相对应的部分的所述声音数据创建预 定长度的多个帧,以及基于从各个帧中提取的特征分量执行语音识别处理, 所以所述语音识别处理的执行并不使用受叠加在帧上的脉冲噪声影响的特 征分量。因此,可避免由于脉冲噪声导致的识别错误,而且可在发生脉冲噪 声的环境下高度准确地执行语音识别处理过程。本专利技术第五方案是一种基于本专利技术第三方案或第四方案的语音识别装 置,特征在于还包括语音段辨别部件,用于辨别所述声音数据中的包含人 声的语音段和不包含人声的无语音段;噪声确定部件,基于与被所述语音段 辨别部件辨别为无语音段的段相对应的声音数据的强度,确定是否发生脉冲噪声;以及噪声计算部件,在确定发生了脉冲噪声的情况下,基于无语音段 中的声音数据的强度,计算发生的脉冲噪声的发生周期和持续时间,其中所 述记录部件记录计算出的发生周期和持续时间。在本专利技术中,由于脉冲噪声是否发生以及发生周期和持续时间是基于无 语音段中的声音数据计算得出的,所以可正确测算脉冲噪声的发生周期和持 续时间。本专利技术第六方案是一种基于本专利技术第五方案的语音识别装置,特征在 于,其中所述预测部件在被所述语音段辨别部件辨别为语音段的段中,预测 其中发生脉冲噪声的段。在本专利技术中,由于在语音段中发生脉冲噪声的帧的特征分量或声音数据 被删除,所以即使当脉冲噪声叠加在人声上时,仍可高度准确地执行语音识 别处理过程。本专利技术第七方案是一种基于本专利技术第五方案或第六方案的语音识别装 置,特征在于,所述噪声确定部件基于所述声音数据的强度的最大值、以及 从所述强度超过预定阈值的时间到所述强度变为低于所述阈值的时间的时 段,确定是否发生脉冲噪声。在本专利技术中,由于避免了错误检测脉冲噪声,所以可避免由于删除未叠 加脉冲噪声的无错帧的特征分量或声音本文档来自技高网...

【技术保护点】
一种语音识别方法,该方法根据对声音进行采样所获取的声音数据而创建预定长度的多个帧,并基于从各个帧中提取的特征分量执行语音识别处理,该方法包括以下步骤:记录周期性发生的脉冲噪声的发生周期和持续时间;基于记录的发生周期和持续时间,预测其中发生脉冲噪声的段;以及基于除与所预测的段相对应的帧的特征分量之外的剩余帧的特征分量执行语音识别处理。

【技术特征摘要】
JP 2006-9-22 2006-2577881.一种语音识别方法,该方法根据对声音进行采样所获取的声音数据而创建预定长度的多个帧,并基于从各个帧中提取的特征分量执行语音识别处理,该方法包括以下步骤记录周期性发生的脉冲噪声的发生周期和持续时间;基于记录的发生周期和持续时间,预测其中发生脉冲噪声的段;以及基于除与所预测的段相对应的帧的特征分量之外的剩余帧的特征分量执行语音识别处理。2. —种语音识别方法,该方法根据对声音进行采样所获取的声音数据而 创建预定长度的多个帧,并基于从各个帧中提取的特征分量执行语音识别处 理,该方法包括以下步骤记录周期性发生的脉冲噪声的发生周期和持续时间; 基于记录的发生周期和持续时间,预测其中发生脉冲噪声的段; 根据删除了与所预测的段相对应的部分之后的所述声音数据创建预定 长度的多个帧,以及基于从各个帧中提取的特征分量执行语音识别处理。3. —种语音识别装置,其包括用于存储从预定长度的多个帧提取的特征 分量的缓冲器,所述多个帧通过对声音进行采样所获取的声音数据而创建, 该语音识别装置基于存储在缓冲器中的各个帧的特征分量执行语音识别处 理,其中该语音识别装置包括记录部件,用于记录周期性发生的脉冲噪声的发生周期和持续时间; 预测部件,用于基于在该记录部件中记录的发生周期和持续时间,预测 其中发生脉冲噪声的段;以及删除部件,用于从所述缓冲器中删除与预测的段相对应的帧的特征分4. 一种语音识别装置,其包括用于存储预定长度的多个帧的缓冲器,所 述多个帧通过对声音进行采样所获取的声音数据而创建,该语音识别装置基 于从存储在所述缓冲器中的各个帧提取的特征分量执行语音识别处理,其中 该语音识别装置包括 记录部件,用于记录周期性发生的脉冲噪声的发生周期和持续时间; 预测部件,用于基于所述记录部件中记录的发生周期和持续时间,预测 其中发生脉冲噪声的段;删除部件,用于从所述声音数据中删除与所预测的段相对应的部分;创建部件,用于根据删除了与所预测的段相对应的部分之后的所述声音数据创建预定长度的多个帧;以及存储部件,用于将所创建的帧存储在该缓冲器中。5. 根据权利要求3或4所述的语音识别装置,其特征在于,还包括 语音段辨别部件,用于辨别所述声音数据中的包含人声的语音段和不包含人声的无语音段;噪声确定部件,基于与被所述语音段辨别部件辨别为无语音段的段相对 应的声音数据...

【专利技术属性】
技术研发人员:早川昭二
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1