语音识别方法及语音识别装置制造方法及图纸

技术编号：3044846 阅读：202 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种语音识别方法、语音识别装置及计算机程序。其中，语音识别装置基于周期性发生的脉冲噪声的发生周期和持续时间，预测脉冲噪声发生的段，基于除与所预测的段相对应的帧的特征分量之外的剩余帧的特征分量，或者基于从其中删除了与所预测的段相对应的部分之后的声音数据而创建的帧中提取的特征分量，执行语音识别处理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别方法，所述方法由通过对声音进行采样而获取的声音数据来创建预定长度的多个帧，并且基于从各帧提取的特征分量进行语音识别处理。本专利技术还涉及采用上述语音识别方法的语音识别装置以及实现该语音识别装置的计算机程序。本专利技术尤其涉及用于去除诸如车辆中设置的危机报警闪光器的交替声(relay sound)的脉冲噪声的语音识别方法、语音识别装置及计算机程序。
技术介绍
车载装置，如汽车导航装置，通常具有语音识别功能。具有语音识别功能的车载装置在稳态噪声(诸如道路噪声和引擎噪声)环境下具有高语音识别准确性，但是在突然发生的非稳态噪声的环境下识别准确性不够高。特别地，当非稳态噪声在一段语音中间发生时，则此段语音的识别率会下降。作为去除非稳态噪声的方法，日本公开专利申请2003 — 308092公开了如下技术获知噪声段中以一定周期发生的非稳态噪声的周期，并在非稳态噪声叠加于语音段时，从叠加有噪声的语音功率谱中减去与非稳态噪声相关的噪声功率谱。但是，在日本公开专利申请2003-0308092公开的传统方法中，当持续时间短、并随时间快速变化的脉冲噪声(例如危机报警闪光器的交替声)作为非稳态噪声叠加在语音段上时，由于很难在时间分辨率低的功率谱区域准确减去随时间快速变化的所述脉冲噪声，因此存在语音识别的正确率下降的问题。
技术实现思路
本专利技术旨在解决上述问题，本专利技术的目的在于提供一种语音识别方法，所述方法可在发生的脉冲噪声持续时间短并随时间迅速变化的环境下高度准确地执行语音识别处理，这通过在将被预测叠加有脉冲噪声的声音数据或...

【技术保护点】
一种语音识别方法，该方法根据对声音进行采样所获取的声音数据而创建预定长度的多个帧，并基于从各个帧中提取的特征分量执行语音识别处理，该方法包括以下步骤：记录周期性发生的脉冲噪声的发生周期和持续时间；基于记录的发生周期和持续时间，预测其中发生脉冲噪声的段；以及基于除与所预测的段相对应的帧的特征分量之外的剩余帧的特征分量执行语音识别处理。

【技术特征摘要】
JP 2006-9-22 2006-2577881.一种语音识别方法，该方法根据对声音进行采样所获取的声音数据而创建预定长度的多个帧，并基于从各个帧中提取的特征分量执行语音识别处理，该方法包括以下步骤记录周期性发生的脉冲噪声的发生周期和持续时间；基于记录的发生周期和持续时间，预测其中发生脉冲噪声的段；以及基于除与所预测的段相对应的帧的特征分量之外的剩余帧的特征分量执行语音识别处理。2. —种语音识别方法，该方法根据对声音进行采样所获取的声音数据而创建预定长度的多个帧，并基于从各个帧中提取的特征分量执行语音识别处理，该方法包括以下步骤记录周期性发生的脉冲噪声的发生周期和持续时间；基于记录的发生周期和持续时间，预测其中发生脉冲噪声的段；根据删除了与所预测的段相对应的部分之后的所述声音数据创建预定长度的多个帧，以及基于从各个帧中提取的特征分量执行语音识别处理。3. —种语音识别装置，其包括用于存储从预定长度的多个帧提取的特征分量的缓冲器，所述多个帧通过对声音进行采样所获取的声音数据而创建，该语音识别装置基于存储在缓冲器中的各个帧的特征分量执行语音识别处理，其中该语音识别装置包括记录部件，用于记录周期性发生的脉冲噪声的发生周期和持续时间；预测部件，用于基于在该记录部件中记录的发生周期和持续时间，预测其中发生脉冲噪声的段；以及删除部件，用于从所述缓冲器中删除与预测的段相对应的帧的特征分4. 一种语音识别装置，其包括用于存储预定长度的多个帧的缓冲器，所述多个帧通过对声音进行采样所获取的声音数据而创建，该语音识别装置基于从存储在所述缓冲器中的各个帧提取的特征分量执行语音识别处理，其中该语音识别装置包括记录部件，用于记录周期性发生的脉冲噪声的发生周期和持续时间；预测部件，用于基于所述记录部件中记录的发生周期和持续时间，预测其中发生脉冲噪声的段；删除部件，用于从所述声音数据中删除与所预测的段相对应的部分；创建部件，用于根据删除了与所预测的段相对应的部分之后的所述声音数据创建预定长度的多个帧；以及存储部件，用于将所创建的帧存储在该缓冲器中。5. 根据权利要求3或4所述的语音识别装置，其特征在于，还包括语音段辨别部件，用于辨别所述声音数据中的包含人声的语音段和不包含人声的无语音段；噪声确定部件，基于与被所述语音段辨别部件辨别为无语音段的段相对应的声音数据...

【专利技术属性】
技术研发人员：早川昭二，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人