声学建模方法及装置和语音识别方法及装置制造方法及图纸

技术编号:9569701 阅读:92 留言:0更新日期:2014-01-16 03:02
本发明专利技术提供一种用于噪声环境下的语音输入的声学建模方法,包括以下步骤:使用纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料;以及通过使用所述加噪语料进行声学模型训练,建立加噪语料的声学模型。本发明专利技术还提供一种用于噪声环境下的语音输入的声学建模装置以及用于噪声环境下的语音输入及搜索系统的语音识别方法和装置。本发明专利技术可以提高噪声环境下语音识别的准确度和效率。

【技术实现步骤摘要】
【专利摘要】本专利技术提供一种用于噪声环境下的语音输入的声学建模方法,包括以下步骤:使用纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料;以及通过使用所述加噪语料进行声学模型训练,建立加噪语料的声学模型。本专利技术还提供一种用于噪声环境下的语音输入的声学建模装置以及用于噪声环境下的语音输入及搜索系统的语音识别方法和装置。本专利技术可以提高噪声环境下语音识别的准确度和效率。【专利说明】声学建模方法及装置和语音识别方法及装置
本专利技术涉及一种用于噪声环境下的语音识别技术,特别是涉及用于噪声环境下的语音输入的声学建模方法及装置、语音识别方法及装置。
技术介绍
语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪声、传输信道等等。为了提高语音识别系统的性能,其解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的声学模型,从而提高声学模型的自适应性。目前,现有的语音识别系统的适应性较差,主要体现在对环境依赖性强,即在单一噪声环境下采集到的语音数据经过训练后只能在这种环境下应用,否则系统性能将急剧下降。另外,还提出有采用对噪声的特性进行估计,例如噪声谱估计等,去除语音数据的噪声信号的方法。但这种方法对复杂的噪声环境下的语音数据的识别效果不佳。目前,现有的语音识别系统对安静环境下的语音数据的识别性能较佳,但对噪声环境下的语音数据的识别性能则明显下降。对于语音输入及搜索系统,其输入的语音噪声情况复杂多变,且由于语音输入及搜索等任务需要实时对语音进行识别,现有的语音识别方法难以实现良好的识别效果。
技术实现思路
本专利技术的专利技术人鉴于上述现有技术问题而完成了本专利技术。本专利技术的目的在于,提供一种适用于语音输入或语音搜索系统的可有效地提高噪声环境下的语音识别性能的声学建模方法及装置。为了解决上述技术问题,本专利技术采用了如下技术手段。本专利技术的一种用于噪声环境下的语音输入的声学建模方法,包括以下步骤:使用纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料;以及通过使用所述加噪语料进行声学模型训练,建立加噪语料的声学模型。另外,在所述声学建模方法中,在所述使用纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料的步骤之前还包括:采集各种噪声环境下的非标准语料来构成非标准语料集合;通过对所述非标准语料进行语音端点检测来截取所述非标准语料的非语音段;以及将所述非语音段拼接为纯噪声段。另外,在所述声学建模方法中,所述纯噪声段是预先录制的非语音段。另外,在所述声学建模方法中,所述使用所述纯噪声段对标准语料集合中的标准语料进行加噪处理的步骤进一步包括:从所述标准语料集合中随机选取标准语料并取得其时长;在所述纯噪声段中随机截取与所述时长相等的噪声片段;以及将所述截取出的噪声片段与所述选取出的标准语料进行信号叠加而形成经加噪处理的标准语料。另外,在所述声学建模方法中,在所述将所述非语音段拼接为纯噪声段的步骤之前还包括从所有的所述非语音段中筛选出持续时间超过预定阈值且平稳的非语音段的步骤。另外,在所述声学建模方法中,所述非标准语料集合的所述非标准语料仅是仅是在噪音环境下采集的语音数据;所述标准语料集合的所述标准语料包括文本数据和在安静环境下采集的与所述文本数据对应的语音数据。另外,在所述声学建模方法中,所述纯噪声段使用一个所述非语音段重复拼接而成。另外,在所述声学建模方法中,所述纯噪声段使用多个所述非语音段连续拼接而成。另外,在所述声学建模方法中,在所述使用所述纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料的步骤中,根据所述非标准语料中非语音段与语音段之间的信号强度比例作为参数来确定所述纯噪声段对标准语料集合中的标准语料进行加噪处理时的加噪信号强度。本专利技术的另一种方式是用于噪声环境下的语音输入的声学建模装置,包括:用于使用纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料的单元;以及用于通过使用所述加噪语料进行声学模型训练来建立加噪语料的声学模型的单元。另外,在所述声学建模装置中,在所述用于使用纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料的单元之前还包括:用于采集各种噪声环境下的非标准语料来构成非标准语料集合的单元;用于通过对所述非标准语料进行语音端点检测来截取所述非标准语料的非语音段的单元;以及用于将所述非语音段拼接为纯噪声段的单元。另外,在所述声学建模装置中,所述纯噪声段是预先录制的非语音段。另外,在所述声学建模装置中,在用于所述使用所述纯噪声段对标准语料集合中的标准语料进行加噪处理的单元中进一步包括:用于从所述标准语料集合中随机选取标准语料并取得其时长的单元;用于在所述纯噪声段中随机截取与所述时长相等的噪声片段的单元;以及用于将所述截取出的噪声片段与所述选取出的标准语料进行信号叠加而形成经加噪处理的标准语料的单元。另外,在所述声学建模装置中,在所述用于将所述非语音段拼接为纯噪声段的单元之前还包括:用于从所有的所述非语音段中筛选出持续时间超过预定阈值且平稳的非语音段的单元。另外,在所述声学建模装置中,所述非标准语料集合的所述非标准语料仅是在噪音环境下采集的语音数据;所述标准语料集合的所述标准语料包括文本数据和在安静环境下采集的与所述文本数据对应的语音数据。另外,在所述声学建模装置中,所述纯噪声段使用一个所述非语音段重复拼接而成。另外,在所述声学建模装置中,所述纯噪声段使用多个所述非语音段连续拼接而成。另外,在所述声学建模装置中,在所述用于使用所述纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料的单元中,根据所述非标准语料中非语音段与语音段之间的信号强度比例作为参数来确定所述纯噪声段对标准语料集合中的标准语料进行加噪处理时的加噪信号强度。本专利技术的又一种方式是用于噪声环境下的语音输入及搜索系统的语音识别方法,其中使用通过所述声学建模方法所建立的加噪语料的声学模型对非标准语料或用户输入的语音信息进行语音识别;以及将语音识别结果作为文本语料在搜索系统中进行搜索。另外,在所述语音识别方法中,所述语音识别步骤进一步包括:接收用户输入的语音信息;从包括多个所述加噪语料的声学模型的集合中选择与所述语音信息的背景噪声相匹配的声学模型;以及使用所选择的声学模型对所述语音信息进行语音识别。另外,在所述语音识别方法中,所述用于搜索的步骤进一步包括:根据所述语音识别结果在所述搜索系统的文本语料中搜索相关的信息;以及输出搜索结果。本专利技术的又一种方式是用于噪声环境下的语音输入及搜索系统的语音识别装置,包括用于通过使用所述声学建模装置建立的加噪语料的声学模型对非标准语料或用户输入的语音信息进行语音识别的单元;以及用于将语音识别结果作为文本语料在搜索系统中进行搜索的单元。另外,在所述语音识别装置中,所述用于语音识别的单元进一步包括:用于接收用户输入的语音信息的单元;用于从包括多个所述加噪语料的声学模型的集合中选择与所述语音信息相匹配的声学模型的单元;以及用于使用所选择的声学模型对所述语音信息进行语音识别的单本文档来自技高网
...

【技术保护点】
一种用于噪声环境下的语音输入的声学建模方法,包括以下步骤:使用纯噪声段对标准语料集合中的标准语料进行加噪处理以形成加噪语料;以及通过使用所述加噪语料进行声学模型训练,建立加噪语料的声学模型。

【技术特征摘要】

【专利技术属性】
技术研发人员:苏丹贾磊
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1