一种语音增强方法、语音识别方法、聚类方法及装置制造方法及图纸

技术编号:13799823 阅读:47 留言:0更新日期:2016-10-07 02:55
本发明专利技术公开一种语音增强方法、语音识别方法、聚类方法及装置。方法包括:选取与测试语音的第一帧语音部分的特征向量最匹配的特征向量聚类中心;针对测试语音包含的其他各帧语音部分的特征向量执行:从与该语音部分的前一帧语音部分的特征向量最匹配的特征向量聚类中心,以及与前一帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特征向量聚类中心中,选取与该语音部分的特征向量最匹配的特征向量聚类中心;根据测试语音包含的各帧语音部分的特征向量、选取的特征向量聚类中心重建测试语音的特征向量。本发明专利技术由于在进行语音增强利用了能够表示语音连续性的特征,因此相比于现有技术中的传统的语音增强模型而言,能够达到更好的语音增强效果。

【技术实现步骤摘要】

本专利技术涉及计算机
,尤其涉及一种语音增强方法、语音识别方法、聚类方法及装置
技术介绍
语音识别,也称自动语音识别(Automatic Speech Recognition,ASR)、语音辨识或言语辨别,其目标是语音信号中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列等。在实际应用中,作为语音识别对象的语音信号(一般称为测试语音)中,往往会掺杂各种噪声,从而直接导致对于这样的语音信号的识别率较低。针对该情况,在对语音信号进行识别前,往往会先执行语音增强的操作。语音增强,是指当语音信号被各种各样的噪声干扰甚至淹没后,从噪声背景中提取有用的语音信号,达到抑制、降低噪声干扰的一种技术。现有技术中,一种常见的语音增强方案为:利用样本语音(也称训练语料)建立传统的语音增强模型;利用传统的语音增强模型,对测试语音进行语音增强处理。该方案的缺陷在于,在测试语音和训练语料最匹配度较低的情况下,难以达到较好的语音增强效果,进而使得语音识别的识别率较低。
技术实现思路
本专利技术实施例提供一种语音增强方法、语音识别方法、聚类方法及装置,用以解决采用传统的语音增强模型难以达到较好的语音增强效果的问题。本专利技术实施例提供一种语音增强方法,包括:从训练得到的特征向量聚类中心中,选取与所述测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心;针对所述测试语音包含的其他各帧语音部分的特征向量执行:从训练得到的、与该语音部分的前一帧语音部分的特征向量最匹配的特征向量聚类中心,以及与所述前一帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特
征向量聚类中心中,选取与该语音部分的特征向量最匹配的特征向量聚类中心;其中,训练得到的每个特征向量聚类中心与至少一个与其相邻的特征向量聚类中心构成的集合具有描述语音连续性的能力;根据所述测试语音包含的各帧语音部分的特征向量,以及选取的特征向量聚类中心,重建所述测试语音的特征向量。本专利技术实施例还提供一种语音识别方法,包括对采用上述语音增强方法重建的语音信号进行语音识别。本专利技术实施例还提供一种聚类方法,包括:从训练语料包含的各帧语音部分中分别提取特征向量样本;确定特征向量样本在多维空间中的分布信息;根据所述分布信息,确定初始聚类中心;根据所述特征向量样本与各初始聚类中心的相似度,对所述各初始聚类中心进行迭代聚类,得到待定聚类中心;根据训练语料中相邻语音部分的特征向量,对待定聚类中心进行迭代聚类,得到特征向量聚类中心。本专利技术实施例还提供一种语音增强装置,包括:选取单元,用于从训练得到的特征向量聚类中心中,选取与测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心;以及,针对所述测试语音包含的其他各帧语音部分的特征向量执行:从训练得到的、与该语音部分的前一帧语音部分的特征向量最匹配的特征向量聚类中心,以及与所述前一帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特征向量聚类中心中,选取与该语音部分的特征向量最匹配的特征向量聚类中心;其中,训练得到的每个特征向量聚类中心与至少一个与其相邻的特征向量聚类中心构成的集合具有描述语音连续性的能力;重建单元,用于根据所述测试语音包含的各帧语音部分的特征向量,和选取单元选取的特征向量聚类中心,重建所述测试语音的特征向量。本专利技术实施例还提供一种语音识别装置,包括:语音识别单元,用于对采用上述语音增强装置重建的语音信号进行语音识别。本专利技术实施例还提供一种聚类装置,包括:特征提取单元,用于从训练语料包含的各帧语音部分中分别提取特征向量样本;分布确定单元,用于确定特征向量样本在多维空间中的分布信息;初始聚类中心确定单元,用于根据所述分布信息,确定初始聚类中心;第一聚类单元,用于根据所述特征向量样本与
各初始聚类中心的相似度,对所述各初始聚类中心进行迭代聚类,得到待定聚类中心;第二聚类单元,用于根据训练语料中相邻语音部分的特征向量,对第一聚类单元得到的待定聚类中心进行迭代聚类,得到特征向量聚类中心。本专利技术实施例提供的一种语音增强方法、语音识别方法、聚类方法及装置,由于在为测试语音包含的除第一帧外的其他各帧语音部分的特征向量确定相邻的特征向量聚类中心时,是从与该语音部分的前一帧语音部分的特征向量相邻的特征向量聚类中心,以及与前一帧语音部分的特征向量相邻的特征向量聚类中心相邻的特征向量聚类中心中选取的,而训练得到的每个特征向量聚类中心与至少一个与其相邻的特征向量聚类中心构成的集合具有描述语音连续性的能力,因此相当于在进行语音增强利用了能够表示语音连续性的特征,相比于现有技术中的传统的语音增强模型而言,达到了更好的语音增强效果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1a为本专利技术实施例1提供的一种语音增强方法的流程示意图;图1b为多维空间中的特征向量样本的分布示意图;图1c为本专利技术实施例1中生成的一种自组织图示意图;图1d为本专利技术实施例1中生成的一种包含初始聚类中心的自组织图示意图;图1e为初始聚类中心与相邻初始聚类中心的关系示意图;图2a为本专利技术实施例2采用的一种语音识别系统的结构示意图;图2b为本专利技术实施例2中的训练子系统功能的实现方式示意图;图3为本专利技术实施例3提供的一种语音增强装置的结构示意图;图4为本专利技术实施例4提供的一种聚类装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术
具体实施例及相应的附图对本专利技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。以下结合附图,详细说明本专利技术各实施例提供的技术方案。实施例1为了达到较好的语音增强效果,本专利技术实施例1提供一种语音增强方法。该方法的实现流程示意图如图1a所示,包括如下步骤:步骤11,获得特征向量集合。其中,这里所说的特征向量集合是由从测试语音中提取出的特征向量构成的。本专利技术实施例中,特征向量可以是从测试语音中提取出的与语音识别有关的向量,尤其可以是任何可以表示声道形状的特征向量。比如频谱特征向量,就是一种可以表示声道形状的特征向量。具体地,频谱特征向量可以是梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients,MFCC)构成的特征向量等频谱特征向量。本专利技术实施例中,对特征向量的维数不进行限定,其可以是12维,也可以是40维,等等。步骤12,从训练得到的特征向量聚类中心中,选取与测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心。本专利技术实施例中,特征向量与特征向量聚类中心相最匹配,是指特征向量与特征向量聚类中心的相似度的值小于相似度阈值。一般地,特征向量与特征向量聚类中心的相似度,可以由特征向量与特征向量聚类中心之间的欧几里得距离的大小来衡量。该距离越小,则相似度的值越大;本文档来自技高网
...

【技术保护点】
一种语音增强方法,其特征在于,包括:从训练得到的特征向量聚类中心中,选取与所述测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心;针对所述测试语音包含的其他各帧语音部分的特征向量执行:从训练得到的、与该语音部分的前一帧语音部分的特征向量最匹配的特征向量聚类中心,以及与所述前一帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特征向量聚类中心中,选取与该语音部分的特征向量最匹配的特征向量聚类中心;其中,训练得到的每个特征向量聚类中心与至少一个与其相邻的特征向量聚类中心构成的集合具有描述语音连续性的能力;根据所述测试语音包含的各帧语音部分的特征向量,以及选取的特征向量聚类中心,重建所述测试语音的特征向量。

【技术特征摘要】
1.一种语音增强方法,其特征在于,包括:从训练得到的特征向量聚类中心中,选取与所述测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心;针对所述测试语音包含的其他各帧语音部分的特征向量执行:从训练得到的、与该语音部分的前一帧语音部分的特征向量最匹配的特征向量聚类中心,以及与所述前一帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特征向量聚类中心中,选取与该语音部分的特征向量最匹配的特征向量聚类中心;其中,训练得到的每个特征向量聚类中心与至少一个与其相邻的特征向量聚类中心构成的集合具有描述语音连续性的能力;根据所述测试语音包含的各帧语音部分的特征向量,以及选取的特征向量聚类中心,重建所述测试语音的特征向量。2.如权利要求1所述的方法,其特征在于,根据所述测试语音包含的各帧语音部分的特征向量,以及选取的特征向量聚类中心,重建所述测试语音的特征向量,包括:根据选取的特征向量聚类中心,执行对所述测试语音包含的所有语音部分的特征向量构成的向量集合的插值运算操作,以获得所述测试语音的重建的特征向量。3.如权利要求1所述的方法,其特征在于,从训练得到的特征向量聚类中心中,选取与所述测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心前,所述方法还包括:从训练语料包含的各帧语音部分中分别提取特征向量样本;确定特征向量样本在多维空间中的分布信息;根据所述分布信息,确定初始聚类中心;根据所述特征向量样本与各初始聚类中心的相似度,对所述各初始聚类中心进行迭代聚类,得到待定聚类中心;根据设定的迭代聚类规则,对待定聚类中心进行迭代聚类,得到特征向量聚类中心;其中,所述设定的迭代聚类规则包括:根据所述训练语料的各语音部分的特征向量,对待定聚类中心进行迭代聚类;并且,在对待定聚类中心进行单次
\t迭代聚类时依据的特征向量,为所述训练语料中单个语音部分的特征向量;在对待聚类中心进行的每相邻两次迭代聚类时分别依据的特征向量,是所述训练语料中相邻语音部分的特征向量。4.如权利要求3所述的方法,其特征在于,根据设定的迭代聚类规则,对待定聚类中心进行迭代聚类,得到特征向量聚类中心,包括:根据设定的迭代聚类规则,针对每个训练语料执行迭代聚类操作,直至满足迭代收敛条件时,将具备满足迭代收敛条件时计算出的参数值的各待定聚类中心,确定为特征向量聚类中心;其中,所述迭代聚类操作包括下述步骤:确定该训练语料的第一帧语音部分的特征向量与与该第一帧语音部分的特征向量最匹配的待定聚类中心的相似度,以及该第一帧语音部分的特征向量与该最匹配的待定聚类中心的相邻待定聚类中心的相似度;针对该训练语料的其他各帧语音部分,执行:从与该语音部分的前一相邻语音部分的特征向量最匹配的待定聚类中心,以及所述特定空间中与该语音部分的前一相邻语音部分的特征向量最匹配的待定聚类中心的相邻聚类中心中,确定与该语音部分最匹配的待定聚类中心,并确定该语音部分的特征向量与该最匹配的待定聚类中心的相似度,以及该语音部分的特征向量与该最匹配的待定聚类中心的相邻待定聚类中...

【专利技术属性】
技术研发人员:王育军
申请(专利权)人:乐视致新电子科技天津有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1