【技术实现步骤摘要】
本专利技术涉及计算机
,尤其涉及一种语音增强方法、语音识别方法、聚类方法及装置。
技术介绍
语音识别,也称自动语音识别(Automatic Speech Recognition,ASR)、语音辨识或言语辨别,其目标是语音信号中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列等。在实际应用中,作为语音识别对象的语音信号(一般称为测试语音)中,往往会掺杂各种噪声,从而直接导致对于这样的语音信号的识别率较低。针对该情况,在对语音信号进行识别前,往往会先执行语音增强的操作。语音增强,是指当语音信号被各种各样的噪声干扰甚至淹没后,从噪声背景中提取有用的语音信号,达到抑制、降低噪声干扰的一种技术。现有技术中,一种常见的语音增强方案为:利用样本语音(也称训练语料)建立传统的语音增强模型;利用传统的语音增强模型,对测试语音进行语音增强处理。该方案的缺陷在于,在测试语音和训练语料最匹配度较低的情况下,难以达到较好的语音增强效果,进而使得语音识别的识别率较低。
技术实现思路
本专利技术实施例提供一种语音增强方法、语音识别方法、聚类方法及装置,用以解决采用传统的语音增强模型难以达到较好的语音增强效果的问题。本专利技术实施例提供一种语音增强方法,包括:从训练得到的特征向量聚类中心中,选取与所述测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心;针对所述测试语音包含的其他各帧语音部分的特征向量执行:从训练得到的、与该语音部分的前一帧语音部分的特征向量最匹配的特征向量聚类中心,以及与所述前一帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特 ...
【技术保护点】
一种语音增强方法,其特征在于,包括:从训练得到的特征向量聚类中心中,选取与所述测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心;针对所述测试语音包含的其他各帧语音部分的特征向量执行:从训练得到的、与该语音部分的前一帧语音部分的特征向量最匹配的特征向量聚类中心,以及与所述前一帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特征向量聚类中心中,选取与该语音部分的特征向量最匹配的特征向量聚类中心;其中,训练得到的每个特征向量聚类中心与至少一个与其相邻的特征向量聚类中心构成的集合具有描述语音连续性的能力;根据所述测试语音包含的各帧语音部分的特征向量,以及选取的特征向量聚类中心,重建所述测试语音的特征向量。
【技术特征摘要】
1.一种语音增强方法,其特征在于,包括:从训练得到的特征向量聚类中心中,选取与所述测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心;针对所述测试语音包含的其他各帧语音部分的特征向量执行:从训练得到的、与该语音部分的前一帧语音部分的特征向量最匹配的特征向量聚类中心,以及与所述前一帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特征向量聚类中心中,选取与该语音部分的特征向量最匹配的特征向量聚类中心;其中,训练得到的每个特征向量聚类中心与至少一个与其相邻的特征向量聚类中心构成的集合具有描述语音连续性的能力;根据所述测试语音包含的各帧语音部分的特征向量,以及选取的特征向量聚类中心,重建所述测试语音的特征向量。2.如权利要求1所述的方法,其特征在于,根据所述测试语音包含的各帧语音部分的特征向量,以及选取的特征向量聚类中心,重建所述测试语音的特征向量,包括:根据选取的特征向量聚类中心,执行对所述测试语音包含的所有语音部分的特征向量构成的向量集合的插值运算操作,以获得所述测试语音的重建的特征向量。3.如权利要求1所述的方法,其特征在于,从训练得到的特征向量聚类中心中,选取与所述测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心前,所述方法还包括:从训练语料包含的各帧语音部分中分别提取特征向量样本;确定特征向量样本在多维空间中的分布信息;根据所述分布信息,确定初始聚类中心;根据所述特征向量样本与各初始聚类中心的相似度,对所述各初始聚类中心进行迭代聚类,得到待定聚类中心;根据设定的迭代聚类规则,对待定聚类中心进行迭代聚类,得到特征向量聚类中心;其中,所述设定的迭代聚类规则包括:根据所述训练语料的各语音部分的特征向量,对待定聚类中心进行迭代聚类;并且,在对待定聚类中心进行单次
\t迭代聚类时依据的特征向量,为所述训练语料中单个语音部分的特征向量;在对待聚类中心进行的每相邻两次迭代聚类时分别依据的特征向量,是所述训练语料中相邻语音部分的特征向量。4.如权利要求3所述的方法,其特征在于,根据设定的迭代聚类规则,对待定聚类中心进行迭代聚类,得到特征向量聚类中心,包括:根据设定的迭代聚类规则,针对每个训练语料执行迭代聚类操作,直至满足迭代收敛条件时,将具备满足迭代收敛条件时计算出的参数值的各待定聚类中心,确定为特征向量聚类中心;其中,所述迭代聚类操作包括下述步骤:确定该训练语料的第一帧语音部分的特征向量与与该第一帧语音部分的特征向量最匹配的待定聚类中心的相似度,以及该第一帧语音部分的特征向量与该最匹配的待定聚类中心的相邻待定聚类中心的相似度;针对该训练语料的其他各帧语音部分,执行:从与该语音部分的前一相邻语音部分的特征向量最匹配的待定聚类中心,以及所述特定空间中与该语音部分的前一相邻语音部分的特征向量最匹配的待定聚类中心的相邻聚类中心中,确定与该语音部分最匹配的待定聚类中心,并确定该语音部分的特征向量与该最匹配的待定聚类中心的相似度,以及该语音部分的特征向量与该最匹配的待定聚类中心的相邻待定聚类中...
【专利技术属性】
技术研发人员:王育军,
申请(专利权)人:乐视致新电子科技天津有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。