一种基于余弦相似度的动态音声特征提取方法技术

技术编号:22023730 阅读:27 留言:0更新日期:2019-09-04 01:45
本发明专利技术公开了一种基于余弦相似度的动态音声特征提取方法,包括以下步骤:S1:采用预加重、分帧和加窗方法将语音信号预处理成时域信号,采用窗口函数将语音信号分解为一定长度的帧;S2:将语音时域信号转换成频域信号,获取每帧语音频域信号的320维的离散余弦反变换(IDCT‑Cepstrum Coefficient)倒谱系数;S3:对语音的频域信号进行相邻维之间的余弦相似度计算;S4:找到余弦相似度的两列最大相邻维进行合并;S5:重复操作S3至S4将320维语音频域信号降维到14维的语音频域特征;S6:将语音特征以直方图形式表示。

A Dynamic Acoustic Feature Extraction Method Based on Cosine Similarity

【技术实现步骤摘要】
一种基于余弦相似度的动态音声特征提取方法
本专利技术涉及语音识别
,尤其涉及一种基于余弦相似度的动态音声特征提取方法。
技术介绍
语音识别由语音特征提取、语音识别模型建立和说话人识别三个部分组成。其中语音特征提取在整个说话人识别过程中至关重要,有效地提取出表示说话人本质特点的语音特征将使得模型的语音分类识别更为准确,识别率更高。目前常用的特征有MFCC(梅尔频率倒谱系数)、Fbank(Filterbankfeature)、PLP(LinearPredictiveCoding)等,目前这一领域使用MFCC作为语音特征的应用较为多见。虽然MFCC是最受欢迎的音声特征表现,但它有两个主要的缺点。第一,它们是从10ms到50ms的窗函数估计的,因此不能捕获信号中的长期特征。第二,MFCC认为语音信号的相邻帧间相互独立,这样导致特征提取过程中丢失了语音信号的动态特征。本专利技术介绍的新方法是以动态结合方法获得说话人的频率分布,不仅抗噪声干扰能力强,还能体现出语音信号的动态特性和语音信号中所含有的类别信息。
技术实现思路
根据现有语音特征提取过程中存在的问题,本专利技术公开了一种基于余弦相似度的动态音声特征提取方法,具体包括以下步骤:S1:采用预加重、分帧和加窗方法将语音信号预处理成时域信号,采用窗口函数将语音信号分解为一定长度的帧;S2:将语音时域信号转换成频域信号,获取每帧语音频域信号的320维的离散余弦反变换(IDCT-CepstrumCoefficient)倒谱系数;S3:对语音的频域信号进行相邻维之间的余弦相似度计算;S4:找到余弦相似度最大的两列相邻维进行合并;S5:重复操作S3至S4将320维语音频域信号降维到14维的语音频域特征向量;S6:将语音特征向量以直方图形式表示。进一步的,采用如下算法获取每帧语音信号的320维离散余弦反变换倒谱系数(IDCT-CepstrumCoefficient):C(q)=IDCT{log|DCT{x(k)}|}q=1…,M-1(1)其中:x(k)为时域信号,C(q)为倒谱系数,C(q)就是得到的320维的IDCTCepstrumCoefficient语音特征。进一步的,采用余弦公式(2)计算相邻维的特征向量之间的相似度,其中余弦相似度计算公式如下:其中:νi代表第i维特征向量,νj代表第j维特征向量。本专利技术公开的一种基于余弦相似度的动态音声特征提取方法,基于遮掩效应本专利技术公开的方法是利用人耳听觉模型建立的IDCT倒谱系数,并将IDCT倒谱系数进行降维。本专利技术将320维IDCT-CepstrumCoefficient根据相邻维的余弦相似度进行合并,最终从320维语音频域信号得到14维的语音特征向量,我们称之为C-Vector。C-Vector的语音特征不仅在说话人识别精度上更高,且在识别速度上也更快。本专利技术的语音特征提取方法在说话人识别精度方面比传统的MFCC语音特征高,其有效性在多人文本无关语音集下表现得更为明显。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术方法的实施流程图;图2为经过频域变换的320维IDCT-CepstrumCoefficient图3为基于余弦相似度的层次聚类分析图4为本专利技术提出的14维语音频域特征向量C-Vector具体实施方式为使本专利技术的技术方案和优点更加清楚,下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚完整的描述:如图1所示的一种基于余弦相似度的动态音声特征提取方法,具体包括以下步骤:S1:采用预加重、分帧和加窗方法对时域语音信号进行预处理,采用窗口函数将语音信号分解为一定长度的帧。预处理是在提取特征之前对时域语音信号所做的一些预处理,具体采用的方式如下。①预加重:由于人体构造和发音特点等原因,频率高于800Hz的频段会有6dB的衰减,预加重就是来弥补这部分的损失,预加重过程采用传递函数为式(3)的数字滤波器进行实现。H(z)=1-uz-1(3)其中u为常数,通常取u=0.97。②分帧:由于语音信号有短时平稳特性,可以把语音信号分为一些短段来进行处理,这就是分帧。为了保证语音信号的连续性,实现相邻帧之间的平滑过渡,一般会让前后两帧之间有一定的交叠。由于语音信号不具有长时平稳性,因而需要对语音信号分帧以利用其短时平稳性。本专利技术取帧长为320,帧移为100。③加窗实现方法是采用不断移动的有限长度的窗口与原始信号相乘,所得结果就是各个分帧数据,一般窗函数选用汉明窗。其中本专利技术使用汉明窗。汉明窗的窗函数:S2:将语音时域信号转换成频域信号,获取每帧语音信号的320维离散余弦反变换IDCT倒谱系数,具体分为三个步骤。S21:离散余弦变换,将前面经过预处理的语音信号,即时域信号进行离散余弦变换(DCT),求出线性频谱X(k);S22:然后将X(k)经过对数能量处理,得到对数频谱S(m);S23:将S(m)经过离散余弦反变换(IDCT)得到倒谱频域。得到320维IDCT-CepstrumCoefficient。如图2所示,其中,vi,vj是相邻的两维。S3:分别计算320维语音频域信号的相邻维的余弦相似度,如表1所示,l1表示第一维数据与第二维数据的余弦相似度,以此类推l2是第二维与第三维的余弦相似度。表1如下:cosθ1cosθ2cosθ3......cosθ317cosθ318cosθ319最大值I1L2L3L317L318L319L2S4:,找出余弦相似度最大的相邻两维进行合并,进而得到319维的特征。处理过程如图3所示。S5:重复操作S3至S4将320维语音频域信号降维到14维的语音频域特征向量;S6:将语音特征向量以直方图形式表示。进一步的,采用如下算法获取每帧语音信号的320维离散余弦反变换IDCT倒谱系数:C(g)=IDCT{log|DCT{x(k)}|}q=1...,M-1(1)其中:x(k)为时域信号,C(q)为倒谱系数,C(q)就是得到的IDCT-CepstrumCoefficient语音特征。进一步的,采用余弦公式计算相邻维的特征向量之间的相似度,其中余弦相似度计算公式如下:其中:νi代表第i维特征向量,νj代表第j维特征向量。本文档来自技高网...

【技术保护点】
1.一种基于余弦相似度的动态音声特征提取方法,其特征在于包括以下步骤:S1:采用预加重、分帧和加窗方法将语音信号预处理成时域信号,利用窗口函数将语音信号分解为一定长度的帧;S2:将语音时域信号转换成频域信号,获取每帧语音频域信号的320维的离散余弦反变换IDCT倒谱系数;S3:对语音的频域信号进行相邻维之间的余弦相似度计算;S4:找到余弦相似度最大的两列相邻维进行合并;S5:重复操作S3至S4将320维语音频域信号降维到14维的语音频域特征向量;S6:将语音特征向量以直方图形式表示。

【技术特征摘要】
1.一种基于余弦相似度的动态音声特征提取方法,其特征在于包括以下步骤:S1:采用预加重、分帧和加窗方法将语音信号预处理成时域信号,利用窗口函数将语音信号分解为一定长度的帧;S2:将语音时域信号转换成频域信号,获取每帧语音频域信号的320维的离散余弦反变换IDCT倒谱系数;S3:对语音的频域信号进行相邻维之间的余弦相似度计算;S4:找到余弦相似度最大的两列相邻维进行合并;S5:重复操作S3至S4将320维语音频域信号降维到14维的语音频域特征向量;S6:将语音特征向量以直方图形式表示。2.根据权利要求1所述的一种基于余弦相似度的动态音声特征...

【专利技术属性】
技术研发人员:左毅艾佳琪李铁山陈俊龙肖杨贺培超刘君霞马赫
申请(专利权)人:大连海事大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1