一种基于随机映射直方图模型的文本无关说话人鉴别装置制造方法及图纸

技术编号:10311392 阅读:197 留言:0更新日期:2014-08-13 14:25
本发明专利技术实施例公开了一种基于随机映射直方图模型的文本无关说话人鉴别方法。该方法包括如下步骤:特征提取步骤:将非归一化递增的线谱频率特征变换归一化的差分线谱频率特征并将相邻帧的差分线谱频率特征进行组合生成复合差分线谱频率特征以表达信号的动态特性。模型训练步骤:根据复合差分线谱频率特征的分布特点设计随机映射参数,对训练数据集进行随机映射并通过计算平均直方图来构建概率模型。鉴别步骤:对待鉴别人的语音信号按照步骤一提取特征后输入到步骤二训练得到的模型中,计算针对每个概率模型的似然值,获取最大似然值,确认说话人编号。利用本发明专利技术实施例,能够提高文本无关的说话人鉴别率,具有很大的实用价值。

【技术实现步骤摘要】

本专利技术属于音频处理领域着重描述了一种基于随机映射直方图模型的文本无关说话人鉴别装置
技术介绍
说话人识别是计算机利用语音片段中所包含的能够反映说话人特征的信息来鉴定说话人身份的技术,该技术在信息安全,远程身份认证等领域具有非常重要的研究及应用价值。 根据识别对象的不同,可以将说话人鉴别分为文本有关和文本无关两类。其中文本有关的说话人鉴别技术,要求利用说话人发音的关键词和关键句子作为训练样本,辨别时利用相同的内容发音进行鉴定,这种系统使用不便且关键内容容易被窃录。文本无关的说话人辨认技术,在训练时和辨认时都不规定说话内容,识别对象是自由的语音信号,需要在自由的语音信号中找到能表征说话人的信息的特征和方法,因此建立说话人模型相对困难,但该技术使用方便安全。本专利技术所描述的是文本无关的鉴别装置。 说话人鉴别通常包含3个组成部分(1)从训练语音数据集中提取能够表达说话人特点的特征;(2)为说话人训练一个能够反映其语音特征分布规律的模型;(3)通过计算输入语音的特征与已获取的训练模型的契合程度来进行做出最终决策。 常用的说话人鉴别系统在特征提取部分中采用MFCC(Mel-frequency Cepstral Coefficients,梅尔倒谱系数)或者LSF(Line Spectral Frequencies,线谱频率)作为基本特征,在模型训练部分中采用GMM(Gaussian <br>Mixture Model,高斯混合模型)或者统计直方图作为概率模型。 传统的特征易于受到噪声干扰且难以表达动态信息,GMM模型只适用对于分布范围较广的特征进行建模,统计直方图模型虽然可以对任意分布的特征信号进行建模,但当训练样本不足或特征维度过高时,建立的模型中存在大量的零点,导致结果不连续。本专利技术所描述的文本无关的说话人识别方法可以大大的解决上述的问题。
技术实现思路
为了解决上述技术所存在的缺陷并提高文本无关的说话人鉴别率,本专利技术提供一种基于复合差分线谱频率特征与随机变换直方图模型的文本无关说话人鉴别方法,包括以下步骤: 一.特征提取步骤: A、差分线谱频率特征提取步骤:将从语音线性预测编码模型中获取的K维非归一化递增的线谱频率特征变换为K+1维归一化的差分线谱频率特征。 B、生成复合差分线谱频率特征的步骤:将相邻的3帧差分线谱频率特征进行组合生成复合差分线谱频率特征以表达信号的动态特性。 二.随机映射直方图模型训练步骤:对于每个说话人的训练语音按照步骤一的描述提取T帧复合差分线谱频率特征作为1组训练数据集。采用随机映射的方法对该训练数据集进行H次随机变换得到H组训练特征。对每组特征进行直方图统计,并利用H组训练特征的平均直方图作为该说话人的概率模型。最终每个说话人都会训练得到一个属于自己的模型。 三.鉴别匹配步骤:输入一段语音后,采用步骤一的方法生成1组特征并将该特征输入步骤二中训练得到的各个说话人的模型中,计算这组特征针对每一个模型的似然值,取其中最大似然值来确认说话人的编号。 根据本专利技术的一个实施方式的一种与文本无关的说话人鉴别方法,步骤A所描述的归一化的差分线谱频率特征提取方式如下: 其中[x1,x2,…,xK]T为变换前的K维线谱频率特征,△x为变换后K+1维的归一化差分线谱频率特征 根据本专利技术的一个实施方式的一种与文本无关的说话人鉴别方法,步骤B中描述的复合差分线谱频率特征的具体生成过程如下: 假设第t帧的差分线谱频率特征为△x(t),则第t帧的复合差分线谱频率特征为: Sup△x(t)=[△x(t-τ)T,△x(t)T,△x(t+τ)T]T 其中τ为正整数,本专利技术中取τ=1。 根据本专利技术的一个实施方式的一种与文本无关的说话人鉴别方法,步骤二中所描述的模型训练方法如下: 1)对维度D=K+1的复合差分线谱频率特征进行随机映射变换,变换公式为:y=Ax+b,其中A为D×D维的随机旋转缩放矩阵,b为D×1维的随机平移向量。 2)随机平移向量b=[b1,b2,…,bi,…bK+1]T中的每一个元素取值为0~1之间均匀分布的随机变量。 3)旋转缩放矩阵A为随机旋转单位矩阵U与随机缩放对角矩阵Λ的乘积 A=ΛU |U|=1 4)随机旋转单位矩阵U的设计过程如下: ①生成一个D×D维的随机矩阵V,V中的每一个元素都满足0~1之间的均匀分布 ②对矩阵V进行QR分解V=QR,其中Q为单位正交矩阵 ③通过判断Q的行列式值是否等于1,来对元素q11进行修正保证Q的的行列式的值为1 5)随机缩放对角矩阵Λ的设计过程如下: 复合差分线谱频率特征的第j个维度的元素满足Beta分布,其概率密度函数为 Beta ( x j ; α j , β j ) = Γ ( α j + β j ) Γ ( α j ) Γ ( β j ) x 本文档来自技高网
...

【技术保护点】
一种基于随机映射直方图模型的文本无关说话人鉴别装置,其特征在于,包括以下步骤: 一.特征提取步骤: A、差分线谱频率特征提取:将从语音线性预测编码模型中获取的K维非归一化递增的线谱频率特征变换为K+1维归一化的差分线谱频率特征; B、生成复合差分线谱频率特征:将相邻的3帧差分线谱频率特征进行组合生成复合差分线谱频率特征以表达信号的动态特性。 二.随机映射直方图模型训练步骤:对于每个说话人的训练语音按照步骤一的描述提取T帧复合差分线谱频率特征作为1组训练数据集。采用随机映射的方法对该训练数据集进行H次随机变换得到H组训练特征。对每组特征进行直方图统计,并利用H组训练特征的平均直方图作为该说话人的概率模型。最终每个说话人都会训练得到一个属于自己的模型。 三.鉴别匹配步骤:输入一段语音后,采用步骤一的方法生成1组特征并将该特征输入步骤二中训练得到的各个说话人的模型中,计算这组特征针对每一个模型的似然值,取其中最大似然值来确认说话人的编号。

【技术特征摘要】
1.一种基于随机映射直方图模型的文本无关说话人鉴别装置,其特征在于,包括以下步骤: 
一.特征提取步骤: 
A、差分线谱频率特征提取:将从语音线性预测编码模型中获取的K维非归一化递增的线谱频率特征变换为K+1维归一化的差分线谱频率特征; 
B、生成复合差分线谱频率特征:将相邻的3帧差分线谱频率特征进行组合生成复合差分线谱频率特征以表达信号的动态特性。 
二.随机映射直方图模型训练步骤:对于每个说话人的训练语音按照步骤一的描述提取T帧复合差分线谱频率特征作为1组训练数据集。采用随机映射的方法对该训练数据集进行H次随机变换得到H组训练特征。对每组特征进行直方图统计,并利用H组训练特征的平均直方图作为该说话人的概率模型。最终每个说话人都会训练得到一个属于自己的模型。 
三.鉴别匹配步骤:输入一段语音后,采用步骤一的方法生成1组特征并将该特征输入步骤二中训练得到的各个说话人的模型中,计算这组特征针对每一个模型的似然值,取其中最大似然值来确认说话人的编号。 
2.根据权利要求1所述的说话人识别方法中步骤一A的特征在于,差分线谱频率特征提取时,将传统的线谱频率特征向量除π归一化后,向量中各个相邻元素相减,获取差分特征向量,并增加一个正则元素来保证获取的差分向量1范数为1。 
3.根据权利要求1所述的说话人识别方法中步骤一B的特征在于,复合差分线谱频率特征获取时将相邻的3帧差分线谱频率特征进行组合,相邻帧的间距为1。 
4.根据权利要求1所述的说话人识别方法中步骤二的特征在于,随机变换方式为y=Ax+b,其中A为随机旋转缩放矩阵,b为随机平移...

【专利技术属性】
技术研发人员:于泓马占宇郭军
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1