【技术实现步骤摘要】
本专利技术属于音频处理领域着重描述了一种基于随机映射直方图模型的文本无关说话人鉴别装置。
技术介绍
说话人识别是计算机利用语音片段中所包含的能够反映说话人特征的信息来鉴定说话人身份的技术,该技术在信息安全,远程身份认证等领域具有非常重要的研究及应用价值。 根据识别对象的不同,可以将说话人鉴别分为文本有关和文本无关两类。其中文本有关的说话人鉴别技术,要求利用说话人发音的关键词和关键句子作为训练样本,辨别时利用相同的内容发音进行鉴定,这种系统使用不便且关键内容容易被窃录。文本无关的说话人辨认技术,在训练时和辨认时都不规定说话内容,识别对象是自由的语音信号,需要在自由的语音信号中找到能表征说话人的信息的特征和方法,因此建立说话人模型相对困难,但该技术使用方便安全。本专利技术所描述的是文本无关的鉴别装置。 说话人鉴别通常包含3个组成部分(1)从训练语音数据集中提取能够表达说话人特点的特征;(2)为说话人训练一个能够反映其语音特征分布规律的模型;(3)通过计算输入语音的特征与已获取的训练模型的契合程度来进行做出最终决策。 常用的说话人鉴别系统在特征提取部分中采用MFCC(Mel-frequency Cepstral Coefficients,梅尔倒谱系数)或者LSF(Line Spectral Frequencies,线谱频率)作为基本特征,在模型训练部分中采用GMM(Gaussian < ...
【技术保护点】
一种基于随机映射直方图模型的文本无关说话人鉴别装置,其特征在于,包括以下步骤: 一.特征提取步骤: A、差分线谱频率特征提取:将从语音线性预测编码模型中获取的K维非归一化递增的线谱频率特征变换为K+1维归一化的差分线谱频率特征; B、生成复合差分线谱频率特征:将相邻的3帧差分线谱频率特征进行组合生成复合差分线谱频率特征以表达信号的动态特性。 二.随机映射直方图模型训练步骤:对于每个说话人的训练语音按照步骤一的描述提取T帧复合差分线谱频率特征作为1组训练数据集。采用随机映射的方法对该训练数据集进行H次随机变换得到H组训练特征。对每组特征进行直方图统计,并利用H组训练特征的平均直方图作为该说话人的概率模型。最终每个说话人都会训练得到一个属于自己的模型。 三.鉴别匹配步骤:输入一段语音后,采用步骤一的方法生成1组特征并将该特征输入步骤二中训练得到的各个说话人的模型中,计算这组特征针对每一个模型的似然值,取其中最大似然值来确认说话人的编号。
【技术特征摘要】
1.一种基于随机映射直方图模型的文本无关说话人鉴别装置,其特征在于,包括以下步骤:
一.特征提取步骤:
A、差分线谱频率特征提取:将从语音线性预测编码模型中获取的K维非归一化递增的线谱频率特征变换为K+1维归一化的差分线谱频率特征;
B、生成复合差分线谱频率特征:将相邻的3帧差分线谱频率特征进行组合生成复合差分线谱频率特征以表达信号的动态特性。
二.随机映射直方图模型训练步骤:对于每个说话人的训练语音按照步骤一的描述提取T帧复合差分线谱频率特征作为1组训练数据集。采用随机映射的方法对该训练数据集进行H次随机变换得到H组训练特征。对每组特征进行直方图统计,并利用H组训练特征的平均直方图作为该说话人的概率模型。最终每个说话人都会训练得到一个属于自己的模型。
三.鉴别匹配步骤:输入一段语音后,采用步骤一的方法生成1组特征并将该特征输入步骤二中训练得到的各个说话人的模型中,计算这组特征针对每一个模型的似然值,取其中最大似然值来确认说话人的编号。
2.根据权利要求1所述的说话人识别方法中步骤一A的特征在于,差分线谱频率特征提取时,将传统的线谱频率特征向量除π归一化后,向量中各个相邻元素相减,获取差分特征向量,并增加一个正则元素来保证获取的差分向量1范数为1。
3.根据权利要求1所述的说话人识别方法中步骤一B的特征在于,复合差分线谱频率特征获取时将相邻的3帧差分线谱频率特征进行组合,相邻帧的间距为1。
4.根据权利要求1所述的说话人识别方法中步骤二的特征在于,随机变换方式为y=Ax+b,其中A为随机旋转缩放矩阵,b为随机平移...
【专利技术属性】
技术研发人员:于泓,马占宇,郭军,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。