基于渐进式神经网络多维语音信息识别系统及其方法技术方案

技术编号:19697477 阅读:182 留言:0更新日期:2018-12-08 12:39
本发明专利技术提供了一种基于渐进式神经网络的多维语音信息识别系统及其方法,在基线系统的基础上,引入渐进式神经网络,所述基线系统以i‑vector特征向量作为输入,其包括三个SNN识别模型,分别进行性别识别、情感信息识别和身份信息识别,在性别识别的基础上,渐进式神经网络将性别相关的情感信息识别的SNN识别模型和性别相关的身份信息识别的SNN识别模型结合在一起,信息相互迁移,构建得到识别系统。

【技术实现步骤摘要】
基于渐进式神经网络多维语音信息识别系统及其方法
本专利技术属于多维语音信息识别
,具体涉及一种基于渐进式神经网络的多维语音信息识别系统及其方法来识别多种语音信息,具体为性别、情感和说话人身份信息。
技术介绍
语音信号是人类之间进行信息传递和交流的主要工具,日常情景下一个说话人的语音往往不但传达语义信息同时也携带了说话者的情绪状态,身份,地理位置,性别等信息。这意味着我们收集的语音信号实际上是一个混合了多种信息的信号。但目前语音识别研究主要集中在识别单一信息,不利于理解语音的真实含义。多维说话人信息的同时识别研究是人机交互的一个迫切任务。然而,当前的研究技术中很少有识别系统能够同时识别说话者的身份,年龄,性别和情感等多维信息。在以前的研究工作中,我们创造性地构建了基于性别相关多维信息识别的基线系统作为多维识别的参考模型,证明了多维信息同时识别的可行性和有效性。然而,这项工作没有充分利用单任务语音信息之间的相关性。
技术实现思路
本专利技术根据现有基线系统技术的不足,提出了一种基于渐进式神经网络的多维语音信息识别系统及其方法,将来自其他辅助语音信息识别任务的知识,迁移学习到另一个语音信息识别模型中,进而来增强情感、身份模型的识别性能,实现多维语音信息的识别。本专利技术公开了一种基于渐进式神经网络的多维语音信息识别系统,在基线系统的基础上,引入渐进式神经网络,所述基线系统以i-vector特征向量作为输入,利用SNN模型,进行性别、情感、身份多维信息的识别,在性别识别的基础上,渐进式神经网络将性别相关的情感信息识别和性别相关的身份信息识别结合在一起,信息相互迁移,构建得到识别系统。给定一个说话人语音序列O={ο1,ο2,L,οn},n表示输入的语音特征帧数,提取的i-vector特征向量用φ来表示为:其中,L为后验方差:其中,其中I是单位矩阵,T为从训练集中学习得到的变异矩阵,是一个CF×M的矩阵,C是通用背景模型中混合的数量,F是声学特征向量的维数,M是矢量变量的大小;Nc是通过对整个语音序列上的帧γc(t)求和,得到的第c个高斯计算的零阶统计量,如下所示:Fc是关于UBM的以均值μc为中心,以协方差Σc为白化的一阶统计量。所述渐进式神经网络为单一的多层神经网络模型,第i层隐层的输出为ni是第i层的神经元个数,当切换到神经网络主任务时,前一个神经网络第i-1层的输出hi-1(1)和当前神经网络i-1层的输出hi-1(2)同时作为输入,通过横向连接的方式接入到当前神经网络的第i层中,第i层输出为hi(2),第k个神经网络的表达式为:其中,是第k列的第i层的权重矩阵,是第k列的第i层的偏差系数矩阵,是从第j列的第i-1层到第k列的第i层的横向连接,h0是神经网络的输入特征向量,f(·)是对激励向量进行元素级计算的激活函数。本专利技术还公开了一种基于渐进式神经网络的多维语音信息识别方法,包括以下步骤:S1:对整个语音数据库提取i-vector特征向量,配置神经网络模型参数,隐含层采用激活函数处理,通过前向传播的方式,对特征向量进行预训练,采用梯度下降法反向传播不断对权重参数进行微调,最后获得性别识别的分类结果;S2:在训练集中,针对整个男性语音样本,在性别识别的基础上,利用渐进式神经网络完成情感识别和身份识别的相互迁移学习,输出男性情感分类标签;针对整个女性语音样本,在性别识别的基础上,利用渐进式神经网络完成情感识别和身份识别的相互迁移学习,输出女性情感分类标签;S3:整合多维语音识别的结果;其中,所述S2中,身份识别信息和情感识别相互迁移学习时,把情感识别作为主任务,身份识别作为辅助任务,构造一个用来训练辅助任务的神经网络,固定上一个任务的神经网络的参数,添加一个随机初始化的新模型,作为第二个多层的神经网络,将训练辅助任务的神经网络的每一层通过横向连接的方式接入到第二个多层的神经网络主任务的每一层作为额外输入,使用反向传播学习第二个多层的神经网络的参数,通过soft-max层进行分类得到识别结果。所述S1中,提取i-vector特征向量,具体实施如下:在梅尔频率倒谱系数特征的基础上,结合高斯混合模型,通过最大后验概率标准对通用背景模型进行训练,同时利用通用背景模型调整每个语句以获得相同比例的另一个高斯混合模型,通过投影到总体子空间矩阵中提取固定长度的i-vector语音特征。有益效果:本专利技术与现有技术相比,具有以下优点:本专利技术在基线系统的基础上,引入i-vector特征向量,使用i-vector特征大大提高了分类和回归问题的准确性,并引用了渐进式神经网络技术(ProgNets),首先通过ProgNets“冻结”源神经网络训练的任务,并使用它们隐含层的中间表示作为新网络的输入来训练当前主任务,这使得ProgNets能够克服基线系统中SNN传统方法相关的限制,包括一系列关于初始化模型的挑战,通过冻结并保留源任务权重来防止SNN方法中存在的遗忘效应;在本专利技术中,在性别识别的基础上,利用ProgNets技术将性别相关的情感识别SNN模型和性别相关的身份识别SNN模型结合在一起,在识别某单一语音信息时,能充分利用了其他语音信息识别的相关信息,进而提高识别效率。附图说明图1为基线系统框图;图2为ProgNets技术原理框图;图3为基于ProgNets多维语音信息识别系统框图;图4为单维SNN模型、基线系统和ProgNets多维语音信息识别系统比较图;图5为性别相关的基线系统和ProgNets系统多维语音信息识别对比图。具体实施方式下面结合附图和实施例对本专利技术提出的基于ProgNets的多维语音信息识别方法进行详细的说明:本实施例中使用的语料库是KSU-Emotions,语料库有两个阶段,本实施例选择第二个阶段进行研究,该语料库使用14名(7名男性和7名女性)演讲者模拟五种情绪(中性,悲伤,快乐,惊讶和愤怒),每种情绪有336个句子,总共有1680个句子,第二阶段语料的语料大小约为2小时21分。为更好的估计多维说话人信息的识别效果,本实施例采用基于i-vector的自适应方法来提取特征,在梅尔频率倒谱系数(MFCC)特征的基础上,结合高斯混合模型(GMM),并通过最大后验概率标准对通用背景模型(UniversalBackgroundModel,UBM)进行训练,同时利用通用背景模型调整每个语句以获得相同比例的另一个高斯混合模型(GMM),通过投影到总体子空间矩阵中提取固定长度的i-vector语音特征。给定一个说话人语音序列O={ο1,ο2,L,οn},n表示输入的语音特征帧数,提取的i-vector特征向量用φ来表示为:式(1)中,L为后验方差:式(2)中,其中I是单位矩阵,T为从训练集中学习得到的变异矩阵,是一个CF×M的矩阵,C是UBM中混合的数量,F是声学特征向量的维数,M是矢量变量的大小,通过使M比CF小来实现维度的减小;I-vector特征提取器的核心是从训练集中学习得到变异矩阵T;{Nc,Fc}是基于UBM计算的BaumWelch统计量,Nc是通过对整个序列上的帧γc(t)求和,得到的第c个高斯计算的零阶统计量,如下所示:Fc是关于UBM的以均值μc为中心,以协方差Σc为白化的一阶统计量。图1为基线系统模型示本文档来自技高网...

【技术保护点】
1.一种基于渐进式神经网络的多维语音信息识别系统,其特征在于:在基线系统的基础上,引入渐进式神经网络,所述基线系统以i‑vector特征向量作为输入,利用SNN模型,进行性别、情感、身份多维信息的识别,在性别识别的基础上,渐进式神经网络将性别相关的情感信息识别和性别相关的身份信息识别结合在一起,信息相互迁移,构建得到识别系统。

【技术特征摘要】
1.一种基于渐进式神经网络的多维语音信息识别系统,其特征在于:在基线系统的基础上,引入渐进式神经网络,所述基线系统以i-vector特征向量作为输入,利用SNN模型,进行性别、情感、身份多维信息的识别,在性别识别的基础上,渐进式神经网络将性别相关的情感信息识别和性别相关的身份信息识别结合在一起,信息相互迁移,构建得到识别系统。2.根据权利要求1所述的一种基于渐进式神经网络的多维语音信息识别系统,其特征在于:给定一个说话人语音序列O={ο1,ο2,L,οn},n表示输入的语音特征帧数,提取的i-vector特征向量用φ来表示为:其中,L为后验方差:其中,其中I是单位矩阵,T为从训练集中学习得到的变异矩阵,是一个CF×M的矩阵,C是通用背景模型中混合的数量,F是声学特征向量的维数,M是矢量变量的大小;Nc是通过对整个语音序列上的帧γc(t)求和,得到的第c个高斯计算的零阶统计量,如下所示:Fc是关于UBM的以均值μc为中心,以协方差Σc为白化的一阶统计量。3.根据权利要求1或2所述的一种基于渐进式神经网络的多维语音信息识别系统,其特征在于:所述渐进式神经网络为单一的多层神经网络模型,第i层隐层的输出为ni是第i层的神经元个数,当切换到神经网络主任务时,前一个神经网络第i-1层的输出hi-1(1)和当前神经网络i-1层的输出hi-1(2)同时作为输入,通过横向连接的方式接入到当前神经网络的第i层中,第i层输出为hi(2),第k个神经网络的表达式为:其中,是第k列的第i层的权重矩阵,是第k列的第i层的偏差系数矩阵,是从第j列的第i-1层到第k列的第i层的横向连接,h0是神经网络的输入特征向量...

【专利技术属性】
技术研发人员:陈海霞杨震
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1