基于渐进式神经网络多维语音信息识别系统及其方法技术方案

技术编号：19697477 阅读：182 留言：0更新日期：2018-12-08 12:39

本发明专利技术提供了一种基于渐进式神经网络的多维语音信息识别系统及其方法，在基线系统的基础上，引入渐进式神经网络，所述基线系统以i‑vector特征向量作为输入，其包括三个SNN识别模型，分别进行性别识别、情感信息识别和身份信息识别，在性别识别的基础上，渐进式神经网络将性别相关的情感信息识别的SNN识别模型和性别相关的身份信息识别的SNN识别模型结合在一起，信息相互迁移，构建得到识别系统。

全部详细技术资料下载

【技术实现步骤摘要】
基于渐进式神经网络多维语音信息识别系统及其方法
本专利技术属于多维语音信息识别
，具体涉及一种基于渐进式神经网络的多维语音信息识别系统及其方法来识别多种语音信息，具体为性别、情感和说话人身份信息。
技术介绍
语音信号是人类之间进行信息传递和交流的主要工具，日常情景下一个说话人的语音往往不但传达语义信息同时也携带了说话者的情绪状态，身份，地理位置，性别等信息。这意味着我们收集的语音信号实际上是一个混合了多种信息的信号。但目前语音识别研究主要集中在识别单一信息，不利于理解语音的真实含义。多维说话人信息的同时识别研究是人机交互的一个迫切任务。然而，当前的研究技术中很少有识别系统能够同时识别说话者的身份，年龄，性别和情感等多维信息。在以前的研究工作中，我们创造性地构建了基于性别相关多维信息识别的基线系统作为多维识别的参考模型，证明了多维信息同时识别的可行性和有效性。然而，这项工作没有充分利用单任务语音信息之间的相关性。
技术实现思路
本专利技术根据现有基线系统技术的不足，提出了一种基于渐进式神经网络的多维语音信息识别系统及其方法，将来自其他辅助语音信息识别任务的知识，迁移学习到另一个语音信息识别模型中，进而来增强情感、身份模型的识别性能，实现多维语音信息的识别。本专利技术公开了一种基于渐进式神经网络的多维语音信息识别系统，在基线系统的基础上，引入渐进式神经网络，所述基线系统以i-vector特征向量作为输入，利用SNN模型，进行性别、情感、身份多维信息的识别，在性别识别的基础上，渐进式神经网络将性别相关的情感信息识别和性别相关的身份信息识别结合在一起，信息相互迁...

【技术保护点】
1.一种基于渐进式神经网络的多维语音信息识别系统，其特征在于：在基线系统的基础上，引入渐进式神经网络，所述基线系统以i‑vector特征向量作为输入，利用SNN模型，进行性别、情感、身份多维信息的识别，在性别识别的基础上，渐进式神经网络将性别相关的情感信息识别和性别相关的身份信息识别结合在一起，信息相互迁移，构建得到识别系统。

【技术特征摘要】
1.一种基于渐进式神经网络的多维语音信息识别系统，其特征在于：在基线系统的基础上，引入渐进式神经网络，所述基线系统以i-vector特征向量作为输入，利用SNN模型，进行性别、情感、身份多维信息的识别，在性别识别的基础上，渐进式神经网络将性别相关的情感信息识别和性别相关的身份信息识别结合在一起，信息相互迁移，构建得到识别系统。2.根据权利要求1所述的一种基于渐进式神经网络的多维语音信息识别系统，其特征在于：给定一个说话人语音序列O＝{ο1,ο2,L,οn}，n表示输入的语音特征帧数，提取的i-vector特征向量用φ来表示为：其中，L为后验方差：其中，其中I是单位矩阵，T为从训练集中学习得到的变异矩阵，是一个CF×M的矩阵，C是通用背景模型中混合的数量，F是声学特征向量的维数，M是矢量变量的大小；Nc是通过对整个语音序列上的帧γc(t)求和，得到的第c个高斯计算的零阶统计量，如下所示：Fc是关于UBM的以均值μc为中心，以协方差Σc为白化的一阶统计量。3.根据权利要求1或2所述的一种基于渐进式神经网络的多维语音信息识别系统，其特征在于：所述渐进式神经网络为单一的多层神经网络模型，第i层隐层的输出为ni是第i层的神经元个数，当切换到神经网络主任务时，前一个神经网络第i-1层的输出hi-1(1)和当前神经网络i-1层的输出hi-1(2)同时作为输入，通过横向连接的方式接入到当前神经网络的第i层中，第i层输出为hi(2)，第k个神经网络的表达式为：其中，是第k列的第i层的权重矩阵，是第k列的第i层的偏差系数矩阵，是从第j列的第i-1层到第k列的第i层的横向连接，h0是神经网络的输入特征向量...

【专利技术属性】
技术研发人员：陈海霞，杨震，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人