数据处理装置和数据处理方法制造方法及图纸

技术编号:18427058 阅读:23 留言:0更新日期:2018-07-12 02:10
本发明专利技术涉及数据处理装置和数据处理方法。根据本发明专利技术的数据处理装置包括:提取单元,用于从多个训练音频数据中的每个训练音频数据提取训练音频数据的i向量;划分单元,用于将i向量划分为多个簇,并计算每个簇的簇心;计算单元,用于计算每个训练音频数据的i向量与每个簇的簇心之间的距离;以及训练单元,用于训练深度神经网络DNN模型,其中,训练单元将每个训练音频数据的i向量与每个簇的簇心之间的距离作为DNN模型的输出真值。使用根据本发明专利技术的数据处理装置和数据处理方法,可以训练DNN模型以输出音频数据的i向量与每个簇心之间的距离,从而减小在音频数据注册和识别过程中产生的计算量,同时能够得到更加充分的标签信息。

【技术实现步骤摘要】
数据处理装置和数据处理方法
本专利技术的实施例涉及数据处理领域,具体地涉及可以训练深度神经网络DNN模型的数据处理装置和方法、可以注册音频数据的数据处理装置和方法以及可以测试音频数据的数据处理装置和方法。
技术介绍
这个部分提供了与本专利技术有关的背景信息,这不一定是现有技术。说话人识别是一种生物特征的识别技术,也被称为声纹识别。传统的说话人识别技术主要包括两种:一种是基于GMM(GaussianMixtureModel,高斯混合模型)提取i向量(也被称为i-vector或者身份向量),根据i向量对音频数据进行注册和识别;另一种是基于DNN(DeepNeuralNetwork,深度神经网络)提取d向量(d-vector),根据d向量对音频数据进行注册和识别。这两种技术都有一些缺陷。在基于GMM提取i向量的识别技术中,需要首先提取音频数据的超向量,超向量经过八次矩阵运算和一次矩阵求逆运算才能够得到音频数据的i向量,算法复杂并且耗时严重;此外,如果训练GMM使用的数据量减少,识别的正确率会大幅度下降。在基于DNN提取d向量的识别技术中,由于结构限制,不得不放弃训练时的输出层,而使用最后一层隐含层的数据作为d向量;进一步,在这种系统中存在固定的输出节点数目,当训练集更新时需要重新训练DNN模型;此外,在这种识别技术中只使用了说话人信息作为标签,丢弃了大量的诸如信道、语句内容和噪声等信息。针对以上技术问题,本专利技术希望提出一种方案,能够结合以上两种识别技术,训练出合适的DNN模型,以减小在音频数据注册和识别过程中产生的计算量,简化注册和识别流程,同时能够得到更加充分的标签信息。
技术实现思路
这个部分提供了本专利技术的一般概要,而不是其全部范围或其全部特征的全面披露。本专利技术的目的在于提供一种数据处理装置和数据处理方法,能够训练处合适的DNN模型,以减小在音频数据注册和识别过程中产生的计算量,简化注册和识别流程,同时能够得到更加充分的标签信息。根据本专利技术的一方面,提供了一种数据处理装置,包括:提取单元,用于从多个训练音频数据中的每个训练音频数据提取所述训练音频数据的i向量;划分单元,用于将所述i向量划分为多个簇,并计算所述多个簇中的每个簇的簇心;计算单元,用于计算每个训练音频数据的i向量与每个簇的簇心之间的距离;以及训练单元,用于训练深度神经网络DNN模型,其中,所述训练单元将所述每个训练音频数据的i向量与每个簇的簇心之间的距离作为所述DNN模型的输出真值。根据本专利技术的另一方面,提供了一种数据处理方法,包括:从多个训练音频数据中的每个训练音频数据提取所述训练音频数据的i向量;将所述i向量划分为多个簇,并计算所述多个簇中的每个簇的簇心;计算每个训练音频数据的i向量与每个簇的簇心之间的距离;以及训练深度神经网络DNN模型,其中,训练所述DNN模型包括:将所述每个训练音频数据的i向量与每个簇的簇心之间的距离作为所述DNN模型的输出真值。根据本专利技术的另一方面,提供了一种程序产品,该程序产品包括存储在其中的机器可读指令代码,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据本专利技术的数据处理方法。根据本专利技术的另一方面,提供了一种机器可读存储介质,其上携带有包括存储在其中的机器可读指令代码的程序产品,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据本专利技术的数据处理方法。使用根据本专利技术的数据处理装置和数据处理方法,可以利用训练音频数据的i向量训练DNN模型,在后续的音频数据注册和识别过程中无需计算注册音频数据和测试音频数据的i向量,由此可以大大减小计算量。进一步,可以将i向量分簇,实际上是对训练音频数据进行分类,同时将DNN模型的输出真值定义为i向量与每个簇的簇心之间的距离,这样一来,DNN模型的输出包括了训练音频数据与每一类的训练音频数据之间的差别,由此可以得到更加充分的标签信息。当采用这样的DNN模型进行音频数据的注册和识别时,可以大大减小计算量,简化注册和识别流程,并可以得到更加丰富的标签信息。这个概要中的描述和特定例子只是为了示意的目的,而不旨在限制本专利技术的范围。附图说明在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施,并且不旨在限制本专利技术的范围。在附图中:图1示出了根据本专利技术的实施例的数据处理装置的结构框图;图2示出了根据本专利技术的另一个实施例的数据处理装置的结构框图;图3示出了根据本专利技术的实施例的数据处理装置的注册单元的结构框图;图4示出了根据本专利技术的又一个实施例的数据处理装置的结构框图;图5示出了根据本专利技术的实施例的数据处理装置的测试单元的结构框图;图6示出了根据本专利技术的实施例的数据处理方法的流程图;以及图7为其中可以实现根据本专利技术的数据处理方法的通用个人计算机的示例性结构的框图。虽然本专利技术容易经受各种修改和替换形式,但是其特定实施例已作为例子在附图中示出,并且在此详细描述。然而应当理解的是,在此对特定实施例的描述并不打算将本专利技术限制到公开的具体形式,而是相反地,本专利技术目的是要覆盖落在本专利技术的精神和范围之内的所有修改、等效和替换。要注意的是,贯穿几个附图,相应的标号指示相应的部件。具体实施方式现在参考附图来更加充分地描述本专利技术的示例。以下描述实质上只是示例性的,而不旨在限制本专利技术、应用或用途。下面提供了示例实施例,以便本专利技术将会变得详尽,并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定单元、装置和方法的示例,以提供对本专利技术的实施例的详尽理解。对于本领域技术人员而言将会明显的是,不需要使用特定的细节,示例实施例可以用许多不同的形式来实施,它们都不应当被解释为限制本专利技术的范围。在某些示例实施例中,没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。下面结合图1来描述根据本专利技术的数据处理装置100。根据本专利技术的数据处理装置100包括提取单元110、划分单元120、计算单元130和训练单元140。根据本专利技术的实施例,提取单元110可以从多个训练音频数据中的每个训练音频数据提取所述训练音频数据的i向量。这里,提取单元110可以从数据处理装置100的外部获取多个训练音频数据,训练音频数据用于训练DNN模型,因而可以根据实际的需求来确定训练音频数据的数量。接下来,提取单元110可以根据任何方式提取每个训练音频数据的i向量。进一步,提取单元110可以将每个训练音频数据的i向量发送到划分单元120。根据本专利技术的实施例,划分单元120可以将i向量划分为多个簇,并计算多个簇中的每个簇的簇心。这里,划分单元120可以从提取单元110来获取多个训练音频数据中的每个训练音频数据的i向量,并可以根据一定的规则将所有的i向量划分为多个簇,并计算每个簇的簇心。接下来,划分单元120可以将划分好的i向量以及簇心位置发送到计算单元130。根据本专利技术的实施例,计算单元130可以计算每个训练音频数据的i向量与每个簇的簇心之间的距离。这里,计算单元130可以从划分单元120来获取划分为簇的i向量以及簇心的位置,并计算每个i向量与每个簇心之间的距离。也就是说,针对任意一个训练音频数据的i向量,计算该i向量与每个簇的簇心之间的距离,即,计算任意一个训练音频数据的i向量与任意一个簇心之间的距本文档来自技高网
...

【技术保护点】
1.一种数据处理装置,包括:提取单元,用于从多个训练音频数据中的每个训练音频数据提取所述训练音频数据的i向量;划分单元,用于将所述i向量划分为多个簇,并计算所述多个簇中的每个簇的簇心;计算单元,用于计算每个训练音频数据的i向量与每个簇的簇心之间的距离;以及训练单元,用于训练深度神经网络DNN模型,其中,所述训练单元将所述每个训练音频数据的i向量与每个簇的簇心之间的距离作为所述DNN模型的输出真值。

【技术特征摘要】
1.一种数据处理装置,包括:提取单元,用于从多个训练音频数据中的每个训练音频数据提取所述训练音频数据的i向量;划分单元,用于将所述i向量划分为多个簇,并计算所述多个簇中的每个簇的簇心;计算单元,用于计算每个训练音频数据的i向量与每个簇的簇心之间的距离;以及训练单元,用于训练深度神经网络DNN模型,其中,所述训练单元将所述每个训练音频数据的i向量与每个簇的簇心之间的距离作为所述DNN模型的输出真值。2.根据权利要求1所述的数据处理装置,其中,所述提取单元利用高斯混合模型GMM提取所述训练音频数据的i向量。3.根据权利要求1所述的数据处理装置,其中,所述划分单元计算每两个i向量之间的距离,并且根据每两个i向量之间的距离将所述i向量划分为多个簇。4.根据权利要求1所述的数据处理装置,其中,所述提取单元还用于提取所述多个训练音频数据中的每个训练音频数据的超向量,并且所述训练单元还用于将所述每个训练音频数据的超向量作为所述DNN模型的输入特征。5.根据权利要求1所述的数据处理装置,其中,所述数据处理装置还包括注册单元,用于针对多个注册音频数据中的每个注册音频数据执行注册,所述注册单元包括:第一超向量确定单元,用于提取所述注册音频数据的超向量;第一距离确定单元,用于根据所述DNN模型确定所述注册音频数据的i向量与每个簇的簇心之间的距离;以及第一参数确定单元,用于根据所述注册音频数据的i向量与每个簇的簇心之间的距离确定所述注册音频数据的参数存储在音频数据库中。6.根据权利要求5所述的数据处理装置,其中,所述第一参数确定单元从所述注册音频数据的i向量与每个簇的簇心之间的距离中选取多个距离,并且将选取的距离以及与所述距离相对应的...

【专利技术属性】
技术研发人员:刘柳刘汝杰石自强
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1