数据处理装置和数据处理方法制造方法及图纸

技术编号：18427058 阅读：23 留言：0更新日期：2018-07-12 02:10

本发明专利技术涉及数据处理装置和数据处理方法。根据本发明专利技术的数据处理装置包括：提取单元，用于从多个训练音频数据中的每个训练音频数据提取训练音频数据的i向量；划分单元，用于将i向量划分为多个簇，并计算每个簇的簇心；计算单元，用于计算每个训练音频数据的i向量与每个簇的簇心之间的距离；以及训练单元，用于训练深度神经网络DNN模型，其中，训练单元将每个训练音频数据的i向量与每个簇的簇心之间的距离作为DNN模型的输出真值。使用根据本发明专利技术的数据处理装置和数据处理方法，可以训练DNN模型以输出音频数据的i向量与每个簇心之间的距离，从而减小在音频数据注册和识别过程中产生的计算量，同时能够得到更加充分的标签信息。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理装置和数据处理方法
本专利技术的实施例涉及数据处理领域，具体地涉及可以训练深度神经网络DNN模型的数据处理装置和方法、可以注册音频数据的数据处理装置和方法以及可以测试音频数据的数据处理装置和方法。
技术介绍
这个部分提供了与本专利技术有关的背景信息，这不一定是现有技术。说话人识别是一种生物特征的识别技术，也被称为声纹识别。传统的说话人识别技术主要包括两种：一种是基于GMM(GaussianMixtureModel，高斯混合模型)提取i向量(也被称为i-vector或者身份向量)，根据i向量对音频数据进行注册和识别；另一种是基于DNN(DeepNeuralNetwork，深度神经网络)提取d向量(d-vector)，根据d向量对音频数据进行注册和识别。这两种技术都有一些缺陷。在基于GMM提取i向量的识别技术中，需要首先提取音频数据的超向量，超向量经过八次矩阵运算和一次矩阵求逆运算才能够得到音频数据的i向量，算法复杂并且耗时严重；此外，如果训练GMM使用的数据量减少，识别的正确率会大幅度下降。在基于DNN提取d向量的识别技术中，由于结构限制，不得不放弃训练时的输出层，而使用最后一层隐含层的数据作为d向量；进一步，在这种系统中存在固定的输出节点数目，当训练集更新时需要重新训练DNN模型；此外，在这种识别技术中只使用了说话人信息作为标签，丢弃了大量的诸如信道、语句内容和噪声等信息。针对以上技术问题，本专利技术希望提出一种方案，能够结合以上两种识别技术，训练出合适的DNN模型，以减小在音频数据注册和识别过程中产生的计算量，简化注册和识别流程，同时能够得到更加...

【技术保护点】
1.一种数据处理装置，包括：提取单元，用于从多个训练音频数据中的每个训练音频数据提取所述训练音频数据的i向量；划分单元，用于将所述i向量划分为多个簇，并计算所述多个簇中的每个簇的簇心；计算单元，用于计算每个训练音频数据的i向量与每个簇的簇心之间的距离；以及训练单元，用于训练深度神经网络DNN模型，其中，所述训练单元将所述每个训练音频数据的i向量与每个簇的簇心之间的距离作为所述DNN模型的输出真值。

【技术特征摘要】
1.一种数据处理装置，包括：提取单元，用于从多个训练音频数据中的每个训练音频数据提取所述训练音频数据的i向量；划分单元，用于将所述i向量划分为多个簇，并计算所述多个簇中的每个簇的簇心；计算单元，用于计算每个训练音频数据的i向量与每个簇的簇心之间的距离；以及训练单元，用于训练深度神经网络DNN模型，其中，所述训练单元将所述每个训练音频数据的i向量与每个簇的簇心之间的距离作为所述DNN模型的输出真值。2.根据权利要求1所述的数据处理装置，其中，所述提取单元利用高斯混合模型GMM提取所述训练音频数据的i向量。3.根据权利要求1所述的数据处理装置，其中，所述划分单元计算每两个i向量之间的距离，并且根据每两个i向量之间的距离将所述i向量划分为多个簇。4.根据权利要求1所述的数据处理装置，其中，所述提取单元还用于提取所述多个训练音频数据中的每个训练音频数据的超向量，并且所述训练单元还用于将所述每个训练音频数据的超向量作为所述DNN模型的输入特征。5.根据权利要求1所述的数据处理装置，其中，所述数据处理装置还包括注册单元，用于针对多个注册音频数据中的每个注册音频数据执行注册，所述注册单元包括：第一超向量确定单元，用于提取所述注册音频数据的超向量；第一距离确定单元，用于根据所述DNN模型确定所述注册音频数据的i向量与每个簇的簇心之间的距离；以及第一参数确定单元，用于根据所述注册音频数据的i向量与每个簇的簇心之间的距离确定所述注册音频数据的参数存储在音频数据库中。6.根据权利要求5所述的数据处理装置，其中，所述第一参数确定单元从所述注册音频数据的i向量与每个簇的簇心之间的距离中选取多个距离，并且将选取的距离以及与所述距离相对应的...

【专利技术属性】
技术研发人员：刘柳，刘汝杰，石自强，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：日本,JP

全部详细技术资料下载我是这个专利的主人