一种基于联合聚类深度学习神经网络的数据识别方法技术

技术编号:17304877 阅读:19 留言:0更新日期:2018-02-18 23:20
本发明专利技术公开了一种基于联合聚类深度学习神经网络的数据识别方法,步骤如下:首先获取N类数据样本集及对应的标签集并进行预处理,同时获取数据预设格式、标签预设格式;然后对深度学习神经网络进行训练;接着将每一类任一测试数据转化为该类数据预设格式后作为该类深度学习神经网络的输入,得到对应的测试输出标签;然后根据测试输出标签所在标签集的元素个数及数据集之间相似度的计算,确定可能输出标签及最优输出标签;然后计算各类输出标签一致和不一致的概率;最后将可能、最优输出标签及上步中的概率输出。本发明专利技术通过相似度计算弥补深度学习神经网络在输出标签数量多而输入样本量不足时输出准确性的不足,进而提高输出的准确性。

A data recognition method based on joint clustering depth learning neural network

The invention discloses a data recognition method, learning neural network combined with clustering based on depth the steps are as follows: first to obtain N class data set and the corresponding set of tags and pretreatment, data format, and default label preset format; and then train the deep learning neural network; then each kind of either test the data into the data format as the presupposition of deep learning neural network input, and get the test output corresponding to the label; then according to the similarity calculation between the test output label where the tag sets the number of elements and data set, determine the possible output labels and optimal output labels; then calculate all the output label is consistent and inconsistent the last May, probability; probability output optimal output label and step in. The present invention makes use of similarity calculation to make up for deep learning neural network to output accuracy when output quantity is large and input sample quantity is insufficient, so as to increase output accuracy.

【技术实现步骤摘要】
一种基于联合聚类深度学习神经网络的数据识别方法
本专利技术涉及一种联合聚类深度学习方法,特别是一种基于联合聚类深度学习神经网络的数据识别方法。
技术介绍
现有深度学习能通过输入数据得到输出标签(例如通过头像得到该人身份证号,又如通过语音得到该人身份证号),但在自顶向下的监督学习阶段必须要通过带标签数据的监督学习(例如带有身份证号的头像,又如带有身份证号的语音)。如果同时具备带有身份证号的头像和带有身份证号的头像语音,则可以将一个头像输入头像类对应的深度学习神经网络得到输出的身份证号,将一个语音输入语音类对应的深度学习神经网络得到输出的身份证号,然后判断通过输入头像和输入语音分别得到的所述输出的身份证号是否相同,如果相同则判断所述一个头像与所述一个语音对应的是同一人,如果不同则判断所述一个头像与所述一个语音对应的不是同一人。但是,由于深度学习神经网络的准确率无法达到100%,所以一个头像输入头像类对应的深度学习神经网络后输出的身份证号可能是另一个头像相似的人的身份证号,一个语音输入语音类对应的深度学习神经网络后输出的身份证号可能是另一个语音相似的人的身份证号,那么就会导致不属于同一个人的一个头像和一个语音被判定为对应同一个人,也会导致属于不同人的一个头像和一个语音被判定为对应同一个人。当判断出一个头像和一个语音对应不同人时,却无法计算出该个头像和该个语音可能对应同一个人的概率。当判断出一个头像和一个语音对应同一个人时,却无法计算出该个头像和该个语音可能对应不同人的概率或其他人的概率。当通过语音、头像、甚至更多其他类型的数据中的一种或多种来识别对象时,使用现有深度学习技术,无法综合利用相似度及多种深度学习的结果来计算出其他可能性输出及最优输出,从而无法进行进一步精准的识别和判断。
技术实现思路
本专利技术所解决的技术问题在于提供一种基于联合聚类深度学习神经网络的数据识别方法。实现本专利技术目的的技术解决方案为:一种基于联合聚类深度学习神经网络的数据识别方法,包括以下步骤:步骤1、先获取N类数据样本集及每一类数据样本集对应的标签集,再获取所述N类数据样本集中每一类数据样本的数据预设格式,并获取标签预设格式,然后对N类数据样本集和标签集进行预处理;所述N大于等于1。其中,获取所述N类中每一类数据样本的数据预设格式,并获取标签预设格式,具体为:获取每一类数据样本集中每一个数据样本的数据格式,将该类中相同的数据格式进行合并得到s种数据格式,统计该类数据样本集中每一种数据格式Pi对应的数据样本数量Mi,将最大的Mi对应的数据格式Pi作为该类数据样本的数据预设格式;其中,s大于或等于1,i大于或等于1且小于或等于s;获取每一类数据样本集对应的标签集中每一个标签的标签格式,将所有类中相同的标签格式进行合并得到至少t种标签格式,统计该类标签集中每一种标签格式Qj对应的标签数量Nj,将最大的Nj对应的标签格式Qj作为标签预设格式;其中,t大于或等于1,j大于或等于1且小于或等于t。对N类数据样本集和标签集进行预处理,具体为:步骤1-1、判断每一类数据样本集中每一数据样本的数据格式是否与该类数据样本的数据预设格式一致,如果不一致,则将该类该数据样本的数据格式转化为该类数据样本的数据预设格式;步骤1-2、判断每一类数据样本集中每一个数据样本对应的标签的数据格式是否与标签预设格式一致,如果不一致,则将该类该数据样本对应的标签的数据格式转化为标签预设格式;步骤1-3、对N类数据样本集中的每类数据样本集进行聚类处理,获得J个聚类后的数据样本集及其对应的输出标签集;步骤1-4、对J个聚类后的输出标签集中每个类中相同的标签进行合并,得到更新后的J个输出标签集;步骤1-5、将更新后的J个输出标签集中具有相同标签的标签集及对应的数据样本集分别进行合并,得到预处理后的数据样本集及其对应的输出标签集。步骤2、初始化N类数据样本集对应的N个深度学习神经网络。具体为:步骤2-1、将每一类数据样本的数据预设格式作为该类对应的深度学习神经网络的输入格式;步骤2-2、将标签预设格式作为每一类对应的深度学习神经网络的输出格式;步骤2-3、获取每一类对应的深度学习神经网络的配置信息,将其作为该类对应的深度学习神经网络的配置信息,然后对该类对应的深度学习神经网络进行配置。具体为:步骤2-3-1、从深度学习神经网络配置知识库中获取输入格式、输出格式与每一类数据预设格式及标签预设格式最为匹配的深度学习神经网络对应的配置信息,将其作为该类对应的深度学习神经网络的预设配置信息;其中,输入格式、输出格式与每类数据预设格式及标签预设格式的匹配度=输入格式与该类数据预设格式的匹配度×u%+输出格式与标签预设格式的匹配度×(1-u%),u的缺省值为90;步骤2-3-2、将每一类对应的深度学习神经网络的预设配置信息输出给用户;步骤2-3-3、获取用户对每一类对应的深度学习神经网络的预设配置信息的修改;步骤2-3-4、将修改后的每一类对应的深度学习神经网络的预设配置信息,作为该类对应的深度学习神经网络的预设配置信息。步骤3、将步骤1获取的每一类数据样本集作为输入,将其对应的标签集作为输出,对该类对应的深度学习神经网络进行训练,得到N个训练后的深度学习神经网络。具体为:步骤3-1、将每一类数据样本集中每一个数据样本作为该类对应的深度学习神经网络的输入,对该类对应的深度学习神经网络进行自下而上的无监督训练;步骤3-2、将每一类数据样本集中每一个数据样本作为该类对应的深度学习神经网络的输入,将该类数据样本集对应的标签集中该个数据样本对应的标签作为输出,对该类对应的深度学习神经网络进行自顶向下的监督学习,得到N个训练后的深度学习神经网络。步骤4、为每一类对应的深度学习神经网络获取一个测试数据,将每一类测试数据的数据格式转化为该类数据样本的数据预设格式,然后将该测试数据作为该类对应的深度学习神经网络的输入,通过该深度学习神经网络的计算得到该类对应的测试输出标签;步骤5、在步骤1预处理的标签集中查找每一类的测试输出标签所在的标签集,之后判断该标签集是否只有一个标签元素;如果每一类的测试输出标签所在的标签集只有一个标签元素,则将每一类的测试输出标签作为该类的最优输出标签;否则执行下一步;步骤6、计算每一类的测试输出标签所对应的数据样本集与该类测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度,并根据该相似度计算并确定每一组可能输出标签;其中,每一组可能输出标签中包含了每一类的一个可能输出标签。具体为:如果N=1,则计算测试输出标签所对应的数据样本集与测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度,将相似度大于第一预设值a的所有标签元素作为一组可能输出标签;如果N>1,则获取第i类的测试输出标签所对应的数据样本集Di;获取第i类测试输出标签所在的标签集中标签元素的个数mi;获取第i类测试输出标签所在的标签集中第j个标签元素对应的数据样本集Dij;计算Di与Dij的相似度Pij;其中,i取从1到N中的每一个自然数,j取从1到mi中的每一个自然数;对k1,k2,…,kN的每一个取值,计算相似度第一综合值f(P1k1,P2k2,…,PNkN),如果f(P1k1,本文档来自技高网
...
一种基于联合聚类深度学习神经网络的数据识别方法

【技术保护点】
一种基于联合聚类深度学习神经网络的数据识别方法,其特征在于,包括以下步骤:步骤1、先获取N类数据样本集及每一类数据样本集对应的标签集,再获取所述N类数据样本集中每一类数据样本的数据预设格式,并获取标签预设格式,然后对N类数据样本集和标签集进行预处理;所述N大于等于1;步骤2、初始化N类数据样本集对应的N个深度学习神经网络;步骤3、将步骤1获取的每一类数据样本集作为输入,将其对应的标签集作为输出,对该类对应的深度学习神经网络进行训练,得到N个训练后的深度学习神经网络;步骤4、为每一类对应的深度学习神经网络获取一个测试数据,将每一类测试数据的数据格式转化为该类数据样本的数据预设格式,然后将该测试数据作为该类对应的深度学习神经网络的输入,通过该深度学习神经网络的计算得到该类对应的测试输出标签;步骤5、在步骤1预处理的标签集中查找每一类的测试输出标签所在的标签集,之后判断该标签集是否只有一个标签元素;如果每一类的测试输出标签所在的标签集只有一个标签元素,则将每一类的测试输出标签作为该类的最优输出标签;否则执行下一步;步骤6、计算每一类的测试输出标签所对应的数据样本集与该类测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度,并根据该相似度计算并确定每一组可能输出标签;其中,每一组可能输出标签中包含了每一类的一个可能输出标签;步骤7、计算每一组可能输出标签中每一类的可能输出标签对应的数据样本集与该一类的测试数据集的相似度,并根据该相似度计算并确定一组可能输出标签作为最优输出标签;步骤8、计算可能输出标签中各类输出标签都一致的概率及不一致的概率,作为各类输出标签一致的概率及不一致的概率;步骤9、将可能输出标签、最优输出标签、各类输出标签一致的概率及不一致的概率输出。...

【技术特征摘要】
1.一种基于联合聚类深度学习神经网络的数据识别方法,其特征在于,包括以下步骤:步骤1、先获取N类数据样本集及每一类数据样本集对应的标签集,再获取所述N类数据样本集中每一类数据样本的数据预设格式,并获取标签预设格式,然后对N类数据样本集和标签集进行预处理;所述N大于等于1;步骤2、初始化N类数据样本集对应的N个深度学习神经网络;步骤3、将步骤1获取的每一类数据样本集作为输入,将其对应的标签集作为输出,对该类对应的深度学习神经网络进行训练,得到N个训练后的深度学习神经网络;步骤4、为每一类对应的深度学习神经网络获取一个测试数据,将每一类测试数据的数据格式转化为该类数据样本的数据预设格式,然后将该测试数据作为该类对应的深度学习神经网络的输入,通过该深度学习神经网络的计算得到该类对应的测试输出标签;步骤5、在步骤1预处理的标签集中查找每一类的测试输出标签所在的标签集,之后判断该标签集是否只有一个标签元素;如果每一类的测试输出标签所在的标签集只有一个标签元素,则将每一类的测试输出标签作为该类的最优输出标签;否则执行下一步;步骤6、计算每一类的测试输出标签所对应的数据样本集与该类测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度,并根据该相似度计算并确定每一组可能输出标签;其中,每一组可能输出标签中包含了每一类的一个可能输出标签;步骤7、计算每一组可能输出标签中每一类的可能输出标签对应的数据样本集与该一类的测试数据集的相似度,并根据该相似度计算并确定一组可能输出标签作为最优输出标签;步骤8、计算可能输出标签中各类输出标签都一致的概率及不一致的概率,作为各类输出标签一致的概率及不一致的概率;步骤9、将可能输出标签、最优输出标签、各类输出标签一致的概率及不一致的概率输出。2.根据权利要求1所述的基于联合聚类深度学习神经网络的数据识别方法,其特征在于,步骤1中获取所述N类中每一类数据样本的数据预设格式,并获取标签预设格式,具体为:获取每一类数据样本集中每一个数据样本的数据格式,将该类中相同的数据格式进行合并得到s种数据格式,统计该类数据样本集中每一种数据格式Pi对应的数据样本数量Mi,将最大的Mi对应的数据格式Pi作为该类数据样本的数据预设格式;其中,s大于或等于1,i大于或等于1且小于或等于s;获取每一类数据样本集对应的标签集中每一个标签的标签格式,将所有类中相同的标签格式进行合并得到至少t种标签格式,统计该类标签集中每一种标签格式Qj对应的标签数量Nj,将最大的Nj对应的标签格式Qj作为标签预设格式;其中,t大于或等于1,j大于或等于1且小于或等于t。3.根据权利要求1所述的基于联合聚类深度学习神经网络的数据识别方法,其特征在于,步骤1对N类数据样本集和标签集进行预处理,具体为:步骤1-1、判断每一类数据样本集中每一数据样本的数据格式是否与该类数据样本的数据预设格式一致,如果不一致,则将该类该数据样本的数据格式转化为该类数据样本的数据预设格式;步骤1-2、判断每一类数据样本集中每一个数据样本对应的标签的数据格式是否与标签预设格式一致,如果不一致,则将该类该数据样本对应的标签的数据格式转化为标签预设格式;步骤1-3、对N类数据样本集中的每类数据样本集进行聚类处理,获得J个聚类后的数据样本集及其对应的输出标签集;步骤1-4、对J个聚类后的输出标签集中每个类中相同的标签进行合并,得到更新后的J个输出标签集;步骤1-5、将更新后的J个输出标签集中具有相同标签的标签集及对应的数据样本集分别进行合并,得到预处理后的数据样本集及其对应的输出标签集。4.根据权利要求1所述的基于联合聚类深度学习神经网络的数据识别方法,其特征在于,步骤2中初始化N类数据样本集对应的N个深度学习神经网络,具体为:步骤2-1、将每一类数据样本的数据预设格式作为该类对应的深度学习神经网络的输入格式;步骤2-2、将标签预设格式作为每一类对应的深度学习神经网络的输出格式;步骤2-3、获取每一类对应的深度学习神经网络的配置信息,将其作为该类对应的深度学习神经网络的配置信息,然后对该类对应的深度学习神经网络进行配置。5.根据权利要求4所述的基于联合聚类深度学习神经网络的数据识别方法,其特征在于,步骤2-3中获取每一类对应的深度学习神经网络的预设配置信息,将其作为该类对应的深度学习神经网络的配置信息,具体为:步骤2-3-1、从深度学习神经网络配置知识库中获取输入格式、输出格式与每一类数据预设格式及标签预设格式最为匹配的深度学习神经网络对应的配置信息,将其作为该类对应的深度学习神经网络的预设配置信息;其...

【专利技术属性】
技术研发人员:朱定局
申请(专利权)人:大国创新智能科技东莞有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1