The invention discloses a data recognition method, learning neural network combined with clustering based on depth the steps are as follows: first to obtain N class data set and the corresponding set of tags and pretreatment, data format, and default label preset format; and then train the deep learning neural network; then each kind of either test the data into the data format as the presupposition of deep learning neural network input, and get the test output corresponding to the label; then according to the similarity calculation between the test output label where the tag sets the number of elements and data set, determine the possible output labels and optimal output labels; then calculate all the output label is consistent and inconsistent the last May, probability; probability output optimal output label and step in. The present invention makes use of similarity calculation to make up for deep learning neural network to output accuracy when output quantity is large and input sample quantity is insufficient, so as to increase output accuracy.
【技术实现步骤摘要】
一种基于联合聚类深度学习神经网络的数据识别方法
本专利技术涉及一种联合聚类深度学习方法,特别是一种基于联合聚类深度学习神经网络的数据识别方法。
技术介绍
现有深度学习能通过输入数据得到输出标签(例如通过头像得到该人身份证号,又如通过语音得到该人身份证号),但在自顶向下的监督学习阶段必须要通过带标签数据的监督学习(例如带有身份证号的头像,又如带有身份证号的语音)。如果同时具备带有身份证号的头像和带有身份证号的头像语音,则可以将一个头像输入头像类对应的深度学习神经网络得到输出的身份证号,将一个语音输入语音类对应的深度学习神经网络得到输出的身份证号,然后判断通过输入头像和输入语音分别得到的所述输出的身份证号是否相同,如果相同则判断所述一个头像与所述一个语音对应的是同一人,如果不同则判断所述一个头像与所述一个语音对应的不是同一人。但是,由于深度学习神经网络的准确率无法达到100%,所以一个头像输入头像类对应的深度学习神经网络后输出的身份证号可能是另一个头像相似的人的身份证号,一个语音输入语音类对应的深度学习神经网络后输出的身份证号可能是另一个语音相似的人的身份证号,那么就会导致不属于同一个人的一个头像和一个语音被判定为对应同一个人,也会导致属于不同人的一个头像和一个语音被判定为对应同一个人。当判断出一个头像和一个语音对应不同人时,却无法计算出该个头像和该个语音可能对应同一个人的概率。当判断出一个头像和一个语音对应同一个人时,却无法计算出该个头像和该个语音可能对应不同人的概率或其他人的概率。当通过语音、头像、甚至更多其他类型的数据中的一种或多种来识别对象时,使用现有 ...
【技术保护点】
一种基于联合聚类深度学习神经网络的数据识别方法,其特征在于,包括以下步骤:步骤1、先获取N类数据样本集及每一类数据样本集对应的标签集,再获取所述N类数据样本集中每一类数据样本的数据预设格式,并获取标签预设格式,然后对N类数据样本集和标签集进行预处理;所述N大于等于1;步骤2、初始化N类数据样本集对应的N个深度学习神经网络;步骤3、将步骤1获取的每一类数据样本集作为输入,将其对应的标签集作为输出,对该类对应的深度学习神经网络进行训练,得到N个训练后的深度学习神经网络;步骤4、为每一类对应的深度学习神经网络获取一个测试数据,将每一类测试数据的数据格式转化为该类数据样本的数据预设格式,然后将该测试数据作为该类对应的深度学习神经网络的输入,通过该深度学习神经网络的计算得到该类对应的测试输出标签;步骤5、在步骤1预处理的标签集中查找每一类的测试输出标签所在的标签集,之后判断该标签集是否只有一个标签元素;如果每一类的测试输出标签所在的标签集只有一个标签元素,则将每一类的测试输出标签作为该类的最优输出标签;否则执行下一步;步骤6、计算每一类的测试输出标签所对应的数据样本集与该类测试输出标签所在的标签 ...
【技术特征摘要】
1.一种基于联合聚类深度学习神经网络的数据识别方法,其特征在于,包括以下步骤:步骤1、先获取N类数据样本集及每一类数据样本集对应的标签集,再获取所述N类数据样本集中每一类数据样本的数据预设格式,并获取标签预设格式,然后对N类数据样本集和标签集进行预处理;所述N大于等于1;步骤2、初始化N类数据样本集对应的N个深度学习神经网络;步骤3、将步骤1获取的每一类数据样本集作为输入,将其对应的标签集作为输出,对该类对应的深度学习神经网络进行训练,得到N个训练后的深度学习神经网络;步骤4、为每一类对应的深度学习神经网络获取一个测试数据,将每一类测试数据的数据格式转化为该类数据样本的数据预设格式,然后将该测试数据作为该类对应的深度学习神经网络的输入,通过该深度学习神经网络的计算得到该类对应的测试输出标签;步骤5、在步骤1预处理的标签集中查找每一类的测试输出标签所在的标签集,之后判断该标签集是否只有一个标签元素;如果每一类的测试输出标签所在的标签集只有一个标签元素,则将每一类的测试输出标签作为该类的最优输出标签;否则执行下一步;步骤6、计算每一类的测试输出标签所对应的数据样本集与该类测试输出标签所在的标签集中每一标签元素对应的数据样本集的相似度,并根据该相似度计算并确定每一组可能输出标签;其中,每一组可能输出标签中包含了每一类的一个可能输出标签;步骤7、计算每一组可能输出标签中每一类的可能输出标签对应的数据样本集与该一类的测试数据集的相似度,并根据该相似度计算并确定一组可能输出标签作为最优输出标签;步骤8、计算可能输出标签中各类输出标签都一致的概率及不一致的概率,作为各类输出标签一致的概率及不一致的概率;步骤9、将可能输出标签、最优输出标签、各类输出标签一致的概率及不一致的概率输出。2.根据权利要求1所述的基于联合聚类深度学习神经网络的数据识别方法,其特征在于,步骤1中获取所述N类中每一类数据样本的数据预设格式,并获取标签预设格式,具体为:获取每一类数据样本集中每一个数据样本的数据格式,将该类中相同的数据格式进行合并得到s种数据格式,统计该类数据样本集中每一种数据格式Pi对应的数据样本数量Mi,将最大的Mi对应的数据格式Pi作为该类数据样本的数据预设格式;其中,s大于或等于1,i大于或等于1且小于或等于s;获取每一类数据样本集对应的标签集中每一个标签的标签格式,将所有类中相同的标签格式进行合并得到至少t种标签格式,统计该类标签集中每一种标签格式Qj对应的标签数量Nj,将最大的Nj对应的标签格式Qj作为标签预设格式;其中,t大于或等于1,j大于或等于1且小于或等于t。3.根据权利要求1所述的基于联合聚类深度学习神经网络的数据识别方法,其特征在于,步骤1对N类数据样本集和标签集进行预处理,具体为:步骤1-1、判断每一类数据样本集中每一数据样本的数据格式是否与该类数据样本的数据预设格式一致,如果不一致,则将该类该数据样本的数据格式转化为该类数据样本的数据预设格式;步骤1-2、判断每一类数据样本集中每一个数据样本对应的标签的数据格式是否与标签预设格式一致,如果不一致,则将该类该数据样本对应的标签的数据格式转化为标签预设格式;步骤1-3、对N类数据样本集中的每类数据样本集进行聚类处理,获得J个聚类后的数据样本集及其对应的输出标签集;步骤1-4、对J个聚类后的输出标签集中每个类中相同的标签进行合并,得到更新后的J个输出标签集;步骤1-5、将更新后的J个输出标签集中具有相同标签的标签集及对应的数据样本集分别进行合并,得到预处理后的数据样本集及其对应的输出标签集。4.根据权利要求1所述的基于联合聚类深度学习神经网络的数据识别方法,其特征在于,步骤2中初始化N类数据样本集对应的N个深度学习神经网络,具体为:步骤2-1、将每一类数据样本的数据预设格式作为该类对应的深度学习神经网络的输入格式;步骤2-2、将标签预设格式作为每一类对应的深度学习神经网络的输出格式;步骤2-3、获取每一类对应的深度学习神经网络的配置信息,将其作为该类对应的深度学习神经网络的配置信息,然后对该类对应的深度学习神经网络进行配置。5.根据权利要求4所述的基于联合聚类深度学习神经网络的数据识别方法,其特征在于,步骤2-3中获取每一类对应的深度学习神经网络的预设配置信息,将其作为该类对应的深度学习神经网络的配置信息,具体为:步骤2-3-1、从深度学习神经网络配置知识库中获取输入格式、输出格式与每一类数据预设格式及标签预设格式最为匹配的深度学习神经网络对应的配置信息,将其作为该类对应的深度学习神经网络的预设配置信息;其...
【专利技术属性】
技术研发人员:朱定局,
申请(专利权)人:大国创新智能科技东莞有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。