一种基于分布式环境的海量数据快速分类方法技术

技术编号:9967543 阅读:115 留言:0更新日期:2014-04-25 08:07
本发明专利技术提供一种基于分布式环境的海量数据快速分类方法,从训练、分类及分布式部署三个模块进行开发实施。该一种基于分布式环境的海量数据快速分类方法和现有技术相比,大大降低算法的复杂度,可以在损失很小准确率甚至不减少准确率的情况下,大大减少时间消耗;实用性强,适用范围广泛,易于推广。

【技术实现步骤摘要】
【专利摘要】本专利技术提供,从训练、分类及分布式部署三个模块进行开发实施。该和现有技术相比,大大降低算法的复杂度,可以在损失很小准确率甚至不减少准确率的情况下,大大减少时间消耗;实用性强,适用范围广泛,易于推广。【专利说明】
本专利技术涉及计算机应用
, 具体的说是。
技术介绍
在信息数据爆发式发展的今天,人们更希望用计算机帮助分析数据和理解数据,帮助他们基于丰富的数据做出决策。于是,数据挖掘——从大量数据中以非平凡的发现有用的知识就成为一种自然的需求。正是这种需求引起人们的关注,导致了数据挖掘研究的蓬勃发展。互联网及科研设备的不断发展,越来越多的海量高维数据不断产生,如果对这些数据进行挖掘也是一个巨大的挑战。分类问题作为数据挖掘中一个最重要问题,面临的问题和挑战也自然更多。针对此问题,本专利技术提出了一种分布式环境下的海量高维数据的快速分类方法,具有较高的参考价值和实现意义。
技术实现思路
本专利技术的技术任务是解决现有技术的不足,提供。本专利技术的技术方案是按以下方式实现的,该,其具体分类步骤包括: 一、训练阶段; 二、分类阶段,该阶段的详细过程为: 该分类阶段的目的是形成一颗分类k叉树,树中的叶子结点对应数量相对较少的训练样本,而树干结点对应的是以此结点为根的子树包含的所有训练样本的均值样本;对于每个结点,如果样本数目大于某个阈值T,则利用K均值算法对所有训练样本进行聚类,形成k个簇,即对应该结点的k个子树; 对于新的分类样本,首先对根节点下的子树计算距离,计算方法是与该结点对应的均值样本计算距离,选择其中距离最小的一颗子树迭代此过程,直至达到某个叶子结点; 分类样本和叶子结点中的所有训练样本,计算距离,然后将距离归一化之后作为权重,进行分类投票,以投票最高的子类作为该分类样本的分类结果; 在具体样本分类时,通过主节点进行任务的分配,此外,主节点可根据一段时间每个子节点的表现及任务的完成数量指标对节点进行任务的重新分配。所述距离归一化公式为:【权利要求】1.,其特征在于其具体分类步骤包括: 一、训练阶段; 二、分类阶段,该阶段的详细过程为: 该分类阶段的目的是形成一颗分类k叉树,树中的叶子结点对应数量相对较少的训练样本,而树干结点对应的是以此结点为根的子树包含的所有训练样本的均值样本;对于每个结点,如果样本数目大于某个阈值T,则利用K均值算法对所有训练样本进行聚类,形成k个簇,即对应该结点的k个子树; 对于新的分类样本,首先对根节点下的子树计算距离,计算方法是与该结点对应的均值样本计算距离,选择其中距离最小的一颗子树迭代此过程,直至达到某个叶子结点; 分类样本和叶子结点中的所有训练样本,计算距离,然后将距离归一化之后作为权重,进行分类投票,以投票最高的子类作为该分类样本的分类结果; 在具体样本分类时,通过主节点进行任务的分配,此外,主节点可根据一段时间每个子节点的表现及任务的完成数量指标对节点进行任务的重新分配。2.根据权利要求1所述的,其特征在于:所述距离归一化公式为:屺,该算法的复杂度为Odoglr 兰 + T) = iCKlog| Ji)。3.根据权利要求2所述的,其特征在于:各个节点之间的通信通过socket完成,各个节点之间可以是异构的。4.根据权利要求1?3中任一所述的,其特征在于:在进行模板匹配时,距离的定义采用欧氏距离、曼哈顿距离或余弦距离。【文档编号】G06K9/66GK103744899SQ201310725398【公开日】2014年4月23日 申请日期:2013年12月25日 优先权日:2013年12月25日 【专利技术者】付兴旺 申请人:浪潮电子信息产业股份有限公司本文档来自技高网...

【技术保护点】
一种基于分布式环境的海量数据快速分类方法,其特征在于其具体分类步骤包括:一、训练阶段;二、分类阶段,该阶段的详细过程为:该分类阶段的目的是形成一颗分类k叉树,树中的叶子结点对应数量相对较少的训练样本,而树干结点对应的是以此结点为根的子树包含的所有训练样本的均值样本;对于每个结点,如果样本数目大于某个阈值T,则利用K均值算法对所有训练样本进行聚类,形成k个簇,即对应该结点的k个子树;对于新的分类样本,首先对根节点下的子树计算距离,计算方法是与该结点对应的均值样本计算距离,选择其中距离最小的一颗子树迭代此过程,直至达到某个叶子结点;分类样本和叶子结点中的所有训练样本,计算距离,然后将距离归一化之后作为权重,进行分类投票,以投票最高的子类作为该分类样本的分类结果;在具体样本分类时,通过主节点进行任务的分配,此外,主节点可根据一段时间每个子节点的表现及任务的完成数量指标对节点进行任务的重新分配。

【技术特征摘要】

【专利技术属性】
技术研发人员:付兴旺
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1