数据挖掘方法和节点技术

技术编号：13075232 阅读：58 留言：0更新日期：2016-03-30 10:50

本发明专利技术实施例提供一种数据挖掘方法和节点，包括：获取本轮迭代任务中每个计算子节点的预计执行时间，并根据预计执行时间为计算子节点分配对应的任务数据量，在本轮迭代任务执行后，收集本轮迭代任务中每个计算子节点的执行情况信息，并以此判断下一轮迭代任务是否要对每个计算子节点的任务数据量进行调整，并在按照调整后的任务数据量进行下一轮迭代任务，从而能够根据每个计算子节点的能力分配相应的任务数据量，并且能够根据上一轮的执行情况对本轮任务中每个计算子节点的任务数据量做出调整，从而能够避免有些不必要的负载均衡过程，降低网络开销，提高系统的数据挖掘性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及通信技术，尤其涉及一种数据挖掘方法和节点。
技术介绍
大数据化ig data),或称巨量资料，指的是所涉及的资料量规模巨大到无法通过常规软件工具，在合理时间内达到揃取、管理、处理、并整理的数据集合。随着云时代的来临，大数据度ig data)吸引了越来越多的关注，而如何从大数据中获取有用的信息和知识就成了业界关注的焦点。数据挖掘值ata Mining),就是一种从大量的数据中通过算法搜索隐藏于其中信息的技术，数据挖掘通常通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。在数据挖掘过程中通常需要对海量数据进行建模分析，常见的建模方法包括迭代的机器学习算法，例如线性回归、逻辑回归、神经网络和决策树，通过对数据重复执行一个学习流程，不断更新数据挖掘任务的特定参数。每次完成一轮迭代计算时，对生成的临时模型的效果进行评估，满足一定条件时结束迭代过程；否则重复执行迭代过程。然而由于大数据具有数据量大的特点，通常达到TBQTB = 1012B)或者PBQPB = 1000TB)级别，超出民用计算机的计算能力，所W通常使用高性能计算机和分布式集群进行批量处理。即将大数据的挖掘任务在分布式集群计算环境中执行上述的迭代算法，每一轮迭代计算任务被分配到各个计算子节点，当计算子节点完成各自的计算任务时，将所有子节点的临时结果汇总，并且对得到的合并模型的效果进行评估，满足一定条件时结束迭代过程；否则将新的计算任务重新分配到各个计算子节点，重复迭代过程。由于分布式...

【技术保护点】
一种中心节点，应用于数据挖掘系统，其特征在于，所述中心节点包括：时间获取单元，用于获取第N轮迭代任务中，每个计算子节点的预计执行时间；分配单元，用于根据每个计算子节点的预计执行时间为每个计算子节点重分配任务数据；其中，所述任务数据为已获取的待挖掘的样本数据集的部分或全部数据；信息获取单元，用于在每个计算子节点根据分配的任务数据完成所述第N轮迭代任务后，若迭代任务未结束，则获取所述第N轮迭代任务中每个计算子节点的执行情况信息；第一判断单元，用于根据每个计算子节点的执行情况信息判断第N+1轮迭代任务是否需要进行负载均衡，若需要进行负载均衡，则将N的值加1后重复执行所述获取第N轮迭代任务中，每个计算子节点的预计执行时间至所述根据每个计算子节点的执行情况信息判断第N+1轮迭代任务是否需要进行负载均衡的步骤；若不需要进行负载均衡，则使每个计算子节点按照第N轮迭代任务中为该计算子节点分配的任务数据执行所述第N+1轮迭代任务，其中，N为正整数，N的起始值为1。

【技术特征摘要】

【专利技术属性】
技术研发人员：李辰，汪芳山，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人