The invention requests to protect a discretization method of continuous attributes based on MPI parallel, which involves concepts such as rough set, discretization, parallel computing, clustering and so on. First, it reads the data of the information system, divides the information system level into m sample data subsets, and distributs it to N nodes by communication. Secondly, each node performs the normalization processing of the data in parallel, obtains the new data, and then clusters the attributes in parallel, and combines the clustering results through communication. Finally, the clustering results are based on the clustering results. The interval is divided, and the attributes are encoded in different intervals, thus the result of the discretization of the continuous attributes is obtained. The information system after the attribute discretization is constructed, which can make use of the rough set knowledge to carry out the subsequent work of attribute reduction. This invention combines the discrete method of rough set continuous attribute and MPI parallel computing, thus making the continuous attribute discretization process can be obtained in parallel and improve the efficiency of the algorithm.
【技术实现步骤摘要】
一种基于MPI并行将连续属性进行离散化的方法
本专利技术属于一种数据挖掘,粗糙集,并行计算领域,基于MPI利用聚类并行将连续属性离散化的方法。
技术介绍
随着近年来数据爆炸式增长,并行技术显得越来越重要,并行计算的主要目的是节省大型复杂问题或海量数据的处理时间,整合“廉价”的计算机资源组建并行计算平台克服单机计算性能瓶颈和单机存储空间的限制。并行计算是指在并行计算机或并行计算平台上将一个大型计算任务拆分为多个子任务,分配到各处理器,各处理器之间相互协同完成子任务,从而达到提高求解效率或完成大规模任务的目的。待处理问题具有并行性是运用并行计算优化解决方案的关键。并行计算分为时间并行和空间并行,时间并行实际上指的是流水线技术,空间并行则为多个处理器同时参与计算,是并行计算的主要研究问题。并行计算又可以分为数据并行和任务并行,让多个处理器参与计算,提高效率和性能。消息传递接口(MessagePassingInterface,简称MPI)自20世纪90年代以来一直是高性能计算领域并行程序开发的事实标准,目前大部分高性能计算平台均提供MPI并行环境。MPI是目前最重要的并行编程工具,它具有移植性好,功能强大,效率高等多种优点,而且有多种不同的免费高效实用的实现版本,几乎所有的并行计算机厂商都提供对它的支持,这是其它所有的并行编程环境都无法比拟的。MPI于1994年产生,虽然产生时间相对较晚,由于它吸收了其它多种并行环境的优点,同时兼顾性能功能移植性等特点,在短短的几年内便迅速普及成为消息传递并行编程模式的标准。这也从一个方面说明了MPI的生命力和优越性,MPI其实就 ...
【技术保护点】
一种基于MPI并行将连续属性进行离散化的方法,其特征在于,包括以下步骤:1)、首先,读取信息系统的数据,将信息系统水平划分为m个样本数据子集,通过通信分配给n个节点;2)、其次,每个节点并行对数据进行归一化处理,得到新的数据,再并行对新数据属性进行聚类,通过通信合并聚类结果;3)、最后根据聚类结果进行区间划分,并对不同的区间进行属性编码,从而得到连续属性离散化的结果,构造出属性离散化后的信息系统,再利用粗糙集知识进行属性约简。
【技术特征摘要】
1.一种基于MPI并行将连续属性进行离散化的方法,其特征在于,包括以下步骤:1)、首先,读取信息系统的数据,将信息系统水平划分为m个样本数据子集,通过通信分配给n个节点;2)、其次,每个节点并行对数据进行归一化处理,得到新的数据,再并行对新数据属性进行聚类,通过通信合并聚类结果;3)、最后根据聚类结果进行区间划分,并对不同的区间进行属性编码,从而得到连续属性离散化的结果,构造出属性离散化后的信息系统,再利用粗糙集知识进行属性约简。2.根据权利要求1所述的基于MPI并行将连续属性进行离散化的方法,其特征在于,所述步骤1)的信息系统包含条件属性和决策属性,数据集的条件属性集,形式为{条件属性1,条件属性2,……条件属性p},信息系统是一个四元组IS=(U,A,V,f),其中U表示领域问题中所有对象的集合,称为论域;A=C∪D是属性集合,子集C和D分别表示条件属性集和决策属性集;Va是属性a的值域;f:U×A→V是一个信息函数,对一个对象的每一个属性赋予一个信息值,即x∈U,有f(x,a)∈Va。3.根据权利要求1或2所述的基于MPI并行将连续属性进行离散化的方法,其特征在于,所述步骤1)任务分配时,基于MPI进行并行程序设计时可以根据各节点间的相互关系将其分为对等程序设计模型和主从程序设计模型,采用对等程序设计模型进行程序设计时,各个节点相互协同共同完成任务,节点间不相互依赖;采用主从程序设计模型时,分为主节点和从节点,主节点负责分配计算任务,协调从节点进度和收集计算结果,从节点接收相应的任务并计算,协同完成任务。4.根据权利要求3所述的基于MPI并行将连续属性进行离散化的方法,其特征在于,所述归一化方法采用min-max法,也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0,1]之间,转换函数如下:其中max为样本数据的最大值,min为样本数据的最小值。5.根据权利要求4所述的基于MPI并行将连续属性进行离散化的方法,其特征在于,所述步...
【专利技术属性】
技术研发人员:胡峰,胡宗容,刘柯,张清华,高延雨,邓维斌,于洪,邓欣,张其龙,欧阳卫华,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。