一种基于MPI并行将连续属性进行离散化的方法技术

技术编号:17796959 阅读:66 留言:0更新日期:2018-04-25 20:28
本发明专利技术请求保护一种基于MPI并行将连续属性进行离散化的方法,涉及粗糙集,离散化,并行计算,聚类等概念。首先,读取信息系统的数据,将信息系统水平划分为m个样本数据子集,通过通信分配给n个节点;其次,每个节点并行对数据进行归一化处理,得到新的数据,再并行对属性进行聚类,通过通信合并聚类结果;最后根据聚类结果进行区间划分,并对不同的区间进行属性编码,从而得到连续属性离散化的结果,构造出属性离散化后的信息系统,从而能利用粗糙集知识进行属性约简等后续工作。本发明专利技术结合了粗糙集连续属性离散化方法和MPI并行计算,从而使得连续属性离散化过程可以并行求得,提高算法的效率。

A parallel method for discretization of continuous attributes based on MPI

The invention requests to protect a discretization method of continuous attributes based on MPI parallel, which involves concepts such as rough set, discretization, parallel computing, clustering and so on. First, it reads the data of the information system, divides the information system level into m sample data subsets, and distributs it to N nodes by communication. Secondly, each node performs the normalization processing of the data in parallel, obtains the new data, and then clusters the attributes in parallel, and combines the clustering results through communication. Finally, the clustering results are based on the clustering results. The interval is divided, and the attributes are encoded in different intervals, thus the result of the discretization of the continuous attributes is obtained. The information system after the attribute discretization is constructed, which can make use of the rough set knowledge to carry out the subsequent work of attribute reduction. This invention combines the discrete method of rough set continuous attribute and MPI parallel computing, thus making the continuous attribute discretization process can be obtained in parallel and improve the efficiency of the algorithm.

【技术实现步骤摘要】
一种基于MPI并行将连续属性进行离散化的方法
本专利技术属于一种数据挖掘,粗糙集,并行计算领域,基于MPI利用聚类并行将连续属性离散化的方法。
技术介绍
随着近年来数据爆炸式增长,并行技术显得越来越重要,并行计算的主要目的是节省大型复杂问题或海量数据的处理时间,整合“廉价”的计算机资源组建并行计算平台克服单机计算性能瓶颈和单机存储空间的限制。并行计算是指在并行计算机或并行计算平台上将一个大型计算任务拆分为多个子任务,分配到各处理器,各处理器之间相互协同完成子任务,从而达到提高求解效率或完成大规模任务的目的。待处理问题具有并行性是运用并行计算优化解决方案的关键。并行计算分为时间并行和空间并行,时间并行实际上指的是流水线技术,空间并行则为多个处理器同时参与计算,是并行计算的主要研究问题。并行计算又可以分为数据并行和任务并行,让多个处理器参与计算,提高效率和性能。消息传递接口(MessagePassingInterface,简称MPI)自20世纪90年代以来一直是高性能计算领域并行程序开发的事实标准,目前大部分高性能计算平台均提供MPI并行环境。MPI是目前最重要的并行编程工具,它具有移植性好,功能强大,效率高等多种优点,而且有多种不同的免费高效实用的实现版本,几乎所有的并行计算机厂商都提供对它的支持,这是其它所有的并行编程环境都无法比拟的。MPI于1994年产生,虽然产生时间相对较晚,由于它吸收了其它多种并行环境的优点,同时兼顾性能功能移植性等特点,在短短的几年内便迅速普及成为消息传递并行编程模式的标准。这也从一个方面说明了MPI的生命力和优越性,MPI其实就是一个库,共有上百个函数调用接口,在C语言中可以直接对这些函数进行调用,MPI提供的调用虽然很多,但最常使用的只有6个,只需通过使用这6个函数就可以完成几乎所有的通信功能。MPI的特性:(1)容易使用,可移植性好。几乎所有的并行计算机都支持MPI框架,任何支持进程间通信的并行计算机都支持MPI的程序设计。(2)有完善的异步通信机制。每个并行进程有自己独立的内存空间,能够保证在不和其他并行的进程发生冲突下进行进程间通信,解决数据同步的问题,实现了真正的异步通信。(3)显式的数据交换。用户必须通过显式的发送和接收消息来实现并行进程间的消息和数据交换。(4)并行粒度大。消息传递模型的程序设计需要很好地分解任务,适应计算密集型应用,为减少通信消耗,适用于并行计算粒度大的大规模可扩展并行算法。现实生活中信息系统的属性不仅多样化,维度高,而且包含噪音,冗余和不相关属性,为了解决数据计算的复杂性和准确性问题,消除噪音等对计算过程和最终结果造成的影响,减少规则抽取算法的计算时间,从而看清反应数据本质特征的分布情况,属性约简必不可少。但粗糙集只能处理离散数据,故连续属性离散化显得尤为重要。近年来,粗糙集理论成为处理不确定信息的有效的数学工具。粗糙集:该理论由波兰学者Pawlak教授于1982年提出,是一种能有效处理不精确、不确定和模糊信息的数学理论。目前,粗糙集已成功应用到机器学习、数据挖掘、智能数据分析和控制算法获取等领域。粗糙集理论的主要思想是利用已知的知识库,将不精确或不确定的知识用已知知识库中的知识来(近似)刻画。粗糙集可以不依赖先验知识,根据数据的决策与分布进行知识发现。连续属性离散化:离散化是处理连续属性最常用的方法,连续属性的离散化方法也可以被称为分箱法,这种方法将一组连续的值根据一定的规则分别放到其术语的集合中,即将连续属性的邻近值分组,形成有限个区间。离散化技术有很多方法可以实现,如等区间宽度、等频率、等熵、或聚类等,可以根据如何对数据进行离散化加以分类,可以根据是否使用类信息或根据进行方向(即自顶向下或自底向上)分类。如果离散化过程使用决策信息,则称它为监督离散化,否则是非监督的。如果首先找出一点或几个点(称作分裂点或割点)来划分整个属性区间,然后在结果区间上递归地重复这一过程,则称它为自顶向下离散化或分裂。自底向上离散化或合并正好相反,首先将所有的连续值看作可能的分裂点,通过合并相邻域的值形成区间,然后递归地应用这一过程于结果区间。在进行数据处理时,先对数据进行离散化有很多好处:算法需要,例如粗糙集本身只能处理离散数据,因此利用粗糙集处理连续数据时,首先要将其离散化;离散化可以有效地克服数据中隐藏的缺陷,使模型结果更加稳定;有利于对非线性关系进行诊断和描述,对连续型数据进行离散处理后,自变量和目标变量之间的关系变得清晰化。聚类:聚类是数据挖掘中很重要的一个概念,将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。聚类分析又称群分析,它是研究分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。由于聚类得特征和离散化类似,因此可以用聚类的方法来将连续属性离散化。k均值算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大,并将它们归为一类。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。对连续属性进行k均值聚类,进而可以将属性离散化成为不同的类,之后可以采用粗糙集约减理论进行属性约减。本专利技术针对应用粗糙集理论时,只能处理离散数据,不能处理连续数据的情况,数据离散化是应用粗糙集理论不可或缺的步骤,而且离散化可以有效地减弱极端值和异常值的影响,也有利于数据的后续处理。信息系统中属性多样化,维度高,数据量大,现有的连续属性离散化方法普遍存在着计算量大、计算复杂度高、断点数多、效率低等问题,提出了一种利用聚类基于MPI并行将连续属性离散化的方法,来解决数据计算的复杂性和准确性问题,提高计算性能和计算效率。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种解决数据计算的复杂性和准确性问题,提高计算性能和计算效率的基于MPI并行将连续属性进行离散化的方法。本专利技术的技术方案如下:一种基于MPI并行将连续属性进行离散化的方法,其包括以下步骤:1)、首先,读取信息系统的数据,将信息系统水平划分为m个样本数据子集,通过通信分配给n个节点;2)、其次,每个节点并行对数据进行归一化处理,得到新的数据,再并行对新数据属性进行聚类,通过通信合并聚类结果;3)、最后根据聚类结果进行区间划分,并对不同的区间进行属性编码,从而得到连续属性离散化的结果,构造出属性离散化后的信息系统,再利用粗糙集知识进行属性约简。进一步的,所述步骤1)的信息系统包含条件属性和决策属性,数据集的条件属性集,形式为{条件属性1,条件属性2,……条件属性p},信息系统是一个四元组IS=(U,A,V,f),其中U表示领域问题中所有对象的集合,称为论域;A=C∪D是属性集合,子集C和D分别表示条件属性集和决策属性集;Va是属性a的值域;f:U×A→V是一个信息函数,对一个对象的每一个属性赋予一个信息值,即x∈U,有f(x,a)∈Va。进一步的,所述步骤1)任务分配时,基于MPI进行并行程序设计时可以根据各节点间的相互关系将其分为对等程序设计模型本文档来自技高网
...
一种基于MPI并行将连续属性进行离散化的方法

【技术保护点】
一种基于MPI并行将连续属性进行离散化的方法,其特征在于,包括以下步骤:1)、首先,读取信息系统的数据,将信息系统水平划分为m个样本数据子集,通过通信分配给n个节点;2)、其次,每个节点并行对数据进行归一化处理,得到新的数据,再并行对新数据属性进行聚类,通过通信合并聚类结果;3)、最后根据聚类结果进行区间划分,并对不同的区间进行属性编码,从而得到连续属性离散化的结果,构造出属性离散化后的信息系统,再利用粗糙集知识进行属性约简。

【技术特征摘要】
1.一种基于MPI并行将连续属性进行离散化的方法,其特征在于,包括以下步骤:1)、首先,读取信息系统的数据,将信息系统水平划分为m个样本数据子集,通过通信分配给n个节点;2)、其次,每个节点并行对数据进行归一化处理,得到新的数据,再并行对新数据属性进行聚类,通过通信合并聚类结果;3)、最后根据聚类结果进行区间划分,并对不同的区间进行属性编码,从而得到连续属性离散化的结果,构造出属性离散化后的信息系统,再利用粗糙集知识进行属性约简。2.根据权利要求1所述的基于MPI并行将连续属性进行离散化的方法,其特征在于,所述步骤1)的信息系统包含条件属性和决策属性,数据集的条件属性集,形式为{条件属性1,条件属性2,……条件属性p},信息系统是一个四元组IS=(U,A,V,f),其中U表示领域问题中所有对象的集合,称为论域;A=C∪D是属性集合,子集C和D分别表示条件属性集和决策属性集;Va是属性a的值域;f:U×A→V是一个信息函数,对一个对象的每一个属性赋予一个信息值,即x∈U,有f(x,a)∈Va。3.根据权利要求1或2所述的基于MPI并行将连续属性进行离散化的方法,其特征在于,所述步骤1)任务分配时,基于MPI进行并行程序设计时可以根据各节点间的相互关系将其分为对等程序设计模型和主从程序设计模型,采用对等程序设计模型进行程序设计时,各个节点相互协同共同完成任务,节点间不相互依赖;采用主从程序设计模型时,分为主节点和从节点,主节点负责分配计算任务,协调从节点进度和收集计算结果,从节点接收相应的任务并计算,协同完成任务。4.根据权利要求3所述的基于MPI并行将连续属性进行离散化的方法,其特征在于,所述归一化方法采用min-max法,也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0,1]之间,转换函数如下:其中max为样本数据的最大值,min为样本数据的最小值。5.根据权利要求4所述的基于MPI并行将连续属性进行离散化的方法,其特征在于,所述步...

【专利技术属性】
技术研发人员:胡峰胡宗容刘柯张清华高延雨邓维斌于洪邓欣张其龙欧阳卫华
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1