一种基于最近邻聚类的神经网络数据挖掘方法技术

技术编号:13837901 阅读:66 留言:0更新日期:2016-10-16 00:21
本发明专利技术公开了一种基于最近邻聚类的神经网络数据挖掘方法,该神经网络数据挖掘方法采用一种改进的最近邻聚类学习算法对神经网络进行训练,使神经网络在满足精度要求的前提下,减少隐层节点数,简化网络结构,加快神经网络的学习速度,达到进一步改善神经网络学习效率和精度的目的,在此基础上用神经网络进行数据挖掘,以进一步提高神经网络对大型实际电力系统数据库进行挖掘时的效率。本发明专利技术的目的在于保证电力系统的安全、稳定、优质、经济的运行,满足数字电力系统中的海量数据以及人们对数据信息的可靠性、一致性和共享性提出的更高的要求。

【技术实现步骤摘要】

本专利技术涉及一种应用于电力系统相关信息的数据挖掘方法,特别是涉及一种利用最近邻聚类算法训练神经网络的神经网络数据挖掘方法,本专利技术属电力系统数据分析领域。
技术介绍
随着电力工业的飞速发展和信息技术以及计算机技术在电力系统中的普及,数字化技术近年来得到广泛应用,出现了电力信息化--数字电力系统。在线实时监控系统、交易系统、地理信息管理系统、故障诊断、离线的各种分析计算和规划系统,以及电力企业的日常事务处理、通信和能量管理等系统在电力企业得到了广泛应用。但电力系统是一个动态非线性的大系统,这些系统在运行过程中不断产生和积累大量的数据,这些实时数据已经呈爆炸增长态势。此外,PsS/E,EMTP,PsAsP,BPA等电力系统仿真软件在电力系统分析计算中的广泛应用,也使系统产生了大量的仿真数据。基于传统数据库的数据管理系统,随着数据量的增加,统计查询性能大幅度下降,用户不能随意地利用这些大量的数据进行统计分析,而且数据利用率低下,海量的历史数据在默默地沉睡,数据中有价值的特征提取困难,导致利用这些数据对业务进行及时地预测和指导就比较困难。随着人们对数据信息的可靠性、一致性和共享性提出的更高要求,以及更好地保证电力系统的安全、稳定、优质、经济的运行,电力系统中日益迫切需要解决的问题就是如何对海量、时变及移动数据进行综合处理,以及对采集到的数据进行数据挖掘。这样就可以更加充分地利用运行数据,揭示历史数据背后蕴含的规则和原理,找到更加合理的解决问题的方法,为决策的制定和执行提供更加有力的科学依据。数据挖掘在电力系统中的主要应用有电力系统负荷预测和分类、电力系统的运行模式分类、电力系统运行状态和设备状态监控和电力调度优化、电力系统建模等。数据挖掘(Data Mninig)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。主要有概念描述、关联分析、聚类、自动预测趋势和行为、偏差检测等几类功能。聚类就是将数据对象分成多个类或簇,使得同一个簇中的对象较相似,而不同簇中的对象不相似。电力系统的研究人员对不同的电力用户或发电商进行聚类分析,以期获得不同的类别属性。从电力监测和调度系统中提取不同地区不同类型的用户负荷曲线,进行用电特性聚类分析,为电力公司营销和负荷管理提供依据。神经网络为解决复杂问题提供了一种相对来说比较有效的简单方法。神经网络具有良好的鲁棒性、自组织、自适应、自学习、并行处理、分布存储和高度容错等特性,能根据新的输入数据自适应调整网络参数。而且神经网络对噪声数据具有较强承受能力,对数据分类准确性高,以及可用各种算法进行规则提取。更重要的是神经网络很容易在并行计算机上实现,可以把它的节点分配到不同的CPU上并行计算。因此,可以借助神经网络来进行数据挖掘。但是在利用神经网络进行数据挖掘过程中,神经网络学习算法不能保证收敛到最理想的结果;神经网络很容易过度训练,从而导致在训练数据上工作地很好,而在检验数据上表现欠佳。而且神经网络的学习时间长短影响其在数据挖掘中的应用,网络的训练时间长短与问题的规模、网络的复杂性以及训练算法相关。本专利技术采用RBF神经网络。因为RBF神经网络具有良好的逼近任意非线性映射和处理系统内在的难以解析表达的规律性的能力;RBF神经网络的拓扑结构不仅使得学习速度大大加快,而且避免了局部极小问题;RBF神经网络另一个突出优点是可解释性好。RBF神经网络的拓扑结构在很大程度上影响着神经网络自身的性能,而决定RBF神经网络拓扑结构的因素主要有四个:RBF的中心矢量、隐节点数目、径向基函数的宽度以及隐含层到输出层之间的权值矩阵。核函数的宽度参数决定了隐节点对外部输入信号的响应范围,影响中心的数目、学习速度和精度。k-均值聚类算法的只能达到依赖所选中心初值的局部最优解。一般的最近邻聚类算法需要根据经验和先验知识确定合适的聚类半径,确定以后就不能更改,不利于算法的应用。而且随着输入数据的增加,隐含层的节点数会单调递增,这将会产生大量的冗余节点,造成网络结构过于庞大,从而不能协调学习精度和学习速度之间的关系,影响数据挖掘的结果。本专利技术提出的基于最近邻聚类的神经网络数据挖掘方法,正是基于以上需求,实现了对电力系统数据更加高效的挖掘。
技术实现思路
本专利技术的目的在于针对现有数据挖掘技术的不足,提供一种能针对电力系统数据进行效率更高的利用最近邻聚类优化神经网络的数据挖掘方法。该方法主要解决神经网络数据挖掘过程中网络复杂、学习时间过长的问题,保证获得最佳的电力系统数据挖掘效果。为了实现上述目的,本专利技术采用的技术方案如下:提供一种适用于电力系统的基于最近邻聚类的神经网络数据挖掘方法,所述方法包括以下步骤:步骤1:对电力数据进行清洗和选择电力数据具有高维性、离散数据和连续数据混合、数据的时间特性和统计特性、存在不确定性如噪声、缺损数据等问题,作为数据初始集的数据仓库中数据很多,但也许只需要其中一部分数据用于某一决策。因此需要对用于本次数据挖掘的数据进行选择。一般情况下,哪些参数对于某一决策来说是重要的是不知道的,但神经网络可以辅助解决这个问题,它能建立一个与此参数相关的模型。步骤2:对电力数据预处理和转换数据预处理就是对选择出的干净数据进行增强处理的过程。对神经网络数据挖掘来说,还需将数据转化成一种能够被神经网络数据挖掘算法接受的形式。神经网络只能处理数值性的数据,文本数据需要转换为神经网络能够识别的数值性数据。大多数神经网络模型只接受(0,1)或(-1,1)范围的数据值,而电力系统中的数据在数值的数量级上存在较大的差别,因此,数据必须对训练样本进行归一化处理到这个区间。标量数据值基本上均匀地分布在某一范围内,可以直接映射到区间(0,l);若数值分布不均匀,可用分段线性方程或对数方程进行转换,然后再按比例缩小到指定区间;离散数据通过用0和1对其进行编码来表示。假设系统的训练样本集的最大值为Dmax,最小值为Dmin,数据本身为Di,则归一化处理对网络训练非常重要,有利于神经网络训练时的收敛,能够有效提高神经网络学习速度,减少训练时间,避免神经网络对某一输入量特别灵敏或不灵敏。步骤3:数据集的管理将原始数据随机地划分成训练数据集、测试数据集和确认数据集三个数据集,前两个数据集用来训练神经网络、测试网络的精度来构造神经网络模型,确认数据集独立地测试网络,这三个数据集的比例分别为80%、10%和10%。步骤4:确定神经网络类型、算法并训练神经网络;本专利技术采用三层前馈RBF神经网络,并采用改进的最近邻聚类学习算法训练该神经网络。神经网络输入、输出节点的数目由电力系统具体的决策决定,隐含层节点的数目由最近邻聚类算法决定。从归一化后的训练样本集中等间隔选取数据进行训练,根据具体要求设置训练精度。本专利技术采用的改进最近邻聚类学习算法可以自动调整聚类半径,在满足系统性能的要求下,通过对聚类半径的调整,使其达到一个满意的值,从而使聚类中心个数达到最佳,是RBF神经网络的参数和结构两个过程进行在线自适应调整。步骤5:数据结果显示输出,并对挖掘结果进行分析。有效结果:本专利技术提供一种适用于电力系统的基于最近邻聚类的神经网络数据挖掘方法,可以对电力系统中的海量数据进本文档来自技高网
...

【技术保护点】
一种基于最近邻聚类的神经网络数据挖掘方法,其特征在于:采用最近邻聚类学习算法对神经网络进行训练,减少神经网络的隐层节点数,简化网络结构,加快神经网络的学习速度,在此基础上用神经网络对大型实际电力系统数据库进行数据挖掘,具体步骤包括:步骤1:对实际电力系统数据库中的电力数据进行清洗和选择;步骤2:对经过步骤1处理后的电力数据预处理和转换;步骤3:对经过步骤2处理后的电力数据进行数据集管理;步骤4:针对步骤3产生的数据集,确定神经网络类型、算法并训练神经网络;步骤5:从训练好的神经网络中提取规则;步骤6:对提取的规则进行评估。

【技术特征摘要】
1.一种基于最近邻聚类的神经网络数据挖掘方法,其特征在于:采用最近邻聚类学习算法对神经网络进行训练,减少神经网络的隐层节点数,简化网络结构,加快神经网络的学习速度,在此基础上用神经网络对大型实际电力系统数据库进行数据挖掘,具体步骤包括:步骤1:对实际电力系统数据库中的电力数据进行清洗和选择;步骤2:对经过步骤1处理后的电力数据预处理和转换;步骤3:对经过步骤2处理后的电力数据进行数据集管理;步骤4:针对步骤3产生的数据集,确定神经网络类型、算法并训练神经网络;步骤5:从训练好的神经网络中提取规则;步骤6:对提取的规则进行评估。2.根据权利要求1所述的一种基于最近邻聚类的神经网络数据挖掘方法,其特征在于:所述步骤1、步骤2中,对电力系统中的数据,根据具体的目标和需要进行清洗和选择,剔除不需要的数据;然后对数值型数据采用归一化方法进行处理,将文本数据转换为数值数据进行处理。3.根据权利要求1所述的一种基于最近邻聚类的神经网络数据挖掘方法,其特征在于:所述步骤3中,将预处理以后的数据随机地划分成三个数据集:训练数据集、测试数据集和确认数据集,所述训练数据集用以训练神经网络,所述测试数据集用以测试网络的精度,所述确认数据集用以独立地测试网络,并对步骤6产生的提取规则进行评估。4.根据权利要求1所述的一种基于最近邻聚类的神经网络数据挖掘方法,其特征在于:所述步骤4中,所述神经网络类型采用三层前馈RBF神经网络;所述算法采用改进的最近邻聚类学习算法训练该神经网络,神经网络输入、输出节点的数目由电力系统具体的决策决定,神经网络的输出由模糊推理系统推出正则化输出,隐含层节点的数目由最近邻聚类算法决定。5.根据权利要求4所述的一种基于最近邻聚类的神经网络数据挖掘方法,其特征在于:通过对聚类半径r的调整,使聚类中心个数即RBF隐层节点数达到最佳,对RBF神经网络的参数和结构两个过程同时进行在线自适应调整,具体步骤包括:Step1:设置初始聚类半径为r,将归一化的数据xk读入,作为RBF神经网络的输入,并计算xk与现有其它数据的最小欧式距离,得到最小的距离dmin,并将位置记为p;Step2:若dmin>r,则聚类数加1为m=m+1,m表示聚类数,当前样本送新的聚类中心ci,否则第p个聚类成员加1,并修正聚类相关变量;Step3:各类的输出矢量之和记为A(l),用一个计数器B(l)表示用于统计属于各类的样本个数,其中l是类别数,计算神经网络隐层到输出层权矢量Wi=A(i)/B(i);其中,i表示第i个迭代,A(i)表示第i个迭代时的各类输出矢量之和,B(i)表示第i个迭代时各类样本个数之和,W(i)表示第i个输出层权矢量;Step4:根据正则化RBF神经网络的输出得到 y ^ ( x k ) = Σ i = 1 m W ( ...

【专利技术属性】
技术研发人员:刘育权胡剑锋莫文雄潘玉春陆国俊唐晓莉王勇张高峰
申请(专利权)人:广州供电局有限公司南京南瑞继保电气有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1