一种暂态评估特征选择方法及装置制造方法及图纸

技术编号:15725272 阅读:198 留言:0更新日期:2017-06-29 13:28
本发明专利技术提供了一种暂态评估特征选择方法及装置,该法包括:构建加权随机森林模型;从计算的特征重要性中删除重要性最低的特征;对删除后保留的技术特征进行最终特征排序;根据袋外数据OOB错误率曲线变化情况,保留排名靠前的特征。本发明专利技术提供的技术方案的加权随机森林通过引入少数失稳样本数据权重因子即可有效减少不平衡数据对特征选择的影响,能选择出比普通随机森林算法性能更优的特征子集;无需人工设定阀值大小,确保了选取特征子集的合理性。

【技术实现步骤摘要】
一种暂态评估特征选择方法及装置
本专利技术属于地理系统安全稳定分析
,具体讲涉及一种暂态评估特征选择方法及装置。
技术介绍
电力系统暂态稳定评估(transientstabilityassessment,TSA)是保证电力系统安全稳定运行的重要手段之一。随着特高压交直流混联大电网格局的逐步形成,电力系统安全稳定特性与机理日趋复杂,电网的运行控制难度不断加大,对电力系统暂态稳定评估的精准提出了新的要求。近年来随着计算机技术的快速发展,基于机器学习技术的暂态稳定评估方法具有在线评估速度快、挖掘潜在信息等优势,在暂态稳定评估中具有很好的发展前景。然而,由于电力系统稳定状态样本数量巨大、特征量差别非常小,形成大量的相近特征。对于大多数机器学习预测和分类算法,如果输入特征集中包含大量与输出目标无关或关联不大的特征,会降低预测的效率和精度,且输入特征维数越高,稳定评估算法的设计和训练越困难,因此为了避免过度拟合,改进预测性能及提高效率,进行特征选择、删除不相关的冗余特征是数据处理过程中必不可少的步骤。针对电力系统暂态稳定评估的特征选择问题,已有国内外学者做了相关研究。目前已有文献利用随机森林算法对初始确定的特征量进行重要性排序计算,删除部分重要性低的特征。随机森林是(randomforest,RF)是加州伯克利分校的BreimanLeo提出的一种集成的统计学习方法,具有准确率高、不容易出现过拟合等优点,是目前最流行的机器学习算法之一。现有技术虽然可以利用随机森林对特征重要性排序但未考虑实际电力系统在线历史数据中稳定样本多而失稳样本极少的特点,并且未给出选择阀值确定的标准。因此,需要提供一种基于随机森林和递归特征消除策略相结合的组合式特征选择算法用于暂态稳定评估过程中的特征选择,克服原算法的不足。
技术实现思路
针对现有技术的不足,本专利技术提出了一种暂态评估特征选择方法及装置。一种暂态评估特征选择方法,所述方法包括:I、构建加权随机森林模型,得到特征重要性和袋外数据OOB错误率;II、从计算的特征重要性中删除重要性最低的特征;III、对删除后保留的特征进行最终特征排序;IV、根据袋外数据OOB错误率曲线变化情况,保留最终特征排序排名靠前的特征。进一步的,所述步骤II的所述特征重要性的计算包括:用Gini系数衡量分裂过程中节点n的样本不纯度;计算分裂后节点n的样本不纯度的下降量;根据样本不纯度的下降量,确定特征变量Xi的特征重要性。进一步的,所述节点n的样本不纯度i如下式所示:其中,p(j)为节点n中属于类别j的样本所占的比例。进一步的,所述节点n分裂为左子节点和右子节点,所述分裂后节点n的样本不纯度的下降量Δi如下式所示:Δi=i-(pleft·ileft+pright·iright)其中,i为节点n的样本不纯度;pleft为左子节点样本所占的比例;ileft为左子节点的样本不纯度;pright在右子节点样本所占的比例;iright为右子节点的样本不纯度。进一步的,特征变量Xi的特征重要性ΔI如下式所示:其中,Δik为第k个节点的不纯度的下降量。进一步的,所述步骤III包括:按随机森林生成决策树中用加权的线性集成方式,赋予不同类别样本数不同的权重,根据计算子节点最佳分离值和确定终节点的类标签,确定特征排序。进一步的,按下式计算未分裂的节点N的最佳分离值i(N):Δi=i(N)-i(NL)-i(NR)其中,ni为节点内i类样本的数量;Wi为第i类样本的类权重;Δi为不纯度的下降量;NL为分裂后的左子节点;NR为分裂后的右子节点。进一步的,所述终节点的类标签nodeclass如下式所示:其中,ni为节点内i类样本的数量;Wi为第i类样本的类权重。一种暂态评估特征选择装置,所述装置包括:模型建立模块,用于构建加权随机森林模型,得到特征重要性和袋外数据OOB错误率;计算模块,用于从计算的特征重要性中删除重要性最低的特征;确定模块,用于对删除后保留的特征进行最终特征排序;;执行模块,用于根据袋外数据OOB错误率曲线变化情况,保留最终特征排序排名靠前的特征。进一步的,所述计算模块,用于计算特征重要性,包括:用Gini系数衡量分裂过程中节点n的样本不纯度;计算分裂后节点n的样本不纯度的下降量;根据样本不纯度的下降量,确定特征变量Xi的特征重要性。进一步的,所述计算模块,计算的所述节点n的样本不纯度i如下式所示:其中,p(j)为节点n中属于类别j的样本所占的比例。进一步的,所述节点n分裂为左子节点和右子节点,所述计算模块,计算的所述分裂后节点n的样本不纯度的下降量Δi如下式所示:Δi=i-(pleft·ileft+pright·iright)其中,i为节点n的样本不纯度;pleft为左子节点样本所占的比例;ileft为左子节点的样本不纯度;pright在右子节点样本所占的比例;iright为右子节点的样本不纯度。进一步的,所述计算模块,计算的特征变量Xi的特征重要性ΔI如下式所示:其中,Δik为第k个节点的不纯度的下降量。进一步的,所述确定模块,具体用于按随机森林生成决策树中用加权的线性集成方式,赋予不同类别样本数不同的权重,根据计算子节点最佳分离值和确定终节点的类标签,确定特征排序。进一步的,所述确定模块,具体用于,按下式计算未分裂的节点N的最佳分离值i(N):Δi=i(N)-i(NL)-i(NR)其中,ni为节点内i类样本的数量;Wi为第i类样本的类权重;Δi为不纯度的下降量;NL为分裂后的左子节点;NR为分裂后的右子节点。进一步的,所述确定模块,确定所述终节点的类标签nodeclass如下式所示:其中,ni为节点内i类样本的数量;Wi为第i类样本的类权重。与最接近的现有技术比,本专利技术提供的技术方案具有以下有益效果:1、本专利技术提供的技术方案的加权随机森林通过引入少数失稳样本数据权重因子即可有效减少不平衡数据对特征选择的影响,能选择出比普通随机森林算法性能更优的特征子集。2、本专利技术提供的技术方案结合递归特征消除策略后能根据数据自身特点确定最终阀值的大小,无需人工设定阀值大小,确保了选取特征子集的合理性。附图说明图1为本专利技术的流程图;图2为本专利技术最佳实施例中新英格兰39节点系统示意图;图3为本专利技术最佳实施例中不同特征数对错误率的影响示意图;图4为本专利技术最佳实施例中原始特征集映射示意图;图5为本专利技术最佳实施例中WRF-RFE提取的特征子集映射示意图;图6为本专利技术最佳实施例中RF-RFE提取的特征子集映射图示意图。具体实施方式下面结合附图对本专利技术做进一步详细说明。为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。基于加权随机森林的特征排序随机森林算法不仅是一个集成分类算法,而且另外一个重要作用是在分类过程中可以度量特征重要性(VariableImportance,VI),计算特征重要性得分以实现特征选择。随机森林中计算变量重要性的方法有两种:一是基于袋外数据OOB(Out-o本文档来自技高网
...
一种暂态评估特征选择方法及装置

【技术保护点】
一种暂态评估特征选择方法,其特征在于,所述方法包括:I、构建加权随机森林模型,得到特征重要性和袋外数据OOB错误率;II、从计算的特征重要性中删除重要性最低的特征;III、对删除后保留的特征进行最终特征排序;IV、根据袋外数据OOB错误率曲线变化情况,保留最终特征排序排名靠前的特征。

【技术特征摘要】
1.一种暂态评估特征选择方法,其特征在于,所述方法包括:I、构建加权随机森林模型,得到特征重要性和袋外数据OOB错误率;II、从计算的特征重要性中删除重要性最低的特征;III、对删除后保留的特征进行最终特征排序;IV、根据袋外数据OOB错误率曲线变化情况,保留最终特征排序排名靠前的特征。2.如权利要求1所述的一种暂态评估特征选择方法,其特征在于,所述步骤II的所述特征重要性的计算包括:用Gini系数衡量分裂过程中节点n的样本不纯度;计算分裂后节点n的样本不纯度的下降量;根据样本不纯度的下降量,确定特征变量Xi的特征重要性。3.如权利要求2所述的一种暂态评估特征选择方法,其特征在于,所述节点n的样本不纯度i如下式所示:其中,p(j)为节点n中属于类别j的样本所占的比例。4.如权利要求2所述的一种暂态评估特征选择方法,其特征在于,所述节点n分裂为左子节点和右子节点,所述分裂后节点n的样本不纯度的下降量Δi如下式所示:Δi=i-(pleft·ileft+pright·iright)其中,i为节点n的样本不纯度;pleft为左子节点样本所占的比例;ileft为左子节点的样本不纯度;pright在右子节点样本所占的比例;iright为右子节点的样本不纯度。5.如权利要求2所述的一种暂态评估特征选择方法,其特征在于,特征变量Xi的特征重要性ΔI如下式所示:其中,Δik为第k个节点的不纯度的下降量。6.如权利要求1所述的一种暂态评估特征选择方法,其特征在于,所述步骤III包括:按随机森林生成决策树中用加权的线性集成方式,赋予不同类别样本数不同的权重,根据计算子节点最佳分离值和确定终节点的类标签,确定特征排序。7.如权利要求6所述的一种暂态评估特征选择方法,其特征在于,按下式计算未分裂的节点N的最佳分离值i(N):Δi=i(N)-i(NL)-i(NR)其中,ni为节点内i类样本的数量;Wi为第i类样本的类权重;Δi为不纯度的下降量;NL为分裂后的左子节点;NR为分裂后的右子节点。8.如权利要求6所述的一种暂态评估特征选择方法,其特征在于,所述终节点的类标签nodeclass如下式所示:其中,ni为节点内i类样本的数量;Wi为第i类样本的类权重。9.一种暂态评估特征选择装置,其特征在于,所述装置包括:模型建立模块,用于构建加权...

【专利技术属性】
技术研发人员:张春张军于之虹杨超平鲁广明张爽戴红阳高峰田蓓田芳马军李岩松马天东苏明昕
申请(专利权)人:中国电力科学研究院国家电网公司国网宁夏电力公司电力科学研究院国网宁夏电力公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1