System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于流标签特征选择的风电数据降维方法技术_技高网

基于流标签特征选择的风电数据降维方法技术

技术编号:40789444 阅读:8 留言:0更新日期:2024-03-28 19:19
本发明专利技术公开了一种基于流标签特征选择的风电数据降维方法,首先获取风电数据特征集合;对于新到达的流标签,将分类信息量最大的候选特征计入到流标签的特征集合中;然后,对已选特征进行分类,计算平均最大补充信息和平均最小冗余信息;利用特征评估准则计算剩余各个候选特征的重要性得分,将重要性得分最大的候选特征加入到流标签的特征集合中;最后,为流标签的特征集合中的已选特征赋予权重,并将权重映射到风电数据特征集合中,得到流标签对应的特征权重集合;每得到一个流标签对应的特征权重集合,则将该流标签对应的特征权重集合与之前得到的流标签对应的特征权重集合相同位置上的权重进行累加,进而得到各个候选特征的权重,选取权重较大的多个候选特征作为最终选择的特征,用于后续的分类任务。该方法的特征选择更加精细和全面,提高了特征选择的精度。

【技术实现步骤摘要】

本专利技术属于风电数据挖掘,具体涉及一种基于流标签特征选择的风电数据降维方法


技术介绍

1、风电数据包含的参数多种多样,例如风速、风向、温度、湿度、机械振动、风机状态和电网数据等,高维数据和不相关特征会增加计算复杂性,同时大致模型性能下降。特征选择是指从众多的特征中选择相关性大的特征,去除冗余及不相关特征,提取与当前任务相关的重要信息,从而减少数据维度,在风电领域扮演着关键角色,是提高风力发电系统效率和可靠性的必要步骤。

2、在风电领域中,数据采集是一个不断演化的过程,并且标签信息并不总是提前给定,相反标签信息随着数据的不断积累和采集逐渐出现,这就要求需要采用更灵活的方式来处理数据,从采集的风电数据中获取与标签信息更相关的特征。传统的特征选择方法通常依赖于已经存在的、预先定义好的标签信息。然而,在风电领域,数据可能会包含新的、以前未见过的情境或事件,这些情境需要随着时间的推移得到标识。基于流标签的特征选择方法允许动态地为数据中的不同情境或事件赋予标签,而不受预先定义的标签约束,这种灵活性意味着这种方法可以更好地适应风电场数据的多样性和复杂性,识别不同事件或行为的特征。因此,基于流标签的特征选择方法更加适用于风电数据降维处理,有助于实时数据分析,提高风电场的效率和可靠性。

3、对于现有的流标签特征选择方法,在评估候选特征的冗余性时,通常会将所有已选特征都视为冗余特征,而这种方式可能会导致丧失一些已选特征对候选特征提供的补充信息,降低了特征选择的精细度和全面性,从而降低了后续分类任务的预测精度。

r/>

技术实现思路

1、针对现有方法的不足,本专利技术拟解决的技术问题是,提供一种基于流标签特征选择的风电数据降维方法。

2、本专利技术解决所述技术问题采用如下的技术方案:

3、一种基于流标签特征选择的风电数据降维方法,其特征在于,该方法包括以下步骤:

4、步骤1:采集风电数据,得到风电数据特征集合;

5、步骤2:对于每次新到达的流标签,首先初始化该流标签的特征集合;然后,根据式(1)计算风电数据特征集合中各个候选特征为流标签提供的分类信息量,将分类信息量最大的候选特征加入到流标签的特征集合中;

6、ci(fk,lt)=i(fk;lt)        (1)

7、式中,ci(fk,lt)表示候选特征fk为流标签lt提供的分类信息量,i(fk;lt)表示候选特征fk与流标签lt之间的互信息;

8、步骤3:对流标签的特征集合中的已选特征进行分类,根据分类结果计算平均最大补充信息和平均最小冗余信息;

9、步骤3.1:通过式(3)计算风电数据特征集合中剩余各个候选特征与已选特征和流标签之间的三元互信息,根据三元互信息对流标签的特征集合中的所有已选特征进行分类,得到与候选特征为冗余关系的已选特征以及与候选特征为补充关系的已选特征,并得到集合s1和s2;

10、i(fk;fi;lt)=i(fk;lt)-i(fk;lt|fi)     (3)

11、

12、其中,i(fk;fi;lt)表示候选特征fk、已选特征fi以及流标签lt之间的三元互信息,i(fk;lt|fi)为条件互信息,s1为所有与候选特征为冗余关系的已选特征组成的集合,s2为所有与候选特征为补充关系的已选特征组成的集合,st为流标签lt的特征集合;

13、步骤3.2:根据式(5)计算平均最小冗余信息mr(fk,lt);

14、

15、其中,为集合s1的特征数量;

16、步骤3.3:根据式(6)计算平均最大补充信息ms(fk,lt);

17、

18、其中,为集合s2的特征数量;

19、步骤4:根据候选特征为流标签提供的分类信息量、平均最大补充信息和平均最小冗余信息,利用式(7)计算风电数据特征集合中剩余各个候选特征的重要性得分;

20、

21、式中,j(fk)表示候选特征fk的重要性得分;

22、将重要性得分最大的候选特征加入到流标签的特征集合中;若流标签的特征集合中的特征数量小于k,则重复步骤3和4;若流标签的特征集合中的特征数量达到k,则进入步骤5;

23、步骤5:对于流标签的特征集合中的所有已选特征,根据加入的先后顺序从左至右依次排列,根据位置赋予已选特征权重,位置越靠前权重越大,位置越靠后权重越小;将流标签的特征集合中各个已选特征的权重映射到风电数据特征集合中,得到流标签对应的特征权重集合;

24、步骤6:对于每次新到达的流标签,重复步骤2-5,每得到一个流标签对应的特征权重集合,则将该流标签对应的特征权重集合与之前得到的流标签对应的特征权重集合相同位置上的权重进行累加,进而得到风电数据特征集合从风电数据特征集合中选取权重较大的k个候选特征作为最终的被选择特征,完成风电数据降维。若没有新标签到达,则停止;最后,

25、与现有技术相比,本专利技术的有益效果在于:

26、(1)将三元互信息作为衡量标准,根据已选特征对候选特征起到的作用不同,将已选特征分为与候选特征为冗余关系和补充关系的两个类别,通过这种分类能够更精确地捕捉已选特征和候选特征之间的关系,避免简单地将所有已选特征全部视为冗余,提高了特征选择的精度。

27、(2)根据已选特征的分类结果计算平均最大补充信息和平均最小冗余信息,用于衡量补充信息和冗余信息的贡献,确保对每个已选特征的不同作用都有针对性地考虑,并利用最大补充最小冗余策略提出新的特征评估准则,通过这种方式能够更准确地评估候选特征的重要性,充分利用已选特征提供的信息,同时避免对冗余信息的过度惩罚,这使得特征选择过程更为精细和全面,提高了该方法在风电数据降维中的性能。

28、(3)对于流标签的特征集合,考虑不同特征的权重,根据特征权重将流标签的特征集合映射到风电数据特征集合上,再从风电数据特征集合中选取相关性大的特征,并将选取的特征应用到分类任务中,提高了分类性能,节约运行成本。

本文档来自技高网...

【技术保护点】

1.一种基于流标签特征选择的风电数据降维方法,其特征在于,该方法包括以下步骤:

【技术特征摘要】

1.一种基于流标签特征选择的风电数据降维...

【专利技术属性】
技术研发人员:张平王光磊孔令姝
申请(专利权)人:河北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1