一种基于梯度提升树的接触网缺陷内因分析方法及装置制造方法及图纸

技术编号:36692405 阅读:17 留言:0更新日期:2023-02-27 20:01
本发明专利技术公开了一种基于梯度提升树的接触网缺陷内因分析方法及装置,包括:获取历史的接触网缺陷详细记录数据和接触网缺陷内因因素详细数据;对接触网缺陷详细记录数据和接触网缺陷内因因素详细数据进行数据预处理,得到预处理后的建模数据;根据建模数据,构建梯度提升树模型,并进行模型训练得到训练后的综合决策预测模型;获取实时接触网测量数据,并将实时接触网测量数据输入综合决策预测模型中,利用内因因素在综合决策预测模型各个节点的基尼不纯度计算缺陷内因分析结果并输出;其中,缺陷内因分析结果包括缺陷发生概率及与缺陷相关联的内因因素。本发明专利技术使得接触网缺陷内因分析更加准确、合理且全面,同时也提高了分析效率。析效率。析效率。

【技术实现步骤摘要】
一种基于梯度提升树的接触网缺陷内因分析方法及装置


[0001]本专利技术涉及轨道交通接触网缺陷分析
,具体涉及一种基于梯度提升树的接触网缺陷内因分析方法及装置。

技术介绍

[0002]接触网是电气化铁路的基本组成部分,由于其结构复杂,零部件众多和较为频繁的弓网接触,使得接触网成为频繁发生缺陷的电气设备。接触网运营工作中,缺陷致因因素分析(简称“内因分析”)是缺陷管理及有效减少缺陷的重要组成工作。现有的缺陷内因分析工作,主要是依据缺陷记录和接触网运维人员的从业经验,通过简单粗放的数据分析来实现。运维人员结合缺陷记录数据,通过一定的猜想和试验验证来确定特定缺陷的致因因素。但是该方法有几点缺陷,第一,过度依赖运维人员的从业经验。第二,数据来源过于单一,导致缺陷分析维度不够全面,分析不准确。第三,需要通过试验反复验证,成本过高且效率低。

技术实现思路

[0003]本专利技术目的在于提供一种基于梯度提升树的接触网缺陷内因分析方法及装置,本专利技术方案以统计学中的多元回归分析为总体思路,以梯度提升决策树和梯度提升回归树为工具,通过对设计因素,制造因素,施工因素,运维因素,环境累积因素和其他因素等多维度因素分析实现对接触网缺陷的内因分析。本专利技术使得接触网缺陷内因分析更加准确、合理且全面,同时也提高了分析效率。
[0004]本专利技术通过下述技术方案实现:
[0005]第一方面,本专利技术提供了一种基于梯度提升树的接触网缺陷内因分析方法,该方法包括:
[0006]获取历史的接触网缺陷详细记录数据和接触网缺陷内因因素详细数据;
[0007]对所述接触网缺陷详细记录数据和接触网缺陷内因因素详细数据进行数据预处理,得到预处理后的建模数据;
[0008]根据所述建模数据,构建梯度提升树模型,并进行模型训练得到训练后的综合决策预测模型;
[0009]利用内因因素在所述综合决策预测模型各个节点的基尼不纯度计算与缺陷相关联的内因因素;获取实时接触网测量数据,并将所述实时接触网测量数据输入所述综合决策预测模型中,计算缺陷发生概率,并输出。
[0010]进一步地,所述接触网缺陷详细记录数据包括各类型电气缺陷或者机械缺陷的相关数据,所述相关数据包括缺陷名称、发生时间、发生地点和处理时间,所述发生地点包括支柱号和锚段号;
[0011]所述接触网缺陷内因因素详细数据包括6个维度因素数据,所述6个维度因素包括设计因素,制造因素,施工因素,运维因素、环境累积因素和其他因素;
[0012]各维度因素数据表至少包含支柱号和\或锚段号,以及该维度对应的各因素相关
值。
[0013]进一步地,所述数据预处理包括缺失值处理、“缺陷

内因”两表联合查询处理和数据平衡处理。
[0014]进一步地,所述缺失值处理是针对每个因素的数据字段进行处理。如果某因素的数据缺失量占字段数据总量的比例大于等于预设的缺失值处理阈值a,则删除该字段;如果该比例小于预设的缺失值处理阈值a,则该字段的缺失值用该字段的均值来代替;
[0015]所述“缺陷

内因”两表联合查询处理是指以支柱号和\或锚段号为关联字段,获取缺陷发生位置的内因因素数据;查询结果表至少包含支柱号和\或锚段号、缺陷名称、发现时间和各因素相关值等;
[0016]所述数据平衡处理的处理过程为:统计接触网中发生缺陷的位置数量和未发生缺陷的位置数量,计算所述发生缺陷的位置数量与未发生缺陷的位置数量的比值;当所述比值大于等于预设比值时,则发生缺陷的位置与未发生缺陷的位置的数据组合作为建模数据;当所述比值小于预设比值时,则根据未发生缺陷的位置对应数据进行混洗和随机抽样,随机抽样数量等于未发生缺陷的位置数量乘以预设比值,并将发生缺陷的位置与随机抽样提取的数据组合作为建模数据。
[0017]进一步地,所述建模数据的表结构为支柱号、锚段号、缺陷名称、发生时间、导高设计值、拉出值设计值、隧道类型和标签;其中如果接触网某位置发生缺陷,则该位置的标签值为1;如果接触网某位置未发生缺陷,则该位置的标签值为0。
[0018]进一步地,所述综合决策预测模型的表达式f(x)为:
[0019][0020]式中,x为接触网各位置的内因因素数据,f
i
(x)为第i次提升学习的预测模型输出的缺陷发生预测标签,α
i
为该预测模型的权重,k为预测模型的个数。
[0021]进一步地,所述梯度提升树模型是一种结合决策树模型和提升算法而得到的模型;所述决策树模型是指针对研究对象的类别进行预测的树状模型。模型训练过程如下:
[0022]步骤A,把所述建模数据记作内因因数数据、缺陷发生标签和阈值作为输入,输入到决策树模型中;
[0023]步骤B,根据所述内因因数数据中每个特征字段,计算决策树分叉前后的基尼不纯度系数;
[0024]步骤C,根据所述基尼不纯度系数,选择使所述基尼不纯度系数最小的内因因素字段作为该节点的切分字段;根据所述切分字段的取值或者分界值生成节点分支;
[0025]步骤D,在生成的节点分支上递归地重复步骤B和步骤C,直到所有分支的基尼不纯度系数或信息增益均方差小于阈值,结束。
[0026]进一步地,所述提升算法的执行过程如下:
[0027]输入样本数据集,初始化训练数据的初始权重;根据所述初始权重进行数据权重化,并进行第一次建模训练得到第一个预测模型;计算所述第一个预测模型的误差率和所述第一个预测模型的模型权重;
[0028]根据所述第一个预测模型的误差率和所述第一个预测模型的模型权重去更新训
练数据的权重,根据更新后训练数据的权重再次进行数据权重化,并进行第二次建模训练得到第二个预测模型;计算所述第二个预测模型的误差率和所述第二个预测模型的模型权重;
[0029]重复上述循环过程,直至计算得到第k个预测模型和第k个预测模型的模型权重;
[0030]根据以上k个预测模型及每个预测模型相应的权重,得到综合决策预测模型。
[0031]进一步地,所述缺陷发生概率指的是各内因因素对缺陷发生情况的影响程度;所述缺陷发生概率f(x)的计算公式为:
[0032][0033]式中,x为接触网各位置的内因因素数据,f
i
(x)为第i次提升学习的预测模型输出的缺陷发生预测标签,α
i
为该预测模型的权重,k为预测模型的个数;
[0034]所述与缺陷相关联的内因因素指的是将所有内因因素的重要性进行降序排列后得到的与相应缺陷相关性最高的内因因素;内因因素X在所有模型所有节点的重要性的算术平均值即为因素X与该缺陷的发生情况的关联程度,如下公式:
[0035][0036]式中,M为梯度提升树模型中的节点个数,Importance_X
m
内因因素X在第m个节点重要性。
[0037]第二方面,本专利技术又提供了一种基于梯度提升树的接触网缺陷内因本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于梯度提升树的接触网缺陷内因分析方法,其特征在于,该方法包括:获取历史的接触网缺陷详细记录数据和接触网缺陷内因因素详细数据;对所述接触网缺陷详细记录数据和接触网缺陷内因因素详细数据进行数据预处理,得到预处理后的建模数据;根据所述建模数据,构建梯度提升树模型,并进行模型训练得到训练后的综合决策预测模型;利用内因因素在所述综合决策预测模型各个节点的基尼不纯度计算与缺陷相关联的内因因素;获取实时接触网测量数据,并将所述实时接触网测量数据输入所述综合决策预测模型中,计算缺陷发生概率,并输出。2.根据权利要求1所述的一种基于梯度提升树的接触网缺陷内因分析方法,其特征在于,所述接触网缺陷详细记录数据包括各类型电气缺陷或者机械缺陷的相关数据,所述相关数据包括缺陷名称、发生时间、发生地点和处理时间,所述发生地点包括支柱号和锚段号;所述接触网缺陷内因因素详细数据包括6个维度因素数据,所述6个维度因素包括设计因素,制造因素,施工因素,运维因素、环境累积因素和其他因素;各维度因素数据表至少包含支柱号和\或锚段号,以及该维度对应的各因素相关值。3.根据权利要求1所述的一种基于梯度提升树的接触网缺陷内因分析方法,其特征在于,所述数据预处理包括缺失值处理、“缺陷

内因”两表联合查询处理和数据平衡处理。4.根据权利要求3所述的一种基于梯度提升树的接触网缺陷内因分析方法,其特征在于,所述“缺陷

内因”两表联合查询处理是指以支柱号和\或锚段号为关联字段,获取缺陷发生位置的内因因素数据;查询结果表至少包含支柱号和\或锚段号、缺陷名称、发现时间和各因素相关值;所述数据平衡处理的处理过程为:统计接触网中发生缺陷的位置数量和未发生缺陷的位置数量,计算所述发生缺陷的位置数量与未发生缺陷的位置数量的比值;当所述比值大于等于预设比值时,则发生缺陷的位置与未发生缺陷的位置的数据组合作为建模数据;当所述比值小于预设比值时,则根据未发生缺陷的位置对应数据进行混洗和随机抽样,随机抽样数量等于未发生缺陷的位置数量乘以预设比值,并将发生缺陷的位置与随机抽样提取的数据组合作为建模数据。5.根据权利要求1所述的一种基于梯度提升树的接触网缺陷内因分析方法,其特征在于,所述建模数据的表结构为支柱号、锚段号、缺陷名称、发生时间、导高设计值、拉出值设计值、隧道类型和标签。6.根据权利要求1所述的一种基于梯度提升树的接触网缺陷内因分析方法,其特征在于,所述综合决策预测模型的表达式f(x)为:式中,x为接触网各位置的内因因素数据,f
i
(x)为第i次提升学习的预测模型输出的缺陷发生预测标签,α
i
为该预测模型的权重,k为预测模型的个数。
7.根据权利要求6所述的一种基于梯度提升树的接触网缺陷内因分析方法,其特征在于,所述梯度提升树模型是一种结合决策树模型和提升算法而得到的模型;所述决策树模型的模型训练过程如下:步骤A,把所述建模数据记作内因因...

【专利技术属性】
技术研发人员:李俊兵张金鑫熊昊睿黄瀚韬涂安洪黄飞唐子钱
申请(专利权)人:成都智谷耘行信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1