当前位置: 首页 > 专利查询>河海大学专利>正文

基于lasso及随机森林的高拱坝谷幅变形分析方法技术

技术编号:24499786 阅读:71 留言:0更新日期:2020-06-13 04:34
本发明专利技术公开了一种基于lasso及随机森林的高拱坝谷幅变形分析方法,包括:获取坝区现场的相关监测数据,建立数据分析体系;对监测数据进行预处理;对预处理后的监测数据中的影响因素进行二次处理,根据影响因素的潜在影响方式构建高维影响因子组;根据影响因子建立lasso分析模型并进行特征筛选,确定重要影响因子;将重要影响因子作为对应影响因素的代表影响因子,构建影响因素数据体系,用随机森林算法和基尼系数对影响因素的重要程度进行排序,用来综合评价各影响因素对谷幅变形的影响。本发明专利技术定量地选取具有代表性的影响因子代表部分影响因素,并比较各影响因子对谷幅变形的重要程度,为坝区工程安全稳定性监管提供依据。

Analysis method of Valley deformation of high arch dam based on lasso and random forest

【技术实现步骤摘要】
基于lasso及随机森林的高拱坝谷幅变形分析方法
本专利技术涉及高拱坝谷幅变形分析方法,具体涉及一种基于lasso及随机森林的高拱坝谷幅变形分析方法。
技术介绍
谷幅是指同一高程河谷两岸的相对距离,是监测山体变形的重要指标。峡谷区高拱坝出现谷幅变形可能诱发严重自然灾害,许多已建的高拱坝工程监测资料都表明坝区出现了明显的谷幅变形,谷幅变形控制对大坝坝区安全有着重要的指导意义。目前对谷幅变形的研究主要集中在其对坝体应力状态及变形机制方面,对谷幅变形影响因素的分析研究很少。部分研究从定性的角度入手,其中部分研究表明其中库水位、降雨量、气温等影响因素对谷幅变形有潜在的影响,但并未考虑这些谷幅变形的潜在影响因素的作用形式具有多样性,未涉及如何定量地选取具有代表性的影响因子,并比较各影响因子对谷幅变形的重要程度,不利于对谷幅变形机理的理解,因而对谷幅变形机理及坝区工程安全稳定性监管的指导作用仍待改善。
技术实现思路
专利技术目的:本专利技术的目的在于提供一种基于lasso及随机森林的高拱坝谷幅变形分析方法,以解决如何考虑谷幅变形的潜在影响因素以及如何根据各个影响因素的重要程度来对谷幅变形进行分析管控。技术方案:本专利技术提供了一种基于lasso及随机森林的高拱坝谷幅变形分析方法,包括以下步骤:(1)获取坝区现场的相关监测数据,建立数据分析体系,数据分析体系以谷幅影响因素值为自变量,以谷幅变形值为因变量;(2)对监测数据进行预处理,剔除其中的异常值和缺失值;(3)对预处理后的监测数据中的影响因素进行二次处理,确定影响因素的潜在影响方式,据此构建影响因素的相关影响因子,并确定高维影响因子组;(4)根据高维影响因子组中的影响因子建立lasso分析模型并进行特征筛选,确定出一个或多个重要影响因子;(5)将重要影响因子作为对应影响因素的代表影响因子,构建影响因素数据体系,用随机森林算法进行分析,划分训练集及预测集,以预测准确率作为检验标准,通过基尼系数对谷幅变形影响因素的重要程度进行排序;(6)根据影响因素的重要程度排序来综合评价各影响因素对谷幅变形的影响。进一步地,步骤(1)中,相关监测数据包括库水位升降速率、库水位高程、各测线谷幅变形累计值、坝区气温及坝区降雨量;其中,库水位升降速率、库水位高程、各测线谷幅变形累计值同步监测,坝区气温及降雨量数据选用国家气象数据中心气象数据集,以空间插值理论为基础,按监测点位置信息批量提取以获得降雨量及气温数据。进一步地,数据分析体系的自变量包括库水位升降速率、库水位高程、坝区气温及降雨量,因变量为各测线谷幅变形累计值。进一步地,步骤(3)包括:根据预处理后的降雨量和气温数据,统计前n天累计降雨量、前n天降雨量最大差值、前n天累计气温值、前n天气温值最大差值,确定l*m的高位影响因子组;其中n为统计的天数,l为潜在影响因子总数,m为影响因子数据集的数据组数。进一步地,步骤(4)包括:将高维影响因子组中的影响因子作为模型因子,建立lasso分析模型;对模型因子进行标准化处理,得到标准化影响因子,消除量纲的影响;通过最速下降算法进行特征筛选:将标准化影响因子带入模型计算,获得影响因子系数稀疏矩阵,并结合交叉验证法,多次计算,以模型方差为度量标准,选出误差最小的模型对应的模型系数,确定最优稀疏矩阵。进一步地,步骤(4)还包括:通过对多条测线变形全时段及具有明显相同变形特征的变形时段分别进行计算,根据计算结果,结合稀疏矩阵中影响因子出现的频次确定重要影响因子。进一步地,步骤(5)包括:将重要影响因子作为对应影响因素的代表影响因子,结合库水位高程、库水位变化速率构建影响因素数据体系;用随机森林算法进行分析,并将谷幅变形量按单位时间变形量大小将变形情况分类,进行划分训练集及预测集,将代表影响因子作为自变量,单位时间谷幅变形量类别作为分类变量,选取模型参数,计算模型预测准确率;利用交叉验证法根据预测准确率选取最优模型,并计算最优模型下各影响因素的基尼系数,对谷幅变形影响因素的重要程度进行排序。进一步地,步骤(2)中的异常值包括离群点及高杠杆点。若当日缺少步骤(1)所述的影响因素及自变量值的任意值,则认为当日数据有缺失值,剔除改日数据。有益效果:与现有技术相比,本专利技术公开的高拱坝谷幅变形分析方法,结合气象数据对高拱坝谷幅变形相关影响因素数据预处理方法,扩大了监测数据获取范围,并编写批处理程序以便高效便捷地获得可靠的坝区气象数据;同时,从定量分析的角度,考虑了谷幅变形的潜在影响因素的作用形式的多样性及多种工况,建立lasso分析模型结合系数稀疏矩阵实现影响因素特征筛选,最终选取具有代表性的影响因子;构建重要影响因素数据体系,并用随机森林算法进行分析,通过基尼系数确定各影响因素对谷幅变形的重要程度。为实现峡谷区高拱坝谷幅变形管控提供依据,具有较高可信度。附图说明图1为本专利技术基于lasso及随机森林的高拱坝谷幅变形分析方法的流程图;图2为本专利技术批量处理气象数据的插值分析示意图。具体实施方式下面结合附图和实施例对本专利技术做进一步描述:本专利技术提供了一种基于lasso及随机森林的高拱坝谷幅变形分析方法,如图1所示,包括以下步骤:S101:获取坝区现场的相关监测数据,建立数据分析体系,数据分析体系以谷幅影响因素值为自变量,以谷幅变形值为因变量。相关监测数据包括库水位升降速率、库水位高程、各测线谷幅变形累计值、坝区气温及坝区降雨量。本实施例中,包括库水位升降速率、库水位高程、各测线谷幅变形累计值,所有监测数据均是同步监测;作为自变量的影响因素值包括库水位升降速率、库水位高程、坝区气温及降雨量等,作为因变量的变形值为各测线谷幅变形累计值。影响因素中的坝区气温及降雨量数据在监测数据中缺失,选用国家气象数据中心地面气象0.5°×0.5°格点数据集,以空间插值理论为基础,按监测点位置信息批量提取以获得降雨量及气温数据,具体表现为:1.假设用zab表示数据集第a行b列数据,则此数据表示经纬度为(72.25+(b-1)*0.5,53.75-(a-7)*0.5)的气象目标值,进一步,对于坝区地点位置经纬度为(x,y),假设该点地点位置位于如图2所示位置,则点1处的气象目标值为点2处的气象目标值为坝区的气象目标值为z=z'+[x-53.75+0.5*(a-7)]*(z'-z”);2.为高效处理气象数据,编写批量处理程序,先分别提取所在地经纬度邻近的四个数据点的气象数据,再计算目标按上述方法计算地点气象数据。可建立如表1所示分析数据体系:表1大坝坝区气象数据表日期a1b1处数据a2b2处数据a3b3处数据a4b4处数据坝区数据yy/mm/ddp11p12p13p14p1…………<本文档来自技高网...

【技术保护点】
1.一种基于lasso及随机森林的高拱坝谷幅变形分析方法,其特征在于,包括以下步骤:/n(1)获取坝区现场的相关监测数据,建立数据分析体系,所述数据分析体系以谷幅影响因素值为自变量,以谷幅变形值为因变量;/n(2)对所述监测数据进行预处理,剔除其中的异常值和缺失值;/n(3)对预处理后的监测数据中的影响因素进行二次处理,确定影响因素的潜在影响方式,据此构建影响因素的相关影响因子,并确定高维影响因子组;/n(4)根据所述高维影响因子组中的影响因子建立lasso分析模型并进行特征筛选,确定出一个或多个重要影响因子;/n(5)将所述重要影响因子作为对应影响因素的代表影响因子,构建影响因素数据体系,用随机森林算法进行分析,划分训练集及预测集,以预测准确率作为检验标准,通过基尼系数对谷幅变形影响因素的重要程度进行排序;/n(6)根据影响因素的重要程度排序来综合评价各影响因素对谷幅变形的影响。/n

【技术特征摘要】
1.一种基于lasso及随机森林的高拱坝谷幅变形分析方法,其特征在于,包括以下步骤:
(1)获取坝区现场的相关监测数据,建立数据分析体系,所述数据分析体系以谷幅影响因素值为自变量,以谷幅变形值为因变量;
(2)对所述监测数据进行预处理,剔除其中的异常值和缺失值;
(3)对预处理后的监测数据中的影响因素进行二次处理,确定影响因素的潜在影响方式,据此构建影响因素的相关影响因子,并确定高维影响因子组;
(4)根据所述高维影响因子组中的影响因子建立lasso分析模型并进行特征筛选,确定出一个或多个重要影响因子;
(5)将所述重要影响因子作为对应影响因素的代表影响因子,构建影响因素数据体系,用随机森林算法进行分析,划分训练集及预测集,以预测准确率作为检验标准,通过基尼系数对谷幅变形影响因素的重要程度进行排序;
(6)根据影响因素的重要程度排序来综合评价各影响因素对谷幅变形的影响。


2.根据权利要求1所述的方法,其特征在于,步骤(1)中,所述相关监测数据包括库水位升降速率、库水位高程、各测线谷幅变形累计值、坝区气温及坝区降雨量;其中,库水位升降速率、库水位高程、各测线谷幅变形累计值同步监测,坝区气温及降雨量数据选用国家气象数据中心气象数据集,以空间插值理论为基础,按监测点位置信息批量提取以获得降雨量及气温数据。


3.根据权利要求2所述的方法,其特征在于,所述数据分析体系的自变量包括库水位升降速率、库水位高程、坝区气温及降雨量,所述因变量为各测线谷幅变形累计值。


4.根据权利要求3所述的方法,其特征在于,步骤(3)包括:根据预处理后的降雨量和气温数...

【专利技术属性】
技术研发人员:徐卫亚史宏娟孟庆祥杨兰兰闫龙
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1