一种基于机器学习的工程量指标估算方法及系统技术方案

技术编号:37998282 阅读:15 留言:0更新日期:2023-06-30 10:12
本发明专利技术涉及机器学习及工程造价技术领域,具体涉及一种基于机器学习的工程量指标估算方法及系统;包括以下步骤:从项目管理系统中,获取项目历史数据,并根据项目历史数据,构建原始数据集D0,利用混合特征选择方法,对原始数据集进行特征选择,获取最优特征子集S,基于多种机器学习算法,搭建基础回归模型,并充分融合多模型的优势,构建集成学习工程量指标估算模型;本发明专利技术混合了多种特征选择方法,提高了模型的预测效果,解决数据波动性大及单一特征选择方法对某些特征数据不敏感的问题,并集成了多种机器学习算法,提高了模型的鲁棒性和准确性。准确性。准确性。

【技术实现步骤摘要】
一种基于机器学习的工程量指标估算方法及系统


[0001]本专利技术涉及机器学习及工程造价
,具体涉及一种基于机器学习的工程量指标估算方法及系统。

技术介绍

[0002]随着房地产行业发展放缓,建筑市场的竞争也越发激烈,投标报价的时间期限也越来越短。建筑工程量指标估算可以为企业预算报价提供重要依据,其准确与否将直接影响企业的投资决策。如何快速、高效对工程量指标进行估算对建筑企业提升技术水平、核心竞争力尤为重要。
[0003]传统工程量指标预测是利用人为经验,通过项目相似度匹配进行估算,即通过寻找与待测算项目的项目概况相似的历史项目数据,对新项目的工程量指标进行估算,且预测过程中主要使用简单的统计分析方法和线性回归法,这种预测方法时效性差,效率低下,并且存在较大的误差。
[0004]随着大数据和人工智能的发展,对工程造价的预测方向由传统方法逐步向信息技术发展,国内也开始基于人工神经网络(ANN)、BP神经网络(BPNN)等方法对工程造价进行预测。
[0005]因此,针对上述研究现状,本司已申请专利CN114331221A来解决上述问题,但是其是研究建筑工程量指标的估算而非价的估算,以排除外界因素的干扰。工程量指标估算存在几大问题;1)影响工程量指标估算的特征繁多,缺乏有效分析和利用,现有研究结果大多依赖于人为经验,缺乏数据支撑;2)现有工程量预测方法大多基于简单的单一方法或模型,但工程概况与工程量指标间存在极强的非线性关系,导致现有研究方法误差大,因此,本申请拟在前期研究的基础上提出一种基于机器学习的工程量指标估算方法,混合多种特征选择,来提高模型的预测效果,解决数据波动性大及单一特征选择方法对某些特征数据不敏感的问题,并综合多种机器学习算法,提高模型的鲁棒性和准确性。

技术实现思路

[0006]本专利技术为了解决上述问题,本专利技术提供了一种基于机器学习的工程量指标估算方法及系统,混合了多种特征选择,提高了模型的预测效果,解决数据波动性大及单一特征选择方法对某些特征数据不敏感的问题,并综合多种机器学习算法,提高了模型的鲁棒性和准确性。
[0007]为实现上述目的,本专利技术提供了如下技术方案:
[0008]本专利技术的第一方面:提供了一种基于机器学习的工程量指标估算方法,包括以下步骤:
[0009](1)从项目管理系统中,获取项目历史数据,并根据项目历史数据,构建原始数据集D0;
[0010](2)利用混合特征选择方法,对原始数据集进行特征选择,获取最优特征子集S,其
具体过程如下:
[0011](201)在原始数据集的基础上,构建特征选择数据集D1,D1={(X
ij
,y
ij
)},i,j=1,2,

,n,X
ij
为单体i和单体j之间的工程概况因素差异值,y
ij
表示单体i和单体j之间的工程量指标相对误差;
[0012](202)基于PCA算法去除线性相关特征变量,得到特征子集S1;
[0013](203)计算原始特征集中每两个变量特征的最大信息系数MIC;
[0014](204)根据阈值剔除原始特征变量中的冗余特征,得到特征子集S2,具体过程如下:
[0015](2041)根据特征子集S2中的特征数和决策树的棵数构建随机森林回归模型;
[0016](2042)利用随机森林回归模型进行单特征重要性评估,其中第j个特征的重要性为:式中,e
i
为利用袋外数据对随机森林回归模型评估中第j颗决策树评估得到的误差值,e
ji
为在引入噪声干燥后,第j颗决策树的误差值;
[0017](2043)对特征重要性进行排序,确定特征筛选阈值,其中特征筛选阈值的公式为:
[0018]δ=min(M)+α,式中,M代表特征子集S2中各特征重要性集合,α代表阈值容忍度;
[0019](205)利用随机森林算法计算特征子集S2中各特征的重要性;
[0020](206)根据阈值实现进一步的筛选特征,得到最优特征子集S;
[0021](3)基于多种机器学习算法,搭建基础回归模型,并充分融合多模型的优势,构建集成学习工程量指标估算模型;
[0022]其中,构建集成学习工程量指标估算模型的过程如下:
[0023](301)基于步骤(2)获取的最优特征子集S,构建机器学习数据集,并将数据集划分为训练集和测试集;
[0024](302)搭建第一层的机器学习模型,第一层机器学习模型包括BPNN模型、RFR模型、PSO

GRNN模型三个并列的基学习器;
[0025](303)采用4折交叉验证分别训练4个基学习器,并将4个基学习器的预测值纵向叠加得到新的特征,生成的新的训练集和测试集;
[0026](304)基于Ridge回归方法构建第二层机器学习模型,利用新的训练集对第二层元回归器模型进行训练,输出最终预测结果。
[0027]本专利技术进一步的设置为:在步骤(201)中,
[0028]式中,ρ表示工程量指标波动阈值。
[0029]本专利技术的第二方面:还提供了一种基于机器学习的工程量指标估算系统,包括最优特征子集获取单元和工程量指标估算单元,其中:
[0030]所述最优特征子集获取单元用于和项目管理系统对接,并获取最优特征子集数据;
[0031]所述工程量指标估算单元用于将最优特征子集作为输入,利用构建的工程量指标
估算模型,计算得到对用的工程量指标,所述工程量指标估算单元的输入端与最优特征子集获取单元的输出端连接。
[0032]有益效果
[0033]采用本专利技术提供的技术方案,与已知的公有技术相比,具有如下
[0034]有益效果:
[0035](1)本专利技术基于工程项目指标数据的特殊性提出了混合多种特征选择方法,有效提高了模型的预测效果,解决了数据波动性大及单一特征选择方法对某些特征数据不敏感的问题。
[0036](2)本专利技术提出的集成学习工程量指标估算方法及系统,综合多种机器学习算法,并利用两层算法模型进行综合分析及预测,提高了模型的鲁棒性和准确性,经验证,工程量指标预测误差在5%以内,能够为工程前期项目造价估算提供准确有效的数据支撑。
附图说明
[0037]图1为本专利技术一种基于机器学习的工程量指标估算方法的流程图;
[0038]图2为本专利技术中混合特征选择的流程图;
[0039]图3为本专利技术中集成学习工程量指标估算模型的架构图;
[0040]图4为本专利技术中BPNN基学习器模型架构图;
[0041]图5为本专利技术中PSO

GRNN基学习器模型的流程图;
[0042]图6为本专利技术一种基于机器学习的工程量指标估算系统的系统图;
[0043]图7为本专利技术中特征选择方法的对比表;
[0044]图8为本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的工程量指标估算方法,其特征在于,包括以下步骤:(1)从项目管理系统中,获取项目历史数据,并根据项目历史数据,构建原始数据集 D0;(2)利用混合特征选择方法,对原始数据集进行特征选择,获取最优特征子集 S,其具体过程如下:(201)在原始数据集的基础上,构建特征选择数据集D1,D1={(X
ij
,y
ij
)},i,j=1,2,

,n,X
ij
为单体i和单体j之间的工程概况因素差异值,y
ij
表示单体i和单体j之间的工程量指标相对误差;(202)基于PCA算法去除线性相关特征变量,得到特征子集 S1;(203)计算原始特征集中每两个变量特征的最大信息系数 MIC;(204)根据阈值剔除原始特征变量中的冗余特征,得到特征子集 S2,具体过程如下:(2041)根据特征子集 S2中的特征数和决策树的棵数构建随机森林回归模型;(2042)利用随机森林回归模型进行单特征重要性评估,其中第 j个特征的重要性为: ,式中, e
i
为利用袋外数据对随机森林回归模型评估中第 j颗决策树评估得到的误差值, e
ji
为在引入噪声干扰后,第 j颗决策树的误差值;(2043)对特征重要性进行排序,确定特征筛选阈值,其中特征筛选阈值的公式为: δ=min(M)+α,式中, M代表特征子集 S2中各特征重要性集合, α代表阈值容忍度;(2...

【专利技术属性】
技术研发人员:刘静刘在田
申请(专利权)人:中核华纬工程设计研究有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1