基于深度学习的工程造价自动抽取和分析方法及装置制造方法及图纸

技术编号:32649893 阅读:56 留言:0更新日期:2022-03-12 18:39
本发明专利技术公开了一种基于深度学习的工程造价自动抽取和分析方法。该方法如下:导入工程量清单及市场工程造价信息,使用自然语言处理技术中的分词拆分方法进行分词拆分,建立知识图谱及结构化数据库,建立深度学习模型,自动识别造价信息,并依据知识图谱对应关系,将单价信息输入结构化数据库;导入待测造价的工程量清单,使用深度学习模型,依据项目名称、描述特征和造价标准的对应关系自动读取结构化数据库和输出其造价。建立造价指标数据库,与已有数据比对分析输出造价的准确率。本发明专利技术实现小样本深度学习下的工程造价信息自动抽取及工程造价自动生成和分析,提高工程造价信息数据库建立以及工程造价预测、计划、控制、核算的工作效率。工作效率。工作效率。

【技术实现步骤摘要】
基于深度学习的工程造价自动抽取和分析方法及装置


[0001]本专利技术涉及建设工程造价、工程成本、小样本深度学习与自然语言处理
,具体公开一种基于深度学习的工程造价自动抽取和分析方法、装置、计算机设备及存储介质,涉及一种计算机程序、一种计算机设备、一种计算机可读存储介质、一种云服务设备、一种云服务可读存储介质、一种云服务系统。

技术介绍

[0002]大数据时代对建筑行业造价信息的时效性、准确性更高要求,人工整理工程造价信息的效率以及基于造价信息对工程项目的成本的预测、计划、控制、核算效率,已无法满足当下建筑行业产业化的发展要求。
[0003]由于不同造价人员编制工程量清单方法不同,以及市场上对于人工、材料、机械等采购清单表述的方法不同,工程量清单与市场采购清单表述也不同,缺乏规范的、统一的、可对应的表述标准。因此极度依赖造价人员用人工方式对市场上工程造价信息的采集及整理、工程量清单与市场采购清单差异的理解,及基于所采集到的造价信息进行二次加工。基于工程量清单对工程项目成本进行预测、计划、控制、核算,目前这些工作都由造价人员人工完成,对造价人员本身的经验知识、准确率要求高,并且需要耗费大量时间。而使用深度学习与自然语言处理技术建立模型,并实现造价信息的自动抽取与工程成本自动生成及分析,可以减少人工判断,统一造价标准、使准确率达到满足要求,通过机器进行海量的训练集训练,极大减少人工对训练集进行处理的时间和成本,通过人工智能手段,有利于提高工程造价行业水平以及施工现场造价核算工作的效率和准确性。
专利
技术实现思路

[0004]本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种基于小样本深度学习与自然语言处理技术下的工程造价信息自动抽取及工程成本自动生成和分析方法、装置、计算机设备、存储介质及云服务器系统。
[0005]本专利技术的第一个目的在于提供一种基于小样本深度学习与自然语言处理技术下的工程造价信息自动抽取及工程成本自动生成和分析方法。
[0006]本专利技术的第二个目的在于提供一种基于小样本深度学习与自然语言处理技术下的工程造价信息自动抽取及工程成本自动生成和分析装置。
[0007]本专利技术的第三个目的在于提供一种计算机设备。
[0008]本专利技术的第四个目的在于提供一种存储介质。
[0009]本专利技术的第五个目的在于提供一种云服务器系统。
[0010]本专利技术的第一个目的可以通过采取如下技术方案达到:一种基于小样本深度学习与自然语言处理技术下的工程造价信息自动抽取及工程成本自动生成和分析方法,该方法包括工程造价信息自动识别及抽取步骤以及工程造价自动生成和分析步骤,其中,
所述工程造价信息自动识别及抽取步骤过程如下:S101、导入不同建设工程类型工程量清单信息,将工程量清单的内容按:分部工程、项目名称、项目特征描述、计量单位中的两种或多种组合划分为多个部分;S102、导入市场工程造价信息;S103、将工程量清单信息、市场工程造价信息使用自然语言处理技术中的分词拆分方法进行工程描述特征分词拆分,输出分词及分词对应的词性、分词对应的出现频率;S104、对于分词拆分,若出现输出的分词与内容表述原意有偏差的情况,按照正确的分词拆分;S105、对于拆分后的工程量清单信息与市场工程造价信息,对分词内容、词性、描述特征、出现频率,建立知识图谱对应关系,并根据知识图谱建立对应关系结构化数据库;S106、将输出的分词按照事先指定的顺序排列,然后将分词内容、以及分词出现的频率、分词的词性,按照不同对应关系,建立标签并建立数据矩阵;S107、将上述数据矩阵作为训练集,选择深度学习算法,建立并训练小样本深度学习模型,通过小样本深度学习模型自动识别造价信息,并抽取造价信息并输入结构化数据库;所述工程造价自动生成和分析步骤过程如下:S201、导入待测算成本的工程量清单,按照不同建设工程类型深度学习模型,依据知识图谱对应关系,自动读取结构化数据库,识别每一项工程量清单的造价内容,实现小样本学习,自动输出各项造价内容的单价;S202、根据各类造价内容的单价计算得出综合单价、合价,最后根据各项工程量清单的合价汇总得出总价;S203、根据工程量清单的总价,计算工程量清单的关键造价指标,并储存进指标数据库;S204、根据工程量清单的各个关键造价指标,与指标数据库的历史数据进行比对,自动计算并输出偏离度,以此分析造价的合理性。
[0011]进一步地,所述小样本深度学习模型的工作过程如下:S301、导入工程量清单,执行步骤S101、S102、S103,将工程量清单分进行分词拆分,输出分词及分词对应的词性、分词对应的出现频率;S302、根据输出的分词及分词对应的词性、分词对应的出现频率,使用知识图谱对应关系、知识图谱与对应关系结构化数据库的关系、以及预先设定深度学习算法的数据的分布式特征表示,使用深度学习算法,输入所述数据矩阵,得到标签的分类方法;S303、导入工程量清单信息、市场工程造价信息后,使用分类方法输出标签,根据输出的标签找到工程量清单信息、市场工程造价信息与对应关系结构化数据库的关系;S304、按照工程量清单信息、市场工程造价信息与对应关系结构化数据库的关系,将工程量清单信息、市场工程造价信息,按照标签分别储存进数据库;S305、输出不带造价信息的工程量清单后,按照标签,读取数据库,输出工程量清单中各项清单的单价,然后按照单价计算得出综合单价、合价;S306、按照计算得出工程量清单中各项清单的综合单价、合价,分别除以工程量清单的总价所得百分比的计算得到占比,其中占工程量清单的总价的比例在5%以上的清单作
为工程量清单关键指标,并分别储存进数据库;S307、导入新的工程量清单,重复步骤S301至S306,计算得出工程量清单关键造价指标,与数据库中同一关键造价指标进行相减,然后相减的差值除以指标数据库中同一关键造价指标所得百分比为偏离度。
[0012]进一步地,所述分词拆分的操作包括:段落切分、句子切分、词语切分;段落切分是以文本换行符作为分割符号,将文本内容划分为两个或以上段落;句子切分是以标点符号作为分割符号,将段落内容划分为两个或以上句子;词语切分是使用分词器将句子内容划分为两个或以上词语;所述分词器是将一个汉字序列进行切分,与事先设定的分词库进行匹配比对,按照最符合原文含义的方法,得到一个个单独的词语;所述分词库是指两个以上的词语以及词语对应的词性组合形成的数据库。
[0013]目前国内工程造价计价规范以工程量清单作为计价依据,而各造价从业人员编制工程量清单各不一致,工程量清单文本的读取及分析所包含的造价内容,占用造价人员编制工程项目造价的大部分时间;通过文本切割技术,可以快速提取工程量清单有效内容,从而可以实现识别当中包含的造价信息。使用现有文本分割技术,可将工程量清单拆分成一个个分词,通过建立分词库储存已拆分分词,并根据分词与工程量清单包含的造价内容的关联关系高低,设置分词的权重,使得拆分后的分词含义与其包含造价内容的关联关系,在使用过程中越来越高。通过本专利技术提出的分词拆分方案本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习与自然语言处理技术的工程造价信息自动抽取及工程成本自动生成和分析方法,其特征在于,该方法包括工程造价信息自动识别及抽取步骤以及工程造价自动生成和分析步骤,其中,所述工程造价信息自动识别及抽取步骤过程如下:S101、导入不同建设工程类型工程量清单信息,将工程量清单的内容按:分部工程、项目名称、项目特征描述、计量单位中的两种或多种组合划分为多个部分;S102、导入市场工程造价信息;S103、将工程量清单信息、市场工程造价信息使用自然语言处理技术中的分词拆分方法进行工程描述特征分词拆分,输出分词及分词对应的词性、分词对应的出现频率;S104、对于分词拆分,若出现输出的分词与内容表述原意有偏差的情况,按照正确的分词拆分;S105、对于拆分后的工程量清单信息与市场工程造价信息,对分词内容、词性、描述特征、出现频率,建立知识图谱对应关系,并根据知识图谱建立对应关系结构化数据库;S106、将输出的分词按照事先指定的顺序排列,然后将分词内容、以及分词出现的频率、分词的词性,按照不同对应关系,建立标签并建立数据矩阵;S107、将上述数据矩阵作为训练集,选择深度学习算法,建立并训练小样本深度学习模型,通过小样本深度学习模型自动识别造价信息,并抽取造价信息并输入结构化数据库;所述工程造价自动生成和分析步骤过程如下:S201、导入待测算成本的工程量清单,按照不同建设工程类型深度学习模型,依据知识图谱对应关系,自动读取结构化数据库,识别每一项工程量清单的造价内容,实现小样本学习,自动输出各项造价内容的单价;S202、根据各类造价内容的单价计算得出综合单价、合价,最后根据各项工程量清单的合价汇总得出总价;S203、根据工程量清单的总价,计算工程量清单的关键造价指标,并储存进指标数据库;S204、根据工程量清单的各个关键造价指标,与指标数据库的历史数据进行比对,自动计算并输出偏离度,以此分析造价的合理性。2.根据权利要求1所述的工程造价信息自动抽取及工程成本自动生成和分析方法,其特征在于,所述小样本深度学习模型的工作过程如下:S301、导入工程量清单,执行步骤S101、S102、S103,将工程量清单进行描述特征分词拆分,输出分词及分词对应的词性、分词对应的出现频率;S302、根据输出的分词及分词对应的词性、分词对应的出现频率,使用知识图谱对应关系、知识图谱与对应关系结构化数据库的关系、以及预先设定深度学习算法的数据的分布式特征表示,使用深度学习算法,输入所述数据矩阵,得到标签的分类方法;S303、导入工程量清单信息、市场工程造价信息后,使用分类方法输出标签,根据输出的标签找到工程量清单信息、市场工程造价信息与对应关系结构化数据库的关系;S304、按照对应关系结构化数据库的关系,将工程量清单信息、市场工程造价信息,按照标签分别储存进数据库;S305、输出不带造价信息的工程量清单后,按照标签,读取数据库,输出工程量清单中
各项清单的单价,然后按照单价计算得出综合单价、合价;S306、按照计算得出工程量清单中各项清单的综合单价、合价,分别除以工程量清单的总价所得百分比的计算得到占比,其中占工程量清单的总价的比例在5%以上的清单作为工程量清单关键指标,并分别储存进数据库;S307、导入新的工程量清单,重复步骤S301至S306,计算得出工程量清单关键造价指标,与数据库中同一关键造价指标进行相减,然后相减的差值除以指标数据库中同一关键造价指标所得百分比为偏离度。3.根据权利要求1所述的工程造价信息自动抽取及工程成本自动生成和分析方法,其特征在于,所述分词拆分的操作包括:段落切分、句子切分、词语切分;段落切分是以文本换行符作为分割符号,将文本内容划分为两个或以上段落;句子切分是以标点符号作为分割符号,将段落内容划分为两个或以上句子;词语切分是使用分词器将句子内容划分为两个或以上词语;所述分词器是将一个汉字序列进行切分,与事先设定的分词库进行匹配比对,按照最符合原文含义的方法,得到一个个单独的词语;所述分词库是指两个以上的词语以及词语对应的词性组合形成的数据库。4.根据权利要求1所述的工程造价信息自动抽取及工程成本自动生成和分析方法,其特征在于,所述知识图谱对应关系是指按照步骤S103中的输出分词的内容、词性、出现频率与工程量清单信息、市场工程造价信息建立对应关系;当词性为名词的分词,包括“钢筋”、“混凝土”、“模板”,按照分词出现的频率,建立工程量清单信息、市场工程造价信息中对应包含的材料及材料费用;当词性为动词的分词,包括“绑扎”、“浇筑”、“搭设”,按照分词出现的频率,建立工程量清单信息、市场工程造价信息中对应包含的施工工序及人工费用、机械费用;当词性为动词、动词之外的分词,建立工程量清单信息、市场工程造价信息中对应材料费、人工费、机械费的规格型号、品牌及影响价格的关系;所述对应关系结构化数据库按照知识图谱对应关系中的人工费、材料费、机械费,以及规格型号、品牌及影响价格的关系,建立不同类型的价格数据库,储存价格信息;按照知识图谱对应关系,通过按照...

【专利技术属性】
技术研发人员:叶杰舜黄文炜
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1