配电网工程技术经济信息划分方法技术

技术编号:31166706 阅读:22 留言:0更新日期:2021-12-04 11:47
配电网工程技术经济信息划分方法,首先编制具有数据深度和分析深度的《配电网造价分析内容深度规定》,建立配电网工程物料库,再在编制的《配电网造价分析内容深度规定》与配电网工程物料库的基础上,结合中文分词与条件随机场算法,创建电力领域分词模型并进行训练,而后对创建的电力领域分词模型标注后进行训练;最后基于电力领域分词模型的拆分规则通过训练完毕的电力领域分词模型对待拆分的配电网工程技术经济信息进行工程解析、工程技术经济信息划分、技术参数抽取、参数合并,自动提取核心字段生成造价分析报表;利用信息化模式提升网省工作效率,减轻配电网工程数据拆分的基础工作,有效提升大数据分析质量。有效提升大数据分析质量。有效提升大数据分析质量。

【技术实现步骤摘要】
配电网工程技术经济信息划分方法


[0001]本专利技术涉及电网工程管理划分
,尤其涉及一种配电网工程技术经济信息划分方法。

技术介绍

[0002]配电网单体投资较小,但总体投资额巨大,故一直是电网管理过程中难点。自2018年起国网要求开展配网造价分析工作,随造价分析工作经验积累,工作模式越来越规范,配网造价分析信息化要求也越来越高。据调研,每个网省平均上报配网工程至少700余项。
[0003]因配网工程混合类型居多,在进行造价分析等工作时,往往不可避免需进行工程拆分,而工程拆分现均由各网省专家根据自身经验自行手动拆分,因无统一工程拆分原则,通常依赖专家自身经验,专家自身经验不同对工程划分的维度也存在差别,人工因素较大,易导致不可控事项发生,数据准确度无法保证;同时对各网省数据无法在同一纬度下进行合理、科学的横向对比,前期数据拆分维度不统一,难以支撑后续数据分析工作。

技术实现思路

[0004]本专利技术所解决的技术问题在于提供一种配电网工程技术经济信息划分方法,以解决上述
技术介绍
中的问题。
[0005]本专利技术所解决的技术问题采用以下技术方案来实现:
[0006]配电网工程技术经济信息划分方法,具体步骤如下:
[0007]步骤1)编制规范性文件
[0008]编制《配电网造价分析内容深度规定》,为配网工程造价分析工作提供依据文件,从数据深度和分析深度两个方面对配网工程造价分析工作提供准确性、规范性、科学性、全面性依据;
[0009]数据深度,用于建立造价分析数据的采集规则和基础数据规范,从数据采集范围、工程拆分原则、不同类型阶段数据的拆分原则、数据表填报规则等统一标准,保证数据的有效性和准确性,为造价报告编制打下基础;
[0010]分析深度,针对专业单项工程,分别从多个维度对其造价水平进行多层次、多角度分析,包括:各电压等级工程造价水平、各电压等级工程分项费用分析、各电压等级工程分项费用占比分析,并规范每个维度的分析方法、编制要求、分析深度等,以保证报告的全面性、完整性、准确性;
[0011]步骤2)分词模型训练
[0012]建立配电网工程物料库,在配电网工程物料库建立过程中收集字段信息按类型有所不同,国网中配电网设备材料信息包括大类、中类、小类、设备材料名称、属性组合,而后在步骤1)编制的《配电网造价分析内容深度规定》与配电网工程物料库的基础上,结合中文分词与条件随机场算法,创建电力领域分词模型并进行训练;
[0013]fastText是Facebook开源的一款快速文本分类及向量化工具,能够在保持高精度
的情况下快速训练测试模型,且不需要训练好的词向量,自身训练词向量,通过在规范的造价文件语料上测试结果也相对比较理想;
[0014]在电力领域分词模型训练中,特征选用对于训练是至关重要的一步,好的特征选择能够提升模型的性能,且更能帮助理解数据的特点和底层结构,这对进一步改善模型、算法都有着重要作用,选用下面四个方面的特征:
[0015]①
上下文特征
[0016]在自然语言中,单纯的字或词往往是没有意义,一般需要结合上下文信息以确定字词在语言中的含义,故采用N

gram模型的二元(Bi

gram)和三元(Tri

gram)模型进行特征定义;
[0017]②
词性特征
[0018]词性描述的是句子中各个词语的类别,可以判别词在句子中充当的成分,在序列标注中一般实体是名词、数量词等,因很多指标值均是数词(比如:动态总投资、全站面积、主变相数等等),故词性特征使用pkuseg进行提取;
[0019]③
分词特征
[0020]由于输变电工程评审意见文档是特定的电力工程领域专业文档,正确的文本分词可以帮助标注模型更加准确地识别标注实体所在的位置,减少一个专业短语被标注成多个实体的情况,从而提高标注准确率;
[0021]④
内容特征
[0022]内容特征即标注的实体在文本分词中的一些规律,由于输变电工程评审意见文档专业性较强,其往往具有比较明显的规律性,故从文本分词中提取出特定的规则进行定义,如:较多指标的值是从固定的字典值中取的(如开关柜类型:金属铠装、移开式、固定式、中置式、手车式、KYN式),这就包含了一定的规律,可以定义一个正则表达式以匹配词语是否在这个字典中,从而定义出内容特征;
[0023]步骤3)标注分词模型训练
[0024]对步骤2)创建的电力领域分词模型标注后进行训练;
[0025]标注粒度
[0026]采用字符粒度进行标注准确率更好;
[0027]序列标注
[0028]采用BIEOS进行标注;
[0029]步骤4)应用划分
[0030]基于电力领域分词模型的拆分规则,通过步骤3)训练完毕的电力领域分词模型对待拆分的配电网工程技术经济信息进行工程解析、工程技术经济信息划分、技术参数抽取、参数合并后,自动提取核心字段生成造价分析报表;
[0031]匹配体系建立:采用.Net Framework4.1框架使用C#开发,计算采用C#+Python3.7进行数据抽取及计算,解析采用Aspose.Cells 21.2,前端基于WPF+DevExpress20.2+自定义UI控件库,遵循公司相关开发规范,采用封装Sqlite

ORM进行数据持久操作,整体数据收取过程中,包括工程解析、工程技术经济信息划分、技术参数抽取、参数合并4个方面,同时分词可根据各网省实际情况进行智能学习,兼容各个业务场景,确保有效提升造价分析数据质量。
[0032]有益效果:本专利技术基于分析分词算法创建电力领域分词模型与序列标注模型,利用算法模型辅助进行工程判别,依次对工程费用拆分、技术条件抽取等,按统一规则对造价工程文件进行拆分提取,有据可依,自动填充,有效减轻人工工作量及对专家自身经验的依赖程度;同时基于此规定结合电力领域分词与标准算法模型,自动提取核心字段形成造价分析报表,利用信息化模式提升网省工作效率,减轻配电网工程数据拆分的基础工作,有效提升大数据分析质量。
附图说明
[0033]图1为本专利技术的较佳实施例中的配电网工程技术经济信息划分流程图。
[0034]图2为本专利技术的较佳实施例中的fastText训练词向量结果示意图。
[0035]图3为本专利技术的较佳实施例中的序列标注结果示意图。
具体实施方式
[0036]为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本专利技术。
[0037]配电网工程技术经济信息划分方法,如图1所示,具体步骤如下:
[0038]步骤1)编制规范性文件
[0039]编制《配电网造价分析内容深度规定》,为配网工程造价分析工作提供依据文件,从数据深度和分析深度两个方面对配网工程造价分析工本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.配电网工程技术经济信息划分方法,其特征在于,具体步骤如下:步骤1)编制规范性文件编制具有数据深度和分析深度的《配电网造价分析内容深度规定》;步骤2)分词模型训练建立配电网工程物料库,而后在步骤1)编制的《配电网造价分析内容深度规定》与配电网工程物料库的基础上,结合中文分词与条件随机场算法,创建电力领域分词模型并进行训练;步骤3)标注分词模型训练对步骤2)创建的电力领域分词模型标注后进行训练;步骤4)应用划分基于电力领域分词模型的拆分规则,通过步骤3)训练完毕的电力领域分词模型对待拆分的配电网工程技术经济信息进行工程解析、工程技术经济信息划分、技术参数抽取、参数合并后,自动提取核心字段生成造价分析报表。2.根据权利要求1所述的配电网工程技术经济信息划分方法,其特征在于,步骤1)中,所述数据深度...

【专利技术属性】
技术研发人员:刘一江徐丹霍慧娟范潆丹江期文潘星慧
申请(专利权)人:江西博微新技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1