基于语义分析的电力工程大修项目风险审计方法技术

技术编号:27243459 阅读:14 留言:0更新日期:2021-02-04 12:16
本发明专利技术涉及电网技术领域,尤其涉及一种基于语义分析的电力工程大修项目风险审计方法。包括以下步骤:S1、数据收集;S2、训练整份分词模型;S3、数据清洗;S4、分词结果特征提取;S5、模型应用。使用python网络爬虫技术采集某年度大修项目的指定字段信息。结合国网天津市电力公司的PMS2.0系统存储数据,利用数据仓库存储网络爬虫搜集的信息,创建一个独立的审计分析环境,在该环境中对己改善质量的审计数据进行进一步的处理,按审计主题对审计数据进行存储,提高审计分析的可扩展性。提高审计分析的可扩展性。提高审计分析的可扩展性。

【技术实现步骤摘要】
基于语义分析的电力工程大修项目风险审计方法


[0001]本专利技术涉及电网
,尤其涉及一种基于语义分析的电力工程大修项目风险审计方法。

技术介绍

[0002]电力工程在国家的发展中有着举足轻重的作用和地位。而审计作为一种监督机制,能够依法对国家各级政府部门,金融机构以及企事业组织的相关重大项目的财务收支状况进行审查与监督,以制约消极经济活动,促进社会经济的稳定运行,最终使得国民经济得以健康发展。但在现阶段,电力工程审计仍存在一些缺陷与问题,例如工程前期审计不够充分、对施工过程审计重视度不够、竣工决算审计材料准备不及时以及分阶段审计导致审计工作不衔接等,这些问题的存在严重干扰电力工程审计的开展,也使得电力工程审计无法实现其及时发现并揭露问题,最终使电力工程项目顺利完成的目标。针对当前电力工程审计存在的缺陷和问题,我们研究了基于语义分析的电力工程大修项目风险审计方法,将自然语言处理技术应用于电力工程项目风险审计之中,将审计工作中很大一部分人力工作使用计算机代替处理,大幅节省人力物力的消耗,提升审计效率。
[0003]自然语言处理技术在信息检索中可以分为词语层和上词语层两个层次,在第一个层次上,信息检索中用到的NLP技术主要有分词、识别复合短语以及专有名词等。其中,分词在自然语言处理中的研究己经是个比较成熟的课题,自从20世纪80年代初中文信息处理领域提出自动分词以来,众多专家和学者在这一领域取得了令人可喜的进展,提出了许多分词方法,有些比较成熟的技术己经应用到商业产品当中。但是大部分研究主要还是局限于对结构化审计数据进行分析,鲜有学者针对非结构化审计数据进行深入研究。在国际数据公司(IDC)发布的一项报告中显示,企业中最多只有5%的数据为结构化数据,其余大都是非结构化数据,并且88%的企业管理者认为这些存储在数据库以外的非结构化数据,才是他们接触和了解企业的最佳选择目标。

技术实现思路

[0004]本专利技术的目的在于克服上述技术的不足,而提供一种基于语义分析的电力工程大修项目风险审计方法。
[0005]本专利技术为实现上述目的,采用以下技术方案:一种基于语义分析的电力工程大修项目风险审计方法,其特征在于:包括以下步骤:S1、数据收集;S2、训练整份分词模型;S3、数据清洗;S4、分词结果特征提取;S5、模型应用。
[0006]优选地,步骤S1中,包括:(1)使用网络爬虫技术从不同的路径获取公司审计数据,建立数据仓库;(2)分析目标系统中审计数据的数据结构;(3)采用python网络爬虫软件,实现目标数据抓取。
[0007]优选地,建立数据仓库包括:抓取规划计划管理系统的项目计划文件;抓取规划计划管理系统PMS2.0的业务数据文件;抓取网上公开的电力业务相关的专业数据文件。
[0008]优选地,所述目标数据抓取包括:
[0009]第一步:搭建python网络爬虫环境;
[0010]第二步:运行python程序爬取目标数据;
[0011]第三步:根据需要,将爬取到的目标数据做初步筛选,保留有用的字段信息,建立审计仓库文件。
[0012]优选地,在步骤S2中,包括:构建审计需要的词库;使用网上开源的中文分词软件jieba,对审计仓库目标文件进行分词操作。
[0013]优选地,在步骤S3中,所述数据清洗包括去停用词和中文纠错。
[0014]优选地,在步骤S4中,分词结果特征提取包括:特征选取、特征处理、建立样本组以及建立模型。
[0015]优选地,所述特征选取包括:项目计划表中选取“项目编码、项目名称、项目内容、项目开始时间、项目结束时间”5个字段信息;工作票信息文件选取“票种类、工作内容、工作地点、工作地点描述、票ID、计划开工时间、计划结束时间”7个字段信息;
[0016]所述特征处理包括:第一步:特征预处理,为不同类型的特征选取不同的预处理方式;第二步:特征标准化处理;
[0017]所述建立样本组以大修项目计划信息和工作表信息特征为基础,由专业的电力业务人员选出具有相关性的样本组合,建立用于模型训练的样本组。
[0018]所述建立模型包括以下步骤:
[0019](1)将样本集随机排序;
[0020](2)将样本集划分为训练集、验证集和测试集,分别占总样本数量的70%,10%,20%;
[0021](3)使用样本训练集训练SVM分类器,使用验证集微调参数,最后使用测试集验证模型的有效性。
[0022]优选地,步骤S5中,所述模型应用包括相似度分析和标签云可视化,其中,相似度分析具体为,根据训练好的SVM分类器,对新的样本进行预测,给出某个工作票与所有项目计划的的关联度,按照大小排序,取前5个关联度最大的排序值为最终的结果,标签云可视化具体为,通过对被审计文本数据进行标签云可视化分析,整体把握被审计文本数据的主要内容。
[0023]本专利技术的有益效果是:(1)使用python网络爬虫技术采集某年度大修项目的指定字段信息。结合国网天津市电力公司的PMS2.0系统存储数据,利用数据仓库存储网络爬虫搜集的信息,创建一个独立的审计分析环境,在该环境中对己改善质量的审计数据进行进一步的处理,按审计主题对审计数据进行存储,提高审计分析的可扩展性。
[0024](2)针对不同的审计分析要求,利用语义识别技术识别规划计划系统中的项目建设内容信息和PMS系统中的工作票信息。按照大修项目清单,查找与之建设内容匹配的工作票信息,若有与之匹配的工作票,则可以认定该项目已实施,若无则列为疑点进行重点核实。
附图说明
[0025]图1是本专利技术中采用python网络爬虫软件的原理图。
具体实施方式
[0026]如图1所示,一种基于语义分析的电力工程大修项目风险审计方法,包括以下步骤:S1、数据收集;S2、训练整份分词模型;S3、数据清洗;S4、分词结果特征提取;S5、模型应用。其中:
[0027]3.1数据收集
[0028]3.1.1使用网络爬虫技术从不同的路径获取公司审计数据,建立数据仓库。
[0029](1)抓取规划计划管理系统的项目计划文件,包括:
[0030]a)生产大修专业项目规划报告
[0031]b)生产大修专业项目建议书
[0032]c)生产大修专业项目规划审批文件
[0033]d)生产大修专业项目规划项目库清单
[0034]e)生产大修专业项目竣工报告
[0035](2)抓取规划计划管理系统PMS2.0的业务数据文件,包括:
[0036]a)工作票文件
[0037]b)工作许可报告
[0038]c)完工报告
[0039](3)抓取网上公开的电力业务相关的专业数据文件,包括:
[0040]a)电力行业常用词库
[0041]b)电力行业专业词库
[0042]c)天津市输变电站等电力设备名称
[0043]3.1.2分析目标系统中审计数据的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义分析的电力工程大修项目风险审计方法,其特征在于:包括以下步骤:S1、数据收集;S2、训练整份分词模型;S3、数据清洗;S4、分词结果特征提取;S5、模型应用。2.根据权利要求1所述的基于语义分析的电力工程大修项目风险审计方法,其特征在于:步骤S1中,包括:(1)使用网络爬虫技术从不同的路径获取公司审计数据,建立数据仓库;(2)分析目标系统中审计数据的数据结构;(3)采用python网络爬虫软件,实现目标数据抓取。3.根据权利要求2所述的基于语义分析的电力工程大修项目风险审计方法,其特征在于:建立数据仓库包括:抓取规划计划管理系统的项目计划文件;抓取规划计划管理系统PMS2.0的业务数据文件;抓取网上公开的电力业务相关的专业数据文件。4.根据权利要求2所述的基于语义分析的电力工程大修项目风险审计方法,其特征在于:所述目标数据抓取包括:第一步:搭建python网络爬虫环境;第二步:运行python程序爬取目标数据;第三步:根据需要,将爬取到的目标数据做初步筛选,保留有用的字段信息,建立审计仓库文件。5.根据权利要求1所述的基于语义分析的电力工程大修项目风险审计方法,其特征在于:在步骤S2中,包括:构建审计需要的词库;使用网上开源的中文分词软件jieba,对审计仓库目标文件进行分词操作。6.根据权利要求1所述的基于语义分析的电力工程大修项目风险审计方法,其特征在于:在步骤S3中,所述数据清洗包括去停用词和中文纠错。7.根据权利要求1所述的基于语义分析的电力工程...

【专利技术属性】
技术研发人员:崔霞程子华戴斐斐孙常鹏李伯让徐征李博冯伟张耀心季忠俊刘德玉
申请(专利权)人:国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1