一种基于电力物资知识的基础数据采集方法技术

技术编号:36206919 阅读:13 留言:0更新日期:2023-01-04 12:02
本发明专利技术公开了一种电力物资知识图谱构建方法,其包括采集电力系统数据,包括获取电力系统内部现有数据、获取缺失的产品和服务信息数据和外部网络信息资源;划分数据类别,将电力系统数据根据数据属性分类;若数据为结构化数据或由第三方数据库导入,则进行数据整合后知识融合,若数据为半结构化数据和非结构化数据,则进行知识抽取,将抽取过后的数据进行知识融合;基于融合后的数据构建知识库;本发明专利技术可更新公用电力物资百科知识库,结合电力物资细分标准,基于工智能算法模型,形成电力物资百科知识库查询目录框架。进一步分析公共电力物资百科知识网络实现通过物资分类、关键词等方式方便进行查询需求以及公共应用内容展示需求。需求。

【技术实现步骤摘要】
一种基于电力物资知识的基础数据采集方法


[0001]本专利技术涉及物资知识采集整理
,特别是一种基于电力物资知识的基础数据采集方法。

技术介绍

[0002]20世纪中叶,普莱斯等人提出使用引文网络来研究当代科学发展的脉络的方法,首次提出了知识图谱的概念。1977年,知识工程的概念在第五届国际人工智能大会上被提出,以专家系统为代表的知识库系统开始被广泛研究和应用,直到20世纪90年代,机构知识库的概念被提出,自此关于知识表示、知识组织的研究工作开始深入开展起来。机构知识库系统被广泛应用于各科研机构和单位内部的资料整合以及对外宣传工作。2012年11月Google公司率先提出知识图谱的概念,表示将在其搜索结果中加入知识图谱的功能。其初衷是为了提高搜索引擎的能力,增强用户的搜索质量以及搜索体验。据2015年1月统计的数据,Google构建的KG已经拥有5亿个实体,约35亿条实体关系信息,已经被广泛应用于提高搜索引擎的搜索质量。虽然知识图谱(KnowledgeGraph)的概念较新,但它并非是一个全新的研究领域,早在2006年,BernersLee就提出了数据链接的思想,呼吁推广和完善相关的技术标准如URI,RDF,OWL,为迎接语义网络的到来做好准备。随后掀起了一场语义网络研究的热潮,知识图谱技术正是建立在相关的研究成果之上的,是对现有语义网络技术的一次扬弃和升华。
[0003]随着城市化与工业化脚步的不断加快,对电力的需求越来越大,电力物资的供给保障是决定电力建设的关键,现阶段电力物资信息的管理和应用多靠人工方式进行,远不足以满足电力个部门对电力物资信息的应用需求,未来根据电力物资行业应用需求建立电力物资百科知识网络是解决当前问题的重要手段和发展趋势,同时,也是为未来建设电力物资智慧大脑等高级应用奠定坚实的基础。

技术实现思路

[0004]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0005]鉴于现有技术中存在的问题,提出了本专利技术。
[0006]因此,本专利技术所要解决的技术问题是城市化与工业化脚步的不断加快,对电力的需求越来越大,电力物资的供给保障是决定电力建设的关键,现阶段电力物资信息的管理和应用多靠人工方式进行,远不足以满足电力个部门对电力物资信息的应用需求。
[0007]为解决上述技术问题,本专利技术提供如下技术方案:一种基于电力物资知识的基础数据采集方法,其包括采集电力系统数据,包括获取电力系统内部现有数据、获取缺失的产品和服务信息数据和外部网络信息资源;划分数据类别,将电力系统数据根据数据属性分类;基于划分的数据类别,分别对数据进行降噪预处理;以及,对不同种类的数据进行数据
处理,上传至物资百科数据库供系统管理和分析。
[0008]作为本专利技术所述基于电力物资知识的基础数据采集方法的一种优选方案,其中:根据数据属性分类,电力系统物资数据包括结构数据、非结构数据和文本数据,对结构数据、非结构数据和文本数据分别进行数据处理。
[0009]作为本专利技术所述基于电力物资知识的基础数据采集方法的一种优选方案,其中:所述数据处理包括,采用数据整合的方式处理结构数据;利用实体识别和关系抽取的方式处理非结构数据;利用NLP的方式处理文本数据。
[0010]作为本专利技术所述基于电力物资知识的基础数据采集方法的一种优选方案,其中:所述预处理包括在数据处理之前对文本数据进行清洗与标准化处理。
[0011]作为本专利技术所述基于电力物资知识的基础数据采集方法的一种优选方案,其中:所述预处理过程包括噪声移除、词汇规范化和对象标准化。
[0012]作为本专利技术所述基于电力物资知识的基础数据采集方法的一种优选方案,其中:所述噪声移除包括,利用噪音实体的字典,对对象文本进行迭代,去除掉存在于噪音字典里的符号。
[0013]作为本专利技术所述基于电力物资知识的基础数据采集方法的一种优选方案,其中:所述词汇规范化基于在特征工程中对文本处理,将高维的特征转换到低维空间,其包括:
[0014]词干提取:基于规则脱去后缀;
[0015]词元化:使用词汇表和形态学分析获取词根。
[0016]作为本专利技术所述基于电力物资知识的基础数据采集方法的一种优选方案,其中:利用NLP对文本数据进行系统化分析、理解与信息提取并且管理文本数据。
[0017]作为本专利技术所述基于电力物资知识的基础数据采集方法的一种优选方案,其中:所述系统运行检查内容主要包括,档案完整准确率、抄到率、抄到准确率,下表为系统数据测试内容与测试结果。
[0018]作为本专利技术所述基于电力物资知识的基础数据采集方法的一种优选方案,其中:所述数据处理流程包括
[0019]读取配置文件并进行程序运行参数设置;
[0020]进行对于参数的是否错误判断;
[0021]当参数错误时,直接结束流程;
[0022]当参数正确时判断是否存在增量导入情况,当存在增量导入时只进行增量导入数据提取;当不存在增量导入情况则进行全量导入提取,提取后的数据录入系统中。
[0023]本专利技术的有益效果:本专利技术通过构建完善的电力物资知识信息数据库,满足项目研究的数据需求,使得最终的电力物资百科知识网络知识信息更加完整全面,以便满足不同的应用需求;使得信息更准确、精简,减少电力物资知识信息的错误率,提高信息的可用性,避免由电力知识信息造成的安全隐患。
附图说明
[0024]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它
的附图。其中:
[0025]图1为第一个实施例中的数据采集、处理的算法流程图。
[0026]图2为第二个实施例中的数据采集、处理的流程图。
具体实施方式
[0027]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本专利技术的具体实施方式做详细的说明。
[0028]在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是本专利技术还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似推广,因此本专利技术不受下面公开的具体实施例的限制。
[0029]其次,此处所称的“一个实施例”或“实施例”是指可包含于本专利技术至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0030]实施例1
[0031]所述数据处理包括,采用数据整合的方式处理结构数据;利用实体识别和关系抽取的方式处理非结构数据;利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于电力物资知识的基础数据采集方法,其特征在于:包括,采集电力系统数据,包括获取电力系统内部现有数据、获取缺失的产品和服务信息数据和外部网络信息资源;划分数据类别,将电力系统数据根据数据属性分类;基于划分的数据类别,分别对数据进行降噪预处理;以及,对不同种类的数据进行数据处理,上传至物资百科数据库供系统管理和分析。2.如权利要求1所述的基于电力物资知识的基础数据采集方法,其特征在于:根据数据属性分类,电力系统物资数据包括结构数据、非结构数据和文本数据,对结构数据、非结构数据和文本数据分别进行数据处理。3.如权利要求2所述的基于电力物资知识的基础数据采集方法,其特征在于:所述数据处理包括,采用数据整合的方式处理结构数据;利用实体识别和关系抽取的方式处理非结构数据;利用NLP的方式处理文本数据。4.如权利要求2或3所述的基于电力物资知识的基础数据采集方法,其特征在于:所述预处理包括在数据处理之前对文本数据进行清洗与标准化处理。5.如权利要求4所述的基于电力物资知识的基础数据采集方法,其特征在于:所述预处理过程包括噪声移除、词汇规范化和对象标准化。6.如权利要求5所述的基于电力...

【专利技术属性】
技术研发人员:杨洁郑佳妮田行健岳凡与邓楚杭
申请(专利权)人:贵州电网物资有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1