基于数据血缘关系图谱的电力数据溯源方法及系统技术方案

技术编号:33490911 阅读:13 留言:0更新日期:2022-05-19 01:03
本发明专利技术涉及一种基于数据血缘关系图谱的电力数据溯源方法及系统,首先采用有序分层法对所有字段进行词汇提取获得字段特征词汇总表;其次利用字段特征词汇总表统计待统计字段中的所有字段信息,同时进行归一化处理获得不同字段数据类型对应的字段特征向量;建立各个字段特征向量之间的血缘关系;然后根据各个字段特征向量之间的血缘关系构建字段级数据血缘图谱和表级数据血缘图谱;最后对已确定血缘方向性的表级数据血缘图谱和/或字段级数据血缘图谱中的每个结点进行溯源分析。本发明专利技术将抽象的数据血缘分析问题转换为操作性强的特征空间向量相似性度量问题进行求解,解决数据源字段复杂、数据维度高及维度不固定的问题,实现快速的数据溯源分析。现快速的数据溯源分析。现快速的数据溯源分析。

【技术实现步骤摘要】
基于数据血缘关系图谱的电力数据溯源方法及系统


[0001]本专利技术涉及数据处理
,特别是涉及一种基于数据血缘关系图谱的电力数据溯源方法及系统。

技术介绍

[0002]随着电网信息化水平的不断提高,电力数据呈现爆炸式增长。电力数据已经成为电网企业发展的重要战略性资源,建设电力数据资产管理体系已经成为应对大数据时代要求的必然选择和趋势。面对复杂多变的电网业务整合需求,电力数据在各部门之间不断流转,流转中存在一系列的加载、清洗、转换等操作,一旦在某一环节出现问题,极有可能导致电力数据资源出现异常,却很难追溯出现异常的根源。因此,在大数据背景下解决电力数据的溯源问题是当前研究的热点。
[0003]数据血缘在数据溯源中有着重要的应用,通过血缘分析可以有效梳理数据流转过程,在数据出现异常时及时追溯其问题根源,同时准确构建异常影响范围,为相关人员快速定位及解决问题提供必要的支持。现有的基于数据血缘分析的溯源方法可分为以下几种:
[0004]一、基于人工标注的方式,此种方法对于简单的数据应用场景尚有一定的价值,但在电力大数据应用场景下很难推广使用,面临着效率低、成本高,易出错的问题。
[0005]二、基于数据字典的方式,此种方法在完备的数据字典下能够获取很好的数据血缘分析结果,但面临着日常维护成本过高的问题。
[0006]三、基于机器学习方式,此种方法需要大量的已知样本数据才能获得较好的效果,但存在训练模型难的问题。
[0007]四、基于区块链方式,此种方法结果可信度高,具有数据认证能力,对于新建系统有着很好的应用优势,但构建成本高,技术难度大,在已有系统集成表现一般。
[0008]总结当前电力数据血缘分析方法现状,仍需解决电力多源数据中字段多而复杂,字段对应数据维度高且不固定以及数据溯源分析较慢的问题。

技术实现思路

[0009]本专利技术的目的是提供一种基于数据血缘关系图谱的电力数据溯源方法及系统,以解决数据源字段复杂、数据维度高、维度不固定以及数据溯源分析慢的问题。
[0010]为实现上述目的,本专利技术提供了一种基于数据血缘关系图谱的电力数据溯源方法,所述方法包括:
[0011]采用有序分层法对所有字段进行词汇提取,获得字段特征词汇总表;
[0012]利用所述字段特征词汇总表,统计待统计字段中的所有字段信息,同时进行归一化处理,获得不同字段数据类型对应的字段特征向量;
[0013]建立各个所述字段特征向量之间的血缘关系;
[0014]根据各个所述字段特征向量之间的血缘关系构建字段级数据血缘图谱和表级数据血缘图谱;
[0015]确定所述字段级数据血缘图谱和所述表级数据血缘图谱中两结点之间血缘方向性;
[0016]通过图搜索策略,对已确定血缘方向性的表级数据血缘图谱和/或字段级数据血缘图谱中的每个结点进行溯源分析。
[0017]可选地,所述采用有序分层法对所有字段进行词汇提取,获得字段特征词汇总表,具体包括:
[0018]提取电力系统内所有表结构的字段信息,并按照字段数据类型对所述字段信息进行分类,将不同字段数据类型的字段信息分别放入不同字段数据类型对应的字段集合;
[0019]对各所述字段集合内的所有字段信息进行汇总排序;
[0020]对各所述字段集合内汇总排序的所有字段信息分别进行提取词汇,获得各字段数据类型对应的初始词汇表;
[0021]对各字段数据类型对应的初始词汇表进行扩充,获得字段特征词汇总表。
[0022]可选地,所述利用所述字段特征词汇总表,统计待统计字段中的所有字段信息,同时进行归一化处理,获得不同字段数据类型对应的字段特征向量,具体包括:
[0023]对待统计字段中的所有字段信息,利用所述字段特征词汇总表统计出不同字段数据类型中各词汇对应的词频;
[0024]对不同字段数据类型中各词汇对应的词频进行归一化处理,获得不同字段数据类型对应的字段特征向量。
[0025]可选地,所述建立各个所述字段特征向量之间的血缘关系,具体包括:
[0026]采用欧氏距离度量法或余弦距离度量法计算任意两个所述字段特征向量之间的距离;
[0027]对各距离进行非负化处理,获得各距离对应的权重;
[0028]基于各对应的权重确定字段特征向量间的血缘关系。
[0029]可选地,所述字段特征词汇总表包括:整型字段词汇表、浮点型字段词汇表、布尔型字段词汇表、字符型字段词汇表、字符串型字段词汇表、日期型字段词汇表和文本型字段词汇表。
[0030]本专利技术还提供一种基于数据血缘关系图谱的电力数据溯源系统,所述系统包括:
[0031]词汇提取模块,用于采用有序分层法对所有字段进行词汇提取,获得字段特征词汇总表;
[0032]字段特征向量确定模块,用于利用所述字段特征词汇总表,统计待统计字段中的所有字段信息,同时进行归一化处理,获得不同字段数据类型对应的字段特征向量;
[0033]血缘关系构建模块,用于建立各个所述字段特征向量之间的血缘关系;
[0034]数据血缘图谱构建模块,用于根据各个所述字段特征向量之间的血缘关系构建字段级数据血缘图谱和表级数据血缘图谱;
[0035]血缘方向性确定模块,用于确定所述字段级数据血缘图谱和所述表级数据血缘图谱中两结点之间血缘方向性;
[0036]溯源分析模块,用于通过图搜索策略,对已确定血缘方向性的表级数据血缘图谱和/或字段级数据血缘图谱中的每个结点进行溯源分析。
[0037]可选地,所述词汇提取模块,具体包括:
[0038]分类单元,用于提取电力系统内所有表结构的字段信息,并按照字段数据类型对所述字段信息进行分类,将不同字段数据类型的字段信息分别放入不同字段数据类型对应的字段集合;
[0039]汇总排序单元,用于对各所述字段集合内的所有字段信息进行汇总排序;
[0040]词汇提取单元,用于对各所述字段集合内汇总排序的所有字段信息分别进行提取词汇,获得各字段数据类型对应的初始词汇表;
[0041]扩充单元,用于对各字段数据类型对应的初始词汇表进行扩充,获得字段特征词汇总表。
[0042]可选地,所述字段特征向量确定模块,具体包括:
[0043]词频统计单元,用于对待统计字段中的所有字段信息,利用所述字段特征词汇总表统计出不同字段数据类型中各词汇对应的词频;
[0044]归一化处理单元,用于对不同字段数据类型中各词汇对应的词频进行归一化处理,获得不同字段数据类型对应的字段特征向量。
[0045]可选地,所述血缘关系构建模块,具体包括:
[0046]距离计算单元,用于采用欧氏距离度量法或余弦距离度量法计算任意两个所述字段特征向量之间的距离;
[0047]非负化处理单元,用于对各距离进行非负化处理,获得各距离对应的权重;
[0048]血缘关系确定单元,用于基于各对应的权重确定字段特征向量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据血缘关系图谱的电力数据溯源方法,其特征在于,所述方法包括:采用有序分层法对所有字段进行词汇提取,获得字段特征词汇总表;利用所述字段特征词汇总表,统计待统计字段中的所有字段信息,同时进行归一化处理,获得不同字段数据类型对应的字段特征向量;建立各个所述字段特征向量之间的血缘关系;根据各个所述字段特征向量之间的血缘关系构建字段级数据血缘图谱和表级数据血缘图谱;确定所述字段级数据血缘图谱和所述表级数据血缘图谱中两结点之间血缘方向性;通过图搜索策略,对已确定血缘方向性的表级数据血缘图谱和/或字段级数据血缘图谱中的每个结点进行溯源分析。2.根据权利要求1所述的基于数据血缘关系图谱的电力数据溯源方法,其特征在于,所述采用有序分层法对所有字段进行词汇提取,获得字段特征词汇总表,具体包括:提取电力系统内所有表结构的字段信息,并按照字段数据类型对所述字段信息进行分类,将不同字段数据类型的字段信息分别放入不同字段数据类型对应的字段集合;对各所述字段集合内的所有字段信息进行汇总排序;对各所述字段集合内汇总排序的所有字段信息分别进行提取词汇,获得各字段数据类型对应的初始词汇表;对各字段数据类型对应的初始词汇表进行扩充,获得字段特征词汇总表。3.根据权利要求1所述的基于数据血缘关系图谱的电力数据溯源方法,其特征在于,所述利用所述字段特征词汇总表,统计待统计字段中的所有字段信息,同时进行归一化处理,获得不同字段数据类型对应的字段特征向量,具体包括:对待统计字段中的所有字段信息,利用所述字段特征词汇总表统计出不同字段数据类型中各词汇对应的词频;对不同字段数据类型中各词汇对应的词频进行归一化处理,获得不同字段数据类型对应的字段特征向量。4.根据权利要求1所述的基于数据血缘关系图谱的电力数据溯源方法,其特征在于,所述建立各个所述字段特征向量之间的血缘关系,具体包括:采用欧氏距离度量法或余弦距离度量法计算任意两个所述字段特征向量之间的距离;对各距离进行非负化处理,获得各距离对应的权重;基于各对应的权重确定字段特征向量间的血缘关系。5.根据权利要求1所述的基于数据血缘关系图谱的电力数据溯源方法,其特征在于,所述字段特征词汇总表包括:整型字段词汇表、浮点型字段词汇表、布尔型字段词汇表、字符型字段词汇表、字符串型字段词汇表、日期型字段词汇表和文本型字段词汇表。6.一种基于数据血缘关系图谱的电力数据溯源系统,其特征在于,所述系统包括:词汇提...

【专利技术属性】
技术研发人员:郑磊孔祥靖魏豪潘建宏张凯
申请(专利权)人:国网吉林省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1