一种新能源数据的血缘关系分析方法及系统技术方案

技术编号:35266671 阅读:13 留言:0更新日期:2022-10-19 10:29
本申请实施例公开了一种新能源数据的血缘关系分析方法及系统。其中,在新能源数据的血缘关系分析方法中,将新能源数据进行分割,得到新能源关键信息,根据关键信息,生成血缘因素,根据血缘因素构建血缘关系,分析血缘关系的权重。由此可见,利用本申请实施例提供的方案,通过新能源关键信息生成血缘因素,并根据血缘因素构建血缘关系,对血缘关系及流转路径进行明晰,通过确定不同环节的数据权重,从而实现了数据间的有效互联互通。而实现了数据间的有效互联互通。而实现了数据间的有效互联互通。

【技术实现步骤摘要】
一种新能源数据的血缘关系分析方法及系统


[0001]本申请涉及新能源领域,尤其涉及一种新能源数据的血缘关系分析方法及系统。

技术介绍

[0002]能源革命和数字经济深度融合是大势所趋,能源革命与数字经济深度交互,将为能源行业的发展提供全新动力,将有效推动全新的能源体系和工业模式。
[0003]在国家政策大力支持下,我国新能源行业步入快速发展阶段,但同时也导致数据体量日益增加。由于数据体量大、类型多、构成复杂,并且现有数据分散在各企业、各系统的数据库中,因此数据之间无法形成有效的互联互通,导致出现数据孤岛及挖掘力度不够的问题。
[0004]因此,如何实现数据间的有效互联互通,避免造成数据孤岛或者挖掘力度不够的问题,是本领域技术人员需要解决的。

技术实现思路

[0005]本申请实施例提供了一种一种新能源数据的血缘关系分析方法及系统,可以解决数据之间无法形成有效的互联互通,导致出现数据孤岛及挖掘力度不够的问题。
[0006]第一方面,本申请实施例提供了一种新能源数据的血缘关系分析方法,所述方法包括:
[0007]将新能源数据进行分割,得到新能源关键信息;
[0008]根据所述新能源关键信息,生成血缘因素,所述血缘因素包括所述新能源关键信息所在的数据库表和数据字段、所述新能源关键信息对应的多个不同类型的数据环节、数据流转方向、数据回溯方向、数据更新频次;
[0009]根据所述血缘因素和预设的数据流转规范构建血缘关系;
[0010]根据所述血缘关系分析所述多个不同类型的数据环节各自的权重。
[0011]可选地,所述将新能源数据进行分割前,所述方法还包括:
[0012]采用隐马尔科夫链构建分词模型,所述分词模型用于对新能源数据进行分词;
[0013]通过所述分词模型将语料库中的文本数据分割为n个词语,所述n的取值为正整数;
[0014]根据所述n个词语的前后顺序关联关系生成M元模型,所述M元模型包括M

1阶马尔科夫假设P(C
i
|C1,C2,

C
i
‑1)=P(C
i
|C
i

M+1
,C
i

M+2
,

C
i
‑1);
[0015]将所述n个词语统计P(C
i
),形成m个条件概率,构成所述分词模型的训练结果,将所述训练结果保存在数据库,所述m的取值为正整数。
[0016]可选地,所述将新能源数据进行分割,得到新能源关键信息,包括:
[0017]将所述新能源数据分割为单个词语;
[0018]将分割后的词语排列得到词语组合,将所述词语组合输入所述隐马尔科夫模型,并获取所述词语组合对应的m个条件概率,将所述词语组合对应的m个条件概率作为转移条
件,根据维特比算法计算概率最大的词语组合,所述概率最大的词语组合为所述关键信息。
[0019]可选地,所述根据所述关键信息,生成血缘因素,包括:
[0020]按照元数据表中的信息对所述新能源关键信息所在环节进行区分,得到所述新能源关键信息所在的多个不同类型的数据环节;其中,所述数据环节包括数据输入环节S
i
、数据中间环节C
i,j
、数据输出环节O
i
,其中,所述数据输入环节S
i
为第i个数据源的数据;所述数据中间环节C
i,j
为所述第i个数据源的第j个环节,用于接收数据输入环节S
i
或上一环节C
i,j
‑1的数据,并向下一环节C
i,j+1
提供数据;所述数据输出环节O
i
为最终环节;
[0021]确定数据流动方向和数据追溯方向,所述数据流动方向为所述数据环节的增大方向,所述数据追溯方向为所述数据环节的减小方向;
[0022]当所述数据环节对应的新能源关键信息更新后,根据更新后的新能源关键信息得到数据更新链条,根据所述数据更新链条计算所述数据更新频次。
[0023]可选地,所述根据所述血缘因素构建血缘关系,包括:
[0024]根据所述预设的数据流转规范确定所述新能源关键信息为直接映射的数据时,确定所述血缘关系包括所述新能源关键信息对应的数据数值和数据环节;
[0025]根据所述预设的数据流转规范确定所述新能源关键信息需要清洗时,根据所述多个不同类型的数据环节对应的数据需求生成数据治理标准;根据所述数据治理标准对所述新能源关键信息进行清洗;确定所述血缘关系包括所述新能源关键信息对应的数据数值、数据环节和数据清洗方式。
[0026]可选地所述方法,还包括:
[0027]根据所述数据流转规范,设定数据预警阈值,当所述新能源关键信息超出所述数据预警阈值时,对超过所述数据预警阈值的新能源关键信息对应的多个数据环节进行回溯,根据所述回溯确定问题,对所述问题进行修正。
[0028]可选地,所述根据所述血缘关系分析所述多个不同类型的数据环节各自的权重,包括:
[0029]根据PageRank算法对所述多个不同类型的数据环节进行递归计算得到所述多个不同类型的数据环节的权重值,按照所述权重值从大到小将所述数据环节进行排列,对权重值大的数据环节优先进行检查,以便排除异常数据。
[0030]第二方面,本申请实施例提供了一种新能源数据的血缘关系分析系统,所述系统包括:
[0031]提取单元,用于将新能源数据进行分割,得到新能源关键信息;
[0032]生成单元,用于根据所述新能源关键信息,生成血缘因素,所述血缘因素包括所述新能源关键信息所在的数据库表和数据字段、所述新能源关键信息对应的多个不同类型的数据环节、数据流转方向、数据回溯方向、数据更新频次;
[0033]构建单元,用于根据所述血缘因素和预设的数据流转规范构建血缘关系;
[0034]分析单元,用于根据所述血缘关系分析所述多个不同类型的数据环节各自的权重。
[0035]可选地,所述提取单元,具体用于:
[0036]将所述新能源数据分割为单个词语;
[0037]将分割后的词语排列得到词语组合,将所述词语组合输入所述隐马尔科夫模型,
并获取所述词语组合对应的m个条件概率,将所述词语组合对应的m个条件概率作为转移条件,根据维特比算法计算概率最大的词语组合,所述概率最大的词语组合为所述新能源关键信息。
[0038]可选地,所述生成单元,具体用于:
[0039]按照元数据表中的信息对所述新能源关键信息所在环节进行区分,得到所述新能源关键信息所在的多个不同类型的数据环节;其中,所述数据环节包括数据输入环节S
i
、数据中间环节C
i,j
、数据输出环节O
i
,其中,所述数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新能源数据的血缘关系分析方法,其特征在于,所述方法包括:将新能源数据进行分割,得到新能源关键信息;根据所述新能源关键信息,生成血缘因素,所述血缘因素包括所述新能源关键信息所在的数据库表和数据字段、所述新能源关键信息对应的多个不同类型的数据环节、数据流转方向、数据回溯方向、数据更新频次;根据所述血缘因素和预设的数据流转规范构建血缘关系;根据所述血缘关系分析所述多个不同类型的数据环节各自的权重。2.根据权利要求1所述的方法,其特征在于,所述将新能源数据进行分割前,所述方法还包括:采用隐马尔科夫链构建分词模型,所述分词模型用于对新能源数据进行分词;通过所述分词模型将语料库中的文本数据分割为n个词语,所述n的取值为正整数;根据所述n个词语的前后顺序关联关系生成M元模型,所述M元模型包括M

1阶马尔科夫假设P(C
i
|C1,C2,

C
i
‑1)=P(C
i
|C
i

M+1
,C
i

M+2
,

C
i
‑1);将所述n个词语统计P(C
i
),形成m个条件概率,构成所述分词模型的训练结果,将所述训练结果保存在数据库,所述m的取值为正整数。3.根据权利要求2所述的方法,其特征在于,所述将新能源数据进行分割,得到新能源关键信息,包括:将所述新能源数据分割为单个词语;将分割后的词语排列得到词语组合,将所述词语组合输入所述隐马尔科夫模型,并获取所述词语组合对应的m个条件概率,将所述词语组合对应的m个条件概率作为转移条件,根据维特比算法计算概率最大的词语组合,所述概率最大的词语组合为所述新能源关键信息。4.根据权利要求1所述的方法,其特征在于,所述根据所述新能源关键信息,生成血缘因素,包括:按照元数据表中的信息对所述新能源关键信息所在环节进行区分,得到所述新能源关键信息所在的多个不同类型的数据环节;其中,所述数据环节包括数据输入环节S
i
、数据中间环节C
i,j
、数据输出环节O
i
,其中,所述数据输入环节S
i
为第i个数据源的数据;所述数据中间环节C
i,j
为所述第i个数据源的第j个环节,用于接收数据输入环节S
i
或上一环节C
i,j
‑1的数据,并向下一环节C
i,j+1
提供数据;所述数据输出环节O
i
为最终环节;确定数据流动方向和数据追溯方向,所述数据流动方向为所述数据环节的增大方向,所述数据追溯方向为所述数据环节的减小方向;当所述数据环节对应的新能源关键信息更新后,根据更新后的新能源关键信息得到数据更新链条,根据所述数据更新链条计算所述数据更新频次。5.根据权利要求4所述的方法,其特征在于,所述根据所述血缘因素和预设的数据流转规范构建血缘关系,包括:根据所述预设的数据流转规范确定所述新能源关键信息为直接映射的数据...

【专利技术属性】
技术研发人员:单雨解鸿斌韩碧彤陈明冬隋佳音李岩昊
申请(专利权)人:国网新能源云技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1