一种跨系统异构数据融合表征方法技术方案

技术编号:36224321 阅读:45 留言:0更新日期:2023-01-04 12:23
本发明专利技术公开了一种跨系统异构数据融合表征方法,涉及电力信息系统领域。电力系统存在较多的异构数据系统和设备,不同系统之间的异构数据难以融合,为具体的数据分析、异常检测任务加大了工作难度。本发明专利技术通过构建两个异构数据系统之间的数据关联图,然后基于数据关联图自动化生成元路径,最后在在元路径的约束下,基于随机游走获得节点序列最大化每个节点出现的条件概率即可获得每个节点最终的嵌入结果,从而实现了数据的融合表征。有效实现跨系统的异构数据融合表征,降低应用难度。降低应用难度。降低应用难度。

【技术实现步骤摘要】
一种跨系统异构数据融合表征方法


[0001]本专利技术涉及电力信息系统领域,尤其涉及一种跨系统异构数据融合表征方法。

技术介绍

[0002]目前,随着电力信息设备自动化、智能化化水平的提高,大量的信息系统被应用于生产环境。各系统、设备采用的不同的数据储存于交换格式,不同系统之间的异构数据难以融合,为具体的数据分析、异常检测任务造成了困难。
[0003]经典的异构数据分析方法是单独设置解析器,对不同的数据进行解析,解析结果为后续分类器等学习模型能够使用的统一的数据结构。此类方法能够实现基本的异构数据融合,但需要针对不同数据结构进行单独开发,效率较低,且严重依赖于统一数据结构设计。
[0004]样本联合学习是目前最流行的异构数据分析方法,其相当于在系统内部采用联邦学习框架,即针对每个单独的、拥有自身数据格式的信息系统,分析其数据描述对象,若两系统所描述的为同一对象则将系统中的数据视为该对象的特征的两个组成部分,属于特征联合;若两系统描述的为不同对象,但其特征重叠较多,则将相关的数据直接取并集,属于样本联合;若两系统描述的为不同对象,且特征重叠较少,则考虑采用迁移学习等其他方法。此类方法能够实现的异构数据综合分析,但联邦学习、迁移学习等框架消耗的大量的计算资源,且对不同系统中数据的关联表征层级较低,只能够提取到特征或对象的简单联系。
[0005]为表达异构数据间的复杂关联,异构图被引入异构数据分析领域。其使用异构图建模原始数据,通过特殊定义的特征编码为节点赋予属性;针对每一个具体的节点,基于自定义的邻居采样策略筛选需要计算的邻居节点,并基于LSTM等方法融合邻居节点属性。不断迭代训练,最终获取节点的嵌入值。此类方法往往采用异构信息网络、知识图谱等现有异构图模型,无法直接迁移进电力信息化场景中使用,且需要人工定义结合数据具体含义的节点路径以供训练,难以在现实中落地使用。

技术实现思路

[0006]本专利技术要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供一种跨系统异构数据融合表征方法,以实现跨系统的异构数据融合表征,降低应用难度,提高数据训练效果,增强落地使用的可行性为目的。为此,本专利技术采取以下技术方案。
[0007]一种跨系统异构数据融合表征方法,包括以下步骤:
[0008]1)构建两个异构数据系统之间的数据关联图,建立数据关联图中的节点和边,数据关联图图G=<V,E>,V为节点的集合,E为边的集合数,数据关联图中的每个节点表征一类数据中的一个条目,节点的属性即为该条数据的内容,其中连续值由公式归一化至[0,1]区间,离散值处理为独热码,式中,y
i
指字段i的标准化结果,x
i
指本设备在字段i的值,max(x)与min(x)指所有设备在字段i上的最大值与最小值,
节点的类别为该条数据的类别,同一种数据系统其结构相同,属于同一类别,而不同数据系统中的数据结构与格式不同,属于不同类别;
[0009]数据关联图中的每条边都链接了两个节点,若两节点的类别相同,则在这两个节点之间添加一条边,若两节点表征了同一个具体的对象,则在这两个节点之间添加一条边;
[0010]2)基于步骤1)中得到的数据关系图,通过节点与边的类型获取所有可能的路径作为元路径的基础,然后通过PCRW参数对可能的元路径进行筛选,获取最终可用的元路径,元路径是异构的数据关系图中的若干种节点之间的相连关系,每一条元路径由若干个节点依次相连,路径中的每个节点都代表了数据关系图中的一类节点,PCRW即路径限制随机游走,表示基于特定的元路径,随机游走从起点到达终点的概率;
[0011]3)基于元路径在数据关系图上进行随机游走,获得原始节点序列,然后基于原始节点序列通过异构学习计算嵌入向量,获得最终的节点嵌入,实现数据的融合表征。
[0012]通过形式化的数据关联图定义与自动化的元路径获取,规避了数据融合中的人工干预,使得本专利技术可以在没有专家知识引入的前提下完成跨系统的异构数据融合表征,增强了落地应用的可行性,并降低了应用难度;通过数据关联图的定义与异构图嵌入,针对每一类数据结构都实现了结合其他异构数据的嵌入,从而实现了跨系统的异构数据融合表征;结合元路径、随机游走与原始图的结构强相关,以及基于节点序列的嵌入与原始图中节点的属性强相关这两个特性,为每一条数据的训练提供了来自其余数据的结构信息和属性信息,从两个方面提高了数据训练的效果。
[0013]异构学习,指在异构图上进行节点嵌入,从而针对每一个节点获取对应的嵌入向量。使用的图中的节点存在不同的类型,因此属于异构图。
[0014]作为优选技术手段:步骤1)中,数据关联图的生成包括如下步骤:
[0015]101)对两个异构数据系统的每个数据类别生成数据条目特征;
[0016]102)根据每个数据条目对应生成一个节点,节点的属性为该条数据的内容;
[0017]103)判断是否对所有数据类别都生成了节点,若否,则返回步骤101),继续生成数据条目特征,若是,执行下一步;
[0018]104)生成节点之间的边。有效实现数据关联图的生成。
[0019]作为优选技术手段:步骤2)中,元路径的提取包括以下步骤:
[0020]201)获取符合要求的节点路径作为基础元路径集合;
[0021]202)将集合中全部的节点替换为节点的类型顺序,随后去重疑惑的全部可能的元路径,获取到全部可能的元路径集合;
[0022]203)针对每一条路径计算其PCRW参数,从大到小排序,选取最高的m条路径作为元路径,m取值为数据类型数目。有效实现元路径提取。
[0023]去重疑惑的目的是在替换为节点的类型顺序后,集合中的路径可能存在重复,需要去除。去重后获得全部可能的元路径的集合。
[0024]作为优选技术手段:步骤201)中,基础元路径的获取采用深度优先搜索算法实现,从数据关系图中的某顶点v开始,包括如下步骤:
[0025]201)访问顶点v;
[0026]202)依次从v的未被访问的邻接点出发,对图进行遍历,直至图中和v有路径相通的顶点都被访问;
[0027]203)若此时图中尚有顶点未被访问,则从一个未被访问的顶点出发,重新进行遍历,直到图中所有顶点均被访问过为止;
[0028]深度优先遍历使用的数据结构是栈Stack,将访问过的节点标记后,并压入栈中,再遍历此时跟栈顶元素相关联的节点,将其中未标记的节点标记,并压入栈中,以此类推,当该栈顶的元素相关联的节点都被访问过了,则该元素弹出栈,直到栈空,遍历完成。通过采用深度优先搜索算法,能有效实现元路径的基础的获取。
[0029]作为优选技术手段:作为基础元路径需符合如下条件:
[0030]a)路径中的节点数不大于数据类型数目;
[0031]b)该路径上的每组相连节点之间的两个节点的类别需一致,或两个节点表征了同个具体的对象。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨系统异构数据融合表征方法,其特征在于包括以下步骤:1)构建两个异构数据系统之间的数据关联图,建立数据关联图中的节点和边,数据关联图图G=<V,E>,V为节点的集合,E为边的集合数,数据关联图中的每个节点表征一类数据中的一个条目,节点的属性即为该条数据的内容,其中连续值由公式归一化至[0,1]区间,离散值处理为独热码,式中,y
i
指字段i的标准化结果,x
i
指本设备在字段i的值,max(x)与min(x)指所有设备在字段i上的最大值与最小值,节点的类别为该条数据的类别,同一种数据系统其结构相同,属于同一类别,而不同数据系统中的数据结构与格式不同,属于不同类别;数据关联图中的每条边都链接了两个节点,若两节点的类别相同,则在这两个节点之间添加一条边,若两节点表征了同一个具体的对象,则在这两个节点之间添加一条边;2)基于步骤1)中得到的数据关系图,通过节点与边的类型获取所有可能的路径作为元路径的基础,然后通过PCRW参数对可能的元路径进行筛选,获取最终可用的元路径,元路径是异构的数据关系图中的若干种节点之间的相连关系,每一条元路径由若干个节点依次相连,路径中的每个节点都代表了数据关系图中的一类节点,PCRW即路径限制随机游走,表示基于特定的元路径,随机游走从起点到达终点的概率;3)基于元路径在数据关系图上进行随机游走,获得原始节点序列,然后基于原始节点序列通过异构学习计算嵌入向量,获得最终的节点嵌入,实现数据的融合表征。2.根据权利要求1所述的一种跨系统异构数据融合表征方法,其特征在于:步骤1)中,数据关联图的生成包括如下步骤:101)对两个异构数据系统的每个数据类别生成数据条目特征;102)根据每个数据条目对应生成一个节点,节点的属性为该条数据的内容;103)判断是否对所有数据类别都生成了节点,若否,则返回步骤101),继续生成数据条目特征,若是,执行下一步;104)生成节点之间的边。3.根据权利要求1所述的一种跨系统异构数据融合表征方法,其特征在于:步骤2)中,元路径的提取包括以下步骤:201)获取符合要求的节点路径作为基础元路径集合;202)将集合中全部的节点替换为节点的类型顺序,随后去重疑惑的全部可能的元路径,获取到全部可能的元路径集合;203)针对每一条路径计算其PCRW参数,从大到小排序,选取最高的m条路径作为元路径,m取值为数据类型数目。4.根据权利要求3所述的一种跨系统异构数据融合表征方法,其特征在于:步骤201)中,基础元路径的获取采用深度优先搜索算法实现,从数据关系图中的某顶点v开始,包括如下步骤:20101)访问顶点v;20102)依次从v的未被访问的邻接点出发,对图进行遍历,直至图中和v有路径相通的顶点都被访问;20103)若此时图中尚有顶点未被访问,则从一个未被访问的顶点出发,重新进行遍历,
直到图中所有顶点均被访问过为止;深度优先遍历使用...

【专利技术属性】
技术研发人员:王豪磊陈宵李剑甘纯吴昊张引贤张静由甲川陈勇胡松苗沈远飞张超蔡铁林许震
申请(专利权)人:国网浙江省电力有限公司舟山供电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1