图向量化方法、装置及电力网图向量化方法制造方法及图纸

技术编号:30514361 阅读:15 留言:0更新日期:2021-10-27 22:56
本发明专利技术公开了一种图向量化方法,包括获取数据集;对数据集建模得到异构信息网络图;将元路径转换为元图并枚举得到元图及元图子图实例的集合;对元图进行一阶编码并利用与每个节点关联的元图集学习各个节点的偏好;在二阶编码中通过连接两个节点的图集对两个节点之间的交互进行建模;整合一阶元图编码和二阶元图编码,对预测得到的包含子图的总体概率进行优化。本发明专利技术还公开了实现所述图向量化方法的装置,以及包括所述图向量化方法的电力网图向量化方法。本发明专利技术保留了节点之间的潜在复合关系,而且可靠性更高,实用性更好。实用性更好。实用性更好。

【技术实现步骤摘要】
图向量化方法、装置及电力网图向量化方法


[0001]本专利技术属于自然语言处理
,具体涉及一种图向量化方法、装置及 电力网图向量化方法。

技术介绍

[0002]从大型电力调度网络到万维网,在自然界中存在着大量的复杂系统,其中 的对象因相互关联而形成大规模网络。因此,复杂系统可通过各种各样的复杂 网络来描述,例如社会网、电力网和计算机网络等。
[0003]网络分析已成为一个重要的研究领域,它能支撑很多关键的应用,例如个 性化推荐、节点故障预测和网络优化等。这些应用最终可以归结为在网络中有 效的节点表示形式。早期的代表性框架,如DeepWalk、LINE和Grarep等,试 图通过随机游走和skip

gram模型来捕捉图的接近度,从而最大化出现在特定上 下文中的节点对共现概率。然而,传统方法在很大程度上依赖于人工特征工程。 同时,现有的网络图编码表示法大多是为仅具有单一类型的节点和边缘的同类 网络而设计的;而在现实世界中,对象通常被组织成异构信息网络 (Heterogeneous Information Network,HIN),其中节点和边缘都属于不同的类 型。随后,为了捕获HIN上的丰富语义,有研究提出在学习过程中处理相邻节 点时,区分不同类型的显式关系(即边),例如所属机构和职业可以作为人员的 相邻节点,但它们分别通过地点和职业传达了不同的语义,因此,必须区分它 们。此外,还存在复合的且通常是潜在的关系,例如同一公司的同事关系或同 一领域的研究人员共同参与同一项目,这些关系可以通过元路径结构进行某种 程度的建模,例如

用户

大学

用户



用户

项目

用户

。许多研究已经利用 此类元路径来学习HIN的表示。但是,元路径仍然不能表达节点之间更复杂的 关系。

技术实现思路

[0004]本专利技术的目的之一在于提供一种能够保留节点之间的潜在复合关系,而且 可靠性更高、实用性更好的图向量化方法。
[0005]本专利技术的目的之二在于提供一种实现所述图向量化方法的装置。
[0006]本专利技术的目的之三在于提供一种包括了所述图向量化方法的电力网图向量 化方法。
[0007]本专利技术提供的这种图向量化方法,包括如下步骤:
[0008]S1.获取数据集;
[0009]S2.对数据集进行建模,从而得到异构信息网络图;
[0010]S3.在步骤S2得到的异构信息网络图中,将元路径转换为元图,并枚举得 到元图及元图子图实例的集合;
[0011]S4.对元图进行一阶编码,并利用与每个节点关联的元图集学习各个节点的 偏好;
[0012]S5.在二阶编码中,通过连接两个节点的图集,从而对两个节点之间的交互 进行建模;
[0013]S6.整合一阶元图编码和二阶元图编码,在给定每个核心节点以及每对核心 节点的情况下,对预测得到的包含子图的总体概率进行优化。
[0014]步骤S2所述的对数据集进行建模,从而得到异构信息网络图,具体包括如 下步骤:
[0015]网络图为定义域对象类型Γ的节点和来自关系R的边的有向图;异构信息 网络的元模板表示为g=(V,ε,Γ,R),其中V为图节点,ε为边;元路径为定义 在网络图上的连接两类对象的一条路径,并定义为其中T
i
用于表示对象类型且T
i
∈Γ,R
i
表示关系类型且R
i
∈R;定义表示对象类型之间 的复合关系R=R1οR2ο

οR
l
,其中ο为关系之间的复合算子;
[0016]首先,使用人工标注对文档进行实体标注,然后采用自然语言处理技术提 取文本中的实体和关系,然后根据所提取的实体和关系构建异构信息网络图。
[0017]步骤S3所述的枚举得到元图及元图子图实例的集合,具体包括如下步骤:
[0018]枚举异构信息网络上的元图,并得到元图集合M;然后对于元图集合M中 的每一个元图M
i
,枚举每一个元图M
i
的子图实例,并得到子图实例集合S
i
, 所有的子图实例集合S
i
组成子图实例集S。
[0019]步骤S4所述的对元图进行一阶编码,并利用与每个节点关联的元图集学习 各个节点的偏好,具体包括如下步骤:
[0020]在若干子图中找到一个核心节点,从而以实例化元图表征节点倾向于参与 的潜在关系;
[0021]m
i
表示嵌入同一空间的元图且m
i
∈R
D
,v表示节点v的编码表示(向量) 且v∈R
D
;S
(v)
为包含节点v的子图集;对于核心节点v,采用预测其包含子图S
(v)
的自监督目标;最大化P(S
(v)
|v;Θ),其中Θ为由所有节点和元图编码组成的模 型参数,且将S
(v)
分解为若干个不相交的子集:
[0022][0023]其中S
i
为M
i
实例化的子图;每个子集{S
(v)
∩S
i
}均包含由公共元图M
i
实例化的 子图;将由公共元图实例化的v的所有子图视为共享相同的底层分布,从而得到 以下结果:
[0024][0025]其中|S
(v)
∩S
i
|为含核心节点v的子图S
(v)
与元图M
i
实例化后的子图S
i
相交的数 量;P(M
i
|v;Θ)被如下softmax函数实现:
[0026][0027]其中m
i
为元图M
i
的编码表示,v为节点v的编码表示;
[0028]考虑所有核心节点,最小化以下负对数似然,以实现一阶元图嵌入:
[0029][0030]式中为图中核心节点且P(M
i
|v;Θ)为元图M
i
包含核心节点v的概率。
[0031]步骤S5所述的二阶编码,具体为采用如下步骤构建二阶编码:
[0032]一对核心节点能够共同出现在若干子图中,这些子图能够用不同的元图进 行表征,从而捕获两个节点之间的潜在关系;令S
(u,v)
表示同时包含节点u和v的 子图集;目标为设计f:R
2D

R
D
,将两个节点的聚合映射到与元图相同的空 间,从而包含两个节点的元图能够约束它们的表示;采用如下f的公式:
[0033]f(u,v)=ReLU([u||v]W+b),
[0034]其中u为核心节点u的向量,v为节点v的向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图向量化方法,包括如下步骤:S1.获取数据集;S2.对数据集进行建模,从而得到异构信息网络图;S3.在步骤S2得到的异构信息网络图中,将元路径转换为元图,并枚举得到元图及元图子图实例的集合;S4.对元图进行一阶编码,并利用与每个节点关联的元图集学习各个节点的偏好;S5.在二阶编码中,通过连接两个节点的图集,从而对两个节点之间的交互进行建模;S6.整合一阶元图编码和二阶元图编码,在给定每个核心节点以及每对核心节点的情况下,对预测得到的包含子图的总体概率进行优化。2.根据权利要求1所述的图向量化方法,其特征在于步骤S2所述的对数据集进行建模,从而得到异构信息网络图,具体包括如下步骤:网络图为定义域对象类型Γ的节点和来自关系R的边的有向图;异构信息网络的元模板表示为g=(V,ε,Γ,R),其中V为图节点,ε为边;元路径为定义在网络图上的连接两类对象的一条路径,并定义为其中T
i
用于表示对象类型且T
i
∈Γ,R
i
表示关系类型且R
i
∈R;定义表示对象类型之间的复合关系其中为关系之间的复合算子;首先,使用人工标注对文档进行实体标注,然后采用自然语言处理技术提取文本中的实体和关系,然后根据所提取的实体和关系构建异构信息网络图。3.根据权利要求2所述的图向量化方法,其特征在于步骤S3所述的枚举得到元图及元图子图实例的集合,具体包括如下步骤:枚举异构信息网络上的元图,并得到元图集合M;然后对于元图集合M中的每一个元图M
i
,枚举每一个元图M
i
的子图实例,并得到子图实例集合S
i
,所有的子图实例集合S
i
组成子图实例集S。4.根据权利要求3所述的图向量化方法,其特征在于步骤S4所述的对元图进行一阶编码,并利用与每个节点关联的元图集学习各个节点的偏好,具体包括如下步骤:在若干子图中找到一个核心节点,从而以实例化元图表征节点倾向于参与的潜在关系;m
i
表示嵌入同一空间的元图且m
i
∈R
D
,v表示节点v的编码表示(向量)且v∈R
D
;S
(v)
为包含节点v的子图集;对于核心节点v,采用预测其包含子图S
(v)
的自监督目标;最大化P(S
(v)
|v;Θ),其中Θ为由所有节点和元图编码组成的模型参数,且将S
(v)
分解为若干个不相交的子集:其中S
i
为M
i
实例化的子图;每个子集{S
(v)
∩S
i
}均包含由公共元图M
i
实例化的子图;将由公共元图实例化的v的所有子图视为共享相同的底层分布,从而得到以下结果:
其中|S
(v)
∩S
i
|为含核心节点v的子图S
(v)
与元图M
i
实例化后的子图S
i
相交的数量;P(M
i
|v;Θ)被如下softmax函数实现:其中m
i
为元图M
i
的编码表示,v为节点v的编码表示;考虑所有核心节点,最小化以下负对数似然,以实现一阶元图嵌入:式中为图中核心节点且P(M
i
|v;Θ)为元图M
i
包含核心节点v的概率。5.根据权利要求4所述的图向量化方法,其特征在于步骤S5所述的二阶编码,具体为采用如下步骤构建二阶编码:一对核心节点能够共同出现在若干子图中,这些子图能够用不同的元图进行表征,从而捕获两个节点之间的潜在关...

【专利技术属性】
技术研发人员:陈毅波黄鑫向行黄巍张祖平蒋破荒田建伟
申请(专利权)人:国网湖南省电力有限公司信息通信分公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1