电力通信业务数据中站点聚类方法、系统、设备及介质技术方案

技术编号:33133685 阅读:21 留言:0更新日期:2022-04-17 00:55
本发明专利技术属于电力系统自动化领域,公开了一种电力通信业务数据中站点聚类方法、系统、设备及介质,包括:获取电力系统的路由知识图谱;获取所述路由知识图谱中各站点的高维嵌入表示;搜索各站点的高维嵌入表示中与当前站点的高维嵌入表示最接近的高维嵌入表示,得到当前站点的最接近站点;当当前站点的最接近站点的最接近站点为当前站点时,将当前站点与当前站点的最接近站点聚合为同类站点。有效消除电力系统的业务路由信息中的站点冗余,规范路由信息中的站点信息,规范由不同业务人员录入的信息偏差,在一定程度上完成数据清洗,且不需要先验的站点名称基准数据,极大的降低了使用难度。度。度。

【技术实现步骤摘要】
电力通信业务数据中站点聚类方法、系统、设备及介质


[0001]本专利技术属于电力系统自动化领域,涉及一种电力通信业务数据中站点聚类方法、系统、设备及介质。

技术介绍

[0002]不同地区所提交的电力通信业务数据不仅结构复杂,而且规模庞大,导致需要投入大量人力进行清洗校核。为解决该问题,势必要开展面向电力通信管理台帐以及网管数据的清洗校核技术研究,从而提高运维管理的智能化水平,减轻运维人员的压力,降低成本。
[0003]目前,电力通信管理台账及网管数据自动化处理技术,主要是从字符级别角度出发,基于电力通信设备名称之间的编辑距离进行匹配校核。例如,基于字符级别匹配,提出了通过计算路由信息中站点名称之间的编辑距离,对不同的站点名称进行匹配。主要操作过程如下所示:1、获取某区域中的站点名称作为基准数据;2、对该区域业务信息中的路由信息进行清洗及分割,得到单个的站点名称;3、分别计算2中所形成的站点名称与1中基准数据中每个站点名称的编辑距离;4、对3中所得到的编辑距离进行排序,取编辑距离最小的前K个作为推荐匹配数据;5、设置阈值,将编辑距离足够近的两个站点视作为同一站点,从而减少路由信息中的站点冗余,规范路由信息中的站点名称。
[0004]但是,上述方法的使用前提是须具有一个相对准确的基准数据集,在基准数据集的基础上才可以实现站点数据的匹配与校正,使用较为困难。同时,从字符级别来计算两个站点名称字符串之间的编辑距离会以相同权值来处理站点名称字符串,不能很好把握设备名称中的关键词,如若待匹配词为“塔沟变”,基准数据中存在“塔湾变”、“塔沟”两个设备名称,很明显,“塔沟变”的匹配结果应该为“塔沟”,但是待匹配词“塔沟变”与“塔湾变”、“塔沟”的编辑距离均为1,无法准确匹配。并且,该方法仅单独利用两个站点名称之间的编辑距离作为匹配指标,但在有些情况下,两个相同的站点名称间的编辑距离可能非常大。举例来说,“Simens塔沟”和“西门子塔沟”两者的编辑距离较大,但这两者通常表示相同的站点,如果仅使用编辑距离进行判断很可能会判断错误。可见,这种方法仅能单独考虑每一种电力通信设备名称的匹配,匹配效果欠佳。

技术实现思路

[0005]本专利技术的目的在于克服上述现有技术的缺点,提供一种电力通信业务数据中站点聚类方法、系统、设备及介质。
[0006]为达到上述目的,本专利技术采用以下技术方案予以实现:
[0007]本专利技术第一方面,一种电力通信业务数据中站点聚类方法,包括:
[0008]获取电力系统的路由知识图谱;
[0009]获取所述路由知识图谱中各站点的高维嵌入表示;
[0010]搜索各站点的高维嵌入表示中与当前站点的高维嵌入表示最接近的高维嵌入表
示,得到当前站点的最接近站点;
[0011]当当前站点的最接近站点的最接近站点为当前站点时,将当前站点与当前站点的最接近站点聚合为同类站点。
[0012]可选的,所述获取电力系统的路由知识图谱的具体方法为:获取电力系统的业务路由数据并进行语义分割,得到结构化链表数据;根据结构化链表数据构造电力系统的路由知识图谱。
[0013]可选的,所述获取所述路由知识图谱中各站点的高维嵌入表示的具体方法为:获取并根据路由知识图谱中各站点的度及跳数,得到路由知识图谱中任意两站点在各跳的距离;根据路由知识图谱中任意两站点在各跳的距离及各站点的跳数,构造电力系统的层次带权图;在层次带权图中进行各站点的序列采样,得到各站点的序列采样结果,并通过word2vec算法训练各站点的顶点序列采样结果,得到各站点的高维嵌入表示。
[0014]可选的,所述根据路由知识图谱中各站点的度及跳数,得到路由知识图谱中任意两站点在各跳的距离的具体方法为:
[0015]通过下式得到任意两站点之间的距离f
k
(u,u):
[0016]f
k
(u,v)=f
k
‑1(u,v)+g(s(R
k
(u)),s(R
k
(v)))
[0017]k≥0 and|R
k
(u)|,|R
k
(v)|>0
[0018]其中,R
k
(u)表示u站点的第k跳的相邻站点集合,R
k
(v)表示v站点的第k跳的相邻站点集合;s(R
k
(u))表示R
k
(u)的站点度的有序序列,s(R
k
(v))表示R
k
(v)的站点度的有序序列;g(s(R
k
(u)),s(R
k
(v)))表示s(R
k
(u))和s(R
k
(v))的距离,为s(R
k
(u))和s(R
k
(v))中每一对元素之间的距离的集合;
[0019]所述根据路由知识图谱中任意两站点在各跳的距离及各站点的跳数,构造电力系统的层次带权图的具体方法为:
[0020]以电力系统站点的跳数为层,通过下式得到电力系统各站点之间的权值:
[0021][0022]w(u
k
,u
k+1
)=log(Γ
k
(u)+e),k=0,...,k
*
‑1[0023]w(u
k
,u
k
‑1)=1,k=1,...,k
*
[0024][0025]其中,w
k
(u,v)为第k层的u站点与v站点之间的权值,w
k
(u
k
,u
k+1
)为第k层的u站点与第k+1层的u站点之间的权值,Γ
k
(u)为第k层的u站点与其他站点之间的权值大于平均权值的站点个数,为第k层的u站点的平均权值,w
k
(u
k
,u
k
‑1)为第k层的u站点与第k+1层的u站点之间的权值;
[0026]根据电力系统各站点之间的权值,构造电力系统的层次带权图。
[0027]可选的,所述s(R
k
(u))和s(R
k
(v))中每一对元素之间的距离d(a,b)通过下式计算得到:
[0028][0029]其中,a和b分别为s(R
k
(u))和s(R
k
(v))中对应位置元素的值,max(a,b)为a和b中最大的值,min(a,b)为a和b中最小的值;
[0030]其中,当s(R
k
(u))和s(R
k
(v))的长度不同时,在计算s(R
k
(u))和s(R
k
(v))中每一对元素之间的距离前,采用动态时间规整算法对s(R
k
(u))和s(R
k
(v))序列进行对齐。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电力通信业务数据中站点聚类方法,其特征在于,包括:获取电力系统的路由知识图谱;获取所述路由知识图谱中各站点的高维嵌入表示;搜索各站点的高维嵌入表示中与当前站点的高维嵌入表示最接近的高维嵌入表示,得到当前站点的最接近站点;当当前站点的最接近站点的最接近站点为当前站点时,将当前站点与当前站点的最接近站点聚合为同类站点。2.根据权利要求1所述的电力通信业务数据中站点聚类方法,其特征在于,所述获取电力系统的路由知识图谱的具体方法为:获取电力系统的业务路由数据并进行语义分割,得到结构化链表数据;根据结构化链表数据构造电力系统的路由知识图谱。3.根据权利要求1所述的电力通信业务数据中站点聚类方法,其特征在于,所述获取所述路由知识图谱中各站点的高维嵌入表示时,采用Struc2vec算法获取所述路由知识图谱中各站点的高维嵌入表示,具体方法为:获取并根据路由知识图谱中各站点的度及跳数,得到路由知识图谱中任意两站点在各跳的距离;根据路由知识图谱中任意两站点在各跳的距离及各站点的跳数,构造电力系统的层次带权图;在层次带权图中进行各站点的序列采样,得到各站点的序列采样结果,并通过word2vec算法训练各站点的顶点序列采样结果,得到各站点的高维嵌入表示。4.根据权利要求3所述的电力通信业务数据中站点聚类方法,其特征在于,所述根据路由知识图谱中各站点的度及跳数,得到路由知识图谱中任意两站点在各跳的距离的具体方法为:通过下式得到任意两站点之间的距离f
k
(u,v):f
k
(u,v)=f
k
‑1(u,v)+g(s(R
k
(u)),s(R
k
(v)))k≥0 and|R
k
(u)|,|R
k
(v)|>0其中,R
k
(u)表示u站点的第k跳的相邻站点集合,R
k
(v)表示v站点的第k跳的相邻站点集合;s(R
k
(u))表示R
k
(u)的站点度的有序序列,s(R
k
(v))表示R
k
(v)的站点度的有序序列;g(s(R
k
(u)),s(R
k
(v)))表示s(R
k
(u))和s(R
k
(v))的距离,为s(R
k
(u))和s(R
k
(v))中每一对元素之间的距离的集合;所述根据路由知识图谱中任意两站点在各跳的距离及各站点的跳数,构造电力系统的层次带权图的具体方法为:以电力系统站点的跳数为层,通过下式得到电力系统各站点之间的权值:k=0,...,k
*
w(u
k
,u
k+1
)=log(Γ
k
(u)+e),k=0,...,k<...

【专利技术属性】
技术研发人员:王亚男庞宇航潘娟高炜刘琼温昊任佳星刘伟高凯强
申请(专利权)人:中国电力科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1