【技术实现步骤摘要】
电力通信业务数据中站点聚类方法、系统、设备及介质
[0001]本专利技术属于电力系统自动化领域,涉及一种电力通信业务数据中站点聚类方法、系统、设备及介质。
技术介绍
[0002]不同地区所提交的电力通信业务数据不仅结构复杂,而且规模庞大,导致需要投入大量人力进行清洗校核。为解决该问题,势必要开展面向电力通信管理台帐以及网管数据的清洗校核技术研究,从而提高运维管理的智能化水平,减轻运维人员的压力,降低成本。
[0003]目前,电力通信管理台账及网管数据自动化处理技术,主要是从字符级别角度出发,基于电力通信设备名称之间的编辑距离进行匹配校核。例如,基于字符级别匹配,提出了通过计算路由信息中站点名称之间的编辑距离,对不同的站点名称进行匹配。主要操作过程如下所示:1、获取某区域中的站点名称作为基准数据;2、对该区域业务信息中的路由信息进行清洗及分割,得到单个的站点名称;3、分别计算2中所形成的站点名称与1中基准数据中每个站点名称的编辑距离;4、对3中所得到的编辑距离进行排序,取编辑距离最小的前K个作为推荐匹配数据;5、设置阈值,将编辑距离足够近的两个站点视作为同一站点,从而减少路由信息中的站点冗余,规范路由信息中的站点名称。
[0004]但是,上述方法的使用前提是须具有一个相对准确的基准数据集,在基准数据集的基础上才可以实现站点数据的匹配与校正,使用较为困难。同时,从字符级别来计算两个站点名称字符串之间的编辑距离会以相同权值来处理站点名称字符串,不能很好把握设备名称中的关键词,如若待匹配词为“塔沟变”,基准数 ...
【技术保护点】
【技术特征摘要】
1.一种电力通信业务数据中站点聚类方法,其特征在于,包括:获取电力系统的路由知识图谱;获取所述路由知识图谱中各站点的高维嵌入表示;搜索各站点的高维嵌入表示中与当前站点的高维嵌入表示最接近的高维嵌入表示,得到当前站点的最接近站点;当当前站点的最接近站点的最接近站点为当前站点时,将当前站点与当前站点的最接近站点聚合为同类站点。2.根据权利要求1所述的电力通信业务数据中站点聚类方法,其特征在于,所述获取电力系统的路由知识图谱的具体方法为:获取电力系统的业务路由数据并进行语义分割,得到结构化链表数据;根据结构化链表数据构造电力系统的路由知识图谱。3.根据权利要求1所述的电力通信业务数据中站点聚类方法,其特征在于,所述获取所述路由知识图谱中各站点的高维嵌入表示时,采用Struc2vec算法获取所述路由知识图谱中各站点的高维嵌入表示,具体方法为:获取并根据路由知识图谱中各站点的度及跳数,得到路由知识图谱中任意两站点在各跳的距离;根据路由知识图谱中任意两站点在各跳的距离及各站点的跳数,构造电力系统的层次带权图;在层次带权图中进行各站点的序列采样,得到各站点的序列采样结果,并通过word2vec算法训练各站点的顶点序列采样结果,得到各站点的高维嵌入表示。4.根据权利要求3所述的电力通信业务数据中站点聚类方法,其特征在于,所述根据路由知识图谱中各站点的度及跳数,得到路由知识图谱中任意两站点在各跳的距离的具体方法为:通过下式得到任意两站点之间的距离f
k
(u,v):f
k
(u,v)=f
k
‑1(u,v)+g(s(R
k
(u)),s(R
k
(v)))k≥0 and|R
k
(u)|,|R
k
(v)|>0其中,R
k
(u)表示u站点的第k跳的相邻站点集合,R
k
(v)表示v站点的第k跳的相邻站点集合;s(R
k
(u))表示R
k
(u)的站点度的有序序列,s(R
k
(v))表示R
k
(v)的站点度的有序序列;g(s(R
k
(u)),s(R
k
(v)))表示s(R
k
(u))和s(R
k
(v))的距离,为s(R
k
(u))和s(R
k
(v))中每一对元素之间的距离的集合;所述根据路由知识图谱中任意两站点在各跳的距离及各站点的跳数,构造电力系统的层次带权图的具体方法为:以电力系统站点的跳数为层,通过下式得到电力系统各站点之间的权值:k=0,...,k
*
w(u
k
,u
k+1
)=log(Γ
k
(u)+e),k=0,...,k<...
【专利技术属性】
技术研发人员:王亚男,庞宇航,潘娟,高炜,刘琼,温昊,任佳星,刘伟,高凯强,
申请(专利权)人:中国电力科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。