一种大规模图数据渐进式探索分析的方法技术

技术编号:38089314 阅读:13 留言:0更新日期:2023-07-06 09:00
一种大规模图数据渐进式探索分析的方法涉及信息技术领域。本发明专利技术包括计算图的结构特征步骤和计算子图邻域特征步骤。本发明专利技术通过计算的特征子图大大降低了节点和边的数量,避免了大规模图数据可视化时无法全量加载或加载过慢。可视化的特征子图反映了大规模图数据的形态,而特征子图的领域信息为进一步的操作提供了引导。满足了大规模图数据渐进式探索分析的要求。的要求。的要求。

【技术实现步骤摘要】
一种大规模图数据渐进式探索分析的方法


[0001]本专利技术涉及信息


技术介绍

[0002]在关系图谱探索式分析中,往往借助可视化技术将顶点和边数据渲染到界面上,用户既可以观察图形发现结构、规律,也可以进行关系扩展、路径分析、布局切换等操作。业界流行的图可视化工具和代码框架包括:Gephi、AntV、Echarts,部分图数据库也提供了可视化功能:Neo4j、TigerGraph。
[0003]在大规模图数据可视化实践中,受限于计算能力等因素使得无法渲染全量数据。图可视化技术要么直接限制图元的数量,要么需由用户首先采用图查询语言对数据进行过滤间接限制图元的数量。同时,大量的图元展示出来用户进行后续操作没有直观的顺序。Gephi支持展示10万顶点和100万条边、AntV G6支持50000+图元,但由于图元数量过多即便渲染到前端用户也无法操作或者操作缓慢;而Neo4j、TigerGraph要求用户掌握图查询语言并过滤掉部分数据以适应图形渲染的需要。为解决大规模图数据可视化时极度中心化、连接过度密集、大量离散点等问题,剑桥智能提出了包括过滤、合并、分组、布局、时间线等渐进式分析的操作方案。
[0004]采用过滤、简化、隐藏的方式来解决大规模图数据可视化的问题,常让用户无法掌握全量数据的总体形态,或要求用户预先有分析线索。
[0005]大规模图数据在可视化中往往面临几个问题:1. 有限的处理能力。虽然图形渲染技术越来越强,但大量的数据仍然意味着性能下降:布局速度变慢,用户体验滞后;2. 有限的显示空间。计算机显示器的屏幕像素数量有限,放入的顶点和边的数量越多可展示的信息就越少;3. 有限的人脑能力。大多数成年人很难同时在他们的短期记忆中存储超过 7 个东西,几乎无法解释一个包含成千上万个元素的图形。那么,如何在不失图的形状、聚集性等特征的情况对大规模图数据进行可视化,于此同时渐进式地展开全图成为一种大规模图数据渐进式探索分析的方法所要解决的问题。
[0006]用到的现有技术在大规模图计算中,图中心性算法用来计算顶点的重要程度,图中心度算法包括:度中心度算法、中介中心度算法、PageRank中心度算法;图聚类算法可将全图划分为若干个子图;最短路径算法描述了顶点间的紧密程度;六度分割理论说明社会中普遍存在的“弱纽带”。
[0007]图的数据结构由节点Point和边Edge组成。把所有不同种类的信息连接在一起而得到的一个图数据。实践中图数据一般由传统的关系型数据转换而来,学员表、学校表、学员学校关系表可转换为{学员,学校,就读关系}这样的三元图数据结构,其中学员、学校是节点并包含数据,就读关系是两个实体间的关系,具有属性。根据关系的性质,关系可能是无向的、单向的、双向的。由于图数据的存在,图遍历和图计算方法可以基于图数据进行计算,计算出节点的出度、节点的入度、度中心度和节点间最短路径。
[0008]入度指箭头指向本节点的边的数量,出度则相反;六跳关系指依次经过六条边相连形成的查找路径;节点间的最短路径指两个节点经过最少的边数相连的路径,当边具有权重属性时按照边的属性权重值合计最小的路径。

技术实现思路

[0009]鉴于现有技术的不足,本专利技术提供的一种大规模图数据渐进式探索分析的方法包括计算图的结构特征步骤和计算子图邻域特征步骤;1)计算图的结构特征

使用一种图中心度算法计算出图数据的核心节点集合;图中心度算法包括:度中心度算法和PageRank中心度算法;

以核心节点两两之间最短路径为边界划分图数据的子图数据集合,子图数据记为特征子图;2)计算子图邻域特征邻域特征描述图每个节点的邻居信息,包括:节点出度、节点出度入度、节点六跳关系和节点间的最短路径;为子图各个节点增加领域信息。
[0010]有益效果本方法所计算的特征子图大大降低了节点和边的数量,避免了大规模图数据可视化时无法全量加载或加载过慢。可视化的特征子图反映了大规模图数据的形态,而特征子图的领域信息为进一步的操作提供了引导。满足了大规模图数据渐进式探索分析的要求。
附图说明
[0011]图1是本专利技术的流程图。
具体实施方式
[0012]参看图1,实现本专利技术提供的一种大规模图数据渐进式探索分析的方法包括S01计算图的结构特征步骤和S02计算子图邻域特征步骤;S01计算图的结构特征

使用一种图中心度算法计算出图数据的核心节点集合;图中心度算法包括:度中心度算法和PageRank中心度算法;

以核心节点两两之间最短路径为边界划分图数据的子图数据集合,子图数据记为特征子图;S02计算子图邻域特征邻域特征描述图每个节点的邻居信息,包括:节点出度、节点出度入度、节点六跳关系和节点间的最短路径;为子图各个节点增加领域信息。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大规模图数据渐进式探索分析的方法,其特征在于包括计算图的结构特征步骤和计算子图邻域特征步骤;1)计算图的结构特征

使用一种图中心度算法计算出图数据的核心节点集合;图中心度算法包括:度中心度算法和PageRank中心度算法;

【专利技术属性】
技术研发人员:林飞朱宝俊聂传阳易永波古元毛华阳华仲峰
申请(专利权)人:北京亚鸿世纪科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1