当前位置: 首页 > 专利查询>浙江大学专利>正文

一种相似子图的快速查找方法技术

技术编号:19425127 阅读:30 留言:0更新日期:2018-11-14 10:36
本发明专利技术公开了一种相似子图的快速查找方法,包括以下步骤:步骤1:对网络数据进行向量化表达;步骤2:计算向量化数据中两两实体间的向量距离,得到实体与实体之间向量距离的矩阵;步骤3:根据实体间向量距离的矩阵,计算出每个实体距离最近的一系列实体,构成每个实体的相似有序集合;步骤4:根据相似有序集合,搜索与用户给定的查询子图中的每个实体相近的相似有序集合;步骤5:对得到的相似实体集合中所有实体构造网络,得到相似实体关系图,对相似实体关系图进行搜索,得到给定的查询子图的相似子图集合;步骤6:对相似子图集合和用户给定的查询子图两两做相似度匹配并进行排序;本发明专利技术还公开了一种相似交易模式的快速查找方法。

【技术实现步骤摘要】
一种相似子图的快速查找方法
本专利技术涉及相似子图快速搜索
,特别涉及一种相似子图的快速查找方法。
技术介绍
目前网络数据被广泛用于描述实体之间的关系,例如社会学中人与人之间的社会关系,生物学中蛋白质之间的相互作用以及金融公司之间的交易关系。网络数据的规模很大程度上会影响用户对网络进行分析的效率和准确性。如何在大规模网络数据中搜索给定的子图的相似子图,例如挖掘相似交易模式,社会关系等,成为了互联网,生物,商业等领域的热门课题。对于网络数据,每个实体可以是,人,地点,物品等,实体之间的关系可以是人脉关系,邮件通信关系,交易关系等。在网络数据中子图可以是交易网络中特定几个人的交易情况,道路网络中特定几个地点的路网信息。现有技术在庞大的网络数据中去寻找相似的子图的方法,都多少存在耗时过久的问题,许多存在的方法都是依据于每个实体和关系的类别进行搜索,因为本身自带了分类,大大减少了搜索的空间。但是再没有类别的网络数据中,对于庞大的数据量,都不能有效的进行相似子图的搜索,例如VF3,L2G,LAD,RI等方法,RI算法是在深度回溯搜索的中加入一些简单的规则进行剪枝优化,简单规则意味着评估是否符合规则的时间较短;VF3算法是也是定义了一些规则在深度回溯搜索中优化,而且已经证明速度比其它RI,L2G等算法速度更快,但这些算法都难以在交互级别的时间需求中对整个网络结构完成相似子图的搜索。
技术实现思路
本专利技术提供了一种相似子图的快速查找方法,可以快速在网络数据中查找出给定的子图的相似子图。一种相似子图的快速查找方法,包括以下步骤:步骤1:对网络数据进行向量化表达,用向量来代表网络数据中的每个实体得到向量化数据;步骤2:计算步骤1得到的向量化数据中两两实体间的向量距离,得到实体与实体之间向量距离的矩阵;步骤3:根据步骤2得到的实体间向量距离的矩阵,计算出每个实体距离最近的一系列实体,构成每个实体的相似有序集合;步骤4:根据步骤3中的相似有序集合,搜索与用户给定的查询子图中的每个实体相近的相似有序集合;步骤5:对步骤4中得到的相似实体集合中所有实体构造网络,得到相似实体关系图,对相似实体关系图进行搜索,得到给定的查询子图的相似子图集合;步骤6:对步骤5中的相似子图集合和步骤4中用户给定的查询子图两两做相似度匹配,进行排序得到有序的相似子图集合。本专利技术的相似子图的快速查找方法,把搜索时间降低到几秒以内,甚至在可交互级别范围内进行搜索,本专利技术把时间损耗转移到预处理阶段,对所需要搜索的网络数据提前进行预处理,进而在预处理后的结果中进行相似子图搜索,大大提高了搜索效率。克服现有技术中的精确匹配子图方法存在的问题,例如所需的时间复杂度高,用其进行相似度匹配时,大量的耗时进行一一匹配和搜索。本专利技术通过对网络数据进行向量化表达,并计算网络中每个实体的向量距离,从而可以得到每个实体的有序相似实体集合。对用户给定的查询子图中每个实体的相似实体集合所组成的网络进行联通子图搜索,从而得到查询子图的相似子图集合。为了进一步提高搜索效率,优选的,步骤5中,对得到相似子图集合根据相似度进行过滤。滤掉那些实体数量和给定的查询子图实体数量相差过多的子图。优选的,步骤(5)中,对相似实体关系图进行联通子图搜索。可以采用广度优先遍历,深度优先遍历,并查集等方法进行联通子图搜索。向量化表达的方法可以用GraphWave,Node2vec,Struct2Vec等用于图数据的向量化表达方法,优选的,步骤(1)中,采用GraphWave方法对网络数据进行向量化表达,Struct2Vec算法所耗时间比GraphWave多数十倍,Node2Vec的向量化表达采用全局随机游走的方式进行深度和广度的搜索,导致在定义相似性时会有随机性,更不精准。本专利技术还提供了一种相似交易模式的快速查找方法,包括以下步骤:步骤1:对Bitcoin交易网络数据进行向量化表达,用向量来代表网络数据中的每个实体得到向量化数据;具体的,Bitcoin交易网络数据用图数据进行表示,图G由顶点n和边e组成,每条边e的两端都必须是图两个顶点n,G(N,E)表示图G的顶点集为N={n1,n2,…np},其中p为顶点的数量,边集为E={e1,e2,…eq},其中q为边的数量。点为Bitcoin交易网络数据中的交易账户,边为Bitcoin交易网络数据中账户之间的交易关系,采用GraphWave方法对网络数据进行向量化表达,Bitcoin交易网络中交易账户的向量集合为其中每个交互账户n的向量为其中l为向量的维度;步骤2:计算步骤1得到的向量化数据中两两实体间的向量距离,得到实体与实体之间向量距离的矩阵;具体的,根据步骤1中得到交易账户向量集合通过其中每个交易账户n的向量化结果Vn,对交互账户的向量进行两两的距离计算,得到向量距离矩阵其中dab,表示两个交易账户a,b的向量Va,Vb的距离。不同的向量化表达计算距离时不一样,GraphWave方法得到的向量采用欧式距离进行计算。步骤3:根据步骤2得到的实体间向量距离的矩阵,计算出每个实体距离最近的一系列实体,构成每个实体的相似有序集合;具体的,根据步骤2中的向量距离矩阵D,对于每一列,按距离从小到大排序,得到交易账户的相似交易账户集合其中每个交易账户n的相似交易账户集合为Sn={n1,n2,…nk}。步骤4:根据步骤3中的相似有序集合,搜索与用户给定的查询交易模式中的每个实体相近的相似有序集合;具体的,用户想要查询的交易模式为用户给定的查询交易模式,即子图GQ=(NQ,EQ),其中NQ∈N,EQ∈E,NQ={n1,n2,…,nw},其中w为GQ中点的数量。查询的交易模式,即子图要保证GQ为联通子图,即GQ中任意两个点n都有一条e进行连接。在步骤3中的相似交易账户集合中,搜索每一个交易账户n的相似集合,即用户可以指定向量距离d去筛选用户查询中交易账户nQ的相似集合,此时用户也可以指定数量k去进行筛选,此时步骤5:对步骤4中得到的相似实体集合中所有实体构造网络,得到相似实体关系图,对相似实体关系图进行搜索,得到给定的查询交易模式的相似交易模式集合;具体的,将步骤4中的得到相似集合中的所有交易账户NS,以及在交易网络G中任意两个交易账户Ni,Nj{Ni,Nj∈NS}间的交易关系E组成的ES,组成图GS(NS,ES)。在图GS去搜索联通子图,可能搜索到多个联通子图,过滤掉那些实体数量和给定的查询子图实体数量相差过多的子图,优选相似子图的实体数量满足得到的联通子图集合其中u为联通子图的数量。每个联通子图为用户搜索子图的相似的子图,每个联通子图即为一种交易模式。步骤6:对步骤5中的相似交易模式集合和步骤4中用户给定的查询交易模式两两做相似度匹配,进行排序得到有序的相似交易模式集合。向量化表达的方法可以用GraphWave,Node2vec,Struct2Vec等用于图数据的向量化表达方法,优选的,步骤(1)中,采用GraphWave方法对Bitcoin交易网络数据进行向量化表达,Struct2Vec算法所耗时间比GraphWave多数十倍,Node2Vec的向量化表达采用全局随机游走的方式进行深度和广度的搜索,导致在定义相似性时会有随机性,更不精准。本专利技术的有益效果:本文档来自技高网...

【技术保护点】
1.一种相似子图的快速查找方法,其特征在于,包括以下步骤:步骤1:对网络数据进行向量化表达,用向量来代表网络数据中的每个实体得到向量化数据;步骤2:计算步骤1得到的向量化数据中两两实体间的向量距离,得到实体与实体之间向量距离的矩阵;步骤3:根据步骤2得到的实体间向量距离的矩阵,计算出每个实体距离最近的一系列实体,构成每个实体的相似有序集合;步骤4:根据步骤3中的相似有序集合,搜索与用户给定的查询子图中的每个实体相近的相似有序集合;步骤5:对步骤4中得到的相似实体集合中所有实体构造网络,得到相似实体关系图,对相似实体关系图进行搜索,得到给定的查询子图的相似子图集合;步骤6:对步骤5中的相似子图集合和步骤4中用户给定的查询子图两两做相似度匹配,进行排序得到有序的相似子图集合。

【技术特征摘要】
1.一种相似子图的快速查找方法,其特征在于,包括以下步骤:步骤1:对网络数据进行向量化表达,用向量来代表网络数据中的每个实体得到向量化数据;步骤2:计算步骤1得到的向量化数据中两两实体间的向量距离,得到实体与实体之间向量距离的矩阵;步骤3:根据步骤2得到的实体间向量距离的矩阵,计算出每个实体距离最近的一系列实体,构成每个实体的相似有序集合;步骤4:根据步骤3中的相似有序集合,搜索与用户给定的查询子图中的每个实体相近的相似有序集合;步骤5:对步骤4中得到的相似实体集合中所有实体构造网络,得到相似实体关系图,对相似实体关系图进行搜索,得到给定的查询子图的相似子图集合;步骤6:对步骤5中的相似子图集合和步骤4中用户给定的查询子图两两做相似度匹配,进行排序得到有序的相似子图集合。2.如权利要求1所述的相似子图的快速查找方法,其特征在于,步骤5中,对得到相似子图集合根据相似度进行过滤。3.如权利要求1所述的相似子图的快速查找方法,其特征在于,步骤(5)中,对相似实体关系图进行联通子图搜索。4.如权利要求1所述的相似子图的快速查找方法,其特征...

【专利技术属性】
技术研发人员:陈为韩东明郭方舟潘嘉铖聂小涛
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1