一种顶点的图嵌入向量生成、查询方法和装置制造方法及图纸

技术编号:20866418 阅读:27 留言:0更新日期:2019-04-17 09:20
本说明书公开了一种顶点的图嵌入向量的生成、查询的方法及装置。所述顶点的图嵌入向量的生成方法包括:从图数据库中抓取顶点,生成顶点序列;确定顶点的至少一项属性,形成顶点的属性集合;将顶点序列转换为由各顶点的属性集合组成的属性序列;对属性序列进行词向量训练,生成各个属性所对应的嵌入向量。所述顶点的图嵌入向量的查询方法包括:确定待查询图嵌入向量顶点的属性集合;根据属性集合,查询属性嵌入向量表,得到该顶点的各属性对应的嵌入向量;将顶点的各属性所对应的嵌入向量进行聚合,得到该顶点所对应的图嵌入向量。

【技术实现步骤摘要】
一种顶点的图嵌入向量生成、查询方法和装置
本申请涉及计算机
,尤其是涉及一种对顶点进行图嵌入向量的生成和查询的方法和装置。
技术介绍
互联网时代,信息和数据量的快速增长,使得互联网行业的运营模式已经转变为以大数据为基础的新型业务模式。由于需要存储和处理海量的数据,互联网公司所依赖的传统关系型数据库,因其在处理大数据上的不足,以及在服务器方面扩展的限制,已经不能适应新的业务需求,在很多场景中,逐渐被诸多新型的非关系型数据库(NoSQL:NotOnlySQL)所取代。其中,图数据库作为NoSQL中的一种,因其在处理数据之间的关系方面的卓越表现,在诸如社交网络、电子商务等领域,得到了越来越多的应用,目前已成为主流的基础数据平台。在基于图数据库所进行的各种数据建模和算法运算中,图嵌入技术是其中较受瞩目的一种应用。由于其结果的通用性,图嵌入技术经常被用作特征提取,将提取特征的结果输入给下游任务/项目,以便完成预定功能。比如,社交网络平台通过图嵌入技术提取用户的图嵌入特征进行反作弊监测,电子商务公司通过图嵌入技术提取商品的图嵌入特征后,用其进行商品优化推荐任务,互联网内容服务提供商通过图嵌入技术提取文章的图嵌入特征后,用其优化内容推荐服务等。实际应用中,目前的图嵌入技术的具体图嵌入算法,如DeepWalk、Node2Vec、SDNE和SAGE等,在进行计算时,会为每一个网络节点(图数据库中的顶点)生成并存储一个嵌入式表达向量(图嵌入向量),因此随着网络节点数量的增加,计算机内存的占用和存储空间的消耗也就越来越大。当进行大规模的图嵌入计算时,比如支付数据或电商数据的计算,网络节点的数量往往达到几千万甚至几亿的规模,这时如果仍旧采用上述现有的图嵌入算法,计算时将消耗海量的内存和存储资源,即便采用分布式计算,也并不能很好的解决这一问题。
技术实现思路
本说明书实施例提供一种对顶点进行图嵌入向量的生成、查询方法和装置,可以降低或改善现有的图嵌入计算对处理设备的内存占用,有效提升运算效率。本说明书实施例提供了一种顶点的图嵌入向量生成方法,包括:从图数据库中抓取顶点,生成顶点序列;确定顶点序列中各个顶点的至少一项属性,并基于所述属性形成顶点的属性集合;将所述顶点序列中转换为由各顶点的属性集合组成的属性序列;将所述属性序列进行词向量训练,生成与所述属性序列中每个属性的属性值对应的嵌入向量,并将所述嵌入向量保存到属性嵌入向量表。本说明书实施例提供了一种顶点的图嵌入向量查询方法,包括:确定待查询图嵌入向量的顶点的至少一项属性,基于所述属性形成所述顶点的属性集合;根据所述属性集合中的各属性查询属性嵌入向量表,得到该顶点的各属性所对应的嵌入向量;将所述顶点的各属性所对应的嵌入向量进行聚合,即得到该顶点所对应的图嵌入向量,实现所述顶点的图嵌入向量的查询。本说明书实施例提供一种顶点的图嵌入向量的生成装置,包括:顶点抓取模块,从图数据库中抓取顶点,生成顶点序列;属性集合模块,确定顶点序列中各个顶点的至少一项属性,并基于所述属性形成顶点的属性集合;转换模块,将顶点序列转换为由各顶点的属性集合组成的属性序列;词向量训练模块,对属性序列进行词向量训练,生成与所述属性序列中每个属性的属性值对应的嵌入向量,将所述嵌入向量保存到属性嵌入向量表。本说明书实施例提供一种顶点的图嵌入向量的查询装置,包括:属性集合模块,确定待查询图嵌入向量的顶点的至少一项属性,基于所述属性形成所述顶点的属性集合;查询模块,根据所述属性集合中的各属性,查询属性嵌入向量表,得到该顶点的各属性所对应的嵌入向量;聚合模块,将顶点的属性对应的嵌入向量进行聚合,得到该顶点对应的图嵌入向量,实现所述顶点的图嵌入向量的查询。本说明书实施例所采用的上述至少一个技术方案能够达到以下效果:用图数据库中的网络节点的属性,而非节点的ID来表示网络节点;通过属性嵌入向量被多个网络节点共享,提升信息密度,从而有效节省内存/磁盘空间的消耗,起到减少计算资源占用的效果。附图说明为了更清楚的说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单介绍,这些附图仅仅是本说明书记载的一些实施例,用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本说明书实施例在一种实际应用场景下涉及的整体方案流程示意图;图2为本说明书实施例提供的一种顶点的图嵌入向量的生成方法的流程示意图;图3为本说明书实施例提供的一种经过词向量训练后得到的属性嵌入向量表的示意图;图4为本说明书实施例提供的一种顶点的图嵌入向量的查询方法的流程示意图;图5为本说明书实施例提供的一种顶点的图嵌入向量的生成装置示意图;图6为本说明书实施例提供的一种顶点的图嵌入向量的查询装置示意图。具体实施方式基于解决现有技术存在的问题,本说明书实施例提供了顶点的图嵌入向量的生成、查询方法和装置。为了使本
的人员能够更好的理解本说明书中的技术方案,下面结合本说明书实施例中的附图,对本说明书的技术方案进行清楚、完整的描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。图1为本说明书实施例在一种实际应用场景下的整体方案流程图,该流程包含以下步骤:对图数据库进行路径采样,抓取图数据库中的顶点,生成顶点序列;确定顶点的若干项属性,形成顶点的属性集合;将顶点序列中的每个顶点,替换为该顶点的属性集合,从而将顶点序列转换为由各顶点的属性集合组成的属性序列;对属性序列进行词向量训练,生成每个属性值所对应的嵌入向量,将所述嵌入向量保存到属性嵌入向量表。对需要查询图嵌入向量的顶点,确定其属性集合;根据所述顶点的属性集合中的各属性,查询属性嵌入向量表,得到该顶点各项属性所对应的嵌入向量;将该顶点的各属性所对应的嵌入向量进行聚合,即得到该顶点所对应的图嵌入向量,从而实现所述顶点的图嵌入向量的查询。基于上述整体流程,下面对本说明书的方案进行详细说明。本说明书实施例提供了一种顶点的图嵌入向量的生成方法,图2为该生成方法的流程图,该流程包含以下步骤:S201:通过路径采样程序,从图数据库中抓取全部顶点,生成一个顶点序列。本说明书实施例中,可以通过DeepWalk路径采样程序来抓取图数据库中的全部顶点。DeepWalk是一种随机游走的路径采样算法,通过每次游走完成一条路径,多次重复后即可抓取到图数据库中的全部顶点。需要说明的是,对图数据库进行路径采样的方法,可以是如上述的DeepWalk形式的随机游走路径采样,还可以是Node2Vec形式的有倾向性采样,或者其他采样方法。总之,本说明书不限定对图数据库进行路径采样的具体方法和种类,本领域的技术人员可以根据实际需要,采用能够适用于本申请场景的路径采样方法。S202:确定顶点序列中各个顶点的若干项属性,组成顶点的属性集合。在本步骤中提到顶点的属性概念,顶点的属性反映了顶点在某一方面上的特征,该特征能够刻画顶点的“相貌”。一个顶点可以具有一个属性,也可以具有多个属性,属性数目的多少取决于对顶点所代表事物的观察深度和挖掘该顶点“相貌”的现实需求深度。在确定出一个顶点的本文档来自技高网
...

【技术保护点】
1.一种顶点的图嵌入向量的生成方法,其特征在于,包括:从图数据库中抓取顶点,生成顶点序列;确定顶点序列中各个顶点的至少一项属性,并基于所述属性形成顶点的属性集合;将所述顶点序列转换为由各顶点的属性集合组成的属性序列;对所述属性序列进行词向量训练,生成与所述属性序列中每个属性的属性值对应的图嵌入向量,将所述图嵌入向量保存到属性嵌入向量表。

【技术特征摘要】
1.一种顶点的图嵌入向量的生成方法,其特征在于,包括:从图数据库中抓取顶点,生成顶点序列;确定顶点序列中各个顶点的至少一项属性,并基于所述属性形成顶点的属性集合;将所述顶点序列转换为由各顶点的属性集合组成的属性序列;对所述属性序列进行词向量训练,生成与所述属性序列中每个属性的属性值对应的图嵌入向量,将所述图嵌入向量保存到属性嵌入向量表。2.如权利要求1所述的方法,其特征在于,所述从图数据库中抓取顶点,生成顶点序列,具体包括:确定从图数据库中抓取顶点所采用的路径采样算法;通过所述路径采样算法从图数据库中抓取顶点,并将抓取的顶点进行存储形成所述顶点序列。3.如权利要求2所述的方法,其特征在于,所述确定顶点序列中各个顶点的至少一项属性,并基于所述属性形成顶点的属性集合,具体包括:根据当前业务需求,从顶点的多个属性中选取至少一项属性;将选取的顶点的至少一项属性,构成所述顶点的属性集合。4.如权利要求1所述的方法,其特征在于,所述将所述顶点序列转换为由各顶点的属性集合组成的属性序列,具体包括:确定顶点序列中的每个顶点对应的属性集合,按照顶点序列中顶点的属性顺序排列各个顶点的属性集合,从而形成与所述顶点序列对应的属性序列。5.一种顶点的图嵌入向量的查询方法,其特征在于,包括:确定待查询图嵌入向量的顶点的至少一项属性,基于所述属性形成所述顶点的属性集合;根据所述属性集合中的各属性查询属性嵌入向量表,得到所述顶点的各属性所对应的图嵌入向量,所述属性嵌入向量表为按照权利要求1-4中任何一项所述方法生成的;将所述顶点的各属性对应的图嵌入向量进行聚合,得到所述顶点对应的图嵌入向量,实现所述顶点的图嵌入向量的查询。6.如权利要求5所述的方法,其特征在于,所述根据所述属性集合中的各属性查询属性嵌入向量表,得到该顶点各属性所对应的图嵌入向量,具体包括:确定属性集合中的各属性对应的属性值;判断各属性对应的属性值是否为空;如果属性值不为空,则根据所述各属性对应的属性值查询属性嵌入向量表,得到该顶点各个属性值所对应的图嵌入向量;如果属性值为空,则忽略该项属性,不查询所述属性嵌入向量表。7.一种顶点的图嵌入向量的生成装置,其特征在于,包括:顶点抓取模块,从图数据库中抓取顶点,生成一个顶点序列;属性集合模块,选取顶点的至少一项属性,构成顶点的属性集合;转换模块,将顶点转为其属性集合,将顶点序列转换为属性序列;词向量训练模块,对属性序列进行词向量训练,生成每个属性值的嵌入向量,并将训练结果存入属性嵌入向量表。8.如权利要求7所述的装置,所述顶点抓取模块,从图数据库中抓取顶点,生成一个顶点序列,具体包括:确定从图数据库中抓取顶点所采用的路径采样算法;通过所述路径采样算法从图数据中抓取顶点,并将抓取的顶点进行存储形成所述顶点序列。9.如权利要求8所述的装置,所述属性集合模块,选取顶点的一项或多项...

【专利技术属性】
技术研发人员:石磊磊
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1