【技术实现步骤摘要】
一种顶点的图嵌入向量生成、查询方法和装置
本申请涉及计算机
,尤其是涉及一种对顶点进行图嵌入向量的生成和查询的方法和装置。
技术介绍
互联网时代,信息和数据量的快速增长,使得互联网行业的运营模式已经转变为以大数据为基础的新型业务模式。由于需要存储和处理海量的数据,互联网公司所依赖的传统关系型数据库,因其在处理大数据上的不足,以及在服务器方面扩展的限制,已经不能适应新的业务需求,在很多场景中,逐渐被诸多新型的非关系型数据库(NoSQL:NotOnlySQL)所取代。其中,图数据库作为NoSQL中的一种,因其在处理数据之间的关系方面的卓越表现,在诸如社交网络、电子商务等领域,得到了越来越多的应用,目前已成为主流的基础数据平台。在基于图数据库所进行的各种数据建模和算法运算中,图嵌入技术是其中较受瞩目的一种应用。由于其结果的通用性,图嵌入技术经常被用作特征提取,将提取特征的结果输入给下游任务/项目,以便完成预定功能。比如,社交网络平台通过图嵌入技术提取用户的图嵌入特征进行反作弊监测,电子商务公司通过图嵌入技术提取商品的图嵌入特征后,用其进行商品优化推荐任务,互联网内容服务提供商通过图嵌入技术提取文章的图嵌入特征后,用其优化内容推荐服务等。实际应用中,目前的图嵌入技术的具体图嵌入算法,如DeepWalk、Node2Vec、SDNE和SAGE等,在进行计算时,会为每一个网络节点(图数据库中的顶点)生成并存储一个嵌入式表达向量(图嵌入向量),因此随着网络节点数量的增加,计算机内存的占用和存储空间的消耗也就越来越大。当进行大规模的图嵌入计算时,比如支付数据或电商数据 ...
【技术保护点】
1.一种顶点的图嵌入向量的生成方法,其特征在于,包括:从图数据库中抓取顶点,生成顶点序列;确定顶点序列中各个顶点的至少一项属性,并基于所述属性形成顶点的属性集合;将所述顶点序列转换为由各顶点的属性集合组成的属性序列;对所述属性序列进行词向量训练,生成与所述属性序列中每个属性的属性值对应的图嵌入向量,将所述图嵌入向量保存到属性嵌入向量表。
【技术特征摘要】
1.一种顶点的图嵌入向量的生成方法,其特征在于,包括:从图数据库中抓取顶点,生成顶点序列;确定顶点序列中各个顶点的至少一项属性,并基于所述属性形成顶点的属性集合;将所述顶点序列转换为由各顶点的属性集合组成的属性序列;对所述属性序列进行词向量训练,生成与所述属性序列中每个属性的属性值对应的图嵌入向量,将所述图嵌入向量保存到属性嵌入向量表。2.如权利要求1所述的方法,其特征在于,所述从图数据库中抓取顶点,生成顶点序列,具体包括:确定从图数据库中抓取顶点所采用的路径采样算法;通过所述路径采样算法从图数据库中抓取顶点,并将抓取的顶点进行存储形成所述顶点序列。3.如权利要求2所述的方法,其特征在于,所述确定顶点序列中各个顶点的至少一项属性,并基于所述属性形成顶点的属性集合,具体包括:根据当前业务需求,从顶点的多个属性中选取至少一项属性;将选取的顶点的至少一项属性,构成所述顶点的属性集合。4.如权利要求1所述的方法,其特征在于,所述将所述顶点序列转换为由各顶点的属性集合组成的属性序列,具体包括:确定顶点序列中的每个顶点对应的属性集合,按照顶点序列中顶点的属性顺序排列各个顶点的属性集合,从而形成与所述顶点序列对应的属性序列。5.一种顶点的图嵌入向量的查询方法,其特征在于,包括:确定待查询图嵌入向量的顶点的至少一项属性,基于所述属性形成所述顶点的属性集合;根据所述属性集合中的各属性查询属性嵌入向量表,得到所述顶点的各属性所对应的图嵌入向量,所述属性嵌入向量表为按照权利要求1-4中任何一项所述方法生成的;将所述顶点的各属性对应的图嵌入向量进行聚合,得到所述顶点对应的图嵌入向量,实现所述顶点的图嵌入向量的查询。6.如权利要求5所述的方法,其特征在于,所述根据所述属性集合中的各属性查询属性嵌入向量表,得到该顶点各属性所对应的图嵌入向量,具体包括:确定属性集合中的各属性对应的属性值;判断各属性对应的属性值是否为空;如果属性值不为空,则根据所述各属性对应的属性值查询属性嵌入向量表,得到该顶点各个属性值所对应的图嵌入向量;如果属性值为空,则忽略该项属性,不查询所述属性嵌入向量表。7.一种顶点的图嵌入向量的生成装置,其特征在于,包括:顶点抓取模块,从图数据库中抓取顶点,生成一个顶点序列;属性集合模块,选取顶点的至少一项属性,构成顶点的属性集合;转换模块,将顶点转为其属性集合,将顶点序列转换为属性序列;词向量训练模块,对属性序列进行词向量训练,生成每个属性值的嵌入向量,并将训练结果存入属性嵌入向量表。8.如权利要求7所述的装置,所述顶点抓取模块,从图数据库中抓取顶点,生成一个顶点序列,具体包括:确定从图数据库中抓取顶点所采用的路径采样算法;通过所述路径采样算法从图数据中抓取顶点,并将抓取的顶点进行存储形成所述顶点序列。9.如权利要求8所述的装置,所述属性集合模块,选取顶点的一项或多项...
【专利技术属性】
技术研发人员:石磊磊,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。