【技术实现步骤摘要】
分布式数据处理方法及系统
本申请涉及数据处理
,特别涉及一种分布式数据处理方法及系统。
技术介绍
图谱是指由许多节点通过相互之间的连接而组成的一种数据结构。图谱中的节点可以用于指代人或组织,节点之间的连接(也称作边)通常表示节点所指代的事物之间具有某种关联关系。该关联关系可以为亲属关系或交易行为等社会关系。通过对图谱中的节点进行分类,能够实现对该节点指代的事物的关系挖掘。相关技术中,可以采用数据处理系统对图谱中的节点进行分类。该数据处理系统包括:数据汇总服务器和多个分类服务器。该数据汇总服务器在获取用于表示图谱的邻接矩阵后,可以对该邻接矩阵进行采样,并将采样后的邻接矩阵分发至多个分类服务器,分类服务器根据接收到的邻接矩阵对图谱中的节点进行分类。但是,图谱的数据量通常较大,导致数据汇总服务器对其邻接矩阵进行采样的效率较低。
技术实现思路
本专利技术实施例提供了一种分布式数据处理方法及系统,可以解决相关技术中对邻接矩阵进行采样的效率较低的问题。所述技术方案如下:第一方面,提供了一种分布式数据处理系统,其特征在于,所述系统包括:数据采集服务器、多个数据采样服务器、数据 ...
【技术保护点】
1.一种分布式数据处理系统,其特征在于,所述系统包括:数据采集服务器、多个数据采样服务器、数据汇总服务器和多个分类服务器;所述数据采集服务器,用于获取待分类的多个样本子集,并向所述多个数据采样服务器分发所述多个样本子集,所述多个样本子集由同一个样本集划分得到;所述数据采样服务器,用于对接收到的样本子集进行数据采样,并将采样后的样本子集发送至所述数据汇总服务器;所述数据汇总服务器,用于接收并汇总所述多个数据采样服务器发送的样本子集,并将汇总后的样本子集分发至所述多个分类服务器;所述分类服务器用于对接收到的样本子集中的样本进行分类。
【技术特征摘要】
1.一种分布式数据处理系统,其特征在于,所述系统包括:数据采集服务器、多个数据采样服务器、数据汇总服务器和多个分类服务器;所述数据采集服务器,用于获取待分类的多个样本子集,并向所述多个数据采样服务器分发所述多个样本子集,所述多个样本子集由同一个样本集划分得到;所述数据采样服务器,用于对接收到的样本子集进行数据采样,并将采样后的样本子集发送至所述数据汇总服务器;所述数据汇总服务器,用于接收并汇总所述多个数据采样服务器发送的样本子集,并将汇总后的样本子集分发至所述多个分类服务器;所述分类服务器用于对接收到的样本子集中的样本进行分类。2.根据权利要求1所述的系统,其特征在于,所述数据采集服务器,具体用于获取待分类的样本集,将所述样本集划分为所述多个样本子集,并向所述多个数据采样服务器分发所述多个样本子集。3.根据权利要求1所述的系统,其特征在于,所述系统还包括:与所述多个数据采样服务器对应的多个数据存储服务器;所述数据采集服务器,具体用于获取待分类的样本集,将所述样本集划分为多个样本子集,并将所述多个样本子集分发至所述多个数据存储服务器;所述数据存储服务器,用于存储接收到的样本子集,并将所述样本子集发送至对应的数据采样服务器。4.根据权利要求2或3所述的系统,其特征在于,所述样本集为用于表示样本图谱的邻接矩阵,所述多个样本子集由按照列方向将所述邻接矩阵划分得到。5.根据权利要求4所述的系统,其特征在于,所述样本子集包括所述邻接矩阵的至少一列元素,且所述多个样本子集分别包括不同列的元素。6.根据权利要求1至3任一所述的系统,其特征在于,所述分类服务器中设置有分类模型,所述分类模型用于对所述样本子集中的样本进行分类,所述样本子集中的样本为训练样本,所述系统还包括:参数服务器;所述分类服务器,还用于基于所述分类模型对所述训练样本的分类结果,调整所述分类模型的模型参数,并...
【专利技术属性】
技术研发人员:黄文炳,王义达,荣钰,徐挺洋,黄俊洲,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。