一种关系数据的处理方法和装置制造方法及图纸

技术编号:14348218 阅读:37 留言:0更新日期:2017-01-04 18:53
本发明专利技术提供了一种关系数据的处理方法和装置,其中方法包括:获取新增关系数据;依据所述新增关系数据,确定与新增节点存在关联关系的历史节点所在的群组,将确定出的各群组分别作为群组节点;重复执行以下聚类过程,直至所有节点的群组标签不再发生变化;其中所述聚类过程包括:将发送节点的群组标签发送至与其存在关联关系的节点,所述发送节点包括新增节点和与新增节点存在关联关系的群组节点,新增节点初始的群组标签为新增节点的标签;依据预设的选择策略,为接收到标签的节点选择该节点的群组标签与接收到的标签中的一个,利用选择的标签替换该节点的群组标签。本发明专利技术能够降低新增关系数据所引起的对计算资源和时间的耗费。

【技术实现步骤摘要】

本专利技术涉及计算机应用
,特别涉及一种关系数据的处理方法和装置
技术介绍
随着大数据时代的来临,对关系数据的收集、分析、维护和利用等处理成为十分重要的内容。目前很多应用领域存在这样一种需求:需要定期对关系数据进行有效聚类,即将存在关联关系的数据聚为一类,这为后续关系数据的分析和利用提供基础。以诸如支付宝等支付工具为例,每天都会出现数以万计的新注册账户,然而这些新注册账户中很大一部分是与历史数据中的已有账户存在关联的,例如存在共用的身份证、银行卡、设备标识等。为了对关系数据进行收集和维护,方便后续进行分析和利用,需要定期将新增的账户和历史账户进行聚类,即将存在关联关系的账户聚为一个群组,这一过程通常称为关系数据的连通处理。由于新增的账户可能会造成新的聚类结果,例如原来账户1、账户2之间存在共用的身份证,账户3和账户4之间存在共用的银行卡,因此,账户1和账户2聚为一个群组,账户3和账户4聚为一个群组。如果新增的账户5与账户2存在共用的身份证并且与账户3存在共用的银行卡,则最终会引起账户1、账户2、账户3、账户4和账户5聚为一个群组。目前针对增量关系数据所采用的处理方式主要是:每次基于关联关系将增量关系数据与历史关系数据进行全量的聚类。然而,随着数据规模的不断扩大,如果存在上亿个账户和上亿的关联关系,那么每天增加的账户关系数据和历史数据完全放在一起进行全量的聚类,所带来的计算量十分庞大,耗费的计算资源和时间也会非常大。
技术实现思路
有鉴于此,本专利技术提供了一种关系数据的处理方法和装置,以便于降低新增关系数据所引起的对计算资源和时间的耗费。具体技术方案如下:本专利技术提供了一种关系数据的处理方法,该方法包括:获取新增关系数据;依据所述新增关系数据,确定与新增节点存在关联关系的历史节点所在的群组,将确定出的各群组分别作为群组节点;重复执行聚类过程,直至所有节点的群组标签不再发生变化:其中所述聚类过程包括:将发送节点的群组标签发送至与其存在关联关系的节点,所述发送节点包括新增节点和与新增节点存在关联关系的群组节点,新增节点初始的群组标签为新增节点的标签;依据预设的选择策略,为接收到标签的节点选择该节点的群组标签与接收到的标签中的一个,利用选择的标签替换该节点的群组标签。根据本专利技术一可选实施方式,所述新增关系数据包括新增节点以及该新增节点与其他新增节点或历史节点的关联关系。根据本专利技术一可选实施方式,所述获取新增关系数据包括:获取新增节点和历史节点的属性信息,依据属性信息确定与新增节点存在关联关系的节点,记录新增节点以及该新增节点与其他新增节点或历史节点的关联关系。根据本专利技术一可选实施方式,在所述依据所述新增关系数据,确定与新增节点存在关联关系的历史节点所在的群组之前还包括:判断是否存在与新增节点存在关联关系的历史节点,如果是,则继续执行所述依据所述新增关系数据,确定与新增节点存在关联关系的历史节点所在的群组;否则,重复执行所述聚类过程,直至所有节点的群组标签不再发生变化,在执行所述聚类过程时,所述发送节点包括新增节点。根据本专利技术一可选实施方式,依据预设的选择策略,为接收到标签的节点选择该节点的群组标签与接收到的标签中的一个包括:比较接收到标签的节点的群组标签与接收到的标签,选择其中的最小值;或者,比较接收到的标签的节点的群组标签与接收到的标签,选择其中的最大值;其中对所有接收到标签的节点采用相同的选择策略。根据本专利技术一可选实施方式,该方法还包括:当所有节点的群组标签不再发生变化后,在关系数据库中记录或输出属于同一群组的节点以及各节点的关联关系,其中群组标签相同的节点属于同一群组。根据本专利技术一可选实施方式,该方法应用于账户关系数据的处理;账户作为所述节点,存在共同属性的账户作为存在关联关系的节点,所述标签为账户编号。本专利技术还提供了一种关系数据的处理装置,该装置包括:新增数据获取单元、群组节点确定单元和数据库维护单元;所述新增数据获取单元,用于获取新增关系数据;所述群组节点确定单元,用于依据所述新增关系数据,确定与新增节点存在关联关系的历史节点所在的群组,将各群组作为群组节点,触发所述聚类单元;所述聚类单元,用于受到触发后,重复执行以下操作,直至所有节点的群组标签不再发生变化:将发送节点的群组标签发送至与其存在关联关系的节点,所述发送节点包括新增节点和与新增节点存在关联关系的群组节点,新增节点初始的群组标签为新增节点的标签;依据预设的选择策略,为接收到标签的节点选择该节点的群组标签与接收到的标签中的一个,触发所述数据库维护单元利用选择的标签替换该节点的群组标签;所述数据库维护单元,用于在关系数据库中维护各节点的关联关系以及各节点的群组标签。根据本专利技术一可选实施方式,所述新增关系数据包括新增节点以及该新增节点与其他新增节点或历史节点的关联关系。根据本专利技术一可选实施方式,所述新增数据获取单元,具体用于获取新增节点和历史节点的属性信息,依据属性信息确定与新增节点存在关联关系的节点,记录新增节点以及该新增节点与其他新增节点或历史节点的关联关系。根据本专利技术一可选实施方式,该装置还包括:判断单元,用于判断是否存在与新增节点存在关联关系的历史节点,如果是,则触发所述群组节点确定单元执行操作;否则,触发所述聚类单元执行操作;所述聚类单元在受到所述判断单元触发执行操作时,将新增节点作为所述发送节点。根据本专利技术一可选实施方式,所述聚类单元在依据预设的选择策略,为接收到标签的节点选择该节点的群组标签与接收到的标签中的一个时,具体执行:比较接收到标签的节点的群组标签与接收到的标签,选择其中的最小值;或者,比较接收到的标签的节点的群组标签与接收到的标签,选择其中的最大值;其中对所有接收到标签的节点采用相同的选择策略。根据本专利技术一可选实施方式,该装置还包括:输出单元,用于当所有节点的群组标签不再发生变化后,输出属于同一群组的节点以及各节点的关联关系,其中群组标签相同的节点属于同一群组。根据本专利技术一可选实施方式,该装置应用于账户关系数据的处理;账户作为所述节点,存在共同属性的账户作为存在关联关系的节点,所述标签为账户编号。由以上技术方案可以看出,本专利技术提供的关系数据的处理方式,对于新增关系数据,仅仅会涉及到新增节点之间以及与该新增节点存在关联的历史节点的聚类处理,对与新增节点不存在关联的历史节点则不会参与聚类处理。相比较每次都对历史关系数据进行全量聚类的方式,显然减小了计算量,降低了对计算资源和时间的消耗,在关系数据规模庞大的情况下,效果更加明显。【附图说明】图1为本专利技术实施例提供的一种方法流程图;图2为本专利技术实施例提供的一个数据网络的示意图;图3为本专利技术实施例提供的装置结构图。【具体实施方式】为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。在本专利技术实施例中,可以采用关系网络的形式体现关系数据,其中关系网络中的节点代表关系数据中的对象,节点之间的连线代表对象之间的关联关系。在定期进行关系数据维护时,会新增关系数据,本专利技术就在于将新增关系数据融合入已经存在的关系网络,即与历史关系数据所形成的群组进行融合。图1为本专利技术实施例提供的一种方法本文档来自技高网...
一种关系数据的处理方法和装置

【技术保护点】
一种关系数据的处理方法,其特征在于,该方法包括:获取新增关系数据;依据所述新增关系数据,确定与新增节点存在关联关系的历史节点所在的群组,将确定出的各群组分别作为群组节点;重复执行聚类过程,直至所有节点的群组标签不再发生变化;其中,所述聚类过程包括:将发送节点的群组标签发送至与其存在关联关系的节点,所述发送节点包括新增节点和与新增节点存在关联关系的群组节点,新增节点初始的群组标签为新增节点的标签;依据预设的选择策略,为接收到标签的节点选择该节点的群组标签与接收到的标签中的一个,利用选择的标签替换该节点的群组标签。

【技术特征摘要】
1.一种关系数据的处理方法,其特征在于,该方法包括:获取新增关系数据;依据所述新增关系数据,确定与新增节点存在关联关系的历史节点所在的群组,将确定出的各群组分别作为群组节点;重复执行聚类过程,直至所有节点的群组标签不再发生变化;其中,所述聚类过程包括:将发送节点的群组标签发送至与其存在关联关系的节点,所述发送节点包括新增节点和与新增节点存在关联关系的群组节点,新增节点初始的群组标签为新增节点的标签;依据预设的选择策略,为接收到标签的节点选择该节点的群组标签与接收到的标签中的一个,利用选择的标签替换该节点的群组标签。2.根据权利要求1所述的方法,其特征在于,所述新增关系数据包括新增节点以及该新增节点与其他新增节点或历史节点的关联关系。3.根据权利要求1所述的方法,其特征在于,所述获取新增关系数据包括:获取新增节点和历史节点的属性信息,依据属性信息确定与新增节点存在关联关系的节点,记录新增节点以及该新增节点与其他新增节点或历史节点的关联关系。4.根据权利要求1所述的方法,其特征在于,在所述依据所述新增关系数据,确定与新增节点存在关联关系的历史节点所在的群组之前还包括:判断是否存在与新增节点存在关联关系的历史节点,如果是,则继续执行所述依据所述新增关系数据,确定与新增节点存在关联关系的历史节点所在的群组;否则,重复执行所述聚类过程,直至所有节点的群组标签不再发生变化,在执行所述聚类过程时,所述发送节点包括新增节点。5.根据权利要求1所述的方法,其特征在于,依据预设的选择策略,为接收到标签的节点选择该节点的群组标签与接收到的标签中的一个包括:比较接收到标签的节点的群组标签与接收到的标签,选择其中的最小值;
\t或者,比较接收到的标签的节点的群组标签与接收到的标签,选择其中的最大值;其中对所有接收到标签的节点采用相同的选择策略。6.根据权利要求1所述的方法,其特征在于,该方法还包括:当所有节点的群组标签不再发生变化后,在关系数据库中记录或输出属于同一群组的节点以及各节点的关联关系,其中群组标签相同的节点属于同一群组。7.根据权利要求1至6任一权项所述的方法,其特征在于,该方法应用于账户关系数据的处理;账户作为所述节点,存在共同属性的账户作为存在关联关系的节点,所述标签为账户编号。8.一种关系数据的处理装置,其特征在于,该装置包括:新增数据获取单元...

【专利技术属性】
技术研发人员:汪浩然
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1