System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据聚类方法、装置及存储介质制造方法及图纸_技高网

数据聚类方法、装置及存储介质制造方法及图纸

技术编号:41227809 阅读:2 留言:0更新日期:2024-05-09 23:45
本申请提供一种数据聚类方法、装置及存储介质,涉及数据处理技术领域,能够解决对多个数据源中的数据进行处理时效率较低的问题。该方法应用于数据聚类系统中的中心服务器,数据聚类系统还包括多个节点服务器,接收来自多个节点服务器的初始聚类结果,初始聚类结果为节点服务器根据预设聚类中心,对样本数据集进行聚类分析得到的,对多个节点服务器的初始聚类结果进行聚合,得到目标聚类结果,并根据目标聚类结果计算目标聚类中心,目标聚类结果包括每个节点服务器中的样本数据集的目标类别,在目标聚类中心满足预设条件的情况下,将目标聚类结果发送至每个节点服务器。本申请实施例用于对运营商用户数据进行聚类,以构建用户画像的过程中。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种数据聚类方法、装置及存储介质


技术介绍

1、随着移动互联网的发展和智能手机的普及,用户产生的数据(如通话记录、短信记录、上网记录等)呈现出爆炸式增长的趋势。这些数据是运营商的宝贵资产,可以用于提高服务质量、推广产品和服务等。

2、相关技术中,在对存储于不同数据源的数据进行处理时,通常是通过以下两种方式实现:①将所有数据集中在中心服务器进行统一处理;②将数据在不同数据源之间共享,按序依次处理。而上述方式①将所有数据集中在一个服务器进行处理,可能会出现系统拥塞情况;上述方式②不同数据源之间进行数据共享并依次处理,会导致数据处理进度缓慢。

3、综上,采用现有方式对多个数据源中的数据进行处理时,存在处理效率较低的问题。


技术实现思路

1、本申请提供一种数据聚类方法、装置及存储介质,能够解决对多个数据源中的数据进行处理时效率较低的问题。

2、为达到上述目的,本申请采用如下技术方案:

3、第一方面,本申请提供一种数据聚类方法,应用于数据聚类系统中的中心服务器,该数据聚类系统还包括多个节点服务器,该方法包括:接收来自上述多个节点服务器的初始聚类结果,上述初始聚类结果为节点服务器根据预设聚类中心,对样本数据集进行聚类分析得到的,上述预设聚类中心用于指示上述样本数据集的预设所属类别,对上述多个节点服务器的初始聚类结果进行聚合,得到目标聚类结果,并根据该目标聚类结果计算目标聚类中心,上述目标聚类结果包括每个节点服务器中的样本数据集的目标类别,在上述目标聚类中心满足预设条件的情况下,将上述目标聚类结果发送至每个节点服务器。

4、基于上述技术方案,本申请实施例提供的数据聚类方法,可以先接收多个节点服务器根据预设聚类中心,对样本数据集进行聚类分析得到的初始聚类结果,预设聚类中心用于指示样本数据集的预设所属类别,再对多个节点服务器的初始聚类结果进行聚合,得到包括每个节点服务器中的样本数据集的目标类别的目标聚类结果,并根据目标聚类结果计算目标聚类中心,最后在目标聚类中心满足预设条件的情况下,将目标聚类结果发送至每个节点服务器。由于上述初始聚类结果是节点服务器,根据预设聚类中心,对自己本地的样本数据集进行聚类分析得到的,即多个节点服务器可以并行处理,加快了对样本数据集的处理进度,同时中心服务器可以对所有节点服务器的初始聚类结果进行全局聚合,以得到更为精准的目标聚类结果,从而在确保处理精确度的基础上,提高了对多个样本数据集的处理效率。

5、在第一方面的第一种可能的实现方式中,上述接收来自上述多个节点服务器的初始聚类结果之前,上述方法还包括:接收来自上述多个节点服务器的初始类别标签,该初始类别标签为节点服务器从初始数据集中提取得到的,对上述多个节点服务器的初始类别标签进行对齐,并对对齐后的上述初始类别标签进行聚合,得到目标类别标签,将上述目标类别标签发送至每个节点服务器,以使节点服务器根据该目标类别标签,对上述初始数据集进行特征对齐,得到上述样本数据集。

6、在第一方面的第二种可能的实现方式中,上述将上述目标类别标签发送至每个节点服务器之后,上述方法还包括:接收来自上述多个节点服务器的初始阈值,该初始阈值为样本数据集的类别标签阈值,对上述多个节点服务器的初始阈值进行全局计算,得到目标阈值,并根据该目标阈值,确定上述预设聚类中心,将该预设聚类中心发送至每个节点服务器。

7、在第一方面的第三种可能的实现方式中,上述初始聚类结果为:节点服务器对所述样本数据集加密,得到样本数据集密文后,针对所述样本数据集密文中的每个样本数据,计算所述预设聚类中心中距离所述样本数据最近的初始聚类中心,并将每个样本数据的初始聚类中心整合得到的。

8、在第一方面的第四种可能的实现方式中,上述预设条件包括以下至少一项:上述目标聚类中心与上述预设聚类中心相同;上述目标聚类中心的迭代次数与预设迭代次数相同,迭代次数为上述中心服务器的聚合次数。

9、第二方面,本申请提供一种数据聚类装置,应用于数据聚类系统中的中心服务器,该数据聚类系统还包括多个节点服务器,该装置包括:接收单元、处理单元和发送单元,其中:上述接收单元,用于接收来自上述多个节点服务器的初始聚类结果,该初始聚类结果为节点服务器根据预设聚类中心,对样本数据集进行聚类分析得到的,上述预设聚类中心用于指示上述样本数据集的预设所属类别,上述处理单元,用于对接收单元接收到的上述多个节点服务器的初始聚类结果进行聚合,得到目标聚类结果,并根据该目标聚类结果计算目标聚类中心,上述目标聚类结果包括每个节点服务器中的样本数据集的目标类别,上述发送单元,用于在处理单元得到的上述目标聚类中心满足预设条件的情况下,将上述目标聚类结果发送至每个节点服务器。

10、在第二方面的第一种可能的实现方式中,上述接收单元,还用于接收来自上述多个节点服务器的初始聚类结果之前,接收来自上述多个节点服务器的初始类别标签,该初始类别标签为节点服务器从初始数据集中提取得到的,上述处理单元,还用于对接收单元接收到的上述多个节点服务器的初始类别标签进行对齐,并对对齐后的上述初始类别标签进行聚合,得到目标类别标签,上述发送单元,还用于将处理单元得到的上述目标类别标签发送至每个节点服务器,以使节点服务器根据该目标类别标签,对上述初始数据集进行特征对齐,得到上述样本数据集。

11、在第二方面的第二种可能的实现方式中,上述接收单元,还用于在发送单元将上述目标类别标签发送至每个节点服务器之后,接收来自上述多个节点服务器的初始阈值,该初始阈值为样本数据集的类别标签阈值,上述处理单元,还用于对接收单元接收到的上述多个节点服务器的初始阈值进行全局计算,得到目标阈值,并根据该目标阈值,确定上述预设聚类中心,上述发送单元,还用于将处理单元得到的预设聚类中心发送至每个节点服务器。

12、在第二方面的第三种可能的实现方式中,上述初始聚类结果为:节点服务器对所述样本数据集加密,得到样本数据集密文后,针对所述样本数据集密文中的每个样本数据,计算所述预设聚类中心中距离所述样本数据最近的初始聚类中心,并将每个样本数据的初始聚类中心整合得到的。

13、在第二方面的第四种可能的实现方式中,上述预设条件包括以下至少一项:上述目标聚类中心与上述预设聚类中心相同;上述目标聚类中心的迭代次数与预设迭代次数相同,迭代次数为上述中心服务器的聚合次数。

14、第三方面,本申请提供了一种数据聚类装置,该装置包括:处理器和通信接口;通信接口和处理器耦合,处理器用于运行计算机程序或指令,以实现如第一方面和第一方面的任一种可能的实现方式中所描述的数据聚类方法。

15、第四方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在终端上运行时,使得终端执行如第一方面和第一方面的任一种可能的实现方式中描述的数据聚类方法。

16、第五方面,本申请实施例提供一种包含指令的计算机程本文档来自技高网...

【技术保护点】

1.一种数据聚类方法,其特征在于,应用于数据聚类系统中的中心服务器,所述数据聚类系统还包括多个节点服务器,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述接收来自所述多个节点服务器的初始聚类结果之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述目标类别标签发送至每个节点服务器之后,所述方法还包括:

4.根据权利要求1至3任一项所述的方法,其特征在于,

5.根据权利要求4所述的方法,其特征在于,所述预设条件包括以下至少一项:

6.一种数据聚类装置,其特征在于,应用于数据聚类系统中的中心服务器,所述数据聚类系统还包括多个节点服务器,所述装置包括:接收单元、处理单元和发送单元,其中:

7.根据权利要求6所述的装置,其特征在于,

8.根据权利要求7所述的装置,其特征在于,

9.根据权利要求6至8任一项所述的装置,其特征在于,

10.根据权利要求9所述的装置,其特征在于,所述预设条件包括以下至少一项:

11.一种数据聚类装置,其特征在于,包括:处理器和通信接口;所述通信接口和所述处理器耦合,所述处理器用于运行计算机程序或指令,以实现如权利要求1-5中任一项所述的数据聚类方法。

12.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当计算机执行该指令时,该计算机执行上述权利要求1-5中任一项所述的数据聚类方法。

...

【技术特征摘要】

1.一种数据聚类方法,其特征在于,应用于数据聚类系统中的中心服务器,所述数据聚类系统还包括多个节点服务器,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述接收来自所述多个节点服务器的初始聚类结果之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述目标类别标签发送至每个节点服务器之后,所述方法还包括:

4.根据权利要求1至3任一项所述的方法,其特征在于,

5.根据权利要求4所述的方法,其特征在于,所述预设条件包括以下至少一项:

6.一种数据聚类装置,其特征在于,应用于数据聚类系统中的中心服务器,所述数据聚类系统还包括多个节点服务器,所述装置包括:接收单元...

【专利技术属性】
技术研发人员:张国政谢继刚党鹏飞吴贵钧张辉郜雨佳
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1