数据聚类方法、服务器、系统以及计算机可读存储介质技术方案

技术编号:27061121 阅读:16 留言:0更新日期:2021-01-15 14:41
本发明专利技术涉及数据处理技术领域,具体提供了一种数据聚类方法、服务器、系统以及存储介质,旨在解决如何对大批量待聚类数据进行快速聚类的技术问题。为此目的,根据本发明专利技术实施例的方法,可以接收每个分组节点服务器各自反馈的待聚类数据组对应的相似数据检索结果,进而对待聚类数据组与相似数据检索结果进行聚类处理。通过相似数据检索,可以筛除数据样本中与待聚类数据相似度较差的数据样本,从而不仅可以显著降低在利用计算机设备进行聚类处理时的数据量,还克服了计算机设备运算能力下降的缺陷。同时,将待聚类数据分散至不同的检索节点服务器进行相似数据检索,可以克服同时对大批量数据进行相似数据检索导致服务器运算能力下降的缺陷。

【技术实现步骤摘要】
数据聚类方法、服务器、系统以及计算机可读存储介质
本专利技术涉及数据处理
,具体涉及一种数据聚类方法、服务器、系统以及计算机可读存储介质。
技术介绍
在根据人脸图像进行人脸类别分析时,通常是对待分析人脸图像的图像特征与数据库中人脸样本的图像特征进行聚类分析,根据聚类分析的结果判断待分析人脸图像与数据库中的哪些人脸样本属于相同类别的人脸图像,然后根据这些人脸样本的类别确定待分析人脸图像的类别(例如:判断待分析人脸图像具体属于哪一个人的人脸图像)。目前常规的数据聚类系统主要是利用单台服务器存储人脸样本与待聚类人脸数据,进而对人脸样本与待聚类人脸数据进行聚类。然而,在待聚类人脸数据的数据量较大的应用场景如车站、某个行政区域的安防监控等场景进行人脸数据聚类时,这些待聚类人脸数据不仅会显著增加数据聚类系统的数据存储压力,还会极大地降低数据聚类系统的数据运算能力,致使数据聚类系统无法快速地完成待聚类人脸数据的聚类。
技术实现思路
为了克服上述缺陷,提出了本专利技术,以提供解决或至少部分地解决如何对大批量待聚类数据进行快速聚类的技术问题的数据聚类方法、服务器、系统以及计算机可读存储介质。第一方面,提供一种数据聚类方法,所述方法包括:接收每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果;对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理;其中,每个所述分组节点服务器关联对应的多个检索节点服务器,每个所述检索节点服务器根据所述当前待聚类数据组中每个第一子数据组中的每个待聚类数据,对预先存储的数据样本进行检索得到所述相似数据检索结果,并将其发送至所述分组节点服务器。在上述数据聚类方法的一个技术方案中,所述预先存储的数据样本是对预设的数据样本组进行数据划分后形成的多个子数据样本组中的一个子数据样本组的数据样本,并且与相同分组节点服务器关联的每个检索节点服务器中预先存储的数据样本相同。在上述数据聚类方法的一个技术方案中,“对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理”的步骤具体包括:根据每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果,获取所述当前待聚类数据组中每个待聚类数据各自对应的相似数据检索结果集合;根据每个相似数据检索结果集合中每个相似数据检索结果各自对应的相似度,按照相似度由大至小的顺序分别从每个相似数据检索结果集合中选取多个相似数据检索结果并且将选取到的多个相似数据检索结果作为相应待聚类数据的最优相似数据检索结果;根据所述每个待聚类数据以及所述每个待聚类数据各自对应的最优相似数据检索结果进行聚类处理。在上述数据聚类方法的一个技术方案中,“对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理”的步骤具体包括:利用并行聚类算法对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理。在上述数据聚类方法的一个技术方案中,在“对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理”的步骤之后,所述方法还包括:响应于接收到的样本数据拆分指令,对所述当前待聚类数据组进行数据拆分以形成多个第二子数据组;将所述第二子数据组作为新的数据样本并且将每个第二子数据组分别发送至每个分组节点服务器,以便所述每个分组节点服务器能够将接收到第二子数据组分别发送至相关联的检索节点服务器进行数据样本更新。在上述数据聚类方法的一个技术方案中,所述方法还包括:判断当前接收到的待聚类数据组的数据量是否大于等于预设的数据量阈值;若是,则对所述待聚类数据组进行数据拆分以形成多个待聚类数据组,以便对每个待聚类数据组分别进行聚类处理。第二方面,提供一种聚类节点服务器,所述聚类节点服务器包括:数据接收模块,其被配置成接收每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果;数据聚类模块,其被配置成对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理;其中,每个所述分组节点服务器关联对应的多个检索节点服务器,每个所述检索节点服务器根据所述当前待聚类数据组中每个第一子数据组中的每个待聚类数据,对预先存储的数据样本进行检索得到所述相似数据检索结果,并将其发送至所述分组节点服务器。在上述聚类节点服务器的一个技术方案中,所述预先存储的数据样本是对预设的数据样本组进行数据划分后形成的多个子数据样本组中的一个子数据样本组的数据样本,并且与相同分组节点服务器关联的每个检索节点服务器中预先存储的数据样本相同。在上述聚类节点服务器的一个技术方案中,所述数据聚类模块包括数据获取单元、数据筛选单元和数据聚类单元;所述数据获取单元被配置成根据每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果,获取所述当前待聚类数据组中每个待聚类数据各自对应的相似数据检索结果集合;所述数据筛选单元被配置成根据每个相似数据检索结果集合中每个相似数据检索结果各自对应的相似度,按照相似度由大至小的顺序分别从每个相似数据检索结果集合中选取多个相似数据检索结果并且将选取到的多个相似数据检索结果作为相应待聚类数据的最优相似数据检索结果;所述数据聚类单元被配置成根据所述每个待聚类数据以及所述每个待聚类数据各自对应的最优相似数据检索结果进行聚类处理。在上述聚类节点服务器的一个技术方案中,所述数据聚类模块还被配置成利用并行聚类算法对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理。在上述聚类节点服务器的一个技术方案中,所述聚类节点服务器还包括样本数据处理模块,所述样本数据处理模块被配置成执行以下操作:响应于接收到的样本数据拆分指令,对所述当前待聚类数据组进行数据拆分以形成多个第二子数据组;将所述第二子数据组作为新的数据样本并且将每个第二子数据组分别发送至每个分组节点服务器,以便所述每个分组节点服务器能够将接收到第二子数据组分别发送至相关联的检索节点服务器进行数据样本更新;其中,所述样本数据拆分指令是所述聚类节点服务器在所述数据聚类模块对当前待聚类数据组与相似数据检索结果完成聚类处理之后输出的指令。在上述聚类节点服务器的一个技术方案中,所述聚类节点服务器还包括待聚类数据组分组模块,所述待聚类数据组分组模块被配置成执行以下操作:判断当前接收到的待聚类数据组的数据量是否大于等于预设的数据量阈值;若是,则对所述待聚类数据组进行数据拆分以形成多个待聚类数据组,以便所述聚类节点服务器对每个待聚类数据组分别进行聚类处理。第三方面,提供一种聚类节点服务器,包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述数据聚类方法的技术方案中任一项所述的数据聚类方法。第四方面,提供一种数据聚类系统,所述系统包括分组节点服务器、检索节点服务器以及上述聚类节点服务器的技术方案中任一项所述的聚类节点服务器,每个所述分组节点服务器分别与多个所述检索节点服务器关联;本文档来自技高网...

【技术保护点】
1.一种数据聚类方法,其特征在于,所述方法包括:/n接收每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果;/n对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理;/n其中,每个所述分组节点服务器关联对应的多个检索节点服务器,每个所述检索节点服务器根据所述当前待聚类数据组中每个第一子数据组中的每个待聚类数据,对预先存储的数据样本进行检索得到所述相似数据检索结果,并将其发送至所述分组节点服务器。/n

【技术特征摘要】
1.一种数据聚类方法,其特征在于,所述方法包括:
接收每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果;
对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理;
其中,每个所述分组节点服务器关联对应的多个检索节点服务器,每个所述检索节点服务器根据所述当前待聚类数据组中每个第一子数据组中的每个待聚类数据,对预先存储的数据样本进行检索得到所述相似数据检索结果,并将其发送至所述分组节点服务器。


2.根据权利要求1所述的数据聚类方法,其特征在于,所述预先存储的数据样本是对预设的数据样本组进行数据划分后形成的多个子数据样本组中的一个子数据样本组的数据样本,并且与相同分组节点服务器关联的每个检索节点服务器中预先存储的数据样本相同。


3.根据权利要求2所述的数据聚类方法,其特征在于,“对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理”的步骤具体包括:
根据每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果,获取所述当前待聚类数据组中每个待聚类数据各自对应的相似数据检索结果集合;
根据每个相似数据检索结果集合中每个相似数据检索结果各自对应的相似度,按照相似度由大至小的顺序分别从每个相似数据检索结果集合中选取多个相似数据检索结果并且将选取到的多个相似数据检索结果作为相应待聚类数据的最优相似数据检索结果;
根据所述每个待聚类数据以及所述每个待聚类数据各自对应的最优相似数据检索结果进行聚类处理。


4.根据权利要求1所述的数据聚类方法,其特征在于,“对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理”的步骤具体包括:
利用并行聚类算法对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理。


5.根据权利要求1至4中任一项所述的数据聚类方法,其特征在于,在“对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理”的步骤之后,所述方法还包括:
响应于接收到的样本数据拆分指令,对所述当前待聚类数据组进行数据拆分以形成多个第二子数据组;
将所述第二子数据组作为新的数据样本并且将每个第二子数据组分别发送至每个分组节点服务器,以便所述每个分组节点服务器能够将接收到第二子数据组分别发送至相关联的检索节点服务器进行数据样本更新。


6.根据权利要求1至4中任一项所述的数据聚类方法,其特征在于,所述方法还包括:
判断当前接收到的待聚类数据组的数据量是否大于等于预设的数据量阈值;
若是,则对所述待聚类数据组进行数据拆分以形成多个待聚类数据组,以便对每个待聚类数据组分别进行聚类处理。


7.一种聚类节点服务器,其特征在于,所述聚类节点服务器包括:
数据接收模块,其被配置成接收每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果;
数据聚类模块,其被配置成对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理;
其中,每个所述分组节点服务器关联对应的多个检索节点服务器,每个所述检索节点服务器根据所述当前待聚类数据组中每个第一子数据组中的每个待聚类数据,对预先存储的数据样本进行检索得到所述相似数据检索结果,并将其发送至所述分组节点服务器。


8.根据权利要求7所述的聚类节点服务器,其特征在于,所述预先存储的数据样本是对预设的数据样本组进行数据划分后形成的多个子数据样本组中的一个子数据样本组的数据样本,并且与相同分组节点服务器关联的每个检索节点服务器中预先存储的数据样本相同。


9.根据权利要求8所述的聚类节点服务器,其特征在于,所述数据聚类模块包括数据获取单元、数据筛选单元和数据聚类单元;
所述数据获取单元被配置成根据每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果,获取所述当前待聚类数据组中每个待聚类数据各自对应的相似数据检索结果集合;
所述数据筛选单元被配置成根据每个相似数据检索结果集合中每个相似数据检索结果各自对应的相似度,按照相似度由大至小的顺序分别从每个相似数据检索结果集合中选取多个相似数据检索结果并且将选取到的多...

【专利技术属性】
技术研发人员:程子翰田国栋
申请(专利权)人:四川云从天府人工智能科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1