一种基于局部搜索聚类算法的用户画像方法和装置制造方法及图纸

技术编号:28980501 阅读:16 留言:0更新日期:2021-06-23 09:27
本发明专利技术公开了一种基于局部搜索聚类算法的用户画像方法和装置,其中,所述方法包括:获得预设簇数量K,根据所述预设簇数量,获得第一执行指令;将所述K个初始点组成第一集合;获得预设集合个数M,根据所述预设集合个数,重复执行所述第一执行指令,获得第二集合、第三集合,直到第M集合;将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K‑means算法,获得M个划分结果;对所述M个划分结果进行局部搜索机制处理,确定最终聚类结果。解决了现有技术中用户画像不够准确,使用的算法其结果依赖于初始聚类中心,容易陷入局部最优的技术问题。

【技术实现步骤摘要】
一种基于局部搜索聚类算法的用户画像方法和装置
本专利技术涉及用户画像领域,尤其涉及一种基于局部搜索聚类算法的用户画像方法和装置。
技术介绍
聚类算法是指将一堆没有标签的数据自动划分成几类的方法,属于无监督学习方法,典型的如k-means聚类算法,以K为参数,把n个对象分成K个簇,使簇内具有较高的相似度,而簇间的相似度较低,聚类算法可应用于多种场景中,如银行用户画像等。但本申请专利技术人在实现本申请实施例中专利技术技术方案的过程中,发现上述技术至少存在如下技术问题:现有技术中用户画像不够准确,使用的算法其结果依赖于初始聚类中心,容易陷入局部最优的技术问题。
技术实现思路
本申请实施例通过提供一种基于局部搜索聚类算法的用户画像方法和装置,解决了现有技术中用户画像不够准确,使用的算法其结果依赖于初始聚类中心,容易陷入局部最优技术问题,达到通过改变初始点,通过多次迭代计算,利用熵值进行结果验算评价,提高分类结果的精准度,避免初始聚类点对聚类结果的影响的技术效果。鉴于上述问题,提出了本申请实施例提供一种基于局部搜索聚类算法的用户画像方法和装置。第一方面,本申请实施例提供了一种基于局部搜索聚类算法的用户画像方法,所述算法包括:获得预设筛选要求;根据所述预设筛选要求,获得用户历史信息;根据所述用户历史信息,获得待处理数据集;获得预设簇数量K,其中,K为大于2的自然数;根据所述预设簇数量,获得第一执行指令,所述第一执行指令为从待处理数据集中获得K个初始点;将所述K个初始点组成第一集合;获得预设集合个数M,其中,M为大于1的自然数;根据所述预设集合个数,重复执行所述第一执行指令,获得第二集合、第三集合,直到第M集合;将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K-means算法,获得M个划分结果;对所述M个划分结果进行局部搜索机制处理,确定最终聚类结果。另一方面,本申请还提供了一种基于局部搜索聚类算法的用户画像装置,所述装置包括:第一获得单元,所述第一获得单元用于获得预设筛选要求;第二获得单元,所述第二获得单元用于根据所述预设筛选要求,获得用户历史信息;第三获得单元,所述第三获得单元用于根据所述用户历史信息,获得待处理数据集;第四获得单元,所述第四获得单元用于获得预设簇数量K,其中,K为大于2的自然数;第五获得单元,所述第五获得单元用于根据所述预设簇数量,获得第一执行指令,所述第一执行指令为从待处理数据集中获得K个初始点;第一组成单元,所述第一组成单元用于将所述K个初始点组成第一集合;第六获得单元,所述第六获得单元用于获得预设集合个数M,其中,M为大于1的自然数;第七获得单元,所述第七获得单元用于根据所述预设集合个数,重复执行所述第一执行指令,获得第二集合、第三集合,直到第M集合;第八获得单元,所述第八获得单元用于将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K-means算法,获得M个划分结果;第一确定单元,所述第一确定单元用于对所述M个划分结果进行局部搜索机制处理,确定最终聚类结果;第九获得单元,所述第九获得单元用于根据所述聚类结果,获得用户信息。第三方面,本专利技术提供了一种基于局部搜索聚类算法的用户画像装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现第一方面所述方法的步骤。本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:由于采用了获得预设簇数量K,其中,K为大于2的自然数;根据所述预设簇数量,获得第一执行指令,所述第一执行指令为从待处理数据集中获得K个初始点;将所述K个初始点组成第一集合;获得预设集合个数M,其中,M为大于1的自然数;根据所述预设集合个数,重复执行所述第一执行指令,获得第二集合、第三集合,直到第M集合;将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K-means算法,获得M个划分结果;对所述M个划分结果进行局部搜索机制处理,确定最终聚类结果,进而达到通过改变初始点,通过多次迭代计算,利用熵值进行结果验算评价,提高分类结果的精准度,避免初始聚类点对聚类结果的影响的技术效果。上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。附图说明图1为本申请实施例一种基于局部搜索聚类算法的用户画像方法的流程示意图;图2为本申请实施例一种基于局部搜索聚类算法的用户画像装置的结构示意图;图3为本申请实施例示例性电子设备的结构示意图。附图标记说明:第一获得单元11,第二获得单元12,第三获得单元13,第四获得单元14,第五获得单元15,第一组成单元16,第六获得单元17,第七获得单元18,第八获得单元19,第一确定单元20,第九获得单元21,总线300,接收器301,处理器302,发送器303,存储器304,总线接口305。具体实施方式本申请实施例通过提供一种基于局部搜索聚类算法的用户画像方法和装置,解决了现有技术中用户画像不够准确,使用的算法其结果依赖于初始聚类中心,容易陷入局部最优的技术问题,达到通过改变初始点,通过多次迭代计算,利用熵值进行结果验算评价,提高分类结果的精准度,避免初始聚类点对聚类结果的影响的技术效果。下面,将参考附图详细的描述根据本申请的示例实施例。显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。申请概述聚类算法是指将一堆没有标签的数据自动划分成几类的方法,属于无监督学习方法,典型的如k-means聚类算法,以K为参数,把n个对象分成K个簇,使簇内具有较高的相似度,而簇间的相似度较低。但现有技术中用户画像不够准确,使用的算法其结果依赖于初始聚类中心,容易陷入局部最优的技术问题。针对上述技术问题,本申请提供的技术方案总体思路如下:本申请实施例提供了一种基于局部搜索聚类算法的用户画像方法,所述算法包括:获得预设筛选要求;根据所述预设筛选要求,获得用户历史信息;根据所述用户历史信息,获得待处理数据集;获得预设簇数量K,其中,K为大于2的自然数;根据所述预设簇数量,获得第一执行指令,所述第一执行指令为从待处理数据集中获得K个初始点;将所述K个初始点组成第一集合;获得预设集合个数M,其中,M为大于1的自然数;根据所述预设集合个数,重复执行所述第一执行指令,获得第二集合、第三集合,直到第M集合;将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K-means算法,获得M个划分结果;对所述M个划分结果进行局部搜索机制处理,确定最终聚类结果。在介绍了本申请基本原理后,下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。实施例一如图1所示,本申请实施例提本文档来自技高网...

【技术保护点】
1.一种基于局部搜索聚类算法的用户画像方法,其中,所述方法包括:/n获得预设筛选要求;/n根据所述预设筛选要求,获得用户历史信息;/n根据所述用户历史信息,获得待处理数据集;/n获得预设簇数量K,其中,K为大于2的自然数;/n根据所述预设簇数量,获得第一执行指令,所述第一执行指令为从待处理数据集中获得K个初始点;/n将所述K个初始点组成第一集合;/n获得预设集合个数M,其中,M为大于1的自然数;/n根据所述预设集合个数,重复执行所述第一执行指令,获得第二集合、第三集合,直到第M集合;/n将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K-means算法,获得M个划分结果;/n对所述M个划分结果进行局部搜索机制处理,确定最终聚类结果;/n根据所述聚类结果,获得用户信息。/n

【技术特征摘要】
1.一种基于局部搜索聚类算法的用户画像方法,其中,所述方法包括:
获得预设筛选要求;
根据所述预设筛选要求,获得用户历史信息;
根据所述用户历史信息,获得待处理数据集;
获得预设簇数量K,其中,K为大于2的自然数;
根据所述预设簇数量,获得第一执行指令,所述第一执行指令为从待处理数据集中获得K个初始点;
将所述K个初始点组成第一集合;
获得预设集合个数M,其中,M为大于1的自然数;
根据所述预设集合个数,重复执行所述第一执行指令,获得第二集合、第三集合,直到第M集合;
将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K-means算法,获得M个划分结果;
对所述M个划分结果进行局部搜索机制处理,确定最终聚类结果;
根据所述聚类结果,获得用户信息。


2.如权利要求1所述的方法,其中,对所述M个划分结果进行局部搜索机制处理,确定最终聚类结果,包括:
步骤1:根据所述M个划分结果,进行初始点转移操作,获得M个新初始点集合;
步骤2:对M个所述新初始点集合进行K-means算法,获得新M个划分结果;
步骤3:计算所述新M个划分结果的熵值,获得最小熵值集合;
步骤4:重复步骤1-步骤3,将获得的最小熵值集合的熵值进行比较,直到所述最小熵值集合的对应熵值满足预定次数不变时,确定所述最小熵值集合为所述最终聚类结果。


3.如权利要求2所述的方法,其中,所述步骤1:根据所述M个划分结果,进行初始点转移操作,获得M个新初始点集合,包括:
根据所述M个划分结果,获得第一划分结果;
根据所述第一划分结果,获得第一初始中心点;
计算所述第一初始中心点与所述M个划分结果中的其他M-1个划分结果的距离;
将距离最小的对应划分结果作为目标转移集合;
将所述第一初始中心点转移至所述目标转移集合中;
依次对所述M个划分结果中的初始中心点进行转移,获得所述M个新初始点集合。


4.如权利要求3所述的方法,其中,所述计算所述第一初始中心点与所述M个划分结果中的其他M-1个划分结果的距离,包括:
根据所述M个结果、所述第一划分结果,获得所述其他M-1个划分结果,所述其他M-1个划分结果为M个划分结果除去所述第一划分结果之外的其他剩余划分结果;
根据所述其他M-1个划分结果,获得M-1个中心点位置;
根据所述M-1个中心点位置,获得第二中心点位置,所述第二中心点位置为第二划分结果的中心点位置;
计算所述第一初始中心点与所述第二中心点位置之间的距离,获得第一距离;
依次计算所述第一初始中心点距离剩余M-2个中心点位置的距离,获得第二距离、第三距离,直到第M-1距离。


5.如权利要求4所述的方法,其中,所述方法包括:
根据所述第二距离、第三距离,直到所述第M-1距离,获得第一最小距离;
根据所述第一最小距离,确定对应的划分结果,并将该划分结果作为所述目标转移集合。


6.如权利要求4所述的方法,其中,所述方法还包括:
步骤11:根据所述第一划分结果,获得第二初始中心点,所述第二初始中心点与所述第一初始中心点不同;
步骤12:计算所述第二初始中心点与所述第二中心点位置,所述第二中心点位置为第二划分结果的中心点位置之间的距离;
步骤13:从计算获得的所有距离中,确定第二最小距离,并将所述第二最小距离对应的划分结果作为目标转移集合;
步骤14:将所述第二初始中心点转移至对应的目标转移集合中;
步骤15:重复执行步骤11-步骤14,直到所述第一划分结果中的K个初始中心点全部完成转移。


7.如权利要求6所述的方法,其中,所述方法包括:
根据所述第二划分结果,获得所述第二划分结果中的各初始中心点;
重复执行步骤11-步骤14,依次转移所述第二划分结果中的所有初始中心点至对应的目标转移集合中;
依次获得第三划分结果、第四划分结果、直到第M划分结果;
重复执行步骤11-步骤14,直到M个划分结果中的所有初始中心点转移至新的目标转移集合中为止。


8.如权利要求1所述的方法,其中,对所述M个划分结果进行局部搜索机制处理,确定最终聚类结果,还包括:
步骤21:计算所述M个划分结果的熵值,并按照从小到大进行排列,获得M个划分结果的第一熵值排序信息;
步骤22:获得预设优化集合数量P,其中,P为...

【专利技术属性】
技术研发人员:杜永健
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1