【技术实现步骤摘要】
一种基于局部搜索聚类算法的用户画像方法和装置
本专利技术涉及用户画像领域,尤其涉及一种基于局部搜索聚类算法的用户画像方法和装置。
技术介绍
聚类算法是指将一堆没有标签的数据自动划分成几类的方法,属于无监督学习方法,典型的如k-means聚类算法,以K为参数,把n个对象分成K个簇,使簇内具有较高的相似度,而簇间的相似度较低,聚类算法可应用于多种场景中,如银行用户画像等。但本申请专利技术人在实现本申请实施例中专利技术技术方案的过程中,发现上述技术至少存在如下技术问题:现有技术中用户画像不够准确,使用的算法其结果依赖于初始聚类中心,容易陷入局部最优的技术问题。
技术实现思路
本申请实施例通过提供一种基于局部搜索聚类算法的用户画像方法和装置,解决了现有技术中用户画像不够准确,使用的算法其结果依赖于初始聚类中心,容易陷入局部最优技术问题,达到通过改变初始点,通过多次迭代计算,利用熵值进行结果验算评价,提高分类结果的精准度,避免初始聚类点对聚类结果的影响的技术效果。鉴于上述问题,提出了本申请实施例提供一种基于局部搜索聚类算法的用户画像方法和装置。第一方面,本申请实施例提供了一种基于局部搜索聚类算法的用户画像方法,所述算法包括:获得预设筛选要求;根据所述预设筛选要求,获得用户历史信息;根据所述用户历史信息,获得待处理数据集;获得预设簇数量K,其中,K为大于2的自然数;根据所述预设簇数量,获得第一执行指令,所述第一执行指令为从待处理数据集中获得K个初始点;将所述K个初始点组成第一集 ...
【技术保护点】
1.一种基于局部搜索聚类算法的用户画像方法,其中,所述方法包括:/n获得预设筛选要求;/n根据所述预设筛选要求,获得用户历史信息;/n根据所述用户历史信息,获得待处理数据集;/n获得预设簇数量K,其中,K为大于2的自然数;/n根据所述预设簇数量,获得第一执行指令,所述第一执行指令为从待处理数据集中获得K个初始点;/n将所述K个初始点组成第一集合;/n获得预设集合个数M,其中,M为大于1的自然数;/n根据所述预设集合个数,重复执行所述第一执行指令,获得第二集合、第三集合,直到第M集合;/n将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K-means算法,获得M个划分结果;/n对所述M个划分结果进行局部搜索机制处理,确定最终聚类结果;/n根据所述聚类结果,获得用户信息。/n
【技术特征摘要】
1.一种基于局部搜索聚类算法的用户画像方法,其中,所述方法包括:
获得预设筛选要求;
根据所述预设筛选要求,获得用户历史信息;
根据所述用户历史信息,获得待处理数据集;
获得预设簇数量K,其中,K为大于2的自然数;
根据所述预设簇数量,获得第一执行指令,所述第一执行指令为从待处理数据集中获得K个初始点;
将所述K个初始点组成第一集合;
获得预设集合个数M,其中,M为大于1的自然数;
根据所述预设集合个数,重复执行所述第一执行指令,获得第二集合、第三集合,直到第M集合;
将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K-means算法,获得M个划分结果;
对所述M个划分结果进行局部搜索机制处理,确定最终聚类结果;
根据所述聚类结果,获得用户信息。
2.如权利要求1所述的方法,其中,对所述M个划分结果进行局部搜索机制处理,确定最终聚类结果,包括:
步骤1:根据所述M个划分结果,进行初始点转移操作,获得M个新初始点集合;
步骤2:对M个所述新初始点集合进行K-means算法,获得新M个划分结果;
步骤3:计算所述新M个划分结果的熵值,获得最小熵值集合;
步骤4:重复步骤1-步骤3,将获得的最小熵值集合的熵值进行比较,直到所述最小熵值集合的对应熵值满足预定次数不变时,确定所述最小熵值集合为所述最终聚类结果。
3.如权利要求2所述的方法,其中,所述步骤1:根据所述M个划分结果,进行初始点转移操作,获得M个新初始点集合,包括:
根据所述M个划分结果,获得第一划分结果;
根据所述第一划分结果,获得第一初始中心点;
计算所述第一初始中心点与所述M个划分结果中的其他M-1个划分结果的距离;
将距离最小的对应划分结果作为目标转移集合;
将所述第一初始中心点转移至所述目标转移集合中;
依次对所述M个划分结果中的初始中心点进行转移,获得所述M个新初始点集合。
4.如权利要求3所述的方法,其中,所述计算所述第一初始中心点与所述M个划分结果中的其他M-1个划分结果的距离,包括:
根据所述M个结果、所述第一划分结果,获得所述其他M-1个划分结果,所述其他M-1个划分结果为M个划分结果除去所述第一划分结果之外的其他剩余划分结果;
根据所述其他M-1个划分结果,获得M-1个中心点位置;
根据所述M-1个中心点位置,获得第二中心点位置,所述第二中心点位置为第二划分结果的中心点位置;
计算所述第一初始中心点与所述第二中心点位置之间的距离,获得第一距离;
依次计算所述第一初始中心点距离剩余M-2个中心点位置的距离,获得第二距离、第三距离,直到第M-1距离。
5.如权利要求4所述的方法,其中,所述方法包括:
根据所述第二距离、第三距离,直到所述第M-1距离,获得第一最小距离;
根据所述第一最小距离,确定对应的划分结果,并将该划分结果作为所述目标转移集合。
6.如权利要求4所述的方法,其中,所述方法还包括:
步骤11:根据所述第一划分结果,获得第二初始中心点,所述第二初始中心点与所述第一初始中心点不同;
步骤12:计算所述第二初始中心点与所述第二中心点位置,所述第二中心点位置为第二划分结果的中心点位置之间的距离;
步骤13:从计算获得的所有距离中,确定第二最小距离,并将所述第二最小距离对应的划分结果作为目标转移集合;
步骤14:将所述第二初始中心点转移至对应的目标转移集合中;
步骤15:重复执行步骤11-步骤14,直到所述第一划分结果中的K个初始中心点全部完成转移。
7.如权利要求6所述的方法,其中,所述方法包括:
根据所述第二划分结果,获得所述第二划分结果中的各初始中心点;
重复执行步骤11-步骤14,依次转移所述第二划分结果中的所有初始中心点至对应的目标转移集合中;
依次获得第三划分结果、第四划分结果、直到第M划分结果;
重复执行步骤11-步骤14,直到M个划分结果中的所有初始中心点转移至新的目标转移集合中为止。
8.如权利要求1所述的方法,其中,对所述M个划分结果进行局部搜索机制处理,确定最终聚类结果,还包括:
步骤21:计算所述M个划分结果的熵值,并按照从小到大进行排列,获得M个划分结果的第一熵值排序信息;
步骤22:获得预设优化集合数量P,其中,P为...
【专利技术属性】
技术研发人员:杜永健,
申请(专利权)人:建信金融科技有限责任公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。