一种基于MEANSHIFT优化的数据处理方法和装置制造方法及图纸

技术编号:31609613 阅读:10 留言:0更新日期:2021-12-29 18:37
本发明专利技术提供了一种基于均值偏移meanshift的数据处理方法和装置。方法包括:实时采集用户行为数据作为原始样本集;根据类簇个数和所述原始样本集来初始化类簇中心;针对所述原始样本集中的每个样本,确定是否存在两个或更多个类簇中心与所述样本的距离最近,若存在,则利用均值偏移meanshift来计算所述样本的局部密度梯度方向,计算所述样本的局部密度梯度方向与所述样本朝向所述两个或更多个类簇中心中的每个类簇中心的方向之间的相似度,以及将所述样本划分至与最大相似度相对应的类簇中;否则,将所述样本划分至距离类簇中心最近的类簇中;以及根据聚类结果来向各用户组实时推送相关数据。相关数据。相关数据。

【技术实现步骤摘要】
一种基于MEANSHIFT优化的数据处理方法和装置


[0001]本专利技术涉及数据挖掘和机器学习领域,更具体地,涉及基于MEANSHIFT优化的数据处理方法和装置。

技术介绍

[0002]随着现代信息技术的快速发展,世界已跨入了互联网+大数据时代。大数据正深刻改变着人们的思维、生产和生活方式,大数据与各个行业的深度融合,产生出前所未有的社会和商业价值。大数据发展过程中产生了很多基于数据挖掘和机器学习的数据处理方法,其中传统的K

means算法从N个样本中随机选择K个样本作为初始的类簇中心,基于最小距离规则,将原始样本划分至距其最近的类簇中心所在的类簇中,当样本与另一个或多个类簇中心的距离均接近最小距离时,K

means的聚类效果很不理想。如何提升这个场景下的聚类效果成为亟待解决的问题。
[0003]中国专利申请“一种基于密度Canopy的K

means聚类方法”(CN201911127104.8)中提出了一种基于密度Canopy的K

means聚类方法,以密度Canopy聚类作为K

means算法的预处理步骤,相比传统K

means算法的聚类准确率有所提高,但是该方法并未考虑原始样本与其他类簇之间的关系,只能确保局部最优,无法得到全局最优。
[0004]中国专利申请“基于神经网络的K

means聚类方法”(CN201810570097.8)中提出了一种基于神经网络的K

means聚类方法,解决现有的K

means用两个独立的步骤迭代地优化聚类中心和标签分配导致推理速度慢、不能处理新的数据、大规模数据、在线数据,及对初始值敏感的问题,然而该方法也并未考虑样本与多个类簇最近且近似的场景,无法在该场景下合理地划分样本。
[0005]因此,为了针对样本与多个类簇最近且近似情况下,让样本划分的更加合理,进而提升聚类精度,希望提供一种改进的数据处理方法。

技术实现思路

[0006]提供本
技术实现思路
以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本
技术实现思路
并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
[0007]本专利技术提出一种基于均值偏移meanshift优化的数据处理方法和装置,考虑原始样本与其他类簇之间的关系,使得各个类簇边缘及其周边区域划分更加合理,簇内紧凑,大大提高聚类的精度和速度。
[0008]根据本专利技术的一个方面,提供了一种数据处理方法,所述方法包括:
[0009]实时采集用户行为数据作为原始样本集;
[0010]根据类簇个数和所述原始样本集来初始化类簇中心;
[0011]针对所述原始样本集中的每个样本,确定是否存在两个或更多个类簇中心与所述样本的距离最近,
[0012]若存在,则
[0013]利用均值偏移meanshift来计算所述样本的局部密度梯度方向,
[0014]计算所述样本的局部密度梯度方向与所述样本朝向所述两个或更多个类簇中心中的每个类簇中心的方向之间的相似度,以及
[0015]将所述样本划分至与最大相似度相对应的类簇中;
[0016]否则,将所述样本划分至距离类簇中心最近的类簇中;以及
[0017]根据聚类结果来向各用户组实时推送相关数据。
[0018]根据本专利技术的一个实施例,确定是否存在两个或更多个类簇中心与所述样本的距离最近进一步包括:
[0019]计算所述样本到K个类簇中心的欧式距离以获取针对所述样本的距离集,其中K为类簇个数;
[0020]计算所述样本距其他类簇中心c
q
的距离与所述距离集中的最小距离的比值以获取相应的距离比集合
[0021]其中,若存在集合则确定存在个类簇中心与所述样本距离最近,其中ε是人工经验设置的阈值。
[0022]根据本专利技术的进一步实施例,利用均值偏移meanshift来计算所述样本的局部密度梯度方向进一步包括:
[0023]计算样本局部的均值漂移向量,其中所述向量表示相对样本自身所指向的估计密度最大增加的方向。
[0024]根据本专利技术的进一步实施例,计算相似度进一步包括:
[0025]利用余弦相似度算法来计算所述样本的局部密度梯度方向与所述样本朝向所述两个或更多个类簇中心中的每个类簇中心的方向之间的相似度,其中余弦值越大,相似度越高。
[0026]根据本专利技术的进一步实施例,所述初始化类簇中心是通过K

means++聚类算法来进行的,其中各个类簇中心之间的距离尽可能大。
[0027]根据本专利技术的另一方面,提供了一种数据处理装置,所述装置包括:
[0028]数据采集模块,所述数据采集模块被配置成实时采集用户行为数据作为原始样本集;
[0029]初始化类簇中心模块,所述初始化类簇中心模块被配置成根据类簇个数和所述原始样本集来初始化类簇中心;
[0030]数据聚类模块,所述数据聚类模块被配置成:
[0031]针对所述原始样本集中的每个样本,确定是否存在两个或更多个类簇中心与所述样本的距离最近,
[0032]若存在,则
[0033]利用均值偏移meanshift来计算所述样本的局部密度梯度方向,计算所述样本的局部密度梯度方向与所述样本朝向所述两个或更多个类簇中心中的每个类簇中心的方向之间的相似度,以及
[0034]将所述样本划分至与最大相似度相对应的类簇中;
[0035]否则,将所述样本划分至距离类簇中心最近的类簇中;以及
[0036]数据推送模块,所述数据推送模块被配置成基于聚类结果来向与各个类簇相关联的各用户组实时推送相关数据。
[0037]根据本专利技术的一个实施例,确定是否存在两个或更多个类簇中心与所述样本的距离最近进一步包括:
[0038]计算所述样本到K个类簇中心的欧式距离以获取针对所述样本的距离集,其中K为类簇个数;
[0039]计算所述样本距其他类簇中心c
q
的距离与所述距离集中的最小距离的比值以获取相应的距离比集合
[0040]其中,若存在集合则确定存在个类簇中心与所述样本距离最近,其中ε是人工经验设置的阈值。
[0041]根据本专利技术的进一步实施例,利用均值偏移meanshift来计算所述样本的局部密度梯度方向进一步包括:
[0042]计算样本局部的均值漂移向量,其中所述向量表示相对样本自身所指向的估计密度最大增加的方向。
[0043]根据本专利技术的进一步实施例,计算相似度进一步包括:
[0044]利用余弦相似度算法来计算所述样本的局部密度梯度方向与所述样本朝向所述两个或更多个类簇中心中的每个类簇中心的方向之间的相似度,其中余弦值越大,相似度越高。
[0045]根据本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:实时采集用户行为数据作为原始样本集;根据类簇个数和所述原始样本集来初始化类簇中心;针对所述原始样本集中的每个样本,确定是否存在两个或更多个类簇中心与所述样本的距离最近,若存在,则利用均值偏移meanshift来计算所述样本的局部密度梯度方向,计算所述样本的局部密度梯度方向与所述样本朝向所述两个或更多个类簇中心中的每个类簇中心的方向之间的相似度,以及将所述样本划分至与最大相似度相对应的类簇中;否则,将所述样本划分至距离类簇中心最近的类簇中;以及根据聚类结果来向各用户组实时推送相关数据。2.如权利要求1所述的方法,其特征在于,确定是否存在两个或更多个类簇中心与所述样本的距离最近进一步包括:计算所述样本到K个类簇中心的欧式距离以获取针对所述样本的距离集,其中K为类簇个数;计算所述样本距其他类簇中心c
q
的距离与所述距离集中的最小距离的比值以获取相应的距离比集合其中,若存在集合则确定存在个类簇中心与所述样本距离最近,其中ε是人工经验设置的阈值。3.如权利要求1所述的方法,其特征在于,利用均值偏移meanshift来计算所述样本的局部密度梯度方向进一步包括:计算样本局部的均值漂移向量,其中所述向量表示相对样本自身所指向的估计密度最大增加的方向。4.如权利要求1所述的方法,其特征在于,计算相似度进一步包括:利用余弦相似度算法来计算所述样本的局部密度梯度方向与所述样本朝向所述两个或更多个类簇中心中的每个类簇中心的方向之间的相似度,其中余弦值越大,相似度越高。5.如权利要求1所述的方法,其特征在于,所述初始化类簇中心是通过K

means++聚类算法来进行的,其中各个类簇中心之间的距离尽可能大。6.一种数据处理装置,其特征在于,所述装置包括:数据采集模块,所述数据采集模块被配置成实时采集用户行为数据...

【专利技术属性】
技术研发人员:吕超张继东沈志平吴浩宇吴风蛟
申请(专利权)人:天翼智慧家庭科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1