一种基于MEANSHIFT优化的数据处理方法和装置制造方法及图纸

技术编号：31609613 阅读：10 留言：0更新日期：2021-12-29 18:37

本发明专利技术提供了一种基于均值偏移meanshift的数据处理方法和装置。方法包括：实时采集用户行为数据作为原始样本集；根据类簇个数和所述原始样本集来初始化类簇中心；针对所述原始样本集中的每个样本，确定是否存在两个或更多个类簇中心与所述样本的距离最近，若存在，则利用均值偏移meanshift来计算所述样本的局部密度梯度方向，计算所述样本的局部密度梯度方向与所述样本朝向所述两个或更多个类簇中心中的每个类簇中心的方向之间的相似度，以及将所述样本划分至与最大相似度相对应的类簇中；否则，将所述样本划分至距离类簇中心最近的类簇中；以及根据聚类结果来向各用户组实时推送相关数据。相关数据。相关数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于MEANSHIFT优化的数据处理方法和装置

[0001]本专利技术涉及数据挖掘和机器学习领域，更具体地，涉及基于MEANSHIFT优化的数据处理方法和装置。

技术介绍

[0002]随着现代信息技术的快速发展，世界已跨入了互联网+大数据时代。大数据正深刻改变着人们的思维、生产和生活方式，大数据与各个行业的深度融合，产生出前所未有的社会和商业价值。大数据发展过程中产生了很多基于数据挖掘和机器学习的数据处理方法，其中传统的K
‑
means算法从N个样本中随机选择K个样本作为初始的类簇中心，基于最小距离规则，将原始样本划分至距其最近的类簇中心所在的类簇中，当样本与另一个或多个类簇中心的距离均接近最小距离时，K
‑
means的聚类效果很不理想。如何提升这个场景下的聚类效果成为亟待解决的问题。
[0003]中国专利申请“一种基于密度Canopy的K
‑
means聚类方法”(CN201911127104.8)中提出了一种基于密度Canopy的K
‑
means聚类方法，以密度Canopy聚类作为K
‑
means算法的预处理步骤，相比传统K
‑
means算法的聚类准确率有所提高，但是该方法并未考虑原始样本与其他类簇之间的关系，只能确保局部最优，无法得到全局最优。
[0004]中国专利申请“基于神经网络的K
‑
means聚类方法”(CN201810570097.8)中提出了一种基于神经网络...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：实时采集用户行为数据作为原始样本集；根据类簇个数和所述原始样本集来初始化类簇中心；针对所述原始样本集中的每个样本，确定是否存在两个或更多个类簇中心与所述样本的距离最近，若存在，则利用均值偏移meanshift来计算所述样本的局部密度梯度方向，计算所述样本的局部密度梯度方向与所述样本朝向所述两个或更多个类簇中心中的每个类簇中心的方向之间的相似度，以及将所述样本划分至与最大相似度相对应的类簇中；否则，将所述样本划分至距离类簇中心最近的类簇中；以及根据聚类结果来向各用户组实时推送相关数据。2.如权利要求1所述的方法，其特征在于，确定是否存在两个或更多个类簇中心与所述样本的距离最近进一步包括：计算所述样本到K个类簇中心的欧式距离以获取针对所述样本的距离集，其中K为类簇个数；计算所述样本距其他类簇中心c
q
的距离与所述距离集中的最小距离的比值以获取相应的距离比集合其中，若存在集合则确定存在个类簇中心与所述样本距离最近，其中ε是人工经验设置的阈值。3.如权利要求1所述的方法，其特征在于，利用均值偏移meanshift来计算所述样本的局部密度梯度方向进一步包括：计算样本局部的均值漂移向量，其中所述向量表示相对样本自身所指向的估计密度最大增加的方向。4.如权利要求1所述的方法，其特征在于，计算相似度进一步包括：利用余弦相似度算法来计算所述样本的局部密度梯度方向与所述样本朝向所述两个或更多个类簇中心中的每个类簇中心的方向之间的相似度，其中余弦值越大，相似度越高。5.如权利要求1所述的方法，其特征在于，所述初始化类簇中心是通过K
‑
means++聚类算法来进行的，其中各个类簇中心之间的距离尽可能大。6.一种数据处理装置，其特征在于，所述装置包括：数据采集模块，所述数据采集模块被配置成实时采集用户行为数据...

【专利技术属性】
技术研发人员：吕超，张继东，沈志平，吴浩宇，吴风蛟，
申请(专利权)人：天翼智慧家庭科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人