【技术实现步骤摘要】
本专利技术涉及数据挖掘和机器学习领域,特别涉及一种面向公平性和平衡约束优化的人口普查聚类方法。
技术介绍
1、k均值聚类算法(k-means clustering algorithm,k-means)是数据分析中很常见的聚类算法,因为它的计算效率高、实现简单而被功能广泛使用。然而,传统的k均值聚类算法运行中总存在对初始聚类中心和k值选择较为敏感的问题。在现实应用中,k均值聚类算法往往未能充分考虑敏感属性(如性别、年龄等)对聚类结果的影响。特别是在进行人口普查、社会学研究等领域,敏感属性的分布均衡至关重要。如果聚类算法没有考虑这些敏感属性的平衡性,可能导致某些群体被过度聚类或被忽视,从而产生数据偏见,影响分析结果的公平性。例如,在进行人口普查时,未能确保不同性别、年龄段或群体的平衡分布,会影响决策的公正性和准确性。此外,样本不均衡也是传统k均值聚类算法面临的一大挑战。k均值聚类算法没有内建机制来解决聚类簇之间的样本不平衡问题,往往会导致某些簇的样本数量过多,而其他簇的样本过少,这样不仅影响聚类效果,还可能影响后续的数据分析和决策支持。
...【技术保护点】
1.一种面向公平性和平衡约束优化的人口普查聚类方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,步骤2包括:
3.根据权利要求2所述的方法,其特征在于,步骤3包括:
4.根据权利要求3所述的方法,其特征在于,步骤3-3包括:第i个人口普查样本的轮廓系数s(i)的计算公式为:
5.根据权利要求4所述的方法,其特征在于,步骤3-4包括:采用如下公式计算平均轮廓系数Sk:
6.根据权利要求5所述的方法,其特征在于,步骤4包括:
7.根据权利要求6所述的方法,其特征在于,步骤4-
...【技术特征摘要】
1.一种面向公平性和平衡约束优化的人口普查聚类方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,步骤2包括:
3.根据权利要求2所述的方法,其特征在于,步骤3包括:
4.根据权利要求3所述的方法,其特征在于,步骤3-3包括:第i个人口普查样本的轮廓系数s(i)的计算公式为:
5.根据权利要求4所述的方法,其特征在于,步骤3-4包括:采用如下公式计算平均轮廓系数sk:
6.根据权利要求5所述的方法,其特征在于,步骤4包括:...
【专利技术属性】
技术研发人员:谢一涵,毕鹏飞,吴周林,王爱萍,梁雨润,
申请(专利权)人:南京信息工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。