一种面向公平性和平衡约束优化的人口普查聚类方法技术

技术编号:45577008 阅读:13 留言:0更新日期:2025-06-20 21:58
本发明专利技术提供了一种面向公平性和平衡约束优化的人口普查聚类方法,包括:步骤1,获取人口普查抽样数据集X;步骤2,使用布谷鸟搜索算法进行优化,选取初始人口聚类中心;步骤3,在K值选择区间内进行轮廓系数比较法,选取人口调查聚类最佳K值;步骤4,进行加权欧式距离优化迭代;步骤5,引入公平性和平衡约束;步骤6,迭代直至达到收敛条件。该方法通过优化聚类簇内样本数量,消除数据偏见的影响,保障各个群体在聚类结果中的公正性和代表性。本发明专利技术的优化方法在处理复杂人口普查数据,尤其是在涉及敏感属性和样本不均衡的场景时,能够显著提高聚类结果的准确性、公平性和稳定性,并有效提高人口普查数据分析的可靠性与公正性。

【技术实现步骤摘要】

本专利技术涉及数据挖掘和机器学习领域,特别涉及一种面向公平性和平衡约束优化的人口普查聚类方法


技术介绍

1、k均值聚类算法(k-means clustering algorithm,k-means)是数据分析中很常见的聚类算法,因为它的计算效率高、实现简单而被功能广泛使用。然而,传统的k均值聚类算法运行中总存在对初始聚类中心和k值选择较为敏感的问题。在现实应用中,k均值聚类算法往往未能充分考虑敏感属性(如性别、年龄等)对聚类结果的影响。特别是在进行人口普查、社会学研究等领域,敏感属性的分布均衡至关重要。如果聚类算法没有考虑这些敏感属性的平衡性,可能导致某些群体被过度聚类或被忽视,从而产生数据偏见,影响分析结果的公平性。例如,在进行人口普查时,未能确保不同性别、年龄段或群体的平衡分布,会影响决策的公正性和准确性。此外,样本不均衡也是传统k均值聚类算法面临的一大挑战。k均值聚类算法没有内建机制来解决聚类簇之间的样本不平衡问题,往往会导致某些簇的样本数量过多,而其他簇的样本过少,这样不仅影响聚类效果,还可能影响后续的数据分析和决策支持。p>

2、为了解本文档来自技高网...

【技术保护点】

1.一种面向公平性和平衡约束优化的人口普查聚类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,步骤2包括:

3.根据权利要求2所述的方法,其特征在于,步骤3包括:

4.根据权利要求3所述的方法,其特征在于,步骤3-3包括:第i个人口普查样本的轮廓系数s(i)的计算公式为:

5.根据权利要求4所述的方法,其特征在于,步骤3-4包括:采用如下公式计算平均轮廓系数Sk:

6.根据权利要求5所述的方法,其特征在于,步骤4包括:

7.根据权利要求6所述的方法,其特征在于,步骤4-3中,采用如下公式计...

【技术特征摘要】

1.一种面向公平性和平衡约束优化的人口普查聚类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,步骤2包括:

3.根据权利要求2所述的方法,其特征在于,步骤3包括:

4.根据权利要求3所述的方法,其特征在于,步骤3-3包括:第i个人口普查样本的轮廓系数s(i)的计算公式为:

5.根据权利要求4所述的方法,其特征在于,步骤3-4包括:采用如下公式计算平均轮廓系数sk:

6.根据权利要求5所述的方法,其特征在于,步骤4包括:...

【专利技术属性】
技术研发人员:谢一涵毕鹏飞吴周林王爱萍梁雨润
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1