一种基于深度公平聚类的人口统计数据分析方法与系统技术方案

技术编号：41325932 阅读：5 留言：0更新日期：2024-05-13 15:03

本发明专利技术涉及数据挖掘聚类分析领域，提高了一种基于深度公平聚类的人口统计数据分析方法与系统。该方法包括，将性别作为提供公平保护效果的二元数据点PSV属性，输入人口普查数据集，获取人口普查数据集的敏感属性，得到两个具有不同特征的群体，即第一群体和第二群体；对第一群体和第二群体进行比例表示，对公平保护的期望值进行粗略评估，确定公平保护的目标值，即初始聚类簇；构建聚类神经网络，引入判断函数，将所述公平分配簇矩阵映射到输出矩阵；计算公平分配簇矩阵的信息熵、以及公平分配簇矩阵与输出矩阵的条件熵；计算信息熵与条件熵之间的差值，并最大化所述差值；基于初始聚类簇、所述差值和弹性网络，构建聚类目标约束。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据挖掘聚类分析领域，尤其涉及一种基于深度公平聚类的人口统计数据分析方法与系统。

技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。

2、公平聚类在统计数据分析领域常常应用于多个问题场景，例如保护人口健康与社会福利问题，使用公平聚类算法对人口统计数据集进行分析，对年龄段和性别等敏感属性添加保护效果，以发现不同群体之间的社会经济差异。以及协助教育资源分配问题，利用公平聚类算法对人口统计数据集中的教育水平和教育需求进行分析，以改善不同群体之间的教育资源分配等问题。

3、然而传统的统计数据分析方法在处理人口统计数据时往往基于划分的聚类算法，在处理大规模数据时时间开销过大，而且传统的基于划分的聚类算法对初始中心点的选择非常敏感，尤其在面对数据分布复杂的情况下，不同的初始中心点可能导致完全不同的聚类结果。

技术实现思路

1、为了解决上述
技术介绍
中存在的技术问题，本专利技术提供一种基于深度公平聚类的人口统计数据分析方法与系统，本专利技术在深度公平聚类基础上引入了基于整数线性规划的简化公平约束条件，在保持聚类结果准确性的同时，实现了对敏感属性数据对象更高水平的公平保护效果。

2、为了实现上述目的，本专利技术采用如下技术方案：

3、本专利技术的第一个方面提供一种基于深度公平聚类的人口统计数据分析方法。

4、一种基于深度公平聚类的人口统计数据分析方法，包括：

5、获取人口普查

6、将性别作为提供公平保护效果的二元数据点psv属性，输入人口普查数据集，获取人口普查数据集的敏感属性，得到两个具有不同特征的群体，即第一群体和第二群体；对第一群体和第二群体进行比例表示，对公平保护的期望值进行粗略评估，确定公平保护的目标值，即初始聚类簇；

7、构建聚类神经网络，引入判断函数，将所述公平分配簇矩阵映射到输出矩阵；计算公平分配簇矩阵的信息熵、以及公平分配簇矩阵与输出矩阵的条件熵；计算信息熵与条件熵之间的差值，并最大化所述差值；基于初始聚类簇、所述差值和弹性网络，构建聚类目标约束；

8、基于聚类目标约束和聚类公平约束，构建总约束，采用强化后的总约束更新分配簇，得到最终聚类簇，以此对人口普查数据进行聚类，输出聚类结果。

9、进一步地，所述公平分配簇矩阵中每行对应人口普查数据集中的一个数据点，每一列对应数据点的两个二元数据点psv的值；

10、进一步地，所述公平保护的期望值的计算过程包括：确定某一群体在数据集中的分布比例，得到第三群体；定义第三群体在初始聚类簇的分布比例，得到第四群体；对第三群体和第四群体进行比例表示，量化对二元数据点psv的值的公平保护效果，计算公平保护的期望值。

11、进一步地，所述弹性网络添加在聚类神经网络中，所述弹性网络为：

12、；

13、其中，表示模型复杂度，表示模型的泛化能力。

14、进一步地，所述聚类公平约束条件为：

15、；

16、其中，表示聚类公平约束条件，i表示n个数据点中的第i个样本，j表示个聚类簇数量中的第j个样本，是一个指示变量，用于表示第个样本是否真实属于第类群体，是一个指示变量，用于表示模型预测的第个样本属于第群体的概率，表示第i个样本被分配为第k类的概率预测值，表示softmax函数，作为判断函数，代表输入数据集的第个数据点。

17、进一步地，对强化后公平分配簇矩阵中数据点的敏感属性进行编码标识，构建标识结果矩阵；基于标识结果矩阵和给定的受保护群体的保护效果分数，在满足期望公平目标下，得出聚类目标约束。

18、进一步地，所述聚类目标约束为：

19、；

20、其中，表示聚类目标约束，i表示n个数据点中的第i个样本，表示softmax函数，作为判断函数，代表输入数据集的第个数据点，h()表示损失函数，表示弹性网络。

21、本专利技术的第二个方面提供一种基于深度公平聚类的人口统计数据分析系统。

22、一种基于深度公平聚类的人口统计数据分析系统，包括：

23、数据获取模块，其被配置为：获取人口普查数据集，建立公平分配簇矩阵；

24、初始聚类模块，其被配置为：将性别作为提供公平保护效果的二元数据点psv属性，输入人口普查数据集，获取人口普查数据集的敏感属性，得到两个具有不同特征的群体，即第一群体和第二群体；对第一群体和第二群体进行比例表示，对公平保护的期望值进行粗略评估，确定公平保护的目标值，即初始聚类簇；

25、约束构建模块，其被配置为：构建聚类神经网络，引入判断函数，将所述公平分配簇矩阵映射到输出矩阵；计算公平分配簇矩阵的信息熵、以及公平分配簇矩阵与输出矩阵的条件熵；计算信息熵与条件熵之间的差值，并最大化所述差值；基于初始聚类簇、所述差值和弹性网络，构建聚类目标约束；

26、最终聚类模块，其被配置为：基于聚类目标约束和聚类公平约束，构建总约束，采用强化后的总约束更新分配簇，得到最终聚类簇，以此对人口普查数据进行聚类，输出聚类结果。

27、本专利技术的第三个方面提供一种计算机可读存储介质。

28、一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的基于深度公平聚类的人口统计数据分析方法中的步骤。

29、本专利技术的第四个方面提供一种计算机设备。

30、一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的基于深度公平聚类的人口统计数据分析方法中的步骤。

31、与现有技术相比，本专利技术的有益效果是：

32、公平聚类在统计数据分析领域有广泛应用，包括保护人口健康与社会福利、协助教育资源分配等问题。传统的基于划分的聚类算法在处理大规模数据时存在时间开销大、对初始中心点敏感等问题。而深度聚类能够更好地处理大规模复杂数据，捕捉非线性关系，具有较强的鲁棒性和灵活性。本专利技术在深度公平聚类基础上引入了基于整数线性规划的简化公平约束条件，在保持聚类结果准确性的同时，实现了对敏感属性数据对象更高水平的公平保护效果。

33、基于现有的研究可知，使用神经网络建立的公平聚类模型常常依赖于一些大规模的技术手段，比如数据增广与预训练，容易陷入局部最优解，远离全局最优，导致模型收敛效果性能不佳。本专利技术提出了一种基于线性规划的简化约束算法，将聚类目标与公平保护目标结合起来，提高了聚类算法的适应性与灵活性，而且相对于常用的缺少理论保证的启发式设计，强化了聚类过程的可解释性与理论支持。

本文档来自技高网...

【技术保护点】

1.一种基于深度公平聚类的人口统计数据分析方法，其特征在于，包括：

2.根据权利要求1所述的基于深度公平聚类的人口统计数据分析方法，其特征在于，所述公平分配簇矩阵中每行对应人口普查数据集中的一个数据点，每一列对应数据点的两个二元数据点PSV的值。

3.根据权利要求1所述的基于深度公平聚类的人口统计数据分析方法，其特征在于，所述公平保护的期望值的计算过程包括：确定某一群体在数据集中的分布比例，得到第三群体；定义第三群体在初始聚类簇的分布比例，得到第四群体；对第三群体和第四群体进行比例表示，量化对二元数据点PSV的值的公平保护效果，计算公平保护的期望值。

4.根据权利要求1所述的基于深度公平聚类的人口统计数据分析方法，其特征在于，所述弹性网络添加在聚类神经网络中，所述弹性网络为：

5.根据权利要求1所述的基于深度公平聚类的人口统计数据分析方法，其特征在于，所述聚类公平约束为：

6.根据权利要求1所述的基于深度公平聚类的人口统计数据分析方法，其特征在于，对强化后公平分配簇矩阵中数据点的敏感属性进行编码标识，构建标识结果矩阵；基

7.根据权利要求6所述的基于深度公平聚类的人口统计数据分析方法，其特征在于，所述聚类目标约束为：

8.一种基于深度公平聚类的人口统计数据分析系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于深度公平聚类的人口统计数据分析方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于深度公平聚类的人口统计数据分析方法中的步骤。

...

【技术特征摘要】

1.一种基于深度公平聚类的人口统计数据分析方法，其特征在于，包括：

2.根据权利要求1所述的基于深度公平聚类的人口统计数据分析方法，其特征在于，所述公平分配簇矩阵中每行对应人口普查数据集中的一个数据点，每一列对应数据点的两个二元数据点psv的值。

3.根据权利要求1所述的基于深度公平聚类的人口统计数据分析方法，其特征在于，所述公平保护的期望值的计算过程包括：确定某一群体在数据集中的分布比例，得到第三群体；定义第三群体在初始聚类簇的分布比例，得到第四群体；对第三群体和第四群体进行比例表示，量化对二元数据点psv的值的公平保护效果，计算公平保护的期望值。

4.根据权利要求1所述的基于深度公平聚类的人口统计数据分析方法，其特征在于，所述弹性网络添加在聚类神经网络中，所述弹性网络为：

5.根据权利要求1所述的基于深度公平聚类的人口统计数据分析方法，其特征在于，所述聚类公平约束为：

【专利技术属性】
技术研发人员：潘奕霖，郭龙坤，
申请(专利权)人：齐鲁工业大学山东省科学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人