基于随机森林的灵活就业人员公积金缴存方式推荐方法技术

技术编号:35491768 阅读:15 留言:0更新日期:2022-11-05 16:47
本发明专利技术涉及一种基于随机森林的灵活就业人员公积金缴存方式推荐方法,包括如下步骤:选用历史公开数据集,选取灵活就业人员信息user和公积金缴存方式信息payment;定义初始信息矩阵Vu_p,对初始信息矩阵Vu_p中的数据使用合成少数类过采样技术smote,解决Vu_p中存在的数据不平衡现象,得到最终训练集Vtrain;在训练集Vtrain上使用随机森林模型RF训练,得到预训练好的灵活就业人员公积金缴存方式预测模型Mp。本发明专利技术方法可以有针对性的快速有效的为灵活就业人员推荐公积金的缴存方式。的为灵活就业人员推荐公积金的缴存方式。的为灵活就业人员推荐公积金的缴存方式。

【技术实现步骤摘要】
基于随机森林的灵活就业人员公积金缴存方式推荐方法


[0001]本专利技术涉及推荐领域,尤其涉及一种基于随机森林的灵活就业人员公积金缴存方式推荐方法。

技术介绍

[0002]近年来,随着互联网行业的快速发展,大数据、云计算和人工智能等新一代信息技术广泛应用于不同的行业和领域,信息量呈现爆发式增长,而公积金中心的业务量也逐渐增多,公积金缴存人个人信息与不同服务渠道的信息交互,产生了多源异构、规模海量的大数据。公积金中心也不断推出与灵活就业人员缴存公积金相关的政策,旨在为灵活就业人员提供便利,提升服务质量,且在当今的移动互联网时代,更加关注结合人工智能技术的服务应用;因此,为了提前获取灵活就业人员需求,主动提供有针对性的服务,需对真实数据进行充分的分析与挖掘,从而为后续的政策推广提供支持。
[0003]目前,公积金缴存方式一共有三种,分别是“按月定额缴存”、“一次性缴存”以及“自由缴存”。然而,如何向灵活就业人员推荐适合他们的公积金缴存方式仍然是一个难题,该技术旨在运用大数据、人工智能等技术,结合行业相关的海量数据资源,分析用户群体的偏好,将用户与其感兴趣的信息进行连接,帮助用户快速准确地获取感兴趣的信息,实现个性化精准推荐。
[0004]重庆公积金中心顺应时代发展,为进一步提升精准化服务管理水平,利用个性化推荐系统技术,构建公积金缴存方式模型,以便更好地帮助广大缴存人解决和改善住房问题,获得更精准更高效更智能更温馨的公积金服务体验。
[0005]当前没有对灵活就业人员的公积金缴存方式的推荐方法,所以亟需一种方法来解决这一问题。

技术实现思路

[0006]针对现有技术存在的上述问题,本专利技术要解决的技术问题是:如何向灵活就业人员的推荐与其匹配的公积金缴存方式。
[0007]为解决上述技术问题,本专利技术采用如下技术方案:一种基于随机森林的灵活就业人员公积金缴存方式推荐方法,包括如下步骤:
[0008]S100:选用历史公开数据集,数据集包括灵活就业人员信息user和公积金缴存方式信息payment;user包括自变量特征,payment包括因变量特征;
[0009]S200:采用随机森林模型作为预测模型Mp并进行模型参数初始化,对预测模型Mp进行训练,具体步骤如下:
[0010]S300:对公开数据集中所有数据进行数据平衡性处理得到数据集Vtrain;
[0011]S310:从数据集Vtrain中进行T次随机采样,得到T个采样集,选择第t个采样集Dt中的一部分数据作为训练集Dt_train,另一部分作为验证集Dt_valid,其中t∈(1,...,T);
[0012]S320:从Dt_train中随机选择1个自变量特征组成特征集C,特征集C中的第j个特
征包括s个子特征,其中,每个子特征对应一种缴存方式y
m
,j=1,2,...,J,J表示C中特征的数量;
[0013]所述S320中对公开数据集中的所有数据进行数据处理所采用的方法是合成少数类过采样技术,合成少数类过采样技术smote为现有技术。
[0014]S321:利用熵值公式计算C的总熵,具体计算表达式如下:
[0015][0016]其中,|C
i
|表示Dt_train上第i种缴存方式的特征总数,其中,m表示第i种缴存方式的数量;
[0017]S322:计算C中第j个特征的条件熵H(Dt

trainj),具体计算表达式如下:
[0018][0019]其中,n代表特征C
j
中包含的特征值的总数,k=1,...,n,|Dt_traint
j
|代表C
j
中包含的缴存人总数,|Dt_traint
jk
|代表C
j
中值等于k时的缴存人总数,H(Dt_traint
jk
)是代入熵值公式中计算出的C
j
中值等于k时的熵值;
[0020]S330:利用总熵和条件熵计算第j个特征的信息增益G(j),具体表达式如下:
[0021]G(j)=H(Dt_train)

H(Dt_trainj);
ꢀꢀ
(3)
[0022]S340:j遍历所有取值,计算出C中J个特征的信息增益,然后将求得的所有信息增益降序排列,选择信息增益最大值对应的特征作为根节点;
[0023]将增益最大值对应的特征所包含的p个子特征作为所述该根节点的p个分支节点;
[0024]将增益最大值对应的特征中的每个子特征所对应的缴存方式作为对应分支节点下的叶节点;
[0025]S400:由根节点、分支节点和叶节点构成采样集Dt的决策树Mt,将验证集Dt_valid中的所有数据作为决策树Mt的输入;
[0026]S410:计算Mt的原始精度Precision_old,表达式如下:
[0027][0028]其中,TP表示针对根节点的真实值与预测值都为真,FP表示针对根节点的真实值为假且预测值为真;
[0029]S420:令q=1;
[0030]S430:计算第q个分支节点的精度Precision_new,具体表达式如下:
[0031][0032]其中,TP

表示第q个分支节点的真实值与预测值都为真,FP

表示第q个分支节点的真实值为假且预测值为真;
[0033]S440:当Precision_old≤Precision_new时,删除第q个分支节点,令q=q+1并返回S420;否则得到训练好的决策树Mt

,并执行下一步;
[0034]S500:遍历所有的T个采样集,得到T个Mt

组成训练好的预测模型Mp;
[0035]S600:选取待预测灵活就业人员信息t_user,利用python将t_user进行格式转换,得到适用于Mp输入的数据格式,所述适用于Mp输入的数据格式为信息矩阵Vu_t=[x1...x
t
];
[0036]S700:将信息矩阵Vu_t输入训练好的预测模型Mp中,得到T个预测缴存方式,将T个预测缴存方式中出现次数最多的缴存方式作为对该待预测灵活就业人员的公积金缴存方式推荐结果。
[0037]作为优选,所述S300中对公开数据集中所有数据进行数据平衡性处理,得到数据集Vtrain的具体步骤如下:
[0038]利用user和payment建立初始信息矩阵Vu_p,Vu_p表达式如下:
[0039][0040]其中,x1,...,x
n
表示灵活就业人员的个人信息,n表示历史灵活就业人员总数,y1,...,y
m
表示灵活就业人员的公积金缴存方式,m∈(a,b,c);
[0041]对数据进行平衡性处理,得到训练集Vtrain,表达式如下:...

【技术保护点】

【技术特征摘要】
1.一种基于随机森林的灵活就业人员公积金缴存方式推荐方法,其特征在于:包括如下步骤:S100:选用历史公开数据集,数据集包括灵活就业人员信息user和公积金缴存方式信息payment;user包括自变量特征,payment包括因变量特征;S200:采用随机森林模型作为预测模型Mp并进行模型参数初始化,对预测模型Mp进行训练,具体步骤如下:S300:对公开数据集中所有数据进行数据平衡性处理得到数据集Vtrain;S310:从数据集Vtrain中进行T次随机采样,得到T个采样集,选择第t个采样集Dt中的一部分数据作为训练集Dt_train,另一部分作为验证集Dt_valid,其中t∈(1,...,T);S320:从Dt_train中随机选择I个自变量特征组成特征集C,特征集C中的第j个特征包括s个子特征,其中,每个子特征对应一种缴存方式y
m
,j=1,2,

,J,J表示C中特征的数量;S321:利用熵值公式计算C的总熵,具体计算表达式如下:其中,|C
i
|表示Dt_train上第i种缴存方式的特征总数,其中,m表示第i种缴存方式的数量;S322:计算C中第j个特征的条件熵H(Dt

train
j
),具体计算表达式如下:其中,n代表特征C
j
中包含的特征值的总数,k=1,...,n,|Dt_traint
j
|代表C
j
中包含的缴存人总数,|Dt_traint
jk
|代表C
j
中值等于k时的缴存人总数,H(Dt_traint
jk
)是代入熵值公式中计算出的C
j
中值等于k时的熵值;S330:利用总熵和条件熵计算第j个特征的信息增益G(j),具体表达式如下:G(j)=H(Dt_train)

H(Dt_train
j
);(3)S340:j遍历所有取值,计算出C中J个特征的信息增益,然后将求得的所有信息增益降序排列,选择信息增益最大值对应的特征作为根节点;将增益最大值对应的特征所包含的p个子特征作为所述该根节点的p个分支节点;将增益最大值对应的特征中的每个子特征所对应的缴存方式作为对应分支节点下的叶节点;S400:由根节点、分支节点和叶节点构成采样集Dt的决策树Mt,将验证集Dt_v...

【专利技术属性】
技术研发人员:刘娟陈雪宋阳杨世利宋鹏熊炜裴劼洪晓霞王仁菊杨颖李佳江欣祝鄢萌
申请(专利权)人:陈雪宋阳杨世利宋鹏
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1