一种分群处理方法及装置制造方法及图纸

技术编号：33778061 阅读：13 留言：0更新日期：2022-06-12 14:31

本发明专利技术提供了一种分群处理方法及装置，其中，该方法包括：获取训练样本的分群特征；根据该分群特征的分群节点对该训练样本进行分群建模；根据建立的分群模型与基于该训练样本建立的全样本基准模型进行分群处理，可以解决相关技术中在样本没有已知分群标记的情况下，使用无监督算法进行分群无法根本性满足目标需求的问题，根据分群节点进行分群建模，可以提升分群后模型效果，可以满足目标需求。可以满足目标需求。可以满足目标需求。

全部详细技术资料下载

【技术实现步骤摘要】
一种分群处理方法及装置

[0001]本专利技术涉及数据处理领域，具体而言，涉及一种分群处理方法及装置。

技术介绍

[0002]聚类算法可以实现对客户进行分群的目的，但由于其为无监督算法，采取此算法获得的客户分群一是容易缺乏解释性，难以描述每个客群的特征，二是无法满足分群后，对不同客群建模提升整体模型精度的需求，极有可能造成无监督聚类得到的分群，分群建模后反而使整体模型效果下降。
[0003]决策树算法是一种有监督学习算法，得到的分群直观可解释，但采用此算法需要预先获得一批带有分群标签的样本，而在探索分群建模这一问题上，建模人员并没有“准确”的分群标签样本，无法直接使用此算法解决目标问题。
[0004]在样本没有已知分群标记的情况下，通常会使用无监督算法将数据集分成一个个簇(可理解为一个个小组)，从而实现客户的分群，但无监督聚类的算法也会带来上述问题，无法根本性满足目标需求。
[0005]针对相关技术中在样本没有已知分群标记的情况下，使用无监督算法进行分群无法根本性满足目标需求的问题，尚未提出解决方案。

技术实现思路

[0006]本专利技术实施例提供了一种分群处理方法及装置，以至少解决相关技术中在样本没有已知分群标记的情况下，使用无监督算法进行分群无法根本性满足目标需求的问题。
[0007]根据本专利技术的一个实施例，提供了一种分群处理方法，包括：
[0008]获取训练样本的分群特征；
[0009]根据所述分群特征的分群节点对所述训练样本进行分群建模；r/>[0010]根据建立的分群模型与基于所述训练样本建立的全样本基准模型进行分群处理。
[0011]可选地，根据所述分群特征的分群节点对所述训练样本进行分群建模包括：
[0012]根据所述训练样本或分群的每个分群特征的每个分群节点对所述训练样本进行分群，得到多组分群，其中，每组分群包括两个分群；
[0013]分别对每组分群进行建模，得到每组分群对应的多组分群模型，其中，每组分群模型包括两个分群模型。
[0014]可选地，根据建立的分群模型与基于所述训练样本建立的全样本基准模型进行分群处理包括：
[0015]将每组分群模型进行融合，得到多个融合模型；
[0016]从所述多个融合模型中选取最优融合模型；
[0017]根据所述最优融合模型与所述全样本基准模型进行分群处理。
[0018]可选地，从所述多个融合模型中选取最优融合模型包括：
[0019]分别确定所述多个融合模型的预测效果值；
[0020]从每个分群特征对应的多个融合模型中选取每个分群特征对应的预测效果值最大的目标融合模型；
[0021]从所有分群特征对应的多个目标融合模型中选取所述预测效果值最大的所述最优融合模型。
[0022]可选地，所述方法还包括：
[0023]将所述最优融合模型对应的分群节点确定为目标分群节点；
[0024]在分群树上为对应的分群设置包括所述目标分群节点的分群条件。
[0025]可选地，根据所述最优融合模型与所述全样本基准模型进行分群处理包括：
[0026]将所述融合模型的模型评价指标与所述全样本基准模型的模型评价指标进行对比；
[0027]若所述融合模型的模型评价指标与所述全样本基准模型的模型评价指标的差值大于第一预设阈值，判断所述分群树的当前深度是否大于第二预设阈值；
[0028]若所述融合模型的模型评价指标与所述全样本基准模型的模型评价指标的差值小于或等于所述第一预设阈值，删除本轮确定的目标分群节点，停止分群处理，其中，所述目标分群节点为所述最优融合模型对应的分群节点；
[0029]在分群树的当前深度大于第二预设阈值的情况下，停止分群处理；在所述分群树的当前深度小于或等于所述第二预设阈值的情况下，继续分群建模，直到所述分群树的当前深度大于所述第二预设阈值，停止分群处理。
[0030]可选地，在获取训练样本的分群特征之前，所述方法还包括：
[0031]根据预设比例或者样本时间将所述训练样本划分为训练集与验证集，其中，所述训练集用于建立所述分群模型，所述验证集用于验证所述分群模型；
[0032]基于特征的稳定性确定所述训练样本的分群特征。
[0033]可选地，在获取训练样本的分群特征之前，所述方法还包括：
[0034]对于无序类分群特征，将所述无序分群特征转换为哑变量形式的分群特征，根据预设模型要求设置转换后的所述分群特征的分群节点；
[0035]对于数值类分群特征，对数值类分群特征的缺失值进行预处理，根据预设模型要求设置处理后的所述分群特征的分群节点。
[0036]根据本专利技术的另一个实施例，还提供了一种分群处理装置，包括：
[0037]获取模块，用于获取训练样本的分群特征；
[0038]建模模块，用于根据所述分群特征的分群节点对所述训练样本进行分群建模；
[0039]分群处理模块，用于根据建立的分群模型与基于所述训练样本建立的全样本基准模型进行分群处理。
[0040]可选地，所述建模模块包括：
[0041]分群子模块，用于根据所述训练样本或分群的每个分群特征的每个分群节点对所述训练样本进行分群，得到多组分群，其中，每组分群包括两个分群；
[0042]建模子模块，用于分别对每组分群进行建模，得到每组分群对应的多组分群模型，其中，每组分群模型包括两个分群模型。
[0043]可选地，所述分群处理模块包括：
[0044]融合子模块，用于将每组分群模型进行融合，得到多个融合模型；
[0045]选取子模块，用于从所述多个融合模型中选取最优融合模型；
[0046]分群处理子模块，用于根据所述最优融合模型与所述全样本基准模型进行分群处理。
[0047]可选地，所述选取子模块，还用于分别确定所述多个融合模型的预测效果值；从每个分群特征对应的多个融合模型中选取每个分群特征对应的预测效果值最大的目标融合模型；从所有分群特征对应的多个目标融合模型中选取所述预测效果值最大的所述最优融合模型。
[0048]可选地，所述装置还包括：
[0049]确定模块，用于将所述最优融合模型对应的分群节点确定为目标分群节点；
[0050]设置模块，用于在分群树上为对应的分群设置包括所述目标分群节点的分群条件。
[0051]可选地，所述分群处理子模块，还用于
[0052]将所述融合模型的模型评价指标与所述全样本基准模型的模型评价指标进行对比；
[0053]若所述融合模型的模型评价指标与所述全样本基准模型的模型评价指标的差值大于第一预设阈值，判断所述分群树的当前深度是否大于第二预设阈值；
[0054]若所述融合模型的模型评价指标与所述全样本基准模型的模型评价指标的差值小于或等于所述第一预设阈值，删除本轮确定的目标分群节点，停止分群处理，其中，所述目标分群节点为所述最优本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种分群处理方法，其特征在于，包括：获取训练样本的分群特征；根据所述分群特征的分群节点对所述训练样本进行分群建模；根据建立的分群模型与基于所述训练样本建立的全样本基准模型进行分群处理。2.根据权利要求1所述的方法，其特征在于，根据所述分群特征的分群节点对所述训练样本进行分群建模包括：根据所述训练样本或分群的每个分群特征的每个分群节点对所述训练样本进行分群，得到多组分群，其中，每组分群包括两个分群；分别对每组分群进行建模，得到每组分群对应的多组分群模型，其中，每组分群模型包括两个分群模型。3.根据权利要求2所述的方法，其特征在于，根据建立的分群模型与基于所述训练样本建立的全样本基准模型进行分群处理包括：将每组分群模型进行融合，得到多个融合模型；从所述多个融合模型中选取最优融合模型；根据所述最优融合模型与所述全样本基准模型进行分群处理。4.根据权利要求3所述的方法，其特征在于，从所述多个融合模型中选取最优融合模型包括：分别确定所述多个融合模型的预测效果值；从每个分群特征对应的多个融合模型中选取每个分群特征对应的预测效果值最大的目标融合模型；从所有分群特征对应的多个目标融合模型中选取所述预测效果值最大的所述最优融合模型。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：将所述最优融合模型对应的分群节点确定为目标分群节点；在分群树上为对应的分群设置包括所述目标分群节点的分群条件。6.根据权利要求3所述的方法，其特征在于，根据所述最优融合模型与所述全样本基准模型进行分群处理包括：将所述融合模型的模型评价指标与所述全样本基准模型的模型评价指标进行对比；若所述融合模型的模型评价指标与所述全样本基准模型的模型评价指标的差值大于第一预设阈值，判断所述分群树的当前深度是否大于第二预设阈值；若所述融合模型的模型评价指...

【专利技术属性】
技术研发人员：黄佳玥，
申请(专利权)人：兴业消费金融股份公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人