【技术实现步骤摘要】
数据样本聚类方法及装置
[0001]本专利技术涉及数据处理,尤其是一种数据样本聚类方法及装置。
技术介绍
[0002]聚类是在人工智能、机器学习领域数据处理技术。聚类是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。目的是组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差距越大,说明聚类效果越好。也就是说, 聚类的目标是得到较高的簇内相似度和较低的簇间相似度,使得簇间的距离尽可能大,簇内样本与簇中心的距离尽可能小。目前主要的聚类方法如下:上述现有聚类方法解决的在同一份数据集(数据样本)里,各条数据之间的相似(相近)程度,而不是一份数据样本与另外一份数据样本之间的相似(相近)程度。比如,现在有12家银行需要联合训练风险控制模型,每家都贡献一份自己的数据样本,每份数据样本都含有X变量(自变量)和Y变量(因变量), 这12份样本可以分为几种类型,哪些样本可以分为同一个类型(聚类),这是现有聚类方法不能解决的问题,即无法解决数据样本与数据样本之间的聚类问题。
专利技术 ...
【技术保护点】
【技术特征摘要】
1.一种数据样本聚类方法,其特征在于,包括如下步骤:步骤1:选取多套数据样本,对应每套数据样本训练一套样本评估模型;步骤2:将每套样本评估模型逐一测试各套数据样本,对应每套样本评估模型均相应获得一组测试指标数据;步骤3:基于测试指标数据,计算数据样本与数据样本之间的距离;步骤4:从未完成聚类的数据样本中选取一套数据样本当作新簇;步骤5:判断是否有未完成聚类的数据样本,如果是,则进入步骤6,如果否,则结束聚类;步骤6:计算余下未完成聚类的每套数据样本与新簇之间的距离,选取最小距离的数据样本,判断该最小距离是否大于阈值,如果是,则返回步骤4,选取该最小距离的数据样本训练新簇,如果否,则将该最小距离的数据样本加入新簇,并返回步骤5。2.根据权利要求1所述的数据样本聚类方法,其特征在于:步骤3中,数据样本与数据样本之间的距离通过如下方法获得,计算A数据样本到B数据样本方向的距离C1,计算方法为用A数据样本对应的A样本评估模型测试B数据样本,获得测试指标数据M1,则距离C1=1
‑
M1;计算B数据样本到A数据样本方向的距离C2,计算方法为用B数据样本对应的B样本评估模型测试A数据样本,获得测试指标数据M2,则距离C2=1
‑
M2;A数据样本与B数据样本之间的距离C=(C1+C2)/2。3.根据权利...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。