一种样本数据处理方法、装置及计算机设备制造方法及图纸

技术编号：27099091 阅读：17 留言：0更新日期：2021-01-25 18:40

本发明专利技术实施例所提供的样本数据处理方法、装置及计算机设备，首先获取待处理样本数据并确定多个类别标签，根据类别标签将待处理样本数据划分为多个样本子集，其次根据接收到的业务需求信息将多个类别标签进行排序得到类别排序队列，最后依次为类别排序队列中的每个类别标签下的每个样本子集分配样本权重。如此，当待处理样本数据涉及多个层级的类别标签时，上述方法能够快速求取每个样本子集的样本权重，使得统一级别下的各样本子集的总权重相等，同时又能保证不同层级类别间的样本总权重一致，这在保留有效信息的同时使得待处理样本数据的整体权重均衡更准确。数据的整体权重均衡更准确。数据的整体权重均衡更准确。

全部详细技术资料下载

【技术实现步骤摘要】
一种样本数据处理方法、装置及计算机设备

[0001]本专利技术涉及数据处理
，具体而言，涉及一种样本数据处理方法、装置及计算机设备。

技术介绍

[0002]在应用分类模型建模时，可能面临的问题有误分类代价高，例如对合法用户和非法用户进行分类，将非法用户识别为合法用户的代价远远大于将合法用户识别为非法用户的代价；又或者样本高度失衡影响预测结果，比如10000用户样本中只有1条是非法用户，9999条是合法用户，那么直接将所有的样本预测为合法用户准确率是99.99%，这显然是没有意义的。
[0003]因此对于类别不均的样本，应该想办法平衡类别间的权重，一般使得各类别的权重均等时，最能有效避免因为类别权重不均带来的高误分类代价以及模型预测能力下降的问题。而一个类别的权重为该类别中所有单个样本权重加总得到。而往往实际风控场景中能获取的建模样本在各类别上数量不均，可能导致样本不是实际总样本的无偏估计，假设实际业务中合法用户和非法用户的比例是10:1，而建模的样本中合法用户和非法用户的比例是5:1，那么该样本分布就不能代表实际上的分布，从而影响模型的预测效果。

技术实现思路

[0004]为了改善上述问题，本专利技术提供了一种样本数据处理方法、装置及计算机设备。
[0005]基于本专利技术实施例的第一方面，提供一种样本数据处理方法，应用于计算机设备，所述方法包括：获取待处理样本数据并确定所述待处理样本数据的多个类别标签，根据所述类别标签将所述待处理样本数据划分为多个样本子集；其中，每个样本子集对...

【技术保护点】

【技术特征摘要】
1.一种样本数据处理方法，其特征在于，应用于计算机设备，所述方法包括：获取待处理样本数据并确定所述待处理样本数据的多个类别标签，根据所述类别标签将所述待处理样本数据划分为多个样本子集；其中，每个样本子集对应一个类别标签；接收业务需求信息，根据所述业务需求信息将所述多个类别标签进行排序，得到类别排序队列；依次为所述类别排序队列中的每个类别标签下的每个样本子集分配样本权重。2.根据权利要求1所述的方法，其特征在于，依次为所述类别排序队列中的每个类别标签下的每个样本子集分配样本权重，包括：根据所述样本子集的总数确定整体样本权重；基于所述整体样本权重以及所述类别排序队列中的每个类别标签下的样本子集的数量，确定每个类别标签下的样本子集的当前样本权重。3.根据权利要求2所述的方法，其特征在于，确定每个类别标签下的样本子集的当前样本权重，包括：针对每个类别标签，确定该类别标签下的所有样本子集所属的上一层样本子集，并获取所述上一层样本子集的样本权重；根据所述上一层样本子集的样本权重确定该类别标签下的所有样本子集中的每个样本子集的当前样本权重，直至确定出最后一个类别标签下的每个样本子集的当前样本权重。4.根据权利要求1-3任一项所述的方法，其特征在于，根据所述业务需求信息将所述多个类别标签进行排序，得到类别排序队列，包括：确定业务需求信息对应的需求类别清单，构建所述类别标签对应的标签特征清单，所述需求类别清单和所述标签特征清单分别包括多个不同清单事件权重的清单元素；提取所述业务需求信息在所述需求类别清单的任一清单元素的需求样本数据，将所述标签特征清单中具有最小清单事件权重的清单元素确定为目标清单元素；根据所述待处理样本数据的样本数据分布图将所述需求样本数据映射到所述目标清单元素，在所述目标清单元素中得到需求映射数据，并根据所述需求样本数据以及所述需求映射数据生成所述业务需求信息和所述类别标签之间的相关性系数列表；以所述需求映射数据为当前样本数据在所述目标清单元素中获取待关联数据，根据所述相关性系数列表对应的相关性匹配路径，将所述待关联数据匹配到所述需求样本数据所在清单元素，在所述需求样本数据所在清单元素中得到所述待关联数据对应的目标关联数据，并将所述目标关联数据确定为标签排序参考数据；获取所述需求样本数据映射到所述目标清单元素中的映射路径轨迹；根据所述目标关联数据与所述映射路径轨迹上的多个路径节点单元对应的映射属性数据之间的数据传递缺损率，在所述标签特征清单中按照清单元素的清单事件权重的大小顺序逐层依次获取所述标签排序参考数据对应的排序参考结果，直至获取到的所述排序参考结果所在清单元素的排序置信度与所述标签排序参考数据在所述需求类别清单中的排序置信度一致时，停止获取下一清单元素中的排序参考结果，并建立所述标签排序参考数据与最后一次获取到的排序参考结果之间的排序执行路径；基于所述排序执行路径将所述多个类别标签进行排序得到类别排序队列。
5.一种样本数据处理装置，其特征在于，应用于计算机设备，所述装置包括：样本划分模块，用于获取待处理样本数据并确定...

【专利技术属性】
技术研发人员：顾凌云，谢旻旗，段湾，汪仁杰，张涛，潘峻，
申请(专利权)人：上海冰鉴信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人