数据处理方法及装置、计算机可读存储介质、电子设备制造方法及图纸

技术编号：20484881 阅读：28 留言：0更新日期：2019-03-02 18:58

本公开属于大数据技术领域，涉及一种数据处理方法及装置、计算机可读存储介质、电子设备，该数据处理方法包括：获取多个样本数据，各所述样本数据包括一个或多个维度的子样本数据；分别将各所述维度的所述子样本数据划分为多组分箱，并根据所述分箱形成多个单变量分箱决策树；根据多个所述单变量分箱决策树获得与各所述维度对应的目标分箱；将所述目标分箱输入至预测模型，以对所述预测模型进行机器训练。该方法一方面能够消除数据噪音，提高模型的稳定性；另一方面，分箱方法简单，不需要数据挖掘人员具有丰富的业务背景知识；并且通过对数据分箱，减少了大量重复的值，提高了算法的速度。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法及装置、计算机可读存储介质、电子设备
本公开涉及大数据
，具体而言，涉及一种数据处理方法、数据处理装置、计算机可读存储介质以及电子设备。
技术介绍
随着经济发展和社会进步，计算机、智能手机等智能终端设备的应用越来越广泛，为了获取有价值的数据信息，通常需要对数据进行挖掘、分析。由于数据在测量时会存在随机误差、异常值、极端值等数值噪音，数值噪音会影响模型的精确性，另外测量数据会存在大量不重复的值，直接使用的话会影响算法的速度，并且部分算法不支持连续变量，因此需要对数据进行预处理。通常采用分箱的手段将数据进行离散化，同时消除数值噪音、减少重复的值。但是常用的分箱方法主要是等频、等距等分箱方法，该些分箱方法手段单一，频数和距离不易确定，并且需要数据挖掘人员对数据有足够的业务背景认知，否则不能有效分箱，导致模型的精确性较低。因此，本领域亟需一种新的数据处理方法及装置。需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种数据处理方法、数据处理...

【技术保护点】
1.一种数据处理方法，其特征在于，包括：获取多个样本数据，各所述样本数据包括一个或多个维度的子样本数据；分别将所述维度的所述子样本数据划分为多组分箱，并根据所述分箱形成多个单变量分箱决策树；根据多个所述单变量分箱决策树获得与所述维度对应的目标分箱；将所述目标分箱输入至预测模型，以对所述预测模型进行机器训练。

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：获取多个样本数据，各所述样本数据包括一个或多个维度的子样本数据；分别将所述维度的所述子样本数据划分为多组分箱，并根据所述分箱形成多个单变量分箱决策树；根据多个所述单变量分箱决策树获得与所述维度对应的目标分箱；将所述目标分箱输入至预测模型，以对所述预测模型进行机器训练。2.根据权利要求1所述的数据处理方法，其特征在于，分别将所述维度的所述子样本数据划分为多组分箱，包括：根据不同的频率将所述子样本数据划分为多组分箱；或者根据预设节点数将所述子样本数据划分为多组分箱。3.根据权利要求2所述的数据处理方法，其特征在于，各所述样本数据包括目标数据，根据所述分箱形成多个单变量分箱决策树，包括：以所述子样本数据为根节点、所述分箱为非叶节点、且所述目标数据为叶节点，形成所述单变量分箱决策树。4.根据权利要求1所述的数据处理方法，其特征在于，根据多个所述单变量分箱决策树获得与所述维度对应的目标分箱，包括：计算各所述单变量分箱决策树中各叶节点的子信息值；根据所述子信息值计算各所述单变量分箱决策树的信息值；比较各所述单变量分箱决策树的信息值的大小，并以具有最小信息值的所述单变量分箱决策树对应的分箱作为所述目标分箱。5.根据权利要求4所述的数据处理方法，其特征在于，根据所述子信息值计算各所述单变量分箱决策树的信息值，包括：将各所述单变量分箱决策树...

【专利技术属性】
技术研发人员：郭继昌，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人