数据处理方法及装置、计算机可读存储介质、电子设备制造方法及图纸

技术编号:20484881 阅读:20 留言:0更新日期:2019-03-02 18:58
本公开属于大数据技术领域,涉及一种数据处理方法及装置、计算机可读存储介质、电子设备,该数据处理方法包括:获取多个样本数据,各所述样本数据包括一个或多个维度的子样本数据;分别将各所述维度的所述子样本数据划分为多组分箱,并根据所述分箱形成多个单变量分箱决策树;根据多个所述单变量分箱决策树获得与各所述维度对应的目标分箱;将所述目标分箱输入至预测模型,以对所述预测模型进行机器训练。该方法一方面能够消除数据噪音,提高模型的稳定性;另一方面,分箱方法简单,不需要数据挖掘人员具有丰富的业务背景知识;并且通过对数据分箱,减少了大量重复的值,提高了算法的速度。

【技术实现步骤摘要】
数据处理方法及装置、计算机可读存储介质、电子设备
本公开涉及大数据
,具体而言,涉及一种数据处理方法、数据处理装置、计算机可读存储介质以及电子设备。
技术介绍
随着经济发展和社会进步,计算机、智能手机等智能终端设备的应用越来越广泛,为了获取有价值的数据信息,通常需要对数据进行挖掘、分析。由于数据在测量时会存在随机误差、异常值、极端值等数值噪音,数值噪音会影响模型的精确性,另外测量数据会存在大量不重复的值,直接使用的话会影响算法的速度,并且部分算法不支持连续变量,因此需要对数据进行预处理。通常采用分箱的手段将数据进行离散化,同时消除数值噪音、减少重复的值。但是常用的分箱方法主要是等频、等距等分箱方法,该些分箱方法手段单一,频数和距离不易确定,并且需要数据挖掘人员对数据有足够的业务背景认知,否则不能有效分箱,导致模型的精确性较低。因此,本领域亟需一种新的数据处理方法及装置。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种数据处理方法、数据处理装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服数值噪音对模型稳定性的影响,同时能够避免数据挖掘人员在缺少业务背景知识的情况下无法有效地离散化数据,以提高模型的灵活度和计算速度。根据本公开的一个方面,提供一种数据处理方法,其特征在于,包括:获取多个样本数据,各所述样本数据包括一个或多个维度的子样本数据;分别将所述维度的所述子样本数据划分为多组分箱,并根据所述分箱形成多个单变量分箱决策树;根据多个所述单变量分箱决策树获得与所述维度对应的目标分箱;将所述目标分箱输入至预测模型,以对所述预测模型进行机器训练。在本公开的示例性实施例中,分别将所述维度的所述子样本数据划分为多组分箱,包括:根据不同的频率将所述子样本数据划分为多组分箱;或者根据预设节点数将所述子样本数据划分为多组分箱。在本公开的示例性实施例中,各所述样本数据包括目标数据,根据所述分箱形成多个单变量分箱决策树,包括:以所述子样本数据为根节点、所述分箱为非叶节点、且所述目标数据为叶节点,形成所述单变量分箱决策树。在本公开的示例性实施例中,根据多个所述单变量分箱决策树获得与所述维度对应的目标分箱,包括:计算各所述单变量分箱决策树中各叶节点的子信息值;根据所述子信息值计算各所述单变量分箱决策树的信息值;比较各所述单变量分箱决策树的信息值的大小,并以具有最小信息值的所述单变量分箱决策树对应的分箱作为所述目标分箱。在本公开的示例性实施例中,根据所述子信息值计算各所述单变量分箱决策树的信息值,包括:将各所述单变量分箱决策树中各所述叶节点的所述子信息值相加以获得所述信息值。在本公开的示例性实施例中,各所述样本数据还包括目标数据,将所述目标分箱输入至预测模型,以对所述预测模型进行机器训练,包括:将所述目标分箱作为输入向量、所述目标数据作为输出向量输入至所述预测模型,以对所述预测模型进行机器训练。在本公开的示例性实施例中,所述方法还包括:获取待分析数据,所述待分析数据具有与所述样本数据相同维度的数据;将所述待分析数据输入至所述预测模型,以获得预测结果。根据本公开的一个方面,提供一种数据处理装置,其特征在于,包括:第一获取模块,用于获取多个样本数据,各所述样本数据包括一个或多个维度的子样本数据;决策树形成模块,用于分别将所述维度的所述子样本数据划分为多组分箱,并根据所述分箱形成多个单变量分箱决策树;目标分箱获取模块,用于根据多个所述单变量分箱决策树获得与所述维度对应的目标分箱;模型训练模块,用于将所述目标分箱输入至预测模型,以对所述预测模型进行机器训练。根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的数据处理方法。根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据处理方法。本公开的数据处理方法是将各个维度的子样本数据划分为多组分箱,根据分箱形成单变量分箱决策树后,通过计算各单变量分箱决策树中叶节点的信息值并求和,获得各组分箱对应的信息值;接着比较各组分箱信息值的大小,以具有最小信息值的分箱作为目标分箱。获得各维度对应的目标分箱后,将目标分箱和目标数据输入预测模型,以对预测模型进行机器训练;完成训练后,将待分析数据输入预测模型即可获得预测结果。本公开的数据处理方法一方面能够消除数据噪音,提高模型的稳定性;另一方面,分箱方法简单,不需要数据挖掘人员具有丰富的业务背景知识;并且通过对数据分箱,减少了大量重复的值,提高了算法的速度。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示意性示出一种数据处理方法的流程图;图2示意性示出一种数据处理方法的应用场景示例图;图3A-3C示意性示出一种单变量分箱决策树的结构示意图;图4示意性示出一种数据处理装置的方框图;图5示意性示出一种用于实现数据处理方法的电子设备示例框图;图6示意性示出一种用于实现数据处理方法的计算机可读存储介质。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。在本领域的相关技术中,数据挖掘人员在挖掘数据时,数据会存在随机误差、异常值、极端值等数值噪音,这些数值噪音会影响模型的精确性,比如极端值会导致模型参数过高或过低,或导致模型被虚假现象“迷惑”,把原来不存在的关系作为重要模式来学习。为了消除数据挖掘时存在的数值噪音,通常采用等频、等距的分箱方法对数据进行离散化,但是等频、等距等分箱方法手段单一,频数、距离不易确定,且需要对数据有足够的业务背景认知,因此相关技术中的模型本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:获取多个样本数据,各所述样本数据包括一个或多个维度的子样本数据;分别将所述维度的所述子样本数据划分为多组分箱,并根据所述分箱形成多个单变量分箱决策树;根据多个所述单变量分箱决策树获得与所述维度对应的目标分箱;将所述目标分箱输入至预测模型,以对所述预测模型进行机器训练。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取多个样本数据,各所述样本数据包括一个或多个维度的子样本数据;分别将所述维度的所述子样本数据划分为多组分箱,并根据所述分箱形成多个单变量分箱决策树;根据多个所述单变量分箱决策树获得与所述维度对应的目标分箱;将所述目标分箱输入至预测模型,以对所述预测模型进行机器训练。2.根据权利要求1所述的数据处理方法,其特征在于,分别将所述维度的所述子样本数据划分为多组分箱,包括:根据不同的频率将所述子样本数据划分为多组分箱;或者根据预设节点数将所述子样本数据划分为多组分箱。3.根据权利要求2所述的数据处理方法,其特征在于,各所述样本数据包括目标数据,根据所述分箱形成多个单变量分箱决策树,包括:以所述子样本数据为根节点、所述分箱为非叶节点、且所述目标数据为叶节点,形成所述单变量分箱决策树。4.根据权利要求1所述的数据处理方法,其特征在于,根据多个所述单变量分箱决策树获得与所述维度对应的目标分箱,包括:计算各所述单变量分箱决策树中各叶节点的子信息值;根据所述子信息值计算各所述单变量分箱决策树的信息值;比较各所述单变量分箱决策树的信息值的大小,并以具有最小信息值的所述单变量分箱决策树对应的分箱作为所述目标分箱。5.根据权利要求4所述的数据处理方法,其特征在于,根据所述子信息值计算各所述单变量分箱决策树的信息值,包括:将各所述单变量分箱决策树...

【专利技术属性】
技术研发人员:郭继昌
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1