一种数据处理方法、装置和电子设备制造方法及图纸

技术编号:30643330 阅读:19 留言:0更新日期:2021-11-04 00:44
本说明书实施例提供一种数据处理方法,构造具有平衡参数的交叉熵函数,所述交叉熵函数为损失函数构造机器学习分类模型框架,获取训练样本,在利用所述训练样本对所述机器学习分类模型框架进行训练时,对交叉熵函数中的平衡参数进行训练,得到调平衡后的机器学习分类模型,利用调平衡后的机器学习分类模型对待分类对象进行类别预测,交叉熵函数为损失函数构造机器学习分类模型框架,对交叉熵函数中的平衡参数进行训练,能够得到调平衡后的模型,解决训练样本不平衡的问题,提高了预测准确率。提高了预测准确率。提高了预测准确率。

【技术实现步骤摘要】
一种数据处理方法、装置和电子设备


[0001]本申请涉及计算机领域,尤其涉及一种数据处理方法、装置和电子设备。

技术介绍

[0002]狭义上的数据治理是指对数据质量的管理。广义上的数据治理是对数据的全生命周期进行管理,包含数据采集、清洗、转换等传统数据集成和存储环节的工作,同时还包含数据资产目录、数据标准、质量、安全、数据开发、数据价值、数据服务与应用等,整个数据生命期而开展的业务、技术和管理活动都属于数据治理范畴。
[0003]数据治理专注于将数据作为企事业单位数据资产进行应用和管理的一套管理机制,能够消除数据的不一致性,建立规范的数据应用标准,提高数据质量,实现数据内外部共享,并能够将数据作为组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产价值。
[0004]目前,数据治理的处理方式中,常常需要结合数据进行预测,然而,实际应用时往往由于所获取样本不理想,存在数据不平衡的现象,降低了预测准确率。
[0005]因此,有必要提供一种新的数据处理方法。

技术实现思路

[0006]本说明书实施例提供一种数据处理方法、装置和电子设备,用以提高预测准确率。
[0007]本说明书实施例提供一种数据处理方法,包括:
[0008]构造具有平衡参数的交叉熵函数,所述交叉熵函数为损失函数构造机器学习分类模型框架;
[0009]获取训练样本,在利用所述训练样本对所述机器学习分类模型框架进行训练时,对交叉熵函数中的平衡参数进行训练,得到调平衡后的机器学习分类模型;/>[0010]利用调平衡后的机器学习分类模型对待分类对象进行类别预测。
[0011]可选地,所述平衡参数包括:区分度平衡参数和正负样本体量平衡参数。
[0012]可选地,所述利用调平衡后的机器学习分类模型对待分类对象进行类别预测,包括:
[0013]利用调平衡后的机器学习分类模型,结合待分类对象的第一属性信息对所述待分类对象的第二属性类别进行预测。
[0014]可选地,还包括:
[0015]对待分类对象的缺失特征进行填充。
[0016]可选地,还包括:
[0017]识别待分类对象特征中的异常值。
[0018]可选地,所述利用调平衡后的机器学习分类模型对待分类对象进行类别预测,包括:
[0019]选取多个相似程度满足临近条件的多个对象,利用调平衡后的机器学习分类模型
对所述多个对象进行类别预测,根据多个预测结果确定所述待分类对象的类别。
[0020]可选地,所述对象为资信业务中的用户。
[0021]可选地,还包括:对所述机器学习分类模型进行修正。
[0022]本说明书实施例还提供一种数据处理装置,包括:
[0023]交叉熵模块,用于构造具有平衡参数的交叉熵函数,所述交叉熵函数为损失函数构造机器学习分类模型框架;
[0024]训练模块,用于获取训练样本,在利用所述训练样本对所述机器学习分类模型框架进行训练时,对交叉熵函数中的平衡参数进行训练,得到调平衡后的机器学习分类模型;
[0025]预测模块,用于利用调平衡后的机器学习分类模型对待分类对象进行类别预测。
[0026]可选地,所述平衡参数包括:区分度平衡参数和正负样本体量平衡参数。
[0027]可选地,所述利用调平衡后的机器学习分类模型对待分类对象进行类别预测,包括:
[0028]利用调平衡后的机器学习分类模型,结合待分类对象的第一属性信息对所述待分类对象的第二属性类别进行预测。
[0029]可选地,还包括:
[0030]对待分类对象的缺失特征进行填充。
[0031]可选地,还包括:
[0032]识别待分类对象特征中的异常值。
[0033]可选地,所述利用调平衡后的机器学习分类模型对待分类对象进行类别预测,包括:
[0034]选取多个相似程度满足临近条件的多个对象,利用调平衡后的机器学习分类模型对所述多个对象进行类别预测,根据多个预测结果确定所述待分类对象的类别。
[0035]可选地,所述对象为资信业务中的用户。
[0036]可选地,还包括:对所述机器学习分类模型进行修正。
[0037]本说明书实施例还提供一种电子设备,其中,该电子设备包括:
[0038]处理器;以及,
[0039]存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述任一项方法。
[0040]本说明书实施例还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述任一项方法。
[0041]本说明书实施例提供的各种技术方案通过构造具有平衡参数的交叉熵函数,所述交叉熵函数为损失函数构造机器学习分类模型框架,获取训练样本,在利用所述训练样本对所述机器学习分类模型框架进行训练时,对交叉熵函数中的平衡参数进行训练,得到调平衡后的机器学习分类模型,利用调平衡后的机器学习分类模型对待分类对象进行类别预测,交叉熵函数为损失函数构造机器学习分类模型框架,对交叉熵函数中的平衡参数进行训练,能够得到调平衡后的模型,解决训练样本不平衡的问题,提高了预测准确率。
附图说明
[0042]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申
请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0043]图1为本说明书实施例提供的一种数据处理方法的原理示意图;
[0044]图2为本说明书实施例提供的一种数据处理装置的结构示意图;
[0045]图3为本说明书实施例提供的一种电子设备的结构示意图;
[0046]图4为本说明书实施例提供的一种计算机可读介质的原理示意图。
具体实施方式
[0047]现在将参考附图更全面地描述本专利技术的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为本专利技术仅限于在此阐述的实施例。相反,提供这些示例性实施例能够使得本专利技术更加全面和完整,更加便于将专利技术构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分,因而将省略对它们的重复描述。
[0048]在符合本专利技术的技术构思的前提下,在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。
[0049]在对于具体实施例的描述中,本专利技术描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是,并不排除本领域技术人员可以实践本专利技术的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。
[0050]附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:构造具有平衡参数的交叉熵函数,所述交叉熵函数为损失函数构造机器学习分类模型框架;获取训练样本,在利用所述训练样本对所述机器学习分类模型框架进行训练时,对交叉熵函数中的平衡参数进行训练,得到调平衡后的机器学习分类模型;利用调平衡后的机器学习分类模型对待分类对象进行类别预测。2.根据权利要求1所述的方法,其特征在于,所述平衡参数包括:区分度平衡参数和正负样本体量平衡参数。3.根据权利要求1

2中任一项所述的方法,其特征在于,所述利用调平衡后的机器学习分类模型对待分类对象进行类别预测,包括:利用调平衡后的机器学习分类模型,结合待分类对象的第一属性信息对所述待分类对象的第二属性类别进行预测。4.根据权利要求1

3中任一项所述的方法,其特征在于,还包括:对待分类对象的缺失特征进行填充。5.根据权利要求1

4中任一项所述的方法,其特征在于,还包括:识别待分类对象特征中的异常值。6.根据权利要求1

5中任一项所述的方法,其特征在于,所述利用调平衡后的机器学习分类模型对待分类对象进行类别预测,包括:选取多个相似程度满足临近条件的多...

【专利技术属性】
技术研发人员:王天圣
申请(专利权)人:上海淇玥信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1