数据处理方法、构建模型的方法、装置及电子设备制造方法及图纸

技术编号:32332600 阅读:27 留言:0更新日期:2022-02-16 18:40
本公开提供了一种数据处理方法、构建模型的方法及装置,涉及计算机技术领域,尤其涉及大数据技术领域。实现方案为:获取第一预测数据集、模型特征列表和配置信息,其中,模型特征列表指示数据分析模型所需的多个特征;基于模型特征列表和第一预测数据集生成第二预测数据集,其中,第二预测数据集中的预测数据的特征维度小于第一预测数据集中的预测数据的特征维度;基于配置信息对第二预测数据集中的预测数据的特征进行特征变换,以生成第三预测数据集;以及将第三预测数据集输入数据分析模型,以获取预测结果。以获取预测结果。以获取预测结果。

【技术实现步骤摘要】
数据处理方法、构建模型的方法、装置及电子设备


[0001]本公开涉及计算机
,尤其涉及大数据
,具体涉及一种数据处理方法、构建模型的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]近年来,大数据技术不断发展,尤其是在金融风控场景中,大数据技术得到了广泛应用。利用相关的大数据可以构建金融风控模型,应用该金融风控模型可以判断用户贷款逾期的概率、用户贷款逾期的金额等。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0004]本公开提供了一种数据处理方法、构建模型的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0005]根据本公开的一方面,提供了一种数据处理方法,包括:获取第一预测数据集、模型特征列表和配置信息,其中,模型特征列表指示数据分析模型所需的多个特征;基于模型特征列表和第一预测数据集生成第二预测数据集,其中,第二预测数据集中的预测数据的特征维度小于第一预测数据集中的预测数据的特征维度;基于配置信息对第二预测数据集中的预测数据的特征进行特征变换,以生成第三预测数据集;以及将第三预测数据集输入数据分析模型,以获取预测结果。
[0006]根据本公开的另一方面,提供了一种构建模型的方法,该方法包括:获取来自用户的输入,其中,输入包括配置信息和样本数据集,其中,配置信息用于对样本数据集进行预处理;以及基于配置信息:从样本数据集中选取第一数量的样本数据以获取第一样本数据子集;基于第一样本数据子集生成第二样本数据子集,其中,第二样本数据子集中的样本数据的特征维度小于第一样本数据子集中的样本数据的特征维度;对第二样本数据子集中的样本数据的特征进行特征变换,以生成第三样本数据子集;以及使用第三样本数据子集训练数据分析模型。
[0007]根据本公开的另一方面,提供一种数据处理装置,包括:第一预测获取模块,被配置用于:获取第一预测数据集、模型特征列表和配置信息,其中,模型特征列表指示数据分析模型所需的多个特征;第二预测获取模块,被配置用于:基于模型特征列表和第一预测数据集生成第二预测数据集,其中,第二预测数据集中的预测数据的特征维度小于第一预测数据集中的预测数据的特征维度;第三预测获取模块,被配置用于:基于配置信息对第二预测数据集中的预测数据的特征进行特征变换,以生成第三预测数据集;以及预测模块,被配置用于:将第三预测数据集输入数据分析模型,以获取预测结果。
[0008]根据本公开的另一方面,提供了一种构建模型的装置,装置包括:样本获取模块,
被配置用于:获取来自用户的输入,其中,输入包括配置信息和样本数据集,其中,配置信息用于对样本数据集进行预处理;以及训练模块,被配置用于:基于配置信息:从样本数据集中选取第一数量的样本数据以获取第一样本数据子集;基于第一样本数据子集生成第二样本数据子集,其中,第二样本数据子集中的样本数据的特征维度小于第一样本数据子集中的样本数据的特征维度;对第二样本数据子集中的样本数据的特征进行特征变换,以生成第三样本数据子集;以及使用第三样本数据子集训练数据分析模型。
[0009]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述方法。
[0010]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述方法。
[0011]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述方法。
[0012]根据本公开的一个或多个实施例,可以形成自动化的建模流程,实现端到端建模。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0015]图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
[0016]图2示出了根据本公开的实施例的数据处理方法的流程图;
[0017]图3示出了根据本公开的实施例的构建模型的方法的流程图;
[0018]图4示出了根据本公开的实施例的获取第一样本数据子集的方法的流程图;
[0019]图5示出了根据本公开的实施例的数据处理装置的结构框图;
[0020]图6示出了根据本公开的实施例的构建模型的装置的结构框图;
[0021]图7示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0022]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0023]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0024]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
[0025]下面将结合附图详细描述本公开的实施例。
[0026]图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1,该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。
[0027]在本公开的实施例中,服务器120可以运行使得能够执行数据处理及构建模型的方法的一个或多个服务或软件应用。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:获取第一预测数据集、模型特征列表和配置信息,其中,所述模型特征列表指示数据分析模型所需的多个特征;基于所述模型特征列表和所述第一预测数据集生成第二预测数据集,其中,所述第二预测数据集中的预测数据的特征维度小于所述第一预测数据集中的预测数据的特征维度;基于所述配置信息对所述第二预测数据集中的预测数据的特征进行特征变换,以生成第三预测数据集;以及将所述第三预测数据集输入所述数据分析模型,以获取预测结果。2.根据权利要求1所述的方法,其中,还包括:根据所述预测结果计算所述数据分析模型的性能评估指标;以及响应于所述性能评估指标超出预设的阈值范围,发出警报。3.根据权利要求1所述的方法,其中,所述配置信息包括统计值的类型,并且其中,所述基于所述配置信息对所述第二预测数据集中的预测数据的特征进行特征变换,以生成第三预测数据集包括:获取所述第二预测数据集中的每一条预测数据在预设时间段内的至少一种统计值;以及将所述至少一种统计值组成向量,利用所述向量替代所述第二预测数据集中的相应数据以获取第三预测数据集。4.根据权利要求3所述的方法,其中,所述统计值的类型包括下列至少一种:均值、方差、极差、连续递增次数和连续递减次数。5.根据权利要求1至4中任一项所述的方法,其中,所述基于所述配置信息对所述第二预测数据集中的预测数据的特征进行特征变换,以生成第三预测数据集包括:响应于判断第二预测数据集中的预测数据的特征为离散型特征,对所述第二预测数据集中的预测数据的特征进行证据权重替代操作。6.根据权利要求1至4中任一项所述的方法,其中,所述基于所述配置信息对所述第二预测数据集中的预测数据的特征进行特征变换,以生成第三预测数据集包括:响应于判断第二预测数据集中的预测数据的特征为连续型特征,对所述第二预测数据集中的预测数据的特征进行分箱操作和/或证据权重替代操作,以得到所述第三预测数据集。7.一种构建模型的方法,所述方法包括:获取来自用户的输入,其中,所述输入包括配置信息和样本数据集,其中,所述配置信息用于对所述样本数据集进行预处理;以及基于所述配置信息:从所述样本数据集中选取第一数量的样本数据以获取第一样本数据子集;基于所述第一样本数据子集生成第二样本数据子集,其中,所述第二样本数据子集中的样本数据的特征维度小于所述第一样本数据子集中的样本数据的特征维度;对所述第二样本数据子集中的样本数据的特征进行特征变换,以生成第三样本数据子集;以及使用所述第三样本数据子集训练数据分析模型。
8.根据权利要求7所述的方法,还包括:获取所述数据分析模型的性能评估指标;以及响应于所述数据分析模型的所述性能评估指标超出预设范围,更新所述配置信息,并根据更新的配置信息训练所述数据分析模型。9.根据权利要求7所述的方法,其中,所述配置信息包括正样本比重范围,并且其中所述从所述样本数据集中选取第一数量的样本数据以获取第一样本数据子集包括:基于预设的时间长度分割所述样本数据集,以获取至少一个样本数据子集;计算所述至少一个样本数据子集中的每一个样本数据子集中的正样本数据的比重;以及选取所述正样本数据的比重在所述正样本比重范围内的样本数据子集中的样本数据以获取所述第一样本数据子集。10.根据权利要求7所述的方法,其中,所述配置信息包括缺失值比例阈值,并且其中,所述从所述样本数据集中选取第一数量的样本数据以获取第一样本数据子集包括:获取所述样本数据集中的每一条样本数据的缺失值比例;以及选取所述缺失值比例小于所述缺失值比例阈值的样本数据以生成所述第一样本数据子集。11.根据权利要求7所述的方法,其中,所述配置信息包括重要性阈值条件和排序模型名称,并且其中,所述基于所述第一样本数据子集生成第二样本数据子集包括:根据所述排序模型名称确定排序模型;基于所述排序模型,对所述第一样本数据子集中的各特征关于重要性进行排序;以及选取所述第一样本...

【专利技术属性】
技术研发人员:刘昊骋陈才冯博豪徐世界田建
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1