特征的自动挖掘管理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:38034477 阅读:11 留言:0更新日期:2023-06-30 11:01
本发明专利技术涉及一种特征的自动挖掘管理方法、装置、计算机设备和存储介质,特征的自动挖掘管理方法包括:获取数据库中的原始数据;对原始数据进行预处理配置生成数据处理片段;基于数据处理片段,选择样本表以生成原子表;针对原子表,选择特征挖掘的参数进行动态挖掘;对动态挖掘所得到的特征进行统一管理。根据本发明专利技术,解决了特征挖掘前期的数据准备等还是需要复杂的人工操作,特征挖掘的时间太长,重复挖掘导致管理混乱的技术问题。掘导致管理混乱的技术问题。掘导致管理混乱的技术问题。

【技术实现步骤摘要】
特征的自动挖掘管理方法、装置、计算机设备和存储介质


[0001]本申请涉及机器学习领域,特别是涉及一种特征的自动挖掘管理方法、装置、计算机设备和存储介质。

技术介绍

[0002]一般来说,标准的机器学习流程会有资料预处理,特征工程,模型学习及结果检验四个步骤,而特征工程是进行资料提取或整理,使得机器学习模型能够训练得更好,是流程中重要的一个环节,特征工程的好坏决定了预测能力的上限,但是很容易受限于对于一个新的领域的了解程度,以及过往的经验能力。特征工程本质是一项工程活动,它目的是最大限度地从原始数据中提取并加工特征以供模型使用。对于结构化数据建模,即使用深度学习模型,特征工程也是比模型本身要重要的。
[0003]自动化特征工程顾名思义就是将特征工程自动化,自动达成从资料提取的过程,相比于人工操作的特征工程,因为自动化的特征工程方法在设计时候是无法知道未来会利用到怎样的预测目标,所以在设计上会偏向于通用性的方法,使这个演算法能够利用到各领域中,追求在有效率的状况下产生新的特征并且提升机器学习的预测准确度。
[0004]现有技术中常用的自动化特征工程的工具例如有Featuretools、Autofeat等,但是这些工具存在着如下技术问题:只能实现特征挖掘全链路中的某一部分的功能,即特征工程和特征衍生,并不能解决数据准备等复杂和费时的人工操作。
[0005]由此可见,能否基于现有技术中的不足,提供一种改进的特征的自动挖掘管理方法、装置、计算机设备和存储介质,解决特征挖掘前期的数据准备等还是需要复杂的人工操作,特征挖掘的时间太长,重复挖掘导致管理混乱的技术问题,成为本领域技术人员亟待解决的技术难题。

技术实现思路

[0006]专利技术所要解决的课题
[0007]本专利技术的目的是在于克服现有技术的缺陷,提供一种改进的特征的自动挖掘管理方法、装置、计算机设备和存储介质。根据本专利技术所提供的改进的特征的自动挖掘管理方法、装置、计算机设备和存储介质,解决了特征挖掘前期的数据准备等还是需要复杂的人工操作,特征挖掘的时间太长,重复挖掘导致管理混乱的技术问题,通过简单的配置就可以进行特征挖掘,整体挖掘时间短也不会发生重复挖掘。
[0008]用于解决课题的方法
[0009]本专利技术第一方面涉及一种特征的自动挖掘管理,包括以下步骤:
[0010]获取数据库中的原始数据;
[0011]对原始数据进行预处理配置生成数据处理片段;
[0012]基于数据处理片段,选择样本表以生成原子表;
[0013]针对原子表,选择特征挖掘的参数进行动态挖掘;
[0014]对动态挖掘所得到的特征进行统一管理。
[0015]优选地,获取原始数据包括以下步骤:
[0016]对数据库中的主数据表与各个关联表之间进行数据关联。
[0017]优选地,主数据表为动态规划表,数据关联为内关联。
[0018]优选地,预处理配置为分箱配置。
[0019]优选地,动态挖掘包括以下步骤:
[0020]根据参数进行特征衍生;
[0021]对特征衍生获得的特征进行预筛选;
[0022]预筛选之后生成特征。
[0023]优选地,统一管理包括回溯管理。
[0024]本专利技术第二方面涉及一种基于数字产品目录的特征的自动挖掘管理装置,包括:
[0025]数据获取部,用于获取数据库中的原始数据;
[0026]片段生成部,用于对原始数据进行预处理配置生成数据处理片段;
[0027]原子表生成部,用于基于数据处理片段,选择样本表以生成原子表;
[0028]动态挖掘部,用于针对原子表,选择特征挖掘的参数进行动态挖掘;
[0029]特征管理部,用于对动态挖掘所得到的特征进行统一管理。
[0030]本专利技术第三方面涉及一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现第一方面的特征的自动挖掘管理方法的步骤。
[0031]本专利技术第四方面涉及一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一方面的特征的自动挖掘管理方法的步骤。
[0032]专利技术的效果
[0033]根据本专利技术所提供的改进的特征的自动挖掘管理方法、装置、计算机设备和存储介质,基于配置化将源数据选取,数据处理,特征挖掘,挖掘后特征管理串联起来,并实现自动化,可以直观地通过简单的配置就可以进行特征挖掘,解决了特征挖掘前期的数据准备等还是需要复杂的人工操作,特征挖掘的时间太长,重复挖掘导致管理混乱的技术问题。
附图说明
[0034]图1为本专利技术的第一实施方式的特征的自动挖掘管理方法的流程图。
[0035]图2为图1中的特征的自动挖掘管理方法中的步骤的示意图。
[0036]图3为图1中的特征的自动挖掘管理方法中的步骤的示意图。
[0037]图4为图1中的特征的自动挖掘管理方法中的步骤的示意图。
[0038]图5为图1中的特征的自动挖掘管理方法中的步骤的示意图。
[0039]图6为本专利技术的第三实施方式的计算机设备的结构图。
具体实施方式
[0040]以下,首先对于本专利技术所涉及的特征的自动挖掘管理方法详细地进行说明。
[0041]图1为本专利技术的第一实施方式的特征的自动挖掘管理方法的流程图。如图1所示,该特征的自动挖掘管理方法的具体流程为,首先获取数据库中的原始数据(步骤S100)。然
后对原始数据进行预处理配置生成数据处理片段(步骤S101)。然后基于数据处理片段,选择样本表以生成原子表(步骤S102)。然后针对原子表,选择特征挖掘的参数进行动态挖掘(步骤S103)。最后对动态挖掘所得到的特征进行统一管理(步骤S104)。
[0042]对步骤S100进行说明。在获取原始数据时,优选为对数据库中的主数据表与各个关联表之间进行数据关联。主数据表优选为是动态规划表(DP表),但并不限于此,也可以是其他适合的表。
[0043]例如,如图2所示,以数据库中存储有三张表为例,三张表例如为主表obs_pdw_loan_dstradeali_debitaccountengine_trans_hournal_df、第一张关联表obs_pdw_loan_dstradeali_debitaccountengine_trans_hournal_df2、第二张关联表obs_pdw_loan_dstradeali_debitaccountengine_trans_hournal_df3。数据关联优选为图2中示出的内关联(innerjoin),但并不限于此,也可以是左连接、右连接、全连接、左反连接、右反连接等其他适合的关联。在本实施方式中,先将主表与第一张关联表进行内关联,然后再与第二张关联表进行内关联。图3示出了经过这两次内关联之后再经过类型转化字段获取之后的原始数据的一个例子。
[0044本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征的自动挖掘管理方法,其特征在于,包括以下步骤:获取数据库中的原始数据;对原始数据进行预处理配置生成数据处理片段;基于数据处理片段,选择样本表以生成原子表;针对原子表,选择特征挖掘的参数进行动态挖掘;对动态挖掘所得到的特征进行统一管理。2.根据权利要求1所述的特征的自动挖掘管理方法,其特征在于,获取原始数据包括以下步骤:对数据库中的主数据表与各个关联表之间进行数据关联。3.根据权利要求2所述的特征的自动挖掘管理方法,其特征在于,主数据表为动态规划表,数据关联为内关联。4.根据权利要求1所述的特征的自动挖掘管理方法,其特征在于,预处理配置为分箱配置。5.根据权利要求1所述的特征的自动挖掘管理方法,其特征在于,动态挖掘包括以下步骤:根据参数进行特征衍生;对特征衍生获得的特征进行预筛选;预筛选之后生成特征。6.根据权利要求1所述的特征...

【专利技术属性】
技术研发人员:白帆
申请(专利权)人:上海数禾信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1