特征处理流程的建立方法、装置、存储介质及电子设备制造方法及图纸

技术编号:21158166 阅读:31 留言:0更新日期:2019-05-22 07:48
本公开涉及一种特征处理流程的建立方法、装置、存储介质及电子设备,所述方法包括:根据预置的特征处理算法的数量,获取第一超参数集合和第二超参数集合;在特征处理算法的搜索空间中,对第一超参数集合和第二超参数集合进行调优搜索,以获得第一超参数集合中每一第一超参数的取值和第二超参数集合中每一第二超参数的取值;根据每一第一超参数的取值对应的特征处理算法和特征处理算法的数据来源,建立特征处理流程,其中,第一超参数集合中各个第一超参数之间的顺序表明对应的特征处理算法的执行顺序。通过本公开的技术方案,可以实现特征处理流程的自动化建立,能够更好地适应实际训练数据的特点,从而提高机器学习模型的训练效果。

The Establishment Method, Device, Storage Medium and Electronic Equipment of Characteristic Processing Flow

The present disclosure relates to a method, device, storage medium and electronic equipment for establishing a feature processing flow. The method includes: obtaining the first and second hyperparametric sets according to the number of preset feature processing algorithms; optimizing the search space for the first and second hyperparametric sets in order to obtain the first superparametric set. The value of each first super-parameter in the set of numbers and the value of each second super-parameter in the set of second super-parameters; according to the data sources of the feature processing algorithm and the feature processing algorithm corresponding to the value of each first super-parameter, the feature processing flow is established. The sequence of the first super-parameter in the set of first Super-parameters indicates the execution order of the corresponding feature processing algorithm. \u3002 Through the technical scheme disclosed herein, the automatic establishment of feature processing flow can be realized, and the characteristics of actual training data can be better adapted to improve the training effect of machine learning model.

【技术实现步骤摘要】
特征处理流程的建立方法、装置、存储介质及电子设备
本公开涉及机器学习领域,具体地,涉及一种特征处理流程的建立方法、装置、存储介质及电子设备。
技术介绍
机器学习通常包括数据预处理、特征处理、模型训练、模型融合、模型选择、模型部署应用等过程,其中,特征处理过程直接决定最终的模型效果,而这一过程十分复杂,通常又涉及到PCA(PrincipalComponentAnalysis,主成分分析)、Fast_ICA(IndependentComponentAnalysis,独立成分分析)、多项式转换、目标编码、TruncatedSVD(SingularValueDecomposition,奇异值分解)等诸多算法。现有技术中的特征处理过程,通常是按照一固定的线性处理流程进行。然而,这种固定的线性处理流程不能较好地适应不同任务、不同训练数据的特点。
技术实现思路
为了克服现有技术中存在的问题,本公开提供一种特征处理流程的建立方法、装置、存储介质及电子设备。为了实现上述目的,本公开第一方面提供一种特征处理流程的建立方法,包括:根据预置的特征处理算法的数量,获取第一超参数集合和第二超参数集合,所述第一超参数集合中的第一超参数与所述第二超参数集合中的第二超参数一一对应,每一所述第一超参数的取值集合中的每一取值对应一特征处理算法,每一所述第二超参数的取值集合中的每一取值表明该第二超参数对应的第一超参数的取值表征的特征处理算法的数据来源;在所述特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索,以获得所述第一超参数集合中每一所述第一超参数的取值和所述第二超参数集合中每一所述第二超参数的取值;根据每一所述第一超参数的取值对应的特征处理算法和所述特征处理算法的数据来源,建立特征处理流程,其中,所述第一超参数集合中各个所述第一超参数之间的顺序表明对应的特征处理算法的执行顺序。可选地,所述第一超参数集合中的第一超参数的数量与所述特征处理算法的数量相同,且各个所述第一超参数的取值集合按照各个所述第一超参数之间的顺序依次递减。可选地,所述第二超参数集合中的第二超参数的数量与所述特征处理算法的数量相同,且各个所述第二超参数的取值集合相同。可选地,在对所述第一超参数集合和所述第二超参数集合进行调优搜索时,针对每一个第一超参数,若该第一超参数的取值为零,则确定位于该第一超参数之后的第一超参数的取值为无效值;若该第一超参数的取值大于零,则重新建立该下一第一超参数的每一取值与除该第一超参数的取值对应的特征处理算法以外的其他特征处理算法之间的对应关系,该对应关系用于确定该下一第一超参数的取值对应的特征处理算法;针对每一个第二超参数,若与该第二超参数对应的第一超参数的取值为零,则确定该第二超参数的取值为无效值。可选地,在所述特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索之前,所述方法还包括:根据所述特征处理算法,获取多个特征处理算法组合;针对元数据库中的每一条样本元数据,确定每个特征处理算法组合对应该样本元数据的评价指标,并将所述多个特征处理算法组合按照评价指标由低到高的顺序排列,选取预设数量的特征处理算法组合作为该样本元数据对应的待过滤特征算法组合;根据以下公式计算所述元数据库中的每一条样本元数据与训练数据的元数据之间的距离:其中,dist(X,Y)为所述元数据库中的样本元数据X与所述训练数据的元数据Y之间的距离,X=(x1,x2,...,xn),Y=(y1,y2,...,yn);将所述元数据库中与所述训练数据的元数据之间的距离位于预设范围内的样本元数据作为目标样本元数据,从所述多个特征处理算法组合中删除所述目标样本元数据对应的待过滤特征算法组合,并将剩余的特征处理算法组合作为新的搜索空间;所述在所述特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索,包括:在该新的搜索空间中对所述第一超参数集合和所述第二超参数集合进行调优搜索。本公开第二方面提供一种特征处理流程的建立装置,包括:第一获取模块,用于根据预置的特征处理算法的数量,获取第一超参数集合和第二超参数集合,所述第一超参数集合中的第一超参数与所述第二超参数集合中的第二超参数一一对应,每一所述第一超参数的取值集合中的每一取值对应一特征处理算法,每一所述第二超参数的取值集合中的每一取值表明该第二超参数对应的第一超参数的取值表征的特征处理算法的数据来源;调优搜索模块,用于在所述特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索,以获得所述第一超参数集合中每一所述第一超参数的取值和所述第二超参数集合中每一所述第二超参数的取值;建立模块,用于根据每一所述第一超参数的取值对应的特征处理算法与所述特征处理算法的数据来源,建立特征处理流程,其中,所述第一超参数集合中各个所述第一超参数之间的顺序表明对应的特征处理算法的执行顺序。可选地,所述第一超参数集合中的第一超参数的数量与所述特征处理算法的数量相同,且各个所述第一超参数的取值集合按照各个所述第一超参数之间的顺序依次递减。可选地,所述第二超参数集合中的第二超参数的数量与所述特征处理算法的数量相同,且各个所述第二超参数的取值集合相同。可选地,所述调优搜索模块在对所述第一超参数集合和所述第二超参数集合进行调优搜索时,针对每一个第一超参数,若该第一超参数的取值为零,则确定位于该第一超参数之后的第一超参数的取值为无效值;若该第一超参数的取值大于零,则重新建立该下一第一超参数的每一取值与除该第一超参数的取值对应的特征处理算法以外的其他特征处理算法之间的对应关系,该对应关系用于确定该下一第一超参数的取值对应的特征处理算法;针对每一个第二超参数,若与该第二超参数对应的第一超参数的取值为零,则确定该第二超参数的取值为无效值。可选地,所述装置还包括:第二获取模块,用于在所述调优搜索模块在所述特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索之前,根据所述特征处理算法,获取多个特征处理算法组合;确定模块,用于针对元数据库中的每一条样本元数据,确定每个特征处理算法组合对应该样本元数据的评价指标,并将所述多个特征算法组合按照评价指标由高到低的顺序排列,选取预设数量的特征处理算法组合作为该样本元数对应的待过滤特征算法组合;计算模块,用于根据以下公式所述元数据库中的每一条样本元数据与训练数据的元数据之间的距离:其中,dist(X,Y)为所述元数据库中的样本元数据X与所述训练数据的元数据Y之间的距离,X=(x1,x2,...,xn),Y=(y1,y2,...,yn);过滤模块,用于将所述元数据库中与所述训练数据的元数据之间的距离位于预设范围内的样本元数据作为目标样本元数据,从所述多个特征算法组合中删除所述目标样本元数据对应的待过滤特征算法组合,并将剩余的特征处理算法组合作为新的搜索空间;所述调优搜索模块包括:调优搜索子模块,用于在该新的搜索空间中对所述第一超参数集合和所述第二超参数集合进行调优搜索。本公开第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面提供的特征处理流程的建立方法的步骤。本公开第本文档来自技高网...

【技术保护点】
1.一种特征处理流程的建立方法,其特征在于,包括:根据预置的特征处理算法的数量,获取第一超参数集合和第二超参数集合,所述第一超参数集合中的第一超参数与所述第二超参数集合中的第二超参数一一对应,每一所述第一超参数的取值集合中的每一取值对应一特征处理算法,每一所述第二超参数的取值集合中的每一取值表明该第二超参数对应的第一超参数的取值表征的特征处理算法的数据来源;在所述特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索,以获得所述第一超参数集合中每一所述第一超参数的取值和所述第二超参数集合中每一所述第二超参数的取值;根据每一所述第一超参数的取值对应的特征处理算法和所述特征处理算法的数据来源,建立特征处理流程,其中,所述第一超参数集合中各个所述第一超参数之间的顺序表明对应的特征处理算法的执行顺序。

【技术特征摘要】
1.一种特征处理流程的建立方法,其特征在于,包括:根据预置的特征处理算法的数量,获取第一超参数集合和第二超参数集合,所述第一超参数集合中的第一超参数与所述第二超参数集合中的第二超参数一一对应,每一所述第一超参数的取值集合中的每一取值对应一特征处理算法,每一所述第二超参数的取值集合中的每一取值表明该第二超参数对应的第一超参数的取值表征的特征处理算法的数据来源;在所述特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索,以获得所述第一超参数集合中每一所述第一超参数的取值和所述第二超参数集合中每一所述第二超参数的取值;根据每一所述第一超参数的取值对应的特征处理算法和所述特征处理算法的数据来源,建立特征处理流程,其中,所述第一超参数集合中各个所述第一超参数之间的顺序表明对应的特征处理算法的执行顺序。2.根据权利要求1所述的方法,其特征在于,所述第一超参数集合中的第一超参数的数量与所述特征处理算法的数量相同,且各个所述第一超参数的取值集合按照各个所述第一超参数之间的顺序依次递减。3.根据权利要求1所述的方法,其特征在于,所述第二超参数集合中的第二超参数的数量与所述特征处理算法的数量相同,且各个所述第二超参数的取值集合相同。4.根据权利要求1中任一项所述的方法,其特征在于,在对所述第一超参数集合和所述第二超参数集合进行调优搜索时,针对每一个第一超参数,若该第一超参数的取值为零,则确定位于该第一超参数之后的第一超参数的取值为无效值;若该第一超参数的取值大于零,则重新建立该下一第一超参数的每一取值与除该第一超参数的取值对应的特征处理算法以外的其他特征处理算法之间的对应关系,该对应关系用于确定该下一第一超参数的取值对应的特征处理算法;针对每一个第二超参数,若与该第二超参数对应的第一超参数的取值为零,则确定该第二超参数的取值为无效值。5.根据权利要求1至4中任一项所述的方法,其特征在于,在所述特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索之前,所述方法还包括:根据所述特征处理算法,获取多个特征处理算法组合;针对元数据库中的每一条样本元数据,确定每个特征处理算法组合对应该样本元数据的评价指标,并将所述多个特征处理算法组合按照评价指标由低到高的顺序排列,选取预设数量的特征处理算法组合作为该样本元数据对应的待过滤特征算法组合;根据以下公式计算所述元数据库中的每一条样本元数据与训练数据的元数据之间的距离:其中,dist(X,Y)为所述元数据库中的样本元数据X与所述训练数据的元数据Y之间的距离,X=(x1,x2,...,xn),Y=(y1,y2,...,yn);将所述元数据库中与所述训练数据的元数据之间的距离位于预设范围内的样本元数据作为目标样本元数据,从所述多个特征处理算法组合中删除所述目标样本元数据对应的待过滤特征算法组合,并将剩余的特征处理算法组合作为新的搜索空间;所述在所述特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索,包括:在该新的搜索空间中对所述第一超参数集合和所述第二超参数集合进行调优搜索。6.一种...

【专利技术属性】
技术研发人员:侯广健张庚昕
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1