The invention relates to the field of Internet technology, especially relates to a system and method for feature generation, in order to solve the problems in a new generation of fitness evaluation, there is big data processing capability, evaluation of the problem of low efficiency; the embodiment of the invention, the iterative process includes execution by a sub node selection the initialization tasks, comprising a plurality of sub nodes in parallel each generation implementation of the fitness evaluation task, task execution by a sub iteration, node selection and execution in all the evaluation tasks after the implementation of adaptive output tasks; coordinated scheduling master node is responsible for the whole iterative process. Because each generation of fitness evaluation tasks can be executed in parallel by sub nodes, thus improving the efficiency of the feature generation process; the main node encoding individual form to the executive to the child node evaluation task instructions feature expression needs assessment, which can reduce the amount of data transmission.
【技术实现步骤摘要】
一种特征生成方法及系统
本申请涉及互联网
,尤其涉及一种特征生成方法及系统。
技术介绍
随着互联网信息技术的发展,通过互联网为用户提供的业务服务的种类越来越多,如何更好地为用户提供业务服务是互联网行业中的一个重要问题。模型分类能够有效提升业务服务水平,比如,对用户的收入水平进行分类,将用户的收入水平分为高、中、低三个类别,可以基于用户收入水平类别的不同为用户提供不同的信息推介服务。在基于模型进行分类时,需要输入多个特征,良好的特征集合能够有效提升模型分类的准确率。在很多情况下,单个特征所蕴含的信息量有限,而通过特征组合变换之后能够产生显著的分类性能。因此,可以基于原始特征集合生成一些新的特征,使这些新的特征能够反映原始特征集合隐性的分类能力。同时,为了避免变换生成的大量无效或冗余的特征对模型分类准确率的影响,需要对新生成的特征进行适应度评价。目前,在进行大量新生成特征的适应度评价时,通常存在大数据处理能力不足,评价效率较低的问题,从而限制了对新生成特征的进一步优化,导致无法及时有效地得到有价值的特征。
技术实现思路
本申请实施例提供一种特征生成方法及系统,用以解 ...
【技术保护点】
一种特征生成方法,其特征在于,该方法包括:步骤A、主节点在接收到执行第N代适应度评价任务的多个子节点发送的评价结果后,若确定N等于最大迭代次数,则向选择的一子节点下发输出任务,否则,向选择的一子节点下发迭代任务;步骤B、执行输出任务的子节点基于第N代适应度评价任务的评价结果,确定并输出适应度最高的n个特征表达式;所述适应度最高的n个特征表达式是指按照适应度由高到低排列后的前n个特征表达式;步骤C、执行迭代任务的子节点基于所述第N代适应度评价任务的评价结果,生成包含多个编码个体的编码文件,并发送给所述主节点;其中,所述多个编码个体中包含第N代适应度评价任务评价出的适应度最高的 ...
【技术特征摘要】
1.一种特征生成方法,其特征在于,该方法包括:步骤A、主节点在接收到执行第N代适应度评价任务的多个子节点发送的评价结果后,若确定N等于最大迭代次数,则向选择的一子节点下发输出任务,否则,向选择的一子节点下发迭代任务;步骤B、执行输出任务的子节点基于第N代适应度评价任务的评价结果,确定并输出适应度最高的n个特征表达式;所述适应度最高的n个特征表达式是指按照适应度由高到低排列后的前n个特征表达式;步骤C、执行迭代任务的子节点基于所述第N代适应度评价任务的评价结果,生成包含多个编码个体的编码文件,并发送给所述主节点;其中,所述多个编码个体中包含第N代适应度评价任务评价出的适应度最高的n个特征表达式所对应的n个编码个体;步骤D、所述主节点基于所述编码文件生成多个第N+1代适应度评价任务,并将每一个第N+1代适应度评价任务分别下发给不同的子节点,其中,每一个适应度评价任务中包含一个编码个体;步骤E、执行适应度评价任务的子节点针对被分配的适应度评价任务中的编码个体所指示的特征表达式进行适应度计算,并将计算得到的适应度作为评价结果发送给所述主节点;将N加1,返回步骤A。2.如权利要求1所述的方法,其特征在于,所述编码个体为采用深度优先编码DFP的方式生成的;步骤C中,执行迭代任务的子节点基于第N代适应度评价任务的评价结果,生成包含多个编码个体的编码文件,包括:步骤C1、所述执行迭代任务的子节点基于第N代适应度评价任务的评价结果,从第N代适应度评价任务评价的m个特征表达式中选择适应度最高的n个特征表达式;步骤C2、从所述m个特征表达式中随机选择两个特征表达式,按照预设的交叉概率,从这两个特征表达式中分别选择一个子表达式进行交叉,保留随机交叉后的一个特征表达式;重复该步骤m-n次,得到保留的随机交叉后的m-n个特征表达式;步骤C3、按照预设的变异概率,对所述保留的随机交叉后的m-n个特征表达式中的元素进行变异处理,得到随机变异后的m-n个特征表达式;步骤C4、将所述适应度最高的n个特征表达式和所述随机变异处理后的m-n个特征表达式所分别对应的编码个体,确定为第N+1代适应度评价任务中包含的m个编码个体。3.如权利要求2所述的方法,其特征在于,步骤C3中,对所述保留的随机交叉后的m-n个特征表达式中的元素进行变异处理,包括:针对该m-n个特征表达式中的任一特征表达式,从以下处理方式中随机选择一种进行变异处理:将该特征表达式中的一个单特征节点用一个子表达式代替;所述单特征节点是指该特征表达式中的一个数据或一个算符;将该特征表达式中的一个子表达式缩减为一个单特征节点;将该特征表达式中的一个单特征节点用随机生成的单特征节点代替;将该特征表达式用随机生成的新的特征表达式代替。4.如权利要求2或3所述的方法,其特征在于,在步骤C1中,所述执行迭代任务的子节点基于第N代适应度评价任务的评价结果,从第N代适应度评价任务评价的m个特征表达式中选择适应度最高的n个特征表达式,包括:若在所述m个特征表达式中,存在适应度相同的特征表达式,则剔除冗余的k个特征表达式,以使得在剩余的特征表达式中不存在适应度相同的特征表达式;在所述剩余的特征表达式中,选择适应度最高的n个特征表达式,并将步骤B2~B4中的m减k。5.如权利要求1所述的方法,其特征在于,在步骤A之前,还包括:所述主节点在接收到特征生成任务后,从数据服务器上获取执行所述特征生成任务所需的数据文件,并将获取的数据文件传输给集群系统中的每台集群计算机器;在步骤E中,所述执行适应度评价任务的子节点进行适应度计算,包括:所述执行适应度评价任务的子节点从所在集群计算机器中读取被分配的适应度评价任务中的编码个体所指示的特征数据,并将读取的特征数据代入该编码个体对应的特征表达式,通过调用所在集群计算机器上的适应度评价函数,对代入特征数据后的特征表达式进行适应度计算。6.如权利要求1所述的方法,其特征在于,在步骤A之前,还包括:主节点向选择的一子节点下发该主节点接收的特征生成任务所对应的初始化任务;执行初始化任务的子节点通过调用所在集群计算机器上的初始化函数,随机生成包含多个初始化的编码个体的编码文件;所述主节点基于所述多个初始化的编码个体,生成多个第一代适应度评价任务,并将生成的每一个第一代适应度评价任务分别下发给不同的子节点。7.如权利要求1所述的方法,其特征在于,在步骤B中,所述执行输出任务的子节点基于第N代适应度评价任务的评价结果,确定并输出适应度最高的n个特征表达式,包括:所述执行输出任务的子节点通过调用所述主节点存储在文件系统中的所述第N代适应度评价任务的评价结果,确定适应度最...
【专利技术属性】
技术研发人员:冯天恒,王雯晋,乔彦辉,王学庆,周胜臣,方炜超,娄鹏,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。