一种基于遗传算法的自动化特征构建方法技术

技术编号:31314182 阅读:14 留言:0更新日期:2021-12-12 22:05
本发明专利技术提供了一种基于遗传算法的自动化特征构建方法,包括:对目标数据进行特征提取获取数据特征;将所述数据特征输入遗传算法结构模型中,生成包含有若干个体的种群;基于所述遗传算法模型,对种群和个体进行自动化特征构建,并基于构建结果,输出若干个最优个体;通过遗传算法结构模型,解决了对于混合型数据的编码问题,实现了对同时含有离散特征和连续特征的数据自动化特征构建,有效地完成了对大量新特征的构建。新特征的构建。新特征的构建。

【技术实现步骤摘要】
一种基于遗传算法的自动化特征构建方法


[0001]本专利技术涉及计算机科学中的机器学习领域,特别涉及一种基于遗传算法的自动化特征构建方法。

技术介绍

[0002]在数据驱动的时代,机器学习算法受到了广泛的关注,而特征工程作为机器学习中非常重要的一步,同样也受到了大量的关注。这里的数据指的就是经过特征工程得到的数据,特征工程是指对原始特征进行清洗、衍生、筛选等操作的过程,它所带来的结果就是提高数据质量,进而提升模型在新特征上的表现。因此如何寻找和构造有效的特征的过程就显得尤为重要。传统的特征工程方法一般是人工从原始数据中找出一些具有一定物理意义的特征。这一过程通常需要对原始数据进行多方面的观测,思考问题的潜在形式和数据结构,再通过大量反复试验进行试错,从而找过真正有用的特征。但是这样的过程一般需要花费大量的人力和时间,并且效率很低。这就启发我们利用计算机强大的计算功能让它自己去学习和探索有效的特征。
[0003]自动化特征工程就是这样一种技术。目前的一些自动化特征构建工具,如gplearn通过做符号回归来构建特征,但由于缺乏对于结构化数据合理的编码,无法处理离散型数据。又如Featurestools通过对数据做转换和聚合来构建特征,其中虽然考虑到了对于结构化数据的编码和聚合,但是并没有非常有效的途径去构建大量的新特征,并对新特征进行选择,以上的这些技术虽然可以在一定程度上处理特征工程的问题,但是却都存在着一些缺陷,如无法对于混合型数据进行有效地自动化特征提取。

技术实现思路

[0004]本专利技术提供一种基于遗传算法的自动化特征构建方法,通过遗传算法结构模型,解决了对于混合型数据的编码问题,实现了对同时含有离散特征和连续特征的数据自动化特征构建,有效地完成了对大量新特征的构建。
[0005]本专利技术提供一种基于遗传算法的自动化特征构建方法,包括:
[0006]步骤1:对目标数据进行特征提取获取数据特征;
[0007]步骤2:将所述数据特征输入遗传算法结构模型中,生成包含有若干个体的种群;
[0008]步骤3:基于所述遗传算法模型,对种群和个体进行自动化特征构建,并基于构建结果,输出若干个最优个体。
[0009]在一种可能实现的方式中,
[0010]步骤1中,对目标数据进行特征提取获取数据特征包括:
[0011]基于所述遗传算法结构模型的预设通用度,获取所述遗传算法结构模型读取的预设目标数据及其对应的第一特征值;
[0012]对所述目标数据集输入数据特征提取模型中,并输出所述目标数据对应的第二特征值;
[0013]基于所述第一特征值,对所述第二特征值进行识别,获取所述第一特征值和第二特征值之间的识别率;并判断所述识别率是否大于预设识别率;
[0014]若是,将所述第一特征值对应的数据特征,作为所述第二特征值对应目标数据的数据特征;
[0015]否则,调整所述预设通用度的取值,更新得到所述预设目标数据及其对应的第一特征值,将小于等于预设识别率的第二特征值与更新后的第一特征值进行识别,并根据识别结果获取所述小于等于预设识别率的第二特征值对应的数据特征。
[0016]在一种可能实现的方式中,
[0017]步骤2中,将所述数据特征输入遗传算法结构模型中,生成包含有若干个体的种群包括:
[0018]将所述数据特征输入遗传算法结构模型中,获取所述数据特征的相关信息,所述相关信息包括数据来源、数据类型、数据连续或离散属性、数据字段;
[0019]基于所述相关信息,确定所述数据特征之间的关联度,并根据所述关联度将所述数据特征划分为多个类别;
[0020]以类别中对应的数据特征数目为编码位,利用随机分布生成法对对应的数据特征进行编码,得到种群,每个编码位对应的编码后的数据特征为所述种群包含的个体。
[0021]在一种可能实现的方式中,
[0022]步骤3中,对种群和个体进行自动化特征构建之前还包括:对所述个体进行随机初始化,其过程如下:
[0023]随机抽取若干所述个体组成变量序列。
[0024]在一种可能实现的方式中,
[0025]步骤3中,基于所述遗传算法模型,对种群和个体进行自动化特征构建包括:
[0026]对所述个体进行突变,对所述种群进行交叉。
[0027]在一种可能实现的方式中,
[0028]对所述个体进行突变包括:
[0029]随机删除:从随机抽取若干所述个体组成的变量序列中随机删除若干变量;
[0030]随机增加:从个体的变量库中随机添加若干新变量至所述变量序列中;
[0031]点突变:从所述变量序列随机选择一个第一初始个体,并判断所述第一初始个体的特征类型;
[0032]若所述初始个体为离散型,则从离散编码算子集合中随机选择一个离散编码算子,对所述第一初始个体进行离散编码,输出第一目标个体;
[0033]若所述初始个体为连续型,则从连续编码算子集合中随机选择一个连续编码算子,对所述第一初始个体进行连续编码,输出第二目标个体;
[0034]二重突变:从所述变量序列中随机选择两个第二初始个体和第三初始个体,并判断所述第二初始个体和第三初始个体的特征类型;
[0035]若所述第二初始个体和第三初始个体为离散

连续类型,则从离散

连续编码算子集合中随机选取一个离散

连续编码算子,对所述第二初始个体和第三初始个体进行离散

连续编码,输出第三目标个体;
[0036]若所述第二初始个体和第三初始个体为连续

连续类型,则从二元编码算子集合
中随机选取一个二元编码算子,对所述第二初始个体和第三初始个体进行二元编码,输出第四目标个体;
[0037]若所述第二初始个体和第三初始个体为离散

离散类型,则从离散

离散编码算子集合中随机选取一个离散

离散编码算子,对所述第二初始个体和第三初始个体进行离散

离散编码,输出第五目标个体。
[0038]在一种可能实现的方式中,
[0039]对所述种群进行交叉包括:
[0040]随机选取两个变量序列,并分别从所述两个变量序列中随机选取出两个个体变量,并对所述两个个体变量进行交叉对换,输出两个新的变量序列。
[0041]在一种可能实现的方式中,
[0042]步骤3中,基于构建结果,输出若干个最优个体包括:
[0043]基于所述构建结果,获取新的种群,所述新的种群包含若干新的个体;
[0044]预先为所述遗传算法模型设定第一评估指标,第二评估指标,将所述新的种群输入所述遗传算法模型,得到所述若干新的个体在第一评估指标,第二评估指标下的评估结果;
[0045]基于所述评估结果,并根据如下公式计算所述新的种群的准确率:
...

【技术保护点】

【技术特征摘要】
1.一种基于遗传算法的自动化特征构建方法,其特征在于,包括:步骤1:对目标数据进行特征提取获取数据特征;步骤2:将所述数据特征输入遗传算法结构模型中,生成包含有若干个体的种群;步骤3:基于所述遗传算法模型,对种群和个体进行自动化特征构建,并基于构建结果,输出若干个最优个体。2.根据权利要求1所述的一种基于遗传算法的自动化特征构建方法,其特征在于,步骤1中,对目标数据进行特征提取获取数据特征包括:基于所述遗传算法结构模型的预设通用度,获取所述遗传算法结构模型读取的预设目标数据及其对应的第一特征值;对所述目标数据集输入数据特征提取模型中,并输出所述目标数据对应的第二特征值;基于所述第一特征值,对所述第二特征值进行识别,获取所述第一特征值和第二特征值之间的识别率,并判断所述识别率是否大于预设识别率;若是,将所述第一特征值对应的数据特征,作为所述第二特征值对应目标数据的数据特征;否则,调整所述预设通用度的取值,更新得到所述预设目标数据及其对应的第一特征值,将小于或等于预设识别率的第二特征值与更新后的第一特征值进行识别,并根据识别结果获取小于或等于预设识别率的第二特征值对应的数据特征。3.根据权利要求1所述的一种基于遗传算法的自动化特征构建方法,其特征在于,步骤2中,将所述数据特征输入遗传算法结构模型中,生成包含有若干个体的种群包括:将所述数据特征输入遗传算法结构模型中,获取所述数据特征的相关信息,所述相关信息包括数据来源、数据类型、数据连续或离散属性、数据字段;基于所述相关信息,确定所述数据特征之间的关联度,并根据所述关联度将所述数据特征划分为多个类别;以类别中对应的数据特征数目为编码位,利用随机分布生成法对对应的数据特征进行编码,得到种群,每个编码位对应的编码后的数据特征为所述种群包含的个体。4.根据权利要求1所述的一种基于遗传算法的自动化特征构建方法,其特征在于,步骤3中,对种群和个体进行自动化特征构建之前还包括:对所述个体进行随机初始化,其过程如下:随机抽取若干所述个体组成变量序列。5.根据权利要求1所述的一种基于遗传算法的自动化特征构建方法,其特征在于,步骤3中,基于所述遗传算法模型,对种群和个体进行自动化特征构建包括:对所述个体进行突变,对所述种群进行交叉。6.根据权利要求5所述的一种基于遗传算法的自动化特征构建方法,其特征在于,对所述个体进行突变包括:随机删除:从随机抽取若干所述个体组成的变量序列中随机删除若干变量;随机增加:从个体的变量库中随机添加若干新变量至所述变量序列中;点突变:从所述变量序列随机选择一个第一初始个体,并判断所述第一初始个体的特征类型;
若所述第一初始个体为离散型,则从离散编码算子集合中随机选择一个离散编码算子,对所述第一初始个体进行离散编码,输出第一目标个体;若所述初始个体为连续型,则从连续编码算子集合中随机选择一个连续编码算子,对所述第一初始个体进行连续编码,输出第二目标个体;二重突变:从所述变量序列中随机选择两个第二初始个体和第三初始个体,并判断所述第二初始个体和第三初始个体的特征类型;若所述第二初始个体和第三初始个体为离散

连续类型,则从离散

连续编码算子集合中随机选取一个离散

连续编码算子,对所述第二初始个体和第三初始个体进行离散

连续编码,输出第三目标个体;若所述第二初始个体和第三初始个体为连续

连续类型,则从二元编码算子集合中随机选取一个二元编码算子,对所述第二初始个体和第三初始个体进行二元编码,输出第四目标个体;若所述第二初始个体和第三初始个体为离散

离散类型,则从离散

离散编码算子集合中随机选取一个...

【专利技术属性】
技术研发人员:王然
申请(专利权)人:众微致成北京信息服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1