当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于注意力机制和强化学习的自动特征构造方法技术

技术编号:27599954 阅读:15 留言:0更新日期:2021-03-10 10:21
本发明专利技术公开一种基于注意力机制和强化学习的自动特征构造方法,依次包括以下步骤:步骤1:给定分类问题的数据集D

【技术实现步骤摘要】
一种基于注意力机制和强化学习的自动特征构造方法


[0001]本专利技术涉及一种自动特征构造方法,具体涉及一种基于注意力机制和强化学习的自动特征构造方法,属于自动机器学习


技术介绍

[0002]近年来自动机器学习本身已成为机器学习的新子领域,机器学习的每个步骤都可以向着自动化方向发展,其中模型选择和超参数优化方面的研究专家们已经提出了比较成熟可用的框架,一般的分类或者回归的机器学习模型已经实现了低门槛或者零门槛甚至免费建模的程度。如今,特征工程是工业界应用AI的难关之一,特征的质量是后续学习模型性能的最重要的基础。
[0003]由于原始特征很少会产生令人满意的结果,因此经常需要执行手动特征生成以更好地表示数据并提高学习性能。但是,这通常是繁琐且难以泛化的工作,从而激发了自动特征生成相关的研究工作。大多数自动特征生成的早期工作通过严格预定义的方法经过组合变换来生成特征,使得方法可扩展性差;后来出现基于深度学习的方法以隐式方式学习高阶的特征交叉,但模型又缺乏可解释性。
[0004]针对上述存在的问题,本专利技术提出了一种基于注意力机制和强化学习的自动特征构造方法TideKit。该方法可以自动学习输入特征的高阶相互作用,同时可广泛应用于特征为数值型的分类问题,并且具有良好的模型可解释性。

技术实现思路

[0005]技术问题:
[0006]本专利技术的目的在于解决现有自动特征生成技术中存在的不足,提供一种基于注意力机制和强化学习的自动特征构造方法。
[0007]技术方案
[0008]本专利技术所述的一种基于注意力机制和强化学习的自动特征构造方法,依次包括以下步骤:
[0009](1)给定分类问题的数据集D
TR
,包含一个数值型特征集合S,设置参数最大迭代次数maxIterations,嵌入尺寸embeddingSize的取值;
[0010](2)将数据集和参数传入TideKit模型,运行模型得到分类结果,该算法的具体内容为:
[0011](21)基于自注意力机制的自动特征生成方法,具体实现于模型的交互层中。对于每个交互层,高阶特征通过自注意力机制进行组合,使用自注意力得分评估不同种类的组合;通过堆叠多个交互层,对组合的原始特征的不同顺序进行建模。
[0012](22)基于强化学习的自动特征选择方法,将特征选择过程转换为马尔可夫决策过程,基于策略梯度并行地评估出每个特征的候选概率,通过迭代不断探索与利用所生成的特征,在有限步骤内以全局最优的特征生成和选择方案指导测试集的特征生成。
[0013]进一步的,所述步骤(21)的详细内容为:在模型的特征交互层中,以自注意力得分评估不同种类的特征组合,将其作为特征交互的权重,提供了特征生成阶段的可解释性;以堆叠交互层的形式完成对不同组合顺序的特征交互,提供了特征生成阶段的可扩展性,且该过程是完全自动化的。
[0014]进一步的,所述步骤(22)的详细内容为:将特征选择过程转换为马尔可夫决策过程,并且对此过程建立动态的自动调整机制——在元学习阶段根据数据集的特征来预热系统,以及在特征选择的迭代过程中根据期望奖励差的差异化奖励表征,以此优化迭代效率。
[0015]有益效果:
[0016]本专利技术提供面向数值型特征的分类问题的自动特征构造,该方法包含基于自注意力机制的特征生成器和基于强化学习的特征选择器,通过迭代不断探索与利用所生成的特征,在有限步骤内以全局最优的特征生成和选择方案指导测试集的特征生成,从而自动得到最优的分类结果。具体包括以下优点:
[0017](1)提出基于自注意力机制的自动特征生成方法,以自注意力得分评估不同种类的组合,并以堆叠交互层的形式完成对不同组合顺序的特征交互,分别提供了特征生成阶段的可解释性与可扩展性,且该过程是完全自动化的,无需人为操作;
[0018](2)提出基于强化学习的自动特征选择方法,将特征选择过程转换为马尔可夫决策过程,基于策略梯度并行地评估出每个特征的候选概率,因此特征选择过程是高效的;此外,后续所建立动态的自动调整机制(自适应收敛方法)优化了迭代效率。
附图说明
[0019]图1为本专利技术中TideKit模型的框架图。
[0020]图2为实施例1中特征粒度级的可解释性实验结果图。
[0021]图3为实施例2中特征值粒度级的可解释性实验结果图。
[0022]图4为实施例5中模型添加收敛性算法前后的对照实验结果图。
具体实施方式
[0023]下面对本专利技术技术方案进行详细说明,但是本专利技术的保护范围不局限于所述实施例。下面对本专利技术技术方案进行详细说明,但是本专利技术的保护范围不局限于所述实施例。
[0024]本专利技术提出的TideKit模型首先将原始数据集划分成训练集和测试集,原始特征通过相同的嵌入层映射成稠密向量。训练集的嵌入向量首先经由特征生成器和特征选择器得出一组新特征,在特征选择时记录下这组被选择的特征序号。然后将被选择的特征馈入分类器,分类器给出本轮打分结果,本轮得分将馈入下一轮的特征选择器,指导下一轮特征生成与选择的进行,迭代直至达到最大迭代次数,最终输出记录下的特征序号列表与对应的打分结果。循环特征生成器将之前记录下的特征序号列表以及训练集和测试集的原始特征作为输入,以全局最优的打分结果所对应的特征序号组(从初始到最优的轮次),指导生成训练集和测试集的特征。最后,把这组新特征馈入与训练阶段相同的分类器,分类器给出最终得分。
[0025]TideKit模型包括特征生成和特征选择两个方面,具体包括:
[0026](1)基于自注意力神经网络的特征生成
[0027]首先,预先将所有特征(即连续、离散、多值)根据值排序统一映射为连续编码。接着,投影到同一低维空间的嵌入层。然后,将所有字段的嵌入信息馈送到一个新颖的交互层中,该层被实现为自注意力(Self

Attention)神经网络。对于每个交互层,高阶特征通过注意力机制进行组合,并且可以使用自注意力得分评估不同种类的组合。通过堆叠多个交互层,可以对组合的原始特征的不同顺序进行建模。最终交互层的输出是一组特征向量,该向量包含原始嵌入特征和通过注意力机制学习的组合特征。
[0028]输入层:首先将输入特征表示为稀疏矢量,即所有字段的串联:
[0029]X=[x1;x2;...;x
i
;...;x
n
],i=1,2,...,n
ꢀꢀ
(1)
[0030]其中n是总特征字段的数量,x
i
是第i字段的特征表示。无论x
i
是连续还是离散值或多值特征的其中一个值,都预先根据值排序统一映射到一个0至类别数

1之间的连续编码(如图3),缺失值以相同数值作独立编码。
[0031]嵌入层:连续值与离散值特征通过嵌入矩阵进行映射完成嵌入:
[0032]e
i...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制和强化学习的自动特征构造方法,其特征在于,依次包括以下步骤:(1)给定分类问题的数据集D
TR
,包含一个数值型特征集合S,设置参数最大迭代次数,嵌入尺寸的取值;(2)将数据集和参数传入TideKit模型,运行模型得到分类结果。2.根据权利要求1所述的一种基于注意力机制和强化学习的自动特征构造方法,其特征在于,具体步骤为:(21)基于自注意力机制的自动特征生成方法,具体实现于模型的交互层中,对于每个交互层,高阶特征通过自注意力机制进行组合,使用自注意力得分评估不同种类的组合;通过堆叠多个交互层,对组合的原始特征的不同顺序进行建模;(22)基于强化学习的自动特征选择方法,将特征选择过程转换为马尔可夫决策过程,基于策略梯度并行地评估出每个特征的候选概率,通过迭代不断探索与利用...

【专利技术属性】
技术研发人员:何洁月蔡嘉跃吴宇
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1