当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于可微分架构搜索的自动特征构建方法技术

技术编号:31494976 阅读:37 留言:0更新日期:2021-12-18 12:34
本发明专利技术公开一种基于可微分架构搜索的自动特征构建方法,依次包括以下步骤:步骤1.根据输入的数据对其进行预处理,包括对缺失值处理以及独热编码,得到高维稀疏的样本x;步骤2.通过嵌入矩阵将高维稀疏的样本x映射为特征嵌入表示E;步骤3.根据步骤2得到的特征嵌入表示,使用可微分架构搜索方法为每个特征搜索合适的交互对象以及交互方式,加入基于合作模式的交互算子,引入跳跃连接、低阶特征交互、高阶特征交互这三个算子以解决搜索网络迁移至目标网络时的性能崩溃问题;步骤4.输出层:搜索网络与目标网络最终均输出一组特征向量。本发明专利技术可以避免无效特征的生成并提高生成特征的质量,有效地提升下游任务模型的性能,例如分类任务等。类任务等。类任务等。

【技术实现步骤摘要】
一种基于可微分架构搜索的自动特征构建方法


[0001]本专利技术涉及一种自动特征构建方法,具体涉及一种基于可微分架构搜索的自动特征构建方法。

技术介绍

[0002]自动机器学习旨在基于特征工程、模型选择、超参数优化等关键步骤自动构建一条机器学习流水线,以减少对领域知识的依赖。在学术界,针对流水线中所要自动化的不同步骤,相继出现了自动特征工程、超参数优化神经网络架构搜索等子领域。其中与超参数优化、神经网络架构搜索相关的技术已相对成熟,而自动特征工程一直是未被攻克的难题。特征生成是自动特征工程方法的核心,良好的自动特征工程方法可以生成与预测目标高度相关的新特征。在现有的自动特征工程方法中,基于人为预定义算子的方法将算子应用于原始特征,这类方法大多针对数值型特征;基于深度学习的方法则通过深度神经网络捕获特征间的交互,特征在神经网络中的交互一般是隐式的,这类方法通常面向类别型特征。基于算子的方法依赖于先验知识,虽然具有良好的可解释性,但效率较低;基于深度学习的方法能够应用于以类别型特征为主的推荐系统等领域,端到端的方式保证了其高效性,但隐式的特征交互使本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于可微分架构搜索的自动特征构建方法,其特征在于,依次包括以下顺序执行的步骤:步骤1.输入层:根据输入的数据对其进行预处理,包括对缺失值处理以及独热编码,在经过缺失值处理和独热编码后得到高维稀疏的样本x;步骤2.嵌入层:根据步骤1得到的高维稀疏数据,通过嵌入矩阵将高维稀疏的样本x映射为特征嵌入表示E;步骤3.特征交互层:根据步骤2得到的特征嵌入表示,使用可微分架构搜索方法为每个特征搜索合适的交互对象以及交互方式,加入基于合作模式的交互算子,引入跳跃连接、低阶特征交互、高阶特征交互这三个算子以丰富特征嵌入表示,更改算子之间的竞争模式为合作模式,以解决搜索网络迁移至目标网络时的性能崩溃问题;步骤4.输出层:搜索网络与目标网络最终均输出一组特征向量,其中目标网络的输出将作为整个模型的最终输出,由特征交互层输出的一组特征向量将会作为下游任务的输入,可依据不同的下游任务选择不同的模型。2.根据权利要求1所述的一种基于可微分架构搜索的自动特征构建方法,其特征在于,步骤1具体为:令原数据中类别型特征数量为M,对每个特征进行独热编码得到新的二值化向量,记原样本第i个特征经过编码后的向量表示为x
i
,则新样本表示式(1)所示:x=[x1;x2;

;x
M
]
ꢀꢀꢀꢀꢀꢀꢀ
(1)其中x
i
是one

hot向量或multi

hot向量,独热编码将离散的特征值映射到欧式空间中。3.根据权利要求2所述的一种基于可微分架构搜索的自动特征构建方法,其特征在于,步骤2具体为:每个特征域i对应一个嵌入矩阵其中k
i
为向量x
i
的维度,d是经过嵌入矩阵后嵌入表示的维度,嵌入层通过嵌入矩阵将输入层中高维且稀疏的二值化向量x
i
映射到低维空间中,得到的嵌入表示e
i
如式(2)所示:其中,||
·
||0表示L0范数,||x
i
||0表示向量x
i
中非零元素的个数,记样本x在经过嵌入层后的嵌入表示为E,则样本的嵌入表示具体如公式(3)所示:E=[e1;e2;

;e
M
]
ꢀꢀꢀꢀꢀ
(3)4.根据权利要求3所述的一种基于可微分架构搜索的自动特征构建方法,其特征在于,步骤3具体为:步骤31.首先定义结构参数β,并通过该结构参数反映特征在交互过程中的去留:记初始特征嵌入在经过l次交互后的对应特征为给定特征嵌入在交互过程中,部分特征被选择进行交互,而部分特征被筛除以避免生成无用的特征,在已有基于深度的特征交互模型基础上,定义新的参数以反映特征是否被选择,并称其为结构参数;步骤32.在结构参数的基础上定义不同的交互算子:跳跃连接将当前特征包含的信息直接传递到下一层中,假设对应用跳跃连接,如式(4)所示:
其中,为初始特征嵌入在经过l+1次交互后的对应特征,d
l

【专利技术属性】
技术研发人员:何洁月吴宇奚鑫
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1