【技术实现步骤摘要】
特征提取方法、装置及计算机可读存储介质
[0001]本公开涉及人工智能
,特别涉及一种特征提取方法、装置及计算机可读存储介质。
技术介绍
[0002]特征工程是机器学习任务中的重要部分,是一项将安全属性数据转化成适合机器学习模型输入的工程实践。
[0003]质量好的特征可以减轻机器学习模型的算法建模难度,提高机器学习模型的训练速度,并能使得机器学习模型输出更精确的结果。
技术实现思路
[0004]本公开解决的一个技术问题是,如何自动化提取安全属性数据的数据特征,使得数据特征具有可解释性,并使得通过数据特征训练得到的机器学习模型具有较高的分类准确率。
[0005]根据本公开实施例的一个方面,提供了一种特征提取方法,包括:构建有向无环图;其中,有向无环图的边表示特征提取算子,有向无环图的根节点表示安全属性数据集,有向无环图的子节点表示利用特征提取算子对有向无环图的父节点进行处理得到的候选安全属性特征集,有向无环图的各个节点具有相同的数据数量;
[0006]在有向无环图中选择多个节点, ...
【技术保护点】
【技术特征摘要】
1.一种特征提取方法,包括:构建有向无环图;其中,有向无环图的边表示特征提取算子,有向无环图的根节点表示安全属性数据集,有向无环图的子节点表示利用特征提取算子对有向无环图的父节点进行处理得到的候选安全属性特征集,有向无环图的各个节点具有相同的数据数量;在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、所述多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从所述多个节点中选择所述准确率最高的节点;将所述准确率最高的节点所表示的候选安全属性特征集作为安全属性数据集的安全属性特征集,以利用所述安全属性特征集训练得到的机器学习模型预测目标安全属性数据的安全级别标签。2.如权利要求1所述的特征提取方法,其中,特征提取算子的种类为多个;有向无环图中同一父节点的不同子节点,是分别利用各个种类的特征提取算子对有向无环图中的同一父节点进行处理得到的。3.如权利要求2所述的特征提取方法,其中,特征提取算子包括正弦函数算子、对数算子、平方算子、特征级联算子、特征选取算子;其中,特征级联算子用于对有向无环图中不同的父节点所表示的候选安全属性特征集进行级联,特征选取算子用于选取有向无环图中父节点所表示的候选安全属性特征集的部分维度。4.如权利要求1所述的特征提取方法,还包括:确定有向无环图中根节点至目标节点的路径;利用所述路径包含的各个边所表示的特征提取算子,确定将安全属性数据集处理为安全属性特征集所需的特征提取运算。5.如权利要求1所述的特征提取方法,其中,采用深度Q学习算法,在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、所述多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从所述多个节点中选择所述准确率最高的节点。6.如权利要求5所述的特征提取方法,其中,所述在有向无环图中选择多个节点,利用安全属性数据集的各个安全级别标签、所述多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从所述多个节点中选择所述准确率最高的节点包括:按照有向无环图中边的方向,对有向无环图中的节点进行搜索;将已搜索节点作为有向无环图的当前搜索状态;将选择特征提取算子对已搜索节点进行处理得到未搜索节点作为当前动作;利用当前搜索状态及当前动作,确定有向无环图的下一搜索状态;确定当前动作的奖励,所述奖励与采用所述下一搜索状态中各节点所表示的候选安全属性特征集训练得到的机器学习模型预测安全级别标签的最高准确率呈正相关;将所述当前搜索状态、当前动作、当前奖励以及下一搜索状态存储至深度Q学习算法的经验池,以便利用深度Q学习算法的经验池选择所述准确率最高的节点。7.如权利要求5所述的特征提取方法,其中,所述在有向无环图中选择多个节点,利用
安全属性数据集的各个安全级别标签、所述多个节点中各个节点所表示的候选安全属性特征集,分别训练机器学习模型并测试多个节点中各个节点所对应机器学习模型预测安全级别标签的准确率,并从所述多个节点中选择所述准确率最高的节点包括:设定采用深度Q学习算法对有向无环图中的节点进行搜索的终止时间;设定采用深度Q学习算法对有向无环图中的节点进行搜索的最大搜索深度...
【专利技术属性】
技术研发人员:吴发翔,程建波,彭南博,黄志翔,
申请(专利权)人:京东数字科技控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。