一种基于图卷积网络的缺失特征重表示方法及系统技术方案

技术编号:29044681 阅读:20 留言:0更新日期:2021-06-26 05:57
本发明专利技术提出一种基于图卷积网络的缺失特征重表示方法和系统,包括:提取已标注类别的训练样本的特征,将该训练样本的特征作为节点,通过距离度量得到节点与节点之间的相似关系,根据该相似关系构建节点之间形成连接边,以得到该训练样本的图网络;以该图网络中邻近样本的特征信息和图中各节点对应的标注类别,训练图卷积网络,得到特征重表示模型,通过将待分类样本的特征输入该特征重表示模型,重建该待分类样本的特征并为重建后的特征进行分类,得到该待分类样本的分类结果。得到该待分类样本的分类结果。得到该待分类样本的分类结果。

【技术实现步骤摘要】
一种基于图卷积网络的缺失特征重表示方法及系统


[0001]本专利技术涉及机器学习领域,具体涉及一种基于图卷积网络的缺失特征重表示方法。该方法作为一项在机器学习中处理特征缺失这类异常数据的方法,可以有效解决特征缺失引起的模型失效问题。

技术介绍

[0002]目前的机器学习模型方法中需要保持特征维数一致,而在现实环境下存在信源数据缺失的问题,如无线信号不稳定、传感器自身特性、高动态环境变化剧烈等因素都会使得出现数据缺失的情况,且严重程度随着模型所适应环境范围的不断扩大而增加。数据的缺失会导致提取的特征难度增大等问题,进而降低机器学习模型性能。
[0003]对于实际应用中的数据缺失,如果某些特征缺失较严重的情况采取直接丢弃特征的方法来保持特征维度的一致,如果某些特征缺失较少则采取特征补齐的方式以降低数据缺失特征的影响。
[0004]现有技术中,丢失缺失的方法无法适用于高动态的环境,保持特征维数一致的成本较高,而特征补齐通用的方法如均值填充又只能适应于比较简单的缺失问题。各种现有的针对数据缺失问题的处理方法都没有充分利用缺失特征的样本与其他样本之间的相关性。

技术实现思路

[0005]本专利技术的目的是克服机器学习过程中特征缺失而对模型训练带来较大困难,在此问题上提出了一种基于图卷积网络的数据缺失特征重表示方法。
[0006]针对现有技术的不足,本专利技术提出一种基于图卷积网络的缺失特征重表示方法,其特征在于,包括:
[0007]步骤1、提取已标注类别的训练样本的特征,将该训练样本的特征作为节点,通过距离度量得到节点与节点之间的相似关系,根据该相似关系构建节点之间形成连接边,以得到该训练样本的图网络;
[0008]步骤2、以该图网络中邻近样本的特征信息和图中各节点对应的标注类别,训练图卷积网络,得到特征重表示模型,通过将待分类样本的特征输入该特征重表示模型,重建该待分类样本的特征并为重建后的特征进行分类,得到该待分类样本的分类结果。
[0009]所述的基于图卷积网络的缺失特征重表示方法,其特征在于,该训练样本和该待分类样本为图像数据或电离层数据或葡萄酒质量数据。
[0010]所述的基于图卷积网络的缺失特征重表示方法,其特征在于,步骤1中该距离度量具体为:
[0011][0012]其中,X和Y分别为该训练样本的特征向量,X=(x1,x2,

,x
n
)、Y=(y1,y2,

,y
n
),d
(X,Y)为节点与节点之间的相似度,m为样本之间都存在的特征维度。
[0013]所述的基于图卷积网络的缺失特征重表示方法,其特征在于,步骤2包括图卷积网络的构建步骤:
[0014]步骤21、根据预设的卷积网络层数和K值,形成多个以卷积网络层数和K值构成的组合,初始设置组合方式C=NULL以及测试精度H=0;
[0015]步骤22、从多个以卷积网络层数和K值构成的组合中选择一种组合,构建测试网络,选择一部分训练样本作为训练集,另一部分训练样本作为测试集;
[0016]步骤23、以该训练集训练该测试网络,并对该测试集中样本进行预测,输出预测结果,得到分类识别精度h;
[0017]步骤24、判断h是否大于H,若是,则将C置为当前选择的组合方式,H更新为h,否则判断是否已经全部遍历完全部组合,若是,则根据当前组合方式C构建该图卷积网络,否则再次执行该步骤22。
[0018]本专利技术还提出了一种基于图卷积网络的缺失特征重表示方法,其特征在于,包括:
[0019]步骤1、提取已标注类别的训练样本的特征,将该训练样本的特征作为节点,通过距离度量得到节点与节点之间的相似关系,根据该相似关系构建节点之间形成连接边,以得到该训练样本的图网络;
[0020]步骤2、以该图网络中邻近样本的特征信息和图中各节点对应的标注类别,训练图卷积网络,得到特征重表示模型,通过将待分类样本的特征输入该特征重表示模型,重建该待分类样本的特征并为重建后的特征进行分类,得到该待分类样本的分类结果。
[0021]所述的基于图卷积网络的缺失特征重表示方法,其特征在于,该训练样本和该待分类样本为图像数据或电离层数据或葡萄酒质量数据。
[0022]所述的基于图卷积网络的缺失特征重表示方法,其特征在于,步骤1中该距离度量具体为:
[0023][0024]其中,X和Y分别为该训练样本的特征向量,X=(x1,x2,

,x
n
)、Y=(y1,y2,

,y
n
),d(X,Y)为节点与节点之间的相似度,m为样本之间都存在的特征维度。
[0025]所述的基于图卷积网络的缺失特征重表示方法,其特征在于,步骤2包括图卷积网络的构建步骤:
[0026]步骤21、根据预设的卷积网络层数和K值,形成多个以卷积网络层数和K值构成的组合,初始设置组合方式C=NULL以及测试精度H=0;
[0027]步骤22、从多个以卷积网络层数和K值构成的组合中选择一种组合,构建测试网络,选择一部分训练样本作为训练集,另一部分训练样本作为测试集;
[0028]步骤23、以该训练集训练该测试网络,并对该测试集中样本进行预测,输出预测结果,得到分类识别精度h;
[0029]步骤24、判断h是否大于H,若是,则将C置为当前选择的组合方式,H更新为h,否则判断是否已经全部遍历完全部组合,若是,则根据当前组合方式C构建该图卷积网络,否则再次执行该步骤22。
[0030]现有方法直接丢失存在大面积缺失的模态数据维度解决数据缺失问题,相比于
此,本专利技术通过利用样本之间的相关性对缺失特征的样本进行特征表示,进而解决模态数据特征缺失的问题。随着卷积网络的不断训练,本专利技术能够充分挖掘样本之间的共性,该方法相比于简单的填充处理方法(如均值填充等)能够更加有效的利用邻近样本的特征,进而提升在数据缺失问题上机器学习模型性能。
[0031]同时,本专利技术提出的方法,不受特定数据模态的限制,可以被广泛的应用到现实的各种多模态机器学习任务中。
附图说明
[0032]图1为本专利技术图网络构建参数生成流程图;
[0033]图2为模型训练流程图;
[0034]图3和图4分别为公开数据集wine和ionosphere在不同算法下的实验结果图。
具体实施方式
[0035]专利技术人在进行特征缺失情况的研究时,发现现有技术中对缺失数据的处理方式都忽略了缺失数据的样本与其他样本之间的相关性,专利技术人经过研究发现,采集的原始数据的样本之间的相关性使得数据特征缺失的问题可以通过充分利用其他样本的信息对缺失数据进行重表示来得到解决。
[0036]本专利技术提出了一种基于图卷积网络的缺失特征重表示方法。本专利技术提出的方法共包含两个阶段:图网络的构建以及训练图网络。在图网络的构建阶段:首先通过在机器学习任务的原始数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图卷积网络的缺失特征重表示方法,其特征在于,包括:步骤1、提取已标注类别的训练样本的特征,将该训练样本的特征作为节点,通过距离度量得到节点与节点之间的相似关系,根据该相似关系构建节点之间形成连接边,以得到该训练样本的图网络;步骤2、以该图网络中邻近样本的特征信息和图中各节点对应的标注类别,训练图卷积网络,得到特征重表示模型,通过将待分类样本的特征输入该特征重表示模型,重建该待分类样本的特征并为重建后的特征进行分类,得到该待分类样本的分类结果。2.如权利要求1所述的基于图卷积网络的缺失特征重表示方法,其特征在于,该训练样本和该待分类样本为图像数据或电离层数据或葡萄酒质量数据。3.如权利要求1所述的基于图卷积网络的缺失特征重表示方法,其特征在于,步骤1中该距离度量具体为:其中,X和Y分别为该训练样本的特征向量,X=(x1,x2,

,x
n
)、Y=(y1,y2,

,y
n
),d(X,Y)为节点与节点之间的相似度,m为样本之间都存在的特征维度。4.如权利要求1所述的基于图卷积网络的缺失特征重表示方法,其特征在于,步骤2包括图卷积网络的构建步骤:步骤21、根据预设的卷积网络层数和K值,形成多个以卷积网络层数和K值构成的组合,初始设置组合方式C=NULL以及测试精度H=0;步骤22、从多个以卷积网络层数和K值构成的组合中选择一种组合,构建测试网络,选择一部分训练样本作为训练集,另一部分训练样本作为测试集;步骤23、以该训练集训练该测试网络,并对该测试集中样本进行预测,输出预测结果,得到分类识别精度h;步骤24、判断h是否大于H,若是,则将C置为当前选择的组合方式,H更新为h,否则判断是否已经全部遍历完全部组合,若是,则根据当前组合方式C构建该图卷积网络,否则再次执行该步骤22。5.一种基于图...

【专利技术属性】
技术研发人员:蒋鑫龙陈益强沈鸿张忠平王永斌刘廉如
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1