当前位置: 首页 > 专利查询>清华大学专利>正文

一种结合可解释性的图表示学习的超参数优化方法技术

技术编号:26343091 阅读:49 留言:0更新日期:2020-11-13 20:41
本发明专利技术涉及超参数优化技术领域,特别涉及一种结合可解释性的图表示学习的超参数优化方法。本方法包括以下步骤:采样若干小规模的子图;根据完全可解释的图特征,分配有限的算力以及用于后续样本权重;对不同的超参数和图特征做去相关化;根据去相关化后的子图和部分原图计算结果,优化原图的图表示学习超参数。该方法采用了完全可解释的图特征,对算力进行合理分配,在超参数优化过程中对不同的超参数和图特征做了去相关处理,使得整体方法在保证性能的同时,具备很高的可解释性。

【技术实现步骤摘要】
一种结合可解释性的图表示学习的超参数优化方法
本专利技术涉及超参数优化
,特别涉及一种结合可解释性的图表示学习的超参数优化方法。
技术介绍
图作为一种结构化的数据表现形式,对变量之间的相互联系具有非常强的建模能力。图表示学习通过学习图中节点的低维向量表示,来更好地理解图中各个节点之间的语义联系。自动机器学习包括了机器学习的各个阶段:数据处理、特征工程、模型选择、超参数优化和神经网络架构搜索,减轻了模型调优过程中对于人力的依赖和消耗。超参数优化通过选择最优的超参数配置来提高模型的性能。但是当前超参数优化技术主要关注图像、文本等数据,且多采用黑盒的方式来进行优化,整体框架缺乏可解释性,不能有效地解释每次试验为什么采用特定的超参数取值,比如社交网络场景下的好友推荐,当需要进行超参数调优时,很难解释需要如何调节超参数,有待解决。相关技术中,(1)一种超参数随机搜索技术,其适用于各种形式数据的任务,但其性能一般,搜索到最优超参数需要很长的时间。(2)一种基于序列化模型的优化方法,但并没有针对图表示学习进行优化,且基于黑盒模型,不具备可解释性。(3)一种在图表示学习中利用采样子图信息的优化方法,但提取图特征的方式基于太强的物理假设,且没有解决不同超参数之间的互相影响问题,可解释性不强。综上所述,目前,超参数优化在真实图表示学习场景下存在如下缺陷:(1)技术多适用于文本、图像等类型的数据,对于结构化的图结构信息利用不足。现实场景中图的规模往往包含数十亿个节点和边,难以同时保证效率和性能。(2)现有技术往往依赖于过强的数学或者物理假设,由于采用黑盒化的优化方式,严重缺乏可解释性,无法解释下一轮试验中超参数选择某个特定值的原因。
技术实现思路
本专利技术的目的是提出一种结合可解释性的图表示学习的超参数优化方法,以克服已有技术的缺点,在保证较高性能的同时,解耦不同超参数之间的相关性,使超参数优化方法具有更高的可解释性,可以解释每次试验超参数取特定值的原因。本专利技术提出的考虑可解释性的图表示学习过程中确定最优超参数的方法,包括以下步骤:(1)从待确定最优超参数的原图中采样多个子图;(2)根据具有可解释性的特征,在子图上执行图表示学习算法,保留图表示学习算法的结果样本;(3)从样本中消除图表示学习算法的超参数与子图特征之间的相关度;设定循环次数K,初始化时设循环次数k为1;设定有n个样本,其中每个样本包含p1个图表示学习算法的超参数和p2个子图特征,用一个n行(p1+p2)列的矩阵X表示超参数和图特征数据,X=[A,B],其中A为一个n行p1列的超参数矩阵,B为一个n行p2列的子图特征矩阵;利用以下损失方程,求解样本权重γ,使得:满足∑γ=diag(γi,…γn)式中,γ为一个n维向量,diag(γi,…,γn)为以γi,…,γn为对角线的对角矩阵,表示X的二范数,上标T表示矩阵转置,表示求期望;用相关度LDeco表示上述损失方程:为了使得最小化的γ有唯一解,对γ作如下限制:其中,λ1和λ2是人为设置的大常数,c={γ:|γi|≤c},c为常数;(4)确定原图上的图表示学习算法的最优超参数,包括以下步骤:(4-1)以步骤(2)的图表示学习算法的超参数和子图特征作为多层感知机的输入,多层感知机的输出为图表示学习算法的性能结果;(4-2)利用步骤(3)的样本权重,对步骤(4-1)的多层感知机进行训练,设定多层感知机的优化目标如下:其中,Yi表示第i个样本Xi中的超参数和图特征下的图表示学习算法性能,Φ是多层感知机的拟合函数,Θ是多层感知机自身的参数,训练过程中得到多层感知机全连接层的权重;(4-3)根据步骤(4-2)所有超参数在多层感知机中全连接层的权重绝对值之和,利用下式计算该超参数对于图表示学习算法性能的重要度:其中weight(xi)表示第i个超参数对于图表示学习算法性能的重要度,表示多层感知机中计算使用的权重矩阵的第j行,第i列;(4-4)对超参数进行重要度降序排序,依次对每个超参数进行优化,优化的过程中固定其他超参数的取值,优化的过程为对当前超参数在取值范围内进行均匀采样,将超参数的取值和原图的特征作为多层感知机的输入,多层感知机的输出为预测的图表示学习算法性能,取与图表示学习算法性能最高的值相对应的超参数作为待运行超参数取值;(4-5)以步骤(4-4)的待运行超参数取值,在待确定最优超参数的原图上执行图表示学习算法,得到第k轮图表示学习算法性能,将原图的特征、使用的超参数以及第k轮图表示学习算法的结果作为一个新样本加入步骤(3)的n个样本中;(4-6)对循环次数k进行判断,若k<K,则令k=k+1,返回步骤(3),若k≥K,则将K轮超参数中与图表示学习算法性能Yi的最大值相对应的超参数作为最优超参数,实现考虑可解释性的图表示学习过程中最优超参数的确定。上述方法还可以根据多层感知机中全连接层的权重绝对值之和,计算每个超参数对于图表示学习算法性能的重要度,根据重要度指导人工的后续调优。本专利技术的上述确定最优超参数的方法中,从待确定最优超参数的原图中采样多个子图的方法为:根据待确定最优超参数的原图中给定的多类型节点标签,从同一类型节点中确定子图的起点,每个时刻从当前节点随机跳动到一个临近节点,连续多个时刻的随机跳动,多个节点构成一条路径。选取多个不同类型节点作为起点得到多条路径,多条路径上的所有节点集合的并集即为采样的节点集合,原图上由该采样节点集合诱导出一个子图;重复本步骤多次,得到多个子图。或者,也可以根据区域检测方法,从多个区域的一个区域中确定子图的起点,每个时刻从当前节点随机跳到一个临近节点,连续多个时刻的随机跳动,多个节点构成一条路径。选取多个区域中的节点作为起点得到多条路径,多条路径上的所有节点集合的并集即为采样的节点集合,原图上由该采样节点集合诱导出一个子图;重复本步骤多次,得到多个子图。上述方法中,所述的根据具有可解释性的特征,在子图上执行图表示学习算法,保留图表示学习算法的结果样本;包括以下步骤:(1)根据图论理论,从原图和多个子图中提取特征,提取的特征分别包括原图和多个子图的点集大小、边集大小、互有链接的节点三元组数目和连通块的数目;(2)根据原图和多个子图的特征,利用以下堪培拉距离公式,分别计算多个子图与原图之间的相似度;其中gi表示第i个子图与原图的相似度,fi和f分别表示第i个子图和原图的特征,d表示特征的维度,和fk分别表示第i个子图和原图的第k维特征;(3)按相似度大小分配在子图上运行图表示学习算法的次数,按分配的计算次数,分别在多个子图上执行图表示学习算法,每次执行时随机选取一组图表示学习算法的超参数,每个超参数设定一个取值范围,将每次图表示学习算法的计算结果记为一条样本,每条样本中包括子图特征、图表示学习算法的超参数以及结果指本文档来自技高网
...

【技术保护点】
1.一种考虑可解释性的图表示学习过程中确定最优超参数的方法,其特征在于该方法包括以下步骤:/n(1)从待确定最优超参数的原图中采样多个子图;/n(2)根据具有可解释性的特征,在子图上执行图表示学习算法,保留图表示学习算法的结果样本;/n(3)从样本中消除图表示学习算法的超参数与子图特征之间的相关度;/n设定循环次数K,初始化时设循环次数k为1;/n设定有n个样本,其中每个样本包含p

【技术特征摘要】
1.一种考虑可解释性的图表示学习过程中确定最优超参数的方法,其特征在于该方法包括以下步骤:
(1)从待确定最优超参数的原图中采样多个子图;
(2)根据具有可解释性的特征,在子图上执行图表示学习算法,保留图表示学习算法的结果样本;
(3)从样本中消除图表示学习算法的超参数与子图特征之间的相关度;
设定循环次数K,初始化时设循环次数k为1;
设定有n个样本,其中每个样本包含p1个图表示学习算法的超参数和p2个子图特征,用一个n行(p1+p2)列的矩阵X表示超参数和图特征数据,X=[A,B],其中A为一个n行p1列的超参数矩阵,B为一个n行p2列的子图特征矩阵;
利用以下损失方程,求解样本权重γ,使得:



满足∑γ=diag(γi,...,γn)
式中,γ为一个n维向量,diag(γi,...,γn)为以γi,...,γn为对角线的对角矩阵,表示X的二范数,上标T表示矩阵转置,表示求期望;
用相关度LDeco表示上述损失方程:



为了使得最小化的γ有唯一解,对γ作如下限制:



其中,λ1和λ2是人为设置的大常数,c为常数;
(4)确定原图上的图表示学习算法的最优超参数,包括以下步骤:
(4-1)以步骤(2)的图表示学习算法的超参数和子图特征作为多层感知机的输入,多层感知机的输出为图表示学习算法的性能结果;
(4-2)利用步骤(3)的样本权重,对步骤(4-1)的多层感知机进行训练,设定多层感知机的优化目标如下:



其中,Yi表示第i个样本Xi中的超参数和图特征下的图表示学习算法性能,Φ是多层感知机的拟合函数,Θ是多层感知机自身的参数,训练过程中得到多层感知机全连接层的权重;
(4-3)根据步骤(4-2)所有超参数在多层感知机中全连接层的权重绝对值之和,利用下式计算该超参数对于图表示学习算法性能的重要度:

其中weight(xi)表示第i个超参数对于图表示学习算法性能的重要度,表示多层感知机中计算使用的权重矩阵的第j行,第i列;
(4-4)对超参数进行重要性降序排序,依次对每个超参数进行优化,优化的过程中固定其他超参数的取值,优化的过程为对当前超参数在取值范围内进行均匀采样,将超参数的取值和原图的特征作为多层感知机的输入,多层感知机的输出为预测的图表示学习算法性能,取与图表示学习算法性能最高的值相对应的超参数作为待运行超参数取值;
(4-5)以步骤(4-4)的待运行超参数取值,在待确定最优超参数的原图上执行图表示学习算法,得到第k轮图表示学习算法性能,将原图的特征...

【专利技术属性】
技术研发人员:王鑫朱文武范舒翼
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1