基于深度增强学习的图信号节点采样方法技术

技术编号:24035879 阅读:106 留言:0更新日期:2020-05-07 01:53
本发明专利技术公开了基于深度增强学习的图信号节点采样方法,属于机器学习领域。该方法基于经典分立空间增强学习算法Deep Q Learning方法,把图中所有的信号节点作为增强学习中的动作空间,增强学习智体通过学习采取合适的节点来最大化地保留原图所包含的信息。我们独创性地设计了智体所运行的环境,在这个环境中智体通过采取动作来获得回报,不断的训练与提升其采样策略。该方法不需要大量的有标签数据,使用神经网络来处理大量的图数据,使用增强学习算法来自动化这一流程。实现对部分节点的精准筛选。训练好的智体可以在环境中自动根据图的特征选取合适的节点进行筛选,只要实际应用问题可以抽象为信号图,而且全程自动化采样,没有任何附加成本和人力参与。

Sampling method of graph signal nodes based on depth enhanced learning

【技术实现步骤摘要】
基于深度增强学习的图信号节点采样方法
本专利技术属于机器学习领域,具体涉及基于深度增强学习的图信号节点采样方法。
技术介绍
图信号处理领域中,图是一种数据结构模型,在其中包含节点与边,分别代表着对象与他们之间的关系。数据图通常包括很多节点和他的标签信息。尤其当下信息时代,每天都生产出大量的数据,其中如社交网络身份信息、网络支付信息、传感器网络信息、智能交通数据信息、生物网络信息等。大数据时代造成了存储介质资源的高需求,造成了处理大数据的繁重任务。对现实应用中的大数据进行完全地观察和处理是非常艰难的。在这些情况下,如果能够根据数据特征,对大数据集合中的一部分最优价值的节点进行选取,形成一个典型的采样集。在之后的应用数据的时通过采样集来还原完整的数结构将会减少上述数据处理压力。这也是图信号处理的一个基本问题。随着机器学习领域技术的迭代发展以及计算机资源的发展,使用深度学习与神经网络来解决大数据问题已经成为一种趋势。神经网络相较于传统的智能算法,往往具有更高的模型拟合能力,具有高效的数据处理分析能力。我们把增强学习方法与深度学习方法结合,来解决图信号采样这一问题,让该方法能够快速地根据图特征选取最有价值的节点。更可靠地保留原图所包含的信息。对图信号关键节点进行采样具有很大的实用意义,在此前,许多研究者提出的方法如随机游走方法,均匀采样方法等智能算法。这些方法的优点在于不受图具体细微特征的影响,可以快速地运行进行采样。然而缺点是采样集合不够精准,往往需要对大量的节点采样后才能保证还原原图信息。这也使得近些年一些研究者们使用其他方法来取代这两种被广泛应用的方法。比如最近乌克兰学者提出的基于多臂老虎机算法来进行图信号采样,该方法是传统增强学习中的一种智能方法,该方法进一步的提升了采样精准度。还有一些学者通过把图转换为向量,从而运用处理向量的理论和方法进行节点采样,但这种方法需要构建完备的图与向量的转换模型,前期工作仍较为繁重。还有学者提出了图神经网络,用来解决图特征处理方面的问题。对图信号采样工作的研究仍需要更多的创新与发展,来一步步完善这个问题。本专利技术针对图理论中的图信号采样问题,采用了基于深度增强学习方法的采样方法。根据增强学习可以自动学习的特性,设计了智体运行环境,让智体在环境中自动训练并学习采样方法,从而完成节点的采样。因此该方法的使用中不需要大量的人力工作。目前在核心期刊与专利查询中均未发现与此专利技术类似的方法介绍。
技术实现思路
本专利技术的目的在于提供操作方便,成本低的基于深度增强学习的图信号节点采样方法。本专利技术的目的通过以下技术方案来实现:基于深度增强学习的图信号节点采样方法,包含以下步骤:步骤1:初始化图采样环境,获取图的关联矩阵、标签矩阵,其中标签矩阵可选,进入步骤2;步骤2:初始化采样算法的超参数,包括总体回合数,每回合的总体步数,初始化记忆容量并设定为空集,随机初始化Q神经网络和目标Q神经网络,初始化总体采样集为空集,进入步骤3;步骤3:初始化回合采样集等于总体采样集,智体接收环境的状态值,按照贪婪算法贪婪指数递增策略进行动作选择,并把选择的动作加到回合采样集中,进入步骤4;步骤4:训练模拟环境基于标签传播算法进行图重建,用重建的图标签信息与原图标签信息进行比对并得到重建图标签预测错误的数目,定义奖励=-错误节点数目/总体节点数目,进入步骤5;步骤5:环境输出状态与奖励,智体记忆重载区对这回合的信息进行保存,并同时给出下一步的动作,进入步骤6;步骤6:从记忆体重提取一组迷你数据,使用DeepQLearning算法更新目标Q网络的目标值,其中Q值计算为奖励的折扣累积值,使用梯度下降方法对目标Q网络参数进行更新,每隔固定步数,目标Q网络中的参数值传递给Q网络,完成智体策略执行网络的更新;步骤7:如果此时运行步数小于总体步骤数,则回到步骤3,否则进入步骤8;步骤8:将动作节点加入到总体采样集合中,进入步骤9;步骤9:如果此时运行回合数小于总体回合数,则回到步骤3,否则进入步骤10;步骤10:得到采样节点子集,完成图关键节点采样任务,结束程序。在智体训练过程中每个回合提供新的信号图,并同时提供给智体该图的关联矩阵,此关联矩阵作为智体所接收的状态量。步骤4所述的训练模拟环境,依照图的关联矩阵维度构建动作空间,智体在该动作空间中选择动作。步骤4所述的训练模拟环境,按照标签传播算法进行图重建,并使用重建精度作为智体所接收的奖励值。步骤6所述的DeepQLearning方法,使用神经网络读取状态信息,神经网络输出作为智体动作信息,并对采样过的结果进行存储成为智体的记忆力。每个回合末尾实际选择一个动作作为该回合的动作,所采样的节点总数与回合的数目一致。本专利技术的有益效果在于:本专利技术中基于增强学习算法的图信号采样方法与图信号处理模拟环境可在任何PC机进行运行与使用,不依赖与任何外部传感器。从硬件角度没有任何附加成本。对于不同应用领域的数据,只要实际应用问题可以抽象为信号图,都可使用本方法进行关键节点筛选。对于采样集合,可应用标签传播方法进行图还原。在使用方法时,面对不同的应用情景只需要替换超参数即可运行。其中回合设定为采样集的大小,动作空间设定为图中节点总数的大小。运行环境中的图改为需要采样的图即可。不需要对方法本身进行额外修改。全程自动化采样,没有任何附加成本和人力参与。附图说明图1为深度增强学习环境下智体训练系统图;图2为基于深度增强学习算法的图信号采样方法运行流程图。具体实施方式下面结合附图对本专利技术的具体实施方式作进一步说明:基于深度增强学习的图信号节点采样方法由基于增强学习的图信号采样与图重建智体训练模拟环境,基于DeepQLearning算法的图信号采样方法,与对增强学习训练过程中回合与步骤的重新定义规划三部分组成。此外,在核心深度增强学习算法中,还使用到了批处理,记忆重载,贪婪算法等技术提升算法效率。其中训练模拟环境基于增强学习训练智体的逻辑构建而成,其对智体采取动作进行奖励反馈,并且在每回合后会生成新的环境状态训练智体。该环境可自动化的让智体运行与学习。采样方法基于经典深度学习算法DeepQLearning,该方法可智能的探索动作空间,并根据环境给的奖励进行动作优化与调节。方法采用双神经网络设计,一个为Q神经网络,用于输出动作值Q,另一个为目标Q网络,用于从记忆重载中读取经历进行Q值学习。其中目标Q网络为策略学习网络,Q神经网络为动作执行网络。二者结合,并在一定的迭代周期后更新二者网络参数。在训练过程中,我们对状态,动作,奖励等信号进行批量的处理学习。为使得智体能在动作空间中探索各种动作的后果,我们使用贪婪算法来合理的规划选择网络输出的动作和随机产生的动作。在训练初始阶段完全随机产生动作,在训练到一定程度后,完全由神经网络产生动作,来保证输出动作的可靠性。采样方法中,我们定义采样节点数目与增强学习训练的回合数是一致本文档来自技高网
...

【技术保护点】
1.基于深度增强学习的图信号节点采样方法,其特征在于,包含以下步骤:/n步骤1:初始化图采样环境,获取图的关联矩阵、标签矩阵,其中标签矩阵可选,进入步骤2;/n步骤2:初始化采样算法的超参数,包括总体回合数,每回合的总体步数,初始化记忆容量并设定为空集,随机初始化Q神经网络和目标Q神经网络,初始化总体采样集为空集,进入步骤3;/n步骤3:初始化回合采样集等于总体采样集,智体接收环境的状态值,按照贪婪算法贪婪指数递增策略进行动作选择,并把选择的动作加到回合采样集中,进入步骤4;/n步骤4:训练模拟环境基于标签传播算法进行图重建,用重建的图标签信息与原图标签信息进行比对并得到重建图标签预测错误的数目,定义奖励=-错误节点数目/总体节点数目,进入步骤5;/n步骤5:环境输出状态与奖励,智体记忆重载区对这回合的信息进行保存,并同时给出下一步的动作,进入步骤6;/n步骤6:从记忆体重提取一组迷你数据,使用Deep Q Learning算法更新目标Q网络的目标值,其中Q值计算为奖励的折扣累积值,使用梯度下降方法对目标Q网络参数进行更新,每隔固定步数,目标Q网络中的参数值传递给Q网络,完成智体策略执行网络的更新;/n步骤7:如果此时运行步数小于总体步骤数,则回到步骤3,否则进入步骤8;/n步骤8:将动作节点加入到总体采样集合中,进入步骤9;/n步骤9:如果此时运行回合数小于总体回合数,则回到步骤3,否则进入步骤10;/n步骤10:得到采样节点子集,完成图关键节点采样任务,结束程序。/n...

【技术特征摘要】
1.基于深度增强学习的图信号节点采样方法,其特征在于,包含以下步骤:
步骤1:初始化图采样环境,获取图的关联矩阵、标签矩阵,其中标签矩阵可选,进入步骤2;
步骤2:初始化采样算法的超参数,包括总体回合数,每回合的总体步数,初始化记忆容量并设定为空集,随机初始化Q神经网络和目标Q神经网络,初始化总体采样集为空集,进入步骤3;
步骤3:初始化回合采样集等于总体采样集,智体接收环境的状态值,按照贪婪算法贪婪指数递增策略进行动作选择,并把选择的动作加到回合采样集中,进入步骤4;
步骤4:训练模拟环境基于标签传播算法进行图重建,用重建的图标签信息与原图标签信息进行比对并得到重建图标签预测错误的数目,定义奖励=-错误节点数目/总体节点数目,进入步骤5;
步骤5:环境输出状态与奖励,智体记忆重载区对这回合的信息进行保存,并同时给出下一步的动作,进入步骤6;
步骤6:从记忆体重提取一组迷你数据,使用DeepQLearning算法更新目标Q网络的目标值,其中Q值计算为奖励的折扣累积值,使用梯度下降方法对目标Q网络参数进行更新,每隔固定步数,目标Q网络中的参数值传递给Q网络,完成智体策略执行网络的更新;
步骤7:如果此时运行步数小于总体步骤数,则回到步骤3,否则进入步骤8;
步骤8:将动作节点加入到总体采样集合中,...

【专利技术属性】
技术研发人员:吴梦浩高延滨张强张帆刘哲均刘鸿宇王鹏飞荣寒潇
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1