一种基于动作采样的强化学习知识图谱推理方法技术

技术编号:33916160 阅读:17 留言:0更新日期:2022-06-25 20:16
本发明专利技术公开了一种基于动作采样的强化学习知识图谱推理方法。该发明专利技术针对传统知识图谱强化学习推理算法中表征能力不足、无效冗余动作选取以及无记忆组件问题,根据表示学习方法在数据集上的原始事实预测评分,针对性地选取适应性更强的表示学习方法来表示强化学习环境以增强算法表征能力;设计动作采样器以减少智能体在游走过程中的无效冗余动作选择;以LSTM为记忆组件,将历史信息进行编码以增加模型精度,这使得本算法可以在摆脱预训练的情况下取得优于基于路径的推理算法的效果。该方法将智能体在环境中游走得到的路径映射到三层LSTM策略网络,通过动作采样促进智能体选择更有意义的路径,最终实现较为准确的实体关系路径学习。径学习。径学习。

【技术实现步骤摘要】
一种基于动作采样的强化学习知识图谱推理方法


[0001]本专利技术属于自然语言处理领域。

技术介绍

[0002]近年来,深度学习技术在各种分类和识别问题上取得了许多最先进的结果。 然而,复杂的自然语言处理问题通常需要多个相互关联的决策,使深度学习模型 具有学习推理的能力仍然是一个具有挑战性的问题。为了处理没有明显答案的复 杂查询,智能机器必须能够利用现有资源进行推理,并学会推断未知答案。
[0003]随着知识图谱推理技术的不断发展,强化学习被证明在知识推理任务中得到 较优结果。EMNLP2017发布的DeepPath首次将强化学习引入到知识图谱的推理 当中,它对知识图谱进行简单的采样,放入策略网络中进行训练。其主要任务为 给定一个知识图谱中的实体对(entity1,entity2),使模型推理从头实体到尾实体 的路径;其子任务包括链接预测(Link Prediction)与事实预测(Fact Prediction)。 然而,DeepPath存下下列问题:
[0004](1)采用TransE简单的表示环境中的状态,表征能力不足;
[0005](2)随机的动作采样模式可能会导致智能体采取很多无效冗余的动作,耗 费计算成本,且会产生虚假路径问题;
[0006](3)将状态向量直接输入策略网络,丧失了原本状态之间丰富的关联性与 语义信息。
[0007]针对以上问题,本专利技术提出一种基于动作采样与LSTM记忆组件的强化学 习知识图谱推理方法(Reinforcement Learning Knowledge Graph ReasoningMethod based on Action Sampling,RLKGR

ASM),针对已有的RL模型,分析其 不合理与存在问题之处,添加动作采样器并将LSTM作为记忆组件来改进优化 基于强化学习的知识图谱推理模型。

技术实现思路

[0008]本专利技术提出一种基于动作采样的强化学习知识图谱推理方法,目的在于解决 现有强化学习推理方法表征能力不足、无效动作选择、无记忆组件等问题。该方 法步骤如下:
[0009](1)在数据处理层对不同数据集选择最优的表示方法,并将数据中的三元 组与推理关系表示为特征向量。
[0010](2)在预训练层使用随机广度优先策略(BFS)与专家数据对模型进行预 训练,以提高模型的收敛性。
[0011](3)二次训练层添加奖励函数再训练,并在RL模型中加入动作采样器和 LSTM记忆组件。
[0012](4)输出层使用策略网络进行输出。
附图说明
[0013]附图1 RLKGR

ASM算法流程图
[0014]附图2 LSTM记忆组件示意图
[0015]附图3动作采样器示意图
[0016]附图4 Trans系列在事实预测任务上的MAP评分
[0017]附图5 NELL

995数据集链接预测任务MAP值对比
[0018]附图6 FB15K

2375数据集链接预测任务MAP值对比
[0019]附图7本实验与DeepPath在NELL

995与FB15K

237数据集链接预测任务上的 Hits@1、Hits@3、MRR、MAP值
[0020]附图8 TransE、TransR、TransH、TransD、DeepPath、RLKGR

ASM(本实验)事 实预测结果MAP值
[0021]附图9 PRA和本实验所用的推理路径数量
[0022]附图10 DeepPath、RLKGR

ASM(不使用动作采样器)、RLKGR

ASM(本实验) 在两个数据集上的每轮游走时间(单位:秒)
具体实施方式
[0023]下面将结合本专利技术实施例中的附图1,对本专利技术实施例中的技术方案进行清 楚、完整地描述。
[0024]如附图1所示,本专利技术基于动作采样与LSTM记忆组件,该推理算法主要 包含数据预处理、预训练、奖励再训练、输出五部分构成。具体实施方式如下: 步骤一:数据处理层
[0025]本专利技术对实验所用的数据集NELL

995和FB15K

237进行基础预处理后,直 接将TransE、TransH、TransR、TransD四种基于嵌入的方法应用与事实预测任 务之中,评估标准与本实验最终结果的评估标准一致:平均精度(MAP),结果 如附图4。如图所示,在NELL

995中TransD达到最好效果;在FB15K

237中, TransH达到最好效果。
[0026]嵌入方法在数据集上的原始推理结果可以直接反应此表示方法与数据集的 适配程度,评分越高,推理效果越好,即表明此方法能够更多更完善地获取数据 原本的语义信息,算法环境具有更强的表征能力;基于此,本专利技术选择TransD 做为NELL

995的表示方法,选择TransH作为FB15K

237的表示方法。
[0027]步骤二:预训练层
[0028]使用随机广度优先策略(BFS)与专家数据对模型进行预训练,以提高模型 的收敛性。对于每个关系,我们使用所有正样本(实体对)的子集来学习监督策 略。
[0029]对于每个关系,算法使用所有正样本的子集来学习监督策略;对于每个正样 本(es,et),在预训练过程中采用双边BFS来寻找实体之间的正确路径。对于 每个路径关系序列(r1,r2,...,rn),更新θ以最大化期望奖励,如式(1)所示,其 中J(θ)为期望奖励。
[0030][0031]对于监督学习,算法给每一个成功的游走+1的奖励,如式(2)所示我们使 用BFS找到的正确路径更新策略网络的梯度。
[0032][0033]步骤三:奖励再训练层
[0034]定义用来实现强化学习的RL智能体和强化学习的外部环境,并对环境初始 化,根据定义全局奖励函数。
[0035]强化学习系统由两部分组成,第一部分是外部环境E,指定了KG和智能体 交互之间的动态。这个环境被建模为一个马尔科夫决策过程(MDP)。MDP被定 义为一个元组<S,A,P,R>,其中S为连续的状态空间,A={a1,a2,.....a
n
}是所有 可用动作的集合,P是转移概率矩阵,R(s,a)为每一个(s,a)对应的奖励函数。
[0036]系统的第二部分是智能体(agent),它被表示为一个策略网络,如 π
θ
(s,a)=p(a|s;θ)。它将状态映射到一个随机策略,并采用随机梯度下降法更 新神经网略参数θ。
[0037]系统的各个组成部分分别如下:
[0038]动作(Action):给出具有关系r本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动作采样的强化学习知识图谱推理算法,其包括以下步骤:步骤1:在数据处理层对不同数据集选择最优的表示方法,并将数据中的三元组与推理关系表示为特征向量;步骤2:在预训练层使用随机广度优先策略(BFS)与专家数据对模型进行预训练,以提高模型的收敛性;步骤3:该步骤是专利核心内容:添加奖励函数再训练,并在RL模型中加入动作采样器和LSTM记忆组件;本发明采用一个三层的LSTM网络对历史搜索信息进行编码,如式所示;h
t
=LSTM(h
t
‑1,w
t
),当t=0时h
t
‑1=0一个三层的LSTM接受此时的实体嵌入向量,LSTM在循环体结构中增加了三个门限模块,在有记忆功能的同时解决了传统神经网略可能会存在的梯度消失与爆炸问题;编码完成后,此时RL的状态表示为s
t
=(h
t
,w
t
),将此状态输入策略网络,通过两层ReLU与一层Softmax组成的全连接神经网络进行训练,得到动作概率矩阵,智能体通过策略网络反馈的动作概率矩阵选取下一个动作,不断扩展路径;下式为策略网络的输出动作概率矩阵;π
θ
(a
t
|s
t
)=σ(A
t
×
W2ReLU(W|[h
t
;s
t
]))为了使智能体在动作选择时避免去过多的选择无效路径,本章在智能体选择动作的时候添加动作采样器:每当智能体的随机游走出现selfdie的情况时,记录终止节点e
d
与此次选择的动作(关系)r
d
,将其添加到动作采样器的记忆中,记为无效动作,表示为(e
d
,r
d
)的实体关系对;在之后的游走中,假设智能体到达e
t
,若e
t
存在于动作采样器的实体记忆集合中,则在选择下一个动作时,动作采样器会从动作空间中剔...

【专利技术属性】
技术研发人员:贾海涛乔磊崖李家伟李嘉豪林萧曾靓
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1