一种基于图注意力机制的深度学习问答推理方法及装置制造方法及图纸

技术编号:34040826 阅读:35 留言:0更新日期:2022-07-06 13:26
本发明专利技术公开了一种基于图注意力机制的深度学习问答推理方法及装置。本发明专利技术提出了一种基于图点乘注意力算法的推理模型AGTF,针对问答中的多跳问题,提出了融合ALBERT与图注意力机制(GAT)的混合模型,该模型包含了编解码层和图神经网络预测层,经过实验结果表明,与现有的多跳问答推理算法相比,AGTF模型有效的提高了多跳问答的推理能力。高了多跳问答的推理能力。高了多跳问答的推理能力。

【技术实现步骤摘要】
一种基于图注意力机制的深度学习问答推理方法及装置


[0001]本专利技术属于计算机应用
,涉及一种融合ALBERT与图注意力机制的问答推理方法。

技术介绍

[0002]对自然语言进行推理和推理的能力是人工智能的重要方面。自动问答任务提供了一种可量化的客观方法来测试人工智能系统的推理能力,正逐渐成为一种人与机器进行自然交互的新趋势,能够更准确地理解以自然语言描述的用户问题,并依据用户的真实意图返回给用户更精准的答案,它将成为下一代搜索引擎的新形态。
[0003]问答一直是自然语言处理领域的热门话题,QA为评估NLP系统在语言理解和推理方面的能力提供了一种量化的方法,深度学习模型的发展使得机器阅读理解领域和问答领域取得了长足的进步,甚至在包括SQuad在内的单段问答基准上超过了人类,但是以前的大多数工作都集中在从单一段落中寻找证据和答案,很少测试底层模型的深层推理能力,若要跨越机器和人类之间的问答鸿沟,面临着提升模型推理能力的挑战,单段问答模型倾向于在与问题匹配的句子中寻找答案,不涉及复杂的推理并且当单个文档不足以找到正确答案时,仍然缺乏对多个文档进行推理的能力。因此,多跳问答成为下一个需要攻克的前沿。
[0004]图神经网络已经成为深度学习领域最炽手可热的方向之一。作为一种代表性的图卷积网络,图注意力机制引入了注意力算法来实现更好的结点聚合,在图注意力机制中,模型会通过线性变换来获得表达能力更强的特征,以满足深度学习中的各项下游任务。原始的图注意力机制(GAT)通过由a∈R
2F
+1参数化的单层前馈网络来计算系数。而点积注意力机制是通过图中各个节点表示学习后所获取的,采用了与注意力机制相同的推理公式。通过学习邻居的权重,图注意力机制(GAT)可以实现对邻居的加权聚合。因此,图注意力机制(GAT)不仅能处理带噪声的邻接点,注意力机制也赋予了模型可解释性。

技术实现思路

[0005]本专利技术的目的旨在针对现有问答模型的不足,提供一种能有效应用于多条问答的问答推理模方法。
[0006]为了实现上述目的,本专利技术提供的技术是基于图注意力机制的深度学习问答推理方法,包括以下步骤:
[0007]步骤1、对数据进行表征抽取:
[0008]BERT模型凭借MASKED LM、双向Transformer encoder和句子级负采样获得了一个深度双向编码的描述了字符级、词级、句子级甚至句间关系的特征的预训练模型,而ALBERT模型的参数相比BERT而言小了很多,相反地,准确率比BERT高,所以使用ALBERT模型进行表征抽取。部分输入的是问题Q和相关的段落P,输出的是对应问题Q和段落的词向量P,以及从中提取出的语义向量(SEMANTIC)。首先,将问题[Q1,Q2...Q
n
]和段落[P1,P2...P
m
]输入模型。然后,ALBERT基于词元(token)、类别(type)和位置(position)的嵌入为每个词元生成表
示,输出的表示Q=[q1,q2...q
n
]∈R
m
×
d
,P=[p1,p2...p
m
]∈R
n
×
d
,同时语义向量(semantic)也随表示输出。在附图2中演示了模型的架构。
[0009]步骤2、提取输入句子的实体:
[0010]通过ALBERT获取到表征之后,本步骤使用斯坦福科伦普工具包从Q和P中识别命名实体,提取的实体的数量表示为N。实体嵌入E
t
‑1=[e
t
‑1,1,...,E
t
‑1,N]。E
T
‑1的大小为2d
×
N,其中N是实体的数量,d是维度,此模块为T2G。
[0011]步骤3、进行实体计算推理过程:
[0012]在经过步骤1,步骤2后,模型用图神经网络将结点信息传播到每一个邻结点。如附图3所示为本方法所采用的一种动态的图注意力机制来实现推理过程。在推理过程中,图中每个结点都与邻结点进行信息的交互,与实体信息关联越多的结点接受到的信息越多。本专利技术通过在实体上关联问题来查询相关的节点,使用查询问题嵌入和实体嵌入之间的联系,把问题的输出表示和实体表示相结合,再乘以抽取出的语义向量,其目的是表示第t个推理步骤中的开始实体E
(t

1)
[0013]Q

(t

1)
=MeanPooling(Q
(t

1)
)#(1)
[0014]E

(t

1)
=[Q

(t

1)
e
i(t

1)
s

Q

(t

1)
e
N(t

1)
s]#(2)
[0015]其中Q
(t

1)
是问题表示,e
i(t

1)
是第i个实体表示。通过将问题表示Q
(t

1)
和初实体表示e
i(t

1)
以及语义向量s嵌入相乘,将期望的开始实体突显,而其他实体弱化。
[0016]步骤4、在获得实体之后,下一步是在动态图中传播信息:
[0017]本专利技术受图注意力机制(GAT)的启发通过以下公式计算实体间的关联程度β
i,j

[0018]h
i(t)
=U
t
e
i

(t

1)
+b
t
#(3)
[0019]α
i,j(t)
=(W
t
h
it
‑1)
T W
t
h
jt
‑1#(4)
[0020][0021]U
t
、W
t
是线性参数。这里,β的第i行表示将被分配给实体i的邻居的信息的比例。
[0022]本模型中的信息流不同于大多数以前的图注意力机制(GAT)。在点乘图注意力机制中,每个结点通过与邻结点相关联,求邻结点信息的加权和,与邻结点相关联的信息会更新到结点。
[0023][0024]接着就能得到信息更新后的实体E
(t)
=(e
1(t)

e
N(t)
)
[0025]步骤5、进行结果预测:
[0026]5‑
1在经过上面的步骤之后,利用实体抽取和图注意力机制,实现了实体的推理。然而,实体过于复杂不利于答案的追溯。为了解决这个问本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图注意力机制的深度学习问答推理方法,其特征在于包括以下步骤:步骤1、对数据进行表征抽取;表征抽取部分输入问题Q和相关的段落P,输出对应问题Q和段落的词向量P,以及从中提取出的语义向量;首先,将问题[Q1,Q2...Q
n
]和段落[P1,P2...P
m
]输入模型;然后,ALBERT基于词元、类别和位置的嵌入为每个词元生成表示,输出的表示Q=[q1,q2...q
n
]∈R
m
×
d
,P=[p1,p2...p
m
]∈R
n
×
d
,同时语义向量也随表示输出;步骤2、提取输入句子的实体;通过ALBERT获取到表征之后,使用斯坦福科伦普工具包从Q和P中识别命名实体,提取的实体的数量表示为N;实体嵌入E
t
‑1=[e
t
‑1,1,...,E
t
‑1,N]。E
T
‑1的大小为2d
×
N,其中N是实体的数量,d是维度,此模块为T2G;步骤3、进行实体计算推理过程;用图神经网络将结点信息传播到每一个邻结点;采用动态的图注意力机制来实现推理过程;步骤4、在动态图中传播信息,得到信息更新后的实体E
(t)
=(e
1(t)

e
N(t)
);步骤5、进行结果预测:5

1使用Graph2Doc模块来保持信息从实体流回到上下文中的向量,与答案有关的文本在上下文中定位到;5

2使用四个输出维度的预测层结构框架,包括支持句,答案的开始位置,答案的结束位置,答案的类型;使用连续的结构来保证输出结果的相关联性,其中四个LSTM Fi是逐层相关联的;融合块的上下文表示被发送到第一LSTM F0;每个Fi输出Logit O∈Rm
×
D2,并计算Logit上的交叉熵损失,最后输出预测的结果。2.如权利要求1所述的一种基于图注意力机制的问答推理方法,其特征在于步骤3中通过在实体上关联问题来查询相关的节点,使用查询问题嵌入和实体嵌入之间的联系,把问题的输出表示和实体表示相结合,再乘以抽取出的语义向量,其目的是表示第t个推理步骤中的开始实体E
(t

1)
Q

(t

1)
=MeanPooling(Q
(t

1)
)#(1)E

(t

1)
=[Q

(t

1)
e
i(t

1)
s

Q

(t

1)
e
N(t

1)
s]#(2)其中Q
(t

1)

【专利技术属性】
技术研发人员:万健翟正伟张蕾黄杰张丽娟邵霭
申请(专利权)人:浙江科技学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1