一种基于图注意力机制的深度学习问答推理方法及装置制造方法及图纸

技术编号：34040826 阅读：35 留言：0更新日期：2022-07-06 13:26

本发明专利技术公开了一种基于图注意力机制的深度学习问答推理方法及装置。本发明专利技术提出了一种基于图点乘注意力算法的推理模型AGTF，针对问答中的多跳问题，提出了融合ALBERT与图注意力机制(GAT)的混合模型，该模型包含了编解码层和图神经网络预测层，经过实验结果表明，与现有的多跳问答推理算法相比，AGTF模型有效的提高了多跳问答的推理能力。高了多跳问答的推理能力。高了多跳问答的推理能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图注意力机制的深度学习问答推理方法及装置

[0001]本专利技术属于计算机应用
，涉及一种融合ALBERT与图注意力机制的问答推理方法。

技术介绍

[0002]对自然语言进行推理和推理的能力是人工智能的重要方面。自动问答任务提供了一种可量化的客观方法来测试人工智能系统的推理能力，正逐渐成为一种人与机器进行自然交互的新趋势，能够更准确地理解以自然语言描述的用户问题，并依据用户的真实意图返回给用户更精准的答案，它将成为下一代搜索引擎的新形态。
[0003]问答一直是自然语言处理领域的热门话题，QA为评估NLP系统在语言理解和推理方面的能力提供了一种量化的方法，深度学习模型的发展使得机器阅读理解领域和问答领域取得了长足的进步，甚至在包括SQuad在内的单段问答基准上超过了人类，但是以前的大多数工作都集中在从单一段落中寻找证据和答案，很少测试底层模型的深层推理能力，若要跨越机器和人类之间的问答鸿沟，面临着提升模型推理能力的挑战，单段问答模型倾向于在与问题匹配的句子中寻找答案，不涉及复杂的推理并且当单个文档不足以找到正确答案时，仍然缺乏对多个文档进行推理的能力。因此，多跳问答成为下一个需要攻克的前沿。
[0004]图神经网络已经成为深度学习领域最炽手可热的方向之一。作为一种代表性的图卷积网络，图注意力机制引入了注意力算法来实现更好的结点聚合，在图注意力机制中，模型会通过线性变换来获得表达能力更强的特征，以满足深度学习中的各项下游任务。原始的图注意力机制(GAT)通过由a∈R
2F
...

【技术保护点】

【技术特征摘要】
1.一种基于图注意力机制的深度学习问答推理方法，其特征在于包括以下步骤：步骤1、对数据进行表征抽取；表征抽取部分输入问题Q和相关的段落P，输出对应问题Q和段落的词向量P，以及从中提取出的语义向量；首先，将问题[Q1,Q2...Q
n
]和段落[P1,P2...P
m
]输入模型；然后，ALBERT基于词元、类别和位置的嵌入为每个词元生成表示，输出的表示Q＝[q1,q2...q
n
]∈R
m
×
d
,P＝[p1,p2...p
m
]∈R
n
×
d
，同时语义向量也随表示输出；步骤2、提取输入句子的实体；通过ALBERT获取到表征之后，使用斯坦福科伦普工具包从Q和P中识别命名实体，提取的实体的数量表示为N；实体嵌入E
t
‑1＝[e
t
‑1,1,...,E
t
‑1,N]。E
T
‑1的大小为2d
×
N，其中N是实体的数量，d是维度，此模块为T2G；步骤3、进行实体计算推理过程；用图神经网络将结点信息传播到每一个邻结点；采用动态的图注意力机制来实现推理过程；步骤4、在动态图中传播信息，得到信息更新后的实体E
(t)
＝(e
1(t)
…
e
N(t)
)；步骤5、进行结果预测：5
‑
1使用Graph2Doc模块来保持信息从实体流回到上下文中的向量，与答案有关的文本在上下文中定位到；5
‑
2使用四个输出维度的预测层结构框架，包括支持句，答案的开始位置，答案的结束位置，答案的类型；使用连续的结构来保证输出结果的相关联性，其中四个LSTM Fi是逐层相关联的；融合块的上下文表示被发送到第一LSTM F0；每个Fi输出Logit O∈Rm
×
D2，并计算Logit上的交叉熵损失，最后输出预测的结果。2.如权利要求1所述的一种基于图注意力机制的问答推理方法，其特征在于步骤3中通过在实体上关联问题来查询相关的节点，使用查询问题嵌入和实体嵌入之间的联系，把问题的输出表示和实体表示相结合，再乘以抽取出的语义向量，其目的是表示第t个推理步骤中的开始实体E
(t
‑
1)
Q
′
(t
‑
1)
＝MeanPooling(Q
(t
‑
1)
)#(1)E
′
(t
‑
1)
＝[Q
′
(t
‑
1)
e
i(t
‑
1)
s
…
Q
′
(t
‑
1)
e
N(t
‑
1)
s]#(2)其中Q
(t
‑
1)

【专利技术属性】
技术研发人员：万健，翟正伟，张蕾，黄杰，张丽娟，邵霭，
申请(专利权)人：浙江科技学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人