【技术实现步骤摘要】
一种以关键词为驱动的动态图神经网络多跳阅读理解方法
[0001]本专利技术涉及一种机器阅读理解方法,特别涉及一种以关键词为驱动的动态图神经网络多跳阅读理解方法,属于人工智能的自然语言理解
技术介绍
[0002]机器阅读理解是自然语言处理领域的研究热点之一,其反映了人工智能技术获取、理解和挖掘文本信息的能力,并在提高机器的认知能力方面具有很高的价值。而多跳阅读理解任务是机器阅读理解的一项重要挑战,因为它兼并了对复杂问题的理解以及在多个分散文本片段中的推理。多跳阅读理解任务又被称为基于跨度的阅读理解,主要目标是让机器阅读人们用自然语言提出的问题,并通过在多个文档中进行推理最终提取出答案以及支撑该答案的证据句。设计这种带有推理能力的多跳阅读理解系统,可以回答人们提出的较为复杂的问题,从而降低人工劳动力。
[0003]早期在多跳阅读理解方面的研究主要采用了基于记忆网络的模型,该模型为上下文构建了记忆单元,并在问题与该记忆单元中进行交互,最终提供答案。然而这些模型只能在较小的数据量中取得较为显著的结果,当数据量扩大后 ...
【技术保护点】
【技术特征摘要】
1.一种以关键词为驱动的动态图神经网络多跳阅读理解方法,其特征在于:包括以下步骤:步骤1:输入问题和文档集;步骤2:提取问题中的关键词;其中,问题中的关键词,包括:问题中的实体、问题中的标题以及问题中的核心查询词;问题中的实体使用斯坦福coreNLP工具包提取;问题中的标题是在,问题与文档标题之间,使用字符串精确匹配技术获取;问题中的核心查询词通过一个固定宽度的窗口在问题中锁定;其中,实体是一个系统内可定义的事物或概念;问题中的核心查询词是疑问词以及疑问词周围的词所组成的词组;步骤2的作用,包括如下三方面:第一,辅助步骤3选取段落;第二,辅助步骤5构建句子间的静态推理图;第三,引导模型定位答案和证据句;步骤3:从文档集中选取与问题最相关的3个段落,并且将这3个段落连接为上下文;步骤4:提取上下文中的关键词;其中,上下文中的关键词,包括:上下文中的实体、上下文中的标题;上下文中的实体使用斯坦福coreNLP工具包提取;上下文中的标题是在,每个上下文与步骤3选择的段落对应的文档标题之间,使用字符串精确匹配技术获取;步骤4的作用,辅助步骤5构建句子间的静态推理图;步骤5:使用步骤1中的问题、步骤2提取出的问题中的关键词和步骤4提取的上下文中的关键词、步骤3中的上下文构建句子间的静态推理图,跳转至步骤12;其中,句子间的静态推理图中节点为上下文中的句子,边为句子间的关系,构建过程分为以下3步:5.1:句子间若包含相同的实体或者标题,则在句子间添加边;5.2:句子间若均与问题有相同的实体或者标题,则在句子间添加边;5.3:某个句子若包含非本段落的标题,则该句子与标题对应的段落中的所有句子间添加边;步骤6:连接问题、由步骤2提取的问题中的关键词、步骤3得到的上下文,使用BERT模型对其进行编码,得到隐藏层表示H,分别跳转至步骤7和步骤9;步骤7:将步骤6中隐藏层表示H输入到多层感知机MLP中,分别得到答案跨度开始和结束位置的logit值:logit
s
和logit
e
;其中,logit
s
和logit
e
的下角标s和e分别表示答案跨度的开始位置和结束位置;步骤8:计算带有边界意识的答案跨度损失,跳转至步骤16,计算公式如(1)所示;其中,Loss
span
为带有边界意识的答案跨度损失,CE为交叉熵损失函数,logit
s
和logit
e
由步骤7所得,y
s
和y
e
分别为答案开始位置和结束位置的标签,λ
s
和λ
e
为边界权重,softmax
为激活函数,上角标T表示转置;步骤9:从BERT模型输出的隐藏层表示H中截取出token级别的问题表示、token级别问题中的关键词表示以及上下文中每个句子的token级别的表示,并将问题表示、问题中的关键词表示连接为初始查询表示Q;步骤10:将token级别的句子表示和初始查询表示编码为单一向量,得到sentence级别的句子表示和初始查询表示,跳转至步骤11和步骤13;步骤11:动态检索上下文中的句子,经两轮检索,并将两轮检索得到的句子分别输入到步骤12中;具体地,共进行两轮检索,在第一轮检索中,计算初始查询表示与上下文中句子表示的语义相似性,设置覆盖度阈值ξ1,选择M
×
ξ1个句子,将选择出的M
×
ξ1个句子输入到步骤12中,M为上下文中句子的总数;使用双向注意力网络Bi
‑
attention分别对第一轮检索出的M
×
ξ1个句子表示与初始查询表示进行融合,然后经过平均池化MeanPooling层,更新查询表示;进行第二轮检索,计算新的查询表示与上下文中句子表示间的语义相似性,设置得分阈值ξ2,选择上下文中得分超过阈值的句子,即检索得到的句子,输入到步骤12中;其中,语义相似性计算公式如(4)所示:其中,s
q
,s
m
分别为初始查询q和句子m的sentence级别的表示,sim(s
q
,s
m
)为初始查询q和句子m间的语义相似度,||||代表取模;步骤12:使用步骤11中检索得到的句子对步骤5中构建的静态推理图进行动态的更新;具体地,将步骤11中第一轮检索到的句子间添加边;第一轮检索的句子和使用它融合查询形成新的查询后在第二轮中检索到的句子间添加边,并且在第二轮检索到的句子中,是通过同一个新的查询检索到的句子之间添加边;步骤13:使用图注意力网络GAT模型在推理图中传输句子节点间的信息,经过多跳multi
‑
hop传输后得到最终的句子表示;其中,多跳multi
‑
hop,表示GAT模型中信息经过了多次传输;步骤14:将句子的最终表示送入多层感知机MLP中,得到每个句子的logit值logit
es
;其中,logit
es
的下角标es表示证据句;步骤15:计算证据句的损失,公式如(9)所示;Loss
es
=BCE(logit
es
,y
es
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)其中,Loss
es
为证据句的损失,BCE表示二项交叉熵损失函数,y
es
为证据句的标签;步骤16:联合训练答案跨度和证据句;步骤17:提取答案和证据句,并加以验证。2.根据权利要求1所述的一种以关键词为驱动的动态图神经网络多跳阅读理解方法,其特征在于:步骤1中,输入的问题与文档集对应,文档集中包含多篇文档,每篇文档由一个标题、一个或者多个段落组成,且在文档集中仅有少数文档为答案跨度预测和证据句预测任务提供正向支撑,多数文档为干扰信息。3.根据权利要求2所述的一种以关键词为驱动的动态图神经网络多跳阅读理解方法,其特征在于:步骤3,具体为:将问题、步骤2提取出的问题中的实体和标题、文档集中的段
落,以“[CLS]问题[SEP]问题中的实体与标题[SEP]某一段落[SEP]”形式连接,而后输入到BERT模型中编码,所有单词使用BERT模型采用的WordPiece tokenizer技术处理为token...
【专利技术属性】
技术研发人员:贾美惠子,廖乐健,宋丹丹,陈震东,李佳奇,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。