【技术实现步骤摘要】
一种基于多步证据推理的机器阅读理解方法与系统
本专利技术属于自然语言处理领域,特别涉及一种多步证据推理的机器阅读理解方法和系统。
技术介绍
近年来,机器阅读理解(MRC)在最近的自然语言处理领域研究中获得了蓬勃发展,其各种神经网络模型在某些基准上迅速接近了人类水平,其目的是鼓励机器能够理解给定段落的内容并回答问题。抽取式机器阅读理解是其中的一个分支,它主要是从文章当中抽取一个连续的片段,作为文本最终的答案,然而这种任务存在一个巨大的假设,即每一个问题都能够在文章中找到答案,这样的话,模型只需要去匹配与问题最相似的段落即可,并没有真正的理解问题是否被文本所蕴含。如何让模型自适应地准确地判定问题是可回答还是不可回答是一个巨大的挑战。传统的抽取式机器阅读理解方法旨在关注问题和文章的语义,从文章当中去匹配一个相似的段落,将其结果作为最终的答案。具体来说通常会使用一个长短时记忆网络(LSTM,LongShort-TermMemory)对问题的语义进行建模,得到问题的表示。类似的本专利技术也会建模文章的语义信息。得到两者的语义表 ...
【技术保护点】
1.一种基于多步证据推理的机器阅读理解方法,其步骤包括:/n1)将文章P和问题Q输入全局编码器;全局编码器包含一个预训练语言模型和一个全局编码模块;所述预训练语言模型根据输入信息生成输入字符向量表示U;所述预训练语言模型对问题Q中的字符进行编码得到向量表示
【技术特征摘要】
1.一种基于多步证据推理的机器阅读理解方法,其步骤包括:
1)将文章P和问题Q输入全局编码器;全局编码器包含一个预训练语言模型和一个全局编码模块;所述预训练语言模型根据输入信息生成输入字符向量表示U;所述预训练语言模型对问题Q中的字符进行编码得到向量表示
2)所述全局编码模块使用自注意力机制对向量表示U进行编码,得到上下文感知的全局上的输入表示g并输入多步证据推理机;其中,gi为第i个字符的上下文感知的全局上的输入表示;
3)多步证据推理机根据输入表示g进行推理得到与问题Q相关的的开始证据向量和结束证据向量;其中所述多步证据推理机包含顺序执行的多个推理块,每一推理块对应一推理步,前一推理块的输出作为当前推理块的输入,s0为初始化的起始证据向量,e0为初始化的结束证据向量;第j个推理块的推理过程为:31)将gi和第j-1推理步所得的起始证据向量sj进行拼接得到第j推理步下文章P中第i个字符的向量表示32)根据qcls和计算起始注意力然后根据公式对进行加权求和得到第j+1推理步的起始证据向量sj+1并发送给第j+1推理块;33)将起始证据向量sj+1、gi和第j-1推理步所得的结束证据向量ej进行拼接得到向量表示34)根据qcls和计算结束注意力然后根据公式对进行加权求和得到第j+1推理步的结束证据向量ej+1并发送给第j+1推理块;
4)答案探测器根据多步证据推理机最终计算得到的与问题Q相关的起始证据向量sT+1、结束证据向量eT+1和问题的表达向量qcls计算问题Q的分值score,当分值score高于设定阈值θ,则判定该问题Q不可回答;否则判定该问题Q存在答案,并抽取从文章P中获取答案的开始位置start-position和结束位置end-position;其中,start-position=argmax(αT),end-position=argmax(βT),T为多步证据推理机的总步数。
2.如权利要求1所述的方法,其特征在于,设置一分类嵌入标识符[CLS],并用设定标识符[SEP]分隔文章P中的字符XP和问题Q中的字符XQ;其中XP用于表示文章P中所有的字符,XQ表示问题Q中的所有字符;全局编码器的输入信息表示为[CLS,XQ,SEP,XP,SEP]。
3.如权利要求2所述的方法,其特征在于,向量表示U的总长度为l,n是文章的长度,m是问题的长度,ucls表示标识符[CLS]的向量表示,表示文章P中第i个字符的向量表示,表示问题Q中第i个字符的向量表示,usep是标识符[SEP]的向量表示。
4.如权利要求2所述的方法,其特征在于,为问题Q中第m个字符的向量表示,qcls为问题的表达向量,qsep为标识符[SEP]对应的向量表示。
5.如权利要求3所述的方法,其特征在于,分值score=σ(Wc[qcls;sj;ej...
【专利技术属性】
技术研发人员:胡玥,彭伟,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。