一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备技术方案

技术编号:26171130 阅读:37 留言:0更新日期:2020-10-31 13:41
本发明专利技术公开了一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备。本发明专利技术通过对目标文档及文档中的段落长度、句子长度进行分割,然后从分割后的段落中筛选出候选段落,从候选段落中筛选出候选句子,从候选句子中预测出多处答案并进行拼接来获取问题的答案,通过融合不同粒度上的交互特征,有效地解决了传统的滑窗机制处理方法会损失文档级别上下文之间的层次信息以及文档过长无法使用注意力机制模型的问题。

A question answering method based on machine reading comprehension and its system, storage medium and computer equipment

【技术实现步骤摘要】
一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备
本专利技术涉及自然语言处理
,尤其涉及一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备。
技术介绍
近几年来,随着基于注意力机制的大规模蓬勃发展,单文档单抽取片段的机器阅读理解已经取得了巨大的成功,在SQuAD2.0数据集上甚至已经超越人类的标注的水平。SQuAD2.0数据集上,主要进行短文档、单段落单答案片段的抽取,具体包括判断文档整体是否能够回答所提的问题以及预测这个文档内对于问题答案的位置的概率,寻找概率最大的开头概率与结尾概率来抽取出最终答案。然而在实际的应用场景中,文档的长度一般比较长,且具备多个段落,很多情况下,答案也不是连续的,甚至有可能跨越自然段。传统的解决单文档、多段落的机器阅读理解,一般会利用问题与段落的统计信息或者浅层语义信息快速过滤一系列的段落,然后将过滤后得到的段落进行拼接后进行单文档的阅读理解抽取,寻找到概率最高的若干个答案片段。这种传统做法通常无法重复利用段落浅层语义信息,会造成计算资源浪费;且如果段落本身长度较长,即使过滤本文档来自技高网...

【技术保护点】
1.一种基于机器阅读理解的问答方法,其特征在于,具体包括以下步骤:/nS1,切分目标文档;/nS2,利用第一问题交互方法获取切分后的目标文档中的各段落的第一段落向量组、每个段落中各句子的第一句子向量、每个句子中各个字的第一字向量;/n利用第二问题交互方法获取各段落的第二段落向量组、每个段落中各句子的第二句子向量、每个句子中各个字的第二字向量;/nS3,利用各段落的第一段落向量组和第二段落向量组得到其各自的段落向量表示,从而筛选出候选段落;/nS4,利用候选段落中各句子的第一句子向量和第二句子向量并结合其所属段落的段落向量表示筛选出候选句子;/nS5,利用候选句子中各个字的第一字向量和第二字向量...

【技术特征摘要】
1.一种基于机器阅读理解的问答方法,其特征在于,具体包括以下步骤:
S1,切分目标文档;
S2,利用第一问题交互方法获取切分后的目标文档中的各段落的第一段落向量组、每个段落中各句子的第一句子向量、每个句子中各个字的第一字向量;
利用第二问题交互方法获取各段落的第二段落向量组、每个段落中各句子的第二句子向量、每个句子中各个字的第二字向量;
S3,利用各段落的第一段落向量组和第二段落向量组得到其各自的段落向量表示,从而筛选出候选段落;
S4,利用候选段落中各句子的第一句子向量和第二句子向量并结合其所属段落的段落向量表示筛选出候选句子;
S5,利用候选句子中各个字的第一字向量和第二字向量并结合其所属段落的段落向量表示预测出问题的答案。


2.根据权利要求1所述的基于机器阅读理解的问答方法,其特征在于,所述步骤S1中切分目标文档的具体步骤为:
判断目标文档内段落个数是否超过设定值,若超过,则将目标文档切分为多个子文档;
判断各子文档中的每个段落中的句子个数,将句子个数超过设定值的超长段落切分为多个子段落;
判断各段落中的每个句子的句子长度,将句子长度超过设定值的超长句子切分为多个子句子。


3.根据权利要求2所述的基于机器阅读理解的问答方法,其特征在于,将目标文档切分为多个子文档时,以段为单位,将目标文档滑窗切分为多个独立的子文档;
将句子个数超过设定值的超长段落切分为多个子段落时,以句为单位,将超长段落滑窗切分为多个独立的子段落;
将句子长度超过设定值的超长句子切分为多个子句子时,以字符为单位,将超长句子滑窗切分为多个独立的子句子。


4.根据权利要求1所述的基于机器阅读理解的问答方法,其特征在于,所述步骤S2中利用第一问题交互方法获取切分后的目标文档中的各段落的第一段落向量组、每个段落中各句子的第一句子向量、每个句子中各个字的第一字向量的具体步骤为:
S21,利用bert模型分别获取切分后的目标文档中的每个句子的第一句子向量、问题的向量表示;
S22,根据同一段落内所有句子的第一句子向量与问题的向量表示,通过多头感知机模型得到该段落的第一段落向量组。


5.根据权利要求4所述的基于机器阅读理解的问答方法,其特征在于,所述步骤S21中利用bert模型分别获取切分后的目标文档中的每个句子的第一句子向量、问题的向量表示的步骤为:
将切分后的目标文档中的每个句子分别组织成结构为[CLS],的向量组并输入bert模型得到其各自的语义向量表示,将各句子的语义向量表示中[CLS]位置处的向量作为其各自的第一句子向量,其中[CLS]为标志位,为某个句子中第n个字的第一字向量;
将问题组织成结构为[CLS],的向量组并输入bert模型得到其语义向量表示,将问题的语义向量表示中[CLS]位置处的向量作为问题的向量表示,其中为问题中第m个字的向量。


6.根据权利要求5所述的基于机器阅读理解的问答方法,其特征在于,步骤S22中根据同一段落内所有句子的第一句子向量与问题的向量表示,通过多头感知机模型得到该段落的第一段落向量组的具体步骤为:
将同一段落内所有句子的第一句子向量与问题的向量表示组织成结构为[CLS],[SEP],VQ的第一语义向量组并将第一语义向量组输入多头感知机模型,将多头感知机模型输出的向量组中[CLS]位置处的向量作为该段落的第一段落向量组
其中,为某一段落中第i个句子的第一句子向量,VQ为问题的向量表示。


7.根据权利要求6所述的基于机器阅读理解的问答方法,其特征在于,步骤S2中利用第二问题交互方法获取各段落的第二段落向量组、每个段落中各句子的第二句子向量、每个句子中各个字的第二字向量的具体步骤为:
S23,利用bert模型分别获取切分后的目标文档中的每个句子的第二句子向量;
S24,根据同一段落内所有句子的第二句子向量,通过多头感知机模型得到该段落的第二段落向量组。


8.根据权利要求7所述的基于机器阅读理解的问答方法,其特征在于,所述步骤S23中利用bert模型分别获取切分后的目标文档中的每个句子的第二句子向量的具体步骤为:
将切分后的目标文档中的每个句子分别组织成结构为[CLS],[SEP],VWQ1,VWQ2,…,VWQl的向量组并输入bert模型得到其各自的语义向量表示,将各句子的语义向量表示中[CLS]位置处的向量作为其各自的第二句子向量;
其中[CLS]为标志位,为某个句子中第n个字的第二字向量,VWQl为问题中第l个字的向量。


9.根据权利要求8所述的基于机器阅读理解的问答方法,其特征在于,步骤S24中根据同一段落内所有句子的第二句子向量,通过多头感知机模型得到该段落的第二段落向量组的具体步骤为:
将同一段落内所有句子的第二句子向量组织成结构为[CLS],[SEP],VWQ1',VWQ2',…,VWQl'的第二语义向量组并将第二语义向量组输入多头感知机模型,将多头感知机模型输出的向量组中[CLS]位置处的向量作为该段落的第二段落向量组
其中,为某一段落中第i个句子的第二句子向量。


10.根据权利要求9所述的基于机器阅读理解的问答方法,其特征在于,步骤S3中利用各段落的第一段落向量组和第二段落向量组得到其段落向量表示,从而筛选出候选段落的具体步骤为:
S31,将同一段落的第一段落向量组和第二段落向量组拼接,并计算得到其中间段落向量;
S32,将目标文档中各段落的中间段落向量组织成向量组并将该向量组输入多头感知机模型,多头感知机模型输出结构为[CLS],VP1,VP2,…,VPh的向量组并将该向量组中[CLS]位置处的向量作为该文档的文档向量表示VC,其中,VPh为目标文档中第h个段落的段落向量表示;
S33,计算出各段落包含答案的概率;
S34,按照段落包含答案的概率值的大小,从目标文档中筛选出候选段落。

...

【专利技术属性】
技术研发人员:胡盟王文广陈运文王忠萌王子奕贺梦洁纪达麒
申请(专利权)人:达而观信息科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1