基于联合训练方式的多文档多答案机器阅读理解系统技术方案

技术编号:26342562 阅读:44 留言:0更新日期:2020-11-13 20:35
本发明专利技术提供了一种基于联合训练方式的多文档多答案机器阅读理解系统,系统包括:多文档排序选择模块、机器阅读理解模型、答案验证模块、机器阅读理解和答案验证模块的联合训练模块;多文档排序选择模块提供了一种多文档的筛选方案,选取与问题相关的段落内容作为机器阅读理解模型的输入;机器阅读理解模型能够从输入的多个段落内容中选取问题的答案;答案验证模块将机器阅读理解模型输出的多答案进行验证,选取正确的答案作为最终的输出;机器阅读理解模型和答案验证模块的联合训练模块使用联合训练的方式,最优化联合损失函数,得出两个模型的最优化参数。整个系统的算法实现了从多文档中进行检索,最终能输出多答案的功能。

Multi document and multi answer machine reading and understanding system based on joint training

【技术实现步骤摘要】
基于联合训练方式的多文档多答案机器阅读理解系统
本专利技术涉及自然语言处理领域,尤其是一种基于联合训练方式的多文档多答案机器阅读理解系统。
技术介绍
随着科学技术的发展与进步,智能设备与互联网不断的飞速发展,人们日常生活中产生了大量的电子数据,人类进入了大数据时代。而在这些海量的数据之中,以自然语言形式的保存的数据占据了其中的一部分,而这一部分也是人们获取信息的一个重要来源,人们可以在这些海量数据中搜寻自己需要的信息。但往往在日常的搜索之中需要花费巨大的时间与精力才能找到自己需要的信息。因此,我们对智能问答系统的需求日益增长。目前能够针对多文本或者海量文本的机器阅读理解系统的研究还不完善,成熟的系统还较少,无法很好的从大量的文本中抽取出有效的信息回复用户。用户在进行提问时,系统无法从网络中提供的大量文本中抽取出正确有效的答案,或者提供一些答非所问的答案,使用户无法从大数据中获取到有用的信息,使得大量的文档失去了应有的价值。所以我们急需一个系统,能够根据用户提出的问题,从大量的文本中获取相关的信息,对于文档进行检索,给出问题的答案。这样能本文档来自技高网...

【技术保护点】
1.一种基于联合训练方式的多文档多答案机器阅读理解系统,其特征在于,所述系统包括多文档排序选择模块、机器阅读理解模型、答案验证模块、机器阅读理解模型和答案验证模块的联合训练模块;/n所述多文档排序选择模块提供了一种多文档的筛选方案,剔除无关的文章段落,选取与问题相关的段落内容作为机器阅读理解模型的输入;/n所述机器阅读理解模型能够从段落内容中寻找问题的答案,该答案并不一定是单一的,而可能是具有多个的;/n所述答案验证模块将机器阅读理解模型输出的多答案进行验证,将验证正确的答案进行输出;/n所述机器阅读理解模型和答案验证模块的联合训练模块使用联合训练的方式,最优化联合损失函数,得出两个模型的最优...

【技术特征摘要】
1.一种基于联合训练方式的多文档多答案机器阅读理解系统,其特征在于,所述系统包括多文档排序选择模块、机器阅读理解模型、答案验证模块、机器阅读理解模型和答案验证模块的联合训练模块;
所述多文档排序选择模块提供了一种多文档的筛选方案,剔除无关的文章段落,选取与问题相关的段落内容作为机器阅读理解模型的输入;
所述机器阅读理解模型能够从段落内容中寻找问题的答案,该答案并不一定是单一的,而可能是具有多个的;
所述答案验证模块将机器阅读理解模型输出的多答案进行验证,将验证正确的答案进行输出;
所述机器阅读理解模型和答案验证模块的联合训练模块使用联合训练的方式,最优化联合损失函数,得出两个模型的最优化参数。


2.根据权利要求1中所述的基于联合训练方式的多文档多答案机器阅读理解系统,其特征在于:所述多文档排序选择模块能够从大量的文档中选择出与问题相关的文章,并从文章中选取与问题相关的段落,将这些段落内容作为后续机器阅读理解模型的输入;所述多文档排序选择模块系统分为文档选择子模块与段落选择子模块;多文档排序选择模块的计算步骤如下:
(2-1)将文章输入进文档选择子模块,该模块使用BM25算法与TF-IDF算法计算出问题与文档的相关性,剔除无关的文档,选择相关性最高的前k1篇文档输入段落选择子模块;
(2-2)段落选择子模块将输入的文档的拆分为段落;
(2-3)对这些段落分别使用基于强度排序与基于匹配度排序的方案进行打分,最终根据基于强度排序的打分score1和基于匹配度排序的打分score2,进行加权求和,具体公式为:
scoresum=λ1*score1+λ2*score2(1)
其中λ1,λ2为自定义的超参数,λ1,λ2∈(0,1),且λ1+λ2=1,表示两种打分方案所占的权重;
(2-4)最后,将这些加权求和的最终分数scoresum进行排序,最终选择排名前k2个段落作为多文档排序选择模块的输出;上述的k1,k2为自定义的超参数,用于控制选择的文章数和段落数。


3.根据权利要求2中所述的基于联合训练方式的多文档多答案机器阅读理解系统,其特征在于:所述的基于强度的打分方案的具体内容为:使用BLEU-4分数计算问句与每个段落的分数,这个总分表示了问句中的关键词在每个段落中出现的次数。


4.根据权利要求2中所述的基于联合训练方式的多文档多答案机器阅读理解系统,其特征在于:所述的基于匹配度的打分方案的具体内容为:提供了数量为N的文档,平均每个文档有K个段落,所以设Pi为段落内容,其中i是段落标号,从1到N*K,设问题为Q;将文章与问题中分割好的词语转换为各自的单词级词向量和将问题与段落的词向量输入双向LSTM网络中进行编码,得到新的编码向量和uP表示文章内容,uQ表示问题,计算公式为:






然后计算每个段落中包含问题答案的概率p(Pi|Q),公式为:



其中sim(x,y)为相似性函数,用来衡量在段落Pi中包含问题Q的答案的概率,使用简单的评分函数,为两个向量的点积,具体公式为:
sim(x,y)=xT*y(5)
其中x,y为两个向量,代表函数的形参;模型的损失函数具体公式为:



其...

【专利技术属性】
技术研发人员:孙宁王彬韩光洁
申请(专利权)人:河海大学常州校区
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1