一种多文档场景下问答方法及系统技术方案

技术编号:28035486 阅读:33 留言:0更新日期:2021-04-09 23:17
本发明专利技术涉及一种多文档场景下问答方法,所述方法包括:对多个文档的文本信息进行编码,获得各所述文档的特征向量;对待回答问题进行编码,获得所述待回答问题的特征向量;根据各所述文档的特征向量和所述待回答问题的特征向量,确定与所述待回答问题接近的N个目标文档;从N个所述目标文档中抽取SPO三元组;根据所述SPO三元组构建知识图谱;根据所述待回答问题中实体与所述知识图谱中各节点之间的相似度,从所述知识图谱中抽取M个子图,所述M个子图构成证据图集合;利用分类器从所述证据图集合中获取目标证据图;根据所述目标证据图的节点获得待回答问题的目标答案。本发明专利技术提高了问答系统的准确性和稳定性。

【技术实现步骤摘要】
一种多文档场景下问答方法及系统
本专利技术涉及语言处理
,特别是涉及一种多文档场景下问答方法及系统。
技术介绍
智能问答系统的目的是自动为人们提供所需的信息,目前广泛应用于许多领域,如医疗、金融和电子商务中。大多数方法都集中在简单问题上,而对于复杂问题的解决一直是问答系统的挑战之一。随着互联网的广泛使用,大数据的应用成为可能,它成为了获取信息的最佳来源之一,并加速了多种问答系统的开发。目前准确高效的问答系统可以根据人们的日常需求智能提出多种解决方案并让用户进行选择,对于个人、企业和政府来说都有积极意义。随着深度学习的快速发展,近年来出现了基于文本的端到端问答系统,该系统在回答复杂问题方面取得了较好的性能,具有良好的鲁棒性。该系统通常可以分解为三个子任务:问题分析、文档重新溯源和答案生成:在问题分析上,目前常用的思路是依靠大规模的监督阅读理解数据,这些数据可以学习阅读真实的文档和回答复杂的问题,而事先对语言结构几乎一无所知。而在选取文档和答案生成方面,目前主要采取的方案是基于循环神经网络对文章进行语义概括并从中选取和问题有关的文章作本文档来自技高网...

【技术保护点】
1.一种多文档场景下问答方法,其特征在于,所述方法包括:/n对多个文档的文本信息进行编码,获得各所述文档的特征向量;/n对待回答问题进行编码,获得所述待回答问题的特征向量;/n根据各所述文档的特征向量和所述待回答问题的特征向量,确定与所述待回答问题接近的N个目标文档;/n从N个所述目标文档中抽取SPO三元组;/n根据所述SPO三元组构建知识图谱;/n根据所述待回答问题中实体与所述知识图谱中各节点之间的相似度,从所述知识图谱中抽取M个子图,所述M个子图构成证据图集合;/n利用分类器从所述证据图集合中获取目标证据图;/n根据所述目标证据图的节点获得待回答问题的目标答案。/n

【技术特征摘要】
1.一种多文档场景下问答方法,其特征在于,所述方法包括:
对多个文档的文本信息进行编码,获得各所述文档的特征向量;
对待回答问题进行编码,获得所述待回答问题的特征向量;
根据各所述文档的特征向量和所述待回答问题的特征向量,确定与所述待回答问题接近的N个目标文档;
从N个所述目标文档中抽取SPO三元组;
根据所述SPO三元组构建知识图谱;
根据所述待回答问题中实体与所述知识图谱中各节点之间的相似度,从所述知识图谱中抽取M个子图,所述M个子图构成证据图集合;
利用分类器从所述证据图集合中获取目标证据图;
根据所述目标证据图的节点获得待回答问题的目标答案。


2.根据权利要求1所述的多文档场景下问答方法,其特征在于,所述对多个文档的文本信息进行编码,获得各所述文档的特征向量之前,所述方法还包括:
获得多个文档的半结构数据;
对多个文档的半结构数据进行处理获得多个文档的文本信息。


3.根据权利要求1所述的多文档场景下问答方法,其特征在于,所述方法还包括:将所述目标证据图作为所述目标答案的可解释性来源。


4.根据权利要求1所述的多文档场景下问答方法,其特征在于,所述方法具体还包括:
利用HEAD-QA数据集中数据训练基于注意力的图神经网络,获得所述分类器。


5.根据权利要求1所述的多文档场景下问答方法,其特征在于,所述从N个所述目标文档中抽取SPO三元组,具体包括:
对N个所述目标文档进行词性标记,提取词组;
对N个所述目标文档进行命名实体识别;
将所述命名实体和所述词组作为SPO三元组的实体对象。


6.根据权利要求1所述的多文档场景下问答方法,其特征在于,所述对多个文档的文本信息进行编码,获得各所述文档的特征向量,具体包括:
采用TF-IDF方法对各所述文档的...

【专利技术属性】
技术研发人员:李博涵顾高王萌历傲然杨新民张吉
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1