一种开放领域问答任务中长文本检索的方法和电子设备技术

技术编号:26222777 阅读:28 留言:0更新日期:2020-11-04 10:53
本发明专利技术公开了一种开放领域问答任务中长文本检索的方法和电子设备。该方法包括:利用预先训练的编码器将开放领域文档和搜索请求分别编码为文档稠密向量和请求稠密向量;其中,编码器采用历史搜索请求、正样本和负样本作为样本数据进行训练;根据文档稠密向量与请求稠密向量计算搜索请求与开放领域文档的相似度得分,并选择相似度得分符合要求的开放领域文档为候选文档;从候选文档中选择搜索请求对应的目标文档。本发明专利技术的复用性强;同一指代的词附带了近似的语义表达;有效地改善了一词多义给搜索带来的歧义问题;模型训练效果好;对于跨领域文档有较强的泛化能力;在搜索效果、搜索性能、易用性、维护性等方面有较大提升和提升潜力。

【技术实现步骤摘要】
一种开放领域问答任务中长文本检索的方法和电子设备
本专利技术涉及自然语言处理
,尤其涉及一种开放领域问答任务中长文本检索的方法和电子设备。
技术介绍
开放领域问答是自然语言处理领域的一个重要任务。开放领域问答过程可以简单描述为:对于一个给定的事实型问题,首先从一个大规模多领域文档库中检索到问题答案所在文档,然后再从该文档中提取或生成答案。其中,文档检索的准确程度往往决定了整个过程的效果上限,因此,文档检索是开放领域问答任务最重要的一部分。目前,文档检索阶段的常用方法是基于稀疏矩阵的,例如使用TD-IDF或BM25。具体来说,这样的方法通常包括以下几个步骤:步骤一,对文档进行语义信息提取,进行包括关键词抽取、命名实体识别、专有名词提取等处理,来找到文档中的关键信息;步骤二,利用文档文本和信息提取的结果构建多个索引域,这一步骤往往使用如Elasticsearch等搜索引擎工具;步骤三,对于一个新的搜索请求,进行同样的语义信息提取,然后转化为稀疏矩阵,与库中文档进行对比打分,召回评分最高的结果。这种方法在实际应用中存在以下几个不本文档来自技高网...

【技术保护点】
1.一种开放领域问答任务中长文本检索的方法,其特征在于,包括:/n利用预先训练的编码器将开放领域文档和搜索请求分别编码为文档稠密向量和请求稠密向量;其中,所述编码器采用历史搜索请求、正样本和负样本作为样本数据进行训练;/n根据所述文档稠密向量与所述请求稠密向量计算搜索请求与开放领域文档的相似度得分,并选择相似度得分符合要求的所述开放领域文档为候选文档;/n从所述候选文档中选择所述搜索请求对应的目标文档。/n

【技术特征摘要】
1.一种开放领域问答任务中长文本检索的方法,其特征在于,包括:
利用预先训练的编码器将开放领域文档和搜索请求分别编码为文档稠密向量和请求稠密向量;其中,所述编码器采用历史搜索请求、正样本和负样本作为样本数据进行训练;
根据所述文档稠密向量与所述请求稠密向量计算搜索请求与开放领域文档的相似度得分,并选择相似度得分符合要求的所述开放领域文档为候选文档;
从所述候选文档中选择所述搜索请求对应的目标文档。


2.如权利要求1所述的开放领域问答任务中长文本检索的方法,其特征在于,所述正样本采用如下方法获得:
对存在与历史搜索请求对应的答案的文档进行切分,得到多个第一文本片段;
计算所述第一文本片段与所述历史搜索请求的相关性得分;
选取答案所在的第一文本片段及其前后文各一个第一文本片段及其相关性得分组成正样本。


3.如权利要求2所述的开放领域问答任务中长文本检索的方法,其特征在于,所述计算所述第一文本片段与所述历史搜索请求的相关性得分,包括:
答案所在的第一文本片段的相关性得分为1;
第个第一文本片段的相关性得分按照如下公式计算:


其中,为答案所在的第一文本片段的序号,为第个第一文本片段与答案所在的第一文本片段的相对距离,为其他第一文本片段与答案所在的第一文本片段的最大相对距离。


4.如权利要求2所述的开放领域问答任务中长文本检索的方法,其特征在于,所述负样本包括:
与所述历史搜索请求的相关性得分为零的第一文本片段;
和/或
其他历史搜索请求的正样本。


5.如权利要求2所述的开放领域问答任务中长文本检索的方法,其特征在于,所述编码器训练的目标函数如下:



其中,为正样本中第一文本片段的相关性得分,表示搜索请求数据,表示负样本数据,表示正样本数据,表示历史搜...

【专利技术属性】
技术研发人员:钱泓锦刘占亮刘家俊窦志成
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1