一种多层级长文本向量检索方法、装置和电子设备制造方法及图纸

技术编号:28942006 阅读:41 留言:0更新日期:2021-06-18 21:48
本发明专利技术公开了一种多层级长文本向量检索方法、装置和电子设备。所述方法包括:将开放领域的长文本切分为文本片段;利用训练好的编码器将所述文本片段和搜索请求分别编码为稠密向量;利用文本片段和搜索请求的稠密向量,基于向量检索,查询得到与所述搜索请求相似的目标文本片段;其中,所述编码器是利用包括多层级文本片段的训练数据集训练得到的。通过考虑训练数据集中的文本片段与搜索请求的多层级相关性,使得得到的模型很容易在多个相关片段中选取到合适的片段,显著提高了召回效率。

【技术实现步骤摘要】
一种多层级长文本向量检索方法、装置和电子设备
本专利技术涉及自然语言处理
,尤其涉及一种多层级长文本向量检索方法、装置和电子设备。
技术介绍
开放领域问答是自然语言处理领域的一个重要任务。它可以简单描述为:给定一个事实型问题,系统需要从一个大规模多领域文档库中检索到问题答案所在文档,然后再从中提取或生成答案。对于开放领域问答任务,文档检索往往是最重要的一部分,文档检索的准确程度决定了系统整体的效果上限。目前,开放领域问答任务中的文档检索常用的方法是基于稀疏矩阵或者稠密向量检索。其中,基于稀疏矩阵的检索方法通常使用TD-IDF或BM25等方法,这些方法一般包括以下几个步骤:对文档进行语义信息提取,包括关键词抽取、命名实体识别、专有名词提取等,获得文档中的关键信息;利用文档文本和语义信息提取结果构建多个索引域,这一步骤往往使用如Elasticsearch等搜索引擎工具;对于一个新的搜索请求,进行同样的语义信息提取,然后转化为稀疏矩阵,与库中文档进行对比打分,召回评分最高的结果。相对地,稠密向量检索方法通常利用神经网络模型将文档和搜索请本文档来自技高网...

【技术保护点】
1.一种多层级长文本向量检索方法,其特征在于,包括:/n将开放领域的长文本切分为文本片段;/n利用训练好的编码器将所述文本片段和搜索请求分别编码为稠密向量;/n利用文本片段和搜索请求的稠密向量,基于向量检索,查询得到与所述搜索请求相似的目标文本片段;/n其中,所述编码器是利用包括多层级文本片段的训练数据集训练得到的。/n

【技术特征摘要】
1.一种多层级长文本向量检索方法,其特征在于,包括:
将开放领域的长文本切分为文本片段;
利用训练好的编码器将所述文本片段和搜索请求分别编码为稠密向量;
利用文本片段和搜索请求的稠密向量,基于向量检索,查询得到与所述搜索请求相似的目标文本片段;
其中,所述编码器是利用包括多层级文本片段的训练数据集训练得到的。


2.如权利要求1所述的多层级长文本向量检索方法,其特征在于,所述多层级文本片段包括:包含答案的文本片段、包含答案的文档中的不包含答案的文本片段、与搜索请求相关的文本片段和/或与搜索请求不相关的文本片段。


3.如权利要求2所述的多层级长文本向量检索方法,其特征在于,通过切分包含答案的文档得到所述包含答案的文本片段以及所述包含答案的文档中的不包含答案的文本片段;所述与搜索请求相关的文本片段通过对搜索得到的与搜索请求相关的文档进行切分得到;所述与搜索请求不相关的文本片段通过对随机采样得到的文档进行切分得到。


4.如权利要求2所述的多层级长文本向量检索方法,其特征在于,所述编码器训练的目标函数为:



其中,

为搜索请求,为包含答案的文本片段,为包含答案的文档中的不包含答案的文本片段,为与搜索请求相关的文本片段,为与搜索请求不相关的文本片段;为搜索请求与文本片段间的相关性,表示,,,;

为预设常数,表示搜索请求与两个层级文本片段间相关性的最小可接受距离。


5.如权利要求1所述的多层级长文本向量检索方法,其特征在于,所述利用文本片段和搜索请求的稠密向量,基于向量检索,查询得到与所述搜索请求相似的...

【专利技术属性】
技术研发人员:钱泓锦刘占亮窦志成文继荣曹岗
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1