面向长文本的稠密信息检索方法与系统技术方案

技术编号:35737658 阅读:42 留言:0更新日期:2022-11-26 18:40
为了克服现有技术检索耗时长、代价高,以及现有的检索方案语句分割后结果正确性不足的问题,提供了一种面向长文本的稠密信息检索方法与系统。通过将文本填充到相同字符量后通过BERT转换成向量表示,再进行压缩。在保持其语义关系不变的同时简化了单词的特征,使检索更注重语义关系,并同时降低了数据的大小。通过离线存储实现的检索系统,对检索请求的处理速度比现有技术更快,安全性也更高。安全性也更高。

【技术实现步骤摘要】
面向长文本的稠密信息检索方法与系统


[0001]本专利技术涉及信息检索方法
,特别涉及面向长文本的稠密信息检索方法与系统。

技术介绍

[0002]最近几年,一些大规模的预训练语言模型(如ELMo、OpenAI GPT和BERT等)的出现不断刷新了自然语言处理中各种任务的评价结果。这些预训练语言模型可以通过微调的方式很好地估计文本之间的相关性。其中,BERT是预训练语言模型最具代表性的一种。在BERT出现不到一年的时间里,基于BERT的许多排序模型已经在各种检索基准上取得了最先进的结果。这受益于它计算两个文本对的深度上下文的语义交互来获取文本之间的语义匹配,弥合文档和查询之间普遍存在的词汇不匹配问题。BERT检索器进行交互式语义匹配时的输入是一个问题和每个检索到的文档的连接,即:“[CLS]Query[SEP]Document[SEP]”。由CLS处得到每个段落和查询的相关的概率。由于BERT采用基于转换器(transformer)的架构,它的内存和时间消耗会随着输入长度的增加呈平方指数增长,因此BERT模型的设计限制了文本的输入长度为最多本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向长文本的稠密信息检索方法,其特征在于,S1:利用符合BERT模型输入要求长度的文本,配合查询相关性训练样本,训练模型;S2:将被检索文本,通过训练好的模型,得到分段式上下文编码表示;S3:将查询文本,通过训练好的模型,得到查询的BERT编码表示;S4:将查询的编码表示与长文档的编码表示进行交互,得到查询结果。2.根据权利要求1所述的一种面向长文本的稠密信息检索方法,其特征在于,S2中还包括S2.2:在进行向量压缩;将得到BERT的最后一层的隐向量压缩后进行拼接后按文档编号依次存入每篇文档的表示;文档d的表示为E
d
的计算方式如下:其中,E
d
的第一维大小为k
×
L
d
,表示k个段落的总长度;E
d
的第二维为dim,表示每个词向量压缩后的维数(压缩之前为768);p
i
代表切分后的第i个段落p
i
∈d,i∈{1,2,..,k};tok
i,j
表示文档d的第i个段落的第j个词的向量表示;同样地,当一篇文档的长度len(d)未超过L
d
时,使用[mask]填充至长度为L
d
;文档表示的过程为:len(d)<L
d
其中,tok
i
表示文档中的第i个词的向量表示;对应的,S3中还包括将查询语句通过线性层进行相同压缩的步骤,S3.1,将该查询语句向量通过一个线性层进行压缩,得到查询的编码表示:对于BERT的输出,再通过一个线性层进行压缩;得到查询Q的表示为E
Q
,其计算方式为:其中,E
Q
的大小为L
Q
×
dim;其中dim为每个词向量压缩后的维数(压缩之前为768)。3.根据权利要求1所述的一种面向长文本的稠密信息检索方法,其特征在于,S2还包括,对该长文本编码表示进行离线存储;对应的,S4中,查询的编码表示与长文档的编码表示进行交互的过程,还包括从离线存储的数据中调出S2中离线存储的长文本编码表示。4.根据权利要求1所述的一种面向长文本的稠密信息检索方法,其特征在于,S2中,将这些长文本进行切割时,对于一个文档d,文档长度为len(d);设切分的大小为L
d
,如果文档的长度超过L
d
,将对文档进行切分;对于长度未超过L
d
的文本,则使用特殊标记[mask]进行填充;假设一篇文档的长度len(d)超过了L
d
,则将文档以切分为一系列L
d
的长度的段落,记为d={p1,p2,...,p
k
};其中p
i
代表切分后的第i个段落p
i
∈d,i∈{1,2,..,k};tok
i,j
表示文档d的第i个段落的第j个词的向量表示;对于每个段落输入的开始使用[D]标记;长度为L
d
片段的文本的表示为:
长度小于L
d
片段的文本的表示为:[D],tok1,tok2,...,tok
len(d)
,[sep],[mask],...,[mask]对该文本通过一个标准化过程,将长度不足的文本,通过填充特殊标记[mask],使得到的所有切割后的长...

【专利技术属性】
技术研发人员:王俊美盛锦华杨泽辛雨
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1