【技术实现步骤摘要】
稠密检索文档表示学习方法与装置
[0001]本专利技术属于计算机
,具体涉及一种稠密检索文档表示学习方法与装置。
技术介绍
[0002]稠密检索被广泛应用于各类文本检索任务,比如以文搜文和open
‑
QA,在这类问题中,一篇稠密的文档中通常包含许多不同方面的信息,各个方面都可以回答一个相关的问题,而现在通常的做法是用单一的向量表示一篇文档,这样就会导致丢失细粒度的多视角的信息,因此文档的单一表示难以匹配多种问题,并且可能存在语义不匹配的问题。
[0003]目前,稠密检索比较典型的方法可以分为以下两类:
[0004]第一类方法是基于bi
‑
encoder的稠密检索方法。这类方法使用两个编码器(encoder)分别对问题文本和文档文本进行编码,获取二者编码后的同等维度的低维向量表示。通常使用BERT作为encoder,然后以“[CLS]”的向量表示作为问题和文档的向量表示。最后,再根据这两个向量表示做内积运算,计算出该问题和文档的关联程度。在实际使用中,各个问题和文档的向 ...
【技术保护点】
【技术特征摘要】
1.一种稠密检索文档表示学习方法,其特征在于,所述方法包括:获取文档文本的多视角的第一向量;获取多个问题文本的第二向量;根据所述第一向量与所述第二向量,计算每个所述问题文本与所述文档文本中各个句子的相似度,并将所述相似度的最大值作为所述问题文本与所述文档文本的相似度。2.根据权利要求1所述的稠密检索文档表示学习方法,其特征在于,所述获取文档文本的多视角的第一向量,包括:在文档文本的每个句子开头增加[VIE
i
]标记,且每个句子的位置编码从1开始依次递增;在所述文档文本的末尾增加[SEP]标记;将所述[VIE
i
]标记、每个句子以及所述[SEP]标记拼接起来,得到所述文档文本的多视角的第一向量表达式:其中,E
i
(d)为第一向量;[SEP]为分隔符;d为文档文本中的单个句子,表示对括号中的各个向量进行拼接;[VIE1]
…
[VIE
n
]表示第1至n个句子的[VIE]标记。3.根据权利要求2所述的稠密检索文档表示学习方法,其特征在于,所述获取多个问题文本的第二向量,包括:每个问题文本以单个句子形式表示,在单个句子开头增加[VIE1]标记,在单个句子的末尾增加[SEP]标记;将所述[VIE1]标记、单个句子以及所述[SEP]标记拼接起来,得到所述问题文本的第二向量表达式:其中,E(q)为第二向量;q为问题文本的单个句子;表示对括号中的向量进行拼接;[VIE1]表示单个句子的[VIE]标记;[SEP]为分隔符。4.根据权利要求3所述的稠密检索文档表示学习方法,其特征在于,利用下述关系式得到所述问题文本与所述文档文本的相似度:f(q,d)=max
i
{sim(E(q),E
i
(d))}其中,f(q,d)为问题文本与文档文本的相似度;sim(E(q),E
i
(d))为问题文本与文档文本中各个句子的相似度。5.根据权利要求1至4任一项所述的稠密检索文档表示学习方法,其特征在于,所述方法还包括:利用下述全局损失函数获取全局损失值,基于所述全局损失值将问题文本对应的正确文档文本作为正例,其余的文档文本作为负例:利用下述局部损失函数获取局部损失值,基于所述局部损失值将所述正例中的各个句子的第一向量区分开:
基于所述全局损失函数与所述局部损失函数,得到下述总损失函数:L=L
global
+L
local
其中,L为总损失函数,L
global
为全局损失函数,L
local
为局部损失函数,
‑
表示负例,+表示正例,e为exp,T表示温度系数。6.一种稠密检索文档表示学习装置,其特征在于,所述装置包括:第一获取单元,用于获取文档文本的多视角的第一向量;第二获...
【专利技术属性】
技术研发人员:熊艺华,
申请(专利权)人:重庆特斯联启智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。