一种基于稀疏向量匹配的高效检索方法技术

技术编号：29024761 阅读：21 留言：0更新日期：2021-06-26 05:26

本发明专利技术公开了一种基于稀疏向量匹配的高效检索方法，通过对问题句子和答案句子分词编码，然后进行单词级交互，对问题单词和答案句子之间的相关性进行计算，提升了检索细粒度，从而提升了检索准确率，通过ln、ReLU和b三者组合，有效提升算法模型的泛用性、检索精度和检索速度。索速度。索速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于稀疏向量匹配的高效检索方法

[0001]本专利技术涉及一种基于稀疏向量匹配的高效检索方法，属于数据处理领域。

技术介绍

[0002]开放问答（OpenQA），即基于知识库自动回答开放问题，通常采用大规模机器阅读（MRS）实现。MRS利用信息检索（IR）系统来缩小答案段落的选择范围，然后使用机器阅读理解读取器来提取最终答案。
[0003]现在检索系统进行训练的方法都是基于双塔语义匹配架构之上，其将问题和答案都转换成密集向量，通过点积计算问题和答案之间的相关程度。但是若答案的数据量较多的时候，则必须依靠近似邻域（ANN）技术辅助进行检索，导致检索速度和正确率下降。

技术实现思路

[0004]本专利技术所要解决的技术问题在于克服现有技术的不足而提供一种基于稀疏向量匹配的高效检索方法。
[0005]解决上述技术问题，本专利技术采用如下技术方案：一种基于稀疏向量匹配的高效检索方法，建立算法模型包括如下步骤：步骤S1：通过分词器将输入的问题q以单词串token q的形式进行表示，token q=[t1,t2...t
n
]，通过编码器对token q进行编码，得到，从答案候选集中选取一个元素，从该元素中提取获得a和c，a为答案，c为a的上下文，通过分词器将a和c以单词串token (a,c)的形式进行表示，token (a,c)=[c1,c2...c
i
,a1,a2..a
k
,c
i+1
...c
j
]，...

【技术保护点】

【技术特征摘要】
1.一种基于稀疏向量匹配的高效检索方法，其特征在于，建立算法模型包括如下步骤：步骤S1：通过分词器将输入的问题q以单词串token q的形式进行表示，token q=[t1,t2...t
n
]，通过编码器对token q进行编码，得到，从答案候选集中选取一个元素，从该元素中提取获得a和c，a为答案，c为a的上下文，通过分词器将a和c以单词串token (a,c)的形式进行表示，token (a,c)=[c1,c2...c
i
,a1,a2..a
k
,c
i+1
...c
j
]，通过编码器对token (a,c)进行编码，得到H(a,c)=[s1,s2...s
j+k
];步骤S2：定义，和为列数相同的列矩阵，为的转置矩阵，，b为可训练的bias，则token q和token (a,c)之间的匹配函数为；步骤S3：重复步骤S1和步骤S2，根据答案候选集中不同元素的数值排序依次输出对应的a和c。2.根据权利要求1所述的基于稀疏向量匹配的高效检索方法，其特征在于，对token q进行编码的编码器为无词序编码器，对token (a,c)进行编码的编码器为有词序编码器。3.根据权利要求2所述的基于稀疏向量匹配的高效检索方法，其特征在于，还包括步骤S4，步骤S4：对词汇表中每个单词进行无词序编码，得到，为词汇表中任一单词经无词序编码后得到的编码结果，则和token (a,c)之间的匹配函数为，匹配结果缓存在索引中，对应的。4.根据权利要求2所述的基于稀疏向量匹配的高效检索方法，其特征在于，若a和c为中文，则有词序编码器为chinese
‑
bert
‑
wwm，若a和c为英文，则有词序编...

【专利技术属性】
技术研发人员：赵天成，
申请(专利权)人：宏龙科技杭州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人