一种基于大语言模型的文本搜索匹配方法和系统技术方案

技术编号:41870653 阅读:39 留言:0更新日期:2024-07-02 00:21
本发明专利技术提供一种基于大语言模型的文本搜索匹配方法和系统,输入待搜索文本;基于大语言模型计算待搜索文本的词嵌入向量;将待搜索文本的词嵌入向量与预先构建的向量数据库中的词嵌入向量进行搜索匹配,得到匹配的词嵌入向量;将匹配的词嵌入向量对应的文本数据作为对待搜索文本的搜索结果进行输出;其中,向量数据库的词嵌入向量基于大语言模型构建。有效捕捉了长文本的语义信息,并提高了文本匹配的精确率和召回率,提升了待检索文本与检索结果之间的语义匹配度,无需重新训练模型,节约了构建模型的时间、金钱和人力成本。

【技术实现步骤摘要】

本专利技术涉及信息检索和自然语言处理,尤其涉及一种基于大语言模型的文本搜索匹配方法和系统


技术介绍

1、文本匹配是信息检索这一自然语言处理应用中的一项关键任务,而长文本匹配则是文本匹配领域中的一项重要子方向。在信息爆炸时代,文本长度的显著增长给信息检索带来挑战。通过长文本匹配,可以判断两个文本所表达的主题是否相似,从而提升检索结果的质量。但是,长文本由若干短句组成,匹配难度相较于短文本直线上升,噪声是长文本匹配中的关键问题,制约了模型的表现和效率。

2、当前,长文本搜索匹配的方法包括:

3、1.获取现有文档数据集后,提取数据集中每个文档的关键句,进而构造匹配数据集,并在该匹配数据集上进行训练得到长文本匹配模型;

4、2.获取现有文档数据集后,为每个文档构建关键词图与语义超图,获得匹配数据集后,训练得到长文本匹配模型;

5、3.结合对比学习方法训练最佳句子表征模型,对要匹配的长短文本中的句子进行相似度计算,通过匹配分数筛选检索结果。

6、现有的长文本搜索匹配方法通常需要研究人员构造一个高质量的训练本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的文本搜索匹配方法,其特征在于,包括:

2.如权利要求1所述的一种基于大语言模型的文本搜索匹配方法,其特征在于,所述步骤A2包括:

3.如权利要求2所述的一种基于大语言模型的文本搜索匹配方法,其特征在于,在所述步骤A22中,总结句的提取过程包括:

4.如权利要求2所述的一种基于大语言模型的文本搜索匹配方法,其特征在于,在所述步骤A22中,所述关键句的提取过程包括:

5.如权利要求1所述的一种基于大语言模型的文本搜索匹配方法,其特征在于,在所述步骤A3中,将所述向量数据库与所述待搜索文本的词嵌入向量的匹配分数高于阈值的词...

【技术特征摘要】

1.一种基于大语言模型的文本搜索匹配方法,其特征在于,包括:

2.如权利要求1所述的一种基于大语言模型的文本搜索匹配方法,其特征在于,所述步骤a2包括:

3.如权利要求2所述的一种基于大语言模型的文本搜索匹配方法,其特征在于,在所述步骤a22中,总结句的提取过程包括:

4.如权利要求2所述的一种基于大语言模型的文本搜索匹配方法,其特征在于,在所述步骤a22中,所述关键句的提取过程包括:

5.如权利要求1所述的一种基于大语言模型的文本搜索匹配方法,其特征在于,在所述步骤a3中,将所述向量数据库与所述待搜索文本的词嵌入向量的匹配分数高于阈值的词嵌入向量作为匹配的词嵌入向量。

6.一种基于大语言模型的文本搜索匹配系统,其特征在于,用于实现如权利要求1-5任意一项所述的一种基于大语言模型的文本搜索匹配...

【专利技术属性】
技术研发人员:袁姗姗管林玉吴松洋刘琪
申请(专利权)人:公安部第三研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1