【技术实现步骤摘要】
本专利技术涉及信息检索和自然语言处理,尤其涉及一种基于大语言模型的文本搜索匹配方法和系统。
技术介绍
1、文本匹配是信息检索这一自然语言处理应用中的一项关键任务,而长文本匹配则是文本匹配领域中的一项重要子方向。在信息爆炸时代,文本长度的显著增长给信息检索带来挑战。通过长文本匹配,可以判断两个文本所表达的主题是否相似,从而提升检索结果的质量。但是,长文本由若干短句组成,匹配难度相较于短文本直线上升,噪声是长文本匹配中的关键问题,制约了模型的表现和效率。
2、当前,长文本搜索匹配的方法包括:
3、1.获取现有文档数据集后,提取数据集中每个文档的关键句,进而构造匹配数据集,并在该匹配数据集上进行训练得到长文本匹配模型;
4、2.获取现有文档数据集后,为每个文档构建关键词图与语义超图,获得匹配数据集后,训练得到长文本匹配模型;
5、3.结合对比学习方法训练最佳句子表征模型,对要匹配的长短文本中的句子进行相似度计算,通过匹配分数筛选检索结果。
6、现有的长文本搜索匹配方法通常需要研究人员
...【技术保护点】
1.一种基于大语言模型的文本搜索匹配方法,其特征在于,包括:
2.如权利要求1所述的一种基于大语言模型的文本搜索匹配方法,其特征在于,所述步骤A2包括:
3.如权利要求2所述的一种基于大语言模型的文本搜索匹配方法,其特征在于,在所述步骤A22中,总结句的提取过程包括:
4.如权利要求2所述的一种基于大语言模型的文本搜索匹配方法,其特征在于,在所述步骤A22中,所述关键句的提取过程包括:
5.如权利要求1所述的一种基于大语言模型的文本搜索匹配方法,其特征在于,在所述步骤A3中,将所述向量数据库与所述待搜索文本的词嵌入向量的
...【技术特征摘要】
1.一种基于大语言模型的文本搜索匹配方法,其特征在于,包括:
2.如权利要求1所述的一种基于大语言模型的文本搜索匹配方法,其特征在于,所述步骤a2包括:
3.如权利要求2所述的一种基于大语言模型的文本搜索匹配方法,其特征在于,在所述步骤a22中,总结句的提取过程包括:
4.如权利要求2所述的一种基于大语言模型的文本搜索匹配方法,其特征在于,在所述步骤a22中,所述关键句的提取过程包括:
5.如权利要求1所述的一种基于大语言模型的文本搜索匹配方法,其特征在于,在所述步骤a3中,将所述向量数据库与所述待搜索文本的词嵌入向量的匹配分数高于阈值的词嵌入向量作为匹配的词嵌入向量。
6.一种基于大语言模型的文本搜索匹配系统,其特征在于,用于实现如权利要求1-5任意一项所述的一种基于大语言模型的文本搜索匹配...
【专利技术属性】
技术研发人员:袁姗姗,管林玉,吴松洋,刘琪,
申请(专利权)人:公安部第三研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。