一种基于大语言模型的数据检索方法技术

技术编号:43088761 阅读:21 留言:0更新日期:2024-10-26 09:36
本发明专利技术涉及数据检索技术领域,具体公开了一种基于大语言模型的数据检索方法,包括以下步骤:步骤一:获取用户输入的查询语句;步骤二:将查询语句输入到大语言模型中,得到与查询语句相关的多个候选结果;步骤三:根据预设的权重公式,计算每个候选结果的权重值;步骤四:根据权重值对候选结果进行排序;步骤五:选择权重值最高的前N个候选结果作为检索结果;步骤六:将检索结果返回给用户。本发明专利技术能够提高检索准确性、增强灵活性、考虑多因素权重、适应动态变化、提升用户体验,并推动技术发展,这些效果使得该方法在各种领域具有广泛的应用前景和价值。

【技术实现步骤摘要】

本专利技术涉及数据检索,具体为一种基于大语言模型的数据检索方法


技术介绍

1、随着信息技术的迅猛发展,各种数据的产生和积累速度越来越快,数据量呈现出爆炸式增长的趋势。这包括了文本、图像、音频、视频等多种类型的数据。在这样的背景下,如何有效地管理和利用这些海量数据,成为了一个亟待解决的问题。

2、传统的数据检索方法主要基于关键词匹配。这种方法通过用户输入的关键词与数据库中的文档进行匹配,来返回相关的检索结果。然而,这种方法存在一些明显的局限性。

3、首先,关键词匹配无法理解语义。它只是简单地根据关键词的出现来判断相关性,而无法理解词语之间的语义关系和上下文信息。这可能导致检索结果不准确,遗漏了一些与查询意图相关但没有包含特定关键词的文档。

4、其次,传统方法缺乏灵活性。它通常要求用户准确地输入关键词,对于一些复杂的查询意图或者不熟悉的领域,用户可能难以准确表达自己的需求。此外,关键词匹配对于模糊查询或语义相近的查询也难以处理。

5、大语言模型的出现为数据检索提供了新的思路和解决方案。大语言模型是基于深度学习技本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的数据检索方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于大语言模型的数据检索方法,其特征在于,在步骤二中,使用基于Transformer架构的预训练语言模型作为大语言模型。

3.根据权利要求2所述的一种基于大语言模型的数据检索方法,其特征在于,在步骤三中,通过数据预处理与嵌入表示、查询意图解析、上下文相关文档筛选、精细化检索排序和动态反馈与查询优化计算每个候选结果的权重值。

4.根据权利要求3所述的一种基于大语言模型的数据检索方法,其特征在于,数据预处理与嵌入表示用于对查询语句和候选结果进行预处理,公式为:;其...

【技术特征摘要】

1.一种基于大语言模型的数据检索方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于大语言模型的数据检索方法,其特征在于,在步骤二中,使用基于transformer架构的预训练语言模型作为大语言模型。

3.根据权利要求2所述的一种基于大语言模型的数据检索方法,其特征在于,在步骤三中,通过数据预处理与嵌入表示、查询意图解析、上下文相关文档筛选、精细化检索排序和动态反馈与查询优化计算每个候选结果的权重值。

4.根据权利要求3所述的一种基于大语言模型的数据检索方法,其特征在于,数据预处理与嵌入表示用于对查询语句和候选结果进行预处理,公式为:;其中,表示第个文本的嵌入向量;表示使用bert模型对第个文本进行编码的结果;代表bert模型的参数,这些参数在模型训练过程中得到,用于将文本转换成高维的、富含语义信息的向量;表示第个文本的tf-idf加权向量;表示调节系数,用于控制tf-idf向量在最终嵌入向量中的贡献度。

5.根据权利要求4所述的一种基于大语言模型的数据检索方法,其特征在于,查询意图解析用于分析查询语句的意图,确定用户的需求和关注点,公式为:;其中,表示查询语句的嵌入向量;表示预定义的意图类别集合;表示集合中意图类别的嵌入向量;表示查询语句嵌入向量与意图类别嵌入向量的点积;表示在集合中找出使函数...

【专利技术属性】
技术研发人员:何凯蔡云云
申请(专利权)人:北京信诺时代科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1