【技术实现步骤摘要】
本专利技术涉及数据检索,具体为一种基于大语言模型的数据检索方法。
技术介绍
1、随着信息技术的迅猛发展,各种数据的产生和积累速度越来越快,数据量呈现出爆炸式增长的趋势。这包括了文本、图像、音频、视频等多种类型的数据。在这样的背景下,如何有效地管理和利用这些海量数据,成为了一个亟待解决的问题。
2、传统的数据检索方法主要基于关键词匹配。这种方法通过用户输入的关键词与数据库中的文档进行匹配,来返回相关的检索结果。然而,这种方法存在一些明显的局限性。
3、首先,关键词匹配无法理解语义。它只是简单地根据关键词的出现来判断相关性,而无法理解词语之间的语义关系和上下文信息。这可能导致检索结果不准确,遗漏了一些与查询意图相关但没有包含特定关键词的文档。
4、其次,传统方法缺乏灵活性。它通常要求用户准确地输入关键词,对于一些复杂的查询意图或者不熟悉的领域,用户可能难以准确表达自己的需求。此外,关键词匹配对于模糊查询或语义相近的查询也难以处理。
5、大语言模型的出现为数据检索提供了新的思路和解决方案。大语言
...【技术保护点】
1.一种基于大语言模型的数据检索方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于大语言模型的数据检索方法,其特征在于,在步骤二中,使用基于Transformer架构的预训练语言模型作为大语言模型。
3.根据权利要求2所述的一种基于大语言模型的数据检索方法,其特征在于,在步骤三中,通过数据预处理与嵌入表示、查询意图解析、上下文相关文档筛选、精细化检索排序和动态反馈与查询优化计算每个候选结果的权重值。
4.根据权利要求3所述的一种基于大语言模型的数据检索方法,其特征在于,数据预处理与嵌入表示用于对查询语句和候选结果进行
...【技术特征摘要】
1.一种基于大语言模型的数据检索方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于大语言模型的数据检索方法,其特征在于,在步骤二中,使用基于transformer架构的预训练语言模型作为大语言模型。
3.根据权利要求2所述的一种基于大语言模型的数据检索方法,其特征在于,在步骤三中,通过数据预处理与嵌入表示、查询意图解析、上下文相关文档筛选、精细化检索排序和动态反馈与查询优化计算每个候选结果的权重值。
4.根据权利要求3所述的一种基于大语言模型的数据检索方法,其特征在于,数据预处理与嵌入表示用于对查询语句和候选结果进行预处理,公式为:;其中,表示第个文本的嵌入向量;表示使用bert模型对第个文本进行编码的结果;代表bert模型的参数,这些参数在模型训练过程中得到,用于将文本转换成高维的、富含语义信息的向量;表示第个文本的tf-idf加权向量;表示调节系数,用于控制tf-idf向量在最终嵌入向量中的贡献度。
5.根据权利要求4所述的一种基于大语言模型的数据检索方法,其特征在于,查询意图解析用于分析查询语句的意图,确定用户的需求和关注点,公式为:;其中,表示查询语句的嵌入向量;表示预定义的意图类别集合;表示集合中意图类别的嵌入向量;表示查询语句嵌入向量与意图类别嵌入向量的点积;表示在集合中找出使函数...
【专利技术属性】
技术研发人员:何凯,蔡云云,
申请(专利权)人:北京信诺时代科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。