一种信息检索方法和装置制造方法及图纸

技术编号:45535312 阅读:20 留言:0更新日期:2025-06-13 17:36
本发明专利技术实施例公开了一种信息检索方法和装置。通过获取待查文件和多个候选文件,所述候选文件为需要与待查文件进行匹配的文件,通过大语言模型获取所述待查文件和候选文件对应的实体信息,所述实体信息为文本内容信息,通过大语言模型获取所述待查文件和候选文件对应的本体信息,所述本体信息为文件分类信息,通过大语言模型根据所述待查文件和候选文件的实体信息和本体信息在所述候选文件中获取目标文件,所述目标文件为与所述待查文件匹配的文件。由此,可以在无需训练的前提下,完成高准确性、高效率的检索,解决数据获取难度大、训练成本高的问题。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种信息检索方法和装置


技术介绍

1、随着信息技术的发展,高效准确地检索各类技术文档变得尤为重要,这包括但不限于专利文献、学术论文和技术报告等。然而,面对文档数量尤其是前沿
内容的快速增长,传统基于关键词匹配和文本相似度计算的方法逐渐显露出其局限性。这些方法在处理复杂的语言结构、快速演变的技术术语以及跨学科知识关联时表现不佳,导致检索结果精确度低且噪声高,往往遗漏使用不同术语描述的相关文档,难以适应新兴术语的变化速度。

2、为了克服上述挑战,提高文档检索的准确性与效率,大语言模型(llm,largelanguage model)逐渐被应用于信息检索领域。尽管如此,在现有的利用llm的检索方案中,通常需要对模型进行预训练,并通过监督微调(sft,supervised fine-tuning)和基于人类反馈的强化学习(rlhf,reinforcement learning from human feedback)等方式进一步优化。然而,这种方式不仅需要获取大量特定领域的数据,而且面临数据获取难度大、训练成本高的本文档来自技高网...

【技术保护点】

1.一种信息检索方法,其特征在于,所述方法包括:

2.一种信息检索方法,其特征在于,所述方法包括:

3.根据权利要求2所述的方法,其特征在于,所述通过大语言模型获取所述待查文件和候选文件对应的实体信息包括:

4.根据权利要求2所述的方法,其特征在于,所述通过大语言模型获取所述待查文件和候选文件对应的本体信息包括:

5.根据权利要求2所述的方法,其特征在于,所述通过大语言模型根据所述待查文件和候选文件的实体信息和本体信息在所述候选文件中获取目标文件包括:

6.根据权利要求5所述的方法,其特征在于,所述通过大语言模型根据所述第二中间...

【技术特征摘要】

1.一种信息检索方法,其特征在于,所述方法包括:

2.一种信息检索方法,其特征在于,所述方法包括:

3.根据权利要求2所述的方法,其特征在于,所述通过大语言模型获取所述待查文件和候选文件对应的实体信息包括:

4.根据权利要求2所述的方法,其特征在于,所述通过大语言模型获取所述待查文件和候选文件对应的本体信息包括:

5.根据权利要求2所述的方法,其特征在于,所述通过大语言模型根据所述待查文件和候选文件的实体信息和本体信息在所述候选文件中获取目标文件包括:

6.根据权利要求5所述的方法,其特征在于,所述通过大语言模型根据所述第二中间参数和所述中间检索结果在所述中间文件中获取目标文件包括:...

【专利技术属性】
技术研发人员:熊秋实王梦佳陈祖龙
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1