一种用于科技文献增强检索方法及系统技术方案

技术编号:46052811 阅读:7 留言:0更新日期:2025-08-11 15:40
本发明专利技术涉及一种用于科技文献增强检索方法及系统,属于自然语言处理技术领域。包括:获取查询请求,并将其改写为多个子查询请求;对多个子查询请求进行向量化处理,得到查询请求向量;根据该向量,在向量数据库中进行向量检索,得到相匹配片段;其中,向量数据库的获取方法为:接收查询请求中的科技文献,并提取其文本内容;对文本内容进行增强处理,得到增强文本;对增强文本进行分块处理,得到多个分块内容;对多个分块内容进行向量化处理后存储至向量数据库中;根据相匹配片段、查询请求和多个子查询,得到综合提示信息;将综合提示信息输入至大语言模型中生成检索结果。本发明专利技术能够提供准确、完整的回答结果,并显著提高准确率和检索效率。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其是指一种用于科技文献增强检索方法及系统


技术介绍

1、随着科技的飞速发展,科技论文的数量不断增加,其中蕴含着大量的知识和信息。为了高效地从这些论文中提取相关知识,rag(retrieval-augmented generation,简称rag)技术被引入到科技论文问答领域。然而,在实际应用中,直接将传统的rag方式用于科技论文问答,往往会面临诸多问题,导致结果模糊、缺失,甚至无法得到合适的回答。

2、首先,科技论文具有清晰且固定的行文框架,不同部分的侧重点各不相同。例如,引言部分主要介绍研究背景和目的,方法部分则详细阐述实验设计和操作步骤,结果部分展示实验数据和现象,而讨论部分则对研究结果进行分析和总结。然而,不同部分可能会出现相同的表述,这使得仅依靠语言相似度检索时,容易召回大量噪声数据。此外,不同用户提问的切入点也各不相同,进一步加剧了这一问题,从而严重影响生成结果的准确性和相关性。

3、其次,科技论文中包含大量的数据,其中很多数据以图片的形式呈现。论文通常只讨论与主题强相关的部分信息,而其他潜本文档来自技高网...

【技术保护点】

1.一种用于科技文献增强检索方法,其特征在于,包括:

2.根据权利要求1所述的一种用于科技文献增强检索方法,其特征在于,对所述文本内容进行增强处理,得到增强文本的步骤为:

3.根据权利要求2所述的一种用于科技文献增强检索方法,其特征在于,获取所述多个切分块中的图片信息,并对所述图片信息进行增强,得到所述图片信息对应的文本描述的步骤为:

4.根据权利要求2所述的一种用于科技文献增强检索方法,其特征在于,对所述图片信息进行增强还包括获取所述图片信息的潜在信息点,获取所述潜在信息点的方法为:

5.根据权利要求3所述的一种用于科技文献增强检索方法,...

【技术特征摘要】

1.一种用于科技文献增强检索方法,其特征在于,包括:

2.根据权利要求1所述的一种用于科技文献增强检索方法,其特征在于,对所述文本内容进行增强处理,得到增强文本的步骤为:

3.根据权利要求2所述的一种用于科技文献增强检索方法,其特征在于,获取所述多个切分块中的图片信息,并对所述图片信息进行增强,得到所述图片信息对应的文本描述的步骤为:

4.根据权利要求2所述的一种用于科技文献增强检索方法,其特征在于,对所述图片信息进行增强还包括获取所述图片信息的潜在信息点,获取所述潜在信息点的方法为:

5.根据权利要求3所述的一种用于科技文献增强检索方法,其特征在于,所述图片的相关信息包括当前所述切分块的标签、引用所述图片的段落,以及所述段落所在的标题。

【专利技术属性】
技术研发人员:杨桦
申请(专利权)人:苏州市职业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1