一种基于LLM的科学文献主题发现方法及装置制造方法及图纸

技术编号:46628487 阅读:0 留言:0更新日期:2025-10-14 21:26
本发明专利技术公开了一种基于LLM的科学文献主题发现方法及装置。本方法为:1)获取每一科学文献样本的文本表征并利用文本编码器对其进行编码,得到对应科学文献样本的文档表征矩阵;2)对各科学文献样本进行聚类,得到不同主题的聚类结果;计算每个科学文献样本的熵值,选取高不确定性样本;3)计算每一高不确定性样本与其他科学文献样本之间的语义相似性,构建多个三元组任务;利用各三元组任务通过对比学习方法微调文本编码器;4)使用文本编码器对每一科学文献样本的文本表征进行编码,得到对应科学文献样本的文档表征矩阵;5)利用各科学文献样本的文档表征矩阵对各科学文献样本进行主题聚类,生成各科学文献样本的聚类标签和主题划分结果。

【技术实现步骤摘要】

本专利技术属于文本挖掘与信息检索,具体涉及一种基于大语言模型(llm)的科学文献主题发现方法及装置,能够精准识别科学文献中的研究主题,提高主题发现的准确性和语义一致性。


技术介绍

1、在科学研究的前沿不断扩展的背景下,学者们面临着越来越庞大的科学文献信息流,使得高效的信息检索和管理变得至关重要。尤其是在计算机科学等快速发展的领域,每年产生的大量研究论文使得研究人员难以紧跟最新的研究进展。因此,主题发现(topicdiscovery)成为科学信息检索的核心方法,它能够帮助研究人员更轻松地理解不同研究领域的趋势,并精确定位相关文献。然而,传统的信息检索方法,如手动整理或关键词搜索,通常难以捕捉不同研究领域之间的复杂关系,甚至可能忽略新兴的跨学科联系。因此,自动化的科学文献主题发现方法迫切需要应对现代科学文献的复杂性和规模。

2、近年来,机器学习,特别是深度学习的进步,推动了自动化主题发现技术的发展。经典的主题发现方法,如潜在狄利克雷分配(latent dirichlet allocation,lda)、非负矩阵分解(non-negative mat本文档来自技高网...

【技术保护点】

1.一种基于LLM的科学文献主题发现方法,其步骤包括:

2.根据权利要求1所述的方法,其特征在于,所述文本表征包括论文标题、摘要和元数据。

3.根据权利要求2所述的方法,其特征在于,使用文本编码器分别对所述文本表征中的论文标题、摘要和元数据进行编码,生成对应的标题表征向量hb、摘要表征向量hb和元数据表征向量hm并进行拼接,得到文档表征矩阵hp。

4.根据权利要求1或2或3所述的方法,其特征在于,构建三元组任务(a,c+,c-)的方法为:首先从与该高不确定性样本所在聚类结果及与该高不确定性样本所在聚类结果近邻的聚类结果中分别选取一个科学文献样本,根据该...

【技术特征摘要】

1.一种基于llm的科学文献主题发现方法,其步骤包括:

2.根据权利要求1所述的方法,其特征在于,所述文本表征包括论文标题、摘要和元数据。

3.根据权利要求2所述的方法,其特征在于,使用文本编码器分别对所述文本表征中的论文标题、摘要和元数据进行编码,生成对应的标题表征向量hb、摘要表征向量hb和元数据表征向量hm并进行拼接,得到文档表征矩阵hp。

4.根据权利要求1或2或3所述的方法,其特征在于,构建三元组任务(a,c+,c-)的方法为:首先从与该高不确定性样本所在聚类结果及与该高不确定性样本所在聚类结果近邻的聚类结果中分别选取一个科学文献样本,根据该高不确定性样本与两所选科学文献样本构建语义提示词,将语义提示词以及该高不确定性样本两所选科学文献样本输入llm,检测该高不确定性样本与两所选科学文献样本的相关性,如果其中一所选科学文献样本与该高不确定性样本相似,另一所选科学文献样本与该高不确定性不相关,则构建一三元组任务(a,c+,c-),其中a为该高不确定性样本,c+为与该高不确定性样本相似的科学文献样本,c-为与该高不确定性样本不相关的科学文献样本。

5.根据权利要求4所述的方法,其特征在于,确定与该高不确定性样本所在聚类结果近邻的聚类结果的方法为:计算聚类结果中各科学文献样本的文档表征矩阵的平均值作为对应聚类结果的平均嵌入向量;计算该高不确定性样本的文档表征矩阵与各聚类结果的平均嵌入向量之间的距离,将最小距离对应的聚类结果作为与该高不确定...

【专利技术属性】
技术研发人员:王鹏飞李鹏江王在田张然许萍宁致远周园春
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1