一种基于语言大模型的科研文献解读方法及装置制造方法及图纸

技术编号:38990023 阅读:27 留言:0更新日期:2023-10-07 10:20
本发明专利技术公开了一种基于语言大模型的科研文献解读方法及装置,方法包括:获取指定领域的科研文献数据,然后对文献数据进行清洗、标注和结构化处理,得到数据集,所述数据集中的每个样本数据,是由给定的问题、文献和该问题的答案组成的三元组;利用预训练的GLM语言模型,使用数据集进行模型微调和训练,得到语言大模型,以适应科研文献的特定领域和语义,包括微调模型步骤和训练模型步骤;当语言大模型获取到用户输入的待解读文献时,将获取的用户问题或者预设的通用问题输入语言大模型,并将语言大模型的解读结果输出。本发明专利技术基于语言大模型的微调和训练,结合文献的结构和内容特点,实现对科研文献的自动解读和知识提取,提高解读和理解的准确性。高解读和理解的准确性。高解读和理解的准确性。

【技术实现步骤摘要】
一种基于语言大模型的科研文献解读方法及装置


[0001]本专利技术涉及文献解读
,特别涉及一种基于语言大模型的科研文献解读方法及装置。

技术介绍

[0002]在科学研究中,文献阅读是非常重要的一环。然而,由于文献数量庞大,领域知识复杂多样,传统的文献阅读方法需要花费大量的时间和精力,存在效率低、准确性差等问题。
[0003]现有技术中有一些文献解读方法,对文献进行解读后可以提高用户的阅读效率。然而现有的文献解读方法多采用基于关键词匹配的方式,而无法很好地理解文本内部的语义和逻辑关系,因此容易受到同义词、多义词、词序不同等因素的影响,导致准确性较低。

技术实现思路

[0004]本专利技术要解决的技术问题,在于提供一种基于语言大模型的科研文献解读方法及装置,基于对语言大模型的微调和训练,结合文献的结构和内容特点,实现对科研文献的自动解读和知识提取,提高解读和理解的准确性。
[0005]第一方面,本专利技术提供了一种基于语言大模型的科研文献解读方法,包括:
[0006]样本数据处理过程:获取指定领域的科研本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于语言大模型的科研文献解读方法,其特征在于,包括:样本数据处理过程:获取指定领域的科研文献数据,然后对文献数据进行清洗、标注和结构化处理,得到数据集,所述数据集中的每个样本数据,是由给定的问题q、文献p和该问题的答案a组成的三元组<q,p,a>;语言大模型训练过程:利用预训练的GLM语言模型,使用数据集进行模型微调和训练,得到语言大模型,以适应科研文献的特定领域和语义,包括微调模型步骤和训练模型步骤;所述微调模型步骤包括:去掉预训练的GLM语言模型中的下一句预测任务,使其更适用于广泛的自然语言处理任务;使用动态掩码,每次向模型输入一个序列时都会生成新的掩码模式;微调模型步骤完成后得到微调语言模型;所述训练模型步骤包括:获取一个批次的样本数据;将该批次的数据输入微调语言模型进行前向计算;将前向计算的结果传递给损失函数,计算损失值;使用计算出的损失值,通过反向传播算法计算模型中各个参数的梯度实现参数更新;使用更新后的参数,再次从数据加载器中获取下一个批次的数据,重复执行前向计算、损失计算和梯度更新的步骤,逐渐优化模型的性能,训练完成后得到语言大模型;文献解读过程:当语言大模型获取到用户输入的待解读文献时,将获取的用户问题或者预设的通用问题输入语言大模型,并将语言大模型的解读结果输出。2.根据权利要求1所述的方法,其特征在于:所述样本数据处理过程中,将三元组<q,p,a>转换为id形式后作为所述训练模型步骤的样本数据。3.根据权利要求2所述的方法,其特征在于:所述文献解读过程中,将获取的用户问题或者预设的通用问题以及待解读文献转化为id形式,然后输入语言大模型,语言大模型经过处理输出答案的位置,得到解读结果。4.根据权利要求1所述的方法,其特征在于:所述微调模型步骤还包括调大batch size,即训练过程中一批次输入模型的样本数据数量,使其训练的数据更多,减少模型训练时间。5.根据权利要求1所述的方法,其特征在于:所述训练模型步骤中,通过数据加载器获取各批次的样本数据。6.一种基于语言大模型的科研文献解读装...

【专利技术属性】
技术研发人员:林卓郑照洲张福山方延风
申请(专利权)人:福建省科学技术信息研究所福建省生产力促进中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1