当前位置: 首页 > 专利查询>武汉大学专利>正文

基于大语言模型的引文文本自动分类方法技术

技术编号:38458475 阅读:8 留言:0更新日期:2023-08-11 14:35
本发明专利技术公开了一种基于大语言模型的引文文本自动分类方法,包括:获取待分析的被引文献全文及其施引文献全文,并对其进行数据预处理;利用大语言模型提炼被引文献中的关键信息;将提炼的关键信息以及得到的引文文本信息输入到BERT模型提取相应的特征,将提取的特征以及数据预处理中得到的引用位置特征进行集合并采用集合的特征对用于分类任务的多层感知机分类模型进行训练;将待分类的引文文本经过上述步骤提取特征后,将特征进行集合并输入到训练完成的多层感知机分类模型中对引文文本的引用对象标签和引用功能标签进行预测,并根据引用对象标签和引用功能标签对引文文本进行分类。本发明专利技术大大提升了引文文本分类准确率。率。率。

【技术实现步骤摘要】
基于大语言模型的引文文本自动分类方法


[0001]本专利技术属于引文分析的
,具体涉及一种基于大语言模型的引文文本自动分类方法。

技术介绍

[0002]基于文献被引频次的传统引文分析方法已广泛应用于学术评价、科学计量、科研绩效管理等领域,衍生出了期刊影响因子IF、科研人员H指数等颇具影响力的计量指标,但这些方法均将所有的引用同等看待,未能有效区分不同引文内容之间的具体差异。随着全文文献数据库的普及以及文本处理技术的发展,对引文文本进行细粒度的分析处理成为大势所趋,尝试从引用对象、引用功能等多方面对引文文本进行自动分类逐渐成为研究人员关注的焦点。然而,当前的引文内容自动识别方法准确率并不理想,与被引文献本身内容脱节的问题也尤为突出。因此,如何有效解决引文文本的分类问题、进而更细粒度地评价被引文献的影响力成为一个重要问题。

技术实现思路

[0003]本专利技术的目的在于针对现有技术的不足之处,提供一种基于大语言模型的引文文本自动分类方法,该方法从引用对象和引用功能两个层面更细粒度地揭示出引用行为的实质,提高引文文本分类的准确率。
[0004]为解决上述技术问题,本专利技术采用如下技术方案:
[0005]一种基于大语言模型的引文文本自动分类方法,包括如下步骤:
[0006]步骤1、获取待分析的被引文献全文及其施引文献全文,并对其进行数据预处理;
[0007]步骤2、利用大语言模型提炼被引文献中的关键信息;
[0008]步骤3、将步骤2提炼的关键信息以及步骤1中得到的引文文本信息输入到BERT模型提取相应的特征,将提取的特征及步骤1中得到的引用位置特征进行集合并采用集合的特征对用于分类任务的多层感知机分类模型MLP进行训练;
[0009]步骤4、将待分类的引文文本经过步骤1和步骤2的处理并经步骤3提取特征后将特征进行集合并输入到训练完成的多层感知机分类模型MLP中对引文文本的引用对象标签和引用功能标签进行预测,并根据引用对象标签和引用功能标签对引文文本进行分类。
[0010]进一步地,步骤1具体包括:
[0011]S1.1、从数据库中获取待分析的被引文献全文及其对应的施引文献全文,删除无法获取全文的文献;
[0012]S1.2、将施引文献全文PDF转化为TXT格式的文本,保留引用标记;
[0013]S1.3、利用正则表达式匹配引用标记的方法获取施引文献中的引文内容和引用位置,得到引文内容集合其中,x
i
表示第i条样本(x
i
,z
i
)中的引文文本;z
i
表示第i条样本(x
i
,z
i
)中的被引文献内容;d
i
表示引文文本在施引文献中的引用位置特征向量;y
i
表示引用对象标签,y

i
表示引用功能标签,标签均来自人工标注;i=1,2,

,N,N
表示样本总数。
[0014]进一步地,步骤2中提取的关键信息包括被引文献的背景、方法和结论。
[0015]进一步地,步骤2中将被引文献全文输入大语言模型LLM中,提取的背景、方法和结论分别为:
[0016]s
i
=LLM(x
i
,prompt1);
[0017]s

i
=LLM

(x
i
,prompt2);
[0018]s

i
=LLM

(x
i
,prompt3);
[0019]其中,LLM是提炼被引文献背景的大语言模型,prompt1是提炼被引文献背景的提示词,s
i
是第i篇被引文献提炼后的背景文本;LLM

是提炼被引文献方法的大语言模型,prompt2是提炼被引文献方法的提示词,s

i
是第i篇被引文献提炼后的方法文本;LLM

是提炼被引文献结论的大语言模型;prompt3是提炼被引文献结论的提示词,s

i
是第i篇被引文献提炼后的结论文本。
[0020]进一步地,步骤3具体包括:
[0021]将步骤2中提取的被引文献关键信息输入到BERT模型获得被引文献关键信息的特征向量;
[0022]将步骤1中得到的引文文本信息输入到BERT模型得到引文文本的特征向量;
[0023]将被引文献关键信息的特征向量与引文文本的特征向量、步骤1中得到的引用位置特征向量拼接后得到训练集,采用该训练集对多层感知机分类模型MLP进行训练,获得多层感知机分类模型MLP的模型参数。
[0024]进一步地,步骤3中在训练过程中,建立损失函数,通过反向传播优化模型参数,直至损失函数收敛,其中,损失函数为交叉熵损失函数L:
[0025][0026]式中,为多层感知机分类模型MLP输出的引用对象标签,为输出的引用功能标签;y
i
为训练集中人工标注的引用对象标签,y

i
为训练集中人工标注的引用功能标签;i=1,2,

,N,N表示样本总数;λ为使模型效果最优的参数,取值范围为[0.1,5]。
[0027]进一步地,步骤4中,根据预测的引用对象标签和引用功能标签,构建引文三元组,引文三元组包含引用对象包含关系三元组、引用对象类别三元组和引文功能三元组。
[0028]进一步地,引用对象包含关系三元组表示为(引用对象,Part

of,被引文献)。
[0029]进一步地,引用对象类别三元组表示为(引用对象,ISA,引用对象类别)。
[0030]进一步地,引文功能三元组表示为(施引文献,引文功能,被引文献)。
[0031]与现有技术相比,本专利技术的有益效果为:
[0032]1、本专利技术通过大语言模型实现了对长文本更好的处理,可以有效提炼被引文献全文的关键内容信息,转化为训练集成语言特征分类器的特征向量,实现了引文内容和被引文献本身内容的有效匹配,从而提高了对引文文本的分类准确率;
[0033]2、本专利技术通过识别引文文本在施引文献中的引用位置特征向量,包括Introduction(背景或引言)、Data&Methods(数据或方法)、Results(结果)、Conclusion(结论)等,利用不同位置的引文通常具有不同的引用功能这个特点,进一步提高了对引文文本
的分类准确率;
[0034]3、本专利技术利用人工标注的引用对象和引用功能标签对BERT短文本分类模型进行微调,提高了BERT模型对特定文本分类任务的特征提取能力,获得了更加准确的语义特征向量表示;
[0035]4、本专利技术通过融合被引文献本身的内容特征、施引文献中的引用特征,并利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大语言模型的引文文本自动分类方法,其特征在于,包括如下步骤:步骤1、获取待分析的被引文献全文及其施引文献全文,并对其进行数据预处理;步骤2、利用大语言模型提炼被引文献中的关键信息;步骤3、将步骤2提炼的关键信息以及步骤1中得到的引文文本信息输入到BERT模型提取相应的特征,将提取的特征以及步骤1中得到的引用位置特征进行集合并采用集合的特征对用于分类任务的多层感知机分类模型MLP进行训练;步骤4、将待分类的引文文本经过步骤1和步骤2的处理并经步骤3提取特征后将特征进行集合并输入到训练完成的多层感知机分类模型MLP中对引文文本的引用对象标签和引用功能标签进行预测,并根据引用对象标签和引用功能标签对引文文本进行分类。2.根据权利要求1所述的基于大语言模型的引文文本自动分类方法,其特征在于,步骤1具体包括:S1.1、从数据库中获取待分析的被引文献全文及其对应的施引文献全文,删除无法获取全文的文献;S1.2、将施引文献全文PDF转化为TXT格式的文本,保留引用标记;S1.3、利用正则表达式匹配引用标记的方法获取施引文献中的引文内容和引用位置,得到引文文本集合其中,x
i
表示第i条样本(x
i
,z
i
)中的引文文本;z
i
表示第i条样本(x
i
,z
i
)中的被引文献内容;d
i
表示引文文本在施引文献中的引用位置特征向量;y
i
表示引用对象标签,y

i
表示引用功能标签,标签均来自人工标注;i=1,2,

,N,N表示样本总数。3.根据权利要求1所述的基于大语言模型的引文文本自动分类方法,其特征在于,步骤2中提取的关键信息包括被引文献的背景、方法和结论。4.根据权利要求3所述的基于大语言模型的引文文本自动分类方法,其特征在于,步骤2中将被引文献全文输入大语言模型LLM中,提取的背景、方法和结论分别为:s
i
=LLM(x
i
,rompt1);s

i
=LM

(x
i
,prompt2);s

i
=LLM

(
i
...

【专利技术属性】
技术研发人员:任檐雨
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1