文献分类方法及装置、存储介质及电子设备制造方法及图纸

技术编号:38002857 阅读:8 留言:0更新日期:2023-06-30 10:16
本发明专利技术提供了一种文献分类方法及装置、存储介质及电子设备,该方法包括:当需要对目标文献进行分类时,确定其对应的摘要文本和引用语句文本;将摘要文本输入第一概率预测模型,获得目标文献属于突破性文献的第一预测概率;将引用语句文本输入第二概率预测模型,获得该引用语句文本对应的预测概率,该预测概率为基于该文本得到的目标文献属于突破性文献的概率;依据每个引用语句文本对应的预测概率,确定第二预测概率;确定多个计量指标值;将第一预测概率、第二预测概率和各个计量指标值,输入文献分类模型,获得表征目标文献是否属于突破性文献的文献类别。应用本发明专利技术的方法,可结合多维特征自动识别突破性文献,可节省时间和人力资源。人力资源。人力资源。

【技术实现步骤摘要】
文献分类方法及装置、存储介质及电子设备


[0001]本专利技术涉及数据分析
,特别是涉及一种文献分类方法及装置、存储介质及电子设备。

技术介绍

[0002]在各领域的学术研究或技术研发的过程中,诸如期刊论文、学位论文等文献数据通常是各相关人员的重要关注对象之一。其中,突破性的研究对于相关人员而言具有较高的参考价值,在文献知识挖掘过程中,通常需对文献数据进行分类,以从海量的文献数据中识别出突破性文献,以便于发现高价值文献。例如,在医学领域中,突破性文献对于指导医学研究发展具有较高价值的参考意义。
[0003]目前,关于文献是否属于突破性文献的分类方式,通常是基于学术共同体的定性识别方式。主要基于专家学者对于整个领域发展的认知和见解,对文献的类型进行定性,以识别文献是否属于突破性文献。
[0004]在现有的文献分类方式中,需要参考专家学者的观点对文献进行分类,对于时间和人力的消耗较大。其次,文献的分类结果依赖于学者观点,主观性较强,不利于对于文献的客观评价。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供了一种文献分类方法,以解决现有突破性文献的分类方式,费时费力,主观性较强的问题。
[0006]本专利技术实施例还提供了一种文献分类装置,用以保证上述方法实际中的实现及应用。
[0007]为实现上述目的,本专利技术实施例提供如下技术方案:
[0008]一种文献分类方法,包括:
[0009]当需要对目标文献进行分类时,确定所述目标文献对应的摘要文本以及引用语句集合;所述引用语句集合包括至少一个引用语句文本,所述引用语句文本为所述目标文献被施引文献引用的语句文本;
[0010]将所述摘要文本输入已构建的第一概率预测模型,经所述第一概率预测模型处理后,获得第一预测概率,所述第一预测概率为基于所述摘要文本预测得到的所述目标文献属于突破性文献的概率;
[0011]对于所述引用语句集合中的每个引用语句文本,将该引用语句文本输入已构建的第二概率预测模型,经所述第二概率预测模型处理后,获得该引用语句文本对应的预测概率,该引用语句文本对应的预测概率为基于该引用语句文本预测得到的所述目标文献属于突破性文献的概率;
[0012]依据所述引用语句集合中每个引用语句文本对应的预测概率,确定第二预测概率;
[0013]确定计量特征集合;所述计量特征集合包括所述目标文献对应的多个计量指标值,所述多个计量指标值与预设的多个计量指标一一对应;
[0014]将所述第一预测概率、所述第二预测概率以及所述计量特征集合,输入已构建的文献分类模型,经所述文献分类模型处理后,获得所述目标文献对应的文献类别,所述文献类别表征所述目标文献是否属于突破性文献。
[0015]上述的方法,可选的,所述第一概率预测模型的构建过程,包括:
[0016]确定文献摘要数据集;所述文献摘要数据集包括多个文献摘要语料;
[0017]对所述文献摘要数据集进行文本预处理,得到所述文献摘要数据集对应的文献摘要样本集;
[0018]确定第一特征词集合;所述第一特征词集合包括预设的多个摘要特征词;
[0019]应用所述文献摘要样本集和所述第一特征词集合,对预设的第一预训练语言模型进行微调,将经过微调的第一预训练语言模型作为所述第一概率预测模型。
[0020]上述的方法,可选的,所述第二概率预测模型的构建过程,包括:
[0021]确定文献引用数据集;所述文献引用数据集包括多个文献引用语料;
[0022]对所述文献引用数据集进行文本预处理,得到所述文献引用数据集对应的文献引用样本集;
[0023]确定第二特征词集合;所述第二特征词集合包括预设的多个引用语句特征词;
[0024]应用所述文献引用样本集和所述第二特征词集合,对预设的第二预训练语言模型进行微调,将经过微调的第二预训练语言模型作为所述第二概率预测模型。
[0025]上述的方法,可选的,所述依据所述引用语句集合中每个引用语句文本对应的预测概率,确定第二预测概率,包括:
[0026]确定所述引用语句集合中是否包括多个引用语句文本;
[0027]若所述引用语句集合中包括多个引用语句文本,则确定概率平均值;所述概率平均值为各个所述引用语句文本对应的预测概率的平均值;
[0028]将所述概率平均值作为所述第二预测概率。
[0029]上述的方法,可选的,还包括:
[0030]若所述引用语句集合中仅包括一个引用语句文本,则将该引用语句文本对应的预测概率作为所述第二预测概率。
[0031]上述的方法,可选的,所述预设的多个计量指标包括:第一计量指标、第二计量指标、第三计量指标、第四计量指标以及第五计量指标;
[0032]所述第一计量指标为表征文献是否为高被引论文的指标;
[0033]所述第二计量指标为表征文献年均被引次数的指标;
[0034]所述第三计量指标为表征期刊影响因子的指标;
[0035]所述第四计量指标为表征期刊规范化的引文影响力的指标;
[0036]所述第五计量指标为表征学科规范化的引文影响力的指标。
[0037]上述的方法,可选的,所述文献分类模型的构建过程,包括:
[0038]确定训练样本集合;所述训练样本集合包括多个训练样本,每个所述训练样本包括摘要预测概率样本、引用语句预测概率样本和每个所述计量指标的样本指标值;
[0039]应用所述训练样本集合对预设的分类模型进行训练,将经过训练的分类模型作为
所述文献分类模型;所述分类模型为基于极度随机树算法构建的模型。
[0040]一种文献分类装置,包括:
[0041]第一确定单元,用于当需要对目标文献进行分类时,确定所述目标文献对应的摘要文本以及引用语句集合;所述引用语句集合包括至少一个引用语句文本,所述引用语句文本为所述目标文献被施引文献引用的语句文本;
[0042]第一预测单元,用于将所述摘要文本输入已构建的第一概率预测模型,经所述第一概率预测模型处理后,获得第一预测概率,所述第一预测概率为基于所述摘要文本预测得到的所述目标文献属于突破性文献的概率;
[0043]第二预测单元,用于对于所述引用语句集合中的每个引用语句文本,将该引用语句文本输入已构建的第二概率预测模型,经所述第二概率预测模型处理后,获得该引用语句文本对应的预测概率,该引用语句文本对应的预测概率为基于该引用语句文本预测得到的所述目标文献属于突破性文献的概率;
[0044]第二确定单元,用于依据所述引用语句集合中每个引用语句文本对应的预测概率,确定第二预测概率;
[0045]第三确定单元,用于确定计量特征集合;所述计量特征集合包括所述目标文献对应的多个计量指标值,所述多个计量指标值与预设的多个计量指标一一对应;
[0046]分类单元,用于将所述第一预测概率、所述第二预测概率以及所述计量特征集合,输入已构建本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文献分类方法,其特征在于,包括:当需要对目标文献进行分类时,确定所述目标文献对应的摘要文本以及引用语句集合;所述引用语句集合包括至少一个引用语句文本,所述引用语句文本为所述目标文献被施引文献引用的语句文本;将所述摘要文本输入已构建的第一概率预测模型,经所述第一概率预测模型处理后,获得第一预测概率,所述第一预测概率为基于所述摘要文本预测得到的所述目标文献属于突破性文献的概率;对于所述引用语句集合中的每个引用语句文本,将该引用语句文本输入已构建的第二概率预测模型,经所述第二概率预测模型处理后,获得该引用语句文本对应的预测概率,该引用语句文本对应的预测概率为基于该引用语句文本预测得到的所述目标文献属于突破性文献的概率;依据所述引用语句集合中每个引用语句文本对应的预测概率,确定第二预测概率;确定计量特征集合;所述计量特征集合包括所述目标文献对应的多个计量指标值,所述多个计量指标值与预设的多个计量指标一一对应;将所述第一预测概率、所述第二预测概率以及所述计量特征集合,输入已构建的文献分类模型,经所述文献分类模型处理后,获得所述目标文献对应的文献类别,所述文献类别表征所述目标文献是否属于突破性文献。2.根据权利要求1所述的方法,其特征在于,所述第一概率预测模型的构建过程,包括:确定文献摘要数据集;所述文献摘要数据集包括多个文献摘要语料;对所述文献摘要数据集进行文本预处理,得到所述文献摘要数据集对应的文献摘要样本集;确定第一特征词集合;所述第一特征词集合包括预设的多个摘要特征词;应用所述文献摘要样本集和所述第一特征词集合,对预设的第一预训练语言模型进行微调,将经过微调的第一预训练语言模型作为所述第一概率预测模型。3.根据权利要求1所述的方法,其特征在于,所述第二概率预测模型的构建过程,包括:确定文献引用数据集;所述文献引用数据集包括多个文献引用语料;对所述文献引用数据集进行文本预处理,得到所述文献引用数据集对应的文献引用样本集;确定第二特征词集合;所述第二特征词集合包括预设的多个引用语句特征词;应用所述文献引用样本集和所述第二特征词集合,对预设的第二预训练语言模型进行微调,将经过微调的第二预训练语言模型作为所述第二概率预测模型。4.根据权利要求1所述的方法,其特征在于,所述依据所述引用语句集合中每个引用语句文本对应的预测概率,确定第二预测概率,包括:确定所述引用语句集合中是否包括多个引用语句文本;若所述引用语句集合中包括多个引用语句文本,则确定概率平均值;所述概率平均值为各个所述引用语句文本对应的预测概率的平均值;将所述概率平均值作为所述第二预测概率。5.根据权利要求4所述的方法,其特征在于,还包括:若所述引用语句集合中仅包括一个引用语句文本,...

【专利技术属性】
技术研发人员:杨雪梅唐小利林紫洛黄雅兰李晓瑛
申请(专利权)人:中国医学科学院医学信息研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1