基于层次判别树的多标签科研论文的分类方法技术

技术编号:23315193 阅读:23 留言:0更新日期:2020-02-11 17:49
本发明专利技术公开了一种基于层次判别树的多标签科研论文的分类方法,包括:步骤一、获取标签已知的论文和标签,提取标签的特征词语集合,构建二元判别模型;步骤二、将标签更新为二元判别模型,得层次判别树模型;步骤三、获取标签未知论文的文本表征,输入到层次判别树模型中根节点的所有二元判别模型中,计算具有该节点对应标签的概率,若大于阈值,则输出该根节点对应的标签;输入至该标签对应的节点的子节点的所有二元判别模型中,计算具有该节点代表标签的概率,若大于阈值,则输出该子节点对应的标签,逐级判断,直至叶节点;输出的所有标签即为该论文的标签。本发明专利技术具有充分挖掘论文的特征词语,快速、准确对论文进行层次分类的有益效果。

Classification method of multi label scientific research papers based on hierarchical discriminant tree

【技术实现步骤摘要】
基于层次判别树的多标签科研论文的分类方法
本专利技术涉及科研论文分类领域。更具体地说,本专利技术涉及一种基于层次判别树的多标签科研论文的分类方法。
技术介绍
科研论文的组织和管理一直受到出版机构、科研机构、科研工作者等的重点关注。在科研论文的组织和管理领域,科研论文的分类是一项重要的基础任务。该任务是根据已有的类别标签体系,将科研论文进行层次化的标签分类,对科学论文的快速检索、归纳和总结有非常重要的意义。一方面,科研论文分类可以帮助出版机构快速地定位最新科研论文的类别,并将最新论文加入引文数据库,提供优质化的论文数据服务。另一方面,科研论文分类可以支持科研机构和科研工作者按照已有的类别体系进行论文的快速检索和汇总,提高科研机构和科研工作者的检索和汇总效率。但是,已有的类别标签体系多层复杂的结构给科研论文分类带来了困难,比如现有的多层次标签体系结构,在拿到一个新的科研论文后,要将该论文在多层次标签体系中合理、全面的形成其分类标签,工作量大,工作难度高。
技术实现思路
本专利技术的一个目的是解决至少上述问题,并提供至少后面将说明的优点。本专利技术还有一个目的是提供一种基于层次判别树的多标签科研论文的分类方法,可以充分挖掘论文的特征词语,快速、准确对论文进行层次分类。为了实现根据本专利技术的这些目的和其它优点,提供了一种基于层次判别树的多标签科研论文的分类方法,包括:步骤一、构建二元判别模型:获取在多层次标签体系中标签已知的所有论文和论文的标签,采用文本分词技术获取所有论文的文本表征,从文本表征中筛选得到每个标签的特征词语集合,每个标签与该标签的特征词语集合的对应关系构建形成二元判别模型;步骤二、构建层次判别树模型:将多层次标签体系中所有层级的标签更新为该标签的二元判别模型,形成层次判别树模型;步骤三、对标签未知的论文分类:采用文本分词技术获取该论文的文本表征,将文本表征分别输入到层次判别树模型中根节点的所有二元判别模型中,二元判别模型计算该论文具有该节点对应标签的概率,若概率大于阈值,则输出该根节点对应的标签;将文本表征输入至该层级的标签对应的节点的子节点的所有二元判别模型中,二元判别模型计算该论文具有该节点代表标签的概率,若概率大于阈值,则输出该子节点对应的标签;按照从上至下的层级顺序判断,直至文本表征输入至层次判别树模型的叶节点的二元判别模型,且判别输出结果为止;将从根节点开始到叶节点结束的路径上输出的所有标签,作为该论文的标签。优选的是,采用文本分词技术获取文本表征的方法为:采用分词及词性标注工具,对论文进行分词及词性标注,保留该文本中词性标注结果为名词的所有词语,形成词语集合Ⅰ;采用BERT预训练语言模型,从论文中获取每个词语集合Ⅰ中的词语的语义向量,形成词语集合Ⅱ;词语集合Ⅰ和词语集合Ⅱ组成该论文的文本表征。优选的是,筛选得到每个标签的特征词语集合的方法为:从多层次标签体系的顶层标签开始,按照自根节点至叶节点的顺序,采用以下方法获取每个标签对应的特征词语;该方法包括以下步骤:步骤a、根据每个标签下的所有论文,计算这些论文的文本表征中每个词语的权重,权重计算公式如公式(1)所示:其中,Fj(i)表示词语i在论文j中的频率,计算公式如公式(2)所示:count(i)表示词语i在论文j中出现的次数,total_wordj表示论文j中总的词语数;Nt表示标签t下所有论文的数量;N~t表示与标签t具有相同上级标签的其他标签下所有论文的数量;如果标签t是顶层标签,则~t表示其他的顶层标签;如果标签t是非顶层标签,则~t表示同属于标签t的上级标签下的其他标签;Ni~t表示在与标签t具有相同上级标签的其他标签下所有论文中,出现词语i的论文的数量;步骤b、对该标签下的各词语的权重按从大到小的顺序排序,取排名前M个的词语为该标签的特征词语,形成该标签的初始特征词语集合;步骤c、根据特征词语的语义特征,计算剩下的所有词语和初始特征词语集合中所有词语的语义相似度,计算公式如公式(3)所示:其中,M表示该标签的初始特征词语集合中词语的数量,cos(j,i)表示词语j和词语i的语义表征的余弦距离,Wt(j)表示词语j在标签t中的权重;对该标签下的剩下的所有词语按照语义相似度从大到小的顺序排序,排名前K个的词语为该标签的特征词语,形成该标签的补充特征词语集合;标签的初始特征词语集合和补充特征词语集合,形成该标签的特征词语集合。优选的是,M的取值为对应标签下的文本表征的词语总数的5%。优选的是,M的取值不大于1000。优选的是,每个标签的特征词语总数不大于5000。优选的是,二元判别模型计算概率后,概率的阈值均为0.5。优选的是,构建形成二元判别模型的方法为卷积神经网络、朴素贝叶斯、支持向量积的任意一种。本专利技术至少包括以下有益效果:第一、已有的多层次标签体系中的标签没有判断功能,只能依靠人的主观性去定义,如此,不能精确的知晓标签与论文之间的是否具备关联性,而形成层次判别树模型后,每个节点具备自动判别功能,只需要输入文本表征,即可输出该论文与该节点所对应的标签是否具备关联性,提高判别的准备性,且更为客观,不易出错。第二、二元判别模型可以精准全面的反映标签与论文用词的关联关系,得到与该标签关联性最大的特征词语。而且随着论文数量的增加,更新,每个标签的特征词语集合也相应增加,更新,可以提升整个分类体系的准确性。本专利技术的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本专利技术的研究和实践而为本领域的技术人员所理解。附图说明图1为本专利技术的其中一个技术方案的框架图。具体实施方式下面结合附图对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。如图1所示,本专利技术提供一种基于层次判别树的多标签科研论文的分类方法,包括:步骤一、构建二元判别模型:获取在多层次标签体系中标签已知的所有论文和论文的标签,采用文本分词技术获取所有论文的文本表征,从文本表征中筛选得到每个标签的特征词语集合,每个标签与该标签的特征词语集合的对应关系构建形成二元判别模型;该判别模型采用传统的数据挖掘方法,如支持向量积、朴素贝叶斯、逻辑回归等,可以判定一篇科研论文是否属于一个标签。如此得到的二元判别模型可以精准全面的反映标签与论文用词的关联关系,得到与该标签关联性最大的特征词语。而且随着论文数量的增加,更新,每个标签的特征词语集合也相应增加,更新,可以提升整个分类体系的准确性。步骤二、构建层次判别树模型:将多层次标签体系中所有层级的标签更新为该标签的二元判别模型,形成层次判别树模型;已有的多层次标签体系中的标签没有判断功能,只能依靠人的主观性去定义,如此,不能精确的知晓标签与论文之间的是否具备关联性,而形成层次判别树模型后,每个节点具备自动本文档来自技高网...

【技术保护点】
1.基于层次判别树的多标签科研论文的分类方法,其特征在于,包括:/n步骤一、构建二元判别模型:/n获取在多层次标签体系中标签已知的所有论文和论文的标签,采用文本分词技术获取所有论文的文本表征,从文本表征中筛选得到每个标签的特征词语集合,每个标签与该标签的特征词语集合的对应关系构建形成二元判别模型;/n步骤二、构建层次判别树模型:将多层次标签体系中所有层级的标签更新为该标签的二元判别模型,形成层次判别树模型;/n步骤三、对标签未知的论文分类:采用文本分词技术获取该论文的文本表征,将文本表征分别输入到层次判别树模型中根节点的所有二元判别模型中,二元判别模型计算该论文具有该节点对应标签的概率,若概率大于阈值,则输出该根节点对应的标签;/n将文本表征输入至该层级的标签对应的节点的子节点的所有二元判别模型中,二元判别模型计算该论文具有该节点代表标签的概率,若概率大于阈值,则输出该子节点对应的标签;/n按照从上至下的层级顺序判断,直至文本表征输入至层次判别树模型的叶节点的二元判别模型,且判别输出结果为止;/n将从根节点开始到叶节点结束的路径上输出的所有标签,作为该论文的标签。/n

【技术特征摘要】
1.基于层次判别树的多标签科研论文的分类方法,其特征在于,包括:
步骤一、构建二元判别模型:
获取在多层次标签体系中标签已知的所有论文和论文的标签,采用文本分词技术获取所有论文的文本表征,从文本表征中筛选得到每个标签的特征词语集合,每个标签与该标签的特征词语集合的对应关系构建形成二元判别模型;
步骤二、构建层次判别树模型:将多层次标签体系中所有层级的标签更新为该标签的二元判别模型,形成层次判别树模型;
步骤三、对标签未知的论文分类:采用文本分词技术获取该论文的文本表征,将文本表征分别输入到层次判别树模型中根节点的所有二元判别模型中,二元判别模型计算该论文具有该节点对应标签的概率,若概率大于阈值,则输出该根节点对应的标签;
将文本表征输入至该层级的标签对应的节点的子节点的所有二元判别模型中,二元判别模型计算该论文具有该节点代表标签的概率,若概率大于阈值,则输出该子节点对应的标签;
按照从上至下的层级顺序判断,直至文本表征输入至层次判别树模型的叶节点的二元判别模型,且判别输出结果为止;
将从根节点开始到叶节点结束的路径上输出的所有标签,作为该论文的标签。


2.如权利要求1所述的基于层次判别树的多标签科研论文的分类方法,其特征在于,采用文本分词技术获取文本表征的方法为:
采用分词及词性标注工具,对论文进行分词及词性标注,保留该文本中词性标注结果为名词的所有词语,形成词语集合Ⅰ;
采用BERT预训练语言模型,从论文中获取每个词语集合Ⅰ中的词语的语义向量,形成词语集合Ⅱ;
词语集合Ⅰ和词语集合Ⅱ组成该论文的文本表征。


3.如权利要求1所述的基于层次判别树的多标签科研论文的分类方法,其特征在于,筛选得到每个标签的特征词语集合的方法为:从多层次标签体系的顶层标签开始,按照自根节点至叶节点的顺序,采用以下方法获取每个标签对应的特征词语;
该方法包括以下步骤:
步骤a、根据每个标签下的所有论文,计算这些论文的文本表征中每个词语的权重,权重计算公式如公式(1)所示:



其中,Fj(i)表示词...

【专利技术属性】
技术研发人员:刘玮吴俊杰李超左源纪玉春袁石
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1