基于层次判别树的多标签科研论文的分类方法技术

技术编号：23315193 阅读：23 留言：0更新日期：2020-02-11 17:49

本发明专利技术公开了一种基于层次判别树的多标签科研论文的分类方法，包括：步骤一、获取标签已知的论文和标签，提取标签的特征词语集合，构建二元判别模型；步骤二、将标签更新为二元判别模型，得层次判别树模型；步骤三、获取标签未知论文的文本表征，输入到层次判别树模型中根节点的所有二元判别模型中，计算具有该节点对应标签的概率，若大于阈值，则输出该根节点对应的标签；输入至该标签对应的节点的子节点的所有二元判别模型中，计算具有该节点代表标签的概率，若大于阈值，则输出该子节点对应的标签，逐级判断，直至叶节点；输出的所有标签即为该论文的标签。本发明专利技术具有充分挖掘论文的特征词语，快速、准确对论文进行层次分类的有益效果。

Classification method of multi label scientific research papers based on hierarchical discriminant tree

全部详细技术资料下载

【技术实现步骤摘要】
基于层次判别树的多标签科研论文的分类方法
本专利技术涉及科研论文分类领域。更具体地说，本专利技术涉及一种基于层次判别树的多标签科研论文的分类方法。
技术介绍
科研论文的组织和管理一直受到出版机构、科研机构、科研工作者等的重点关注。在科研论文的组织和管理领域，科研论文的分类是一项重要的基础任务。该任务是根据已有的类别标签体系，将科研论文进行层次化的标签分类，对科学论文的快速检索、归纳和总结有非常重要的意义。一方面，科研论文分类可以帮助出版机构快速地定位最新科研论文的类别，并将最新论文加入引文数据库，提供优质化的论文数据服务。另一方面，科研论文分类可以支持科研机构和科研工作者按照已有的类别体系进行论文的快速检索和汇总，提高科研机构和科研工作者的检索和汇总效率。但是，已有的类别标签体系多层复杂的结构给科研论文分类带来了困难，比如现有的多层次标签体系结构，在拿到一个新的科研论文后，要将该论文在多层次标签体系中合理、全面的形成其分类标签，工作量大，工作难度高。
技术实现思路
本专利技术的一个目的是解决至少上述问题，并提供至少后面将说明的优点。本专利技术还有一个目的是提供一种基于层次判别树的多标签科研论文的分类方法，可以充分挖掘论文的特征词语，快速、准确对论文进行层次分类。为了实现根据本专利技术的这些目的和其它优点，提供了一种基于层次判别树的多标签科研论文的分类方法，包括：步骤一、构建二元判别模型：获取在多层次标签体系中标签已知的所有论文和论文的标签，采用文本分词技术获取所有论...

【技术保护点】
1.基于层次判别树的多标签科研论文的分类方法，其特征在于，包括：/n步骤一、构建二元判别模型：/n获取在多层次标签体系中标签已知的所有论文和论文的标签，采用文本分词技术获取所有论文的文本表征，从文本表征中筛选得到每个标签的特征词语集合，每个标签与该标签的特征词语集合的对应关系构建形成二元判别模型；/n步骤二、构建层次判别树模型：将多层次标签体系中所有层级的标签更新为该标签的二元判别模型，形成层次判别树模型；/n步骤三、对标签未知的论文分类：采用文本分词技术获取该论文的文本表征，将文本表征分别输入到层次判别树模型中根节点的所有二元判别模型中，二元判别模型计算该论文具有该节点对应标签的概率，若概率大于阈值，则输出该根节点对应的标签；/n将文本表征输入至该层级的标签对应的节点的子节点的所有二元判别模型中，二元判别模型计算该论文具有该节点代表标签的概率，若概率大于阈值，则输出该子节点对应的标签；/n按照从上至下的层级顺序判断，直至文本表征输入至层次判别树模型的叶节点的二元判别模型，且判别输出结果为止；/n将从根节点开始到叶节点结束的路径上输出的所有标签，作为该论文的标签。/n

【技术特征摘要】
1.基于层次判别树的多标签科研论文的分类方法，其特征在于，包括：
步骤一、构建二元判别模型：
获取在多层次标签体系中标签已知的所有论文和论文的标签，采用文本分词技术获取所有论文的文本表征，从文本表征中筛选得到每个标签的特征词语集合，每个标签与该标签的特征词语集合的对应关系构建形成二元判别模型；
步骤二、构建层次判别树模型：将多层次标签体系中所有层级的标签更新为该标签的二元判别模型，形成层次判别树模型；
步骤三、对标签未知的论文分类：采用文本分词技术获取该论文的文本表征，将文本表征分别输入到层次判别树模型中根节点的所有二元判别模型中，二元判别模型计算该论文具有该节点对应标签的概率，若概率大于阈值，则输出该根节点对应的标签；
将文本表征输入至该层级的标签对应的节点的子节点的所有二元判别模型中，二元判别模型计算该论文具有该节点代表标签的概率，若概率大于阈值，则输出该子节点对应的标签；
按照从上至下的层级顺序判断，直至文本表征输入至层次判别树模型的叶节点的二元判别模型，且判别输出结果为止；
将从根节点开始到叶节点结束的路径上输出的所有标签，作为该论文的标签。

2.如权利要求1所述的基于层次判别树的多标签科研论文的分类方法，其特征在于，采用文本分词技术获取文本表征的方法为：
采用分词及词性标注工具，对论文进行分词及词性标注，保留该文本中词性标注结果为名词的所有词语，形成词语集合Ⅰ；
采用BERT预训练语言模型，从论文中获取每个词语集合Ⅰ中的词语的语义向量，形成词语集合Ⅱ；
词语集合Ⅰ和词语集合Ⅱ组成该论文的文本表征。

3.如权利要求1所述的基于层次判别树的多标签科研论文的分类方法，其特征在于，筛选得到每个标签的特征词语集合的方法为：从多层次标签体系的顶层标签开始，按照自根节点至叶节点的顺序，采用以下方法获取每个标签对应的特征词语；
该方法包括以下步骤：
步骤a、根据每个标签下的所有论文，计算这些论文的文本表征中每个词语的权重，权重计算公式如公式(1)所示：

其中，Fj(i)表示词...

【专利技术属性】
技术研发人员：刘玮，吴俊杰，李超，左源，纪玉春，袁石，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人