当前位置: 首页 > 专利查询>暨南大学专利>正文

一种层次型文本分类方法及系统技术方案

技术编号:22755061 阅读:31 留言:0更新日期:2019-12-07 03:58
本发明专利技术公开了一种层次型文本分类方法及系统,方法包括步骤:根据文本类标签的树型层次结构,给文本类标签层次树中的类标签节点编号;在每个非叶节点上训练分类器,分类器输出初步预测类标签概率向量,向量元素代表该文本被分为每一个类标签的概率;然后利用文本类标签之间的联系,训练调整概率矩阵,调整概率矩阵中元素是类标签被调整为各个类标签的概率;通过训练得到的调整概率矩阵对文本类标签进行全局统筹修正,构建全局层次型文本分类模型。本发明专利技术打通了类标签层与层之间的联系,可以使文本类别预测错误率在每一层都有所减少,提高层次型文本分类的准确率。

A hierarchical text classification method and system

The invention discloses a hierarchical text classification method and system, the method comprises the steps of: numbering the class label nodes in the text class label hierarchy tree according to the tree structure of the text class label; training the classifier on each non leaf node, the classifier outputs the preliminary prediction class label probability vector, and the vector element represents the probability that the text is divided into each class label; however After that, we train the adjustment probability matrix by using the relationship between the text labels. The elements of the adjustment probability matrix are the probability that the class labels are adjusted to each class label. Through the adjustment probability matrix obtained by training, the text labels are globally modified and a global hierarchical text classification model is constructed. The invention breaks through the connection between the class label layer and the layer, reduces the error rate of text class prediction in each layer, and improves the accuracy rate of hierarchical text classification.

【技术实现步骤摘要】
一种层次型文本分类方法及系统
本专利技术涉及计算机自然语言处理与文本分类研究领域,特别涉及一种层次型文本分类方法及系统。
技术介绍
随着互联网技术的飞速发展,每天都有数以亿计的文本数据产生。如何管理这些文本数据已经变成了一个非常棘手的问题,文本分类就是解决这一问题最好的方式之一。文本分类方法的研究由来已久,对于类标签数目比较少、每个文本有一个类标签的情况,都取得了不错的效果。但是随着文本数目的增多,文本的类标签数目也在飞速的增长,并且每个文本可能同时被分为不同粒度的类别。在这种情况下直接分类算法就很难满足用户的需求。在文本数据量不断增大以及类标签数目越来越多的情况下,分层分类相对于直接分类可以更准确地对文本进行分类。层次型文本分类方法根据文本类标签本身具有的层次结构构建分类模型。随着文本数目的增多,文本的类标签数目也在飞速的增长,并且每个文本可能同时被分为不同粒度级别的类别。文本类标签的层次结构可以分为两类:树型结构和图型结构。树型结构综合考虑数据类标签之间的联系,依据类标签内部的联系建立树层次结构,树中的每一节点(除了根节点)仅有一个父节点,根节点无父节点。文本类标签的层次型结构示例如图1所示,除了根节点(Root),其它各层上的节点均为类标签。目前,层次型文本分类方法已经被运用于很多领域,例如,新闻分类,学术论文分类等。全局层次型文本分类模型可以快速准确地对文本进行分类,具有很好的产业前景。近年来在层次型文本分类方面已经有很多研究。ZhangL等人在文献《Hierarchicalmulti-labelclassificationusingfullyassociativeensemblelearning》、《Fullyassociativeensemblelearningforhierarchicalmulti-labelclassification》中提出通过嵌入类层次结构中的结构信息,提高了层次型分类问题的性能。Khan和Baig在文献《Antcolonyoptimizationbasedhierarchicalmulti-labelclassificationalgorithm》中提出了一种基于蚁群优化的层次型分类算法。Salakhutdino等人在文献《Learningwithhierarchical-deepmodels》中提出了一种用集成学习的方法对图像进行全局的层次分类。Kowsari等人在文献《Hdltex:Hierarchicaldeeplearningfortextclassification》中提出了一种分层深度学习文本分类的框架,对类标签具有层次结构的文本进行分层分类。还有许多研究中利用了分层分类的思想,但分层分类过程没有考虑类标签本身的层次关系。但是,层次型文本分类目前存在下述缺陷:(1)现有技术存在分类错误叠加问题,即如果文本在上一层次分类错误,就不能在下一层被分为正确的类别。(2)在类标签树型结构中,各层节点类标签可能不仅仅与父亲节点有关系,还可能与兄弟节点有关,现有技术没有打通各层次类标签节点之间的联系,导致最终各层次的分类准确率不高。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种层次型文本分类方法及系统,其可解决层次型文本分类问题中存在的错误叠加问题,根据文本类标签的树型结构,在分类模型构建中充分考虑节点与兄弟节点和父节点的联系,以及上下层之间分类结果的影响,得到准确率更高的分类结果。本专利技术一方面,提供一种层次型文本分类方法,包括步骤:根据文本类标签的树型层次结构,给文本类标签层次树中的类标签节点编号;在每个非叶节点上训练分类器,分类器输出初步预测类标签概率向量,向量元素代表该文本被分为每一个类标签的概率;然后利用文本类标签之间的联系,训练调整概率矩阵,调整概率矩阵中元素是类标签被调整为各个类标签的概率;通过训练得到的调整概率矩阵对文本类标签进行全局统筹修正,构建全局层次型文本分类模型。本专利技术打通了类标签层与层之间的联系,可以使文本类别预测错误率在每一层都有所减少,提高层次型文本分类的准确率。具体的,所述层次型文本分类方法,包括步骤:(1)训练阶段:针对训练集文本,对每一文本进行预处理,对预处理后的文本向量化,即将文本中的单词表示为向量形式,每个文本对应得到一词向量,所有训练集文本汇总得到文本向量集;根据文本类标签的树型层次结构,给文本类标签层次树中的类标签节点编号;将文本向量集及其对应到各层类别的文本子集作为训练集,采用神经网络分别针对根节点以及根节点下面的非叶节点构建分类器,根节点对应的分类器类标签为根节点下一层(即第一层)中的孩子节点类标签,第k层节点对应的分类器类标签为第k+1层中的孩子节点类标签;分类器输出初步预测类标签概率向量,向量元素代表该文本被分为每一个类标签的概率;利用文本真实类标签概率向量和所述初步预测类标签概率向量训练调整概率矩阵,所述调整概率矩阵中元素是类标签被调整为各个类标签的概率;(2)分类阶段:针对待分类文本,对文本进行预处理,将预处理后的文本向量化,然后输入到上述训练好的分类器中,得到初步预测类标签概率向量;将初步预测类标签概率向量利用训练好的调整概率矩阵,按照公式(1)调整计算待分类文本为各个类标签的概率,最后根据概率确定待分类文本的类标签。优选的,步骤(1)中,对每一文本进行预处理,预处理包括:针对中文文本的分词,去除标点符号,针对英文单词将大写字母转成小写,以及去停用词和低频率词。优选的,步骤(1)中,采用word2vec训练词向量的软件工具,将文本中的单词表示为向量形式。优选的,步骤(1)中,给文本类标签层次树中的类标签节点编号,根节点编号为0,其他节点编号为1,2,....l,其中,l是类标签的总数目。优选的,步骤(1)中,采用卷积神经网络(CNN)分别针对根节点以及根节点下面的非叶节点构建分类器,分类器输出初步预测类标签向量为[f1,f2,...fl],其中fi表示训练文本为编号i节点所对应的类标签的概率。优选的,利用文本真实类标签概率向量和初步预测类标签概率向量,采用神经网络的方法训练调整概率矩阵W,W为一个l×l的二维矩阵,l是文本类标签层次树中类标签总数目,wi,j代表编号i类标签被调整为编号j类标签的概率(1≤i≤l,1≤j≤l),神经网络的结构如下:输入层:初步预测类标签概率向量元素f1,f2,...fl;隐藏层:包含的单元数为l,隐含节点用z1,z2,...zl表示;输入层节点与隐含层节点之间的参数wi,j即为调整概率矩阵W中的元素;f1,f2,...fl经过调整概率矩阵调整得到z1,z2,...zl节点的输出值,接着通过softmax层把z1,z2,...zl节点的输出值转换为[0,1]区间的值,即最终输出层的预测值F1,F2,...,Fl;采用梯度下降法用训练集中文本的真实类标签y1,y2,...,yl去学习调整概率矩阵W;输出层的预测值本文档来自技高网
...

【技术保护点】
1.一种层次型文本分类方法,其特征在于,包括步骤:/n根据文本类标签的树型层次结构,给文本类标签层次树中的类标签节点编号;在每个非叶节点上训练分类器,分类器输出初步预测类标签概率向量,向量元素代表该文本被分为每一个类标签的概率;然后利用文本类标签之间的联系,训练调整概率矩阵,调整概率矩阵中元素是类标签被调整为各个类标签的概率;通过训练得到的调整概率矩阵对文本类标签进行全局统筹修正,构建全局层次型文本分类模型。/n

【技术特征摘要】
1.一种层次型文本分类方法,其特征在于,包括步骤:
根据文本类标签的树型层次结构,给文本类标签层次树中的类标签节点编号;在每个非叶节点上训练分类器,分类器输出初步预测类标签概率向量,向量元素代表该文本被分为每一个类标签的概率;然后利用文本类标签之间的联系,训练调整概率矩阵,调整概率矩阵中元素是类标签被调整为各个类标签的概率;通过训练得到的调整概率矩阵对文本类标签进行全局统筹修正,构建全局层次型文本分类模型。


2.根据权利要求1所述的层次型文本分类方法,其特征在于,包括步骤:
(1)训练阶段:针对训练集文本,对每一文本进行预处理,对预处理后的文本向量化,即将文本中的单词表示为向量形式,每个文本对应得到一词向量,所有训练集文本汇总得到文本向量集;
根据文本类标签的树型层次结构,给文本类标签层次树中的类标签节点编号;将文本向量集及其对应到各层类别的文本子集作为训练集,采用神经网络分别针对根节点以及根节点下面的非叶节点构建分类器,根节点对应的分类器类标签为根节点下一层中的孩子节点类标签,第k层节点对应的分类器类标签为第k+1层中的孩子节点类标签;分类器输出初步预测类标签概率向量,向量元素代表该文本被分为每一个类标签的概率;
利用文本真实类标签概率向量和所述初步预测类标签概率向量训练调整概率矩阵,所述调整概率矩阵中元素是类标签被调整为各个类标签的概率;
(2)分类阶段:针对待分类文本,对文本进行预处理,将预处理后的文本向量化,然后输入到上述训练好的分类器中,得到初步预测类标签概率向量;将初步预测类标签概率向量利用训练好的调整概率矩阵,调整计算待分类文本为各个类标签的概率,最后根据概率确定待分类文本的类标签。


3.根据权利要求2所述的层次型文本分类方法,其特征在于,步骤(1)中,对每一文本进行预处理,预处理包括:针对中文文本的分词,去除标点符号,针对英文单词将大写字母转成小写,以及去停用词和低频率词。


4.根据权利要求2所述的层次型文本分类方法,其特征在于,步骤(1)中,采用word2vec训练词向量的软件工具,将文本中的单词表示为向量形式。


5.根据权利要求2所述的层次型文本分类方法,其特征在于,步骤(1)中,给文本类标签层次树中的类标签节点编号,根节点编号为0,其他节点编号为1,2,....l,其中,l是类标签的总数目。


6.根据权利要求2所述的层次型文本分类方法,其特征在于,步骤(1)中,采用卷积神经网络分别针对根节点以及根节点下面的非叶节点构建分类器,分类器输出初步预测类标签向量为[f1,f2,...fl],其中fi表示训练文本为编号i节点所对应的类标签的概率。

【专利技术属性】
技术研发人员:刘波李洋洋
申请(专利权)人:暨南大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1