The invention discloses a hierarchical text classification method and system, the method comprises the steps of: numbering the class label nodes in the text class label hierarchy tree according to the tree structure of the text class label; training the classifier on each non leaf node, the classifier outputs the preliminary prediction class label probability vector, and the vector element represents the probability that the text is divided into each class label; however After that, we train the adjustment probability matrix by using the relationship between the text labels. The elements of the adjustment probability matrix are the probability that the class labels are adjusted to each class label. Through the adjustment probability matrix obtained by training, the text labels are globally modified and a global hierarchical text classification model is constructed. The invention breaks through the connection between the class label layer and the layer, reduces the error rate of text class prediction in each layer, and improves the accuracy rate of hierarchical text classification.
【技术实现步骤摘要】
一种层次型文本分类方法及系统
本专利技术涉及计算机自然语言处理与文本分类研究领域,特别涉及一种层次型文本分类方法及系统。
技术介绍
随着互联网技术的飞速发展,每天都有数以亿计的文本数据产生。如何管理这些文本数据已经变成了一个非常棘手的问题,文本分类就是解决这一问题最好的方式之一。文本分类方法的研究由来已久,对于类标签数目比较少、每个文本有一个类标签的情况,都取得了不错的效果。但是随着文本数目的增多,文本的类标签数目也在飞速的增长,并且每个文本可能同时被分为不同粒度的类别。在这种情况下直接分类算法就很难满足用户的需求。在文本数据量不断增大以及类标签数目越来越多的情况下,分层分类相对于直接分类可以更准确地对文本进行分类。层次型文本分类方法根据文本类标签本身具有的层次结构构建分类模型。随着文本数目的增多,文本的类标签数目也在飞速的增长,并且每个文本可能同时被分为不同粒度级别的类别。文本类标签的层次结构可以分为两类:树型结构和图型结构。树型结构综合考虑数据类标签之间的联系,依据类标签内部的联系建立树层次结构,树中的每一节点(除了根节点)仅有一个父节点,根节点无父节点。文本类标签的层次型结构示例如图1所示,除了根节点(Root),其它各层上的节点均为类标签。目前,层次型文本分类方法已经被运用于很多领域,例如,新闻分类,学术论文分类等。全局层次型文本分类模型可以快速准确地对文本进行分类,具有很好的产业前景。近年来在层次型文本分类方面已经有很多研究。ZhangL等人在文献《Hierarchicalmulti-lab ...
【技术保护点】
1.一种层次型文本分类方法,其特征在于,包括步骤:/n根据文本类标签的树型层次结构,给文本类标签层次树中的类标签节点编号;在每个非叶节点上训练分类器,分类器输出初步预测类标签概率向量,向量元素代表该文本被分为每一个类标签的概率;然后利用文本类标签之间的联系,训练调整概率矩阵,调整概率矩阵中元素是类标签被调整为各个类标签的概率;通过训练得到的调整概率矩阵对文本类标签进行全局统筹修正,构建全局层次型文本分类模型。/n
【技术特征摘要】
1.一种层次型文本分类方法,其特征在于,包括步骤:
根据文本类标签的树型层次结构,给文本类标签层次树中的类标签节点编号;在每个非叶节点上训练分类器,分类器输出初步预测类标签概率向量,向量元素代表该文本被分为每一个类标签的概率;然后利用文本类标签之间的联系,训练调整概率矩阵,调整概率矩阵中元素是类标签被调整为各个类标签的概率;通过训练得到的调整概率矩阵对文本类标签进行全局统筹修正,构建全局层次型文本分类模型。
2.根据权利要求1所述的层次型文本分类方法,其特征在于,包括步骤:
(1)训练阶段:针对训练集文本,对每一文本进行预处理,对预处理后的文本向量化,即将文本中的单词表示为向量形式,每个文本对应得到一词向量,所有训练集文本汇总得到文本向量集;
根据文本类标签的树型层次结构,给文本类标签层次树中的类标签节点编号;将文本向量集及其对应到各层类别的文本子集作为训练集,采用神经网络分别针对根节点以及根节点下面的非叶节点构建分类器,根节点对应的分类器类标签为根节点下一层中的孩子节点类标签,第k层节点对应的分类器类标签为第k+1层中的孩子节点类标签;分类器输出初步预测类标签概率向量,向量元素代表该文本被分为每一个类标签的概率;
利用文本真实类标签概率向量和所述初步预测类标签概率向量训练调整概率矩阵,所述调整概率矩阵中元素是类标签被调整为各个类标签的概率;
(2)分类阶段:针对待分类文本,对文本进行预处理,将预处理后的文本向量化,然后输入到上述训练好的分类器中,得到初步预测类标签概率向量;将初步预测类标签概率向量利用训练好的调整概率矩阵,调整计算待分类文本为各个类标签的概率,最后根据概率确定待分类文本的类标签。
3.根据权利要求2所述的层次型文本分类方法,其特征在于,步骤(1)中,对每一文本进行预处理,预处理包括:针对中文文本的分词,去除标点符号,针对英文单词将大写字母转成小写,以及去停用词和低频率词。
4.根据权利要求2所述的层次型文本分类方法,其特征在于,步骤(1)中,采用word2vec训练词向量的软件工具,将文本中的单词表示为向量形式。
5.根据权利要求2所述的层次型文本分类方法,其特征在于,步骤(1)中,给文本类标签层次树中的类标签节点编号,根节点编号为0,其他节点编号为1,2,....l,其中,l是类标签的总数目。
6.根据权利要求2所述的层次型文本分类方法,其特征在于,步骤(1)中,采用卷积神经网络分别针对根节点以及根节点下面的非叶节点构建分类器,分类器输出初步预测类标签向量为[f1,f2,...fl],其中fi表示训练文本为编号i节点所对应的类标签的概率。
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。