【技术实现步骤摘要】
一种多标签文本分类方法及系统
本公开涉及文本分类
,具体涉及一种基于LSTM-CNN及注意力机制的多标签文本分类方法、系统、存储介质及计算机设备。
技术介绍
多标签文本分类是自然语言处理中既复杂又具有挑战性的任务。不同于传统的二分类或多分类,多标签分类要处理的是现实生活中文本具有多个类别的任务。目前,有很多关于多标签文本分类的机器学习算法,依据解决问题的角度,这些算法可以分为两大类:一是基于问题转化的方法。将多标签分类任务转化成多个二分类或多分类问题,使其适用于现有算法,如:SVM、DT、NativeBayes等。二是基于算法适用的方法。是指针对某一特定的算法进行扩展,从而能够处理多标签数据。如:kNN多标签版本ML-KNN,SVM的多标签版本Rank-SVM等。而在深度学习中,常常使用卷积神经网络(CNN)或递归神经网络(RNN)作特征提取器提取文本的语义信息,然后修改多分类模型的输出层,使其适用于多标签的分类。然而,在模型训练时,标签和文本之间的相关性往往起到很重要的作用,现有模型大多忽视了这一关系。另外,在预测标签时,现有模型的方法通常假设所有标签都与 ...
【技术保护点】
1.一种多标签文本分类方法,其特征是,包括以下步骤:获取包含文本序列和标签空间的训练集,采用长短时记忆网络提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量;分别计算便签空间中每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,对注意力权重系数矩阵进行处理,得到最优权重系数矩阵;分别将每个单词的语义向量与最优权重系数矩阵中权重系数向量进行加权,得到标签的注意力向量;对所有标签的注意力向量进行归一化处理,得到每个标签的概率,选取几个概率最大的标签对文本进行分类。
【技术特征摘要】
1.一种多标签文本分类方法,其特征是,包括以下步骤:获取包含文本序列和标签空间的训练集,采用长短时记忆网络提取文本序列中所有单词的全局特征向量,采用卷积神经网络对得到的全局特征向量进行聚合,得到文本序列中每个单词的语义向量;分别计算便签空间中每个标签与文本序列中所有单词的权重系数,构建注意力权重系数矩阵,对注意力权重系数矩阵进行处理,得到最优权重系数矩阵;分别将每个单词的语义向量与最优权重系数矩阵中权重系数向量进行加权,得到标签的注意力向量;对所有标签的注意力向量进行归一化处理,得到每个标签的概率,选取几个概率最大的标签对文本进行分类。2.根据权利要求1所述的多标签文本分类方法,其特征是,所述文本序列包含若干个单词,所述标签空间包含多个标签,每个单词和标签分别用词向量表示。3.根据权利要求1所述的多标签文本分类方法,其特征是,所述采用长短时记忆网络提取文本序列中所有单词的全局特征向量的步骤包括:采用长短时记忆网络提取文本序列中每个单词在两个方向上的隐藏向量;分别将每个单词在两个方向上的隐藏向量连接起来,得到每个单词向量的全局特征向量。4.根据权利要求1所述的多标签文本分类方法,其特征是,所述采用卷积神经网络对得到的全局特征向量进行聚合的方法为:对卷积神经网络进行训练,学习到卷积神经网络的权值参数和偏置参数;利用训练后的卷积神经网络对全局特征向量进行聚合,得到文本序列中所有单词的语义向量。5.根据权利要求1所述的多标签文本分类方法,其特征是,所述注意力权重系数矩阵的构建方法为:分别计算标签空间中每个标签与文本序列中每个单词的相似度向量,并构建相...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。