【技术实现步骤摘要】
一种基于标签关联性的多标签文本分类方法
本专利技术属于软件
,尤其涉及一种基于标签关联性的多标签文本分类方法。
技术介绍
在网络上,人们经常对消息或话题进行分类,例如在新闻媒体,知乎,虎扑等文本话题分类领域,一条新闻它可能既与计算机相关,同时也可能与社会问题相关,此时,这个话题应属于两个类别:“计算机”和“社会”。如果仅依靠人为地打标签,在处理实际生活中海量的新闻或帖子分类时,是无法完成的。常用的方法是通过一些机器学习算法模型来处理,可以被分为两大类,问题转化型和算法适应型。问题转化型是将这种多标签分类问题转化为二分类或多分类问题,然后再用已有的一些机器学习算法进行解决,这一类方法的代表模型有BinaryRelevance算法ClassifierChains等。而算法适应型则是通过对已有的一些机器学习算法(如SVM,kNN)进行修改使其能直接用于多标签分类问题,其代表算法包括:Rank-SVM和ML-kNN等算法。基于机器学习的方法受限于文本提取能力,无法很好地对文本语义信息进行提取,因此其分类准确率有限。r>最近,随着神经网本文档来自技高网...
【技术保护点】
1.一种基于标签关联性的多标签文本分类方法,其特征在于,包括以下步骤:/n步骤一、读取由n个单词构成的文档,将文档中的每一个单词映射为一个向量,文档表示为一个维度为K×n的矩阵,;其中K表示词向量的维度;/n步骤二、使用Seq2seq模型依次读取每一个编码后的单词w_i,并得到一个对应向量u_i用来表示单词w_i包含的信息,一共会得到n个向量,分别表示为{u_1,u_2,…,u_n};1≤i≤n;将文档中每一个编码后的单词w_i输入编码器,编码器对文档编码后输入解码器;/n步骤三、解码器的每一个时刻t,设置标签注意力机制将前面t-1个时刻所预测出的标签{y
【技术特征摘要】
1.一种基于标签关联性的多标签文本分类方法,其特征在于,包括以下步骤:
步骤一、读取由n个单词构成的文档,将文档中的每一个单词映射为一个向量,文档表示为一个维度为K×n的矩阵,;其中K表示词向量的维度;
步骤二、使用Seq2seq模型依次读取每一个编码后的单词w_i,并得到一个对应向量u_i用来表示单词w_i包含的信息,一共会得到n个向量,分别表示为{u_1,u_2,…,u_n};1≤i≤n;将文档中每一个编码后的单词w_i输入编码器,编码器对文档编码后输入解码器;
步骤三、解码器的每一个时刻t,设置标签注意力机制将前面t-1个时刻所预测出的标签{y1,y2,…,y(t-1)}作为输入,根据标签之间的关联性为每一个标签yj分配权重,yj表示解码器在时刻j针对编码器编码后的文本{u1,u2,…,un}所预测出的标签,j<t;
步骤四、Seq2seq模型自带的文本注意力机制根据每个编码后的单词{u1,u2,…,un}携带的信息量分配不同的权重,建立起文本单词与标签之间的对应关系,最终得到一个向量ct表示文本信息向量;
在得到文本信息向量ct和标签关联信息向量γt后,解码器将文本信息向量ct和标签关联信息向量γt输入到一个全连接网络中,并通过softmax函数归一化,输出属于每一个标签的概率,然后从中选取概率最大的标签作为当前时刻的预测标签pred_t;
步骤五、然后Seq2seq模型对比预测标签pred_t与真实标签之间的差异,通过神经网络的反向传播算法更新网络中的参数进行迭代训练,至损失函数收敛,得到训练好的多标签文本分类模型;
步骤六、将待贴标签的的文本输入训练好的多标签文本分类模型,在输出中选取概率最大的k个标签分别作为作为待贴标签的的文本的标签进行分类。
2.如权利要求1所述的基于标签关联性的多标签文本分类方法,其特征在于,所述步骤一中,采用Embe...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。