一种基于多步判别的Co-Attention模型用于多标签文本分类的方法技术

技术编号：22531929 阅读：31 留言：0更新日期：2019-11-13 09:12

本发明专利技术涉及一种基于多步判别的Co‑Attention模型用于多标签文本分类的方法，基于算法改编方法，通过引入原始文本信息与前导标签的互注意力机制，实现了前导标签在文本编码过程中的信息过滤作用，优化了训练过程，原始文本内容对前导标签的注意力作用进一步缓解了单次错误预测导致的误差累积问题。本发明专利技术针对多标签文本分类任务的特点，采用特征向量差分融合与级联融合策略。通过差分，凸显了待预测标签所依赖的原始文本信息，优化了标签信息监督作用，获得了信息全面且具有区分度的最终编码向量。实现了原始文本信息、前导标签信息、待预测标签信息三者间的同时建模。

A co attention model based on multi-step discrimination for multi label text classification

The invention relates to a method for multi label text classification based on the CO \u2011 attention model of multi-step discrimination. Based on the algorithm adaptation method, by introducing the mutual attention mechanism of the original text information and the leading label, the information filtering effect of the leading label in the text coding process is realized, the training process is optimized, and the attention effect of the original text content on the leading label is further improved Step by step, the problem of error accumulation caused by single error prediction is alleviated. According to the characteristics of multi label text classification task, the invention adopts the feature vector differential fusion and cascade fusion strategy. Through the difference, the original text information of the label to be predicted is highlighted, the supervision function of the label information is optimized, and the final coding vector with comprehensive information and differentiation is obtained. It realizes the simultaneous modeling among the original text information, the leading label information and the label information to be predicted.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多步判别的Co-Attention模型用于多标签文本分类的方法
本专利技术涉及一种基于多步判别的Co-Attention模型用于多标签文本分类的方法，属于文本分类的

技术介绍
随着以深度人工神经网络技术为代表的人工智能技术的发展，传统文本分类技术已经具有非常优秀的性能表现，并获得了广泛的实际应用。为进一步提升文本分类任务的用户体验，多标签文本分类逐渐走进人们的视野，许多研究人员在该领域内进行了广泛与深入的探索研究。在研究与应用过程中，多标签分类任务与传统的多分类任务相比有着诸多共性，也有本质上的不同。相比于单一标签的文本分类任务，依照文本内容的不同，多标签文本分类的标签之间存在着不同的相关关系可以被挖掘和利用，进而提高模型与算法的效果。例如，在讨论国际事件的新闻报道中，讨论“政治”类话题时，“经济”话题被提及的概率要远高于“娱乐”类话题的可能，即在一定的文本语境下，各标签之间的共现关系具有明显差别。挖掘并利用这种关系，实现文本与标签之间关系的建模、标签与标签之间关系的建模，为提高多标签文本分类任务的准确率和召回率，实现准确且全面的文本分类，提供了可能。如何挖掘并利用多标签文本分类任务中，数据集合所体现出的各类别标签之间的潜在关系，是目前提升多变文本分类任务的主要方法和热点研究方向。目前基于深度人工神经网络的文本任务已经成为性能表现最好的应用方案。基于这样的基础技术进步，多标签文本分类任务也进入了深度人工神经网络解决方案阶段。在这一发展阶段中，出现了各种各样的多标签文本分类模型与方法，这些方法基本可以归结为以下两大类。第一类方法称为问题转化...

【技术保护点】
1.一种基于多步判别的Co‑Attention模型用于多标签文本分类的方法，其特征在于，包括步骤如下：(1)标签数据预处理：将标签序列分为前导标签和待预测标签，前导标签是指已经预测出的标签，待预测标签是指未预测的新标签，前导标签和原始文本进行信息融合，使其满足多步判别的多标签分类需求；(2)训练词向量；通过word2vec中的skip‑gram模型进行词向量训练，使原始文本中的每个单词在向量空间有对应的特征表征；(3)文本特征提取；将步骤(2)词向量训练后的原始文本输入双向LSTM模型，进行编码操作，进一步提取文本特征，得到双向LSTM模型的隐藏层状态；将在步骤(2)中通过词向量训练后的原始文本与原始文本信息融合的前导标签进行嵌入表示，使每个标签有对应的向量表征，得到前导标签特征；(4)特征组合：包括：a、通过原始文本在前导标签序列上的注意力操作，前导标签在原始文本中对应的信息，作为冗余信息；b、通过差分操作删除掉冗余信息，通过前导标签在原始文本上的注意力操作得到前导标签信息，上述两个操作得到的表征向量通过级联操作进行信息融合得到级联特征向量；(5)分类预测：步骤(4)中得到的级联特征...

【技术特征摘要】
1.一种基于多步判别的Co-Attention模型用于多标签文本分类的方法，其特征在于，包括步骤如下：(1)标签数据预处理：将标签序列分为前导标签和待预测标签，前导标签是指已经预测出的标签，待预测标签是指未预测的新标签，前导标签和原始文本进行信息融合，使其满足多步判别的多标签分类需求；(2)训练词向量；通过word2vec中的skip-gram模型进行词向量训练，使原始文本中的每个单词在向量空间有对应的特征表征；(3)文本特征提取；将步骤(2)词向量训练后的原始文本输入双向LSTM模型，进行编码操作，进一步提取文本特征，得到双向LSTM模型的隐藏层状态；将在步骤(2)中通过词向量训练后的原始文本与原始文本信息融合的前导标签进行嵌入表示，使每个标签有对应的向量表征，得到前导标签特征；(4)特征组合：包括：a、通过原始文本在前导标签序列上的注意力操作，前导标签在原始文本中对应的信息，作为冗余信息；b、通过差分操作删除掉冗余信息，通过前导标签在原始文本上的注意力操作得到前导标签信息，上述两个操作得到的表征向量通过级联操作进行信息融合得到级联特征向量；(5)分类预测：步骤(4)中得到的级联特征向量输入全连接层，全连接层得到的向量输入到softmax层，输出在每个标签上的概率分布，即概率值，维度是标签种类个数；选取概率值最大对应的标签作为预测标签，并将此预测标签纳入到前导标签中，重复上述步骤(1)(5)直到预测出截止标签。2.根据权利要求1所述的一种基于多步判别的Co-Attention模型用于多标签文本分类的方法，其特征在于，所述步骤(4)中，特征组合，包括互注意力操作、差分操作、级联操作；对文本特征提取输出的隐藏层状态向量hN和输出序列{w1，w2，...，wN}进行互注意力操作，差分操作以及级联操作，输出序列{w1，w2，...，wN}和前导标签特征序列{l1，l2，...，lM}经过互注意力操作，分别得到两个带有权重信息的特征向量AYS、ASY；AYS代表前导标签在原始文本中对应的信息，即在hN基础上通过差分操作删除AYS，得到hN-AYS，表示从原始文本中减去已前导标签的信息，ASY代表前导标签在原始文本上进行注意力操作得到的向量，hN，hN-AYS，ASY三个向量进行级联得到特征向量A，特征向量A包含预测下一个待预测标签全面且具有区分度的信息，包括步骤如下：A、输出序列{w1，w2，...，wN}经过前导标签特征序列{l1，l2，...，lM}注意力操作得到特征向量AYS，求取公式如式(I)、(II)、(III)所示：式(I)、(II)、(III)中，Wa、Ua分别代表在前导标签对输出序列进行注意力操作中的两个参数不共享的注意力训练矩阵，Wa、Ua分别和li、wj进行矩阵相乘，使li和wj映射到维度大小一致的向量空间；li、wj分别是指前导标签序列特征序列{l1，l2，...，li...，lM}中第i个元素和输出序列{w1，w2，...，wj，...，wN}中第j个元素；是指上下文向量，用来区分输出序列{w1，w2，...，wN}中每个元素的重要程度；ei，j是指注意力信息；B、前导标签序列{l1，l2，...，lM}经过输出序列{w1，w2，...，wN}注意力操作得到特征向量ASY，求取如式(IV)、(V)、(VI)所示：式(IV)、(V)、(VI)中，Wb、Ub分别代表在输出序列对前导标签对进行注意力操作中的两个参数不共享的注意力训练矩阵，Wb、Ub分别和lj、wi进行矩阵相乘，使lj和wi映射到维度大小一致的向量空间；C、通过差分操作删除AYS，得到hN-AYS；D、hN，hN-AYS，ASY三个向量进行级联得到级联特征向量A，求取如式(VII)所示：A＝{hNhN-AYS，ASY}(VII)。3.根据权利要求1所述的一种基于多步判别的Co-Attention模型用于多标签文本分类的方法，其特征在于，所述步骤(1)，标签数据预处理，是指：对多标签文本数据集AAPD和RCV1-V2中的原...

【专利技术属性】
技术研发人员：李玉军，马浩洋，马宝森，王泽强，邓媛洁，张文真，
申请(专利权)人：山东大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人