当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于多步判别的Co-Attention模型用于多标签文本分类的方法技术

技术编号:22531929 阅读:31 留言:0更新日期:2019-11-13 09:12
本发明专利技术涉及一种基于多步判别的Co‑Attention模型用于多标签文本分类的方法,基于算法改编方法,通过引入原始文本信息与前导标签的互注意力机制,实现了前导标签在文本编码过程中的信息过滤作用,优化了训练过程,原始文本内容对前导标签的注意力作用进一步缓解了单次错误预测导致的误差累积问题。本发明专利技术针对多标签文本分类任务的特点,采用特征向量差分融合与级联融合策略。通过差分,凸显了待预测标签所依赖的原始文本信息,优化了标签信息监督作用,获得了信息全面且具有区分度的最终编码向量。实现了原始文本信息、前导标签信息、待预测标签信息三者间的同时建模。

A co attention model based on multi-step discrimination for multi label text classification

The invention relates to a method for multi label text classification based on the CO \u2011 attention model of multi-step discrimination. Based on the algorithm adaptation method, by introducing the mutual attention mechanism of the original text information and the leading label, the information filtering effect of the leading label in the text coding process is realized, the training process is optimized, and the attention effect of the original text content on the leading label is further improved Step by step, the problem of error accumulation caused by single error prediction is alleviated. According to the characteristics of multi label text classification task, the invention adopts the feature vector differential fusion and cascade fusion strategy. Through the difference, the original text information of the label to be predicted is highlighted, the supervision function of the label information is optimized, and the final coding vector with comprehensive information and differentiation is obtained. It realizes the simultaneous modeling among the original text information, the leading label information and the label information to be predicted.

【技术实现步骤摘要】
一种基于多步判别的Co-Attention模型用于多标签文本分类的方法
本专利技术涉及一种基于多步判别的Co-Attention模型用于多标签文本分类的方法,属于文本分类的

技术介绍
随着以深度人工神经网络技术为代表的人工智能技术的发展,传统文本分类技术已经具有非常优秀的性能表现,并获得了广泛的实际应用。为进一步提升文本分类任务的用户体验,多标签文本分类逐渐走进人们的视野,许多研究人员在该领域内进行了广泛与深入的探索研究。在研究与应用过程中,多标签分类任务与传统的多分类任务相比有着诸多共性,也有本质上的不同。相比于单一标签的文本分类任务,依照文本内容的不同,多标签文本分类的标签之间存在着不同的相关关系可以被挖掘和利用,进而提高模型与算法的效果。例如,在讨论国际事件的新闻报道中,讨论“政治”类话题时,“经济”话题被提及的概率要远高于“娱乐”类话题的可能,即在一定的文本语境下,各标签之间的共现关系具有明显差别。挖掘并利用这种关系,实现文本与标签之间关系的建模、标签与标签之间关系的建模,为提高多标签文本分类任务的准确率和召回率,实现准确且全面的文本分类,提供了可能。如何挖掘并利用多标签文本分类任务中,数据集合所体现出的各类别标签之间的潜在关系,是目前提升多变文本分类任务的主要方法和热点研究方向。目前基于深度人工神经网络的文本任务已经成为性能表现最好的应用方案。基于这样的基础技术进步,多标签文本分类任务也进入了深度人工神经网络解决方案阶段。在这一发展阶段中,出现了各种各样的多标签文本分类模型与方法,这些方法基本可以归结为以下两大类。第一类方法称为问题转化方法,包括任务转化与标签转化等。转化方法的基本思想是将多标签文本分类任务转化成为单标签分类任务。任务转换模型的代表性方法是MatthewR.Boutell等人2014年提出的多二分类模型,通过在多个标签上的分别构造二分模型,将多标签分类问题转换为类似于多任务模型的多个单标签二分类预测问题。但是,该方法没有将标签之间的关联信息融入到模型中,导致模型预测召回率较低。第二类方法是算法改编方法,基于seq2seq框架的序列生成模型及其改进型,seq2seq框架下的多标签分类模型使用标签序列生成的方法实现了多标签预测,重视了标签之间的语意关联,取得了巨大的性能提升。但是,该方法并没有缓解误差累计的问题,即在单次预测错误的情况下,对后期预测也会造成影响。
技术实现思路
针对现有技术的不足,本专利技术提供一种基于多步判别的Co-Attention模型用于多标签文本分类的方法。专利技术概述:本专利技术采用多步判别的互注意力方法来对多标签分类任务建模。基于算法改编方法,通过引入原始文本信息与前导标签的互注意力机制,实现了前导标签在文本编码过程中的信息过滤作用,优化了训练过程,原始文本内容对前导标签的注意力作用进一步缓解了单次错误预测导致的误差累积问题。本专利技术针对多标签文本分类任务的特点,采用特征向量差分融合与级联融合策略。通过差分,凸显了待预测标签所依赖的原始文本信息,优化了标签信息监督作用,获得了信息全面且具有区分度的最终编码向量。实现了原始文本信息、前导标签信息、待预测标签信息三者间的同时建模。模型的整体流程包括:1、标签数据预处理;2、训练词向量;3、文本特征提取;4、特征组合;5、分类预测。术语解释:1、多步判别:每个样本存在多个标签,我们通过前导标签与原始文本进行融合,对下一个标签进行预测,预测出的标签作为新的前导标签,进行下一轮的预测直到所有标签预测完成。2、多标签分类:每个样本同时存在多个标签,对此类文本进行分类任务。3、Co-Attention:互注意力机制。注意力机制最早由机器翻译任务提出,通过计算模型解码器端生成序列的单词对编码器中每个单词的权重分布,得到有权重关联信息的特征向量表示,提高模型翻译效果。互注意力机制则是编码器和解码器中序列相互做注意力计算。4、LSTM:LongShort-TermMemory,是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。5、AAPD:ArxivAcademicPaperDataset,是由杨鹏程等人从网络上收集的计算机科学领域论文的摘要和对应科目构成的多标签文本数据集,论文数量为55840篇,标签种类为54类。6、RCV1-V2:ReutersCorpusVolumeⅠ,是由Lewis等人提供,包括超过80万篇手工标注的新闻文章,每篇新闻对应多个主题。主题种类为103类。7、word2vec:是一种文字表征模型,由谷歌公司提出以用于训练词向量,包括skip-gram和CBOW两种模式,本专利技术中基于skip-gram模式来训练词向量。8、skip-gram:词向量训练的一种模式,即从目标字词推测出上下文,通过语料中单词之间的共现分布,可以令意思相近的词在向量空间中的位置更接近。9、双向LSTM:单向LSTM的改进模型,在处理输入序列时,将正向和反向信息同时融入到模型,通过对过去和未来信息同时建模,提高模型的表征能力。本专利技术的技术方案为:一种基于多步判别的Co-Attention模型用于多标签文本分类的方法,包括步骤如下:(1)标签数据预处理:将标签序列分为前导标签和待预测标签,前导标签是指已经预测出的标签,待预测标签是指未预测的新标签,前导标签和原始文本进行信息融合,使其满足多步判别的多标签分类需求;(2)训练词向量;通过word2vec中的skip-gram模型进行词向量训练,使原始文本中的每个单词在向量空间有对应的特征表征;再进行模型下游任务;(3)文本特征提取;将步骤(2)词向量训练后的原始文本输入双向LSTM模型,进行编码操作,进一步提取文本特征,得到双向LSTM模型的隐藏层状态;将在步骤(2)中通过词向量训练后的原始文本与原始文本信息融合的前导标签进行嵌入表示,使每个标签有对应的向量表征,得到前导标签特征;(4)特征组合:包括:通过互注意力操作,差分操作、级联操作。a、通过原始文本在前导标签序列上的注意力操作,前导标签在原始文本中对应的信息,作为冗余信息;b、通过差分操作删除掉冗余信息,以提高模型预测效果。通过前导标签在原始文本上的注意力操作得到前导标签信息,这一部分作为模型预测新标签的补充信息,将前导标签和待预测标签的逻辑关联纳入到模型中;上述两个操作得到的表征向量通过级联操作进行信息融合得到级联特征向量;输入到模型分类模块进行最后的模型预测。(5)分类预测:步骤(4)中得到的级联特征向量输入全连接层,维度逐层递减的全连接层,通过增加模型参数,提高模型的训练效果。全连接层得到的向量输入到softmax层,输出在每个标签上的概率分布,即概率值,维度是标签种类个数;选取概率值最大对应的标签作为预测标签,并将此预测标签纳入到前导标签中,重复上述步骤(1)-(5)直到预测出截止标签。代表模型一个标签序列预测任务完成,结束。根据本专利技术优选的,所述步骤(4)中,特征组合,包括互注意力操作、差分操作、级联操作;对文本特征提取输出的隐藏层状态向量hN和输出序列{w1,w2,…,wN}输入到特征融合模块进行互注意力操作,差分操作以及级联操作,输出序列{w1,w2,…,wN}和本文档来自技高网
...

【技术保护点】
1.一种基于多步判别的Co‑Attention模型用于多标签文本分类的方法,其特征在于,包括步骤如下:(1)标签数据预处理:将标签序列分为前导标签和待预测标签,前导标签是指已经预测出的标签,待预测标签是指未预测的新标签,前导标签和原始文本进行信息融合,使其满足多步判别的多标签分类需求;(2)训练词向量;通过word2vec中的skip‑gram模型进行词向量训练,使原始文本中的每个单词在向量空间有对应的特征表征;(3)文本特征提取;将步骤(2)词向量训练后的原始文本输入双向LSTM模型,进行编码操作,进一步提取文本特征,得到双向LSTM模型的隐藏层状态;将在步骤(2)中通过词向量训练后的原始文本与原始文本信息融合的前导标签进行嵌入表示,使每个标签有对应的向量表征,得到前导标签特征;(4)特征组合:包括:a、通过原始文本在前导标签序列上的注意力操作,前导标签在原始文本中对应的信息,作为冗余信息;b、通过差分操作删除掉冗余信息,通过前导标签在原始文本上的注意力操作得到前导标签信息,上述两个操作得到的表征向量通过级联操作进行信息融合得到级联特征向量;(5)分类预测:步骤(4)中得到的级联特征向量输入全连接层,全连接层得到的向量输入到softmax层,输出在每个标签上的概率分布,即概率值,维度是标签种类个数;选取概率值最大对应的标签作为预测标签,并将此预测标签纳入到前导标签中,重复上述步骤(1)(5)直到预测出截止标签。...

【技术特征摘要】
1.一种基于多步判别的Co-Attention模型用于多标签文本分类的方法,其特征在于,包括步骤如下:(1)标签数据预处理:将标签序列分为前导标签和待预测标签,前导标签是指已经预测出的标签,待预测标签是指未预测的新标签,前导标签和原始文本进行信息融合,使其满足多步判别的多标签分类需求;(2)训练词向量;通过word2vec中的skip-gram模型进行词向量训练,使原始文本中的每个单词在向量空间有对应的特征表征;(3)文本特征提取;将步骤(2)词向量训练后的原始文本输入双向LSTM模型,进行编码操作,进一步提取文本特征,得到双向LSTM模型的隐藏层状态;将在步骤(2)中通过词向量训练后的原始文本与原始文本信息融合的前导标签进行嵌入表示,使每个标签有对应的向量表征,得到前导标签特征;(4)特征组合:包括:a、通过原始文本在前导标签序列上的注意力操作,前导标签在原始文本中对应的信息,作为冗余信息;b、通过差分操作删除掉冗余信息,通过前导标签在原始文本上的注意力操作得到前导标签信息,上述两个操作得到的表征向量通过级联操作进行信息融合得到级联特征向量;(5)分类预测:步骤(4)中得到的级联特征向量输入全连接层,全连接层得到的向量输入到softmax层,输出在每个标签上的概率分布,即概率值,维度是标签种类个数;选取概率值最大对应的标签作为预测标签,并将此预测标签纳入到前导标签中,重复上述步骤(1)(5)直到预测出截止标签。2.根据权利要求1所述的一种基于多步判别的Co-Attention模型用于多标签文本分类的方法,其特征在于,所述步骤(4)中,特征组合,包括互注意力操作、差分操作、级联操作;对文本特征提取输出的隐藏层状态向量hN和输出序列{w1,w2,...,wN}进行互注意力操作,差分操作以及级联操作,输出序列{w1,w2,...,wN}和前导标签特征序列{l1,l2,...,lM}经过互注意力操作,分别得到两个带有权重信息的特征向量AYS、ASY;AYS代表前导标签在原始文本中对应的信息,即在hN基础上通过差分操作删除AYS,得到hN-AYS,表示从原始文本中减去已前导标签的信息,ASY代表前导标签在原始文本上进行注意力操作得到的向量,hN,hN-AYS,ASY三个向量进行级联得到特征向量A,特征向量A包含预测下一个待预测标签全面且具有区分度的信息,包括步骤如下:A、输出序列{w1,w2,...,wN}经过前导标签特征序列{l1,l2,...,lM}注意力操作得到特征向量AYS,求取公式如式(I)、(II)、(III)所示:式(I)、(II)、(III)中,Wa、Ua分别代表在前导标签对输出序列进行注意力操作中的两个参数不共享的注意力训练矩阵,Wa、Ua分别和li、wj进行矩阵相乘,使li和wj映射到维度大小一致的向量空间;li、wj分别是指前导标签序列特征序列{l1,l2,...,li...,lM}中第i个元素和输出序列{w1,w2,...,wj,...,wN}中第j个元素;是指上下文向量,用来区分输出序列{w1,w2,...,wN}中每个元素的重要程度;ei,j是指注意力信息;B、前导标签序列{l1,l2,...,lM}经过输出序列{w1,w2,...,wN}注意力操作得到特征向量ASY,求取如式(IV)、(V)、(VI)所示:式(IV)、(V)、(VI)中,Wb、Ub分别代表在输出序列对前导标签对进行注意力操作中的两个参数不共享的注意力训练矩阵,Wb、Ub分别和lj、wi进行矩阵相乘,使lj和wi映射到维度大小一致的向量空间;C、通过差分操作删除AYS,得到hN-AYS;D、hN,hN-AYS,ASY三个向量进行级联得到级联特征向量A,求取如式(VII)所示:A={hNhN-AYS,ASY}(VII)。3.根据权利要求1所述的一种基于多步判别的Co-Attention模型用于多标签文本分类的方法,其特征在于,所述步骤(1),标签数据预处理,是指:对多标签文本数据集AAPD和RCV1-V2中的原...

【专利技术属性】
技术研发人员:李玉军马浩洋马宝森王泽强邓媛洁张文真
申请(专利权)人:山东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1