一种面向任务基于注意力机制的文本分类方法技术

技术编号:37565279 阅读:10 留言:0更新日期:2023-05-15 07:45
本发明专利技术涉及一种面向任务基于注意力机制的文本分类方法,属于自然语言领域。本发明专利技术提出了任务信息和注意力机制相结合来优化现有的注意力机制,可以充分利用对应的任务信息,提高文本分类的效率,并且通过注意力机制来给每个向量分配适当的注意力权重,提高分类准确度。考虑到现阶段构建的文本模型往往是针对某个领域的文本进行分析,通过某一领域文本训练出的模型可能在另一领域分析精度下降,导致分类结果不尽人意的问题,因此本发明专利技术通过种子词库添加领域信息,将领域信息融入向量,可以提高模型在不同领域的泛化效果。高模型在不同领域的泛化效果。高模型在不同领域的泛化效果。

【技术实现步骤摘要】
一种面向任务基于注意力机制的文本分类方法


[0001]本专利技术属于自然语言领域,涉及一种面向任务基于注意力机制的文本分类方法。

技术介绍

[0002]文本分类是指按照一定的分类体系或规则对文本实现自动划归类别的过程,一般包括文本预处理、文本表示、特征提取、分类器训练等几个过程。文本分类具有不同的应用场景:包括问答分类、情感分类、垃圾邮件检测、主题分类等,不同的文本分类任务具有不同的任务特征,如何根据任务的特征挖掘文本的深层语义信息,提高文本分类的准确率,是目前研究的一个热点。
[0003]现有技术不足:
[0004](1)基于注意力机制的深度学习算法对每个词分配的权重主要考虑上下文的语义,没有考虑特定任务的非语境的信息对输入文本注意力权重的影响。
[0005](2)模型的泛用性问题,以情感分析为例,现阶段构建的情感分析模型往往是针对某个领域的文本进行分析,比如通过餐饮行业评价文本训练出的模型可能在微博短消息领域、影评领域不具有泛用性,其情感分析精度往往相差较大。

技术实现思路

[0006]有鉴于此,本专利技术的目的在于提供一种面向任务基于注意力机制的文本分类方法。解决基于注意力机制的文本分类方法没有融合特定任务信息的问题,根据特定任务信息对输入文本注意力权重进行调整,改进现有的注意力机制,提高分类结果准确性和模型的泛用性。
[0007]为达到上述目的,本专利技术提供如下技术方案:
[0008]一种面向任务基于注意力机制的文本分类方法,该方法包括以下步骤:/>[0009]步骤一:在注意力机制中引入了任务信息权重对于每个输入x
i
∈R
|V|
都有其对应的独热嵌入,e
i
∈R
|d|
,其中i∈[1,...,t]表示序列中的位置,t表示序列长度,|V|表示词汇大小,d表示嵌入的维度;然后将e
i
传递给编码器,以生成隐藏表示h
i
=Enc(e
i
),其中h
i
∈R
N
,N为隐藏表示的大小;随后获得整个文本序列x1,

,x
t
的向量表示c,整个输入的文本序列由h
i
通过任务信息权重和注意力权重α
i
加权得出:
[0010][0011]步骤二:种子词库的构建;计算通过种子词库构建新的向量u∈R
|V|
来估计词表里每个单词的标量权重;给定输入序列x=[x1,

,x
t
],对u进行查找,以获得序列中单词的标量权重;获得包含任务信息的每个输入的新的嵌入向量e
i
是训练在大规模语料库上的嵌入向量;而追加一个系数u
i
将e
i
适配至特定任务上,得到更符合该任务的表示;由面向任务的嵌入求和得到:
[0012][0013]对单词进行排序,并将排序前三的单词添加到种子词集中,对于给定的类C
j
和单词w,基于以下方面来衡量其排名得分:
[0014][0015][0016][0017]R(C
j
,w)=(LI(C
j
,w)
×
F(C
j
,w)
×
IDF(C
j
,w))
1/3
[0018]其中,为预测为C
j
类的文档数量;为预测为C
j
类的文档中包含词的文档数量;是预测为C
j
类的文档中词的频率;n是语料库中文档数量,f
D,w
是包含词w的文档数量;
[0019]步骤三:根据不同任务选取相应的模型;通过构建种子词库,将任务信息权重作为注意力机制由编码器获得的隐状态h
i
的一部分,通过自注意力机制,重新计算注意力权重:
[0020][0021]其中q是可训练的自注意力向量;公式中q的实现方式是Dot:
[0022][0023]步骤四:结果处理;经过模型训练和分类后,获得分类结果,将结果采用宏观平均F1得分进行对比;
[0024]使用SST

2数据集、IMDB数据集、AG数据集和MIMIC数据集以上四个数据集进行文本分类;
[0025]采用长短期记忆网络LSTM、门控循环神经网络GRU、多层感知机神经网络MLP、卷积神经网络CNN进行比较,在以上的数据集进行宏观平均F1得分对比。
[0026]可选的,所述文本分类具体为:
[0027]数据集为SST时,词汇量为13686,每词元的平均长度为20,训练集、开发集、测试集划分为6920/872/1821;
[0028]数据集为IMDB时,词汇量为12147,每词元的平均长度为185,训练集、开发集、测试集划分为17212/4304/4363;
[0029]数据集为AG时,词汇量为14573,每词元的平均长度为34,训练集、开发集、测试集划分为60895/7145/3960;
[0030]数据集为MIMIC时,词汇量为16277,每词元的平均长度为2180,训练集、开发集、测
试集划分为4654/833/1369。本专利技术的有益效果在于:
[0031](1)本专利技术提出了任务信息和注意力机制相结合来优化现有的注意力机制,可以充分利用对应的任务信息,提高文本分类的效率,并且通过注意力机制来给每个向量分配适当的注意力权重,提高分类准确度。
[0032](2)考虑到现阶段构建的文本模型往往是针对某个领域的文本进行分析,通过某一领域文本训练出的模型可能在另一领域分析精度下降,导致分类结果不尽人意的问题,因此本专利技术通过种子词库添加领域信息,将领域信息融入向量,可以提高模型在不同领域的泛化效果。
[0033]本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0034]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作优选的详细描述,其中:
[0035]图1为本专利技术流程图。
具体实施方式
[0036]以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0037]其中,附图仅用于示例性说明,表示的仅本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向任务基于注意力机制的文本分类方法,其特征在于:该方法包括以下步骤:步骤一:在注意力机制中引入了任务信息权重对于每个输入x
i
∈R
|V|
都有其对应的独热嵌入,e
i
∈R
|d|
,其中i∈[1,...,t]表示序列中的位置,t表示序列长度,|V|表示词汇大小,d表示嵌入的维度;然后将e
i
传递给编码器,以生成隐藏表示h
i
=Enc(e
i
),其中h
i
∈R
N
,N为隐藏表示的大小;随后获得整个文本序列x1,...,x
t
的向量表示c,整个输入的文本序列由h
i
通过任务信息权重和注意力权重α
i
加权得出:c=∑
i
α
i
c
i
,c∈R
N
步骤二:种子词库的构建;计算通过种子词库构建新的向量u∈R
|V|
来估计词表里每个单词的标量权重;给定输入序列x=[x1,...,x
t
],对u进行查找,以获得序列中单词的标量权重;获得包含任务信息的每个输入的新的嵌入向量e
i
是训练在大规模语料库上的嵌入向量;而追加一个系数u
i
将e
i
适配至特定任务上,得到更符合该任务的表示;由面向任务的嵌入求和得到:对单词进行排序,并将排名前三的单词添加到种子词集中,对于给定的类C
j
和单词w,基于以下方面来衡量其排名得分:于以下方面来衡量其排名得分:于以下方面来衡量其排名得分:R(C
j
,w)=(LI(C<...

【专利技术属性】
技术研发人员:刘洪涛宋奕廷
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1