一种基于主动特征选择的多标签文本分类数据增强方法技术

技术编号:39047010 阅读:35 留言:0更新日期:2023-10-10 12:00
本发明专利技术公开一种基于主动特征选择的多标签文本分类数据增强方法,涉及自然语言处理技术领域。本发明专利技术通过标签提示模板得到其与文本中每个词的得分情况,在相同标签的每个批次的句子中取出分数靠前的K个词,然后将这些词的特征进行随机互换,将分数高的词的特征的和随机互换的词的特征按照λ和1

【技术实现步骤摘要】
一种基于主动特征选择的多标签文本分类数据增强方法


[0001]本专利技术公开一种基于主动特征选择的多标签文本分类数据增强方法,涉及自然语言处理


技术介绍

[0002]在自然语言处理中,文本分类是重要且经典的问题之一,即将文本按照一定的规则进行分类。多标签文本分类是指对文本进行分类时,一个文本可能会被分到多个类别中,因此需要考虑多个标签的情况。如今随着互联网的不断发展,微博,推特等平台累积了大量的带标签的文本数据,各个类别需要更细粒度的划分,因此多标签分类更适合人们的期望。例如社交媒体中一条有关灾难的文本通常会涉及到多个主题,包括灾难类型、受害者情况、救援行动和捐赠信息等,人们可以通过其信息采取及时的措施。
[0003]现如今,Mixup特征混合的数据增强策略已经广泛应用于单标签、多标签文本分类问题中,对于单标签而言,每一个文本特征与一个标签相互关联,但是对于多标签文本分类来说,一个文本有多个标签,因此会在特征混合过程中导致文本特征与标签关系不明确的问题,因此提出在序列层对特征进行混合,在混合过程中通过每个词对于标签的得分来判断本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于主动特征选择的多标签文本分类数据增强方法,其特征在于,包括如下步骤:S1、使用预训练语言模型的嵌入层对分词后的文本进行嵌入得到词嵌入向量,同时使用预训练语言模型对标签类别长度进行编码得到初始化的标签提示模版PL,并将PL进行嵌入得到标签向量,然后将标签向量和词嵌入向量拼接,得到带有文本信息的标签提示模板向量;S2、利用预训练语言模型中的注意力结构对拼接之后的带有文本信息的标签提示模板向量进行编码,生成一个新的向量序列,然后将向量经过单层线性层进行降维;S3、将降维后的标签向量和词嵌入向量使用内积相似度计算每个词对于每个模板的分数;S4、在每一个批次的每一句话中取出每一个模板对应分数中较高的K个词,将这些词重新进行词嵌入,接着将分数较高的K个词随机打乱后再次进行词嵌入;接着将重新词嵌入后得到的特征和打乱之后的重新词嵌入得到的特征按照λ和1

λ混合,λ服从贝塔分布,混合后重新写入原始的词嵌入层得到数据增强的词嵌入向量,以此达到数据增强的效果;S5、将数据增强的词嵌入向量再次与S1中的标签向量拼接,得到新的带有文本信息的标签提示模板向量;重复S2

S3,得到数据增强后每个词对于每个模板的分数,当前句子中数据增强后每个词对于每个模板的分数最高的词代表此句子的类别,因此采用若干个模板中每个模板分数的最大值来进行分类。2.根据权利要求1所述的基于主动特征选择的多标签文本分类数据增强方法,其特征在于,所述S1的具体实现包括:定义批次数为B,N为标签种类,M为向量维度,将长度为L的文本序列通过预训练语言模型的嵌入层得到词嵌入向量E
W
=[w1,

,w
L
];使用预训练语言模型对标签长度进行编码得到初始化的标签提示模版PL,且使用嵌入层对标签提示模板PL进行嵌入得到如下标签向量E
p
=[p0,...,p
N
],然后将标签向量和词嵌入向量拼接,得到带有文本信息的标签提示模板向量E=[E
p
,E
W
]。3.根据权利要求1所述的基于主动特征选择的多标签文本分类数据增强方法,其特征在于,所述S2的具体实现包括:将带有文本信息的标签提示模板向量E经过预训练语言模型编码后得到向量序列[e
p
,e1,...e
L
],其中e
p
∈R
B*N*M
是又经过预训练语言模型编码后的标签向量,[e1,...,e
L
]∈R
B*L*M
是又经过预训练语言模型编码后的词嵌入向量,预训练语言模型里的双向Transformer编码器和注意力交互操作使得标签提示模版会携带文本的语义信息;对向量序列进行降维采用单层线性层降维,降维得到U=[u
p
,u1,...,u
L
]∈R
...

【专利技术属性】
技术研发人员:线岩团庞宇宏余正涛
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1