一种基于有监督对比学习的细粒度文本分类方法技术

技术编号:34184605 阅读:22 留言:0更新日期:2022-07-17 13:55
本发明专利技术公开了一种基于有监督对比学习的细粒度文本分类方法,包括:步骤1,构建文本分类模型,并定义层级分类体系,细粒度刻画类别;步骤2,选取样本,并对于每个样本合理构建正负例,进行数据增广;步骤3,基于交叉熵损失和对比损失对文本分类模型进行联合训练,实现细粒度文本分类。针对细粒度文本分类的实际需求,定义层级分类体系;为了区分细粒度文本分类,引入基于对比学习的损失函数;为了构建样本的正例,提出了一种基于随机替换的数据增广方式;提出一种基于对比损失和交叉熵损失相结合的细粒度文本分类方法,引入了对比学习的思想解决细粒度文本分类问题,保证同类别样本较近的语义距离。的语义距离。的语义距离。

A fine-grained text classification method based on supervised contrastive learning

【技术实现步骤摘要】
一种基于有监督对比学习的细粒度文本分类方法


[0001]本专利技术涉及一种文本分类方法,特别是一种基于有监督对比学习的细粒度文本分类方法。

技术介绍

[0002]细粒度文本分类需要区分出具有细微差别的类间关系,比如在细粒度情感分类中不仅需要区分情感类别而且需要区分出情感强度。因此不仅需要区分褒义、贬义这2种类别,而且需要区分出褒义和贬义的程度,因此每个类别又会划分为情感的一般表达和极度描述,比如针对褒义继续划分为一般褒义和极度褒义。
[0003]本文所要解决的是因为类别间具有层级关系导致的细粒度文本分类问题,因为类别是分层的树状结构,底层的叶子类别往往具有相同的父类别,比如类别“敌对

口头

拒绝”和类别“敌对

口头

反对”具有相同的父类别“敌对

口头”,只有叶子类别不同,因为具有相同的父类别这会导致不同类别的文本之间语义上十分相似,针对该问题不仅要区分样本所属类别,而且应该区分出样本之间语义的不同。
[0004]针对普通文本分类问题,现有的解决方法是通过预训练语言模型bert得到文本的向量表示,然后利用交叉熵损失函数进行微调。但是交叉熵损失函数对于细粒度分类并不合适,因为交叉熵损失的排他性会同等看待每个类别,比如将一个原本一般褒义的样本错分极度褒义和极度贬义在损失函数上并没有不同,但实际上一般褒义的样本和极度褒义的样本语义距离更近于极度贬义,而对比学习恰恰是解决这种问题,他能保证针对当前样本距离正例的距离近于负例。因此我们引入了有监督对比损失进行联合训练,针对当前样本合理的设计正负例,对比损失可以保证当前样本距离正例的距离近于负例的距离。

技术实现思路

[0005]专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于有监督对比学习的细粒度文本分类方法。
[0006]为了解决上述技术问题,本专利技术公开了一种基于有监督对比学习的细粒度文本分类方法,包括以下步骤:
[0007]步骤1,构建文本分类模型,并定义层级分类体系,细粒度刻画类别;
[0008]步骤2,选取样本,并对于每个样本合理构建正负例,进行数据增广;
[0009]步骤3,基于交叉熵损失和对比损失对文本分类模型进行联合训练,实现细粒度文本分类。
[0010]本专利技术中,步骤1包括:
[0011]定义层级分类体系,刻画类别之间的层次化关系,不同层次的标签之间通过符号

隔开,通过定义该标签希望为政治、军事、外交等领域的新闻提供文档级的分类功能。
[0012]本专利技术中,步骤2包括:
[0013]从文本数据集中选取一批样本作为训练样本,即定义批处理内的样本个数为K,该
批处理batch内正样本集合为P,负样本集合为N,定义该批处理batch内的样本x
i
及其标签y
i
为集合{x
i
,y
i
}
i∈I
,其中集合I={1,

,K};
[0014]步骤2

1,构建训练数据集;
[0015]步骤2

2,正负例构建;
[0016]步骤2

3,基于随机词替换的数据增广。
[0017]本专利技术中,步骤2

1包括:
[0018]对于选取的样本,构建训练语料;所述训练语料包括文章标题、文章内容和文章的层级分类标签;
[0019]对训练语料进行预处理;所述预处理包括:将繁体字转换为简体字,全角数字和全角字母转为半角数字和半角字母;
[0020]将文章标题与正文采用句号拼接起来,判断长度是否超过预设的长度阈值;如果没有超过,将拼接结果作为文章;如果超过预设的长度阈值,对文章进行截断处理,将截断后的内容作为文章;
[0021]对每个样本进行上述操作得到训练数据集。
[0022]本专利技术中,步骤2

2所述正负例构建方法包括:
[0023]针对步骤2

1得到的每个训练数据集中的数据,即每个训练样本x
i
,其正例定义为具有相同类别标签的样本及其增广后的样本,负例定义为不同类别标签的样本及其增广后的样本:
[0024]P={p:p∈I,y
p
=y
i
∧p≠i}
[0025]N={p:p∈I,y
p
≠y
i
}
[0026]其中,I表示所有样本下标集合,p为集合I中的元素,y
p
为其对应的标签,y
i
表示样本x
i
的类别,P表示样本x
i
的正样本集合,N表示其负样本集合;
[0027]步骤2

3所述基于随机词替换的数据增广方法包括:
[0028]对步骤2

2中经过正负例构建的训练数据集中的数据利用jieba分词器进行分词,并随机选择如下4种替换方式:
[0029]替换方式1,同义词替换:随机选择n个单词,对于选中的每个单词利用同义词进行替换;
[0030]替换方式2,随机插入:句子中随机选择1个单词,查找到其同义词,将该同义词插入到句子随机一个位置,该过程重复n次;
[0031]替换方式3,随机替换:句子中随机选择两个单词,然后相互交换位置,该过程重复n次;
[0032]替换方式4,随机删除:针对句子中每个单词依概率p进行删除,总计删除的单词个数记作m;
[0033]m=p(del)l
[0034]其中,l表示句子长度,p(del)表示每个位置做单词删除的概率;
[0035]经过替换后得到数据增广后的训练数据集。
[0036]本专利技术中,步骤3包括:
[0037]步骤3

1,通过bert编码得到语义向量;
[0038]步骤3

2,计算对比损失拉近同类别样本距离;
[0039]步骤3

3,计算文本分类交叉熵损失;
[0040]步骤3

4,构建联合损失函数,对文本分类模型进行联合训练,实现细粒度文本分类。
[0041]本专利技术中,步骤3

1所述通过bert编码(Bert就是一种文本编码方法,BERT:Pre

training of Deep Bidirectional Transformers for Language Understanding)得到语义向量,方法包括:
[0042]对于数据增广后的训练样本通过bert分词号首位添加两个特殊标记[CLS]和[EOS],标记为:
[0043]x
i
=[CLS],t1,t2,...

【技术保护点】

【技术特征摘要】
1.一种基于有监督对比学习的细粒度文本分类方法,其特征在于,包括以下步骤:步骤1,构建文本分类模型,并定义层级分类体系,细粒度刻画类别;步骤2,选取样本,并对于每个样本合理构建正负例,进行数据增广;步骤3,基于交叉熵损失和对比损失对文本分类模型进行联合训练,实现细粒度文本分类。2.根据权利要求1所述的一种基于有监督对比学习的细粒度文本分类方法,其特征在于,步骤1包括:定义层级分类体系,刻画类别之间的层次化关系,不同层次的标签之间通过符号

隔开,通过定义该标签提供文档级的分类功能。3.根据权利要求2所述的一种基于有监督对比学习的细粒度文本分类方法,其特征在于,步骤2包括:从文本数据集中选取一批样本作为训练样本,即定义批处理内的样本个数为K,该批处理batch内正样本集合为P,负样本集合为N,定义该批处理batch内的样本x
i
及其标签y
i
为集合{x
i
,y
i
}
i∈I
,其中集合I={1,

,K};步骤2

1,构建训练数据集;步骤2

2,正负例构建;步骤2

3,基于随机词替换的数据增广。4.根据权利要求3所述的一种基于有监督对比学习的细粒度文本分类方法,其特征在于,步骤2

1包括:对于选取的样本,构建训练语料;所述训练语料包括文章标题、文章内容和文章的层级分类标签;对训练语料进行预处理;所述预处理包括:将繁体字转换为简体字,全角数字和全角字母转为半角数字和半角字母;将文章标题与正文采用句号拼接起来,判断长度是否超过预设的长度阈值;如果没有超过,将拼接结果作为文章;如果超过预设的长度阈值,对文章进行截断处理,将截断后的内容作为文章;对每个样本进行上述操作得到训练数据集。5.根据权利要求4所述的一种基于有监督对比学习的细粒度文本分类方法,其特征在于,步骤2

2所述正负例构建方法包括:针对步骤2

1得到的每个训练数据集中的数据,即每个训练样本x
i
,其正例定义为具有相同类别标签的样本及其增广后的样本,负例定义为不同类别标签的样本及其增广后的样本:P={p:p∈I,y
p
=y
i
∧p≠i}N={p:p∈I,y
p
≠y
i
}其中,I表示所有样本下标集合,p为集合I中的元素,y
p
为其对应的标签,y
i
表示样本x
i
的类别,P表示样本x
i
的正样本集合,N表示其负样本集合;步骤2

3所述基于随机词替换的数据增广方法包括:对步骤2

2中经过正负例构建的训练数据集中的数据利用jieba分词器进行分词,并随机选择如下4种替换方式:
替换方式1,同义词替换:随机选择n个单词,对于选...

【专利技术属性】
技术研发人员:徐建李晓冬阮国庆王羽
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1