基于软标签和数据增强的半监督文本分类方法及系统技术方案

技术编号:40171512 阅读:33 留言:0更新日期:2024-01-26 23:41
本发明专利技术公开了一种基于软标签和数据增强的半监督文本分类方法及系统,方法步骤如下:S1、对无标签的数据样本赋予初始标签,并初始化模型参数;S2、在BERT模型中随机选择第k层隐藏层进行有标签文本和无标签文本隐藏层输出的TMix操作;S3、基于UDA的无监督学习;S4、更新最终损失与模型;S5、更新无标签样本的标签;S6、返回执行步骤S2,直到达到最大训练轮数或预设的性能目标为止。本发明专利技术不仅对数据进行数据增强,又以多种方式挖掘数据的信息,丰富了模型的表达能力。

【技术实现步骤摘要】

本专利技术属于自然语言处理(nlp),具体涉及一种基于软标签和数据增强的半监督文本分类方法及系统


技术介绍

1、目前,深度学习技术在自然语言处理任务上取得了极大突破。一般而言,深度学习需要大量的有标记数据。然而,大多数情况下很难低成本获得大量高质量的有标记数据。当标记数据有限时往往会出现过拟合等问题,且大量的无标记数据无法被利用,人工标注又需要花费大量的时间、金钱。半监督学习是解决这一问题的主要方法之一。半监督学习是同时利用有标记数据和无标记数据来训练深度学习模型。为提高半监督学习的性能和稳定性,数据增强技术已经逐步应用到半监督学习中。

2、在nlp领域,回译法是最常见的文本数据增强技术。具体来说,回译法是一种利用机器翻译模型将一种语言翻译成另外一种语言,然后再将翻译结果翻译回原来的语言的方法。通过这种方式,可以生成与原始文本不同但具有相似语义和结构的新文本,从而扩充数据集。软标签是一种比硬标签更灵活的标注方式,在半监督学习中可以包含原始数据未涵盖的一些类别或特征信息,使得模型可以通过学习这些信息来更好地理解数据,是一种有效的半监督学习方法。本文档来自技高网...

【技术保护点】

1.基于软标签和数据增强的半监督文本分类方法,其特征是按如下步骤:

2.如权利要求1所述基于软标签和数据增强的半监督文本分类方法,其特征是,步骤S1具体如下:

3.如权利要求2所述基于软标签和数据增强的半监督文本分类方法,其特征是:步骤S2具体如下:

4.如权利要求3所述基于软标签和数据增强的半监督文本分类方法,其特征是:步骤S3具体如下:

5.如权利要求4所述基于软标签和数据增强的半监督文本分类方法,其特征是:步骤S4具体如下:

6.如权利要求5所述基于软标签和数据增强的半监督文本分类方法,其特征是:步骤S5具体如下:

...

【技术特征摘要】

1.基于软标签和数据增强的半监督文本分类方法,其特征是按如下步骤:

2.如权利要求1所述基于软标签和数据增强的半监督文本分类方法,其特征是,步骤s1具体如下:

3.如权利要求2所述基于软标签和数据增强的半监督文本分类方法,其特征是:步骤s2具体如下:

4.如权利要求3所述基于软标签和数据增强的半监督文本分类方法,其特...

【专利技术属性】
技术研发人员:魏之佳姚英彪徐欣杨阿锋吴伟
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1