【技术实现步骤摘要】
本专利技术属于自然语言处理(nlp),具体涉及一种基于软标签和数据增强的半监督文本分类方法及系统。
技术介绍
1、目前,深度学习技术在自然语言处理任务上取得了极大突破。一般而言,深度学习需要大量的有标记数据。然而,大多数情况下很难低成本获得大量高质量的有标记数据。当标记数据有限时往往会出现过拟合等问题,且大量的无标记数据无法被利用,人工标注又需要花费大量的时间、金钱。半监督学习是解决这一问题的主要方法之一。半监督学习是同时利用有标记数据和无标记数据来训练深度学习模型。为提高半监督学习的性能和稳定性,数据增强技术已经逐步应用到半监督学习中。
2、在nlp领域,回译法是最常见的文本数据增强技术。具体来说,回译法是一种利用机器翻译模型将一种语言翻译成另外一种语言,然后再将翻译结果翻译回原来的语言的方法。通过这种方式,可以生成与原始文本不同但具有相似语义和结构的新文本,从而扩充数据集。软标签是一种比硬标签更灵活的标注方式,在半监督学习中可以包含原始数据未涵盖的一些类别或特征信息,使得模型可以通过学习这些信息来更好地理解数据,是一种有
...【技术保护点】
1.基于软标签和数据增强的半监督文本分类方法,其特征是按如下步骤:
2.如权利要求1所述基于软标签和数据增强的半监督文本分类方法,其特征是,步骤S1具体如下:
3.如权利要求2所述基于软标签和数据增强的半监督文本分类方法,其特征是:步骤S2具体如下:
4.如权利要求3所述基于软标签和数据增强的半监督文本分类方法,其特征是:步骤S3具体如下:
5.如权利要求4所述基于软标签和数据增强的半监督文本分类方法,其特征是:步骤S4具体如下:
6.如权利要求5所述基于软标签和数据增强的半监督文本分类方法,其特征是:步骤S
...【技术特征摘要】
1.基于软标签和数据增强的半监督文本分类方法,其特征是按如下步骤:
2.如权利要求1所述基于软标签和数据增强的半监督文本分类方法,其特征是,步骤s1具体如下:
3.如权利要求2所述基于软标签和数据增强的半监督文本分类方法,其特征是:步骤s2具体如下:
4.如权利要求3所述基于软标签和数据增强的半监督文本分类方法,其特...
【专利技术属性】
技术研发人员:魏之佳,姚英彪,徐欣,杨阿锋,吴伟,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。