融合数据扩充与课程学习的小样本文本分类方法技术

技术编号:35905554 阅读:23 留言:0更新日期:2022-12-10 10:43
本发明专利技术公开了融合数据扩充与课程学习的小样本文本分类方法,先用策略对已标注样本集进行数据扩充,再根据扩充样本的改变程度划分数据集,继而构建神经网络分类器并训练分类模型,最后使用训练得到的模型对新的样本进行分类。对学习方法进行改进和重构,一方面采用多种策略进行数据扩充,另一方面将样本按照变化程度从小到大对样本划分等级,并且在学习过程中采用课程学习的策略从易到难逐步学习,分类准确率方面显著提高。准确率方面显著提高。准确率方面显著提高。

【技术实现步骤摘要】
融合数据扩充与课程学习的小样本文本分类方法


[0001]本专利技术涉及一种融合数据扩充与课程学习的小样本文本分类方法。

技术介绍

[0002]文本分类是自然语言处理领域十分常见和关键的一类下游任务,具体场景如情感分类、意图分类、新闻主题分类等,这类任务通常需要大量已标注类别的样本用来学习;但实际业务场景中常常难以获得大规模有标注的真实文本数据,有时类别数量非常多而每个类别的样本数量很少(几个或十几个),而且不同类别之间数量不均衡现象非常普遍。在这样的情况下,传统的文本分类方法无法学到有价值的特征,或者会在仅有的样本上过拟合,不是完全没法工作,就是部分类别表现很糟糕;因此构建小样本文本分类模型非常具有挑战性。
[0003]基于小样本的学习是人类擅长的任务,而对机器学习来说是一个崭新的领域,小样本学习是元学习在监督学习领域的应用,具体来说,在训练阶段从数据集中选择C个类别,每个类别K个样本(共C*K个样本)构建为元任务,作为模型的支撑集输入去学习类别变化情况下模型的泛化能力,在测试阶段面对这C个类别全新的样本,不需要变动模型就可以完成类别预测;然而由于学习局限性(C太小)与样本特点等因素的影响,在计算机视觉上成果斐然的小样本学习方法直接运用在文本分类任务上并不能满足实际需要。

技术实现思路

[0004]本专利技术的目的是克服现有技术存在的不足,提供一种融合数据扩充与课程学习的小样本文本分类方法。
[0005]本专利技术的目的通过以下技术方案来实现:
[0006]融合数据扩充与课程学习的小样本文本分类方法,特点是:包含以下步骤:
[0007]1)用策略对已标注样本集进行数据扩充;
[0008]2)根据扩充样本的改变程度划分数据集;
[0009]3)构建神经网络分类器并训练分类模型;
[0010]4)使用训练得到的模型对新的样本进行分类。
[0011]进一步地,上述的融合数据扩充与课程学习的小样本文本分类方法,其中,S1)用策略对已标注样本集进行数据扩充,所述策略为以下数据扩充策略或其组合:
[0012](一)词等价替换,从原句中选取1个或多个非停用词语,随机选择其同近义词或上下位概念替换;
[0013](二)词随机替换,从原句中选取1个或多个词语,用词汇表中随机选取的词替换;
[0014](三)词随机交换,随机选择原句中的两个词语并交换位置,执行1次或多次;
[0015](四)随机插入,从原句中选取1个或多个非停用词语,随机选择其同近义词或上下位概念,插入到句子中的随机位置;
[0016](五)随机删除,以一比例从句子中抽取任意词执行删除;
[0017](六)来回翻译,将原句翻译为另一种语言,再翻译回原语言,根据需要,可经过两轮以上的翻译步骤得到原句的另一种表达;
[0018](七)句式变换,主动句变为被动句、直接表达变为间接/委婉表达。
[0019]进一步地,上述的融合数据扩充与课程学习的小样本文本分类方法,其中,通过策略的单独使用或组合使用,在原样本基础上生成出几倍或十几倍带有差异的变体样本;经过数据扩充处理得到多条不同形式的变体。
[0020]进一步地,上述的融合数据扩充与课程学习的小样本文本分类方法,其中,S2)根据扩充样本的改变程度划分数据集,经过步骤S1)获得原始样本变体后,为达到更好的学习效果,将样本变体按照改变程度分组并按顺序安排机器学习进度,步骤如下:
[0021]S21)计算样本变体与原样本的编辑距离;
[0022]编辑距离又称Levenshtein距离,是度量两个字符串差异程度的量化指标,指的是至少需要多少次编辑操作能从一个字符串变成另一个字符串;其允许的基本编辑操作包括插入一个字符、删除一个字符、将一个字符替换为另一个字符;
[0023]S22)计算样本变体相对原样本的改变系数;
[0024]在同等编辑距离改变的情况下,较长的句子能容许较多字符的变动而保持语义一致,而较短的句子容易发生语义变化;为更好地度量样本相对原句的改变程度,需要将句子长度纳入考虑;引入改变系数g,可由公式(1)计算得到;
[0025]g(Sen0,Sen1)=Lev(Sen0,Sen1)/Len(sen0)
ꢀꢀꢀ
公式(1)
[0026]其中Lev(Sen0,Sen1)为两个样本的编辑距离,Len(sen0)为Sen0的句子长度,句子中包含的字数;
[0027]S23)按照改变系数及其分布将样本变体划分为若干等级;
[0028]划分等级时,如果有些范围样本稀少,则可忽视这些孤立样本,最后将这些超范围样本合并到邻近的等级中;
[0029]S24)在各等级的样本变体中进行类别均衡化;
[0030]通过策略对各等级的样本变体进行类别均衡化处理,使得各类别样本数大致相当;如在某些等级中,有些类别的样本偏多,可随机剔除一部分备用;有些类别的样本数量偏少,则可重复步骤S1)适当增补,最终可获得K个不同改变等级的变体样本集用于模型学习;
[0031]S25)将样本集划分为训练集、验证集与测试集;
[0032]在模型训练前,根据功能对数据进行切分,可按比例从各类别随机选择样本构成训练集、验证集与测试集。
[0033]进一步地,上述的融合数据扩充与课程学习的小样本文本分类方法,其中,S3)构建神经网络分类器并训练分类模型,分类器使用多层感知器神经网络,或带有卷积层的神经网络构建,按如下结构搭建神经网络:
[0034]输入层:是样本的向量表示,选择BERT、Roberta预训练语言模型获取样本语句的向量;
[0035]中间层:使用带有200个隐藏单元的隐含层以及一个概率p=0.4的dropout层;
[0036]最终线性层:有40个隐藏单元。
[0037]进一步地,上述的融合数据扩充与课程学习的小样本文本分类方法,其中,训练分
类模型包括如下步骤:
[0038]S31)在原始样本上执行一遍模型训练;
[0039]训练过程可采用三元组损失模式,即给定一个三元组,锚点m,正样本z,负样本f,网络的总损失由公式(2)计算得到:
[0040][0041]其中d(m,z)、d(m,f)表示两个样本输入编码的距离,采用余弦距离;α是给正负样本对强制赋予的一个区分间隔;总损失Loss是每个三元组损失的总和;
[0042]三元组的采样方案采取两种策略:分别是随机抽样和困难样本挖掘,困难样本挖掘就是筛选d(m,z)+α>d(m,f)的样本,从数据集中选择1个样本作为锚点,在其同一类别中选择另一个作为正样本,在其他类别所有样本中随机选择一个作为负样本即可构造一个三元组作为学习单元;通过损失函数的约束,网络学习不断更新参数使每个锚点与正样本的距离尽量接近,而该锚点与负样本尽量远,从而使数据集的样本分布呈现各个类别样本之间保持一定的距离,而同类样本则近距离聚集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.融合数据扩充与课程学习的小样本文本分类方法,其特征在于:包含以下步骤:1)用策略对已标注样本集进行数据扩充;2)根据扩充样本的改变程度划分数据集;3)构建神经网络分类器并训练分类模型;4)使用训练得到的模型对新的样本进行分类。2.根据权利要求1所述的融合数据扩充与课程学习的小样本文本分类方法,其特征在于:S1)用策略对已标注样本集进行数据扩充,所述策略为以下数据扩充策略或其组合:(一)词等价替换,从原句中选取1个或多个非停用词语,随机选择其同近义词或上下位概念替换;(二)词随机替换,从原句中选取1个或多个词语,用词汇表中随机选取的词替换;(三)词随机交换,随机选择原句中的两个词语并交换位置,执行1次或多次;(四)随机插入,从原句中选取1个或多个非停用词语,随机选择其同近义词或上下位概念,插入到句子中的随机位置;(五)随机删除,以一比例从句子中抽取任意词执行删除;(六)来回翻译,将原句翻译为另一种语言,再翻译回原语言,根据需要,可经过两轮以上的翻译步骤得到原句的另一种表达;(七)句式变换,主动句变为被动句、直接表达变为间接/委婉表达。3.根据权利要求2所述的融合数据扩充与课程学习的小样本文本分类方法,其特征在于:通过策略的单独使用或组合使用,在原样本基础上生成出几倍或十几倍带有差异的变体样本;经过数据扩充处理得到多条不同形式的变体。4.根据权利要求1所述的融合数据扩充与课程学习的小样本文本分类方法,其特征在于:S2)根据扩充样本的改变程度划分数据集,经过步骤S1)获得原始样本变体后,为达到更好的学习效果,将样本变体按照改变程度分组并按顺序安排机器学习进度,步骤如下:S21)计算样本变体与原样本的编辑距离;编辑距离又称Levenshtein距离,是度量两个字符串差异程度的量化指标,指的是至少需要多少次编辑操作能从一个字符串变成另一个字符串;其允许的基本编辑操作包括插入一个字符、删除一个字符、将一个字符替换为另一个字符;S22)计算样本变体相对原样本的改变系数;在同等编辑距离改变的情况下,较长的句子能容许较多字符的变动而保持语义一致,而较短的句子容易发生语义变化;为更好地度量样本相对原句的改变程度,需要将句子长度纳入考虑;引入改变系数g,可由公式(1)计算得到;g(Sen0,Sen1)=Lev(Sen0,Sen1)/Len(sen0)
ꢀꢀꢀꢀ
公式(1)其中Lev(Sen0,Sen1)为两个样本的编辑距离,Len(sen0)为Sen0的句子长度,句子中包含的字数;S23)按照改变系数及其分布将样本变体划分为若干等级;划分等级时,如果有些范围样本稀少,则可忽视这些孤立样本,最后将这些超范围样本合并到邻近的等级中;S24)在各等级的样本变体中进行类别均衡化;通过策略对各等级的样本变体进行类别均衡化处理,使得各类别样本数大致相当;如
在某些等级中...

【专利技术属性】
技术研发人员:刘继明孟亚磊胡磊金宁陈浮
申请(专利权)人:网经科技苏州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1