【技术实现步骤摘要】
融合数据扩充与课程学习的小样本文本分类方法
[0001]本专利技术涉及一种融合数据扩充与课程学习的小样本文本分类方法。
技术介绍
[0002]文本分类是自然语言处理领域十分常见和关键的一类下游任务,具体场景如情感分类、意图分类、新闻主题分类等,这类任务通常需要大量已标注类别的样本用来学习;但实际业务场景中常常难以获得大规模有标注的真实文本数据,有时类别数量非常多而每个类别的样本数量很少(几个或十几个),而且不同类别之间数量不均衡现象非常普遍。在这样的情况下,传统的文本分类方法无法学到有价值的特征,或者会在仅有的样本上过拟合,不是完全没法工作,就是部分类别表现很糟糕;因此构建小样本文本分类模型非常具有挑战性。
[0003]基于小样本的学习是人类擅长的任务,而对机器学习来说是一个崭新的领域,小样本学习是元学习在监督学习领域的应用,具体来说,在训练阶段从数据集中选择C个类别,每个类别K个样本(共C*K个样本)构建为元任务,作为模型的支撑集输入去学习类别变化情况下模型的泛化能力,在测试阶段面对这C个类别全新的样本,不需要变动模型就可以完成类别预测;然而由于学习局限性(C太小)与样本特点等因素的影响,在计算机视觉上成果斐然的小样本学习方法直接运用在文本分类任务上并不能满足实际需要。
技术实现思路
[0004]本专利技术的目的是克服现有技术存在的不足,提供一种融合数据扩充与课程学习的小样本文本分类方法。
[0005]本专利技术的目的通过以下技术方案来实现:
[0006]融合数据扩充与课程学 ...
【技术保护点】
【技术特征摘要】
1.融合数据扩充与课程学习的小样本文本分类方法,其特征在于:包含以下步骤:1)用策略对已标注样本集进行数据扩充;2)根据扩充样本的改变程度划分数据集;3)构建神经网络分类器并训练分类模型;4)使用训练得到的模型对新的样本进行分类。2.根据权利要求1所述的融合数据扩充与课程学习的小样本文本分类方法,其特征在于:S1)用策略对已标注样本集进行数据扩充,所述策略为以下数据扩充策略或其组合:(一)词等价替换,从原句中选取1个或多个非停用词语,随机选择其同近义词或上下位概念替换;(二)词随机替换,从原句中选取1个或多个词语,用词汇表中随机选取的词替换;(三)词随机交换,随机选择原句中的两个词语并交换位置,执行1次或多次;(四)随机插入,从原句中选取1个或多个非停用词语,随机选择其同近义词或上下位概念,插入到句子中的随机位置;(五)随机删除,以一比例从句子中抽取任意词执行删除;(六)来回翻译,将原句翻译为另一种语言,再翻译回原语言,根据需要,可经过两轮以上的翻译步骤得到原句的另一种表达;(七)句式变换,主动句变为被动句、直接表达变为间接/委婉表达。3.根据权利要求2所述的融合数据扩充与课程学习的小样本文本分类方法,其特征在于:通过策略的单独使用或组合使用,在原样本基础上生成出几倍或十几倍带有差异的变体样本;经过数据扩充处理得到多条不同形式的变体。4.根据权利要求1所述的融合数据扩充与课程学习的小样本文本分类方法,其特征在于:S2)根据扩充样本的改变程度划分数据集,经过步骤S1)获得原始样本变体后,为达到更好的学习效果,将样本变体按照改变程度分组并按顺序安排机器学习进度,步骤如下:S21)计算样本变体与原样本的编辑距离;编辑距离又称Levenshtein距离,是度量两个字符串差异程度的量化指标,指的是至少需要多少次编辑操作能从一个字符串变成另一个字符串;其允许的基本编辑操作包括插入一个字符、删除一个字符、将一个字符替换为另一个字符;S22)计算样本变体相对原样本的改变系数;在同等编辑距离改变的情况下,较长的句子能容许较多字符的变动而保持语义一致,而较短的句子容易发生语义变化;为更好地度量样本相对原句的改变程度,需要将句子长度纳入考虑;引入改变系数g,可由公式(1)计算得到;g(Sen0,Sen1)=Lev(Sen0,Sen1)/Len(sen0)
ꢀꢀꢀꢀ
公式(1)其中Lev(Sen0,Sen1)为两个样本的编辑距离,Len(sen0)为Sen0的句子长度,句子中包含的字数;S23)按照改变系数及其分布将样本变体划分为若干等级;划分等级时,如果有些范围样本稀少,则可忽视这些孤立样本,最后将这些超范围样本合并到邻近的等级中;S24)在各等级的样本变体中进行类别均衡化;通过策略对各等级的样本变体进行类别均衡化处理,使得各类别样本数大致相当;如
在某些等级中...
【专利技术属性】
技术研发人员:刘继明,孟亚磊,胡磊,金宁,陈浮,
申请(专利权)人:网经科技苏州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。