一种提示学习的小样本文本分类方法技术

技术编号:35905550 阅读:21 留言:0更新日期:2022-12-10 10:43
本发明专利技术公开了一种提示学习的小样本文本分类方法,先结合知识图谱初步构建标签词汇表;再对标签词汇表进行提炼筛选;构建提示学习模型并进行训练;最后使用提示学习模型对新的样本进行分类。采用知识图谱概念节点的临近拓展初步构建标签词汇表,避免人工制定标签词表的先验知识偏差与局限;然后采用预训练语言模型对各标签词与各类名的语义相似性进一步提炼筛选,降低冗余词对类别区分的噪声干扰;最后采用提示学习范式构建文本分类模型,通过模型训练优化参数从而对新的样本进行分类。模型训练优化参数从而对新的样本进行分类。模型训练优化参数从而对新的样本进行分类。

【技术实现步骤摘要】
一种提示学习的小样本文本分类方法


[0001]本专利技术涉及一种提示学习的小样本文本分类方法,属于自然语言处理


技术介绍

[0002]近些年来,像BERT、Roberta、ELECTRA等预训练语言模型在下游任务上取得了良好的成绩。业界经过广泛的研究发现,预训练模型之所以有效,一个关键因素是在预训练期间从大规模语料中获取丰富的知识。因此怎样更充分地利用预训练过程获取的知识成为业界关注的焦点。
[0003]文本分类是自然语言处理领域常见的一种下游任务,常用的方法是基于语言模型针对下游任务进行微调,也就是在后面连接额外的分类器,朝着分类目标进一步训练模型;然而,额外的分类器需要足够多的样本来训练模型,因此在小样本学习和零样本学习中采用微调方法困难重重。
[0004]随后业界提出了一种提示学习的方法,其主要范式是将输入语句填充到模板中并对遮蔽语言模型进行调优,相当于将分类任务转换为完形填空任务。在提示学习中,标签词到类别的映射可以有效地缓解文本与标签空间之间的差异;这种构建标签词映射的策略已经被证实在小样本和零样本场景下比语言模型接分类器直接微调更好,但这类方法缺乏一个理想的标签词集构建策略,往往需要通过人工手动扩展标签词,因此这种方法会受限于先验知识,容易导致知识扩展的遗漏和偏差,导致分类结果离期望的精度差距较大。

技术实现思路

[0005]本专利技术的目的是克服现有技术存在的不足,提供一种提示学习的小样本文本分类方法。
[0006]本专利技术的目的通过以下技术方案来实现
[0007]一种提示学习的小样本文本分类方法,特点是:包含以下步骤:
[0008]S1)结合知识图谱初步构建标签词汇表;
[0009]S2)对标签词汇表进行提炼筛选;
[0010]S3)构建提示学习模型并进行训练;
[0011]S4)使用提示学习模型对新的样本进行分类。
[0012]进一步地,上述的一种提示学习的小样本文本分类方法,其中,
[0013]S1)结合知识图谱初步构建标签词汇表;
[0014]采用提示学习进行文本分类,抽取与类别主题相关的不同角度、不同粒度的标签词,构建标签词汇表的步骤如下:
[0015]S11)根据分类样本的领域特点,选择合适的外部知识图谱;
[0016]知识图谱包含许多概念实体,并且承载不同概念之间的关系,包括上下位关系;文本分类数据集中的类别名是对一类语句样本某种特征的抽象与概括,类别名是知识图谱中的一个实体;知识图谱中众多实体与关系的知识利于对类别名的泛化,降低自动化获取标
签词集的难度;
[0017]S12)用每个类别的类名作为锚点词,从知识图谱中获取标签词集合;
[0018]对于每个类别,以类名c作为起始点,在知识图谱中搜寻与c相关性最高的N个节点N(c)作为相关词;再将c自身考虑进来,每个类别c可映射到一个标签词集Vc=N(c)∪{c};
[0019]S13)对各个类别的标签词集合并,得到初步构建的标签词汇表;
[0020]迭代每个类别,将各类别获取的标签词集合做并运算,得到一个标签词汇表V;
[0021]S2)对标签词汇表进行提炼筛选;
[0022]上一步扩展得到的标签词汇表收集了大量与类名关系紧密的词汇,但预训练语言模型与知识图谱的概念之间存在差距,词汇表中仍有对类别区分无贡献的无用词和噪声词汇,需进一步提炼,对标签词汇表进行提炼的步骤如下:
[0023]S21)选择预训练语言模型,对表外词特殊处理;
[0024]经过步骤S1)获取的标签词汇表V是预训练语言模型词表W的一个子集,如果V中包含表外词,存在w∈V且则使用该词中每个字的预测概率作为其预测概率;
[0025]S22)采用提示模板对所有样本进行包装;
[0026]给定样本语句x,将x放在模板中得到一个新的语句xp,对训练集还包括类名c;
[0027]S23)对每个类别,从标签词汇表中筛选语义最相近的词;
[0028]对于标签词汇表V中每个元素w,为衡量w与每个类的相关性,先采用语言模型M获取训练集C经过模板包装后样本中被遮盖词为w的预测概率作为w的向量表示q
w
,其中,q
w
中第i个元素如公式(1):
[0029][0030]其中,xip表示原样本xi采用模板p包装后的样本;
[0031]考虑到类名概括了类别样本的关键特征,采用类名c所对应的向量q
c
作为整个类的向量表示,每个标签词w与类别y的相关性r(w,y)通过公式(2)中q
w
与q
c
两个向量的余弦相似度进行表示;
[0032]r(w,y)=cos(q
w
,q
y
)=cos(q
w
,q
c
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0033]另外,有些标签词对多个类别有正面贡献,会导致分类混淆,为减轻混淆,采用更严格的相关性度量,设计相关性函数如公式3所示:
[0034][0035]其中,Y是所有类别名的集合,c是标签词w所对应类别的类别名;某个标签词与所在类别的相关性应高于其与其他类别的相关性,才更有代表性,将R<1的标签词进行剔除;
[0036]最终每个类别对应一组数量不等的更有代表性的标签词;
[0037]S24)对每个类别y对应的近似词汇集进行合并;
[0038]迭代每个类别,将各类别获取的标签词集合做并运算,得到一个新的标签词汇表V


[0039]S3)构建提示学习模型并进行训练;
[0040]结合步骤S21)确定的预训练语言模型、步骤S22)的提示模板以及步骤S24)得到的标签词汇表就可建立提示学习模型;已有开源库可便捷地搭建提示学习模型对文本分类任
务进行训练和推理;
[0041]S4)使用提示学习模型对新的样本进行分类
[0042]提示学习模型主要任务是将每个提炼后标签词的预测概率映射到类别标签y的决策上,采用平均权重的处理策略,假设最终标签词汇表中每个词对类别预测有同等贡献,那么用标签y对应的词汇集Vy中各词概率的平均值作为标签y的预测分数,从而进行文本分类;最终预测的类别y
y
由公式(4)得出:
[0043][0044]其中,p([MASK]=w|xp)表示对于已知样本xp其中被遮盖位置的词是w的概率;argmax是取最大值所在类别的函数;公式中取平均概率最大值所在的y赋值给y
y
作为预测结果。
[0045]进一步地,上述的一种提示学习的小样本文本分类方法,其中,步骤S11),可公开访问的有通用领域的常识百科知识图谱,包含Freebase、CN

DBpedia、YAGO、Probase,也有特定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提示学习的小样本文本分类方法,其特征在于:包含以下步骤:S1)结合知识图谱初步构建标签词汇表;S2)对标签词汇表进行提炼筛选;S3)构建提示学习模型并进行训练;S4)使用提示学习模型对新的样本进行分类。2.根据权利要求1所述的一种提示学习的小样本文本分类方法,其特征在于:S1)结合知识图谱初步构建标签词汇表;采用提示学习进行文本分类,抽取与类别主题相关的不同角度、不同粒度的标签词,构建标签词汇表的步骤如下:S11)根据分类样本的领域特点,选择合适的外部知识图谱;知识图谱包含许多概念实体,并且承载不同概念之间的关系,包括上下位关系;文本分类数据集中的类别名是对一类语句样本某种特征的抽象与概括,类别名是知识图谱中的一个实体;知识图谱中众多实体与关系的知识利于对类别名的泛化,降低自动化获取标签词集的难度;S12)用每个类别的类名作为锚点词,从知识图谱中获取标签词集合;对于每个类别,以类名c作为起始点,在知识图谱中搜寻与c相关性最高的N个节点N(c)作为相关词;再将c自身考虑进来,每个类别c可映射到一个标签词集Vc=N(c)∪{c};S13)对各个类别的标签词集合并,得到初步构建的标签词汇表;迭代每个类别,将各类别获取的标签词集合做并运算,得到一个标签词汇表V;S2)对标签词汇表进行提炼筛选;上一步扩展得到的标签词汇表收集了大量与类名关系紧密的词汇,但预训练语言模型与知识图谱的概念之间存在差距,词汇表中仍有对类别区分无贡献的无用词和噪声词汇,需进一步提炼,对标签词汇表进行提炼的步骤如下:S21)选择预训练语言模型,对表外词特殊处理;经过步骤S1)获取的标签词汇表V是预训练语言模型词表W的一个子集,如果V中包含表外词,存在w∈V且则使用该词中每个字的预测概率作为其预测概率;S22)采用提示模板对所有样本进行包装;给定样本语句x,将x放在模板中得到一个新的语句xp,对训练集还包括类名c;S23)对每个类别,从标签词汇表中筛选语义最相近的词;对于标签词汇表V中每个元素w,为衡量w与每个类的相关性,先采用语言模型M获取训练集C经过模板包装后样本中被遮盖词为w的预测概率作为w的向量表示q
w
,其中,q
w
中第i个元素如公式(1):其中,xip表示原样本xi采用模板p包装后的样本;考虑到类名概括了类别样本的关键特征,采用类名c所对应的向量q
c
作为整个类的向量表示,每个标签词w与类别y的相关性r(w,y)通过公式(2)中q
w
与q
c
两个向量的余弦相似度进行表示;r(w,y)=cos(q
w
,q
y
)=cos(q
w
,q
c
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
...

【专利技术属性】
技术研发人员:孟亚磊黄明宇金宁刘继明陈浮
申请(专利权)人:网经科技苏州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1