【技术实现步骤摘要】
基于提示学习的小样本关系分类方法、系统、介质及电子设备
[0001]本专利技术涉及物理领域,尤其属于涉及自然语言处理技术,特别是一种基于提示学习的小样本关系分类方法、系统、介质及电子设备。
技术介绍
[0002]关系分类作为自然语言处理中的一个重要问题,其目的是提取句子中实体之间的关系,并可应用于其他高级任务,可以对句子中实体对之间的语义关系进行分类,关系分类属于针对限定类别的关系抽取问题。传统的关系分类是在标准的监督学习系统下训练的,需要大量的标记实例。因此,出现了一个具有挑战性的任务,即小样本关系分类。
[0003]然而,由于不同语言、领域和人类注释的成本,在现实世界的应用中,标注过的例子数量通常非常少。因此,传统的有监督的学习,使用少量的标记数据,很难达到令人满意的性能。因此,出现了一个具有挑战性的任务即小样本关系分类任务,小样本关系分类是利用极少量的标注数据训练模型,使得模型可以快速学习到关系类别的特征,从而对只有少量样本进行准确性分类。
[0004]在小样本关系分类领域中,大致分为两个方向,一个方向 ...
【技术保护点】
【技术特征摘要】
1.一种基于提示学习的小样本关系分类方法,其特征在于,包括以下步骤:步骤一、根据输入实例中实体的类别构建实体类别待预测词,并针对所述实体类别待预测词设置标签词集,及对所述标签词集进行特征向量的编码,获取特征向量编码;所述输入实例中包括至少两个实体,且至少两个实体中至少包括头实体和尾实体;步骤二、构建实体类别模版;所述实体类别模版中至少包括所述实体类别待预测词、每一所述实体的相关信息及所述实体类别待预测词的位置;其中,所述相关信息至少包括:侧面信息、实体名称及位置关系;步骤三、使用所述实体类别模版包裹所述输入实例形成提示输入,并利用Roberta预训练语言模型作为实例编码器对所述提示输入进行编码,计算得到所述实体类别待预测词的第一隐藏向量;所述第一隐藏向量包括每一所述实体的类别信息;步骤四、将所述第一隐藏向量与所述特征向量编码进行对照,预测出所述实体的类别,并利用关系三元组的结构性知识,对所述实体类别模版进行聚合,获取完整的提示模版;步骤五、将所述提示模版送入所述Roberta预训练语言模型中进行编码预测,计算得到所述实体类别待预测词的第二隐藏向量,并将所述第二隐藏向量投射至嵌入空间中,学习所述第二隐藏向量的原型,及将所述原型映射到对应的标签,以实现分类;所述第二隐藏向量包括所述头实体和所述尾实体之间的关系信息。2.根据权利要求1所述的基于提示学习的小样本关系分类方法,其特征在于,所述标签词集、所述提示模版、所述输入实例及所述提示输入分别形式化为:V={
″
person
″
,
″
organization
″
,...};T(
·
)
es
=the[MASK]
es
e
s
;T(
·
)
eo
=the[MASK]
eo
e
o
;;;其中,x表示所述输入实例;w1、w2、wt均表示所述输入实例中的词,共有t个;e
s
表示所述头实体;e
o
表示所述尾实体;分别表示所述头实体的开始位置标记和结束位置标记;分别表示所述尾实体的开始位置标记和结束位置标记;T(
·
)表示所述提示模版;[MASK]表示所述实体类别待预测词;V表示所述标签词集;T(x)表示所述提示输入。3.根据权利要求2所述的基于提示学习的小样本关系分类方法,其特征在于,所述步骤三形式化为:把输入进所述Roberta预训练语言模型最后一层的[MASK]标记的隐藏状态h
[MASK]
作为所述第一隐藏向量表示为:其中,M
φ
(
·
)表示以φ为参数的Roberta预训练语言模型,u表示所述第一隐藏向量;W表示经训练得到的矩阵。4.根据权利要求3所述的基于提示学习的小样本关系分类方法,其特征在于,所述步骤四形式化为:
[type
es
],[type
eo
]∈V;T(
·
)=[type
es
]e
s
[MASK][type
eo
]e
o
;其中,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。