一种基于提示学习的隐性情感识别方法技术

技术编号:38854843 阅读:15 留言:0更新日期:2023-09-17 10:00
本发明专利技术公开了一种基于提示学习的隐性情感识别方法,包括以下步骤:获取情感文本进行主题识别,基于识别的主题,选择种子词对应的母类别;基于种子词对应的母类别,采用未标记评论的聚类和余弦相似度对所述种子词继续进行类别检测,获得所述种子词对应的子类别;构建提示模板,将所述种子词对应的子类别嵌入到所述提示模板中并进行训练,将训练后的提示模板与预训练语言模型相结合,识别出对应的隐性情感。本发明专利技术构建的提示模板相较于手工构建的模板可以更加匹配预训练语言模型,通过让下游任务主动适应大型预训练语言模型的方式提升学习效率。学习效率。学习效率。

【技术实现步骤摘要】
一种基于提示学习的隐性情感识别方法


[0001]本专利技术属于人工智能,自然语言处理以及情感分析
,特别是涉及一种基于提示学习的隐性情感识别方法。

技术介绍

[0002]情感分析是自然语言处理领域的经典任务。从最初的文本粗粒度情感分析发展至今,已经取得了较大的进步。将无明显情感词却可以传达情感倾向的数据定义为隐性情感数据,其表达的情感倾向定义为隐形情感。现有的大量工作均聚焦于显式情感的分析工作,隐性情感相较于显式情感,在现实世界中广泛分布,具有较高的挖掘潜力。因其指向对象不明晰,情感极性的判断需要引入外部知识等技术难点成为了近年来的研究热点。
[0003]对于隐式情感的捕捉,现有方案提出了运用大型预训练模型,在大型语料库中检索,运用SCAPT模型从语料库中学习情感知识,对从领域内语言资源中检索到的大规模语料库进行了监督对比预训练。该方案对计算资源的要求较高,下游任务没有很好的贴近大型预训练模型,不能高效利用大型预训练模型中的知识。现有方案还提出了针对事件的表示方法,构建情绪检测模型,但是该模型是文本中提取出来的前提下建立的,不能实现端到端的隐性情感分析。现有方案还提出了一种修正算法,直接使用隐式特征和词之间的共现来寻找隐式特征,但是该方法没有进行语义消歧,大量未标记数据中蕴含的信息无法注入到模型中,没有探究不同词性间与隐式特征的关系。
[0004]因此,针对现有技术中存在的问题,亟需提出一种基于提示学习的隐性情感识别方法,以解决低资源工况下隐式情感无情感指向情感数据分析问题。
专利技术内
[0005]本专利技术的目的是提供一种基于提示学习的隐性情感识别方法,以解决上述现有技术存在的问题。
[0006]为实现上述目的,本专利技术提供了一种基于提示学习的隐性情感识别方法,包括以下步骤:
[0007]获取情感文本进行主题识别,基于识别的主题,选择种子词对应的母类别;
[0008]基于种子词对应的母类别,采用未标记评论的聚类和余弦相似度对所述种子词继续进行类别检测,获得所述种子词对应的子类别;
[0009]构建提示模板,将所述种子词对应的子类别嵌入到所述提示模板中并进行训练,将训练后的提示模板与预训练语言模型相结合,识别出对应的隐性情感。
[0010]可选地,基于未标记评论的聚类和余弦相似度对所述种子词进行类别检测的过程包括:获取待测种子词与目标类别中每个种子词的余弦相似性并取平均值;基于BERT模型在数据集上做词嵌入,从数据集中获取一组未标记的句子,使用k均值聚类算法,获得未标记的句子的词嵌入平均值之间的欧几里得距离,基于所述欧几里得距离对将未标记的句子进行聚类,并获取每个类别的余弦相似性;将待测种子词的余弦相似性与所述每个类别的
余弦相似性进行分析对比,获得待测种子词对应的子类别。
[0011]可选地,所述提示模板的表达式如下式所示:
[0012]T=[x][v1][v2]...[v
m
][mask][0013]其中T为提示模板,x为种子词对应的类别,{v1、v2
……
vm}为伪标记,mask为预测结果。
[0014]可选地,所述提示模板中的字符串包括第一空位和第二空位,所述第一空位用于输入所述种子词对应的类别,所述第二空位用于填充基于所述预训练语言模型获得的对应的预测结果。
[0015]可选地,所述预训练语言模型在语义空间内对所述提示模板进行动态调整。
[0016]可选地,对所述提示模板进行训练的过程包括:获取所述预训练模型中的词汇表,对每个伪标记随机指定词汇表中的一个词汇,然后对每个词汇进行初始化,取每个词汇对应的词汇表作为伪标记的初始化,完成对每个伪标记以及对应的参数的训练,获得训练后的提示模板。
[0017]可选地,对所述种子词对应的类别进行识别的过程包括:将所述种子词对应的类别输入到训练后的提示模板中,基于预训练语言模型对所述种子词对应的类别进行分析识别,获得对应的预测结果,并将对应的预测结果填充在所述训练后的提示模板中,然后基于预训练语言模型预测对应的预测结果的概率,进而输出最终的隐性情感。
[0018]本专利技术的技术效果为:
[0019](1)本专利技术提出的基于提示学习的隐性情感识别方法可以自动化的切换不同领域,确定相应的种子词,并应用提示学习技术进行隐性情感识别。传统的手工构建的模板由于其固定的模式,不能灵活的与不同数据进行适配,而本专利技术构建的提示模板相较于手工构建的模板可以更加匹配预训练语言模型,通过让下游任务主动适应大型语预训练言模型的方式,更加高效的利用了预训练语言模型中的先验知识,提升了学习效率。
[0020](2)本专利技术提出的基于提示学习的隐性情感识别方法降低了对计算资源与数据资源的要求,可以在低资源工况下实现。
附图说明
[0021]构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0022]图1为本专利技术实施例中的文本主体识别种子词的示意图(以餐厅类为例);
[0023]图2为本专利技术实施例中的利用未标记评论的聚类和余弦相似度进行类别检测的流程示意图;
[0024]图3为本专利技术实施例中的基于提示模板进行隐性情感识别的示意图;
[0025]图4为本专利技术实施例中的在不同的系数α和不同k值下的模型表现示意图,其中(a)为以F1score为指标,不同系数α下的模型表现示意图,(b)为以F1score为指标,不同k值下的模型表现示意图。
具体实施方式
[0026]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相
互组合。下面将参考附图并结合实施例来详细说明本申请。
[0027]需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0028]实施例一
[0029]本实施例中提供一种基于提示学习的隐性情感识别方法,包括以下步骤:获取情感文本进行主题识别,基于识别的主题,获得种子词;基于未标记评论的聚类和余弦相似度对所述种子词进行类别检测,获得所述种子词对应的类别;构建提示模板并进行训练,将训练后的提示模板与预训练语言模型相结合,对所述种子词对应的类别进行识别,输出对应的隐性情感。
[0030]作为具体的实施例,如图1所示,首先获取文本,运用文本主题识别模型进行文本主题识别;然后根据识别的主题确定不同领域的种子词;如图2所示,利用未标记评论的聚类和余弦相似性度来完成类别检测任务,。
[0031]可实施的,以餐饮类为例,将相似性定义为句子与属于该类别的每个种子词之间的余弦相似性值的平均值。基于BERT在Yelp数据集上做词嵌入,从Yelp数据集中获取一组未标记的句子。使用k均值聚类算法,获取句子中单词的词嵌入平均本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于提示学习的隐性情感识别方法,其特征在于,包括以下步骤:获取情感文本进行主题识别,基于识别的主题,选择种子词对应的母类别;基于种子词对应的母类别,采用未标记评论的聚类和余弦相似度对所述种子词继续进行类别检测,获得所述种子词对应的子类别;构建提示模板,将所述种子词对应的子类别嵌入到所述提示模板中并进行训练,将训练后的提示模板与预训练语言模型相结合,识别出对应的隐性情感。2.根据权利要求1所述的基于提示学习的隐性情感识别方法,其特征在于,基于未标记评论的聚类和余弦相似度对所述种子词进行类别检测的过程包括:获取待测种子词与目标类别中每个种子词的余弦相似性并取平均值;基于BERT模型在Yelp数据集上做词嵌入,从Yelp数据集中获取一组未标记的句子,使用k均值聚类算法,获得未标记的句子的词嵌入平均值之间的欧几里得距离,基于所述欧几里得距离对将未标记的句子进行聚类,并获取每个类别的余弦相似性;将待测种子词的余弦相似性与所述每个类别的余弦相似性进行分析对比,获得待测种子词对应的子类别。3.根据权利要求1所述的基于提示学习的隐性情感识别方法,其特征在于,所述提示模板的表达式如下式所示:T=[x][v1][v2]...[v
m
][mask]其中T为提示模板,x为种子词对应的...

【专利技术属性】
技术研发人员:卜坤刘远超刘秉权孙承杰单丽莉林磊
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1