一种混合策略感知的文本情感强度标注方法及系统技术方案

技术编号:38094381 阅读:18 留言:0更新日期:2023-07-06 09:07
本发明专利技术公开了一种混合策略感知的文本情感强度标注方法及系统,属于自然语言处理技术领域,首先预训练情感标注模型为待标注文本进行自动预标注,然后利用情感词典和规则构建了多规则投票机制对该文本进行情感强度投票决策,最后在训练过程中利用决策机制来动态调整预训练的情感标注模型,从而提升其情感强度标注能力。该方法平衡了人工标注的低时效高质量和自动标注高时效低质量的问题,能够较为准确的实现文本情感强度标注。实验结果表明,本发明专利技术在文本情感强度标注任务上具有良好表现,验证了本发明专利技术的有效性。证了本发明专利技术的有效性。证了本发明专利技术的有效性。

【技术实现步骤摘要】
一种混合策略感知的文本情感强度标注方法及系统


[0001]本专利技术涉及自然语言处理
,更具体的说是涉及一种混合策略感知的文本情感强度标注方法及系统。

技术介绍

[0002]情感强度是情感的细腻化表达,在情感交互中扮演着重要角色。因此,国际计算语言学会在2007年提出了文本情感强度计算的评测任务,引起了研究者的广泛关注。情感强度作为情感的一个关键属性,细粒度的有标注情感强度文本语料在情感生成、情感对话和情感分析等方面有着重要意义。因此探索一种高效的自动文本情感强度标注方法成为了研究热点。
[0003]文本情感强度标注旨在对文本类型数据的情感强度值标注。受限于情感强度的主观性和复杂性,现有的工作通常以人工众包或有监督的方式来完成。人工标注的方式能获得较高的标注质量但效率低下。有监督的方式往往通过训练情感强度分类模型来实现,针对大量无标注数据时有较高的标注效率。但这种计算机生成的标注和人工标注之间存在较大差距,如何缓解二者之间的矛盾是需要考虑的一个问题。
[0004]因此,提出一种混合策略感知的文本情感强度标注方法及系统,平衡自动标注方法和人工规则标注方法的数据标注质量及工作复杂度,获取高质量情感强度标注数据,是本领域技术人员亟需解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种混合策略感知的文本情感强度标注方法及系统,能够在开放域文本上进行可靠情感强度标注,提高情感强度标注模型的可靠性和准确性。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]一方面,本专利技术公开一种混合策略感知的文本情感强度标注方法,包括以下步骤:
[0008]构建混合策略感知标注机制,分别利用自动标注模型和多规则投票机制对文字序列X进行情感强度预标注,生成第一情感强度标签I

和第二情感强度标签I
*

[0009]通过融合决策机制对所述第一情感强度标签I

和第二情感强度标签I
*
进行决策,获得所述文字序列X的最佳情感强度标签I;
[0010]基于所述最佳情感强度标签I以及最小化交叉熵损失函数优化所述自动标注模型,得到优化情感标注模型;
[0011]将所述文字序列X输入所述优化情感标注模型,输出情感强度标注结果。
[0012]优选的,所述多规则投票机制为:
[0013]构建多规则R,使用所述多规则R对所述文字序列X进行标注,得到多规则标注结果;
[0014]采用情感强度标签投票生成算法对所述多规则标注结果进行投票决策,生成第二情感强度标签I
*

[0015]优选的,构建多规则R,使用所述多规则R对所述文字序列X进行标注,得到多规则标注结果,包括:
[0016](1)确定标注规则数量K,并定义转折词权值;
[0017](2)依据K值和情感词典中的程度副词层级为程度词赋初始值;当所述文字序列X中某程度词前有转折词时,则该程度词的权值为初始值与所述转折词权值之积;
[0018](3)当所述标注规则数量K大于1时,程度副词层级各级的程度词权值均在初始值的基础上均增加n*s,n为标注规则数量K的取值,s为权值步长;迭代后的权值大于1.0时仍视为1.0;
[0019](4)获取所述文字序列X中所有程度词权值之和的绝对值,作为当前规则下对所述文字序列X标注的情感强度值;
[0020](5)获取不同规则下对所述文字序列X标注的情感强度值,得到多规则标注结果。
[0021]优选的,所述情感强度标签投票生成算法对所述多规则标注结果进行投票决策,生成第二情感强度标签I
*
,包括:
[0022]计算不同规则下对所述文字序列X标注的情感强度值的标注和;
[0023]获取所述标注和的平均值;
[0024]对所述平均值向下取整,得到第二情感强度标签I
*

[0025]优选的,所述融合决策机制通过计算所述第一情感强度标签I

和第二情感强度标签I
*
的置信度决策出最佳情感强度标签I;
[0026]选取置信度最大的情感强度标签作为最佳情感强度标签I。
[0027]优选的,基于所述最佳情感强度标签I以及最小化交叉熵损失函数优化所述自动标注模型,得到优化情感标注模型,包括:
[0028]根据所述最小化交叉熵损失函数更新所述自动标注模型的模型参数,得到优化情感标注模型;
[0029]所述最小交叉熵损失函数如下所示:
[0030][0031]N为语句的数量,k为N句话中随机一句话;L
k
为语句k的损失值;p
kI
为对于语句k属于最佳情感强度I的预测概率,通过情感标注模型得到;y
kI
为指示变量,若最佳情感强度标签I和语句k的标签情感强度I
k
相同则为1,否则为0,公式如下:
[0032][0033]式中,所述语句k的标签情感强度I
k
由所述自动标注模型输出。
[0034]另一方面,本专利技术还公开一种混合策略感知的文本情感强度标注系统,用于实现上述混合策略感知的文本情感强度标注方法,包括:
[0035]自动标注模块,用于利用自动标注模型对文字序列X进行情感强度预标注,生成第一情感强度标签I


[0036]多规则投票标注模块,用于根据多规则投票机制对文字序列X进行情感强度预标注,生成第二情感强度标签I
*

[0037]融合决策模块,用于对所述第一情感强度标签I

和第二情感强度标签I
*
进行决
策,获得所述文字序列X的最佳情感强度标签I;
[0038]模型优化模块,用于基于所述最佳情感强度标签I以及最小化交叉熵损失函数优化所述自动标注模型,得到优化情感标注模型;
[0039]情感强度标注模块,用于将所述文字序列X输入所述优化情感标注模型,输出情感强度标注结果。
[0040]经由上述的技术方案可知,与现有技术相比,本专利技术公开提供了一种混合策略感知的文本情感强度标注方法及系统,首先预训练情感标注模型为待标注文本进行自动预标注,然后利用情感词典和规则构建了多规则投票机制对该文本进行情感强度投票决策,最后在训练过程中利用决策机制来动态调整预训练的情感标注模型,从而提升其情感强度标注能力。该方法平衡了人工标注的低时效高质量和自动标注高时效低质量的问题,能够较为准确的实现文本情感强度标注。实验结果表明,本专利技术提出的混合策略感知的文本情感强度标注(MSA

EILF)方法及系统在文本情感强度标注任务上具有良好表现,验证了本专利技术方法的有效性。
附图说明
[0041]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种混合策略感知的文本情感强度标注方法,其特征在于,包括以下步骤:构建混合策略感知标注机制,分别利用自动标注模型和多规则投票机制对文字序列X进行情感强度预标注,生成第一情感强度标签I

和第二情感强度标签I
*
;通过融合决策机制对所述第一情感强度标签I

和第二情感强度标签I
*
进行决策,获得所述文字序列X的最佳情感强度标签I;基于所述最佳情感强度标签I以及最小化交叉熵损失函数优化所述自动标注模型,得到优化情感标注模型;将所述文字序列X输入所述优化情感标注模型,输出情感强度标注结果。2.根据权利要求1所述的一种混合策略感知的文本情感强度标注方法,其特征在于,所述多规则投票机制为:构建多规则R,使用所述多规则R对所述文字序列X进行标注,得到多规则标注结果;采用情感强度标签投票生成算法对所述多规则标注结果进行投票决策,生成第二情感强度标签I
*
。3.根据权利要求2所述的一种混合策略感知的文本情感强度标注方法,其特征在于,构建多规则R,使用所述多规则R对所述文字序列X进行标注,得到多规则标注结果,包括:(1)确定标注规则数量K,并定义转折词权值;(2)依据K值和情感词典中的程度副词层级为程度词赋初始值;当所述文字序列X中某程度词前有转折词时,则该程度词的权值为初始值与所述转折词权值之积;(3)当所述标注规则数量K大于1时,程度副词层级各级的程度词权值均在初始值的基础上均增加n*s,n为标注规则数量K的取值,s为权值步长;(4)获取所述文字序列X中所有程度词权值之和的绝对值,作为当前规则下对所述文字序列X标注的情感强度值;(5)获取不同规则下对所述文字序列X标注的情感强度值,得到多规则标注结果。4.根据权利要求3所述的一种混合策略感知的文本情感强度标注方法,其特征在于,所述当所述标注规则数量K大于1时,程度副词层级各级的程度词权值均在初始值的基础上均增加n*s,n为标注规则数量K的取值,s为权值步长,还包括:当迭代后的程度词权值大于1.0时,所述程度词权值则视为1.0。5.根据权利要求3所述的一种混合策略感知的文本情感强度标注方法,其特征在于,所述情感强度标签投票生成算法对所述多规则标注结果...

【专利技术属性】
技术研发人员:许璧麒马志强周钰童贾文超王春喻
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1