一种基于BERT对抗训练的比较句情感分析方法及系统技术方案

技术编号:34555876 阅读:30 留言:0更新日期:2022-08-17 12:41
本发明专利技术公开了一种基于BERT对抗训练的比较句情感分析方法及系统,通过将预训练语言模型BERT与对抗训练过程相结合,从而创新地获取评论文本中更加丰富的语义特征信息,并降低数据集中大量的非比较句所带来的噪声影响,提升对于比较句情感分析的性能。本发明专利技术通过引入预训练语言模型BERT对输入的评论文本进行编码,有效地识别比较句文本中的深层语义以及逻辑关系;通过引入对抗训练过程,可以降低数据集中大量的非比较句带来的干扰,并且可以识别出比较句中数据样本较小的“WORSE”类别的文本,从而有效地预测出评论中的情感倾向。本发明专利技术在真实数据集上进行的广泛实验,证实了与最先进的模型相比本发明专利技术具有更加良好的性能。的模型相比本发明专利技术具有更加良好的性能。的模型相比本发明专利技术具有更加良好的性能。

【技术实现步骤摘要】
一种基于BERT对抗训练的比较句情感分析方法及系统


[0001]本专利技术属于比较句识别
,涉及一种基于BERT对抗训练的比较句 情感分析方法及系统。

技术介绍

[0002]近年来,随着互联网迅速发展以及社会化媒体的日益普及,网购用户数目 逐年递增,越来越多的用户愿意在网站上对商品进行评论。这些评论承载用户 对产品的使用感受以及建议,蕴含着大量有价值的信息。不仅可以为其他消费 者提供参考,也可以为商家提供改进建议。但是由于网络信息过载等问题,用 户无法没有时间充分阅读浏览全部的评论,而且还有可能会被大量的信息干扰 信息所影响,无法在短时间内对商品的质量或者购买倾向做出正确有效的决策。 特别是在用户评论中存在着一些比较或者对比的评论,这种比较句通常表达多 个实体之间关于某种属性特征的优先偏好排序的情况,这些比较评论不仅可以 帮助消费者快速做出有效的判断,还可以帮助商家更直观的发现其与竞争对手 间的差距并做出相应的改进。因此,近年来如何对用户评论中的比较句进行情 感分析,判断出评论者更倾向于哪一个比较实体已成为电商界和学术界中需要 迫切解决的关键性问题之一。
[0003]现有的比较句识别方法首先从句子中提取比较句的句法结构特征,然后使 用机器学习方法对提取到的特征进行有监督学习。而比较句情感分析则是在比 较句识别的基础上,进一步使用标签序列标注(LSR)、语义角色标注、CRF等 方法判别比较句中对实体的情感倾向与优先排序。由于比较句中的情感分析任 务需要判断出评论者在两个比较实体对象之间更倾向于哪一个对象,其中存在 着明显的逻辑关系。而传统的研究方法大多没有充分利用评论文本内在深层语 义以及上下文依赖关系,无法有效地学习到其中的逻辑信息。此外,由于比较 句研究的公开数据集十分有限,从现有的情感分析数据集中,存在的比较句样 本数量较少,只占数据集总体的13%左右。并且在这些比较句类别中,“BETTER
”ꢀ
类别占70%左右(“BETTER”即评论者更倾向于第一个比较实体)。而大量的 非比较句对于模型的学习来说会带来大量的干扰信息;同时,由于比较句中的
ꢀ“
WORSE”类别数据样本较少,对于该类情感的识别也成为了一大难点,而经 典的比较句情感分析研究方法并没有注意到数据集中比较句样本数量较小的问 题。

技术实现思路

[0004]本专利技术的目的在于解决现有技术中的问题,提供一种基于BERT对抗训练 的比较句情感分析方法及系统。本专利技术主要的任务是通过将预训练语言模型 BERT与对抗训练过程相结合,从而创新地获取评论文本中更加丰富的语义特 征信息,并降低数据集中大量的非比较句所带来的噪声影响,提升对于比较句 情感分析的性能。
[0005]为达到上述目的,本专利技术采用以下技术方案予以实现:
[0006]一种基于BERT对抗训练的比较句情感分析方法,包括以下步骤:
[0007]使用预训练语言模型BERT对输入的评论文本与评论中的两个比较对象进 行编码;
[0008]对编码后的评论文本进行对抗训练,得到文本语义信息、上下文依赖关系 以及逻辑关系;
[0009]依据文本语义信息、上下文依赖关系以及逻辑关系,利用Softmax函数获 得最终比较句情感概率分布,并计算损失。
[0010]上述方法进一步的改进在于:
[0011]所述使用预训练语言模型BERT对输入的评论文本与评论中的两个比较对 象进行编码,包括:
[0012]采用预训练语言模型BERT对输入的评论文本S进行batch数据的编码,将 要输入的评论文本S与评论中的两个比较对象表示为“[CLS]评论文本[SEP]比较 对象1,比较对象2[SEP]”的格式;其中,用户的评论文本 S={w1,w2,w3,...,w
n
‑1,w
n
},评论中的比较对象{C=c_obj1,c_obj2},w
n
是评 论中的单词;使用预训练语言模型BERT的最后一层输出作为输入的评论文本 的隐藏层向量h
i
,H表示代表编码后隐藏层的维度,n表示输入的 评论文本的序列长度。
[0013]所述对评论文本进行编码是采用预训练语言模型BERT的双句输入模式进 行编码的。
[0014]所述对编码后的评论文本进行对抗训练,包括:
[0015]每完成一对batch数据的编码,产生一个随机数τ,若随机数τ<0.5开始对 抗训练,所述随机数τ如下:
[0016]τ=random()
ꢀꢀꢀ
(1)
[0017]以迭代的方式根据梯度生成对抗干扰,当开始第一轮迭代时,则在预训练 语言模型BERT的原始输入词嵌入的word_embedding的参数权重W
word
的基础 上添加根据梯度得到的对抗扰动r
at
,得到当前迭代轮次添加干扰后的参数权重 t
k

[0018]t
k
=W
word
+r
at
ꢀꢀꢀ
(2)
[0019][0020]其中,k为当前迭代轮次;θ为参数;G为梯度,||G||为梯度的范数,使对 抗扰动r
at
的方向与梯度G一致;
[0021]通过阈值ε控制添加干扰后的文本语义与原文本语义的差异性d,若差异 性d的范数大于阈值ε,则使用截断器Chopper对差值进行截断:
[0022][0023]d=t

W
word
ꢀꢀꢀ
(5)
[0024]其中,g表示最终通过截断器后所确定的当前轮次的对抗干扰;
[0025]当前迭代轮次的word_embedding的参数权重O
k
为:
[0026]O
k
=W
word
+g
ꢀꢀꢀ
(6)
[0027]在后续的迭代轮次中,在计算当前迭代轮次中的添加干扰后的参数权重t
k
时,在
上一轮迭代中得到的word_embedding的参数权重O
k
‑1的基础上添加对 抗扰动r
at

[0028]t
k
=O
k
‑1+r
at
ꢀꢀꢀ
(7)
[0029]迭代完成后在预训练语言模型BERT中使用新生成的添加扰动后的 word_embedding权重参数O
k
对输入的评论文本进行编码,得到对抗样本,执行 对抗训练,得到文本语义信息、上下文依赖关系以及逻辑关系。
[0030]所述利用Softmax获得最终比较句情感概率分布,并计算损失,包括:
[0031]将预训练语言模型BERT的最后一层输出作为单词隐藏层h
i
,并使用 Softmax函数进行预测:
[0032]y=softmax(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT对抗训练的比较句情感分析方法,其特征在于,包括以下步骤:使用预训练语言模型BERT对输入的评论文本与评论中的两个比较对象进行编码;对编码后的评论文本进行对抗训练,得到文本语义信息、上下文依赖关系以及逻辑关系;依据文本语义信息、上下文依赖关系以及逻辑关系,利用Softmax函数获得最终比较句情感概率分布,并计算损失。2.根据权利要求1所述的基于BERT对抗训练的比较句情感分析方法,其特征在于,所述使用预训练语言模型BERT对输入的评论文本与评论中的两个比较对象进行编码,包括:采用预训练语言模型BERT对输入的评论文本S进行batch数据的编码,将要输入的评论文本S与评论中的两个比较对象表示为“[CLS]评论文本[SEP]比较对象1,比较对象2[SEP]”的格式;其中,用户的评论文本S={w1,w2,w3,...,w
n
‑1,w
n
},评论中的比较对象{C=c_obj1,c_obj2},w
n
是评论中的单词;使用预训练语言模型BERT的最后一层输出作为输入的评论文本的隐藏层向量h
i
,H表示代表编码后隐藏层的维度,n表示输入的评论文本的序列长度。3.根据权利要求2所述的基于BERT对抗训练的比较句情感分析方法,其特征在于,所述对评论文本进行编码是采用预训练语言模型BERT的双句输入模式进行编码的。4.根据权利要求2所述的基于BERT对抗训练的比较句情感分析方法,其特征在于,所述对编码后的评论文本进行对抗训练,包括:每完成一对batch数据的编码,产生一个随机数τ,若随机数τ<0.5开始对抗训练,所述随机数τ如下:τ=random()
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)以迭代的方式根据梯度生成对抗干扰,当开始第一轮迭代时,则在预训练语言模型BERT的原始输入词嵌入的word_embedding的参数权重W
word
的基础上添加根据梯度得到的对抗扰动r
at
,得到当前迭代轮次添加干扰后的参数权重t
k
:t
k
=W
word
+r
at
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,k为当前迭代轮次;θ为参数;G为梯度,||G||为梯度的范数,使对抗扰动r
at
的方向与梯度G一致;通过阈值ε控制添加干扰后的文本语义与原文本语义的差异性d,若差异性d的范数大于阈值ε,则使用截断器Chopper对差值进行截断:d=t

W
word
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中,g表示最终通过截断器后所确定的当前轮次的对抗干扰;当前迭代轮次的word_embedding的参数权重O
k
为:O
k
=W
word
+g
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ...

【专利技术属性】
技术研发人员:饶元谢尚汝张祎彬夏昺灿
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1