当前位置: 首页 > 专利查询>梧州学院专利>正文

基于BERT和方面特征定位模型的方面级情感分析方法及模型技术

技术编号:31013119 阅读:37 留言:0更新日期:2021-11-30 00:44
本发明专利技术涉及一种基于BERT和方面特征定位模型的方面级情感分析方法及模型,该方法包括:首先利用BERT模型来获得高质量的上下文信息表示和方面信息表示,以保持文本信息的完整性;接着构建一个基于多头注意机制的注意编码器来学习体表征和上下文表征之间的相互作用,整合体词和上下文之间的关系,进一步区分不同句子和方面词对分类结果的贡献;然后构造一个方面特征定位模型来捕获句子建模时的方面信息,并将方面的完整信息整合到交互语义中,以减少与方面词无关的干扰词的影响,提高方面词信息的完整性;最后融合与目标相关的上下文和目标重要信息,并在融合信息的基础上利用情绪预测因子预测不同情绪极性的概率。能够更好地模拟上下文之间的隐式关系,更好地利用了方面词的信息和减少与方面词无关信息的干扰,从而获得了更高的精确度和宏F1。获得了更高的精确度和宏F1。获得了更高的精确度和宏F1。

【技术实现步骤摘要】
基于BERT和方面特征定位模型的方面级情感分析方法及模型


[0001]本专利技术属于方面级情感分析
,特别涉及一种基于BERT和方面特征定位模型的方面级情感分析方法及模型(ALM

BERT)。

技术介绍

[0002]电子商务是一个蓬勃发展的行业,对全球经济的重要性与日俱增。尤其是,随着社交媒体的迅速发展和网络社交平台的不断普及,越来越多的用户开始在各种网络平台上表达自己带情感的评论。这些评论反映了用户和消费者的情绪,为销售商和政府等提供了许多关于商品或服务质量的有价值的反馈信息。例如:在购买商品之前,用户可以在电子商务平台上浏览大量关于该商品的评论,以决定该商品是否值得购买。同样,政府和企业可以直接从互联网上收集大量的公众评论,分析用户的意见和满意度,进而满足他们的需求。因此,情感分析作为自然语言处理的一项基础性和关键性工作,引起了理论界和实践界的广泛关注。
[0003]然而,常见的情感分析任务(如句子级情感分析)只能从整个句子中确定用户对产品或事件的情感极性(如积极、消极和中性),无法确定句子某一特定方面的情本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于BERT和方面特征定位模型的方面级情感分析方法,其特征在于,包括:S1.利用BERT模型来获得高质量的上下文信息表示和方面信息表示,以保持文本信息的完整性;S2.构建一个基于多头注意机制的注意编码器来学习体表征和上下文表征之间的相互作用,整合体词和上下文之间的关系,进一步区分不同句子和方面词对分类结果的贡献;S3.构造一个方面特征定位模型来捕获句子建模时的方面信息,并将方面的完整信息整合到交互语义中,以减少与方面词无关的干扰词的影响,提高方面词信息的完整性;S4.融合与目标相关的上下文和目标重要信息,并在融合信息的基础上利用情绪预测因子预测不同情绪极性的概率。2.根据权利要求1所述的方法,其特征在于,所述“利用BERT模型来获得高质量的上下文信息表示和方面信息表示”是指将预训练的BERT模型作为文本向量化机制,生成高质量的文本特征向量表示,其中所述BERT是一个预训练的语言表示模型,所述文本向量化机制是指将每个单词映射到高维向量空间,具体为:所述BERT模型通过使用深层的多层双向转换器编码器来生成文本的表示,同时通过在输入序列的开头和结尾分别添加特殊的分词标记对给定的单词序列划分为不同的段,并为不同的片段生成标记嵌入、分段嵌入和位置嵌入,最后将注释文本和方面词分别转换、得到上下文信息表示和方面信息表示。3.根据权利要求2所述的方法,其特征在于,所述“构建一个基于多头注意机制的注意编码器来学习体表征和上下文表征之间的相互作用,整合体词和上下文之间的关系”,是指基于多头部注意机制实现在方面级情感分析的重要特征提取,提取上下文和目标的重要信息,具体为:首先引入转换编码器,所述转换编码器是一种基于多头注意机制和位置前馈网络的新型特征抽取器,能够在不同的特征表示子空间中学习到不同的重要信息和直接捕获序列中的长期相关性;然后通过转换编码器从BERT模型生成的方面信息表示和上下文信息表示中提取交互语义,确定对方面词的情感定性最为重要的上下文,同时以上下文的长期依赖信息和上下文感知信息作为位置前馈网络的输入数据,分别生成隐藏状态,并在均值池化操作后得到上下文交互的最终交互隐藏状态和语境与方面词的最终互动隐藏状态。4.根据权利要求3所述的方法,其特征在于,所述“通过在输入序列的开头和结尾分别添加特殊的分词标记对给定的单词序列划分为不同的段,并为不同的片段生成标记嵌入、分段嵌入和位置嵌入,最后将注释文本和方面词分别转换、得到上下文信息表示和方面信息表示”,具体为:所述BERT模型通过在输入序列的开头和结尾分别添加特殊的分词标记[CLS]和[SEP]对给定的单词序列划分为不同的段,并为不同的片段生成标记嵌入、分段嵌入和位置嵌入,使输入序列的嵌入表示中包含了这三种嵌入的全部信息,最后在BERT模型中将注释文本和方面词分别转换为“[CLS]+注释文本+[SEP]”和“[CLS]+目标+[SEP]”得到上下文表示E
c
和方面表示E
a
:E
c
={we
[CLS]
,we1,we2,...,we
[SEP]
};E
a
={ae
[CLS]
,ae1,ae2,...,ae
[SEP]
};其中we
[CLS]
,ae
[CLS]
表示分类标记[CLS]的向量,we
[SEP]
和ae
[SEP]
表示分隔符[SEP]的向量。5.根据权利要求4所述的方法,其特征在于,所述“通过转换编码器从BERT模型生成的
方面信息表示和上下文信息表示中提取交互语义,确定对方面词的情感定性最为重要的上下文,同时以上下文的长期依赖信息和上下文感知信息作为位置前馈网络的输入数据,分别生成隐藏状态,并在均值池化操作后得到上下文交互的最终交互隐藏状态和语境与方面词的最终互动隐藏状态”具体包括:S201.通过组成转换编码器中多头注意机制的多个自注意机制从BERT模型生成的方面信息表示和上下文信息表示中映射出一个查询序列和一系列在并行子空间中捕捉不同的重要信息的键(K)值(V);S202.通过注意力得分函数公式f
s
(Q,K,V)=σ(f
e
(Q,K))V计算得到每个捕捉到的重要信息的注意力得分,其中σ(f
e
(Q,K))表示归一化指数函数,f
e
(Q,K)是学习K和Q之间相关特征的能量函数,并通过以下公式计算;其中表示比例因子,d
k
是查询Q和键向量K的维数;S203.将上下文表示和方面表示输入到注意力得分函数公式f
mh
(Q,K,V)=[a1;a2,...;a
i
;...;a
n

head
]W
d
中,分别获得上下文的长期依赖信息c
cc
和上下文感知信息t
ca
,以捕获上下文的长期依赖性,和确定哪些上下文对方面词的情感定性最为重要;其中,a
i<...

【专利技术属性】
技术研发人员:庞光垚陆科达玉振明彭子真朱肖颖黄宏本莫智懿农健冀肖榆
申请(专利权)人:梧州学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1