当前位置: 首页 > 专利查询>西华大学专利>正文

一种基于全局训练空间的情感分析方法技术

技术编号:37963810 阅读:29 留言:0更新日期:2023-06-30 09:39
本发明专利技术公开了一种基于全局训练空间的情感分析方法,包括以下步骤:获取社交媒体的文本数据,对非正式文本数据进行处理,得到自然语言,并对自然语言进行划分,得到全局和局部训练空间数据;构建TL

【技术实现步骤摘要】
一种基于全局训练空间的情感分析方法


[0001]本专利技术涉及自然语言处理
,具体包括一种基于全局训练空间的情感分析方法。

技术介绍

[0002]文本情感分析,又称为观点挖掘(Opinion Mining),可以按分析粒度分为篇章级情感分析、句子级情感分析和方面级情感分析。
[0003]在基于方面的情感分析中,面向目标的意见词提取(TOWE)旨在根据方面术语提取相应的意见词。以往的研究在TOWE任务的建模过程中忽略了隐式方面,只关注显式方面。
[0004]面向目标的意见词提取是细粒度情感分析的一个子任务。在这项任务中,给定特定的方面术语和与其相关的上下文,TOWE任务旨在提取与特定方面相关的意见词,但问题在于,TOWE有两种类型的训练样本。在显式方面中,方面术语与至少一个意见词相关联,而在隐式方面中,方面术语没有相应的意见词。以前的研究只用显式方面来训练和评估他们的模型,导致了样本选择偏差的问题。具体来说,以往的TOWE模型只用显式方面进行训练,而这些模型将被用来对全局空间的显式方面和隐式方面进行推理。因此,泛化性能将受到本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于全局训练空间的情感分析方法,其特征在于,包括以下步骤:S1、获取社交媒体的文本数据,对非正式文本数据进行处理,得到自然语言,并对自然语言进行划分,得到全局和局部训练空间数据;S2、构建TL

BERT模型,并使用全局和局部训练空间数据对第一TL

BERT模型进行训练;S3、使用训练好的第一TL

BERT模型对自然语言提取方面术语和意见词,构成方面

意见对;S4、将方面

意见对和自然语言输入第二TL

BERT模型进行训练,得到训练好的第二TL

BERT模型;S5、根据训练好的第一TL

BERT模型、训练好的第二TL

BERT模型对目标文本进行情感预测,得到最终的情感极性。2.根据权利要求1所述的一种基于全局训练空间的情感分析方法,其特征在于,步骤S1的具体实现方式如下:S1

1、获取社交媒体的文本数据,提取文本数据中的非正式文本数据,记作t1,t2,t3,...,t
i
,...,t
n
;S1

2、清除掉非正式文本数据中社交媒体为文本添加的内容,得到第一次清理后的数据;S1

3、对第一次清理后的数据清理掉emoji、emoticon和非英文内容,得到第二次清理后的数据;S1

4、将第二次清理后的数据中社交媒体中的话题标签替换为原本的文字,得到第三次清理后的数据;S1

5、对第三次清理后的数据进行以“。”、“.”、“!”、“!”、“?”、“?”为标准的切割,得到自然语言;S1

6、对自然语言标注显式方面和隐式方面的训练样本;S1

7、对自然语言划分全局和局部训练空间数据,即进行全局空间训练集划分、全局空间验证测试集划分、局部空间训练集划分、局部空间验证测试集划分。3.根据权利要求2所述的一种基于全局训练空间的情感分析方法,其特征在于,TL

BERT模型包括BERT

base层、多头注意力层、长短期记忆网络和解码器;BERT

base层的输出端连接多头注意力层的输入端;多头注意力层的输出端连接长短期记忆网络的输入端;长短期记忆网络的输出端连接解码器的输入端。4.根据权利要求3所述的一种基于全局训练空间的情感分析方法,其特征在于,步骤S2的具体实现方式如下:S2

1、将全局和局部训练空间数据中的句子S转化为新的句子S
B
={w0,...,w
i
,...,w
q
};其中,w0为字符“[CLS]”;w
i
、w
q
均为字符“[SEP]”;S2

2、为新的句子生成段索引I
s
={0,...,0}和位置索引I
p
={0,...,q},其中,q表示新的句子共有q个词;S2

3、将新的句子S
B
、新句子的段索引I
s
和新句子的位置索引I
p
输入第一TL

BERT模型,对第一TL

BERT模型进行训练,得到训练好的第一TL

BERT模型。5.根据权利要求4所述的一种基于全局训练空间的情感分析方法,其特征在于,步骤S2

3的具体实现方式如下:
S2
‑3‑
1、将新的句子S
B
、新句子的段索引I
s
和新句子的位置索引I
p
输入BERT

base层,获取新的句子S
B
中每个词的词向量,并将词向量组合成对应的句向量E;S2
‑3‑
2、根据公式:Q=W
Q
*EK=W
K
*EV=W
V
*E得到查询向量Q、键值对向量K和V;其中,E表示句向量;W
Q
为权重矩阵;W
K
为权重矩阵;W
V
为权重矩阵;Q、K、V∈R
m
×
d
,其中d是神经网络中隐藏单元的数量,m是序列长度;R为矩阵,意思就是Q、K、V这三个向量其实是一个矩阵,R这个矩阵是m行n列。S2
‑3‑
3、将查询向量Q、键值对向量K和V输入多头注意力层,根据公式:得到多头注意力层第i个头的注意力向量ma
i
;其中,softmax表示激活函数,softmax将注意力向量ma
i
的值输出为[0,1];Q
i
为多头注意力层第i个头的查询向量;K
i
为多头注意力层第i个头的键值;V
i
为多头注意力层第i个头的键值;S2
‑3‑
4、根据公式:得到方面术语向量A;其中,N表示共有N个注意力头;W
ia
为权重矩阵;S2
‑3‑
5、将方面术语向量输入长短期记忆网络,根据公式:i
t
=σ(W
xi
A
t
+W
hi
h
t
‑1+b
i
)f
t
=σ(W
xf
A
t
+W
hf
h
t

【专利技术属性】
技术研发人员:李显勇黄珈铭杜亚军黄东陈晓亮范永全李艳丽刘佳谢春芝陈鹏陈娟
申请(专利权)人:西华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1