【技术实现步骤摘要】
一种基于异质图的社交文本情感倾向分析方法及系统
[0001]本专利技术属于数据处理
,涉及一种基于异质图的社交文本情感倾向分析方法及系统。
技术介绍
[0002]情感是人们生活中的一部分,每个人在不同的时刻,在面对不同的事情时都会产生不同的情感状态,然而情感状态能够反应出一个人心理的状态变化并且能够影响着一个人的各种行为。在过去的二十多年里,研究人员一直都在尝试更加精确的分析人们的情感状态。
[0003]随着社交网络的发展,人们不仅仅能够在现实生活中进行交流,也能够在网络上发表自己的意见和看法,其中最常见的就是文本内容。人们通过评论和帖子来发表自己的想法,表达自己的情感。网络上人们的互相交流、情感表达和舆论都会影响着现实中某个事件或者商品的发展。以网络上的相关用户评论为基础,进行文本的情感分析,给出相应的情感标签,已经称为近年来的研究热点。
[0004]现有技术中,公开号为CN111324739A、公开日为2020年6月23日的中国专利技术专利申请《一种文本情感分析方法及系统》公开了一种文本情感分析方法,包括:获得待分析文本和至少一个待分析实体;利用分析模型对所述待分析文本和所述待分析实体进行处理,得到所述待分析文本面向所述待分析实体的情感;其中,所述分析模型包括图神经网络模型和判断模型,所述分析模型的处理包括:基于所述图神经网络模型、所述待分析实体与其关联实体的关系,以及所述待分析实体的向量,得到所述待分析实体的融合向量;所述判断模型基于所述待分析文本的向量和所述待分析实体的融合向量,确定所述
【技术保护点】
【技术特征摘要】
1.一种基于异质图的社交文本情感倾向分析方法,其特征在于,包括以下步骤:S1、确定信息收集对象的基本信息,并对其相关的社交文本内容进行收集、清洗和情感标注;S2、根据社交文本中单词和表情的共现信息,构建包含不同语义关系的元路径,通过将各元路径的交换矩阵作为邻接矩阵,单词和表情分别构成异质图;S3、基于训练的Word2Vec词典,对经过清洗、分词过后的单词和表情进行向量嵌入;S4、基于已构建异质图的元路径信息,对嵌入向量进行再训练,得到最终的嵌入向量;S5、把基于异质图更新过后的嵌入向量作为基于注意力机制和BiLSTM网络构成的分类模型的输入,从而得到情感语义标签和训练好的情感分析模型;S6、把需要测试的文本数据输入到训练好的情感模型中,输出最终的情感分类结果。2.根据权利要求1所述的一种基于异质图的社交文本情感倾向分析方法,其特征在于,步骤S2中所述的单词和表情的共现信息的形式包括:单词
‑
单词、单词
‑
表情和表情
‑
表情;根据单词
‑
单词共现信息构建|W|
×
|W|的A
WW
矩阵,其中|W|是文本数据中单词的总数量,对于共现的单词
‑
单词次数n,在A
WW
矩阵中的对应位置置为n;根据单词
‑
表情共现信息构建|W|
×
|E|的A
WE
矩阵,其中|E|是文本数据中表情的总数量,对于共现的单词-表情次数n,在A
WE
矩阵中的对应位置为n;根据表情
‑
表情共现信息构建|E|
×
|E|的A
EE
矩阵,对于共现的表情-表情次数n,在A
EE
矩阵中的对应位置为n;所述的构建包含不同语义关系的元路径如下:元路径P1:W
‑
W
‑
W表示两个单词曾与同一个单词共现;元路径P2:W
‑
E
‑
W:表示两个单词曾与同一个表情有过共现;元路径P3:E
‑
W
‑
E:表示两个表情曾与同一个单词有过共现;元路径P4:E
‑
E
‑
E:表示两个表情曾与同一个表情共现;所述的各元路径的交换矩阵计算公式为:W
P1
=A
WW
A
WW
W
P2
=A
WE
A
WET
W
P3
=A
EE
A
EE
W
P4
=A
WET
A
WE
其中,W
P1
、W
P2
、W
P3
、W
P4
、分别为元路径P1、元路径P2、元路径P3、元路径P4对应的交换矩阵。3.根据权利要求2所述的一种基于异质图的社交文本情感倾向分析方法,其特征在于,步骤S3中所述的基于训练的Word2Vec词典,对经过清洗过后的单词和表情进行向量嵌入具体为:对分词后的单词和表情使用Word2Vec方法对分词完的文本进行训练,最终得到文本中所有已出现单词和表情的嵌入向量;在训练时,表情被看作是一种特殊的单词,同单词一同嵌入到向量空间中。4.根据权利要求3所述的一种基于异质图的社交文本情感倾向分析方法,其特征在于,步骤S4中所述的基于已构建异质图的元路径信息,对嵌入向量进行再训练,得到最终的嵌入向量的具体方法为:S41、对于单词和表情,使用注意力机制分别计算各元路径下其邻居对该单词或表情的影响权重,通过邻接矩阵对输入的初始向量进行更新;单词m的影响权重的计算如下:
表情n的影响权重的计算如下:表情n的影响权重的计算如下:其中,Nei(m)、Nei(n)分别表示对应元路径所构成图的图下节点m、n的邻居,W为随机初始化的权重参数;对单词和表情,分别更新其嵌入表示:对单词和表情,分别更新其嵌入表示:对单词和表情,分别更新其嵌入表示:对单词和表情,分别更新其嵌入表示:其中,A表示上述权重所组成的权重矩阵,W为随机初始化的权重参数;S42、通过平均的方式得到单词和表情的最终的嵌入向量:S42、通过平均的方式得到单词和表情的最终的嵌入向量:5.根据权利要求4所述的一种基于异质图的社交文本情感倾向分析方法,其特征在于,步骤S5中所述的把基于异质图更新过后的嵌入向量作为基于注意力机制和BiLSTM网络构成的分类模型的输入,从而得到情感语义标签和训练好的情感分析模型的具体方法为:S51、把更新后的单词、表情嵌入向量输入到BiLSTM神经网络中进行训练,其中对于每一个LSTM,设置内部的神经元个数为初始向量嵌入维度的一半;S52、采用正向LSTM和逆向LSTM分别分析文本内容的正向语义和逆向语义,并把每个时刻i输出正向的隐藏层输出向量和逆向的隐藏层输出向量拼接得到每个时刻BiLSTM的隐藏层输出向量h
i
,其结果如下:,其结果如下:,其结果如下:
其中,和分别表示正向和逆向LSTM网络,和是i时刻的正向和逆向的LSTM网络输出的隐藏层向量,和是i
‑
1时刻的正向和逆向的LSTM网络输出的隐藏层向量,d
s
是LSTM网络输出的向量维度,v
i
是d维的输入向量;S53、使用注意力机制来学习每个时刻BiLSTM的隐藏层输出向量的重要性,并加权求和得到最终的情感分析模型,通过迭代训练得到训练完成后的情感分析模型,把需要测试的文本数据输入到情感模型中,得到情感语义标签;所述的情感分析模型的公式如下:score(h
i
)=tanh(W
α
h
i
+b
α
))其中,是需要学习的参数,b
α
是偏差,L
w
是输入向量的长度。6.一种基于异质图的社交文本情感倾向分析系统,其特征在于,包括:第一模块...
【专利技术属性】
技术研发人员:王庆人,孙亮,崔杰,张以文,颜登程,李海涛,
申请(专利权)人:安徽大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。