当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于异质图的社交文本情感倾向分析方法及系统技术方案

技术编号:29937349 阅读:22 留言:0更新日期:2021-09-04 19:16
一种基于异质图的社交文本情感倾向分析方法及系统,属于数据处理技术领域,所要解决的技术问题在于如何采用异质图并结合深度学习模型来进行社交文本的情感倾向分析;以社交文本中的单词和表情的共现信息为基础,通过将各元路径的交换矩阵构建元路径和异质图,使用邻接矩阵得到蕴含单词和表情内在联系的语义表示向量,最终通过注意力机制和BiLSTM网络来分析情感语义向量,得到高精准度的情感倾向标签;本发明专利技术综合考虑表情和文本对情感的表达,深度挖掘表情和文本之间的内在联系,提高了情感分析的性能;在数据处理中保留文本中的表情和重要的标点符号,提高了文本内容包含的情感信息;本发明专利技术能够获取更为丰富的语义信息且使情感分析结果更为准确。情感分析结果更为准确。情感分析结果更为准确。

【技术实现步骤摘要】
一种基于异质图的社交文本情感倾向分析方法及系统


[0001]本专利技术属于数据处理
,涉及一种基于异质图的社交文本情感倾向分析方法及系统。

技术介绍

[0002]情感是人们生活中的一部分,每个人在不同的时刻,在面对不同的事情时都会产生不同的情感状态,然而情感状态能够反应出一个人心理的状态变化并且能够影响着一个人的各种行为。在过去的二十多年里,研究人员一直都在尝试更加精确的分析人们的情感状态。
[0003]随着社交网络的发展,人们不仅仅能够在现实生活中进行交流,也能够在网络上发表自己的意见和看法,其中最常见的就是文本内容。人们通过评论和帖子来发表自己的想法,表达自己的情感。网络上人们的互相交流、情感表达和舆论都会影响着现实中某个事件或者商品的发展。以网络上的相关用户评论为基础,进行文本的情感分析,给出相应的情感标签,已经称为近年来的研究热点。
[0004]现有技术中,公开号为CN111324739A、公开日为2020年6月23日的中国专利技术专利申请《一种文本情感分析方法及系统》公开了一种文本情感分析方法,包括:获得待分析文本和至少一个待分析实体;利用分析模型对所述待分析文本和所述待分析实体进行处理,得到所述待分析文本面向所述待分析实体的情感;其中,所述分析模型包括图神经网络模型和判断模型,所述分析模型的处理包括:基于所述图神经网络模型、所述待分析实体与其关联实体的关系,以及所述待分析实体的向量,得到所述待分析实体的融合向量;所述判断模型基于所述待分析文本的向量和所述待分析实体的融合向量,确定所述待分析文本面向所述待分析实体的情感。
[0005]近年来,新兴的emoji(表情)开始在社交网络中流行起来,人们开始喜欢使用emoji来表达自己的态度和情感。emoji具有简洁、生动形象和其丰富的情感语义得到广大用户的喜爱。然而,表情拥有丰富的情感,在与不同情感极性的内容组合时会体现出不同的情感语义,难以给以表情确定的语义情感,因此现有的情感分析大多都是基于纯文本的评论,对含有表情的文本的研究还比较少,但是表情对情感表达极其强烈,社交网络中的情感表达已经离不开表情的使用。
[0006]异质图是含有多种类型节点和关系的图,相对于只含有一种节点/关系的同质图,异质图更加复杂包含的信息也更多。异质图的出现,能够更深的挖掘表情和文本单词之间的关系,能够更加精确的分析表情在不同文本中表达的情感。把表情和单词看作异质节点,构建元路径。异质图的嵌入技术依赖于元路径,元路径是一种被广泛使用,来捕捉不同异质节点语义的结构。常用的异质图嵌入方法有metapath2vec、HERec和Han等。metapath2vec基于元路径进行随机游走,通过skip

gram模型学习节点的潜在表示;受metapath2vec启发,HERec使用了一些对称的元路径,通过一种类型限制策略过滤节点序列来捕获异质图的语义信息;HAN将图神经网络应用于异质图中,利用语义级注意力和节点级注意力来同时学习
元路径与节点邻居的重要性。然而在情感分析中,还没有人将异质图引入并结合相关的深度学习模型来进行情感分析。

技术实现思路

[0007]本专利技术的所要解决的技术问题在于如何采用异质图并结合深度学习模型来进行社交文本的情感倾向分析。
[0008]本专利技术是通过以下技术方案解决上述技术问题的:
[0009]一种基于异质图的社交文本情感倾向分析方法,包括以下步骤:
[0010]S1、确定信息收集对象的基本信息,并对其相关的社交文本内容进行收集、清洗和情感标注;
[0011]S2、根据社交文本中单词和表情的共现信息,构建包含不同语义关系的元路径,通过将各元路径的交换矩阵作为邻接矩阵,单词和表情分别构成异质图;
[0012]S3、基于训练的Word2Vec词典,对经过清洗、分词过后的单词和表情进行向量嵌入;
[0013]S4、基于已构建异质图的元路径信息,对嵌入向量进行再训练,得到最终的嵌入向量;
[0014]S5、把基于异质图更新过后的嵌入向量作为基于注意力机制和BiLSTM网络构成的分类模型的输入,从而得到情感语义标签和训练好的情感分析模型;
[0015]S6、把需要测试的文本数据输入到训练好的情感模型中,输出最终的情感分类结果。
[0016]本专利技术以社交文本中的单词和表情的共现信息为基础,通过将各元路径的交换矩阵构建元路径和异质图,使用邻接矩阵得到蕴含单词和表情内在联系的语义表示向量,最终通过注意力机制和BiLSTM网络来分析情感语义向量,得到高精准度的情感倾向标签;本专利技术综合考虑了表情和文本对情感的表达,并深度挖掘了表情和文本之间的内在联系,提高情感分析的性能;在数据处理中保留了文本中的表情和重要的标点符号,提高了文本内容包含的情感信息。
[0017]作为本专利技术技术方案的进一步改进,步骤S2中所述的单词和表情的共现信息的形式包括:单词

单词、单词

表情和表情

表情;根据单词

单词共现信息构建|W|
×
|W|的A
WW
矩阵,其中|W|是文本数据中单词的总数量,对于共现的单词

单词次数n,在A
WW
矩阵中的对应位置置为n;根据单词

表情共现信息构建|W|
×
|E|的A
WE
矩阵,其中|E|是文本数据中表情的总数量,对于共现的单词-表情次数n,在A
WE
矩阵中的对应位置为n;根据表情

表情共现信息构建|E|
×
|E|的A
EE
矩阵,对于共现的表情-表情次数n,在A
EE
矩阵中的对应位置为n;
[0018]所述的构建包含不同语义关系的元路径如下:元路径P1:W

W

W表示两个单词曾与同一个单词共现;元路径P2:W

E

W:表示两个单词曾与同一个表情有过共现;元路径P3:E

W

E:表示两个表情曾与同一个单词有过共现;元路径P4:E

E

E:表示两个表情曾与同一个表情共现;
[0019]所述的各元路径的交换矩阵计算公式为:
[0020]W
P1
=A
WW
A
WW
[0021]W
P2
=A
WE
A
WET
[0022]W
P3
=A
EE
A
EE
[0023]W
P4
=A
WET
A
WE
[0024]其中,W
P1
、W
P2
、W
P3
、W...

【技术保护点】

【技术特征摘要】
1.一种基于异质图的社交文本情感倾向分析方法,其特征在于,包括以下步骤:S1、确定信息收集对象的基本信息,并对其相关的社交文本内容进行收集、清洗和情感标注;S2、根据社交文本中单词和表情的共现信息,构建包含不同语义关系的元路径,通过将各元路径的交换矩阵作为邻接矩阵,单词和表情分别构成异质图;S3、基于训练的Word2Vec词典,对经过清洗、分词过后的单词和表情进行向量嵌入;S4、基于已构建异质图的元路径信息,对嵌入向量进行再训练,得到最终的嵌入向量;S5、把基于异质图更新过后的嵌入向量作为基于注意力机制和BiLSTM网络构成的分类模型的输入,从而得到情感语义标签和训练好的情感分析模型;S6、把需要测试的文本数据输入到训练好的情感模型中,输出最终的情感分类结果。2.根据权利要求1所述的一种基于异质图的社交文本情感倾向分析方法,其特征在于,步骤S2中所述的单词和表情的共现信息的形式包括:单词

单词、单词

表情和表情

表情;根据单词

单词共现信息构建|W|
×
|W|的A
WW
矩阵,其中|W|是文本数据中单词的总数量,对于共现的单词

单词次数n,在A
WW
矩阵中的对应位置置为n;根据单词

表情共现信息构建|W|
×
|E|的A
WE
矩阵,其中|E|是文本数据中表情的总数量,对于共现的单词-表情次数n,在A
WE
矩阵中的对应位置为n;根据表情

表情共现信息构建|E|
×
|E|的A
EE
矩阵,对于共现的表情-表情次数n,在A
EE
矩阵中的对应位置为n;所述的构建包含不同语义关系的元路径如下:元路径P1:W

W

W表示两个单词曾与同一个单词共现;元路径P2:W

E

W:表示两个单词曾与同一个表情有过共现;元路径P3:E

W

E:表示两个表情曾与同一个单词有过共现;元路径P4:E

E

E:表示两个表情曾与同一个表情共现;所述的各元路径的交换矩阵计算公式为:W
P1
=A
WW
A
WW
W
P2
=A
WE
A
WET
W
P3
=A
EE
A
EE
W
P4
=A
WET
A
WE
其中,W
P1
、W
P2
、W
P3
、W
P4
、分别为元路径P1、元路径P2、元路径P3、元路径P4对应的交换矩阵。3.根据权利要求2所述的一种基于异质图的社交文本情感倾向分析方法,其特征在于,步骤S3中所述的基于训练的Word2Vec词典,对经过清洗过后的单词和表情进行向量嵌入具体为:对分词后的单词和表情使用Word2Vec方法对分词完的文本进行训练,最终得到文本中所有已出现单词和表情的嵌入向量;在训练时,表情被看作是一种特殊的单词,同单词一同嵌入到向量空间中。4.根据权利要求3所述的一种基于异质图的社交文本情感倾向分析方法,其特征在于,步骤S4中所述的基于已构建异质图的元路径信息,对嵌入向量进行再训练,得到最终的嵌入向量的具体方法为:S41、对于单词和表情,使用注意力机制分别计算各元路径下其邻居对该单词或表情的影响权重,通过邻接矩阵对输入的初始向量进行更新;单词m的影响权重的计算如下:
表情n的影响权重的计算如下:表情n的影响权重的计算如下:其中,Nei(m)、Nei(n)分别表示对应元路径所构成图的图下节点m、n的邻居,W为随机初始化的权重参数;对单词和表情,分别更新其嵌入表示:对单词和表情,分别更新其嵌入表示:对单词和表情,分别更新其嵌入表示:对单词和表情,分别更新其嵌入表示:其中,A表示上述权重所组成的权重矩阵,W为随机初始化的权重参数;S42、通过平均的方式得到单词和表情的最终的嵌入向量:S42、通过平均的方式得到单词和表情的最终的嵌入向量:5.根据权利要求4所述的一种基于异质图的社交文本情感倾向分析方法,其特征在于,步骤S5中所述的把基于异质图更新过后的嵌入向量作为基于注意力机制和BiLSTM网络构成的分类模型的输入,从而得到情感语义标签和训练好的情感分析模型的具体方法为:S51、把更新后的单词、表情嵌入向量输入到BiLSTM神经网络中进行训练,其中对于每一个LSTM,设置内部的神经元个数为初始向量嵌入维度的一半;S52、采用正向LSTM和逆向LSTM分别分析文本内容的正向语义和逆向语义,并把每个时刻i输出正向的隐藏层输出向量和逆向的隐藏层输出向量拼接得到每个时刻BiLSTM的隐藏层输出向量h
i
,其结果如下:,其结果如下:,其结果如下:
其中,和分别表示正向和逆向LSTM网络,和是i时刻的正向和逆向的LSTM网络输出的隐藏层向量,和是i

1时刻的正向和逆向的LSTM网络输出的隐藏层向量,d
s
是LSTM网络输出的向量维度,v
i
是d维的输入向量;S53、使用注意力机制来学习每个时刻BiLSTM的隐藏层输出向量的重要性,并加权求和得到最终的情感分析模型,通过迭代训练得到训练完成后的情感分析模型,把需要测试的文本数据输入到情感模型中,得到情感语义标签;所述的情感分析模型的公式如下:score(h
i
)=tanh(W
α
h
i
+b
α
))其中,是需要学习的参数,b
α
是偏差,L
w
是输入向量的长度。6.一种基于异质图的社交文本情感倾向分析系统,其特征在于,包括:第一模块...

【专利技术属性】
技术研发人员:王庆人孙亮崔杰张以文颜登程李海涛
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1