当前位置: 首页 > 专利查询>山西大学专利>正文

一种基于用户知识的个性化隐式情感分析方法与系统技术方案

技术编号:32933302 阅读:20 留言:0更新日期:2022-04-07 12:24
本发明专利技术公开了计算机文本数据挖掘与隐式情感分析技术领域的一种基于用户知识的个性化隐式情感分析方法和系统,该方法通过对用户的内容知识、社会化属性知识进行建模,得到用户的内部知识表示;针对用户的外部知识,利用社会网络关系学习用户的社会化关系表示;将用户的知识与文本序列信息相融合进行隐式情感分析,本发明专利技术解决了隐式情感分析中用户个性化建模的问题,在学习速度和模型精度上均有良好的提升效果。的提升效果。的提升效果。

【技术实现步骤摘要】
一种基于用户知识的个性化隐式情感分析方法与系统


[0001]本专利技术涉及计算机文本数据挖掘与隐式情感分析
,特别涉及一种基于用户知识的个性化隐式情感分析方法和系统。

技术介绍

[0002]文本情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。文本情感分析技术已不仅仅局限于单一领域的研究,其与社会学、传播学、语言学、管理学的结合越来越紧密。例如,在社会媒体计算领域,中文本情感分析可以实时观察大规模人群对某个事件的情感倾向和情感演变,为相关研究课题提供实证基础,发挥更重要的量化分析作用。在政府决策方面,情感分析技术可作为政府了解社情民意的重要手段,极大提升了覆盖面、真实性和时效性。为改进政府工作方式,及早预防或平息公众不满情绪等提供有力的决策依据。在商业活动方面,文本情感分析技术一方面可使消费者更便捷地了解他人对商家以及商品的态度,使其获得更加丰富和客观的信息。另一方面,商家可以更深入的了解广大消费者对其产品或服务的反馈意见,进而改进产品,提高服务质量。
[0003]由于语言的多样性和复杂性,依照研究对象文本是否本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于用户知识的个性化隐式情感分析方法,其特征在于:包括以下步骤:S1:使用开放领域文本及交互数据,构建用户外部信息和用户内部信息库;其中,所述的用户外部信息包括用户的社会化关注关系,通过矩阵A进行表示;所述的用户内部信息库包括用户id、用户发布内容集合C以及用户基本信息集合I;待分析隐式情感句标记为s;S2:将用户基本信息集合I输入Bert预训练模型获取其向量表示,将向量拼接获取用户基本信息I的特征表示E
i
;S3:使用开放情感常识知识库,利用句子

词汇的匹配关系构建知识图谱G;S4:根据基于知识嵌入的多极性注意力模型结合步骤S3中所述的知识图谱G,获取步骤S1中所述的用户发布内容集合C的特征表示为E
c
,以及待分析隐式情感句子序列特征表示为H
s
;S5:根据UD

GCN模型,以步骤S1中获取的矩阵A为输入获取用户社会化关系特征表示为E
u
;S6:根据堆栈注意力模型,将步骤S2、S4、S5中获取的用户基本信息集合I的特征E
i
、用户发布内容集合C的特征E
c
、用户社会化关系特征E
u
与隐式情感句子序列特征H
s
进行融合学习,获取用户知识嵌入的隐式情感句子语义表示H;S7:根据正交注意力机制模型,对步骤S6中获取的用户知识嵌入的隐式情感句子语义表示H进行优化训练,通过全连接层预测该句子的隐式情感标签2.根据权利要求1所述的一种基于用户知识的个性化隐式情感分析方法,其特征在于:步骤S1中构建的用户社会化关注关系矩阵n为输入数据集包含的用户个数,A
ij
∈{0,1,2,3}表示用户i与用户j之间的社会化关注关系,包括i关注j、j关注i、ij互相关注以及无关系四种类型,用户的基本信息集合I包括用户性别、地域以及个人签名信息。3.根据权利要求1所述的一种基于用户知识的个性化隐式情感分析方法,其特征在于:步骤S3中所述开放情感常识知识库的知识以三元组形式呈现,形式为T=<h,r,t>,其中,h为头实体,r为实体间的关系,t为尾实体。开放情感词典库记为d,需要进行知识匹配的句子记为S,步骤S3中所述句子

词汇匹配关系定义包括如下四种:(1)情感常识三元组筛选:主要用于获取带情感信息的三元组,使用三元组与情感词匹配,确保三元组中的h或t包含情感词,即h∈d或t∈d,且h和t不会同时包含词典d中的词;(2)文本相关三元组筛选:主要用于获取与文本相关的三元组,使用隐式情感数据与筛选后的数据匹配,仅当三元组中的h或t存在于句子S中时,即h∈S或t∈S,且h和t不会同时存在于S中,保留此三元组;(3)关系类型筛选:主要用于获取合适关系类型的三元组,通过人工对一定关系下的三元组的合理性进行判别,即判别h、t和r之间是否出现逻辑问题,选取前十种匹配得到的最多三元组的关系类型,作为要引入的三元组;(4)语义相关三元组筛选:主要用于获取与隐式情感句语义相关的三元组,把三元组转化为一个句子表达以计算其与句子的语义相似度,使用Bert模型学习自然语言形式的三元组表达和隐式情感句的表示,并进行余弦相似度计算,所述余弦相似度计算公式为:
其中,E1和E2表示三元组转化的句子与隐式情感句子分别输入Bert模型学习得到的向量,对筛选出的三元组计算余弦值并降序排列,选取相似度值前七的三元组引入文本中。4.根据权利要求1所述的一种基于用户知识的个性化隐式情感分析方法,其特征在于:所述步骤S4具体步骤为:S4.1:对于用户u
i
发布内容集合C中的句子,将其合并成一个长文本S
i
;S4.2:根据步骤S3中获取的知识图谱G,合并获取S
i
的知识图谱G
i
,使用TransE模型学习获取图谱G
i
中的各知识实体h/t及关系r的特征表示向量E
h
/E
t
、E
r
,使其满足关系:E
h

E
t
≈E
r
;S4.3:通过图注意力层对图谱G
i
进行编码,将G
i
中各知识三元组的实体向量表示拼接,并分别动态计算它们的权重,们的权重,β
ik
=(W
r
r
ik
)σ(W
h
h
ik
+W
t
t
ik
)其中,G
i
为长文本S
i
的知识图谱的向量表示,假设图谱G
i
共包括l条知识三元组,分别表示图谱G
i
中的第k组知识三元组g
ik
=<h,r,t>的向量表示,表示向量拼接操作,α
ik
是三元组g
ik
的归一化权重,exp(x)=e
x
为以自然常数e为底的指数函数,β
ik
为三元组g
ik
的权重得分,W
h
,W
t
和分别是h
ik
,t
ik
和r
ik
的参数矩阵,σ(
·
)是非线性激活函数tanh(x),
T
表示向量转置。将词x
i
的表示w
i
与知识图谱的表示G
i
拼接将e
t
作为BiLSTM的输入单元,进行序列建模学习;行序列建模学习;行序列建模学习;行序列建模学习;行序列建模学习;H
t
=o
t

tanh(c
t
)其中,W
i
,W
f
和W
o
分别为输入门i
t
、遗忘门f
t
、输出门ο
t
中激活层的参数矩阵;表示临时信息的向量表示,c
t
是控制内部信息传递的变量;H
t
、H
t
‑1分别为t时刻与t

1时刻隐层的输出,b
f
,b
i
,b
o
和b
c
为偏置向量;σ(
·
)是非线性激活函数sigmoid(x),tanh()为双曲正切函数,表示向量拼接操作,

表示向量点积操作;
S4.4:在隐式情感分析中,使用多极性注意模型来捕捉不同极性下注意力权重的差异特征,引入注意力查询向量集合Q={q
pos
,q
neg
,q
neu
},q
pos
,q
neg
,q
neu
分别对应褒义、贬义和中性的查询向量,q来自步骤S3中词典d中某一情感极性下的情感词向量的平均,v
q
是句子在褒义、贬义或者中性情感极性q下的表示;褒义、贬义或者中性情感极性q下的表示;褒义、贬义或者中性情感极性q下的表示;...

【专利技术属性】
技术研发人员:廖健王素格郑建兴
申请(专利权)人:山西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1