一种结合外部知识的文本隐式情感分析方法技术

技术编号:30173679 阅读:208 留言:0更新日期:2021-09-25 15:33
本发明专利技术涉及一种结合外部知识的文本隐式情感分析方法,属于自然语言处理情感分析技术领域。本方法利用TransE模型对常识知识数据集预训练。对常识知识数据集中的每个知识子图,通过注意力机制计算每个知识子图的向量表示。对于需要进行隐式情感分析的句子采用预训练的单词特征向量表示文本序列中的每个单词的向量化表示,并与知识图特征向量表示进行拼接,得到结合外部知识的单词融合特征表示。使用双向长短时记忆网络对融合外部知识的单词表示进行句子层面的文本编码。通过注意力机制决定每个词语在表示学习过程中的重要性。最后将句子表示通过Softmax层计算对应的概率向量。本方法丰富了句子语义表达,更好建模句子表示,提升了文本隐式情感分析性能。提升了文本隐式情感分析性能。提升了文本隐式情感分析性能。

【技术实现步骤摘要】
一种结合外部知识的文本隐式情感分析方法


[0001]本专利技术涉及一种结合外部知识的隐式情感分析方法,具体涉及一种利用外部常识知识库中抽取到的信息有效识别文本中的隐式情感的方法,属于自然语言处理情感分析


技术介绍

[0002]近年来,随着互联网及社交网络的发展,文本情感分析已成为自然语言处理领域最热门的研究方向之一。全面、精确地理解文本所表达的情感,能够应用于股市预测、客户反馈跟踪、意见挖掘等众多场景,产生广泛的社会效益。
[0003]文本情感分析,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。从文本的语言表达层面,可划分为显式情感分析和隐式情感分析。其中,隐式情感分析被定义为“不含有显式情感词,但表达了主观情感的语言片段(句子,从句或短语)”。
[0004]目前,显式情感分析作为该领域的基础性研究内容,已经取得了许多丰硕的成果,而隐式情感分析研究仍处于起步阶段。在日常表达中,人们在对客观事物体验及其行为所反映出的情感是丰富而抽象的,除采用显式情感词表达情感外,还采用客观陈述或修辞方式来隐式地表达自己的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种结合外部知识的文本隐式情感分析方法,首先,对有关概念进行说明:定义1:知识图谱G,指由实体和关系组成的多关系图;知识图谱G由多个子图构成,其表达式为:代表一系列知识子图的集合;定义2:文本序列s其表达式为:{s=w1,w2,...,w
N
},表示需要进行情感分析的句子,该句子中有N个单词w1,w2,...,w
N
,下标N为句子单词序列长度,w代表单词;定义3:输入文本序列的单词特征向量指将输入文本序列向量化所使用的预训练向量,包括语义向量和位置向量;其中,语义向量指当前单词的语义特征信息,位置向量指当前单词在文本序列的位置特征信息;定义4:注意力指为了合理利用有限的视觉信息处理资源,人类需要选择视觉区域中的特定部分,然后集中关注它的现象;注意力体现在:若知识图谱中关系和实体的相关性更高,则赋予其更高的权重;若句子中的单词与当前句的表示更相关,则赋予这个词更高的权重;其特征在于,包括以下步骤:步骤1:利用TransE模型,对常识知识数据集进行预训练,得到实体嵌入和关系嵌入;其中,所述常识知识数据集,是通过挑选知识图谱中满足条件的<头实体

关系

尾实体>三元组构建组成的知识图;所述实体嵌入,是指知识图谱中的实体用低维向量的表示;所述关系嵌入,是指知识图谱中的关系用低维向量的表示;步骤2:对常识知识数据集中的每一个知识子图,通过注意力机制,计算每个知识子图的向量表示g
i
,方法如下:,方法如下:,方法如下:其中,g
i
代表知识图谱G中的第i个知识子图,其表达式为:代表知识图谱G中的第i个知识子图,其表达式为:代表一系列三元组的集合,表示第i个知识子图中三元组的个数;τ
i
代表子图中的第i个<头实体

关系

尾实体>三元组,表达式为:τ
i
=(h,r,t),h代表头实体,r代表关系,t代表尾实体;表示第n个三元组在整个知识子图中的注意力权重,即第n个三元组在整个知识子图中的重要性;表示第n个三元组的整体向量表示;s表示文本序列;T表示矩阵转置;W
h
、W
r
、W
t
分别是是第n个三元组中头实体h
n
、关系r
n
、尾实体t
n
的权重矩阵。步骤3:对于输入的需要进行隐式情感分析的句子,即文本序列,采用预训练的单词特
征向量来表示文本序列中的每个单词的向量化表示,并与步骤2中获得的每个词为核心实体的知识图特征向量表示进行拼接,得到结合外部知识的单词融合特征表示;其中,每个单词的语义表示、位置表示的加和,作为单词特征向量,从而得到文本序列中各个词对应的特征向量;步骤4:使用双向长短时记忆网络LSTM,对步骤3得到的融合外部知识的单词表示进行句子层面的文本编码;其中,长短时记忆网络按照式3至式7,进行网络中节点状态计算:i
(t)
=δ(U
i
x
(t)
+W
i
h
(t

1)
+b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)f
(t)
=δ(U
f
x
(t)
+W
f
h
(t

1)
+b
f
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)o
(t)
=δ(U
o
x
(t)
+W
o
h
(t

1)
+b
o
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)c
(t)
=f
(t)

c
(t<...

【专利技术属性】
技术研发人员:史树敏邬成浩黄河燕
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1