一种基于文本图表征的隐式情感分析方法技术

技术编号:39423379 阅读:8 留言:0更新日期:2023-11-19 16:11
本发明专利技术公开了一种基于文本图表征的隐式情感分析方法,属于自然语言处理领域,包括以下步骤:

【技术实现步骤摘要】
一种基于文本图表征的隐式情感分析方法


[0001]本专利技术涉及自然语言处理领域,具体是一种基于文本图表征的隐式情感分析方法


技术介绍

[0002]情感分析是自然语言处理的一个热门方向,在了解客户需求

改善产品和服务

提升品牌形象等方面具有重要价值,为企业和组织提供了从大量文本数据中提取情感信息的能力,从而有助于支持数据驱动的决策和战略制定

[0003]根据文本是否包含显式情感词,情感分析任务可以划分为显式情感分析和隐式情感分析,其中隐式情感分析是指从缺乏明显情感词的文本中挖掘情感倾向,对文本表示学习

自然语言理解

用户建模

知识嵌入等方面的研究都具有积极的推动作用

随着网络监管的规范化,人们更倾向用委婉含蓄的方式表达自己的观点,隐式情感分析热度逐渐上升

与传统的显式情感分析相比,隐式情感分析缺乏情感词且表达隐晦,通常需要在文本语义中加入新的特征增强情感

[0004]目前,现有的隐式情感分析方法主要从句子层面挖掘并融合多种特征,如上下文

句法结构等

这种粗粒度的融合方式对文本语义的补充仅停留在句子层面,忽略了文本中单词语义模糊,在某些细粒度场景下,难以有效表征文本情感

本专利技术的不同之处是将序列文本转换为图结构,以实现单词级别的语义交互

专利技术内
[0005]针对现有技术的以上缺陷或改进需求,本文明的目的是提供一种基于文本图表征的隐式情感分析方法;该方法用文本图建模目标句与上下文以及外部知识的关系,从词级别补充文本语义,提高隐式情感分析准确率

[0006]本专利技术为了实现专利技术目的采用如下技术方案:
[0007]一种基于文本图表征的隐式情感分析方法,包括如下步骤:
[0008]步骤1:采集文本并对文本进行预处理得到文本的主要词集,再通过预训练词嵌入模型得到文本词嵌入表示

[0009]步骤2:针对步骤1所得词集,利用外部知识库匹配其中单词对应的知识实体,再采用
OpenKE
工具集得到单词对应知识实体的实体嵌入表示

[0010]步骤3:将序列文本转换为以词为节点的文本图,词对应的知识实体作为拓展节点与词节点链接,步骤1和步骤2所得词嵌入和实体嵌入作为文本图中节点的初始化

[0011]步骤4:针对步骤3所得文本图,利用图注意力网络在节点间传播语义信息,得到语义丰富后的文本图

[0012]步骤5:针对步骤4更新后的文本图,利用
READOUT
操作得到文本图表征,经全连接层映射到情感空间,通过
softmax
得到最终情感倾向

[0013]其中,所述步骤1中预处理和词嵌入的具体操作为:
[0014]步骤
1.1
:文本降噪

对未处理的原始文本进行降噪,具体包括删除超链接

繁体转简体

全角转半角

删除无用空格换行和特殊符号等

[0015]步骤
1.2
:分词

使用
jieba
中文分词库对降噪后的文本进行分词并去除停用词,分别得到目标句及其对应上下文的词集
SW
t

SW
c

[0016]步骤
1.3
:词嵌入

采用
MiniRBT
预训练模型对
SW
t

SW
c
进行词嵌入,分别得到目标句词嵌入表示
S
t

{w1,w2,...,w
tn
}∈R
tn
×
de
和上下文词嵌入表示
S
c

{w1,w2,...,w
cn
}∈R
cn
×
de
,其中
w
表示词向量,
de
是词嵌入维度,
tn
是目标句中单词数量,
cn
是上下文中单词数量

[0017]其中,所述步骤2中知识匹配和知识嵌入的具体操作为:
[0018]步骤
2.1
:知识匹配

根据步骤
1.2
所得词集
SW
t

SW
c
中的单词,采用
conceptNet
匹配对应的知识实体其中
KG
i
表示单词
w
i
与外部知识匹配的实体关系集合,
r
是单词与实体之间的关系,
t
是与单词有关的实体,
n
为实体个数

[0019]步骤
2.2
:知识嵌入

采用
OpenKE
工具集中的
TransE
方法得到句中单词对应实体的嵌入表示其中
T
i
表示与单词
w
i
有关的实体嵌入集合,
e
是实体嵌入表示,
n
是实体个数,
dt
是实体嵌入维度

[0020]其中,所述步骤3中文本图构建和文本图初始化的具体操作为:
[0021]步骤
3.1
:文本图构建

目标句及其上下文与外部知识的关系建模为文本图
G

{V,E}
,其中
V
表示由词节点和实体节点组成的图中节点集合,
E
是稀疏矩阵存储的边集合,边集合由三类边组成:目标句和上下文内部的滑动窗口

上下文与目标句的边全连接和知识实体与其对应的单词的边连接

[0022]步骤
3.2
:文本图初始化

根据
1.3
所得词嵌入
S
t

S
c
以及步骤
2.2
所得实体嵌入
T
i
,对文本图中节点
V
进行初始化

[0023]其中,所述步骤4中文本图更新的具体操作为:
[0024]步骤
4.1
:节点贡献程度计算

在节点语义传播时为当前节点的每个相邻节点分配一个注意力权值,再通过归一化操作得到每个相邻节点对当前节点的贡本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于文本图表征的隐式情感分析方法,其特征在于包括如下步骤:步骤1:采集文本并对文本进行预处理,包括文本降噪

分词以及词嵌入;步骤2:针对步骤1所得词集,利用外部知识库匹配对应的知识实体,再通过
OpenKE
工具得到知识实体的实体嵌入表示;步骤3:将序列文本转换为以词为节点的文本图,词对应的知识实体作为拓展节点与词节点链接,步骤1和步骤2所得词嵌入和实体嵌入作为文本图中节点的初始化;步骤4:针对步骤3所得文本图,利用图注意力网络在节点间传播语义信息,得到语义丰富后的文本图;步骤5:针对步骤4更新后的文本图,利用
READOUT
操作得到文本图表征,经全连接层映射到情感空间,通过
softmax
得到最终情感倾向
。2.
根据权利要求1所述一种基于文本图表征的隐式情感分析方法,其特征在于步骤1包括:步骤
1.1
:文本降噪;对未处理的原始文本进行降噪,具体包括删除超链接

繁体转简体

全角转半角

删除无用空格换行和特殊符号等;步骤
1.2
:分词;使用
jieba
中文分词库对降噪后的文本进行分词并去除停用词,分别得到目标句及其对应上下文的词集
SW
t

SW
c
;步骤
1.3
:词嵌入;采用
MiniRBT
预训练模型对
SW
t

SW
c
进行词嵌入,分别得到目标句词嵌入表示
S
t

{w1,w2,...,w
tn
}∈R
tn
×
de
和上下文词嵌入表示
S
c

{w1,w2,...,w
cn
}∈R
cn
×
de
,其中
w
表示词向量,
de
是词嵌入维度,
tn
是目标句中单词数量,
cn
是上下文中单词数量
。3.
根据权利要求1所述一种基于文本图表征的隐式情感分析方法,其特征在于步骤2包括:步骤
2.1
:外部知识匹配;根据权利要求2中步骤
1.2
所得词集
SW
t

SW
c
中的单词
w
i
,采用外部知识库
conceptNet
匹配对应的知识实体其中
KG
i
表示单词
w
i
与外部知识匹配的实体关系集合,
r
是单词与实体之间的关系,
t
是与单词有关的实体,
n
为实体个数;步骤
2.2
:实体嵌入;采用
OpenKE
工具集中的
TransE
方法得到句中单词对应实体的嵌入表示其中
T
i
表示与单词
w
i
有关的实体嵌入集合,
e
是实体嵌入表示,
n
是实体个数,
dt
是实体嵌入维度
。4.
根据权利要求1所述一种基于文本图表征的隐式情感分析方法,其特征在于步骤3包括:步骤
3.1
:文本图构建;目标句及其上下文与外部知识的关系建模为文本图
G

{V,E},
其中
V
表示由词节点和实体节点组成的图中节点集合,
E
是稀疏矩阵存储的边集合,具体边集合由三类组成:目标句和上下文内部的滑动窗口

上下文与目标句的边全连接和知识实体与其对应的单词的边连接;步骤
3.2
:文本图初始化;根据权利要求2中步骤

【专利技术属性】
技术研发人员:李嘉伟张顺香汪雨晴段文杰李书羽周若彤
申请(专利权)人:安徽理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1