【技术实现步骤摘要】
一种基于文本图表征的隐式情感分析方法
[0001]本专利技术涉及自然语言处理领域,具体是一种基于文本图表征的隐式情感分析方法
。
技术介绍
[0002]情感分析是自然语言处理的一个热门方向,在了解客户需求
、
改善产品和服务
、
提升品牌形象等方面具有重要价值,为企业和组织提供了从大量文本数据中提取情感信息的能力,从而有助于支持数据驱动的决策和战略制定
。
[0003]根据文本是否包含显式情感词,情感分析任务可以划分为显式情感分析和隐式情感分析,其中隐式情感分析是指从缺乏明显情感词的文本中挖掘情感倾向,对文本表示学习
、
自然语言理解
、
用户建模
、
知识嵌入等方面的研究都具有积极的推动作用
。
随着网络监管的规范化,人们更倾向用委婉含蓄的方式表达自己的观点,隐式情感分析热度逐渐上升
。
与传统的显式情感分析相比,隐式情感分析缺乏情感词且表达隐晦,通常需要在文本语义中加入新的特征增强情感
。
[0004]目前,现有的隐式情感分析方法主要从句子层面挖掘并融合多种特征,如上下文
、
句法结构等
。
这种粗粒度的融合方式对文本语义的补充仅停留在句子层面,忽略了文本中单词语义模糊,在某些细粒度场景下,难以有效表征文本情感
。
本专利技术的不同之处是将序列文本转换为图结构,以实现单词级别的语义交互
。
专利技术内 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于文本图表征的隐式情感分析方法,其特征在于包括如下步骤:步骤1:采集文本并对文本进行预处理,包括文本降噪
、
分词以及词嵌入;步骤2:针对步骤1所得词集,利用外部知识库匹配对应的知识实体,再通过
OpenKE
工具得到知识实体的实体嵌入表示;步骤3:将序列文本转换为以词为节点的文本图,词对应的知识实体作为拓展节点与词节点链接,步骤1和步骤2所得词嵌入和实体嵌入作为文本图中节点的初始化;步骤4:针对步骤3所得文本图,利用图注意力网络在节点间传播语义信息,得到语义丰富后的文本图;步骤5:针对步骤4更新后的文本图,利用
READOUT
操作得到文本图表征,经全连接层映射到情感空间,通过
softmax
得到最终情感倾向
。2.
根据权利要求1所述一种基于文本图表征的隐式情感分析方法,其特征在于步骤1包括:步骤
1.1
:文本降噪;对未处理的原始文本进行降噪,具体包括删除超链接
、
繁体转简体
、
全角转半角
、
删除无用空格换行和特殊符号等;步骤
1.2
:分词;使用
jieba
中文分词库对降噪后的文本进行分词并去除停用词,分别得到目标句及其对应上下文的词集
SW
t
和
SW
c
;步骤
1.3
:词嵌入;采用
MiniRBT
预训练模型对
SW
t
和
SW
c
进行词嵌入,分别得到目标句词嵌入表示
S
t
=
{w1,w2,...,w
tn
}∈R
tn
×
de
和上下文词嵌入表示
S
c
=
{w1,w2,...,w
cn
}∈R
cn
×
de
,其中
w
表示词向量,
de
是词嵌入维度,
tn
是目标句中单词数量,
cn
是上下文中单词数量
。3.
根据权利要求1所述一种基于文本图表征的隐式情感分析方法,其特征在于步骤2包括:步骤
2.1
:外部知识匹配;根据权利要求2中步骤
1.2
所得词集
SW
t
和
SW
c
中的单词
w
i
,采用外部知识库
conceptNet
匹配对应的知识实体其中
KG
i
表示单词
w
i
与外部知识匹配的实体关系集合,
r
是单词与实体之间的关系,
t
是与单词有关的实体,
n
为实体个数;步骤
2.2
:实体嵌入;采用
OpenKE
工具集中的
TransE
方法得到句中单词对应实体的嵌入表示其中
T
i
表示与单词
w
i
有关的实体嵌入集合,
e
是实体嵌入表示,
n
是实体个数,
dt
是实体嵌入维度
。4.
根据权利要求1所述一种基于文本图表征的隐式情感分析方法,其特征在于步骤3包括:步骤
3.1
:文本图构建;目标句及其上下文与外部知识的关系建模为文本图
G
=
{V,E},
其中
V
表示由词节点和实体节点组成的图中节点集合,
E
是稀疏矩阵存储的边集合,具体边集合由三类组成:目标句和上下文内部的滑动窗口
、
上下文与目标句的边全连接和知识实体与其对应的单词的边连接;步骤
3.2
:文本图初始化;根据权利要求2中步骤
技术研发人员:李嘉伟,张顺香,汪雨晴,段文杰,李书羽,周若彤,
申请(专利权)人:安徽理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。