【技术实现步骤摘要】
一种融合多特征和表情情感词典的微博文本隐式情感识别方法
[0001]本专利技术涉及自然语言处理领域,具体是一种融合多特征和表情情感词典的文本隐式情感识别方法。
技术介绍
[0002]随着互联网的普及,网络中出现了大量的文本数据,这些数据携带着人们的态度和观点等主观信息。研究发现,评论文本中存在大量的隐式情感,使得模型难以识别用户在评论时的真实意图,影响了情感分析的准确性,导致分析结果出现较大的误差。
[0003]微博评论文本具有原创性以及不可预见性等特点,现有的情感分析方法大多只学习文本的字词特征,忽略了字形和读音两方面的特征,而微博中存在大量的网络语需要读者通过字形及读音特征进行推理进而发现用户的真实表达;同时,微博评论中存在一定数量的表情符号,这些表情符号大多和其编码所表达的意思不同,且每一个表情符号都传达出一条重要的情感信息,在表达情感方面发挥着重要的作用,如果将这些表情符号直接进行删除或直接进行使用,都会造成一定的语义混乱。本文提出的微博文本隐式情感识别方法,融合了多特征并结合表情情感词典,更加准确的了解用户 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种融合多特征和表情情感词典的微博文本隐式情感识别方法,其特征在于包括如下步骤:步骤1:对数据进行采集和处理;步骤2:为微博中的默认表情分配相应的情感强度并建立表情情感词典;步骤3:提取字符特征以及形音方面的五笔、郑码、和拼音特征,并对提取到的特征进行融合,作为Bi
‑
GRU网络的输入,学习更深层次的语义信息;步骤4:计算文本的情感极性,并结合表情情感词典来识别文本中的隐式情感信息。2.根据权利要求1所述一种融合多特征和表情情感词典的微博文本隐式情感识别方法,其特征在于步骤1包括:对某个话题下的微博文本进行采集,并对采集的方法进行预处理操作,主要包括:除文本中“#话题#”、“@用户名”、图片、视频、网页链接以及不相关内容等在内的噪声信息,并对文本中出现的繁体字转换为简体字。3.根据权利要求1所述一种融合多特征和表情情感词典的微博文本隐式情感识别方法,其特征在于步骤2包括:提取微博中默认表情对应的编码构建表情情感词典,并采用人工的方式对表情标注相应的情感强度。4.根据权利要求1所述一种融合多特征和表情情感词典的微博文本隐式情感识别方法,其特征在于步骤3包括:S=[w0,w1,w2,...,w
i
,...,w
n
,w
n+1
]步骤3.1:输入序列向量化BERT使用WordPiece作为分词器,由输入的原始序列得到词嵌入为:,其中S是指输入序列,n是句子长度,w0是句子分类标记“[CLS]”(classfication)向量,w
n+1
是句子分隔符/结束符“[SEP]”(separation)向量,然后使用多层双向Transformer网络进行编码。向量化过程可以表示为:V
ibert
=BERT(w
i
),i∈Z∩i∈[0,n+1]其中,w
i
表示序列中的第i个字符,且i为0到n+1之间的整数;BERT()表示通过BERT预训练模型进行编码;V
ibert
表示输入序列中第i个字符通过BERT编码后得到的对应向量。步骤3.2:提取五笔特征使用python中pywubi库,将输入序列转换为对应的五笔编码,之后使用Word2Vec模型对其进行训练,获得每个字符对应五笔编码的上下文特征,学习到在五笔特征下每个字符对应的向量。五笔特征的向量化过程如下:T=f
wb
(S)W
vec
=Word2Vec(T)V
iwb
=W
vec
(T
i
),i∈Z∩i∈[0,n+1]其中,f
wb
表示将输入序列按照pywubi库转换为对应的五笔编码;Word2Vec()表示使用Word2Vec模型按照五笔特征对序列进行向量化;V
iwb
表示与输入序列T
i
对应的五笔特征向量。步骤3.3:提取郑码特征利用郑码和汉字的对应表将输入序列转换为对应的郑码编码,利用与训练五笔特征类似的方式,对郑码特征进行训练。郑码特征的向量化过程如下:
T=f
技术研发人员:张顺香,马子晨,李瀚臣,刘云朵,王星光,谈光璞,张友强,王腾科,
申请(专利权)人:安徽理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。