一种基于新词扩展与复杂句式扩展的文本情感分析方法技术

技术编号:24353578 阅读:60 留言:0更新日期:2020-06-03 02:05
本发明专利技术请求保护一种基于新词扩展与复杂句式扩展的文本情感分析方法,包括步骤:S1,首先根据已有的情感词典构建基础词典,对已有词典进行清理和筛选;S2,对导入的中文语料进行数据清理,并根据基础情感词典对特定领域的情感词进行扩充;S3,在已有的方法的基础上,综合词频、词性和相似度计算,发现特定领域的新词并添加到基础词典中;S4,对中文句式结构进行分析,总结归纳出句式模型,并通过不同的模型来判断句子情感极性;S5,得出适合本方法的算法选择器,综合词典和句式模型得出句子极性结果。本发明专利技术相较于传统的情感词典+机器学习方法,专注于在特定领域的短文本句子情感识别,无论是准确率还是召回率都得到明显提高。

A text sentiment analysis method based on new word expansion and complex sentence pattern expansion

【技术实现步骤摘要】
一种基于新词扩展与复杂句式扩展的文本情感分析方法
本专利技术属于文本分类情感分析领域,特别是涉及特定领域短文本情感分类的分析方法。
技术介绍
交互的便捷使网络成为了人们越来越喜欢表达自己观点和相互交流的主要方式之一。网络上产生的主观性文本包含大量有用情感信息。越来越多的人们习惯在这些平台上表达自身积极、中立或者消极的情绪,以及对使用产品的偏好。因此各种购物网站、微博、论坛等平台的评论会成为消费者做出购买决策的依据。由于网络评价信息非常庞大,依靠人工的方法是不可行的,效率非常低并且也难以找出真正有价值的信息,因此,快速对这些信息进行有效的处理及分析是当前的迫切需求。怎样把蕴含文本里的情感信息挖掘出来,通过相应技术对网络评论进行情感倾向性判别是当下的研究热点。当前现有的文本情绪分析和情感分类的研究,只是添加了日常网络用语,却忽略了特定的词语在不同的语境下有不同的含义,忽略了特定的情境背景。另外各个社交平台评论语料中短文本较多,中文句式较随意,复杂句式结构也给句子情感极性的判断增加了难度。鉴于以上问题,本研究主要解决两方面的内容:特定领域的新词扩展和基于情感词组的复杂句式模型。第一方面采用《知网》公开词典,利用Word2Vec词向量方法进行词性和词频筛选,将新词扩展集中在较小特定领域,在通过词向量之间的相似度计算,得出近义词组,解决了一些日常用语在不同背景下含义不同的问题;第二方面在关联词分类和情感词组的基础上构建句式模型,解决了中文短文本在结构和语义方面的问题。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种基于新词扩展与复杂句式扩展的文本情感分析方法。本专利技术的技术方案如下:一种基于新词扩展与复杂句式扩展的文本情感分析方法,其包括以下步骤:S1,首先计算机根据网络公开的情感词典,如知网HowNet情感词典和台湾大学NTUSD简体中文情感词典相结合构建本专利技术所需的基础词典,并对两个词典中的重复词和偏义词进行清理和筛选;S2,计算机获取社交平台中文预料,对中文语料进行数据清理,并根据基础情感词典对特定领域的情感词进行扩充;S3,在Word2Vec词向量的基础上,综合词频、词性和相似度计算,获取领域新词来扩展基础词典;S4,通过人工对照8种中文复杂句式结构进行分析,总结归纳出基于情感词组情感极性的通用句式模型,将输入的句子划分为不同的模型来判断句子情感极性;S5,计算机采用朴树贝叶斯算法分类器,综合词典和句式模型得出句子极性结果。进一步的,所述步骤S1计算构建基础情感词典的步骤具体为:基础情感词典的构建本文采取知网Hownet词典和台湾大学NTUSD简体中文情感词典相结合,并将两个词典进行去重,共取得正向情感词3646个,负向情感词9530个,否定词31个。进一步的,所述步骤S2数据清理的步骤包括:(1)剔除html格式代码,清除URL链接;(2)剔除用户名;(3)利用结巴分词对文本评论进行分词处理,同时手动加入领域专有名词;(4)选择常用的停用词表对已分词文本进行去停用词处理;处理完的文本数据设置为DataFrame数据格式,并将正、负极性的文本加入类别标签,分别用+1和-1表示。进一步的,步骤S3中通过Word2Vec方法获取领域新词来扩展基础词典的具体过程描述如下:输入:特定领域评论数据集;输出:完整的情感词典;在步骤S2的基础上对数据做如下操作:第一步:进行词性统计,选出名词、动词、形容词和副词;第二步:在所选词性统计基础上进行词频统计,按照词频的高低进行排序,并人工选出情感倾向比较明显的正面种子词和负面种子词;第三步:通过Word2Vec训练已清理好的语料数据集,得到语料中单词的词向量;第四步:通过词向量计算单词与正、负面种子词之间的余弦值,并按照高低排序选取n个近义词作为候选词;第五步:将特定领域确定情感倾向的候选词与基础情感词典合并,得到完整的情感词典。进一步的,所述Word2vec采用一个三层的神经网络,输入层-投影层-输出层,CBOW连续词袋模型从输入层到投影层的过程就是将上下文向量进行加权求和,再根据建立对数线性类器以及上下词汇的训练结果,CBOW就能够对中心词正确地进行预测,CBOW利用目标词w(t)前后各c个词去预测前当词,令(Context(w),w)作为训练样本,Context(w)表示w前后各c个词语组成;a、输入层:当前词w(t)的前后的2c个词语向量是输入,令m作为整个句子所包含词的数量,V(Context(w)1),V(Context(w)2)…V(Context(w)2c)∈Rm;b、投影层:向量Xw为该2c个词语向量的累加和,也就是c、输出层:一棵Huffman树,树的叶子节点就是训练文本中所包含的词汇,权值为每个词汇在训练文本中出现的频数。进一步的,所述第四步得到情感种子词利用Word2Vec计算与种子词的余弦相似度,找到近义词组,余弦相似度算法为:一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小,余弦值接近1,夹角趋于0,表明两个向量越相似;余弦值接近于0,夹角趋于90度,表明两个向量越不相似;二维空间中余弦函数的公式:x1、x2分别表示两个向量的横坐标,y1、y2分别表示两个向量的纵坐标,多维空间余弦函数的公式为:xi、yi表示多维空间中多个向量的横纵坐标值;本文根据计算得到的余弦相似度高低排序,选取与每个情感种子词最相近的10个近义词组构成候选词集。进一步的,所述步骤S4中关于基于中文情感词组复杂句式模型的构建包括步骤:利用Word2Vec对语料集进行词向量训练,按照已经构造好的复杂句式模型分别对基础情感词典、领域情感词典、关联词表、否定词表、程度副词表进行特征提取,程度副词来源于《知网》情感分析用词语集,词典内数据格式有两列,一列是程度副词,另一列是程度值;一方面构造情感词组,本研究中定义情感词组为一个个短语,即由否定词、程度副词和情感词构成,结构如下:P=Wn*N+Wd+Ws(1)其中,P代表短语即情感词组;Wn表示否定词,N表示否定词个数;Wd表示程度副词,Ws表示情感词;另一方面基于情感词组构造特征词序列来进行情感倾向的判断:设定第一类,第二类,第三类关联词分别为W1,W2,W3,复杂句式判断规则总结如下:W1+P+Wpo/Wne+其他(2)W1+P+Wpo/Wne+?(3)W2/W3+P+Wpo/Wne+其他(4)正向词Wpo极性值+1,负向词Wne极性值-1,偶数否定词极性乘以+1,奇数否定词极性乘以-1;P的极性值Sp由式(1)计算;(5)句式匹配过程如下:输入:情感词典,模型关联词典,否定词典,数据文本;输出:文本评论的情感类别;第一步:将分词文本与本文档来自技高网...

【技术保护点】
1.一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,包括以下步骤:/nS1,首先计算机根据网络公开的情感词典,如知网HowNet情感词典和台湾大学NTUSD简体中文情感词典相结合构建本专利技术所需的基础词典,并对两个词典中的重复词和偏义词进行清理和筛选;/nS2,计算机获取社交平台中文预料,对中文语料进行数据清理,并根据基础情感词典对特定领域的情感词进行扩充;/nS3,在Word2Vec词向量的基础上,综合词频、词性和相似度计算,获取领域新词来扩展基础词典;/nS4,通过人工对照8种中文复杂句式结构进行分析,总结归纳出基于情感词组情感极性的通用句式模型,将输入的句子划分为不同的模型来判断句子情感极性;/nS5,计算机采用朴树贝叶斯算法分类器,综合词典和句式模型得出句子极性结果。/n

【技术特征摘要】
1.一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,包括以下步骤:
S1,首先计算机根据网络公开的情感词典,如知网HowNet情感词典和台湾大学NTUSD简体中文情感词典相结合构建本发明所需的基础词典,并对两个词典中的重复词和偏义词进行清理和筛选;
S2,计算机获取社交平台中文预料,对中文语料进行数据清理,并根据基础情感词典对特定领域的情感词进行扩充;
S3,在Word2Vec词向量的基础上,综合词频、词性和相似度计算,获取领域新词来扩展基础词典;
S4,通过人工对照8种中文复杂句式结构进行分析,总结归纳出基于情感词组情感极性的通用句式模型,将输入的句子划分为不同的模型来判断句子情感极性;
S5,计算机采用朴树贝叶斯算法分类器,综合词典和句式模型得出句子极性结果。


2.根据权利要求1所述的一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,所述步骤S1计算构建基础情感词典的步骤具体为:
基础情感词典的构建本文采取知网Hownet词典和台湾大学NTUSD简体中文情感词典相结合,并将两个词典进行去重,共取得正向情感词3646个,负向情感词9530个,否定词31个。


3.根据权利要求1所述的一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,所述步骤S2数据清理的步骤包括:
(1)剔除html格式代码,清除URL链接;
(2)剔除用户名;
(3)利用结巴分词对文本评论进行分词处理,同时手动加入领域专有名词;
(4)选择常用的停用词表对已分词文本进行去停用词处理;
处理完的文本数据设置为DataFrame数据格式,并将正、负极性的文本加入类别标签,分别用+1和-1表示。


4.根据权利要求3所述的一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,步骤S3中通过Word2Vec方法获取领域新词来扩展基础词典的具体过程描述如下:
输入:特定领域评论数据集;
输出:完整的情感词典;
在步骤S2的基础上对数据做如下操作:
第一步:进行词性统计,选出名词、动词、形容词和副词;
第二步:在所选词性统计基础上进行词频统计,按照词频的高低进行排序,并人工选出情感倾向比较明显的正面种子词和负面种子词;
第三步:通过Word2Vec训练已清理好的语料数据集,得到语料中单词的词向量;
第四步:通过词向量计算单词与正、负面种子词之间的余弦值,并按照高低排序选取n个近义词作为候选词;
第五步:将特定领域确定情感倾向的候选词与基础情感词典合并,得到完整的情感词典。


5.根据权利要求4所述的一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,所述Word2vec采用一个三层的神经网络,输入层-投影层-输出层,CBOW连续词袋模型从输入层到投影层的过程就是将上下文向量进行加权求和,再根据建立对数线性类器以及上下词汇的训练结果,CBOW就能够对中心词正确地进行预测,CBOW利用目标词w(t)前后各c个词去预测前当词,令(Context(w),w)作为训练样本,Context(w)表示w前后各c个词语组成;
a、输入层:当前词w(t)的前后的2c个词语向量是输入,令m作为整个句子所包含词的数量,V(Context(w)1),V(...

【专利技术属性】
技术研发人员:刘洪涛孙桂
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1