【技术实现步骤摘要】
一种基于新词扩展与复杂句式扩展的文本情感分析方法
本专利技术属于文本分类情感分析领域,特别是涉及特定领域短文本情感分类的分析方法。
技术介绍
交互的便捷使网络成为了人们越来越喜欢表达自己观点和相互交流的主要方式之一。网络上产生的主观性文本包含大量有用情感信息。越来越多的人们习惯在这些平台上表达自身积极、中立或者消极的情绪,以及对使用产品的偏好。因此各种购物网站、微博、论坛等平台的评论会成为消费者做出购买决策的依据。由于网络评价信息非常庞大,依靠人工的方法是不可行的,效率非常低并且也难以找出真正有价值的信息,因此,快速对这些信息进行有效的处理及分析是当前的迫切需求。怎样把蕴含文本里的情感信息挖掘出来,通过相应技术对网络评论进行情感倾向性判别是当下的研究热点。当前现有的文本情绪分析和情感分类的研究,只是添加了日常网络用语,却忽略了特定的词语在不同的语境下有不同的含义,忽略了特定的情境背景。另外各个社交平台评论语料中短文本较多,中文句式较随意,复杂句式结构也给句子情感极性的判断增加了难度。鉴于以上问题,本研究主要解决两方面的内容:特定领域的新词扩展和基于情感词组的复杂句式模型。第一方面采用《知网》公开词典,利用Word2Vec词向量方法进行词性和词频筛选,将新词扩展集中在较小特定领域,在通过词向量之间的相似度计算,得出近义词组,解决了一些日常用语在不同背景下含义不同的问题;第二方面在关联词分类和情感词组的基础上构建句式模型,解决了中文短文本在结构和语义方面的问题。
技术实现思路
...
【技术保护点】
1.一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,包括以下步骤:/nS1,首先计算机根据网络公开的情感词典,如知网HowNet情感词典和台湾大学NTUSD简体中文情感词典相结合构建本专利技术所需的基础词典,并对两个词典中的重复词和偏义词进行清理和筛选;/nS2,计算机获取社交平台中文预料,对中文语料进行数据清理,并根据基础情感词典对特定领域的情感词进行扩充;/nS3,在Word2Vec词向量的基础上,综合词频、词性和相似度计算,获取领域新词来扩展基础词典;/nS4,通过人工对照8种中文复杂句式结构进行分析,总结归纳出基于情感词组情感极性的通用句式模型,将输入的句子划分为不同的模型来判断句子情感极性;/nS5,计算机采用朴树贝叶斯算法分类器,综合词典和句式模型得出句子极性结果。/n
【技术特征摘要】
1.一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,包括以下步骤:
S1,首先计算机根据网络公开的情感词典,如知网HowNet情感词典和台湾大学NTUSD简体中文情感词典相结合构建本发明所需的基础词典,并对两个词典中的重复词和偏义词进行清理和筛选;
S2,计算机获取社交平台中文预料,对中文语料进行数据清理,并根据基础情感词典对特定领域的情感词进行扩充;
S3,在Word2Vec词向量的基础上,综合词频、词性和相似度计算,获取领域新词来扩展基础词典;
S4,通过人工对照8种中文复杂句式结构进行分析,总结归纳出基于情感词组情感极性的通用句式模型,将输入的句子划分为不同的模型来判断句子情感极性;
S5,计算机采用朴树贝叶斯算法分类器,综合词典和句式模型得出句子极性结果。
2.根据权利要求1所述的一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,所述步骤S1计算构建基础情感词典的步骤具体为:
基础情感词典的构建本文采取知网Hownet词典和台湾大学NTUSD简体中文情感词典相结合,并将两个词典进行去重,共取得正向情感词3646个,负向情感词9530个,否定词31个。
3.根据权利要求1所述的一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,所述步骤S2数据清理的步骤包括:
(1)剔除html格式代码,清除URL链接;
(2)剔除用户名;
(3)利用结巴分词对文本评论进行分词处理,同时手动加入领域专有名词;
(4)选择常用的停用词表对已分词文本进行去停用词处理;
处理完的文本数据设置为DataFrame数据格式,并将正、负极性的文本加入类别标签,分别用+1和-1表示。
4.根据权利要求3所述的一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,步骤S3中通过Word2Vec方法获取领域新词来扩展基础词典的具体过程描述如下:
输入:特定领域评论数据集;
输出:完整的情感词典;
在步骤S2的基础上对数据做如下操作:
第一步:进行词性统计,选出名词、动词、形容词和副词;
第二步:在所选词性统计基础上进行词频统计,按照词频的高低进行排序,并人工选出情感倾向比较明显的正面种子词和负面种子词;
第三步:通过Word2Vec训练已清理好的语料数据集,得到语料中单词的词向量;
第四步:通过词向量计算单词与正、负面种子词之间的余弦值,并按照高低排序选取n个近义词作为候选词;
第五步:将特定领域确定情感倾向的候选词与基础情感词典合并,得到完整的情感词典。
5.根据权利要求4所述的一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,所述Word2vec采用一个三层的神经网络,输入层-投影层-输出层,CBOW连续词袋模型从输入层到投影层的过程就是将上下文向量进行加权求和,再根据建立对数线性类器以及上下词汇的训练结果,CBOW就能够对中心词正确地进行预测,CBOW利用目标词w(t)前后各c个词去预测前当词,令(Context(w),w)作为训练样本,Context(w)表示w前后各c个词语组成;
a、输入层:当前词w(t)的前后的2c个词语向量是输入,令m作为整个句子所包含词的数量,V(Context(w)1),V(...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。