当前位置: 首页 > 专利查询>天津大学专利>正文

一种结合SVM和文档向量的短文本情感分类方法技术

技术编号:20916522 阅读:46 留言:0更新日期:2019-04-20 09:41
本发明专利技术公开一种结合SVM和文档向量的短文本情感分类方法,其特征在于,包括如下步骤:首先,对短文本进行预处理;其次,利用Doc2Vec技术将短文本训练成多维向量;然后使用已经标注的短文本数据训练SVM分类器;最后,利用训练好的SVM分类器对未标注的短文本进行情感分类。本发明专利技术使用机器学习中的SVM进行情感分类,不仅分类效果显著,而且需要标注的数据少。提高精度的同时,降低了训练的成本。

A Short Text Emotional Classification Method Combining SVM and Document Vector

The invention discloses a short text emotional classification method combining SVM and document vectors, which is characterized by the following steps: firstly, short text is preprocessed; secondly, short text is trained into multi-dimensional vectors by Doc2Vec technology; secondly, SVM classifier is trained with annotated short text data; finally, unsigned short text is advanced by trained SVM classifier. Classify emotions. The method uses SVM in machine learning to classify emotion, which not only has remarkable classification effect, but also needs less data to be labeled. While improving the accuracy, the training cost is reduced.

【技术实现步骤摘要】
一种结合SVM和文档向量的短文本情感分类方法
本专利技术属于计算机自然语言处理领域,具体涉及一种结合SVM和文档向量的短文本情感分类方法。是一种能够对新闻媒体数据进行情感分类的技术。
技术介绍
情感分析的应用非常的广泛。例如,企业可以利用情感分析技术统计用户的情感倾向,进而改进产品和制定销售策略;影视企业可以获得观影者对于电影的反馈,进而调整播放的场次等等。在各种现实需求的驱动下,情感分析的技术取得了长足的发展。在情感倾向的划分方面,主要有两种划分方式,即粗粒度的情感划分和细粒度的情感划分。对于粗粒度的情感划分,主要是将情感划分为正性,中性,负性情感。但是在有的研究中,为了简化后续的情感分析过程,仅仅将情感倾向划分成正性和负性。在细粒度的情感划分方向,主要是将情感划分成喜、怒、哀、乐、惧等情感类别。在实际的操作中,有些文章认为一段文本的情感就只有一个,于是将整个文本的情感归属为一类。但在有些文章认为一个文本的情感在不同的方面表现出不同的情感色彩,例如“虽然这件衣服很好看,但不是我喜欢的风格”。对于“衣服”来说,这个文本的情感就是正向的,但是对于“我”来说,这个文本的的情感倾向就是负向的。从这些角度出发,所以引出了Aspect的概念,即基于Aspect的情感分析。在很多时候,现实的需求只是简单的了解文本的情感倾向,所以最近几年研究更多的集中在粗粒度的情感划分方面。本文所述的情感分析,也主要集中在粗粒度的情感分析,下面简称情感分析。在情感分析的技术方面,主流的方法主要有基于情感词典和基于机器学习两种方法。机器学习主要围绕着获得高质量的数据和优秀的算法模型进行研究,利用有标注的数据训练算法模型,然后基于训练好的模型对新的数据进行情感判定。而利用情感词典判别文本的情感,主要围绕着构建一部优秀的情感词典来进行,情感词典好坏对于情感分析的影响非常的大。由于机器是门新兴的技术,不仅能够基于大量的数据做分析,且能生成连续的向量,所以使用机器学习作情感分类目前有更多的研究。Pangetal首次将将机器学习算法用于文本的情感分析。但是Pangetal利用的是one-hot词向量,该向量在进行短文本的分析的时候,存在稀疏的现象。Mikolov,T则是利用神经网络模型得到连续的词向量,利用叠加词向量的方法和KNN完成情感的分类。本文基于基于Doc2Vec技术,将短文本直接训练成词向量,并基于SVM完成情感分类,不仅分类的效果好,且需要标注的数据少。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种结合SVM和文档向量的短文本情感分类方法。本专利技术的应用广泛,例如企业部门可以利用该技术自动化的分析用户评论,以此获得用户对于该产品的认可度,进而改进产品提高经济效益。本专利技术为解决
技术介绍
的技术问题,采用的技术方案是:一种结合SVM和文档向量的短文本情感分类方法,包括如下步骤:1)对短文本进行预处理;2)利用Doc2Vec技术将短文本训练成多维向量;3)使用已经标注的短文本数据训练SVM分类器;4)利用训练好的SVM分类器对未标注的短文本进行情感分类。所述步骤1)对短文本进行预处理,包含以下步骤:(1)爬取目标网站的评论数据,组成实验用的短文本语料;(2)去除语料库中无关的符号,标点符号包括。?!,、;:“”‘’()-……《》;(3)使用分词工具对获取的评论数据进行分词处理;(4)去除分词后的语料库中无关的停用词。所述步骤2)利用Doc2Vec技术将短文本训练成多维向量,具体步骤如下:(1)随机的初始化一个An*m的向量矩阵,其中m可以任意初始化,n代表所有新闻评论中不同词语的数量和语料中评论数量的总和;(2)对于一个新闻评论,将其所包含的词语C=(t1,t2,……tn-1,tn,)和该条新闻评论转换成An*m中的对应的多维向量,即W=(w1,w2,w3,……,wn,wn+1);(3)对W中的每个wi(i=1,2,3……n+1)向量进行加和处理,得到T:(4)将T带入双曲正切激活函数Y,其中U,P是双曲正切函数需要动态更新的参数:y=tanh(UT+P);(5)然后,将获得的y带入SoftMax函数,得到最终每个词的概率p(wi|w1,w2…wi-1,wi+1…wn+1):(6)得到目标函数f,并对目标函数求均值:(7)根据神经网络BackPropagation算法,更新上述参数,并最终可以得到向量矩阵An*m。所述步骤3)使用已经标注的短文本数据训练SVM分类器,在训练SVM分类器时需要满足如下约束,这样找到的超平面是最优的:s.tyi(ωTxi+b)≥1,i=1,2,....,m解上述方程可得如下公式,这里αi是拉格朗日乘子:其中,ω,b是SVM的参数,xi,yi是样本数据,i是样本数据的编号,m是样本数据的总条数;训练步骤如下:(1)各选取p条,p一般大于等于300,正向情感评论和负向情感评论;(2)将上述评论转成Am*n中对应的向量,可得向量X=(x1,x2......x2p),每条评论所对应情感标签组成的向量为Y=(y1,y2,…y2p),这里yi是0或1,其中0代表正向情感,1代表正向情感;(3)将X,Y带入上述求ω的公式,可得到ω对应的值,最终可得到训练好的SVM;(4)将待分类的评论转换成Am*n中对应的向量X′,将T输入SVM最终可得改评论的情感类别Y′。有益效果1、本专利技术在生活中应用广泛。例如,企业可以利用情感分析技术统计用户的情感倾向,进而改进产品和制定销售策略;影视企业可以获得观影者对于电影的反馈,进而调整播放的场次,使得最终的收益最大化。2、本专利技术使用机器学习中的SVM进行情感分类,不仅分类效果显著,而且需要标注的数据少。提高精度的同时,降低了训练的成本。3、本专利技术基于Doc2Vec技术,将短文本直接训练成词向量。Doc2Vec训练过程中,不仅包含每个词语的向量表示,还包含了每个段落的向量表示。在段落的向量表示中,蕴含了上下文的信息,这能进一步提高情感分类的精度。Pangetal首次将将机器学习算法用于文本的情感分析。但是Pangetal利用的是one-hot词向量,该向量在进行短文本的分析的时候,存在稀疏的现象。Mikolov,T则是利用神经网络模型得到连续的词向量,利用叠加的词向量和KNN完成向量的分类,但是进利用词向量进行分类,忽略了上下文信息。附图说明图1为本方法的流程图。图2为SVM分类原理图。图3Doc2Vec词向量样例。具体实施方式以下结合附图和具体实施例来对本专利技术做详细的说明。本专利技术为结合SVM分类器和文档向量对文档进行情感分类的方法。下面将结合的具体实施用例说明本专利技术的实施步骤:实施例1实现对网易新闻评论的情感划分图1是结合SVM和文档向量对文本进行情感分类的的流程图,其各个模块在该实施例中的具体步骤如下:第一步:使用网易新闻国内新闻模块的地址作为爬取地址第二步:使用python3.0,Pycharm,Scrapy爬虫框架编写爬虫程序,实现对网易新闻网页新闻标题,时间,新闻内容,新闻地址,url,评论人id,评论人地区,评论时间等关键字段的爬取,爬取程序的主要代码如下:第三步:使用mysql数据库存储上述爬取的关键字段。因为爬取的数据共涉及到新闻和新闻评论以及用户这三个实体,本文档来自技高网
...

【技术保护点】
1.一种结合SVM和文档向量的短文本情感分类方法,其特征在于,包括如下步骤:1)对短文本进行预处理;2)利用Doc2Vec技术将短文本训练成多维向量;3)使用已经标注的短文本数据训练SVM分类器;4)利用训练好的SVM分类器对未标注的短文本进行情感分类。

【技术特征摘要】
1.一种结合SVM和文档向量的短文本情感分类方法,其特征在于,包括如下步骤:1)对短文本进行预处理;2)利用Doc2Vec技术将短文本训练成多维向量;3)使用已经标注的短文本数据训练SVM分类器;4)利用训练好的SVM分类器对未标注的短文本进行情感分类。2.根据权利要求1所述的一种结合SVM和文档向量的短文本情感分类方法,其特征在于,所述步骤1)对短文本进行预处理,包含以下步骤:(1)爬取目标网站的评论数据,组成实验用的短文本语料;(2)去除语料库中无关的符号,标点符号包括。?!,、;:“”‘’()-……《》;(3)使用分词工具对获取的评论数据进行分词处理;(4)去除分词后的语料库中无关的停用词。3.根据权利要求1所述的一种结合SVM和文档向量的短文本情感分类方法,其特征在于,所述步骤2)利用Doc2Vec技术将短文本训练成多维向量,具体步骤如下:(1)随机的初始化一个An*m的向量矩阵,其中m可以任意初始化,n代表所有新闻评论中不同词语的数量和语料中评论数量的总和;(2)对于一个新闻评论,将其所包含的词语C=(t1,t2,……tn-1,tn,)和该条新闻评论转换成An*m中的对应的多维向量,即W=(w1,w2,w3,……,wn,wn+1);(3)对W中的每个wi(i=1,2,3……n+1)向量进行加和处理,得到T:(4)将T带入双曲正切激活函数Y,...

【专利技术属性】
技术研发人员:沈幸博王文俊孙越恒
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1