The invention discloses a short text emotional classification method combining SVM and document vectors, which is characterized by the following steps: firstly, short text is preprocessed; secondly, short text is trained into multi-dimensional vectors by Doc2Vec technology; secondly, SVM classifier is trained with annotated short text data; finally, unsigned short text is advanced by trained SVM classifier. Classify emotions. The method uses SVM in machine learning to classify emotion, which not only has remarkable classification effect, but also needs less data to be labeled. While improving the accuracy, the training cost is reduced.
【技术实现步骤摘要】
一种结合SVM和文档向量的短文本情感分类方法
本专利技术属于计算机自然语言处理领域,具体涉及一种结合SVM和文档向量的短文本情感分类方法。是一种能够对新闻媒体数据进行情感分类的技术。
技术介绍
情感分析的应用非常的广泛。例如,企业可以利用情感分析技术统计用户的情感倾向,进而改进产品和制定销售策略;影视企业可以获得观影者对于电影的反馈,进而调整播放的场次等等。在各种现实需求的驱动下,情感分析的技术取得了长足的发展。在情感倾向的划分方面,主要有两种划分方式,即粗粒度的情感划分和细粒度的情感划分。对于粗粒度的情感划分,主要是将情感划分为正性,中性,负性情感。但是在有的研究中,为了简化后续的情感分析过程,仅仅将情感倾向划分成正性和负性。在细粒度的情感划分方向,主要是将情感划分成喜、怒、哀、乐、惧等情感类别。在实际的操作中,有些文章认为一段文本的情感就只有一个,于是将整个文本的情感归属为一类。但在有些文章认为一个文本的情感在不同的方面表现出不同的情感色彩,例如“虽然这件衣服很好看,但不是我喜欢的风格”。对于“衣服”来说,这个文本的情感就是正向的,但是对于“我”来说,这个文本的的情感倾向就是负向的。从这些角度出发,所以引出了Aspect的概念,即基于Aspect的情感分析。在很多时候,现实的需求只是简单的了解文本的情感倾向,所以最近几年研究更多的集中在粗粒度的情感划分方面。本文所述的情感分析,也主要集中在粗粒度的情感分析,下面简称情感分析。在情感分析的技术方面,主流的方法主要有基于情感词典和基于机器学习两种方法。机器学习主要围绕着获得高质量的数据和优秀的算法模型进行研 ...
【技术保护点】
1.一种结合SVM和文档向量的短文本情感分类方法,其特征在于,包括如下步骤:1)对短文本进行预处理;2)利用Doc2Vec技术将短文本训练成多维向量;3)使用已经标注的短文本数据训练SVM分类器;4)利用训练好的SVM分类器对未标注的短文本进行情感分类。
【技术特征摘要】
1.一种结合SVM和文档向量的短文本情感分类方法,其特征在于,包括如下步骤:1)对短文本进行预处理;2)利用Doc2Vec技术将短文本训练成多维向量;3)使用已经标注的短文本数据训练SVM分类器;4)利用训练好的SVM分类器对未标注的短文本进行情感分类。2.根据权利要求1所述的一种结合SVM和文档向量的短文本情感分类方法,其特征在于,所述步骤1)对短文本进行预处理,包含以下步骤:(1)爬取目标网站的评论数据,组成实验用的短文本语料;(2)去除语料库中无关的符号,标点符号包括。?!,、;:“”‘’()-……《》;(3)使用分词工具对获取的评论数据进行分词处理;(4)去除分词后的语料库中无关的停用词。3.根据权利要求1所述的一种结合SVM和文档向量的短文本情感分类方法,其特征在于,所述步骤2)利用Doc2Vec技术将短文本训练成多维向量,具体步骤如下:(1)随机的初始化一个An*m的向量矩阵,其中m可以任意初始化,n代表所有新闻评论中不同词语的数量和语料中评论数量的总和;(2)对于一个新闻评论,将其所包含的词语C=(t1,t2,……tn-1,tn,)和该条新闻评论转换成An*m中的对应的多维向量,即W=(w1,w2,w3,……,wn,wn+1);(3)对W中的每个wi(i=1,2,3……n+1)向量进行加和处理,得到T:(4)将T带入双曲正切激活函数Y,...
【专利技术属性】
技术研发人员:沈幸博,王文俊,孙越恒,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。