当前位置: 首页 > 专利查询>清华大学专利>正文

基于段向量模型的微博文本情绪分类方法和分类系统技术方案

技术编号:15500075 阅读:62 留言:0更新日期:2017-06-03 22:05
本发明专利技术公开了一种基于段向量模型的微博文本情绪分类方法和分类系统,该方法包括:获取微博文本数据;对微博文本数据中的每句话进行情绪分类;对微博文本数据进行数据预处理,以得到数据集;将数据集中代表同一情绪类型的相关数据中的一部分数据输入到段向量模型中进行训练,以得到多个代表同一情绪类型的段向量;将多个代表同一情绪类型的段向量使用支持向量机进行训练得到情绪分类模型;根据数据集中代表同一情绪类型的相关数据中剩余数据对情绪分类模型进行评价,如果不满足客户需求进行迭代,直至满足客户需求得到最终情绪分类模型;根据最终情绪分类模型进行微博文本的情绪分类。本发明专利技术具有如下优点:可以提升情绪分类的准确性。

Text sentiment classification method and classification system based on segment vector model for micro-blog

The invention discloses a classification method of micro-blog text emotional segment vector model and classification system based on the method includes: acquiring micro-blog text data; mood classification of each sentence in the text data on micro-blog; micro-blog text preprocessing the data, in order to get the data set; a portion of the data data data focus on behalf of the same type of emotion in the input to the segment vector model for training, to obtain a plurality of representative sections of the same type of emotion vector; a plurality of representative sections of the same type of emotion vector used for training to get emotional classification model of support vector machine; according to the evaluation of the remaining data related to emotion classification model the data represent the same type of emotion, if you do not meet the needs of customers by iteration, finally sentiment classification model until meet customer needs; Sentiment classification of micro-blog texts based on the final sentiment classification model. The invention has the advantages that the accuracy of emotion classification can be improved.

【技术实现步骤摘要】
基于段向量模型的微博文本情绪分类方法和分类系统
本专利技术涉及计算机应用机器学习领域,具体涉及一种基于段向量模型的微博文本情绪分类方法和分类系统。
技术介绍
微博是其中最常用的平台之一,由于微博具有信息传播快、用户数量大、用户活跃度高等特点,对微博文本进行分析成为了重要的信息获取渠道。对微博情绪进行识别与分类,不仅能让企业通过关键词搜索等方式寻找到客户群后,及时、准确地对其情感进行评估,从而调整企业策略,快速应对市场变化,还能帮助政府实时监控民众情绪,防止非理性情绪在网络中蔓延,对可能出现负面情绪螺旋现象的事件及时做出反应,防止某些不法份子企图通过微博平台传播谣言,从而保证社会的稳定与和谐。然而,由于微博数量太过庞大,靠人工方式很难快速把握微博文本的情绪和对热点新闻的态度,因而有必要开发一种高效的情绪分类算法。针对微博进行情绪分类,传统方法利用情绪词词典进行分析,这种方法需要先建立一个将词语按照其所表述情感类别及强度进行分类的情绪词词典,然后利用建立好的词典对微文本进行分析。情绪词词典方法存在一些缺点:需要耗费较多人力进行情绪词词典建立工作,并且建立好的词典只能匹配微文本中的词汇,而无法分析微文本的句法。
技术实现思路
本专利技术旨在至少解决上述技术问题之一。为此,本专利技术的一个目的在于提出一种基于段向量模型的微博文本情绪分类方法,可以提升情绪分类的准确性。为了实现上述目的,本专利技术的实施例公开了一种基于段向量模型的微博文本情绪分类方法,包括以下步骤:S1:获取微博文本数据;S2:对所述微博文本数据中的每句话进行情绪分类;S3:对所述微博文本数据中的每句话进行数据预处理,以得到数据集;S4:将所述数据集中代表同一情绪类型的相关数据中的一部分数据输入到段向量模型中进行训练,以得到多个代表同一情绪类型的段向量;S5:将所述多个代表同一情绪类型的段向量使用支持向量机进行训练得到情绪分类模型;S6:根据所述数据集中代表同一情绪类型的相关数据中剩余数据对情绪分类模型进行评价,如果不满足客户需求则返回步骤S4,如果满足客户需求则将当前的情绪分类模型作为最终情绪分类模型;S7:根据所述最终情绪分类模型进行微博文本的情绪分类。进一步地,所述数据预处理包括数据去重、转换表情符号、分词和连接语料。进一步地,步骤S4进一步包括:S401:将所述数据集中代表同一情绪类型的相关数据中预设数量的文本合并为一条长文本,以得到多个长文本;S402:将所述多个长文本输入到所述段向量模型中进行训练,以得到多个代表同一情绪类型的段向量。进一步地,所述支持向量机使用C-SVM模型进行分类,并且使用以下线性核函数:k(x,y)=x×y。进一步地,对所述微博文本数据中的每句话使用人工标注进行情绪分类。根据本专利技术实施例的基于段向量模型的微博文本情绪分类方法,通过使用微博文本训练过的段向量模型和支持向量机模型得出的结果,对微博文本进行情绪分类,可以提升情绪分类的准确性。为此,本专利技术的一个目的在于提出一种基于段向量模型的微博文本情绪分类系统,可以提升情绪分类的准确性。为了实现上述目的,本专利技术的实施例公开了一种基于段向量模型的微博文本情绪分类系统,包括数据获取模块,用于获取微博文本数据;情绪分类模块,用于对所述微博文本数据中的每句话进行情绪分类;数据预处理模块,用于对所述微博文本数据中的每句话进行数据预处理,以得到数据集;段向量生成模块,用于将所述数据集中代表同一情绪类型的相关数据中的一部分数据输入到段向量模型中进行训练,以得到多个代表同一情绪类型的段向量;支持向量机,用于将所述多个代表同一情绪类型的段向量使用支持向量机进行训练得到情绪分类模型;控制模块,用于根据所述数据集中代表同一情绪类型的相关数据中剩余数据对所述情绪分类模型进行评价,如果不满足客户需求则向所述段向量生成模块发送重新获取段向量信号,以便所述段向量生成模块重新训练,以新的多个段向量,进而将所述新的多个段向量使用所述支持向量机进行训练,直至得到满足客户需求的最终情绪分类模型,以便通过所述最终情绪分类模型进行微博文本的情绪分类。进一步地,所述数据预处理模块进一步用于数据去重、转换表情符号、分词和连接语料。进一步地,所述段向量生成模块进一步用于:将所述数据集中代表同一情绪类型的相关数据中预设数量的文本合并为一条长文本,以得到多个长文本;将所述多个长文本输入到所述段向量模型中进行训练,以得到多个代表同一情绪类型的段向量。进一步地,所述支持向量机使用C-SVM模型进行分类,并且使用以下线性核函数:k(x,y)=x×y。进一步地,所述情绪分类模块对所述微博文本数据中的每句话使用人工标注进行情绪分类。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术实施例的基于段向量模型的微博文本情绪分类方法的流程图;图2是本专利技术实施例的基于段向量模型的微博文本情绪分类系统的结构框图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。参照下面的描述和附图,将清楚本专利技术的实施例的这些和其他方面。在这些描述和附图中,具体公开了本专利技术的实施例中的一些特定实施方式,来表示实施本专利技术的实施例的原理的一些方式,但是应当理解,本专利技术的实施例的范围不受此限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。以下结合附图描述本专利技术。图1是本专利技术实施例的基于段向量模型的微博文本情绪分类方法的流程图。如图1所示,根据本专利技术实施例的基于段向量模型的微博文本情绪分类方法,包括以下步骤:S1:获取微博文本数据。在本本专利技术的一个实施例中,可以网络爬虫的方法获取微博文本数据,这样获取的微博文本数据针对性强。S2:对微博文本数据中的每句话进行情绪分类。在本专利技术的一个实施例中,使用人工标注的方式对微博文本数据中的每句话进行情绪分类。在本专利技术的一个实施例中,将情绪分为高兴、悲伤、愤怒、恐惧、厌恶五大类。S3:对微博文本数据中的每句话进行数据预处理,以得到数据集。在本专利技术的一个实施例中,由于微博文本数据不同于一般文本数据,具有长度短小、包含流行词、表情符号使用较多和不使用严格语法的特点,因此为了提升最终的情绪分类效果,原始数据在用于模型训练前要先根据数据特点进行数据预处理。其中包括数据去重、转换表情符号、分词和连接语料四个步骤。通过数据预处理可以得噪声较小,相关度比较高的处理后的数据集。S4:将数据集中代表同一情绪类型的相关数据中的一部分数据输入到段向量模型中进行训练,以得到多个代表同一情绪类型的段向量。具体地,在得到标注好的数据后,需要对数据进行连接。由于微博本身限制,微博文本的长度不能超过140字,但短小的文本中所包含的特征不足,使用这样的数据训练段向量模型会使得模型表现不佳。因此,本专利技术的实施例选择将数据进行连接得到比较长的文本作为训练数据导入模型。在多次实验后,选择了本文档来自技高网...
基于段向量模型的微博文本情绪分类方法和分类系统

【技术保护点】
一种基于段向量模型的微博文本情绪分类方法,其特征在于,包括以下步骤:S1:获取微博文本数据;S2:对所述微博文本数据中的每句话进行情绪分类;S3:对所述微博文本数据中的每句话进行数据预处理,以得到数据集;S4:将所述数据集中代表同一情绪类型的相关数据中的一部分数据输入到段向量模型中进行训练,以得到多个代表同一情绪类型的段向量;S5:将所述多个代表同一情绪类型的段向量使用支持向量机进行训练得到情绪分类模型;S6:根据所述数据集中代表同一情绪类型的相关数据中剩余数据对情绪分类模型进行评价,如果不满足客户需求则返回步骤S4,如果满足客户需求则将当前的情绪分类模型作为最终情绪分类模型;S7:根据所述最终情绪分类模型进行微博文本的情绪分类。

【技术特征摘要】
1.一种基于段向量模型的微博文本情绪分类方法,其特征在于,包括以下步骤:S1:获取微博文本数据;S2:对所述微博文本数据中的每句话进行情绪分类;S3:对所述微博文本数据中的每句话进行数据预处理,以得到数据集;S4:将所述数据集中代表同一情绪类型的相关数据中的一部分数据输入到段向量模型中进行训练,以得到多个代表同一情绪类型的段向量;S5:将所述多个代表同一情绪类型的段向量使用支持向量机进行训练得到情绪分类模型;S6:根据所述数据集中代表同一情绪类型的相关数据中剩余数据对情绪分类模型进行评价,如果不满足客户需求则返回步骤S4,如果满足客户需求则将当前的情绪分类模型作为最终情绪分类模型;S7:根据所述最终情绪分类模型进行微博文本的情绪分类。2.根据权利要求1所述的基于段向量模型的微博文本情绪分类方法,其特征在于,所述数据预处理包括数据去重、转换表情符号、分词和连接语料。3.根据权利要求1所述的基于段向量模型的微博文本情绪分类方法,其特征在于,步骤S4进一步包括:S401:将所述数据集中代表同一情绪类型的相关数据中预设数量的文本合并为一条长文本,以得到多个长文本;S402:将所述多个长文本输入到所述段向量模型中进行训练,以得到多个代表同一情绪类型的段向量。4.根据权利要求1所述的基于段向量模型的微博文本情绪分类方法,其特征在于,所述支持向量机使用C-SVM模型进行分类,并且使用以下线性核函数:k(x,y)=x×y。5.根据权利要求1所述的基于段向量模型的微博文本情绪分类方法,其特征在于,对所述微博文本数据中的每句话使用人工标注进行情绪分类。6.一种基于段向量模型的微博文本情绪分类系统,其特征在于,包括:数据获取模块,用于获取微博文本数...

【专利技术属性】
技术研发人员:徐华盛婴帷孙晓民邓俊辉
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1