基于段向量模型的微博文本情绪分类方法和分类系统技术方案

技术编号：15500075 阅读：62 留言：0更新日期：2017-06-03 22:05

本发明专利技术公开了一种基于段向量模型的微博文本情绪分类方法和分类系统，该方法包括：获取微博文本数据；对微博文本数据中的每句话进行情绪分类；对微博文本数据进行数据预处理，以得到数据集；将数据集中代表同一情绪类型的相关数据中的一部分数据输入到段向量模型中进行训练，以得到多个代表同一情绪类型的段向量；将多个代表同一情绪类型的段向量使用支持向量机进行训练得到情绪分类模型；根据数据集中代表同一情绪类型的相关数据中剩余数据对情绪分类模型进行评价，如果不满足客户需求进行迭代，直至满足客户需求得到最终情绪分类模型；根据最终情绪分类模型进行微博文本的情绪分类。本发明专利技术具有如下优点：可以提升情绪分类的准确性。

Text sentiment classification method and classification system based on segment vector model for micro-blog

The invention discloses a classification method of micro-blog text emotional segment vector model and classification system based on the method includes: acquiring micro-blog text data; mood classification of each sentence in the text data on micro-blog; micro-blog text preprocessing the data, in order to get the data set; a portion of the data data data focus on behalf of the same type of emotion in the input to the segment vector model for training, to obtain a plurality of representative sections of the same type of emotion vector; a plurality of representative sections of the same type of emotion vector used for training to get emotional classification model of support vector machine; according to the evaluation of the remaining data related to emotion classification model the data represent the same type of emotion, if you do not meet the needs of customers by iteration, finally sentiment classification model until meet customer needs; Sentiment classification of micro-blog texts based on the final sentiment classification model. The invention has the advantages that the accuracy of emotion classification can be improved.

全部详细技术资料下载

【技术实现步骤摘要】
基于段向量模型的微博文本情绪分类方法和分类系统
本专利技术涉及计算机应用机器学习领域，具体涉及一种基于段向量模型的微博文本情绪分类方法和分类系统。
技术介绍
微博是其中最常用的平台之一，由于微博具有信息传播快、用户数量大、用户活跃度高等特点，对微博文本进行分析成为了重要的信息获取渠道。对微博情绪进行识别与分类，不仅能让企业通过关键词搜索等方式寻找到客户群后，及时、准确地对其情感进行评估，从而调整企业策略，快速应对市场变化，还能帮助政府实时监控民众情绪，防止非理性情绪在网络中蔓延，对可能出现负面情绪螺旋现象的事件及时做出反应，防止某些不法份子企图通过微博平台传播谣言，从而保证社会的稳定与和谐。然而，由于微博数量太过庞大，靠人工方式很难快速把握微博文本的情绪和对热点新闻的态度，因而有必要开发一种高效的情绪分类算法。针对微博进行情绪分类，传统方法利用情绪词词典进行分析，这种方法需要先建立一个将词语按照其所表述情感类别及强度进行分类的情绪词词典，然后利用建立好的词典对微文本进行分析。情绪词词典方法存在一些缺点：需要耗费较多人力进行情绪词词典建立工作，并且建立好的词典只能匹配微文本中的词汇，而无法分析微文本的句法。
技术实现思路
本专利技术旨在至少解决上述技术问题之一。为此，本专利技术的一个目的在于提出一种基于段向量模型的微博文本情绪分类方法，可以提升情绪分类的准确性。为了实现上述目的，本专利技术的实施例公开了一种基于段向量模型的微博文本情绪分类方法，包括以下步骤：S1：获取微博文本数据；S2：对所述微博文本数据中的每句话进行情绪分类；S3：对所述微博文本数据中的每句话...
基于段向量模型的微博文本情绪分类方法和分类系统

【技术保护点】
一种基于段向量模型的微博文本情绪分类方法，其特征在于，包括以下步骤：S1：获取微博文本数据；S2：对所述微博文本数据中的每句话进行情绪分类；S3：对所述微博文本数据中的每句话进行数据预处理，以得到数据集；S4：将所述数据集中代表同一情绪类型的相关数据中的一部分数据输入到段向量模型中进行训练，以得到多个代表同一情绪类型的段向量；S5：将所述多个代表同一情绪类型的段向量使用支持向量机进行训练得到情绪分类模型；S6：根据所述数据集中代表同一情绪类型的相关数据中剩余数据对情绪分类模型进行评价，如果不满足客户需求则返回步骤S4，如果满足客户需求则将当前的情绪分类模型作为最终情绪分类模型；S7：根据所述最终情绪分类模型进行微博文本的情绪分类。

【技术特征摘要】
1.一种基于段向量模型的微博文本情绪分类方法，其特征在于，包括以下步骤：S1：获取微博文本数据；S2：对所述微博文本数据中的每句话进行情绪分类；S3：对所述微博文本数据中的每句话进行数据预处理，以得到数据集；S4：将所述数据集中代表同一情绪类型的相关数据中的一部分数据输入到段向量模型中进行训练，以得到多个代表同一情绪类型的段向量；S5：将所述多个代表同一情绪类型的段向量使用支持向量机进行训练得到情绪分类模型；S6：根据所述数据集中代表同一情绪类型的相关数据中剩余数据对情绪分类模型进行评价，如果不满足客户需求则返回步骤S4，如果满足客户需求则将当前的情绪分类模型作为最终情绪分类模型；S7：根据所述最终情绪分类模型进行微博文本的情绪分类。2.根据权利要求1所述的基于段向量模型的微博文本情绪分类方法，其特征在于，所述数据预处理包括数据去重、转换表情符号、分词和连接语料。3.根据权利要求1所述的基于段向量模型的微博文本情绪分类方法，其特征在于，步骤S4进一步包括：S401：将所述数据集中代表同一情绪类型的相关数据中预设数量的文本合并为一条长文本，以得到多个长文本；S402：将所述多个长文本输入到所述段向量模型中进行训练，以得到多个代表同一情绪类型的段向量。4.根据权利要求1所述的基于段向量模型的微博文本情绪分类方法，其特征在于，所述支持向量机使用C-SVM模型进行分类，并且使用以下线性核函数：k(x,y)＝x×y。5.根据权利要求1所述的基于段向量模型的微博文本情绪分类方法，其特征在于，对所述微博文本数据中的每句话使用人工标注进行情绪分类。6.一种基于段向量模型的微博文本情绪分类系统，其特征在于，包括：数据获取模块，用于获取微博文本数...

【专利技术属性】
技术研发人员：徐华，盛婴帷，孙晓民，邓俊辉，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人