一种基于支持向量机的情感分类系统及方法技术方案

技术编号：14002637 阅读：125 留言：0更新日期：2016-11-16 10:35

本发明专利技术涉及舆情分析技术，其公开了一种基于支持向量机的情感分类系统及方法，以供快速、准确从用户评论信息中发现舆情。本发明专利技术利用爬虫模块获取用户发表在论坛的评论信息，通过对数据进行分词等预处理，得到评论文本的特征词组以及具有典型性的训练数据，随后对训练数据进行情感标注，并利用支持向量机对训练数据进行计算，得到分类模型，依据分类模型，对待分类的评价文本进行分析，得到预计的情感状态，最后利用可视化模块，展示分类结果，帮助用户快速了解基于不同实体对象(关键字)的用户情感，并进而了解互联网舆情，适用于网站、论坛的舆情分析。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及舆情分析技术，具体涉及一种基于支持向量机的情感分类系统及方法。
技术介绍
随着互联网的快速发展，互联网上的数据呈现爆炸式增长。据不完全统计，1分钟内，Twitter上新增的微博达10万条。而在国内，新浪微博用户数6.5亿，日活跃用户达4600万，腾讯微博用户数6.2亿，日活跃用户约1亿；不仅如此，传统的论坛网站中有价值的信息大约在1年1亿条左右。如此庞大的活跃用户及其所发布的内容丰富、情感鲜明的评论背后，隐藏着众多有价值的信息。对这些信息的分析，可以帮助发现评论者对特定主体的情感，例如：微博/论坛用户对于企业“正面”或“负面”的评价，对于社会群体事件的观点等，从而帮助人们掌握舆论导向，分析问题缘由等。然而，对评论文本进行分类，并发现用户的情感偏好是一项具有挑战性的工作，例如：某用户A发表了“注意冒充电信工作人员的女骗子”的帖子，用户B回复说“老人的钱好骗。”如果不考虑文本的场景，仅对句子本身进行情感判别，往往会取得不一致的判断结果。为此，我们研发了一种基于支持向量机的情感分类方法，用于对用户发表在微博、论坛里的文本信息进行分类，进而分析针对特定主体的舆情状况。
技术实现思路
本专利技术所要解决的技术问题是：提出一种基于支持向量机的情感分类系统及方法，以供快速、准确从用户评论信息中发现舆情。本专利技术解决其技术问题所采用的技术方案是：一种基于支持向量机的情感分类系统，其包括：数据采集及预处理模块，负责利用网络爬虫进行数据爬取，获取用户所发表的评论信息，并对评论信息进行预处理；特征词及训练样本生成模块，负责以经过预处理的评论文本作为输入，选取带有特...
一种基于支持向量机的情感分类系统及方法

【技术保护点】
一种基于支持向量机的情感分类系统，其特征在于，包括：数据采集及预处理模块，负责利用网络爬虫进行数据爬取，获取用户所发表的评论信息，并对评论信息进行预处理；特征词及训练样本生成模块，负责以经过预处理的评论文本作为输入，选取带有特定词性的高频词作为特征词，并加入特征辞典；选取包含特征词的评价文本作为训练样本，并对训练样本的情感进行人工标注；SVM分类模块，负责以特征辞典为基础，对训练样本提取特征向量，输入支持向量机生成分类模型；利用分类模型对待分类的评价文本的情感值进行计算，分析文本的情感取向；可视化模块，负责将分析结果在web端进行展现。

【技术特征摘要】
1.一种基于支持向量机的情感分类系统，其特征在于，包括：数据采集及预处理模块，负责利用网络爬虫进行数据爬取，获取用户所发表的评论信息，并对评论信息进行预处理；特征词及训练样本生成模块，负责以经过预处理的评论文本作为输入，选取带有特定词性的高频词作为特征词，并加入特征辞典；选取包含特征词的评价文本作为训练样本，并对训练样本的情感进行人工标注；SVM分类模块，负责以特征辞典为基础，对训练样本提取特征向量，输入支持向量机生成分类模型；利用分类模型对待分类的评价文本的情感值进行计算，分析文本的情感取向；可视化模块，负责将分析结果在web端进行展现。2.一种基于支持向量机的情感分类方法，其特征在于，包括以下步骤：A、利用网络爬虫进行数据爬取，获取用户所发表的评论信息，并对评论信息进行预处理；B、以经过预处理的评论文本作为输入，选取带有特定词性的高频词作为特征词，并加入特征辞典；选取包含特征词的评价文本作为训练样本，并对训练样本的情感进行人工标注；C、以特征辞典为基础，对训练样本提取特征向量，输入支持向量机生成分类模型；利用分类模型对待分类的评价文本的情感值进行计算，分析文本的情感取向；D、将分析结果在web端进行展现。3.如权利要求2所述的一种基于支持向量机的情感分类方法，其特征在于，步骤A中，所述利用网络爬虫进行数据爬取，获取用户所发表的评论信息，具体包括：从指定的站点开始，以宽度优先的模式爬取网页，针对每一个获取到的网页，对其页面源代码进行解析，获取网页内用户评论信息，将获取的评论信息写入数据库。4.如权利要求2所述的一种基于支持向量机的情感分类方法，其特征在于，步骤A中，所述对评论信息进行预处理，具体包括:采用中文分词工具包对用户的评价信息进行分词，并标注词性。5.如权利要求2所述的一种基于支持向量机的情感分类方法，其特征在于，步骤B中，所述选取带有特定词性的高频词作为特征词，具体包括：基于FindCover算法选取词性为名词、动词和形容词的高频词语作为特征词。6.如权利要求5所述的一种基于支持向量机的情感分类方法，其特征在于，所述基于FindCover算法选取词性为名词、动词和形容词的高频词语作为特征词，具体方法为：确定FindCover算法的输入：...

【专利技术属性】
技术研发人员：王欣，钟吉英，赵亮，谭斌，于成业，郝妙，赵海臣，
申请(专利权)人：四川长虹电器股份有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人