一种采用机器学习的社交媒体情感分析方法技术

技术编号：15542535 阅读：60 留言：0更新日期：2017-06-05 11:26

本发明专利技术中提出的一种采用机器学习的社交媒体情感分析方法，其主要内容包括：数据收集、预处理、分类、总结、可视化，其过程为，首先收集社交媒体文本原始数据并且以适当的格式将其预处理成修整的数据集，其被进一步分为训练和测试数据集；在机器学习阶段，利用八种机器学习方法(支持向量机(SVM)，最大熵(ME)，树，装袋树，提升树，随机森林(RF)，神经网络(NN)和朴素贝叶斯(NB))来构建分类器；评估出更准确的分类器用于对社交媒体文本数据进行分类；最后使用多种可视化技术来总结结果。

A social media sentiment analysis method using machine learning

Using a machine learning social media emotion in the inventive method, the main contents include: data collection, preprocessing, classification, summary, visualization, the process, the first collection of social media data and text in an appropriate format to the pretreatment into dressing data sets, which are further divided into training and testing data set; in the machine learning phase, using eight kinds of machine learning methods (support vector machine (SVM), maximum entropy (ME), trees, tree bagging, lifting tree, random forest (RF), neural network (NN) and Naive Bayesian (NB)) to construct the classifier evaluation; a more accurate classifier for the classification of the social media text data; finally to summarize the results of using multiple visualization technology.

全部详细技术资料下载

【技术实现步骤摘要】
一种采用机器学习的社交媒体情感分析方法
本专利技术涉及自然语言处理领域，尤其是涉及了一种采用机器学习的社交媒体情感分析方法。
技术介绍
社会媒体的情感分析是自然语言处理领域的重要研究方法。由于社交媒体是字符有限的，所以经常采用句子级分类来提取公众情绪。分类社交媒体是具有挑战性的，因为社交媒体的独特性质，它经常使用非正式和口语语言，包括俚语和表情符号。虽然有不同的方法来分类社交媒体，但没有达成一致的最佳解决方案。在社交媒体的自然语言处理中，工程语言特征和自动文本分类是两个重要的任务。虽然在使用机器学习来进行情感分析的领域中已经开发出了功能技术，但是在本文中仍然存在三个问题。首先，在同一社交媒体分析环境中缺乏对各种机器学习方法的评估；第二，还没有人调查枪支暴力这个重要的社会问题，从而了解公众情绪；第三，使用机器学习技术来分析大型数据集一般仍然局限于计算机科学(CS)的学科。本专利技术引入基于上述三个问题，采用一种采用机器学习的社交媒体情感分析方法，开发了一个框架来收集，预处理和分类社交媒体并进一步可视化的情绪。在对整个样本进行分类时，使用人工制作的黄金标准数据集。对多种机器学习方法进行评估，选择最大准确度的方法对整个社交媒体文本数据样本进行分类并通过显示系统可视化分类结果。
技术实现思路
针对上述提到的三个问题，本专利技术的目的在于提供一种采用机器学习的社交媒体情感分析方法，首先收集社交媒体文本原始数据并且以适当的格式将其预处理成修整的数据集，其被进一步分为训练和测试数据集；在机器学习阶段，利用八种机器学习方法(支持向量机(SVM)，最大熵(ME)，树，装袋树，提...
一种采用机器学习的社交媒体情感分析方法

【技术保护点】
一种采用机器学习的社交媒体情感分析方法，其特征在于，主要包括数据收集(一)；预处理(二)；分类(三)；总结(四)；可视化(五)。

【技术特征摘要】
1.一种采用机器学习的社交媒体情感分析方法，其特征在于，主要包括数据收集(一)；预处理(二)；分类(三)；总结(四)；可视化(五)。2.基于权利要求书1所述的数据收集(一)，其特征在于，采用从第三方购买的社交媒体文本数据，常用的社交软件如，微博、朋友圈等；社交媒体文本数据是由预定义规则确定的历史消息，该规则利用基于时间段，关键字和地理位置的过滤器；数据都是JSON格式的，每个JSON文件以10分钟为一周期组织的，包含社交媒体文本数据和大量与之有关的信息。3.基于权利要求书1所述的预处理(二)，其特征在于，从JSON格式的文件中提取与研究最相关的数据，将其转换为CSV格式，并利用R语言在RStudio中编写程序，以执行自然语言处理方面的所有任务。4.基于权利要求书1所述的分类(三)，其特征在于，包括构建分类器和分类；从被预处理成修整的数据集中选取5000条社交媒体文本数据作为训练集，剩余的社交媒体文本数据用于分类。5.基于权利要求书4所述的构建分类器，其特征在于，包括特征提取、建模和评估；在特征提取阶段，会在N元语法特征的领域中考虑一元语法，二元语法和三元语法，而使用一元语法的特征提取单独处理句子中的每个单词是文本分类中最常用的方法，本专利采用一元语法特征用于文本分类；使用二元语法和三元语法特征分别提取两个和三个词的短语作为对比。6.基于权利要求书5所述的建模，其特征在于，包括输入训练数据集并利用机器学习方法(即支持向量机(SVM)，朴素贝叶斯(NB)，最大熵(ME)，树，装袋树，提升树，随机森林(RF)，神经网络(NN))来建立对应的8个预测模型；使用用于文本分类的机器学习库或某种R语言包开发预测模型；随机森林是一种集成学习算法，RF控制要搜索的特征的数量，以寻求每个树的最佳分割，而不是每个二叉树完全成长；装袋树也称为自助聚合，是一种在机器学习中使用的集成算法，以提高现有模型的准确性和稳定性；提升树目的在于通过对错误分类的数据迭代地添加权重来在弱分类器上构建强分类器，从而减少对不正...

【专利技术属性】
技术研发人员：夏春秋，
申请(专利权)人：深圳市唯特视科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人