一种基于Python的影评情感分析方法技术

技术编号：22075842 阅读：121 留言：0更新日期：2019-09-12 14:11

本发明专利技术涉及一种基于Python的影评情感分析方法，包括数据获取阶段、数据预处理阶段以及数据分析阶段；所述数据获取阶段使用Python搭建网络爬虫；所述数据预处理阶段进行分词与停用词的操作；所述数据分析阶段采用朴素贝叶斯的机器学习方法，结合情感词典方法进行预测分析。本发明专利技术相较于其他通用的情感分析技术，本发明专利技术在准确率与召回率上均取得最佳。

A Python-based Movie Review Emotion Analysis Method

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Python的影评情感分析方法
本专利技术涉及自然语言处理
，特别是一种基于Python的影评情感分析方法。
技术介绍
自香农开启了信息论的研究以来，信息从未在哪个渠道有如今互联网信道这般巨大的体量与速度，大量的比特字节每天在网络的高速公路上传输或被存储于一个中间站点，这些数据中占比最大的无疑是人类用以交互信息最重要的一种，即自然语言。无论哪一种网络业务，都无法脱离对自然语言数据的使用，典型的如电子商务网站、早期的Blog、多人交互式的论坛、聊天室以及如今用户过亿的微博。互联网用户无论年龄、地域、性别，总会在某些场景使用自然语言数据表达自己支持或反对的情感，典型的如影评、书评、微博评论，这些评论本身也以及成为了一个独立的商业领域。据统计，截至目前仅我国互联网用户就已突破8亿，这也意味着庞大的中文语料数据源。由于如此大量的用户在网络上分享观点、表达情绪，传统的人工标注方式无法应对海量数据，因此有效利用文本数据的需求就愈发迫切。事实上，文本蕴含大量传统的量化数据难以经过分析得出的信息，尤其是针对某一业务评论的文本，经过人工的方式通常可以分析出许多有助于业...

【技术保护点】
1.一种基于Python的影评情感分析方法，其特征在于，包括数据获取阶段、数据预处理阶段以及数据分析阶段；所述数据获取阶段使用Python搭建网络爬虫；所述数据预处理阶段进行分词与停用词的操作；所述数据分析阶段采用朴素贝叶斯的机器学习方法，结合情感词典方法进行预测分析。

【技术特征摘要】
1.一种基于Python的影评情感分析方法，其特征在于，包括数据获取阶段、数据预处理阶段以及数据分析阶段；所述数据获取阶段使用Python搭建网络爬虫；所述数据预处理阶段进行分词与停用词的操作；所述数据分析阶段采用朴素贝叶斯的机器学习方法，结合情感词典方法进行预测分析。2.根据权利要求1所述的一种基于Python的影评情感分析方法，其特征在于，数据获取阶段具体为：所述数据获取阶段使用Python搭建网络爬虫具体为：爬取票房相关数据、以及到评论网站内爬取对应于这些票房的电影的评论数据；其中，票房相关数据包括电影名、在评论网站的主键ID、以及票房三个字段的基本数据，评论数据为以列表结构存储的评论字符串。3.根据权利要求2所述的一种基于Python的影评情感分析方法，其特征在于，所述爬取采用四种针对不同网站的爬虫工具，第一种为获取包括电影列表与票房在内的基础信息的CBO网站爬虫，第二种为获取训练语料库的豆瓣影评爬虫，第三种为获取最终分析结果的时光网短文本影评爬虫，第四种为构建用户自定义词典的词语爬虫。4.根据权利要求1所述的一种基于Python的影评情感分析方法，其特征在于，所述数据预处理阶段进行分词与停用词的操作中，关于分词的操作具体为：暂储未分词文本的wordDic字段、储存分词结果的wordList列表以及通过爬虫自动生成用户自定义词典的userDic字段；其中，文本分词的辅助...

【专利技术属性】
技术研发人员：刘耿耿，叶文滔，徐赛娟，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人