一种基于用户评价信息的商品舆情分析方法及系统技术方案

技术编号:14027085 阅读:69 留言:0更新日期:2016-11-19 09:54
本发明专利技术涉及数据挖掘和舆情分析技术,其公开了一种基于用户评价信息的商品舆情分析方法及系统,快速有效的发现消费者对所购商品的情感,并在此基础上进行商品舆情分析。该方法包括:a.对电子商务平台进行数据爬取,获得商品的基本信息及用户对商品的评价数据,并进行分类写入评价文本数据库中;b.对商品的评价数据进行预处理,生成可供进一步分析的特征向量;c.提取特征向量中的典型特征,分析用户对典型特征的情感和对产品的总体情绪;d.在Web端对情感分析模块的分析结果进行可视化展示。本发明专利技术适用于对电商平台评论数据进行分析。

【技术实现步骤摘要】

本专利技术涉及数据挖掘和舆情分析技术,具体涉及一种基于用户评价信息的商品舆情分析方法及系统
技术介绍
近年来电子商务发展迅速,人们越来越依赖于诸如京东、天猫、淘宝等电商平台进行购物。在这些电商平台上,用户不仅可以详细地了解商品信息,还可以通过已购买用户的评价,进一步了解商品的使用效果。另一方面,由于商家较难收集消费者对线下销售产品的评价信息,因此分析电商平台上用户对产品的评价信息是了解商品舆情的重要途径,对商家和用户均具有很高价值。例如:以下为从京东商城获取的某品牌电视机的用户评价数据:电视屏幕还不错,自带芒果tv太坑,好看的全要vip,并不是智能机,还是选智能机好。电视功能不好,但是便宜,不能装软件。没有服务人员联系我。价格很便宜,声音像是电梯里电视那种小喇叭声,没法听。上门安装底座居然也要收50元。最倒霉的是底座不稳,一碰就倒了,一倒屏幕就碎了,打电话客服说换屏比换电视贵,所以也没法修了。2400块钱看了不到3星期就废了,很不开心!电视像素不理想,外形还可以吧。……通过对评价数据进行分析,我们发现产品的如下特征:屏幕还不错、功能不好、价格便宜、底座不稳、像素不理想、外形还可以等。这样的舆情信息,一方面可以帮助用户快速了解商品的优劣;另一方面则能够帮助商家快速准确地发现自己产品和服务的问题,并根据与竞争对手产品的比较,发现自己的优势与不足,进而有针对性的改善产品、服务的质量,提升企业核心竞争力。因此本申请有必要提出一种基于用户评价信息的商品舆情分析方法及系统。
技术实现思路
本专利技术所要解决的技术问题是:提出一种基于用户评价信息的商品舆情分析方法及系统,快速有效的发现消费者对所购商品的情感,并在此基础上进行商品舆情分析。本专利技术解决其技术问题所采用的技术方案是:一种基于用户评价信息的商品舆情分析系统,包括爬虫模块、数据预处理模块、情感分析模块、词典构造模块和可视化模块;所述爬虫模块,用于对电子商务平台进行数据爬取,获得商品的基本信息及用户对商品的评价数据,并进行分类写入评价文本数据库中;所述数据预处理模块,用于对商品的评价数据进行预处理,生成可供进一步分析的特征向量;所述情感分析模块,用于提取特征向量中的典型特征,分析用户对典型特征的情感和对产品的总体情绪;所述词典构造模块,用于对分词词库进行收集和融合以形成分词词典,从而供数据预处理模块进行分词和标注词性;还用于构建情感词典,从而供情感分析模块标注极性;可视化模块,用于在Web端对情感分析模块的分析结果进行可视化展示。作为进一步优化,所述爬虫模块对电子商务平台进行数据爬取,获得商品的基本信息及用户对商品的评价数据包括:爬虫模块从指定的种子站点开始,以宽度优先模式从互联网爬取网页,针对每一个爬取到的网页,分析页面源代码,并进行解析,获取网页内相关的信息:产品特征和用户评价。作为进一步优化,所述数据预处理模块对商品的评价数据进行预处理,生成可供进一步分析的特征向量,包括:数据预处理模块首先基于分词词典对用户的评价数据进行分词处理,在分词结果的基础上,采用关联规则挖掘算法Apriori在评价文本数据库中发现高频名词及名词词组,并将其视为典型特征;对于包含典型特征的评价文本,数据预处理模块在去除该文本中的停用词后,发现文本中离名词或名词词组最近的形容词,进而生成形如[特征,观点]的特征向量。作为进一步优化,所述情感分析模块提取特征向量中的典型特征,分析用户对典型特征的情感和对产品的总体情绪,包括:对于特征向量中的每一个元素,情感分析模块在情感词典内寻找与典型特征及其观点相对应的极性,并将[评论,特征,观点,极性]写入数据库;情感分析模块从评价数据库内选择部分数据作为训练数据集,采用支持向量机的方法对总体情感进行分类:首先,对训练数据集进行标记,并对其中的形容词进行词频统计,提取出现频率较高的形容词作为样本特征;然后,将每个训练样本进行转换,将其转换为如下格式:<标记>特征1:个数特征2:个数……特征n:个数,其中<标记>取值为positive或negtive;最后,将转换后的训练数据输入到LIBSVM库中进行分类训练;训练出的分类结果随后被应用到实际数据中,帮助分析用户评价文本的总体情感。作为进一步优化,所述可视化模块在Web端对情感分析模块的分析结果进行可视化展示,展示内容包括:产品的好评/差评率;正面及负面典型特征,并返回与特征相关的原始评论;帮助用户选择不同品牌及该品牌下的产品。此外,本专利技术的另一目的还在于提出一种基于用户评价信息的商品舆情分析方法,其包括以下步骤:a.对电子商务平台进行数据爬取,获得商品的基本信息及用户对商品的评价数据,并进行分类写入评价文本数据库中;b.对商品的评价数据进行预处理,生成可供进一步分析的特征向量;c.提取特征向量中的典型特征,分析用户对典型特征的情感和对产品的总体情绪;d.在Web端对情感分析模块的分析结果进行可视化展示。作为进一步优化,步骤a中,所述对电子商务平台进行数据爬取,获得商品的基本信息及用户对商品的评价数据的方法是:爬虫模块从指定的种子站点开始,以宽度优先模式从互联网爬取网页,针对每一个爬取到的网页,分析页面源代码,并进行解析,获取网页内相关的信息:产品特征和用户评价。作为进一步优化,步骤b中,所述对商品的评价数据进行预处理,生成可供进一步分析的特征向量的方法包括:数据预处理模块首先基于分词词典对用户的评价数据进行分词处理,在分词结果的基础上,采用关联规则挖掘算法Apriori在评价文本数据库中发现高频名词及名词词组,并将其视为典型特征;对于包含典型特征的评价文本,数据预处理模块在去除该文本中的停用词后,发现文本中离名词或名词词组最近的形容词,进而生成形如[特征,观点]的特征向量。作为进一步优化,步骤c中,所述提取特征向量中的典型特征,分析用户对典型特征的情感和对产品的总体情绪的方法包括:对于特征向量中的每一个元素,情感分析模块在情感词典内寻找与典型特征及其观点相对应的极性,并将[评论,特征,观点,极性]写入数据库;情感分析模块从评价数据库内选择部分数据作为训练数据集,采用支持向量机的方法对总体情感进行分类:首先,对训练数据集进行标记,并对其中的形容词进行词频统计,提取出现频率较高的形容词作为样本特征;然后,将每个训练样本进行转换,将其转换为如下格式:<标记>特征1:个数特征2:个数……特征n:个数,其中<标记>取值为positive或negtive;最后,将转换后的训练数据输入到LIBSVM库中进行分类训练;训练出的分类结果随后被应用到实际数据中,帮助分析用户评价文本的总体情感。作为进一步优化,步骤d中,在Web端对情感分析模块的分析结果进行可视化展示时,所述展示内容包括:产品的好评/差评率;正面及负面典型特征,并返回与特征相关的原始评论;帮助用户选择不同品牌及该品牌下的产品。本专利技术的有益效果是:利用爬虫模块获取电商平台上商品的用户评价数据,经过数据预处理,再结合所构建的情感词典对评价数据进行情感分析,得到商品的典型特征以及每条评价的整体极性,通过可视化模块,展示个用户和商家,以帮助用户快速了解商品的优劣,帮助商家快速准确地发现自己产品和服务的问本文档来自技高网...
一种基于用户评价信息的商品舆情分析方法及系统

【技术保护点】
一种基于用户评价信息的商品舆情分析系统,其特征在于,包括爬虫模块、数据预处理模块、情感分析模块、词典构造模块和可视化模块;所述爬虫模块,用于对电子商务平台进行数据爬取,获得商品的基本信息及用户对商品的评价数据,并进行分类写入评价文本数据库中;所述数据预处理模块,用于对商品的评价数据进行预处理,生成可供进一步分析的特征向量;所述情感分析模块,用于提取特征向量中的典型特征,分析用户对典型特征的情感和对产品的总体情绪;所述词典构造模块,用于对分词词库进行收集和融合以形成分词词典,从而供数据预处理模块进行分词和标注词性;还用于构建情感词典,从而供情感分析模块标注极性;可视化模块,用于在Web端对情感分析模块的分析结果进行可视化展示。

【技术特征摘要】
1.一种基于用户评价信息的商品舆情分析系统,其特征在于,包括爬虫模块、数据预处理模块、情感分析模块、词典构造模块和可视化模块;所述爬虫模块,用于对电子商务平台进行数据爬取,获得商品的基本信息及用户对商品的评价数据,并进行分类写入评价文本数据库中;所述数据预处理模块,用于对商品的评价数据进行预处理,生成可供进一步分析的特征向量;所述情感分析模块,用于提取特征向量中的典型特征,分析用户对典型特征的情感和对产品的总体情绪;所述词典构造模块,用于对分词词库进行收集和融合以形成分词词典,从而供数据预处理模块进行分词和标注词性;还用于构建情感词典,从而供情感分析模块标注极性;可视化模块,用于在Web端对情感分析模块的分析结果进行可视化展示。2.如权利要求1所述的一种基于用户评价信息的商品舆情分析系统,其特征在于,所述爬虫模块对电子商务平台进行数据爬取,获得商品的基本信息及用户对商品的评价数据包括:爬虫模块从指定的种子站点开始,以宽度优先模式从互联网爬取网页,针对每一个爬取到的网页,分析页面源代码,并进行解析,获取网页内相关的信息:产品特征和用户评价。3.如权利要求2所述的一种基于用户评价信息的商品舆情分析系统,其特征在于,所述数据预处理模块对商品的评价数据进行预处理,生成可供进一步分析的特征向量,包括:数据预处理模块首先基于分词词典对用户的评价数据进行分词处理,在分词结果的基础上,采用关联规则挖掘算法Apriori在评价文本数据库中发现高频名词及名词词组,并将其视为典型特征;对于包含典型特征的评价文本,数据预处理模块在去除该文本中的停用词后,发现文本中离名词或名词词组最近的形容词,进而生成形如[特征,观点]的特征向量。4.如权利要求3所述的一种基于用户评价信息的商品舆情分析系统,其特征在于,所述情感分析模块提取特征向量中的典型特征,分析用户对典型特征的情感和对产品的总体情绪,包括:对于特征向量中的每一个元素,情感分析模块在情感词典内寻找与典型特征及其观点相对应的极性,并将[评论,特征,观点,极性]写入数据库;情感分析模块从评价数据库内选择部分数据作为训练数据集,采用支持向量机的方法对总体情感进行分类:首先,对训练数据集进行标记,并对其中的形容词进行词频统计,提取出现频率较高的形容词作为样本特征;然后,将每个训练样本进行转换,将其转换为如下格式:<标记>特征1:个数特征2:个数……特征n:个数,其中<标记>取值为positive或negtive;最后,将转换后的训练数据输入到LIBSVM库中进行分类训练;训练出的分类结果随后被应用到实际数据中,帮助分析用户评价文本的总体情感。5.如权利要求4所述的一种基于用户评价信息的商品舆情分析系统,其特征在于,所述可视化模块在Web端对情感分析模块的分析结果进行可视...

【专利技术属性】
技术研发人员:王欣
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1