【技术实现步骤摘要】
一种产品评论的情感倾向分析系统及方法
[0001]本专利技术公开一种系统及方法,涉及自然语言处理中的情感分析领域,具 体地说是一种产品评论的情感倾向分析系统及方法。
技术介绍
[0002]互联网时代,各种社交媒体、电商网站、社会服务网站等快速兴起和发 展,于是互联网(如微博、淘宝等)上产生了非常大量的关于用户对商品、 服务、新闻等不同事物的评论,这些评论中表达了人们对事物的个人态度和 情感倾向,如喜欢、厌恶、赞同和反对等,无论是公司还是个人都能从中得 到大量有价值的潜在信息,于是,在公司层面,从用户评论中分析、挖掘用 户对公司产品的情感倾向,对于提高公司产品的质量,开拓公司的市场都具 有深远的意义。因此,各个大厂为了提高产品竞争力,都开始关注自己产品 的用户评论信息,以从中挖掘出有价值的信息。然而用户评论中可能存在 大量的重复冗余信息,增加关键词提取难度,同时冗余信息可能增加后续模 型训练的参数,不利于模型更简单轻量,不便使用,从而不能让公司能更 好地规划产品,更好地服务客户,提高客户对公司的满意度。
技术实现思路
< ...
【技术保护点】
【技术特征摘要】
1.一种产品评论的情感倾向分析方法,其特征是爬取产品的产品评论及相关信息,对产品评论及相关信息进行预处理,利用TFIDF算法预处理后产品评论及相关信息的数据进行关键词提取,并统一文档所属类别的概率,生成文档类别的标签分布,同时生成条件概率矩阵,利用Naive Bayes模型通过标签分布和概率矩阵进行产品评论所属情感倾向类别的判定。2.根据权利要求1所述的一种产品评论的情感倾向分析方法,其特征是爬取产品评论页的html页面并抽取产品评论相关信息,获得初始数据集,对初始数据集进行预处理,获得预处理后的数据集,利用TFIDF算法对预处理后的数据集的词向量提取关键词,利用Naive Bayes算法训练模型,获得Naive Bayes模型。3.根据权利要求1或2所述的一种产品评论的情感倾向分析方法,其特征是预处理包括:去除无用的符号信息,对产品评论文本进行分词,去除停用词,对产品评论中类别数据进行量化处理,对产品评论文本数据进行序列化处理。4.根据权利要求3所述的一种产品评论的情感倾向分析方法,其特征是利用TFIDF算法将TFIDF矩阵中属于相同类别的文档向量相加,形成m*n的矩阵,m代表类别数,n代表词典数,将每一个词的权重与所在类别的所有词的总权重相比,生成条件概率矩阵。5.一种产品评论的情感倾向分析系统,其特征是包括爬取模块、预处理模块、分析模块...
【专利技术属性】
技术研发人员:叶秋萍,宋设,国靖,
申请(专利权)人:浪潮卓数大数据产业发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。