基于属性特征的商品评价情感分析系统技术方案

技术编号:23150670 阅读:28 留言:0更新日期:2020-01-18 14:04
本发明专利技术涉及大数据技术领域,公开了一种基于属性特征的商品评价情感分析系统,用于获得消费者对于特定商品和商品不同属性的情感倾向,以便于购买评价为后续产品研发销售提供参考。本发明专利技术包括:用户交互模块,用于认证用户身份,接收用户输入的目标商品的网址;评价语句获取模块,用于抓取消费者评价数据;数据预处理模块,用于数据进行预处理;提取模块,用于从预处理后的数据中提取商品的属性特征和属性权重,得到属性特征‑情感词对;算法处理模块,用于将提取的属性特征‑情感词对输入到算法模型中进行计算分析,实现基于属性特征的情感分析算法并输出商品评价情感量化值;结果展示模块,用于展示分析结果。本发明专利技术适用于商品评价情感分析。

Emotion analysis system of commodity evaluation based on attribute characteristics

【技术实现步骤摘要】
基于属性特征的商品评价情感分析系统
本专利技术涉及大数据
,特别涉及基于属性特征的商品评价情感分析系统。
技术介绍
商品评价是消费者使用商品的主观感受,能够表达消费者的情感倾向,与商家自身的商品信息相比,消费人群的体验范围更广、体验人数更多。由于电子商务的崛起,消费者足不出户就能够买到自己心仪的商品,Web2.0的普及使得消费者购买商品后在网络上发表商品评价成为一种习惯,网络中各种非结构化的文本内容呈爆炸式增长,在此基础上,基于自然语言处理(NaturalLanguageProcessing,NLP)技术的有关评价文本情感倾向分析的研究应运而生。面对日益复杂的文本数据和日益增长的文本情感分析需求,现有的文本情感分析系统体现出以下几点不足之处:(1)获取、处理与分析过程相互独立,没有实现全阶段的整合;(2)数据集来源平台单一,且获取数据工作量大、重复性高;(3)情感分析的结果往往缺乏统一量化的标准,需要用户自行对分析结果进行进一步的处理,以获得可以进行对比的数据结果和统计图表;(4)在已有的在线评价情感研究中,学者们往往将在线评论当作是原子对象,对评价情感的研究停留在单一产品层面,而缺少更细粒度的、对同一产品不同属性评价情感的考量。对于少量基于商品属性的情感研究,往往人为设定属性和属性权重,难以保证评价结果的客观公正性。
技术实现思路
本专利技术要解决的技术问题是:提供一种基于属性特征的商品评价情感分析系统,用于获得消费者对于特定商品和商品不同属性的情感倾向,以便于购买评价为后续产品研发销售提供参考。为解决上述问题,本专利技术采用的技术方案是:基于属性特征的商品评价情感分析系统,包括如下模块:用户交互模块:用于认证用户身份,接收用户输入的目标商品的网址,并传递给系统后台,评价语句获取模块:利用爬虫技术从目标商品的网址抓取商品详情和消费者评价数据;数据预处理模块:用于对评价语句获取模块抓取的数据进行预处理;提取模块:用于从预处理后的数据中提取商品的属性特征和属性权重,并通过语义关系计算、分词和词性标注方法,从消费者评价数据中得到与属性特征匹配的情感词,从而得到属性特征-情感词对;算法处理模块:用于将提取的属性特征-情感词对输入到算法模型中进行计算分析,实现基于属性特征的情感分析算法并输出商品评价情感量化值;结果展示模块:展示分析结果。进一步的,数据预处理模块的预处理操作可包括:分词、过滤、词性标注和词频统计。进一步的,提取模块提取商品的属性特征包括显式属性特征和隐式属性特征,提取属性特征的具体步骤包括:根据商品详情和消费者评价信息确定商品的显式属性特征;通过统计词频筛选出评论集中的所有名词和名词性短语作为候选词集;通过点互信息计算,识别出候选词集中与显式属性特征互信息值高的名词或名词性短语,并将其作为隐式属性特征,最终显式属性特征和隐式属性特征共同形成商品的属性特征集。进一步的,点互信息计算的公式可如下:其中,PMI(Fi,ph)为显式属性特征Fi与名词或名词性短语ph的互信息值,ph为评论集中的名词或名词性短语,p(Fi,ph)为评论集中显式属性特征Fi和名词或名词性短语ph共同出现的概率,p(Fi)为评论集中显式属性特征Fi出现的概率,p(ph)为评论集中候选属性词出现的概率。进一步的,提取模块可根据词频统计结果,得到商品的属性权重。进一步的,算法处理模块实现基于属性特征的情感分析算法的方式可如下:将单组属性特征-情感词对<Feature(i),Opinion(j)>的情感极性基础得分Sen_scoreij定义为:则某一商品单个属性特征的情感得分算法如下:单个商品的情感得分如公式如下:其中,m表示单个商品所包含的属性特征的个数,n为该属性特征中出现的情感词个数,为每个情感词前出现的程度副词强烈级别,φDegree表示相应程度副词强烈级别所对应的系数值,f为该情感词前含否定词的个数,μ表示该情感词的否定词得分值,class1-class4分别为划分的四种程度副词强烈级别,αi为属性特征的权重系数,i为属性特征编号,i∈{1,2,3,……,m},βij为第i个属性特征的第j个情感词的情感极性基础得分,βij取值范围为[-1,1],其中,正负分别对应积极与消极情感。进一步的,结果展示模块展示的分析结果可包括:商品各属性评分、商品各属性评分雷达图、基于属性权重的商品总评分以及系统的运行状况。本专利技术的有益效果:本专利技术可以有效地采集并处理来自不同平台的商品评价信息,可帮助商家快速广泛地收集消费者对产品的反馈,包括竞品消费者的使用体验,有助于商家以消费者使用体验为依据调整研发生产方向。附图说明图1为本专利技术提供的基于属性特征的商品评价情感分析系统流程图;图2为本专利技术提供的系统后台模块流程图;图3为本专利技术构建的组合情感词典结构图。具体实施方式为了在保证效率和准确率的前提下,通过处理大量非结构化的商品评价数据,获得消费者对于特定商品和商品不同属性的情感倾向,以便于购买评价最大限度地为后续产品研发销售提供参考。本专利技术提供了一种基于属性特征的商品评价情感分析系统,其结构如图1所示,包括以下系统模块:模块一:即用户交互模块。用户交互模块用于①在登录过程中认证用户身份,对不同身份的用户分配不同权限,使不同的身份的用户进入各自的界面中,得到自己需要的界面呈现;②接收用户输入的商品网址,传递给系统后台。本专利技术不局限于单一商品或单一平台,可适用于绝大多数线上购物或预订平台的各品类商品,包括手机等实体商品以及酒店娱乐等线上消费产品。模块二:即评价语句获取模块。用于自动获取情感分析所需的商品评价数据集。本专利技术在系统中嵌入爬虫技术,接收用户输入的商品网址后可自动进行商品评价数据集的爬取,用户不需要先从其他途径获得评价数据,再进行上传。模块三:即数据预处理模块。评价文本中存在较多影响文本分析效率的停用词,如“的”、“吗”等无实义助词,以及与文本内容分析无关的‘@’、‘//’、‘#’等功能性符号。除此之外,商品评价数据集还包括结构固定化且不具有文本内容分析实际意义的评价,如用户购买商品后,长时间未做出对相关商品的评价,京东商城会默认评价为:“此用户未填写评价内容”。因此,需要将部分停用词和无意义的评价文本过滤,以节约存储空间,提升文本处理效率保证处理结果的准确性。准确抽取评价文本中的属性词和情感情是模块四所述的属性特征-情感词对提取的基础,所以数据预处理模块还包括对分词结果进行词性标注。为使模块六中的展示结果更加具体、全面,在数据预处理模块中还需要生成包括数据集大小、词频统计、评价文本词云图等描述性统计。模块四:即商品属性特征与情感词对提取模块,模块四可根据爬取到的产品详情和用户评价信息确定商品的本文档来自技高网...

【技术保护点】
1.基于属性特征的商品评价情感分析系统,其特征在于,包括如下模块:/n用户交互模块:用于认证用户身份,接收用户输入的目标商品的网址;/n评价语句获取模块:利用爬虫技术从目标商品的网址抓取商品详情和消费者评价数据;/n数据预处理模块:用于对评价语句获取模块抓取的数据进行预处理;/n提取模块:用于从预处理后的数据中提取商品的属性特征和属性权重,并通过语义关系计算、分词和词性标注方法,从消费者评价数据中得到与属性特征匹配的情感词,从而得到属性特征-情感词对;/n算法处理模块:用于将提取的属性特征-情感词对输入到算法模型中进行计算分析,实现基于属性特征的情感分析算法并输出商品评价情感量化值;/n结果展示模块:用于展示分析结果。/n

【技术特征摘要】
1.基于属性特征的商品评价情感分析系统,其特征在于,包括如下模块:
用户交互模块:用于认证用户身份,接收用户输入的目标商品的网址;
评价语句获取模块:利用爬虫技术从目标商品的网址抓取商品详情和消费者评价数据;
数据预处理模块:用于对评价语句获取模块抓取的数据进行预处理;
提取模块:用于从预处理后的数据中提取商品的属性特征和属性权重,并通过语义关系计算、分词和词性标注方法,从消费者评价数据中得到与属性特征匹配的情感词,从而得到属性特征-情感词对;
算法处理模块:用于将提取的属性特征-情感词对输入到算法模型中进行计算分析,实现基于属性特征的情感分析算法并输出商品评价情感量化值;
结果展示模块:用于展示分析结果。


2.如权利要求1所述的基于属性特征的商品评价情感分析系统,其特征在于,数据预处理模块的预处理操作包括:分词、过滤、词性标注和词频统计。


3.如权利要求2所述的基于属性特征的商品评价情感分析系统,其特征在于,提取模块提取商品的属性特征包括显式属性特征和隐式属性特征,提取属性特征的具体步骤包括:
根据商品详情和消费者评价信息确定商品的显式属性特征;
通过统计词频筛选出评论集中的所有名词和名词性短语作为候选词集;
通过点互信息计算,识别出候选词集中与显式属性特征互信息值高的名词或名词性短语,并将其作为隐式属性特征。


4.如权利要求3所述的基于属性特征的商品评价情感分析系统,其特征在于,点互信息计算的公式如下:



其中,PMI(Fi,ph)为显式属性特征Fi与名词或名词性短语ph的互信息值,ph为评论集中的名词或名词性短语,p(F...

【专利技术属性】
技术研发人员:朱昱成孙小波
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1