当前位置: 首页 > 专利查询>东南大学专利>正文

一种面向电商评论文本的Aspect级情感分析方法技术

技术编号:19934072 阅读:216 留言:0更新日期:2018-12-29 04:30
本发明专利技术公开了一种面向电商评论文本的Aspect级情感分析方法。首先,对电商评论文本进行预处理,并按照其所属的商品、商家、品牌进行分批;接着,在一批电商评论文本内部,综合考虑词性、句法及共现性特征,对候选评价对象的重要性进行排序,抽取电商评论文本中的评价对象;然后,利用动态滑动窗口机制将词项间共现限定在评论段级,并基于LDA模型对这一批电商评论文本中的评价对象进行聚类,得到评论Aspect‑评价对象间对应关系;最后,基于构建的情感词典、否定词典,对电商评论文本进行情感分析。本发明专利技术不仅可以挖掘电商评论文本中的评价对象,给出细粒度的评价对象级情感分析结果;还能充分利用具体商品、商家、品牌范围内评价对象间的主题相关性,对评价对象进行聚类,进而得到评论Aspect级情感分析结果。

【技术实现步骤摘要】
一种面向电商评论文本的Aspect级情感分析方法
本专利技术涉及一种面向电商评论文本的Aspect级情感分析方法,可用于实现针对电商平台中热门商品、商家、品牌的情感分析和观点挖掘等,属于互联网和自然语言处理

技术介绍
近年来,随着信息技术以及互联网的蓬勃发展,我国网购市场发展迅猛,电子商务已成为驱动我国经济发展的重要引擎。一方面,消费者在网购时无法直接接触实际商品,只能根据电商平台提供的文字、图片等描述性信息以及历史消费者发表的评论文本了解商品、商家、品牌的基本特征。另一方面,商家、品牌方也无法直接接触消费者,只能根据历史消费者发表的评论文本分析消费者的喜好,对产品设计、销售策略进行调整。然而,随着时间的推移,电商平台积聚的评论文本信息不断膨胀,碎片化、海量化特征日趋明显,采用人工的方式对电商评论文本进行情感分析需要消耗大量的人力、物力。如何充分利用信息技术不受时空限制的优势,实现面向电商评论文本的情感信息自动挖掘成为电商信息汇聚分析领域亟待解决的难题。目前,文本情感分析领域方法众多。按照粒度的不同,可分为词语级、句子级、篇章级和Aspect级。按照原理的不同,可分为基于词典法、基于有监督机器学习法、基于图论法和基于主题模型法。然而,电商涉及的领域众多,且无社交关系,而基于有监督机器学习法和基于图论法分别依赖于领域限定的优质标注语料和用户间社交关系,难以满足电商评论文本的情感分析需求;对商家、品牌和消费者而言,只有细粒度的、针对具体Aspect的电商评论文本情感分析才更有意义,而词语级、句子级和篇章级文本情感分析方法难以充分挖掘电商评论文本的价值;电商评论文本中评价对象繁杂,主题相关性强,而传统Aspect级文本情感分析方法无法同时实现针对具体评论文本的评价对象级情感分析和评论Aspect提取(即评价对象聚类)。因此,针对此类应用,亟需设计一种细粒度的、易于领域迁移的电商评论文本情感分析方法,帮助商家、品牌和消费者深入挖掘电商评论文本中隐含的观点、喜好,进而辅助用户决策。
技术实现思路
专利技术目的:针对现有技术中存在的问题与不足,本专利技术提出一种面向电商评论文本的Aspect级情感分析方法ECALSA(E-CommerceAspect-LevelSentimentAnalysis)。该方法不但可以挖掘消费者在电商评论文本中具体的情感指向,给出评价对象级情感分析结果,而且可以充分利用具体商家、品牌、商品范围内评价对象的主题相关性,对评价对象进行聚类,并给出评论Aspect级情感分析结果,深入挖掘电商评论文本中隐含的观点、喜好,辅助用户决策。技术方案:一种面向电商评论文本的Aspect级情感分析方法,简称ECALSA。首先,对从电商平台实时采集的电商评论文本进行预处理,并按照其所属的商品、商家、品牌进行分批;接着,在一批电商评论文本内部,综合考虑词性、句法及共现性特征,对候选评价对象的重要性进行排序,抽取电商评论文本中的评价对象;然后,利用动态滑动窗口机制将词项间共现限定在评论段级,并基于LDA模型对这一批电商评论文本中的评价对象进行聚类,得到评论Aspect-评价对象间对应关系;最后,基于构建的情感词典、否定词典,对电商评论文本进行情感分析。其具体步骤如下:步骤1,电商评论文本预处理。电商评论文本预处理主要对从互联网采集的电商评论文本进行处理,使其满足后续处理过程的输入要求。该步骤具体又可以分为以下4个子步骤:子步骤1-1,电商评论文本分批。在具体商家售卖的具体品牌的具体商品范围内,所有的电商评论文本都是针对具体商家、商品、品牌的整体或者部分属性进行评价,具有较强的主题相关性。因此,本专利技术按照电商评论文本所属的商品、商家、品牌对电商评论文本进行分批。子步骤1-2,重复语句处理。一方面,很多电商平台规定用户发表的评论文本只要超过一定的字数即可获得积分用于兑换抵用券,因此有人会不断重复其中的语句,以使字数达标;另一方面,有的用户因为发表评论时过于激动,也时常用不断重复某语句的方式,来表达心中的强烈情感。因此,本专利技术采用正则匹配的方式对重复出现大于两次的语句只保留两次,既强调了用户强烈的情感表达,又降低了对后续分析结果的影响。子步骤1-3,表情符号替换。由于淘宝、京东等电商平台普遍既不提供官方表情符号,也不支持百度、搜狗等输入法提供的表情符号,故本文中表情符号特指用户利用标点、字母等组合出的表情符号。表情符号蕴含了消费者发表评论时的情感倾向,能够对文本情感分析产生重要影响。因此,本专利技术对此类常用的表情符号进行了总结,并采用字符串匹配的方式将其替换为相应的文字。其中,常见的几种积极、消极表情符号及其相应的替换文字如表1所示:表1常见表情符号及其替换文字对照表积极表情替换文字消极表情替换文字(*^_^*)开心→_→怀疑o(^^)o开心(~>__<~)生气(*^·^*)开心π_π难过(*∩_∩*)开心(T___T)忧伤(∩_∩)开心/_\忧伤~o}^_^{o~开心(╯^╰)难过(^O^)开心(#_<-)难过v(^O^)v开心|(-_-)|难过子步骤1-4,分词、去除停用词。分词是指将连续的字序列(即文本)按照一定的规范重新组合成单独的词序列的过程。中文单词间没有显式分隔,只能通过具体语境划分。停用词是指为语句构建所必需,但又对语义表达没有太多帮助的词,如中文的“呢”、“了”和英文的“a”、“an”等。在处理电商评论文本之前将停用词剔除,不仅可以有效节省系统的存储空间,还能够大幅提升文本情感分析的效率。分词、去除停用词均非本专利技术研究重点,直接采用常用的停用词表配合开源的结巴分词工具实现。步骤2,评价对象抽取。本专利技术引入评价对象对评论语义进行表征,并将其定义为消费者在具体评论文本中的情感指向。首先,借助分词和词性标注过程,基于词性特征抽取评论文本中的名词构成候选评价对象集合;然后,借助文本句法结构分析过程,基于句法特征抽取评论文本中的二元名词性短语扩充候选评价对象集合;最后,在该批次电商评论文本范围内,借鉴PageRank算法的网页链接排序机制,基于词项间共现特征,提出候选评价对象重要性排序机制,滤除重要性低于所设阈值的候选评价对象,得到最终的评价对象结果。其中,候选评价对象ni重要性的定义,如公式(1)所示:在公式(1)中,β表示减幅系数,满足β∈(0,1);p(ni)表示候选评价对象ni的重要性;O(ni)表示与ni共现的其他候选评价对象的个数;F(ni)表示ni的频率;E表示所有候选评价对象间的共现关系;(ni,nj)∈E表示ni与nj共现。从式(1)可以看出,ni的频率越高、与ni共现的其他候选评价对象的频率越高,ni越重要。步骤3,评论Aspect提取即评价对象聚类。本专利技术引入评论Aspect对电商平台中具体商家、品牌、商品范围内,评价对象的主题相关性进行表征,将评论Aspect定义为经评价对象聚类后得到的评价对象类簇。首先,利用动态滑动窗口机制对经过预处理后的评论文本进行分段处理,将词项间共现限定在评论段级;然后,基于LDA(LatentDirichletAllocation)模型对评价对象进行聚类,得到评论Aspect结果。针对基础滑动窗口大小,本专利技术本文档来自技高网
...

【技术保护点】
1.一种面向电商评论文本的Aspect级情感分析方法,其特征在于,包括如下步骤:首先,对从电商平台实时采集的电商评论文本进行预处理,并按照其所属的商品、商家、品牌进行分批;接着,在一批电商评论文本内部,综合考虑词性、句法及共现性特征,对候选评价对象的重要性进行排序,抽取电商评论文本中的评价对象;然后,利用动态滑动窗口机制将词项间共现限定在评论段级,并基于LDA模型对这一批电商评论文本中的评价对象进行聚类,得到评论Aspect‑评价对象间对应关系;最后,基于构建的情感词典、否定词典,对电商评论文本进行情感分析。

【技术特征摘要】
1.一种面向电商评论文本的Aspect级情感分析方法,其特征在于,包括如下步骤:首先,对从电商平台实时采集的电商评论文本进行预处理,并按照其所属的商品、商家、品牌进行分批;接着,在一批电商评论文本内部,综合考虑词性、句法及共现性特征,对候选评价对象的重要性进行排序,抽取电商评论文本中的评价对象;然后,利用动态滑动窗口机制将词项间共现限定在评论段级,并基于LDA模型对这一批电商评论文本中的评价对象进行聚类,得到评论Aspect-评价对象间对应关系;最后,基于构建的情感词典、否定词典,对电商评论文本进行情感分析。2.如权利要求1所述的面向电商评论文本的Aspect级情感分析方法,其特征在于,所述电商评论文本预处理主要是对从互联网采集的电商评论文本进行处理,使其满足后续处理过程的输入要求;具体分为以下4个步骤:步骤1-1,电商评论文本分批;按照电商评论文本所属的商品、商家、品牌对电商评论文本进行分批;步骤1-2,重复语句处理;采用正则匹配的方式对重复出现大于两次的语句只保留两次;步骤1-3,表情符号替换;采用字符串匹配的方式将表情符号替换为相应的文字;步骤1-4,分词、去除停用词;采用停用词表配合开源的结巴分词工具实现。3.如权利要求1所述的面向电商评论文本的Aspect级情感分析方法,其特征在于,引入评价对象对评论语义进行表征,并将其定义为消费者在具体评论文本中的情感指向;首先,借助分词和词性标注过程,基于词性特征抽取评论文本中的名词构成候选评价对象集合;然后,借助文本句法结构分析过程,基于句法特征抽取评论文本中的二元名词性短语扩充候选评价对象集合;最后,在该批次电商评论文本范围内,借鉴PageRank算法的网页链接排序机制,基于词项间共现特征,提出候选评价对象重要性排序机制,滤除重要性低于所设阈值的候选评价对象,得到最终的评价对象结果;其中,候选评价对象ni重要性的定义,如公式(1)所示:在公式(1)中,β表示减幅系数,满足β∈(0,1);p(ni)表示候选评价对象ni的重要性;O(ni)表示与ni共现的其他候选评价对象的个数;F(ni)表示ni的频率;E表示所有候选评价对象间的共现关系;(ni,nj)∈E表示ni与nj共现。4.如权利要求1所述的面向电商评论文本的Aspect级情感分析方法,其特征在于,引入评论Aspect对电商平台中具体商家、品牌、商品范围内,评价对象的主题相关性进行表征,将其定义为经评价对象聚类后得到的评价对象类簇;首先,利用动态滑动窗口机制对评论文本进行分段,将词项间共现限定在评论段级;然后,基于LDA模型对评价对象...

【专利技术属性】
技术研发人员:杨鹏张成帅李幼平张长江
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1