一种面向电商评论文本的Aspect级情感分析方法技术

技术编号：19934072 阅读：216 留言：0更新日期：2018-12-29 04:30

本发明专利技术公开了一种面向电商评论文本的Aspect级情感分析方法。首先，对电商评论文本进行预处理，并按照其所属的商品、商家、品牌进行分批；接着，在一批电商评论文本内部，综合考虑词性、句法及共现性特征，对候选评价对象的重要性进行排序，抽取电商评论文本中的评价对象；然后，利用动态滑动窗口机制将词项间共现限定在评论段级，并基于LDA模型对这一批电商评论文本中的评价对象进行聚类，得到评论Aspect‑评价对象间对应关系；最后，基于构建的情感词典、否定词典，对电商评论文本进行情感分析。本发明专利技术不仅可以挖掘电商评论文本中的评价对象，给出细粒度的评价对象级情感分析结果；还能充分利用具体商品、商家、品牌范围内评价对象间的主题相关性，对评价对象进行聚类，进而得到评论Aspect级情感分析结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向电商评论文本的Aspect级情感分析方法
本专利技术涉及一种面向电商评论文本的Aspect级情感分析方法，可用于实现针对电商平台中热门商品、商家、品牌的情感分析和观点挖掘等，属于互联网和自然语言处理

技术介绍
近年来，随着信息技术以及互联网的蓬勃发展，我国网购市场发展迅猛，电子商务已成为驱动我国经济发展的重要引擎。一方面，消费者在网购时无法直接接触实际商品，只能根据电商平台提供的文字、图片等描述性信息以及历史消费者发表的评论文本了解商品、商家、品牌的基本特征。另一方面，商家、品牌方也无法直接接触消费者，只能根据历史消费者发表的评论文本分析消费者的喜好，对产品设计、销售策略进行调整。然而，随着时间的推移，电商平台积聚的评论文本信息不断膨胀，碎片化、海量化特征日趋明显，采用人工的方式对电商评论文本进行情感分析需要消耗大量的人力、物力。如何充分利用信息技术不受时空限制的优势，实现面向电商评论文本的情感信息自动挖掘成为电商信息汇聚分析领域亟待解决的难题。目前，文本情感分析领域方法众多。按照粒度的不同，可分为词语级、句子级、篇章级和Aspect级。按照原理的不同，可分为基于词典法、基于有监督机器学习法、基于图论法和基于主题模型法。然而，电商涉及的领域众多，且无社交关系，而基于有监督机器学习法和基于图论法分别依赖于领域限定的优质标注语料和用户间社交关系，难以满足电商评论文本的情感分析需求；对商家、品牌和消费者而言，只有细粒度的、针对具体Aspect的电商评论文本情感分析才更有意义，而词语级、句子级和篇章级文本情感分析方法难以充分挖掘电商评论文本的价值...

【技术保护点】
1.一种面向电商评论文本的Aspect级情感分析方法，其特征在于，包括如下步骤：首先，对从电商平台实时采集的电商评论文本进行预处理，并按照其所属的商品、商家、品牌进行分批；接着，在一批电商评论文本内部，综合考虑词性、句法及共现性特征，对候选评价对象的重要性进行排序，抽取电商评论文本中的评价对象；然后，利用动态滑动窗口机制将词项间共现限定在评论段级，并基于LDA模型对这一批电商评论文本中的评价对象进行聚类，得到评论Aspect‑评价对象间对应关系；最后，基于构建的情感词典、否定词典，对电商评论文本进行情感分析。

【技术特征摘要】
1.一种面向电商评论文本的Aspect级情感分析方法，其特征在于，包括如下步骤：首先，对从电商平台实时采集的电商评论文本进行预处理，并按照其所属的商品、商家、品牌进行分批；接着，在一批电商评论文本内部，综合考虑词性、句法及共现性特征，对候选评价对象的重要性进行排序，抽取电商评论文本中的评价对象；然后，利用动态滑动窗口机制将词项间共现限定在评论段级，并基于LDA模型对这一批电商评论文本中的评价对象进行聚类，得到评论Aspect-评价对象间对应关系；最后，基于构建的情感词典、否定词典，对电商评论文本进行情感分析。2.如权利要求1所述的面向电商评论文本的Aspect级情感分析方法，其特征在于，所述电商评论文本预处理主要是对从互联网采集的电商评论文本进行处理，使其满足后续处理过程的输入要求；具体分为以下4个步骤：步骤1-1，电商评论文本分批；按照电商评论文本所属的商品、商家、品牌对电商评论文本进行分批；步骤1-2，重复语句处理；采用正则匹配的方式对重复出现大于两次的语句只保留两次；步骤1-3，表情符号替换；采用字符串匹配的方式将表情符号替换为相应的文字；步骤1-4，分词、去除停用词；采用停用词表配合开源的结巴分词工具实现。3.如权利要求1所述的面向电商评论文本的Aspect级情感分析方法，其特征在于，引入评价对象对评论语义进行表征，并将其定义为消费者在具体评论文本中的情感指向；首先，借助分词和词性标注过程，基于词性特征抽取评论文本中的名词构成候选评价对象集合；然后，借助文本句法结构分析过程，基于句法特征抽取评论文本中的二元名词性短语扩充候选评价对象集合；最后，在该批次电商评论文本范围内，借鉴PageRank算法的网页链接排序机制，基于词项间共现特征，提出候选评价对象重要性排序机制，滤除重要性低于所设阈值的候选评价对象，得到最终的评价对象结果；其中，候选评价对象ni重要性的定义，如公式(1)所示：在公式(1)中，β表示减幅系数，满足β∈(0,1)；p(ni)表示候选评价对象ni的重要性；O(ni)表示与ni共现的其他候选评价对象的个数；F(ni)表示ni的频率；E表示所有候选评价对象间的共现关系；(ni,nj)∈E表示ni与nj共现。4.如权利要求1所述的面向电商评论文本的Aspect级情感分析方法，其特征在于，引入评论Aspect对电商平台中具体商家、品牌、商品范围内，评价对象的主题相关性进行表征，将其定义为经评价对象聚类后得到的评价对象类簇；首先，利用动态滑动窗口机制对评论文本进行分段，将词项间共现限定在评论段级；然后，基于LDA模型对评价对象...

【专利技术属性】
技术研发人员：杨鹏，张成帅，李幼平，张长江，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人