【技术实现步骤摘要】
一种基于无监督分类器的电商评论情感分析方法
本专利技术涉及自然语言处理
,具体涉及一种基于无监督分类器的电商评论情感分析方法。
技术介绍
互联网的迅猛发展使电子商务迅速崛起,在几乎全民网上购物的时代使得各大电商之间、同样平台的不同商家之间的竞争日益激烈。用户在线评论除了是对商品信息的反馈和与店家的沟通,更重要的是为新的购买用户提供重要的参考、和商家后续改进服务及商品的重要参考。商品的评论中包含了许多有价值的信息,一方面消费者可以通过商品评论来了解商品的口碑,进而作出相应的购买决策;另一方面生产厂家可以通过评论来发现商品存在的问题,进而改善产品质量。如今面临海量数据,需要有一套科学的方案辅助进行数据分析,挖掘数据中所隐藏的价值,因此,在电商领域针对评论的情感分析成为自然语言处理最为活跃的领域之一。情感分析又称为观点挖掘、情绪分析、情感倾向分析,属于自然语言处理的具体应用,是借助数据挖掘、机器学习等技术对含有感情色彩的主观性文本进行抽取、组织、分析的过程。情感分析分为多个分析等级,可分为词语级、句子级、篇章级和As ...
【技术保护点】
1.一种基于无监督分类器的电商评论情感分析方法,其特征在于,该方法包括:/n采集待处理电商评论语料数据,并对所述待处理电商评论文档数据进行预处理,得到只有形容词、副词和标点符号的情感词集;/n利用开源情感词典,构建情感词网络,并得到所述开源情感词典中的情感词的情感分数;/n将所述开源情感词典中没有涉及的情感词,采用情感词计算公式进行情感分数的计算,并加入到所述情感词网络中;/n构建副词权重并添加到所述情感词网络中,进而计算各个电商评论语料的得分,以及确定电商评论语料的分类;/n采用K-Means方法对进一步处理的电商评论语料根据M类特征集进行聚类,构建M个基础学习器,并记录 ...
【技术特征摘要】
1.一种基于无监督分类器的电商评论情感分析方法,其特征在于,该方法包括:
采集待处理电商评论语料数据,并对所述待处理电商评论文档数据进行预处理,得到只有形容词、副词和标点符号的情感词集;
利用开源情感词典,构建情感词网络,并得到所述开源情感词典中的情感词的情感分数;
将所述开源情感词典中没有涉及的情感词,采用情感词计算公式进行情感分数的计算,并加入到所述情感词网络中;
构建副词权重并添加到所述情感词网络中,进而计算各个电商评论语料的得分,以及确定电商评论语料的分类;
采用K-Means方法对进一步处理的电商评论语料根据M类特征集进行聚类,构建M个基础学习器,并记录各个基础机器学习器的结果;
根据所述M个基础学习器得到多组新特征集,对生成的所述新特征集分别进行基于K-Medoids聚类,获取最终的聚类质心,记录该质心对应的电商评论语料;
对所述质心对应的电商评论语料进行二分聚类,构建N个基础学习器,记录各学习器的结果集;
对M+N个基础学习器对应的结果集进行投票,决定语料的标注。
2.根据权利要求1所述的基于无监督分类器的电商评论情感分析方法,其特征在于,所述对所述待处理电商评论文档数据进行预处理,包括:
去除待处理电商评论语料数据中的非文本数据和特殊符号,并将语料中的英文识别并翻译成中文;
使用结巴分词再次进行语料数据的分词和词性标注,生成各句词集,引用开源停用词表,过滤常用停用词,保留标点符号;
对词集中的词语进行词性分析,只选择形容词和副词,完成情感词集的生成。
3.根据权利要求1所述的基于无监督分类器的电商评论情感分析方法,其特征在于,所述开源情感词典中的情感词分为积极情感词和消极情感词,所述积极情感词的情感分数为1,消极情感词的情感分数为-1,不在所述开源情感词典中的情感词则为0。
4.根据权利要求3所述的基于无监督分类器的电商评论情感分析方法,其特征在于,对所述开源情感词典中没有涉及的情感词,采用情感词计算公式进行情感分数的计算,所述情感词计算公式为:
其中,w为开源情感词典中没有涉及的情感词,m为在情感词网络中查询到与该情感词同义的情感分数不为0的词集个数,syn[i]为该情感词的同义词集,Score(syn[i])为该情感词的同义词集的情感分数。
5.根据权利要求1所述的基于无监督分类器的电商评论情感分析方法,其特征在于,所述确定电商评论语料的分类,包括:
设定阈值,若该电商评论语料的得分大于该阈值,则为积极语料,否则,为消极语料。
6.根据权利要求3所述的基于无监督分类器的电商评论情感分析方法,其特征在于,所述进一步处理的电商评论语料,包括:将所述只有形容词、副词和标点符号的情感词集中标点符号去除,只保留形容词和副词的词集,构建词袋模型,建立存在特征向量。
7.根据权利要求6所述的基于无监督分类器的电商评论情感分析方法,其特征在于...
【专利技术属性】
技术研发人员:孙知信,濮泽堃,孙翌博,陈松乐,宫婧,赵学健,胡冰,孙哲,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。