The invention discloses a business review classification method, order preserving submatrix and frequent sequence mining based on comprising the steps of: (1) pre-processing and segmentation of the Chinese electricity supplier comments, calculated TF IDF weight vector synonyms, then order preserving submatrix OPSM double clustering algorithm based on local pattern mining in weight vector; (3) using the improved PrefixSpan algorithm to mining frequent phrase classification features, but also by the words interval restrictions to distinguish between emotional tendencies to enhance frequent phrases; (4) to (2) and (3) the characteristics of mining out steps into the 0/1 vector as the input of the classifier, finally get the emotional classification results of the electricity supplier comment. The invention can accurately mine the sentiment classification features of the electricity supplier reviews, so that the potential consumers can understand the evaluation information of the goods before purchasing the goods, and also can make the business more fully understand the opinions of the consumers, so as to improve the service quality.
【技术实现步骤摘要】
基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法
本专利技术属于自然语言处理技术与情感计算领域,具体地说是一种基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法。
技术介绍
随着电商的发展,用户在电商平台上对网购产品进行评价已经成了日常生活的一部分。如何利用机器学习、自然语言处理技术对评论文本进行分析,获得其中的观点倾向、情感极性,已成为人工智能领域的一个重要研究问题。文本情感分析常用的技术分为基于规则的方法和基于统计的方法。基于规则的方法主要从语言学角度出发,利用人工词典和模板进行情感倾向性分析(Xuetal.,2008)。基于统计的方法则从机器学习的角度出发,BoPang等人最早利用人工标注的影评语料进行特征提取和统计模型构建,自动化地实现情感极性的判断(Pangetal.,2002;Tan&Zhang,2008)。情感分析技术的应用非常广泛,如在推荐系统(Zhang,2015)和客户关系管理(Yaakubetal.,2013)中,通过分析每条评论的情感倾向,能够掌握消费者对产品或服务的满意程度,给商业决策和产品运营带来巨大价值。但网络评论文本,尤其 ...
【技术保护点】
基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法,其特征在于,包括以下步骤:(1)输入带有情感标签的电商评论数据,对数据进行预处理,并将数据划分成训练集TrainSet、验证集ValidationSet和测试集TestSet;(2)用中文分词工具对步骤(1)得到的TrainSet、ValidationSet、TestSet进行中文分词,将每个评论句子转化成词语序列;(3)结合词语相似度和TF‑IDF对步骤(2)得到TrainSet词语序列进行计算,得到近义词的TF‑IDF权重向量,然后基于保序子矩阵OPSM双聚类算法挖掘出权重向量中的OPSM特征;(4)将步骤(2)得到T ...
【技术特征摘要】
1.基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法,其特征在于,包括以下步骤:(1)输入带有情感标签的电商评论数据,对数据进行预处理,并将数据划分成训练集TrainSet、验证集ValidationSet和测试集TestSet;(2)用中文分词工具对步骤(1)得到的TrainSet、ValidationSet、TestSet进行中文分词,将每个评论句子转化成词语序列;(3)结合词语相似度和TF-IDF对步骤(2)得到TrainSet词语序列进行计算,得到近义词的TF-IDF权重向量,然后基于保序子矩阵OPSM双聚类算法挖掘出权重向量中的OPSM特征;(4)将步骤(2)得到TrainSet词语序列转化成数字序列集合,使用改进的PrefixSpan算法挖掘分类频繁短语特征,同时也通过词语间隔限制来提升频繁短语区分情感倾向的能力;(5)分别匹配步骤(1)得到的TrainSet、ValidationSet、TestSet是否包含步骤(3)(4)得到的OPSM特征和分类频繁短语特征,将TrainSet、ValidationSet、TestSet中的每一条评论转化成0/1向量,并将两种0/1向量进行合并得到最终的特征向量,输出TrainData、ValidationData、TestData;(6)将步骤(5)得到的TrainData、ValidationData、TestData作为分类器的输入,最终得到测试集的情感分类结果。2.如权利要求1所述基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法,其特征在于所述步骤(1)具体是:对电商评论进行预处理,包括去除空白行、去除重复行,然后按照比例将数据随机划分成训练集TrainSet、验证集ValidationSet和测试集TestSet,且保证三者中积极和消极的评论数基本平衡。3.如权利要求2所述基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法,其特征在于所述比例为2:1:1。4.如权利要求1所述基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法,其特征在于所述步骤(2)具体是:使用中科院ICTCLAS对TrainSet、ValidationSet、TestSet进行分词,将每条评论都转化成词语序列,得到词语序列集合。5.如权利要求1所述基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法,其特征在于所述步骤(3)包括以下步骤:(3-1)使用词嵌入模型word2vec训练中文大语料,得到词嵌入矩阵其中词嵌入矩阵的每一列代表一个词向量,d表示向量的维度,V表示词表,|V|表示词表规模;(3-2)计算词语相似度,给定相似度阈值T,假设Xi和Xj是We中两个词向量,计算两个向量的余弦相似度如下式所示:如果Sim(i,j)≥T,则表示Xi和Xj对应的词语是近义词;(3-3)根据已有的中文情感词典,提取出步骤(1)TrainSet包含的情感特征词集合,并利用步骤(3-2)将情感特征词集合中的近义词语归并为同一个簇,得到特征词簇,数目为c;(3-4)根据词语相似度改造TF-IDF,因为语义接近的两个词在情感倾向判断中起的作用是相似的,所以在计算TF-IDF权值向量时,根据近义特征词簇来计算,把近义词都当作同一个词处理,近义词的TF-IDF计算公式如下式所示:其中,N表示语料库中的评论总数;tfij表示近义词频,即文档j中目标词i与其近义词出现的次数;dfi表示近义词文档频率,即语料库中含有目标词i以及它的近义词的文档个数;根据近义词TF‐IDF将TrainSet转化成矩阵trainNum为训练集评论数;(3‐5)根据保序子矩阵OPSM双聚类,挖掘出步骤(3‐4)得到的矩阵Wtfidf中的OPSM子矩阵,将挖掘得到的OPSM子矩阵中包含的词组称为OPSM特征,从而得到OPSM特征其中n1为挖掘到OPSM特征个数。6.如权利要求4所述基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法,其特征在于所述步骤(3-5)包括以下步骤:(a)将步骤(3‐4)得到的矩阵Wtfidf进行处理,先将每一行的非零值按从小到大排序,然后用各值所在列的列号去替换真实值,得到各行的列号向量;(b)对步骤(a)得到的数据进行公共子序列挖掘,因为各行的非零值个数可能不相同,所以在做两行公共子序列挖掘前先对两行列号向量取交集,然后利用动态...
【专利技术属性】
技术研发人员:黄佳锋,马志豪,陈鑫,卢昕,薛云,胡晓晖,
申请(专利权)人:华南师范大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。