一种基于机器学习的电商产品客户满意度分析方法技术

技术编号:17971705 阅读:18 留言:0更新日期:2018-05-16 12:09
本发明专利技术公开了一种基于机器学习的电商产品客户满意度分析方法,其中所述方法包括:获取电商产品评论文本,进行分词、词性标注等数据预处理;选定汉语组块标记符号对分词结果进行手工标注;基于Lib‑SVM工具,训练模型,进而获取名词性汉语组块作为候选商品特征,计算TF‑IDF值过滤特征;构建情感词典,计算商品每个特征的情感得分;训练词向量语言模型,得到商品特征的向量表示;基于词向量相似度,对商品特征进行客户满意度聚类,并计算总得分。本发明专利技术的方法可以应用在基于商品评论文本的商品推荐系统,通过客户满意度分析,聚类出商品特征五个方面,降低商品特征维度以及稀疏性,使所设计的推荐系统具有更加快速和准确的性能。

【技术实现步骤摘要】
一种基于机器学习的电商产品客户满意度分析方法
本专利技术涉及自然语言处理和数据挖掘领域,尤其是一种基于评论文本的商品评价方法。
技术介绍
随着互联网技术的迅猛发展和普及,带来网络信息爆炸式的增加。在信息“爆炸”时代,传统门店销售模式已经不能满足消费者需求,电子商务应运而生。电子商务的出现,一方面,扩宽消费者商品选购范围;另一方面,消费者可以对电商产品发表观点和看法。客户满意度,也叫客户满意指数,是对服务性行业的顾客满意度调查系统的简称,是客户通过对一种产品可感知的效果与其期望值相比较后得出的指数,商品评论就是一种客户满意度的体现。通过挖掘目标商品评论信息,获取用户的个性化特征偏好、目标商品客户满意度实现对用户进行商品推荐。对于产品客户满意度的分析当前已经有很多方法,如顾客满意度专项调查、投诉建议制度、神秘购买者和研究流失的顾客。这些方法获取目标商品的客户满意度指数,但是耗时费力,被动获取信息而且信息量偏小。在针对电商产品的客户满意度情况时,上述方法都不适用。因此,通过分析目标商品评论,挖掘出商品特征对应的情感评价,作为客户满意度情况。但是,评论用户具有不同教育程度、文化背景、风俗习惯的用户采取不同的表述方式,导致目标商品的一种特征会有多种表达方式。这种情况不仅可能出现商品特征维度灾难,而且增加特征的稀疏性,不利于分析出用户对商品特征的情感评价。采用客户满意度聚类方法,根据客户满意度提出的五个方面,信赖度、专业度、有形度、同理度和反应度,按照五个度表达内容,将实际表达同一特征或者类似特征聚类到五个度中。不仅可以有效解决商品特征问题,而且采用客户满意度聚类方法,更加简介高效评价商品。目前基于客户满意度评价电商产品,还很少有人提出有效方法。
技术实现思路
本专利技术所要解决的技术问题是:提供一种电商产品客户满意度分析方法,采用名词性汉语组块作为商品特征,并利用机器学习方法将用户评论的商品特征聚类客户满意度五个方面,解决商品特征维度灾难和稀疏性,并且更加简洁高效的评价目标商品,使商品推荐的结果快速准确。为此,本专利技术提出的一种基于机器学习的电商产品客户满意度分析方法包括如下步骤:步骤S1:设计爬虫算法从电商平台上爬取目标商品评论文本,持久化到本地数据库,利用分词工具对爬取的评论文本进行分词、词性标注,统计分词结果得到词频,根据停用词和低频词词典对分词结果进行过滤。步骤S2:选定汉语组块标记符号,对分词结果的每个词根据词性和上下文关系给予手工汉语组块标注;步骤S3:将手工标注好的汉语组块作为训练集,基于Lib-Svm工具训练出自动提取的汉语组块模型,然后把模型应用在全部评论,最后利用标注后的结果自动提取名词性汉语组块作为候选产品特征词,给定一定的阈值对每个候选特征词进行TF-IDF过滤;步骤S4:收集网上情感词典,并对词典根据情感的强度进行数值化,对每条评论中出现的商品特征词进行情感得分计算;步骤S5:训练商品特征词的词向量模型,得到特征词的向量表示集合;步骤S6:基于特征词词向量的相似度,对商品特征进行客户满意度聚类,并结合商品特征情感得分,最后给出商品评价总得分;本专利技术与现有技术对比的有益效果是:本专利技术提出了一种基于机器学习的电商产品客户满意度分析方法,根据调查研究,发现一个可以有效衡量客户服务质量的RATER指数。RATER指数是五个英文单词的缩写,分别代表reliability(信赖度)、assurance(专业度)、tangibles(有形度)、empathy(同理度)、responsiveness(反应度),基于客户满意指数度给出电商产品评价五个方面。将用户评论文本中的商品特征聚类到客户满意度五个方面,不仅可以有效解决商品特征问题,而且采用客户满意度聚类方法,更加简洁高效评价商品;为了更加准确提取商品特征,本专利技术采用汉语组块标注形式,基于SVM方法训练出模型;相比与商品特征情感倾向,本专利技术将情感倾向数值化,计算出每个商品特征情感得分;给定客户满意度每个方面几个最显著的商品特征词,使用词向量模型,这种词语向量具有很强的语义表示能力,语义上相近的词语,在映射后的向量空间中的距离也会很相近,将剩余的商品特征词,计算与每个方面的特征词相似度,取平均相似度最大的方面,进行归类;最合结合商品特征情感得分,给出产品客户满意度最终得分。在对商品评价的过程中,利用汉语组块重组商品特征和客户满意度的定向聚类,都可以减小商品特征的维度,而且采用特征情感得分,可以所设计的推荐系统具有更加快速和准确的进行推荐。附图说明图1是本专利技术具体实施方式中的一种基于机器学习的电商产品客户满意度分析方法的流程示意图。具体实施方式为使本专利技术的目的、技术方案和优点清楚,下面将对本专利技术的具体实施方式进行清楚、完整的描述。如图1所示,为本具体实施方式中的一种基于机器学习的电商产品客户满意度分析方法的流程图。该方法包括:步骤S1设计爬虫算法从电商平台上爬取目标商品评论文本,持久化到本地数据库,利用分词工具对爬取的评论文本进行分词、词性标注,统计分词结果得到词频,根据停用词和低频词词典对分词结果进行过滤;步骤S2,选定汉语组块标记符号,对分词结果的每个词根据词性和上下文关系给予汉语组块手工标注;步骤S3,将手工标注好的汉语组块作为训练集,基于Lib-Svm工具训练出自动提取的汉语组块模型,然后把模型应用在全部评论,最后利用标注后的结果自动提取名词性汉语组块作为产品特征词,得到商品特征词候选集合,给定一定的阈值对每个候选特征词进行TF-IDF过滤;步骤S4,收集网上情感词典,并对词典根据情感的强度进行数值化,对每条评论中出现的商品特征词进行情感得分计算;步骤S5,训练商品特征词的词向量模型,得到特征词的向量表示集合;步骤S6,基于特征词词向量的相似度,对商品特征进行客户满意度聚类,并结合商品特征情感得分,最后给出商品评价总得分。在具体的实施方案中,可按下面方式操作(在下面的操作表述中,我们将以对淘宝网站中某款手机的客户满意度分析为例,在每个操作步骤后,给出具体示例):步骤S1:利用python的Scrapy爬虫框架,爬取目标商品评论文本,然后持久化到Mysql数据库中,得到用户评论语料库。然后对评论文本进行预处理,主要包括文本分词、词性标注和词频统计,然后基于停用词和低频词过滤分词结果。细分步骤如下:1)文本分词和词性标注:我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。中文分词(ChineseWordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。词性标注是对上述的分词结果,标注每个词的词性,现代汉语的词可以分为两类14种词性。现在能选择的中文分词和词性标注工具比较多,比如,ICTCLAS:汉语词法分析系统,这是最早的中文开源分词项目之一,ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届(2003)国际中文处理研究机构SigHan组织的评测中都获得了多项第一名;语言云(语言技术平台云LTP-Cloud)是由哈工大社会计算与信息检索研本文档来自技高网
...
一种基于机器学习的电商产品客户满意度分析方法

【技术保护点】
一种基于机器学习的电商产品客户满意度分析方法,其特征是包括如下步骤:步骤S1:从相关电商平台获取电商产品评论文本,进行分词、词性标注等数据预处理;步骤S2:选定汉语组块标记符号,对步骤S1中得到的分词结果进行手工标注,作为获取汉语组块模型的训练样本;步骤S3:利用所述步骤S2中得到的训练样本,基于Lib‑SVM工具训练,得到可以在商品评论文本中自动标注汉语组块的模型,然后在全部评论上进行汉语组块的自动标注,进而选取名词性汉语组块作为候选商品特征词集合,并对候选集合按照一定的规则进行过滤;步骤S4:构建情感词典,利用所述步骤S3中得到的商品特征词集合,计算商品每个特征的情感得分;步骤S5:利用所述步骤S3中得到的商品特征词集合,训练特征词的词向量模型,得到商品特征词的向量表示;步骤S6:利用所述步骤S5中得到的商品特征词向量,基于词向量相似度,对商品特征词进行客户满意度聚类分析,利用所述步骤S4中得到的商品每个特征的情感得分,计算出每一类的平均分作为最终得分。

【技术特征摘要】
1.一种基于机器学习的电商产品客户满意度分析方法,其特征是包括如下步骤:步骤S1:从相关电商平台获取电商产品评论文本,进行分词、词性标注等数据预处理;步骤S2:选定汉语组块标记符号,对步骤S1中得到的分词结果进行手工标注,作为获取汉语组块模型的训练样本;步骤S3:利用所述步骤S2中得到的训练样本,基于Lib-SVM工具训练,得到可以在商品评论文本中自动标注汉语组块的模型,然后在全部评论上进行汉语组块的自动标注,进而选取名词性汉语组块作为候选商品特征词集合,并对候选集合按照一定的规则进行过滤;步骤S4:构建情感词典,利用所述步骤S3中得到的商品特征词集合,计算商品每个特征的情感得分;步骤S5:利用所述步骤S3中得到的商品特征词集合,训练特征词的词向量模型,得到商品特征词的向量表示;步骤S6:利用所述步骤S5中得到的商品特征词向量,基于词向量相似度,对商品特征词进行客户满意度聚类分析,利用所述步骤S4中得到的商品每个特征的情感得分,计算出每一类的平均分作为最终得分。2.如权利要求1所述的基于机器学习的电商产品客户满意度分析方法,其特征是,所述步骤S1中,数据预处理包括评论分词、词性标注、词频统计、停用词过滤以及低频词语过滤。3.如权利要求1所述的基于机器学习的电商产品客户满意度分析方法,其特征是,所述步骤S2中,汉语组块标注的方法是:汉语组块总共有13种,根据重要性选取出最常见的8种作为标记符号,采用IOB2的标注集合来标注汉语组块,根据每个词的前、后的2个词的词性和依存关系,手工给予每个词的汉语组块标注;汉语组块标注完成后,完成每个词和汉语组块一一对应。4.如权利要求1所述的基于机器学习的电商产品客户满意度分析方法,其特征是,所述步骤S3中,商品特征词提取的方法是:根据步骤S2中标注的汉语组块,选取每个词的词、词性以及前、后2个词的词、词性和汉语组块标记作为训练的输入特征,基于Lib-SVM工具,训练出汉语组块提取模型;利用模型在全部评论文本上提取出名词性汉语组块作为候选商品特征词集合,计算每个候选特...

【专利技术属性】
技术研发人员:徐新胜余建浙
申请(专利权)人:中国计量大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1