一种改进的电商产品痛点分析方法技术

技术编号:18658219 阅读:23 留言:0更新日期:2018-08-11 14:31
本发明专利技术公开了一种改进的电商产品痛点分析方法,其中所述方法包括:获取商品评论数据,采集的评论数据需要包括产品名称、用户评论文本、用户评论时间,作为评论数据集;对采集的评论数据集进行预处理操作,包括评论文本进行分词、新词发现以及词性标注等处理;产品痛点特征的提取与聚类,利用汉语组块标记,使用SVM进行产品特征提取,根据Apriori算法产生频繁项集以及TF‑IDF阈值过滤,得到产品痛点特征集合,然后基于改进的Kmeans++对痛点特征进行聚类;整合网上的情感词库,利用情感词库对产品的痛点特征进行情感倾向量化,最终得到电商产品痛点特征得分。电商产品痛点分析为用户购买决策、企业竞争策略制定提供重要情报支撑。

An improved method of pain analysis for electronic commerce products

The invention discloses an improved pain point analysis method for e-commerce products, wherein the method comprises: acquiring product review data, which needs to include product name, user review text, user review time as a review data set, and preprocessing the collected review data set, including comments. Text is processed by word segmentation, new word discovery and part-of-speech tagging, product pain feature extraction and clustering, using Chinese block markers, using SVM to extract product features, according to Apriori algorithm to generate frequent itemsets and TF IDF threshold filtering, product pain feature set is obtained, and then based on improved Kmeans ++ to pain points. Feature clustering; integration of online emotional lexicon, the use of emotional lexicon to quantify the product's pain point features emotional propensity, and ultimately get the e-commerce product pain point feature score. Pain point analysis of e-commerce products provides important information support for user purchase decision-making and enterprise competition strategy formulation.

【技术实现步骤摘要】
一种改进的电商产品痛点分析方法
本专利技术涉及自然语言处理和数据挖掘领域,尤其是一种基于评论信息的商品评价方法。
技术介绍
据中国互联网络信息中心(CNNIC)2017年1月发布的《第39次中国互联网络发展状况统计报告》显示,截至2016年12月,中国网民规模达到7.31亿人,全年新增网名共计4299万人,互联网普及率为53.2%。其中,中国网络购物用户规模达到4.67亿占网名比例为63.8%,较2015年底增长12.9%。其中,手机网络购物用户规模达到4.41亿,占手机网民的63.4%年增长率为29.8%。伴随着互联网信息技术的不断提升,电子商务行业迅猛发展,电商平台已经成为网购的一个重要渠道。但与此同时,消费者在网购商品时往往面临一些困难,如假冒伪劣、虚假宣传和选购困难等问题。虽然,许多电商平台提供消费者反馈机制,但是,面对网络上堆积的反馈信息,如何在茫茫多的反馈信息中,迅速有效地识别出有价值的参考信息,通过高价值的参考信息,挑选出自己心仪的电商产品。痛点营销已经成为一种新的营销模式,人们对痛点的研究也未曾间断,如张烨等基于痛点和感动点的服务设计分析研究。用户痛点是指:“原始需求中被大多数人反复表述过的一个有待产品去解决的问题、有待去实现的愿望。”而这些产品需求,消费者通过评论信息透露出自己的评价情况,通过对评论文本的情感倾向分析可以获得商品特征情感倾向,然后对这些产品特征提炼出消费者的痛点特征,接着对这些痛点特征结合情感词典,就可以获得每款商品的痛点特征得分,依据得分能够提供购买决策依据,使其购买行为更加理性。
技术实现思路
本专利技术所要解决的技术问题是:获取商品评论数据,采集的评论数据需要包括产品名称、用户评论文本、用户评论时间,作为评论数据集。首先对采集的评论数据集进行预处理操作,包括评论文本进行分词、新词发现以及词性标注等处理,然后利用汉语组块标记,使用SVM进行产品特征提取,根据Apriori算法产生频繁项集以及TF-IDF阈值过滤,得到产品痛点特征集合,然后基于改进的Kmeans++对痛点特征进行聚类,最后利用情感词库对产品的痛点特征进行情感倾向量化,最终得到电商产品痛点特征得分,依据得分数据为用户购买决策、企业竞争策略制定提供重要情报支撑。为此,本专利技术提出的一种改进的电商产品痛点分析方法包括如下步骤:步骤S1:获取商品评论数据,首先利用网络爬虫工具编写好爬虫规则,设定评论数据的时间区间,并用网络爬虫采集用户评论数据包括以下要素:产品名称、用户评论文本、用户评论时间,然后对各信息要素进行提取,通过编程持久化到数据库中;步骤S2:利用爬取得到的数据进行预处理,利用JAVA语言编写程序对数值型数据进行去重复、数据转化和数据归约等操作,同时文本信息数据利用中科院NLPIR分词工具进行分词、词性标注和停用停用词等处理;步骤S3:产品痛点特征的提取与聚类,利用预处理后的数据,确定汉语组块标记,然后选取一定量的分词数据进行汉语组块标记,接着使用SVM进行产品特征提取,最后根据Apriori算法产生频繁项集以及TF-IDF阈值过滤,得到产品痛点特征集合,然后基于改进的Kmeans++对痛点特征进行聚类,减少产品特征维度,对产品的痛点特征进行集中分析;步骤S4:网上现有的情感词典在处理特定领域的评论文本时不能很好地囊括特定领域情感词,因此在产品评论情感分析前,需要根据研究对象构建相应领域的情感词典,对通用情感词典进行适当补充,并对情感词典进行量化,这样评估的情感倾向相对比较准确;步骤S5:通过观察大量的评论文本,得出产品痛点特征的出现往往伴随着消费者情感倾向即评价词,因此,以痛点特征为情感分析对象,以逗号为最小情感语义单元分隔符,结合痛点特征和量化情感词典,对与痛点特征处于同一个语义单元的情感词进行情感值计算,并将该情感值赋予对应痛点特征,最后得到每个产品的痛点特征得分。本专利技术与现有技术对比的有益效果是:本专利技术提出了一种改进的电商产品痛点分析方法,从定义出发,用户痛点分析更关注负面评论分析,而传统情感分析则更侧重于整体或正面评论的分析。但用户痛点分析并不完全等同于负面评论分析,而是针对涉及所研究产品特征指标的负面评论进行分析和研究。痛点反映了从用户角度来看待产品缺陷或不足,从用户角度给出对产品相对客观的评价和定位。这对厂商来说是一个宝贵的情报来源,可以作为市场反应数据来支撑企业产品市场定位,反映市场定位是否准确,或为产品改进提供决策依据。从消费者角度出发,通过痛点分析可以进一步比较各产品之间的痛点,能够提供购买决策依据,使其购买行为更加理性。附图说明图1是本专利技术具体实施方式中的一种改进的电商产品痛点分析方法的流程示意图。具体实施方式为使本专利技术的目的、技术方案和优点清楚,下面将对本专利技术的具体实施方式进行清楚、完整的描述。如图1所示,为本具体实施方式中的一种改进的电商产品痛点分析方法的流程图。该方法包括:步骤S1:获取商品评论数据,首先利用网络爬虫工具编写好爬虫规则,设定评论数据的时间区间,并用网络爬虫采集用户评论数据包括以下要素:产品名称、用户评论文本、用户评论时间,然后对各信息要素进行提取,通过编程持久化到数据库中;步骤S2:利用爬取得到的数据进行预处理,利用JAVA语言编写程序对数值型数据进行去重复、数据转化和数据归约等操作,同时文本信息数据利用中科院NLPIR分词工具进行分词、词性标注和停用停用词等处理;步骤S3:产品痛点特征的提取与聚类,利用预处理后的数据,确定汉语组块标记,然后选取一定量的分词数据进行汉语组块标记,接着使用SVM进行产品特征提取,最后根据Apriori算法产生频繁项集以及TF-IDF阈值过滤,得到产品痛点特征集合,然后基于改进的Kmeans++对痛点特征进行聚类,减少产品特征维度,对产品的痛点特征进行集中分析;步骤S4:网上现有的情感词典在处理特定领域的评论文本时不能很好地囊括特定领域情感词,因此在产品评论情感分析前,需要根据研究对象构建相应领域的情感词典,对通用情感词典进行适当补充,并对情感词典进行量化,这样评估的情感倾向相对比较准确;步骤S5:通过观察大量的评论文本,得出产品痛点特征的出现往往伴随着消费者情感倾向即评价词,因此,以痛点特征为情感分析对象,以逗号为最小情感语义单元分隔符,结合痛点特征和量化情感词典,对与痛点特征处于同一个语义单元的情感词进行情感值计算,并将该情感值赋予对应痛点特征,最后得到每个产品的痛点特征得分。在具体的实施方案中,可按下面方式操作(在下面的操作表述中,我们将对主流电商网站中数款手机的痛点分析为例,在每个操作步骤后,部分给出具体示例):步骤S1:利用python的Scrapy爬虫框架,从天猫电商平台中,分别爬取IPhone6、OPPOR9S、华为Mate8、魅蓝Note3、小米6这5款机型作为研究对象,抓取评论数据。数据采集时间为2017年10月1日。采集每款手机评论数都为为3215条,这些手机评论信息将作为手机用户痛点分析研究的实验数据集,通过java编程持久化到Mysql数据库中。步骤S2:对得到平论文本进行处理,主要包括文本分词、词性标注和词频统计,然后基于停用词和低频词过滤分词结果。细分步骤如下:1)文本分词和词性标注:我们知道,在本文档来自技高网...

【技术保护点】
1.一种改进的电商产品痛点分析方法,其特征是包括如下步骤:步骤S1:获取商品评论数据,首先利用网络爬虫工具编写好爬虫规则,设定评论数据的时间区间,并用网络爬虫采集用户评论数据包括以下要素:产品名称、用户评论文本、用户评论时间,然后对各信息要素进行提取,通过编程持久化到数据库中;步骤S2:利用所述步骤S1中得到的数据进行预处理,利用JAVA语言编写程序对数值型数据进行去重复、数据转化和数据归约等操作,同时文本信息数据利用中科院NLPIR分词工具进行分词、词性标注和停用停用词等处理;步骤S3:产品痛点特征的提取与聚类,利用所述步骤S2预处理后的数据,确定汉语组块标记,然后选取一定量的分词数据进行汉语组块标记,接着使用SVM进行产品特征提取,最后根据Apriori算法产生频繁项集以及TF‑IDF阈值过滤,得到产品痛点特征集合,然后基于改进的Kmeans++对痛点特征进行聚类,减少产品特征维度,对产品的痛点特征进行集中分析;步骤S4:网上现有的情感词典在处理特定领域的评论文本时不能很好地囊括特定领域情感词,因此在产品评论情感分析前,需要根据研究对象构建相应领域的情感词典,对通用情感词典进行适当补充,并对情感词典进行量化,这样评估的情感倾向相对比较准确;步骤S5:通过观察大量的评论文本,得出产品痛点特征的出现往往伴随着消费者情感倾向即评价词,因此,以痛点特征为情感分析对象,以逗号为最小情感语义单元分隔符,结合S3步骤得到的痛点特征和S4的量化情感词典,对与痛点特征处于同一个语义单元的情感词进行情感值计算,并将该情感值赋予对应痛点特征,最后得到每个产品的痛点特征得分。...

【技术特征摘要】
1.一种改进的电商产品痛点分析方法,其特征是包括如下步骤:步骤S1:获取商品评论数据,首先利用网络爬虫工具编写好爬虫规则,设定评论数据的时间区间,并用网络爬虫采集用户评论数据包括以下要素:产品名称、用户评论文本、用户评论时间,然后对各信息要素进行提取,通过编程持久化到数据库中;步骤S2:利用所述步骤S1中得到的数据进行预处理,利用JAVA语言编写程序对数值型数据进行去重复、数据转化和数据归约等操作,同时文本信息数据利用中科院NLPIR分词工具进行分词、词性标注和停用停用词等处理;步骤S3:产品痛点特征的提取与聚类,利用所述步骤S2预处理后的数据,确定汉语组块标记,然后选取一定量的分词数据进行汉语组块标记,接着使用SVM进行产品特征提取,最后根据Apriori算法产生频繁项集以及TF-IDF阈值过滤,得到产品痛点特征集合,然后基于改进的Kmeans++对痛点特征进行聚类,减少产品特征维度,对产品的痛点特征进行集中分析;步骤S4:网上现有的情感词典在处理特定领域的评论文本时不能很好地囊括特定领域情感词,因此在产品评论情感分析前,需要根据研究对象构建相应领域的情感词典,对通用情感词典进行适当补充,并对情感词典进行量化,这样评估的情感倾向相对比较准确;步骤S5:通过观察大量的评论文本,得出产品痛点特征的出现往往伴随着消费者情感倾向即评价词,因此,以痛点特征为情感分析对象,以逗号为最小情感语义单元分隔符,结合S3步骤得到的痛点特征和S4的量化情感词典,对与痛点特征处于同一个语义单元的情感词进行情感值计算,并将该情感值赋予对应痛点特征,最后得到每个产品的痛点特征得分。2.如权利要求1所述的一种改进的电商产品痛点分析方法,其特征是,所述步骤S1中,获取商品评论数据,首先利用网络爬虫工具编写好爬虫规则,根据待分析的产品选择用户评论数据来源网站,设定评论数据的时间区间,并用网络爬虫采集用户评论数据包括以下要素:产品名称、用户评论文本、用户评论时间,然后对各信...

【专利技术属性】
技术研发人员:徐新胜余建浙
申请(专利权)人:中国计量大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1