The invention discloses an improved pain point analysis method for e-commerce products, wherein the method comprises: acquiring product review data, which needs to include product name, user review text, user review time as a review data set, and preprocessing the collected review data set, including comments. Text is processed by word segmentation, new word discovery and part-of-speech tagging, product pain feature extraction and clustering, using Chinese block markers, using SVM to extract product features, according to Apriori algorithm to generate frequent itemsets and TF IDF threshold filtering, product pain feature set is obtained, and then based on improved Kmeans ++ to pain points. Feature clustering; integration of online emotional lexicon, the use of emotional lexicon to quantify the product's pain point features emotional propensity, and ultimately get the e-commerce product pain point feature score. Pain point analysis of e-commerce products provides important information support for user purchase decision-making and enterprise competition strategy formulation.
【技术实现步骤摘要】
一种改进的电商产品痛点分析方法
本专利技术涉及自然语言处理和数据挖掘领域,尤其是一种基于评论信息的商品评价方法。
技术介绍
据中国互联网络信息中心(CNNIC)2017年1月发布的《第39次中国互联网络发展状况统计报告》显示,截至2016年12月,中国网民规模达到7.31亿人,全年新增网名共计4299万人,互联网普及率为53.2%。其中,中国网络购物用户规模达到4.67亿占网名比例为63.8%,较2015年底增长12.9%。其中,手机网络购物用户规模达到4.41亿,占手机网民的63.4%年增长率为29.8%。伴随着互联网信息技术的不断提升,电子商务行业迅猛发展,电商平台已经成为网购的一个重要渠道。但与此同时,消费者在网购商品时往往面临一些困难,如假冒伪劣、虚假宣传和选购困难等问题。虽然,许多电商平台提供消费者反馈机制,但是,面对网络上堆积的反馈信息,如何在茫茫多的反馈信息中,迅速有效地识别出有价值的参考信息,通过高价值的参考信息,挑选出自己心仪的电商产品。痛点营销已经成为一种新的营销模式,人们对痛点的研究也未曾间断,如张烨等基于痛点和感动点的服务设计分析研究。用户痛点是指:“原始需求中被大多数人反复表述过的一个有待产品去解决的问题、有待去实现的愿望。”而这些产品需求,消费者通过评论信息透露出自己的评价情况,通过对评论文本的情感倾向分析可以获得商品特征情感倾向,然后对这些产品特征提炼出消费者的痛点特征,接着对这些痛点特征结合情感词典,就可以获得每款商品的痛点特征得分,依据得分能够提供购买决策依据,使其购买行为更加理性。
技术实现思路
本专利技术所要解决的技术问题 ...
【技术保护点】
1.一种改进的电商产品痛点分析方法,其特征是包括如下步骤:步骤S1:获取商品评论数据,首先利用网络爬虫工具编写好爬虫规则,设定评论数据的时间区间,并用网络爬虫采集用户评论数据包括以下要素:产品名称、用户评论文本、用户评论时间,然后对各信息要素进行提取,通过编程持久化到数据库中;步骤S2:利用所述步骤S1中得到的数据进行预处理,利用JAVA语言编写程序对数值型数据进行去重复、数据转化和数据归约等操作,同时文本信息数据利用中科院NLPIR分词工具进行分词、词性标注和停用停用词等处理;步骤S3:产品痛点特征的提取与聚类,利用所述步骤S2预处理后的数据,确定汉语组块标记,然后选取一定量的分词数据进行汉语组块标记,接着使用SVM进行产品特征提取,最后根据Apriori算法产生频繁项集以及TF‑IDF阈值过滤,得到产品痛点特征集合,然后基于改进的Kmeans++对痛点特征进行聚类,减少产品特征维度,对产品的痛点特征进行集中分析;步骤S4:网上现有的情感词典在处理特定领域的评论文本时不能很好地囊括特定领域情感词,因此在产品评论情感分析前,需要根据研究对象构建相应领域的情感词典,对通用情感词典进行适当 ...
【技术特征摘要】
1.一种改进的电商产品痛点分析方法,其特征是包括如下步骤:步骤S1:获取商品评论数据,首先利用网络爬虫工具编写好爬虫规则,设定评论数据的时间区间,并用网络爬虫采集用户评论数据包括以下要素:产品名称、用户评论文本、用户评论时间,然后对各信息要素进行提取,通过编程持久化到数据库中;步骤S2:利用所述步骤S1中得到的数据进行预处理,利用JAVA语言编写程序对数值型数据进行去重复、数据转化和数据归约等操作,同时文本信息数据利用中科院NLPIR分词工具进行分词、词性标注和停用停用词等处理;步骤S3:产品痛点特征的提取与聚类,利用所述步骤S2预处理后的数据,确定汉语组块标记,然后选取一定量的分词数据进行汉语组块标记,接着使用SVM进行产品特征提取,最后根据Apriori算法产生频繁项集以及TF-IDF阈值过滤,得到产品痛点特征集合,然后基于改进的Kmeans++对痛点特征进行聚类,减少产品特征维度,对产品的痛点特征进行集中分析;步骤S4:网上现有的情感词典在处理特定领域的评论文本时不能很好地囊括特定领域情感词,因此在产品评论情感分析前,需要根据研究对象构建相应领域的情感词典,对通用情感词典进行适当补充,并对情感词典进行量化,这样评估的情感倾向相对比较准确;步骤S5:通过观察大量的评论文本,得出产品痛点特征的出现往往伴随着消费者情感倾向即评价词,因此,以痛点特征为情感分析对象,以逗号为最小情感语义单元分隔符,结合S3步骤得到的痛点特征和S4的量化情感词典,对与痛点特征处于同一个语义单元的情感词进行情感值计算,并将该情感值赋予对应痛点特征,最后得到每个产品的痛点特征得分。2.如权利要求1所述的一种改进的电商产品痛点分析方法,其特征是,所述步骤S1中,获取商品评论数据,首先利用网络爬虫工具编写好爬虫规则,根据待分析的产品选择用户评论数据来源网站,设定评论数据的时间区间,并用网络爬虫采集用户评论数据包括以下要素:产品名称、用户评论文本、用户评论时间,然后对各信...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。