The invention provides a method for extracting data mining based on product characteristics, which comprises the following steps: step one: Product data from web crawling product information and customer reviews using page parsing techniques of web crawler, three layer model and building material product information overall comment comment on product details language; step two: the three layer model of product data are preprocessed to get effective data collection; step three: extracted product characteristics on the three layer model after pretreatment by explicit characteristics of each layer; step four: the explicit feature of all sums constitute a significant type the characteristics of the product set. This method can help manufacturers and service providers to improve product performance and guide users to have a comprehensive understanding of the performance of the product.
【技术实现步骤摘要】
一种基于大数据观点挖掘的产品特征提取方法
本专利技术涉及一种基于大数据观点挖掘的产品特征提取方法,以帮助生产商和服务商有针对性地改进产品性能和指导用户对产品的各个性能有比较全面的了解。
技术介绍
电子商务的蓬勃发展,激发了网络购物的热潮。网络评论不仅作为反馈机制帮助生产者和销售商提升产品性能,而且有效帮助客户做出合理的决策,然而评论信息的迅速增长,迫切需要借助一定的技术手段来使这一过程变得更为准确而便捷。网络上现有的星级评定已经不足以帮助生产者、销售者和客户清晰定位产品的优势所在和劣势所在。目前,基于产品特征进行观点挖掘已经引起人们的广泛关注。产品特征指的是产品的部件,属性,以及性能等对象。产品特征提取的方式有两种,人工定义和自动提取。KobayashiN等人工定义了汽车的特征词,ZhuangL等人工定义了电影的特征词,LiuB等采用关联规则,利用Apriori算法获得频繁项集的方法自动获取产品特征候选集(名词或者名词短语),李实等在中文语料中,采用基于Apriori算法的非监督型产品特征挖掘算法,实现产品特征的信息挖掘,SomprasertsriG等根据句法分析,采用特征词与情感词的6种不同关系获取产品特征,WeiCP等采用语义学方法利用情感词对特征词做剪枝处理。由于人工定义具有领域局限性,不同领域需要不同的领域专家来确定该领域的特征词,且移植性较差。
技术实现思路
基于上述问题,本专利技术目的在于提供一种基于大数据观点挖掘的产品特征提取方法,以帮助生产商和服务商有针对性地改进产品性能和指导用户对产品的各个性能有比较全面的了解。针对以上问题,提供了如下技术方 ...
【技术保护点】
一种基于大数据观点挖掘的产品特征提取方法,其特征在于包括以下步骤:步骤一:利用网络爬虫的页面解析技术从网站抓取产品的产品信息和客户评论得到产品语料,并对产品语料搭建产品信息‑整体评论‑细节评论的三层模型;步骤二:对上述三层模型中的产品语料均进行预处理,得到有效的数据集合;步骤三:对预处理后的三层模型分别进行产品特征的提取得到各层的显式特征;步骤四:将所有的显式特征进行归纳构成该产品的显式特征集。
【技术特征摘要】
1.一种基于大数据观点挖掘的产品特征提取方法,其特征在于包括以下步骤:步骤一:利用网络爬虫的页面解析技术从网站抓取产品的产品信息和客户评论得到产品语料,并对产品语料搭建产品信息-整体评论-细节评论的三层模型;步骤二:对上述三层模型中的产品语料均进行预处理,得到有效的数据集合;步骤三:对预处理后的三层模型分别进行产品特征的提取得到各层的显式特征;步骤四:将所有的显式特征进行归纳构成该产品的显式特征集。2.根据权利要求1所述的一种基于大数据观点挖掘的产品特征提取方法,其特征在于:所述三层模型种的第一层为产品信息层,主要指的是产品标题和产品属性;第二层为整体评论层,即综述产品的优缺点;第三层为细节评论层,详细阐述对该产品的具体看法。3.根据权利要求1或2所述的一种基于大数据观点挖掘的产品特征提取方法,其特征在于:所述步骤二中的预处理包括:分句:对文本文档分句处理;词性标注:识别句子中各词的词性,缩小特征项候选集的范围;停用词:三层模型中,上一层提取出来的特征词将作为下一层的停用词;词根还原或词缀修剪:主要是把同一单词的不同形式还原成标准形式。4.根据权利要求2所述的一种基于大数据观点挖掘的产品特征提取方法,其特征在于:所述...
【专利技术属性】
技术研发人员:王振宇,周逸舒,王勇,陈珍珍,
申请(专利权)人:温州市鹿城区中津先进科技研究院,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。