一种基于大数据观点挖掘的产品特征提取方法技术

技术编号:16427793 阅读:48 留言:0更新日期:2017-10-21 22:31
本发明专利技术提出了一种基于大数据观点挖掘的产品特征提取方法,其特征在于包括以下步骤:步骤一:利用网络爬虫的页面解析技术从网站抓取产品的产品信息和客户评论得到产品语料,并对产品语料搭建产品信息‑整体评论‑细节评论的三层模型;步骤二:对上述三层模型中的产品语料均进行预处理,得到有效的数据集合;步骤三:对预处理后的三层模型分别进行产品特征的提取得到各层的显式特征;步骤四:将所有的显式特征进行归纳构成该产品的显式特征集。该方法可帮助生产商和服务商有针对性地改进产品性能和指导用户对产品的各个性能有比较全面的了解。

A method of product feature extraction based on big data viewpoint mining

The invention provides a method for extracting data mining based on product characteristics, which comprises the following steps: step one: Product data from web crawling product information and customer reviews using page parsing techniques of web crawler, three layer model and building material product information overall comment comment on product details language; step two: the three layer model of product data are preprocessed to get effective data collection; step three: extracted product characteristics on the three layer model after pretreatment by explicit characteristics of each layer; step four: the explicit feature of all sums constitute a significant type the characteristics of the product set. This method can help manufacturers and service providers to improve product performance and guide users to have a comprehensive understanding of the performance of the product.

【技术实现步骤摘要】
一种基于大数据观点挖掘的产品特征提取方法
本专利技术涉及一种基于大数据观点挖掘的产品特征提取方法,以帮助生产商和服务商有针对性地改进产品性能和指导用户对产品的各个性能有比较全面的了解。
技术介绍
电子商务的蓬勃发展,激发了网络购物的热潮。网络评论不仅作为反馈机制帮助生产者和销售商提升产品性能,而且有效帮助客户做出合理的决策,然而评论信息的迅速增长,迫切需要借助一定的技术手段来使这一过程变得更为准确而便捷。网络上现有的星级评定已经不足以帮助生产者、销售者和客户清晰定位产品的优势所在和劣势所在。目前,基于产品特征进行观点挖掘已经引起人们的广泛关注。产品特征指的是产品的部件,属性,以及性能等对象。产品特征提取的方式有两种,人工定义和自动提取。KobayashiN等人工定义了汽车的特征词,ZhuangL等人工定义了电影的特征词,LiuB等采用关联规则,利用Apriori算法获得频繁项集的方法自动获取产品特征候选集(名词或者名词短语),李实等在中文语料中,采用基于Apriori算法的非监督型产品特征挖掘算法,实现产品特征的信息挖掘,SomprasertsriG等根据句法分析,采用特征词与情感词的6种不同关系获取产品特征,WeiCP等采用语义学方法利用情感词对特征词做剪枝处理。由于人工定义具有领域局限性,不同领域需要不同的领域专家来确定该领域的特征词,且移植性较差。
技术实现思路
基于上述问题,本专利技术目的在于提供一种基于大数据观点挖掘的产品特征提取方法,以帮助生产商和服务商有针对性地改进产品性能和指导用户对产品的各个性能有比较全面的了解。针对以上问题,提供了如下技术方案:一种基于大数据观点挖掘的产品特征提取方法,其特征在于包括以下步骤:步骤一:利用网络爬虫的页面解析技术从网站抓取产品的产品信息和客户评论得到产品语料,并对产品语料搭建产品信息-整体评论-细节评论的三层模型;步骤二:对上述三层模型中的产品语料均进行预处理,得到有效的数据集合;步骤三:对预处理后的三层模型分别进行产品特征的提取得到各层的显式特征;步骤四:将所有的显式特征进行归纳构成该产品的显式特征集。本专利技术进一步设置为,所述三层模型种的第一层为产品信息层,主要指的是产品标题和产品属性;第二层为整体评论层,即综述产品的优缺点;第三层为细节评论层,详细阐述对该产品的具体看法。本专利技术进一步设置为,所述步骤二中的预处理包括:(1)分句:对文本文档分句处理;(2)词性标注:识别句子中各词的词性,缩小特征项候选集的范围;(3)停用词:三层模型中,上一层提取出来的特征词将作为下一层的停用词;(4)词根还原或词缀修剪:主要是把同一单词的不同形式还原成标准形式。本专利技术进一步设置为,所述步骤三中对产品信息层的产品特征提取方法为:(1)所述产品标题包括产品名称和产品特色,产品名称部分不对其提取,并将产品名称的词作为停用词加入到停用词词表中;产品特色部分提取词性为名词的词;(2)提取产品属性短句中词性为名词的词;本专利技术进一步设置为,所述步骤三中对整体评论层的产品特征提取采用FP增长算法获得频繁项集作为特征候选集,然后对特征候选集内的频繁项集进行剪枝即可得到该层的显式特征。本专利技术进一步设置为,所述频繁项集的剪枝采用两种方式:紧密度剪枝和冗余度剪枝,所述紧密度剪枝指的是去除在特征候选集中无意义的频繁项集,所述冗余度剪枝指的是去除特征候选集中无法完整表述产品特征的频繁项集。本专利技术进一步设置为,所述所述步骤三中对细节评论层的产品特征提取具体为:前两层的产品特征作为此层的停用词,采用句法分析自动分析出句子的语法结构和词与词之间支配关系,停用词仅作为依存分析提取的词筛选条件,如果不是停用词将加入事务数据库D中,然后再对事务数据库D提取频繁项集及对其剪枝处理。本专利技术的有益效果:本专利技术采用自动提取方式,根据产品呈现在网络上的方式和特点,搭建了产品信息-整体评论-细节评论3层模型提取产品特征,该模型针对不同层的层次特点,采用了不同的提取方法,此外,该模型将上层的特征词定义为下层的停用词以及在第三层中加入依存关系,成功地实现了对特征项降维的目的,从而提高特征提取的效率。附图说明图1为本专利技术基于大数据观点挖掘的产品特征提取方法的流程示意图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。如图1所示,一种基于大数据观点挖掘的产品特征提取方法,其特征在于包括以下步骤:步骤一:利用网络爬虫的页面解析技术从网站抓取产品的产品信息和客户评论得到产品语料,并对产品语料搭建产品信息-整体评论-细节评论的三层模型;所述三层模型种的第一层为产品信息层,主要指的是产品标题和产品属性;第二层为整体评论层,即综述产品的优缺点;第三层为细节评论层,详细阐述对该产品的具体看法。三层模型有以下好处:1)各个层之间产品特征提取方法相互独立,各层可根据其独特特点选择不同的算法;2)各层之间又存在联系,上层对下层共享其已提取的产品特征,下层就可避免提取和上层相同的特征。步骤二:对上述三层模型中的产品语料均进行预处理,得到有效的数据集合;上述预处理包括:(1)分句:对文本文档分句处理;(2)词性标注:识别句子中各词的词性,缩小特征项候选集的范围;(3)停用词:三层模型中,上一层提取出来的特征词将作为下一层的停用词;(4)词根还原或词缀修剪:主要是把同一单词的不同形式还原成标准形式。步骤三:对预处理后的三层模型分别进行产品特征的提取得到各层的显式特征;对产品信息层的产品特征提取方法为:(1)所述产品标题包括产品名称和产品特色,产品名称部分不对其提取,并将产品名称的词作为停用词加入到停用词词表中;产品特色部分提取词性为名词的词;(2)提取产品属性短句中词性为名词的词;对整体评论层的产品特征提取具体为:采用FP增长算法获得频繁项集作为特征候选集,然后对特征候选集内的频繁项集进行剪枝即可得到该层的显式特征。所述频繁项集的剪枝采用两种方式:紧密度剪枝和冗余度剪枝,所述紧密度剪枝指的是去除在特征候选集中无意义的频繁项集,所述冗余度剪枝指的是去除特征候选集中无法完整表述产品特征的频繁项集。所述FP增长算法包含2个方法,构造Fp_tree和FP树的挖掘FP-growth(Tree,α);所述构造Fp_tree算法描述如下:1)首先扫描一遍事务数据库D,得到1频繁项的集合L;2)创建FP-Tree的根节点,标记为“null”;3)对每个事务Trans中的频繁项进行排序,得到[p|P],其中,p是事务Trans中的第一个元素,而P是剩余元素的列表;4)调用insert_tree([p|P],T),如果T的某个孩子N,满足条件N.item-name=p.item-name,则N的计数增加1,否则创建新节点N,将其计数设置为1,链接到它的父节点T,并且通过节点链结构将其链接到具有相同item-name的节点。如果P非空,则递归调用insert-tree(P,N)。所述FP树的挖掘FP-growth(Tree,α)算法描述如下:1)ifTree含有单路径Pthen2)foreach路径P中节点的组合(记作β)3)产生模式β∪α,其支持度计数support_count等于β中节点本文档来自技高网...
一种基于大数据观点挖掘的产品特征提取方法

【技术保护点】
一种基于大数据观点挖掘的产品特征提取方法,其特征在于包括以下步骤:步骤一:利用网络爬虫的页面解析技术从网站抓取产品的产品信息和客户评论得到产品语料,并对产品语料搭建产品信息‑整体评论‑细节评论的三层模型;步骤二:对上述三层模型中的产品语料均进行预处理,得到有效的数据集合;步骤三:对预处理后的三层模型分别进行产品特征的提取得到各层的显式特征;步骤四:将所有的显式特征进行归纳构成该产品的显式特征集。

【技术特征摘要】
1.一种基于大数据观点挖掘的产品特征提取方法,其特征在于包括以下步骤:步骤一:利用网络爬虫的页面解析技术从网站抓取产品的产品信息和客户评论得到产品语料,并对产品语料搭建产品信息-整体评论-细节评论的三层模型;步骤二:对上述三层模型中的产品语料均进行预处理,得到有效的数据集合;步骤三:对预处理后的三层模型分别进行产品特征的提取得到各层的显式特征;步骤四:将所有的显式特征进行归纳构成该产品的显式特征集。2.根据权利要求1所述的一种基于大数据观点挖掘的产品特征提取方法,其特征在于:所述三层模型种的第一层为产品信息层,主要指的是产品标题和产品属性;第二层为整体评论层,即综述产品的优缺点;第三层为细节评论层,详细阐述对该产品的具体看法。3.根据权利要求1或2所述的一种基于大数据观点挖掘的产品特征提取方法,其特征在于:所述步骤二中的预处理包括:分句:对文本文档分句处理;词性标注:识别句子中各词的词性,缩小特征项候选集的范围;停用词:三层模型中,上一层提取出来的特征词将作为下一层的停用词;词根还原或词缀修剪:主要是把同一单词的不同形式还原成标准形式。4.根据权利要求2所述的一种基于大数据观点挖掘的产品特征提取方法,其特征在于:所述...

【专利技术属性】
技术研发人员:王振宇周逸舒王勇陈珍珍
申请(专利权)人:温州市鹿城区中津先进科技研究院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1