一种基于线性组合器的产品特征结构树自动构建方法技术

技术编号:18526162 阅读:24 留言:0更新日期:2018-07-25 12:51
本发明专利技术公开了一种基于线性组合器的产品特征自动构建方法,其中所述方法包括:商品评论文本的获取,选取某款电商产品,爬取评论文本信息作为评论数据集;对爬取的评论数据集进行预处理操作,主要包括评论文本分词和词性标注处理;产品特征提取,采用支持向量机进行特征提取,然后选取一些指标进行产品特征过滤,得到产品特征集合;通过词向量相似度计算和《同义词词林扩展版》的相似度计算得到产品特征相似矩阵,通过线性组合最后得到产品特征相似度;依据产品特征相似度对产品特征进行聚类,再提取主题,构建出产品特征结构树。产品特征结构树可以为产品痛点分析、产品个性化推荐和产品特征情感分析提供重要参考依据。

【技术实现步骤摘要】
一种基于线性组合器的产品特征结构树自动构建方法
本专利技术涉及自然语言处理和数据挖掘领域,尤其是一种基于评论信息的特征聚类方法。
技术介绍
据中国互联网络信息中心(CNNIC)2018年3月发布的第41次《中国互联网络发展状况统计报告》显示,截至2017年12月,我国网络购物用户规模达到5.33亿人,较2016年增长14.3%,占网民总体的67.1%。手机网络购物用户规模达到5.06亿,同比增长14.7%,使用比例由63.4%增至67.2%。与此同时,网络零售继续保持高速增长,全年交易额达到71751亿元,同比增长32.2%,增速较2016年提高6个百分点。伴随着互联网技术的普及,电商产业发展迅猛,电商平台已经成为消费者购物的一个重要渠道。相比与传统的线下实体店销售,网上购物有如下几点优势:首先,省时、省力,在网上查找全部的商品,你只需要几分钟的时间就可以了,无需再去人群拥挤的大街上寻找,从累断双腿的逛街发展到鼠标操控的网络购物,而且只要你有确定的购买目标,在商城中稍加搜索就能直接找到,真是省时又省力啊;然后,商品种类齐全。有时候想买件东西,在各大商城里找了半天,几乎快要累死了也没有找到,或者需要东奔西跑,挑挑拣拣地比较,可是网上商城就用一个页面直观清晰地描述出这种产品的基本参数和数据,让你清晰地了解它的特性,并且网上商城里包括了几乎所有你能想到的东西,甚至零售业也在网上异军突起迅猛地发展,兴许你本无意的却找到了一件自己中意很久的东西。但是同样地也有弊端,网购商品充斥着假冒伪劣的商品,还有虚假宣传的现象,一不小心就容易就上当。而且当面对琳琅满目的商品时很容易造成选择困难,即使在目标明确的情况下。这是由于每款商品对产品特征宣传没有统一的形式,很容易对消费者造成干扰。现在大多数的产品特征的划分都是依据手机的部位或者功能进行划分,然后对产品进行宣传,缺失产品特征的整体定义。在消费者评论中会对产品特征进行评论,可以通过消费者评论提炼出产品特征,然后计算出每个产品特征之间的相似度,以相似度为基础,进行产品特征聚类,最后提炼出每个簇类的主题,依次类推就可以构建出产品特征的结构树。商家参考产品特征结构树,可以进行商品的精准宣传,提高成功的交易率;同时消费者也可以借鉴特征结构树,了解自己真正的购物需求,促进网络购物环境健康良好的发展。
技术实现思路
本专利技术所要解决的技术问题是:在电商平台中选择一款商品,对消费者评论文本信息进行爬取,由于爬取的信息为消费者评论文本,由于消费者评论存在“噪声”,需要对评论信息进行过滤爬取,对爬取得到的评论数据集进行分词和词性标注,为了提高分词的准确度,需要添加专有领域的新词以及停用词,确定组块的标记记号,然后依据组块标记的含义对分词的结果进行人工标注,利用lib-svm进行产品特征的提取,计算候选产品特征的tf-idf并观察给定阈值进行过滤,最终得到产品特征集合,计算产品特征集合中特征词的相似度,基于《同义词词林扩展版》语义相似度的计算和词向量向量化的余弦相似度计算,最后线性组合两种相似度最给出最终的相似度,以相似度矩阵作为聚类的距离矩阵,利用K-means++算法对产品特征集合进行聚类操作,根据聚类得到的簇类,结合产品特征词描述的特性,抽取出每个簇类的主题,作为产品特征的父节点,依次类推就可以构建出产品特征结构树。产品特征结构树可以为产品痛点分析、产品个性化推荐和产品特征情感分析提供重要参考依据。为此,本专利技术提出的一种基于线性组合器的产品特征结构树自动构建方法包括如下步骤:步骤S1:评论文本获取,选定天猫商城为评论源的电商平台,采用python语言编写爬虫程序,对天猫商城中产品信息进行爬取,主要爬取的信息为消费者评论文本,由于消费者评论存在“噪声”,需要对评论信息进行过滤爬取,过滤的原则:如果评论文本字数少于一定的阈值,则不爬取,以及重复的评论信息也不爬取,根据上述原则爬取后的最终数据,作为评论数据集;步骤S2:对所述步骤S1中得到的评论数据集进行预处理,主要分为两个方面,一方面是对评论文本信息进行分词,为了提高分词的准确度,需要添加专有领域的新词以及停用词,以及对分词进行词性标注,另一方面鉴于电商评论文本的独有的“口语化”、“流行化”和“碎片化”的评论特点,需要对分词和词性标注的结果进行人工校正;步骤S3:产品特征提取,利用所述步骤S2预处理后的评论文本数据,从汉语组块标记中,确定组块的标记记号,然后依据组块标记的含义对分词结果进行人工标注,将标注的结果划分为训练集、测试集和验证集,选择前后3窗口的词性和词位作为特征,利用lib-svm进行产品特征的提取,提取的结果中肯定存在不是产品特征的词,计算每个候选产品特征词的tf-idf并观察给定阈值进行过滤,最终得到产品特征集合;步骤S4:产品特征相似度计算,步骤S3得到的产品特征集合,需要计算每一个特征词与其余产品特征词相似度,第一种相似度计算方法为基于《同义词词林扩展版》语义相似度的计算,主要原理是根据已经构建的语义树,结合语义树的距离计算相似度,第二种相似度计算方法为词向量的余弦相似度,首先根据词向量对产品特征进行量化表示,这里选择维数为100维,然后根据余弦公式进行相似度计算,最后线性组合两种相似度为最终相似度;步骤S5:生成产品特征结构树,上述步骤S4得到产品特征之间的相似度矩阵,以相似度矩阵作为聚类的距离矩阵,利用K-means++算法对产品特征集合进行聚类操作,根据聚类得到的簇类,结合产品特征词描述特性,抽取出每个簇类主题,作为产品特征的父节点,依次类推就可以构建出产品特征结构树。本专利技术与现有技术对比的有益效果是:本专利技术提出了一种基于线性组合器的产品特征结构树自动构建方法,从评论文本信息中提取产品特征,相比于传统的产品特征来得更真实和更丰富,比较完整地描述产品的方方面面。结合基于《同义词词林扩展版》语义相似度计算和词向量量化的余弦相似度计算两种相似度计算方法,然对两种方法的相似度结果进行线性组合,确保相似度准确。最后,对产品特征进行自动的层次聚类出产品特征结构树,从客观分析出商品的产品特征树。对于卖家可以参照产品结构树进行商品的精确宣传,而对于消费者可以依据产品特征结构树进行目标明确的选购商品,促进网络购物的健康快速发展。附图说明图1是本专利技术具体实施方式中的一种基于线性组合器的产品特征结构树自动构建方法的流程示意图。具体实施方式为使本专利技术的目的、技术方案和优点清楚,下面将对本专利技术的具体实施方式进行清楚、完整的描述。如图1所示,为本具体实施方式中的一种改进的电商产品痛点分析方法的流程图。该方法包括:步骤S1:评论文本获取,选定天猫商城为评论源的电商平台,采用python语言编写爬虫程序,对天猫商城中产品信息进行爬取,主要爬取的信息为消费者评论文本,由于消费者评论存在“噪声”,需要对评论信息进行过滤爬取,过滤的原则:如果评论文本字数少于一定的阈值,则不爬取,以及重复的评论信息也不爬取,根据上述原则爬取后的最终数据,作为评论数据集;步骤S2:对所述步骤S1中得到的评论数据集进行预处理,主要分为两个方面,一方面是对评论文本信息进行分词,为了提高分词的准确度,需要添加专有领域的新词以及停用词,以及对分词进行词性标注,另一方面鉴于电本文档来自技高网
...

【技术保护点】
1.一种基于线性组合器的产品特征结构树自动构建方法,其特征是包括如下步骤:步骤S1:评论文本获取,选定天猫商城为评论源的电商平台,采用python语言编写爬虫程序,对天猫商城中产品信息进行爬取,主要爬取的信息为消费者评论文本,由于消费者评论存在“噪声”,需要对评论信息进行过滤爬取,过滤的原则:如果评论文本字数少于一定的阈值,则不爬取,以及重复的评论信息也不爬取,根据上述原则爬取后的最终数据,作为评论数据集;步骤S2:对所述步骤S1中得到的评论数据集进行预处理,主要分为两个方面,一方面是对评论文本信息进行分词,为了提高分词的准确度,需要添加专有领域的新词以及停用词,以及对分词进行词性标注,另一方面鉴于电商评论文本的独有的“口语化”、“流行化”和“碎片化”的评论特点,需要对分词和词性标注的结果进行人工校正;步骤S3:产品特征提取,利用所述步骤S2预处理后的评论文本数据,从汉语组块标记中,确定组块的标记记号,然后依据组块标记的含义对分词结果进行人工标注,将标注的结果划分为训练集、测试集和验证集,选择前后3窗口的词性和词位作为特征,利用lib‑svm进行产品特征的提取,提取的结果中肯定存在不是产品特征的词,计算每个候选产品特征词的tf‑idf并观察给定阈值进行过滤,最终得到产品特征集合;步骤S4:产品特征相似度计算,步骤S3得到的产品特征集合,需要计算每一个特征词与其余产品特征词相似度,第一种相似度计算方法为基于《同义词词林扩展版》语义相似度的计算,主要原理是根据已经构建的语义树,结合语义树的距离计算相似度,第二种相似度计算方法为词向量的余弦相似度,首先根据词向量对产品特征进行量化表示,这里选择维数为100维,然后根据余弦公式进行相似度计算,最后线性组合两种相似度为最终相似度;步骤S5:生成产品特征结构树,上述步骤S4得到产品特征之间的相似度矩阵,以相似度矩阵作为聚类的距离矩阵,利用K‑means++算法对产品特征集合进行聚类操作,根据聚类得到的簇类,结合产品特征词描述特性,抽取出每个簇类主题,作为产品特征的父节点,依次类推就可以构建出产品特征结构树。...

【技术特征摘要】
1.一种基于线性组合器的产品特征结构树自动构建方法,其特征是包括如下步骤:步骤S1:评论文本获取,选定天猫商城为评论源的电商平台,采用python语言编写爬虫程序,对天猫商城中产品信息进行爬取,主要爬取的信息为消费者评论文本,由于消费者评论存在“噪声”,需要对评论信息进行过滤爬取,过滤的原则:如果评论文本字数少于一定的阈值,则不爬取,以及重复的评论信息也不爬取,根据上述原则爬取后的最终数据,作为评论数据集;步骤S2:对所述步骤S1中得到的评论数据集进行预处理,主要分为两个方面,一方面是对评论文本信息进行分词,为了提高分词的准确度,需要添加专有领域的新词以及停用词,以及对分词进行词性标注,另一方面鉴于电商评论文本的独有的“口语化”、“流行化”和“碎片化”的评论特点,需要对分词和词性标注的结果进行人工校正;步骤S3:产品特征提取,利用所述步骤S2预处理后的评论文本数据,从汉语组块标记中,确定组块的标记记号,然后依据组块标记的含义对分词结果进行人工标注,将标注的结果划分为训练集、测试集和验证集,选择前后3窗口的词性和词位作为特征,利用lib-svm进行产品特征的提取,提取的结果中肯定存在不是产品特征的词,计算每个候选产品特征词的tf-idf并观察给定阈值进行过滤,最终得到产品特征集合;步骤S4:产品特征相似度计算,步骤S3得到的产品特征集合,需要计算每一个特征词与其余产品特征词相似度,第一种相似度计算方法为基于《同义词词林扩展版》语义相似度的计算,主要原理是根据已经构建的语义树,结合语义树的距离计算相似度,第二种相似度计算方法为词向量的余弦相似度,首先根据词向量对产品特征进行量化表示,这里选择维数为100维,然后根据余弦公式进行相似度计算,最后线性组合两种相似度为最终相似度;步骤S5:生成产品特征结构树,上述步骤S4得到产品特征之间的相似度矩阵,以相似度矩阵作为聚类的距离矩阵,利用K-means++算法对产品特征集合进行聚类操作,根据聚类得到的簇类,结合产品特征词描述特性,抽取出每个簇类主题,作为产品特征的父节点,依次类推就可以构建出产品特征结构树。2...

【专利技术属性】
技术研发人员:徐新胜余建浙
申请(专利权)人:中国计量大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1