基于评论中心词时序变化分析的消费热点追踪方法及装置制造方法及图纸

技术编号:11248627 阅读:45 留言:0更新日期:2015-04-01 21:30
一种基于评论中心词时序变化分析的消费热点追踪方法及装置,所述基于评论中心词时序变化分析的消费热点追踪方法,包括:获取具体目标商品评论中词汇的单次频度和重复频度,产生全局关键词汇集合;根据关键词的平均频度值,对关键词汇分类,得到全局的关键词汇分区集合;按时间分段进行统计分析,记录局部的关键词汇分区集合;根据全局的关键词汇分区集合和局部的关键词汇分区集合的变化信息,得出评论信息的兴趣点转移情况。从海量的电商评论数据中,结合自然语言处理技术以及统计概率方法,发现并跟踪买家对各类商品的消费热点,从而帮助卖家更有针对性地提供满足买家消费需求的商品,为买家提供更为专业的购物指导。

【技术实现步骤摘要】
【专利摘要】一种基于评论中心词时序变化分析的消费热点追踪方法及装置,所述基于评论中心词时序变化分析的消费热点追踪方法,包括:获取具体目标商品评论中词汇的单次频度和重复频度,产生全局关键词汇集合;根据关键词的平均频度值,对关键词汇分类,得到全局的关键词汇分区集合;按时间分段进行统计分析,记录局部的关键词汇分区集合;根据全局的关键词汇分区集合和局部的关键词汇分区集合的变化信息,得出评论信息的兴趣点转移情况。从海量的电商评论数据中,结合自然语言处理技术以及统计概率方法,发现并跟踪买家对各类商品的消费热点,从而帮助卖家更有针对性地提供满足买家消费需求的商品,为买家提供更为专业的购物指导。【专利说明】基于评论中心词时序变化分析的消费热点追踪方法及装置
本专利技术涉及一种互联网领域的热点处理技术,尤其是一种基于评论中心词时序变 化分析的消费热点追踪方法及装置。
技术介绍
随着通讯设备和技术的更新,以及计算机网络在电子商务、电子政务、娱乐、生活 等方面的普及,网络的社交性越来越明显。在日常生活中,人们花费越来越多的时间在网络 上进行交流,相互交易。其中的网络评论反映着已完成交易买家各自的购物诉求也影响着 正在交易买家的购物选择。 如今在各大电商网购平台上网络评论数量庞大,导致买家和卖家都难以在整体上 把握消费热点。但不管是卖家还是买家,都在一定程度上受到评论的影响。本专利的目的 就是要根据买家的评论中心词在时序上的变化,跟踪消费热点的变化。对于商品销售者而 言,他们可以及时获取当前买家的消费热点和消费倾向,从而更有针对性地提供商品和服 务;而对于买家来说,掌握已完成交易买家对此商品或服务的关注点,在选择商品或服务的 过程中会起到一定的辅助作用,从而避免被误导。因此如何在互联网中尤其是电商网购平 台的买家评论中发掘有意义和有价值的热点商品信息、以及有可能成为热点的商品信息变 得尤为重要。
技术实现思路
本专利技术的主要目的在于提供一种基于评论中心词时序变化分析的消费热点追踪 方法及装置,能够高效地在电商网购平台的买家评论中发掘、追踪有价值的热点商品信息。 为此,本专利技术实施例提供一种基于评论中心词时序变化分析的消费热点追踪方 法,包括: 获取具体目标商品评论中词汇的单次频度和重复频度,产生全局关键词汇集合; 根据关键词的平均频度值,对关键词汇分类,得到全局的关键词汇分区集合; 按时间分段进行统计分析,记录局部的关键词汇分区集合; 根据全局的关键词汇分区集合和局部的关键词汇分区集合的变化信息,得出评论 信息的兴趣点转移情况。 可选的,获取具体目标商品的词汇单次频度和重复频度后,计算词汇密度和相对 信息量以及词汇的权重值,列出全局关键词汇集合。 可选的,利用单次频度计算该词汇的相对信息量,利用重复频度计算该词汇的密 度,利用词语的相对信息量和密度,计算该词语的权重值,并以键值对的形式(关键词,权 重值)表示,并按照权重值的大小进行键值对排序,忽略掉键值对中权重值较小的键值对, 列出全局关键词汇集合。 可选的,利用Pareto法则,根据设定的频度阈值,得到全局A、B、C三区关键词集 合。 可选的,通过对不同时段的相关评价进行分段统计分析,记录各个时间段内局部 的关键词汇分区集合。 可选的,首先获取目标商品的评论信息对应的词汇集。 本专利技术实施例还提供了一种基于评论中心词时序变化分析的消费热点追踪装置, 包括: 关键词汇提取模块,获取具体目标商品评论中词汇的单次频度和重复频度,产生 全局关键词汇集合; 全局关键词汇统计模块,根据关键词的平均频度值,对关键词汇分类,得到全局的 关键词汇分区集合; 局部关键词汇统计模块,按时间分段进行统计分析,记录局部的关键词汇分区集 合; 热点比较模块,根据全局的关键词汇分区集合和局部的关键词汇分区集合的变化 信息,得出评论信息的兴趣点转移情况。 可选的,还包括评论词汇抓取模块,获取目标商品的评论信息对应的词汇。 可选的,获取具体目标商品的词汇单次频度和重复频度后,利用单次频度计算该 词汇的相对信息量,利用重复频度计算该词汇的密度,利用词语的相对信息量和密度,计算 该词语的权重值,并以键值对的形式(关键词,权重值)表示,并按照权重值的大小进行键 值对排序,忽略掉键值对中权重值较小的键值对,列出全局关键词汇集合。 可选的,所述全局关键词汇统计模块利用Pareto法则,根据设定的频度阈值,得 到全局A、B、C三区关键词集合。 与现有技术相比,本专利技术至少具有如下技术效果: 本专利将从海量的电商评论数据中,结合自然语言处理技术以及统计概率方法, 发现并跟踪买家对各类商品的消费热点,从而帮助卖家更有针对性地提供满足买家消费需 求的商品,为买家提供更为专业的购物指导。 【专利附图】【附图说明】 图1为本专利技术实施例的基于评论中心词时序变化分析的消费热点追踪方法的流 程不意图; 图2为本专利技术实施例的基于评论中心词时序变化分析的消费热点追踪装置的结 构示意图。 【具体实施方式】 在下面的描述中阐述了很多具体细节以便于充分理解本专利技术。但是本专利技术能够以 很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况 下做类似推广,因此本专利技术不受下面公开的具体实施例的限制。 本专利技术实施例首先提供了一种基于评论中心词时序变化分析的消费热点追踪方 法的流程示意图,请参考图1,包括: 步骤S101,获取目标商品的评论信息对应的词汇集; 步骤S102,获取具体目标商品评论中词汇的单次频度和重复频度,产生全局关键 词汇集合; 步骤S103,根据关键词的平均频度值,对关键词汇分类,得到全局的关键词汇分区 集合; 步骤S104,按时间分段进行统计分析,记录局部的关键词汇分区集合; 步骤S105,根据全局的关键词汇分区集合和局部的关键词汇分区集合的变化信 息,得出评论信息的兴趣点转移情况。 下面以手机的电商评论信息为例,对本专利技术技术方案进行说明。 具体的,执行步骤S101,获取目标商品的评论信息对应的词汇集。 首先获取电商平台中对应领域(手机领域)的评论信息,通过自动分词的方式或 人工分词的方式对所有的评论信息进行分词。然后通过算法或人工判定,根据词性简单过 滤掉无关的连接词,对过滤后剩下的词语以词汇聚合的形式记录为 M = Im1, m2, m3,…,mn}。 执行步骤S102,获取具体目标商品评论中词汇的单次频度和重复频度,产生全局 关键词汇集合。 根据上述方法分析具体目标商品(某一款某一型号的手机)的评论信息,针对具 体目标商品的评论词汇集合表示为M1 (含有Ii1个词汇),其中M1 ^M。统计具体目标商品 的评论词汇的单次频度和重复频度,单次频度是出现词语Hii的评论数,不超过N,N为所分 析的全部评论数;重复频度指的是词语叫在所分析的全部评论数中的出现次数,利用单次 频度计算该词汇的相对信息量,此处相对信息量的计算与常规信息量计算不同,区别在于 样本数仅限于所分析的N条评论,而非所有出现词语Hli的评论集合,利用重复频度计本文档来自技高网
...
基于评论中心词时序变化分析的消费热点追踪方法及装置

【技术保护点】
一种基于评论中心词时序变化分析的消费热点追踪方法,其特征在于,包括:获取具体目标商品评论中词汇的单次频度和重复频度,产生全局关键词汇集合;根据关键词的平均频度值,对关键词汇分类,得到全局的关键词汇分区集合;按时间分段进行统计分析,记录局部的关键词汇分区集合;根据全局的关键词汇分区集合和局部的关键词汇分区集合的变化信息,得出评论信息的兴趣点转移情况。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐斌
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1