网购评论的分析处理方法技术

技术编号:9113402 阅读:145 留言:0更新日期:2013-09-05 02:34
本发明专利技术公开了一种网购评论的分析处理方法,其特征在于,包括:从某商品的网购评论中提取出的观点词和特征词,将所述观点词和特征词组成特征观点对;根据提取出的所述观点词确定所述观点词的情感倾向;根据情感倾向和特征观点对,计算出每个特征在该商品上的情感分布函数v,以及每个特征在该商品所属小类上的情感分布函数vC;根据v和vC的偏差得到该商品上不同特征词的分数,将分数值最高和/或最低的多个特征词作为该商品的优缺点评论。本发明专利技术采用评论的平均值偏差理论,实现有效筛选出对用户最有参考价值的商品评论观点;同时还可直接筛选出用户最关心的商品有别于其他同类商品的优点和缺点,极大增加了参考信息的价值。

【技术实现步骤摘要】
网购评论的分析处理方法
本专利技术涉及网络
,具体地说,是涉及一种网购评论的分析处理方法。
技术介绍
随着信息技术的进一步发展,互联网已经成为当今社会人们获取信息的重要渠道。互联网快捷、方便的特性,以及强大的交互能力,为人们交流思想、阐明观点、发表意见提供了新的平台。由于受到互联网迅猛发展的影响,一个崭新的领域应运而生----电子商务。电子商务是在全球各地广泛的商业贸易活动中,在互联网开放的网络环境下,基于浏览器或服务器应用方式,买卖双方不谋面地进行各种商贸活动,实现消费者的网上购物、商户之间的网上交易和在线电子支付以及各种商务活动、交易活动、金融活动和相关的综合服务活动的一种新型的商业运营模式。正因为电子商务是不谋面的商贸活动,所交易的商品并不能直观地展现在购买者面前,只能以文字描述或图片的形式展现,所以当人们通过网络购物后,会对所购买的商品做出评价,从而反映出商品的质量好坏、商品特征或实用性等信息,这样的评价对其他的购买者有着重要的参考作用。在现有技术中,为了方便购物者获得商品的客观的评价信息,往往采用特定的评论分析方法,但是,当前的评论分析方法只是仅仅针对评论的自然语言本身进行处理。举例来说,某些商品的评论并不能突出地反应该商品的特性信息,如“暂时还没有发现任何缺点”,这样的评论不能明显的看出商品的好坏、实用性等信息,所以,单从评论的自然语言本身进行分析处理,并不能筛选出对用户最有参考价值的商品评论观点。因此,如何筛选出对用户最有参考价值的商品评论观点,便成为亟待解决的技术问题。
技术实现思路
本专利技术所要解决的技术问题是提供一种网购评论的分析处理方法,以解决现有技术中评论分析方法对评论的自然语言本身进行分析处理,无法达到筛选出对用户最有参考价值的商品评论观点。为解决上述技术问题,本专利技术提供了一种网购评论的分析处理方法,其特征在于,包括:从某商品的网购评论中提取出的观点词和特征词,将所述观点词和特征词组成特征观点对;根据提取出的所述观点词确定所述观点词的情感倾向;根据所述情感倾向和所述特征观点对,计算出每个特征在该商品上的情感分布函数v,以及每个特征在该商品所属小类上的情感分布函数vC;根据v和vC的偏差得到该商品上不同特征词的分数,将分数值最高和/或最低的多个特征词作为该商品的优缺点评论。优选地,其中,所述从某商品的网购评论中提取出的观点词和特征词,进一步为:对某商品的网购评论中以形容词为主出现的词汇的比例和频率进行统计,将统计值最高的一个或多个词汇作为观点词,以及通过设置的条件从某商品的网购评论中选取出以名词为主的词汇进行统计,将统计值最高的一个或多个词汇作为特征词。优选地,其中,所述通过设置的条件从某商品的网购评论中选取出以名词为主的词汇进行统计,将统计值最高的一个或多个词汇作为特征词,进一步为:从某商品的网购评论中的选取出名词或词组为主的词汇,计算每个词汇在该商品所在小类的支持度值,以及该小类所属大类的支持度值;通过设置的条件将符合条件的名词或词组为主的词汇作为特征词。优选地,其中,所述通过设置的条件将符合条件的名词或词组为主的词汇作为特征词,进一步包括:通过设置的最低小类的支持度的阈值、最低大类的支持度的阈值、以及停用词表,判断选取出的名词或词组为主的词汇在该商品所在小类的支持度值是否大于最低小类的支持度的阈值,或者,判断选取出的名词或词组为主的词汇在该商品所在小类所属大类的支持度值是否大于最低大类的支持度的阈值,当上述条件之一满足时,判断该名词或词组为主的词汇是否出现在所述停用词表中,如没有出现,则将该名词或词组为主的词汇作为特征词。优选地,其中,所述根据提取出的所述观点词确定所述观点词的情感倾向,进一步为:根据设置所述观点词的情感倾向向量,对提取出的所述观点词确定其情感倾向值,如该观点词的情感倾向值高于设置的判断方向值,且通过否定词表中的否定词并没有出现在该观点词前/后时,则该观点词的情感倾向为正向;如低于设置的的判断方向值,或通过否定词表中的否定词判断出在该观点词前/后出现时,则该观点词的情感倾向为负向。优选地,其中,所述根据v和vC的偏差得到该商品上不同特征词的分数,进一步为:根据v和vC的偏差通过1-cos(v,vC)的方式得到该商品上不同特征词的分数。优选地,其中,进一步为:根据v和vC的偏差通过(1-cos(v,vC))*log2(pos+neu+neg+1)的方式得到该商品上不同特征词的分数。与现有技术相比,本专利技术所述的一种网购评论的分析处理方法,达到了如下效果:1)本专利技术采用评论的平均值偏差理论,实现有效筛选出对用户最有参考价值的商品评论观点。2)本专利技术可直接筛选出用户最关心的商品有别于其他同类商品的卖点(优点)和缺点,极大增加了参考信息的价值。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术实施例所述的一种网购评论的分析处理方法的流程示意框图。具体实施方式如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本专利技术的较佳实施方式,然所述描述乃以说明本专利技术的一般原则为目的,并非用以限定本专利技术的范围。本专利技术的保护范围当视所附权利要求所界定者为准。以下结合附图对本专利技术作进一步详细说明,但不作为对本专利技术的限定。如图1所示,是本专利技术实施例所述的一种网购评论的分析处理方法流程,包括:步骤101,从某商品的网购评论中提取出的观点词和特征词,将所述观点词和特征词组成特征观点对;步骤102,根据提取出的所述观点词确定所述观点词的情感倾向;步骤103,根据所述情感倾向和所述特征观点对,计算出每个特征在该商品上的情感分布函数v(v=<pos,neu,neg>;其中pos、neu、neg、分别表示该特征在好评、中评、差评中被提及次数的期望值),以及每个特征在该商品所属小类上的情感分布函数vC(vC=<posC,neuC,negC>);步骤104,根据v和vC的偏差(本专利技术实际上采用的是平均值偏差理论来操作)得到该商品上不同特征词的分数(该特征词的分数也就是属性分数,后续不再赘述),将分数值最高和/或最低的多个特征词作为该商品的优缺点评论。其中,进一步地,对于步骤101来说,其中从某商品的网购评论中提取出的观点词和特征词,这一过程具体为:对某商品的网购评论中以形容词为主出现的词汇的比例和频率进行统计,将统计值最高的一个或多个词汇作为观点词,以及通过设置的条件从某商品本文档来自技高网...
网购评论的分析处理方法

【技术保护点】
一种网购评论的分析处理方法,其特征在于,包括:从某商品的网购评论中提取出的观点词和特征词,将所述观点词和特征词组成特征观点对;根据提取出的所述观点词确定所述观点词的情感倾向;根据所述情感倾向和所述特征观点对,计算出每个特征在该商品上的情感分布函数v,以及每个特征在该商品所属小类上的情感分布函数vC;根据v和vC的偏差得到该商品上不同特征词的分数,将分数值最高和/或最低的多个特征词作为该商品的优缺点评论。

【技术特征摘要】
1.一种网购评论的分析处理方法,其特征在于,包括:从某商品的网购评论中提取出的观点词和特征词,将所述观点词和特征词组成特征观点对;根据提取出的所述观点词确定所述观点词的情感倾向,其中,设置所述观点词的情感倾向向量(A)为A=<#pos,#neu,#neg>/<#pos+#neu+#neg>,#pos代表好评数量,#neu代表中评数量,#neg代表差评数量,根据设置所述观点词的情感倾向向量,对提取出的所述观点词确定其情感倾向值,如该观点词的情感倾向值高于设置的判断方向值,且通过否定词表中的否定词并没有出现在该观点词前/后时,则该观点词的情感倾向为正向;如低于设置的判断方向值,或通过否定词表中的否定词判断出在该观点词前/后出现时,则该观点词的情感倾向为负向;其中,所述否定词表中的否定词的初始设置,是通过把所有观点词的前一个词都收集出来,作为候选否定词,对于每个候选否定词,计算其平均否定强度,并按这个值排序,从平均否定强度比较高的否定词中挑出作为否定词表的否定词;根据所述情感倾向和所述特征观点对,计算出每个特征在该商品上的情感分布函数v,以及每个特征在该商品所属小类上的情感分布函数vC;根据v和vC的偏差得到该商品上不同特征词的分数,将分数值最高和/或最低的多个特征词作为该商品的优缺点评论。2.如权利要求1所述的网购评论的分析处理方法,其特征在于,所述从某商品的网购评论中提取出的观点词和特征词,进一步为:对某商品的网购评论中以形容词为主出现的词汇的比例和频率进行统计,将统计值最高的一个或多个词汇作为观点词,以及通过设置的条件从某商品的网购评论中选取出以名词为主的词汇进行...

【专利技术属性】
技术研发人员:许大伦毛颖张立群
申请(专利权)人:北京尚友通达信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1