本发明专利技术公布一种产品受众特征抽取方法,该方法根据用户在网络上对一产品的评价内容、在微博上公开的个人信息和在微博上对该产品的关注信息与发言内容,通过统计计算抽取转化而获得该产品的受众特征,包括下述步骤:形成产品e的在线评论数据、形成产品使用者名称集合Ce、形成产品微博用户集合Ue和微博用户在每个属性上的取值ua和通过受众特征转化计算而获得产品受众特征。该方法尤其适用于从产品购买者的网络评价、产品用户在微博上的关注和发言以及产品用户公开的个人信息中,抽取出该产品受众的群体特征,具有直观自然、精确性高、拓展性强的特点。
【技术实现步骤摘要】
【专利摘要】本专利技术公布,该方法根据用户在网络上对一产品的评价内容、在微博上公开的个人信息和在微博上对该产品的关注信息与发言内容,通过统计计算抽取转化而获得该产品的受众特征,包括下述步骤:形成产品e的在线评论数据、形成产品使用者名称集合Ce、形成产品微博用户集合Ue和微博用户在每个属性上的取值ua和通过受众特征转化计算而获得产品受众特征。该方法尤其适用于从产品购买者的网络评价、产品用户在微博上的关注和发言以及产品用户公开的个人信息中,抽取出该产品受众的群体特征,具有直观自然、精确性高、拓展性强的特点。【专利说明】
本专利技术属于信息抽取系统领域,具体涉及,该方法尤其适用于从产品购买者的网络评价、产品用户在微博上的关注和发言以及产品用户公开的个人信息中,抽取出该产品受众的群体特征。
技术介绍
产品受众特征指的是适合该产品的使用者或喜好该产品的消费者群体特征。产品受众特征的抽取可应用到产品规划、生产、升级、营销推广等一系列产品活动中,例如可根据抽取出的产品受众特征有针对性地对消费者进行产品推荐等。现有技术中,一是采用电子问卷调查技术,让用户填写个人信息及对产品的喜好程度。回收调查问卷后统计得到产品受众特征(us demographic and business summarydata.Productguide, 2012),但这种方法需要足够多的用户进行问卷调查,费时费力;而且一张问卷涉及到的产品个数有限,只能限制于小量产品集。第二种方法是由电子商城提供注册用户完善个人信息的服务,再通过用户购买记录,设定购买的产品即是用户喜好的产品,从而统计得到产品受众特征(Michael Giering.Retail sales prediction anditemrecommendationsusing customer demographics atstore level.SIGKDD Explor.Newsl.,10 (2),December2008)。这种方法也存有不足,一方面由于电子商城的用户中完善个人信息的过少而导致数据过于稀疏而无法得到正确结果;而且仅从购买记录得到的产品受众特征过于片面;此外,电子商城的购买记录和购买者个人信息一般不公开,对他人而言依赖的数据难以获取。
技术实现思路
为解决上述现有技术存在的问题,本专利技术以用户在网络上对产品的评价、在微博上公开的个人信息以及与产品相关的关注、发言等行为作为数据来源,通过统计计算抽取转化成产品受众特征。本专利技术能够结合产品在网络上的在线评论信息和微博媒体信息提取出属性丰富的产品受众特征,并且具有直观自然、精确性高、拓展性强的特点。本专利技术提供,其技术方案是:,该方法根据用户在网络上对一产品的评价内容、在微博上公开的个人信息和在微博上对该产品的关注信息与发言内容,通过统计计算抽取转化而获得该产品的受众特征,包括下述步骤:第一步:所述产品设为e,从网络上收集用户对所述产品e发表的评价信息,形成e的在线评论数据;第二步:对e的在线评论数据通过评论信息统计,获得包含产品使用者名称和使用者频数的产品评论统计信息,形成产品使用者名称集合,设为Ce ;第三步:通过关键词过滤方法从网络上得到包含e的微博、包含e的品牌或公司的微博和上述两类微博的用户个人信息,所述用户个人信息包括多个属性;第四步:通过微博信息统计,形成产品微博用户集合,设为Ue ;品牌或公司微博用户集合,设为和微博用户在每个属性上的取值,设为Ua ;第五步:根据CpUe和%6,通过受众特征转化计算,获得产品受众特征。上述产品受众特征抽取方法中,第二步所述评论信息统计具体为以下过程:首先,设定所述e的产品使用者名称为C,设定一个句式集合为D,D由人工生成且满足c代入D中的每一个句式均能形成一句有意义的话;通过正则表达式匹配法,统计e的在线评论数据中满足D的产品使用者名称,由此形成(;;其次,通过统计上述(;中每个使用者名称在e的在线评论数据中出现的次数,设为tf。;设定一个阈值,过滤掉tf。小于该阈值的使用者名称;再人工判断每一个使用者名称是否合理,去掉不合理的C,最终形成Ce。具体地,第四步所述微博信息统计为以下过程:首先,通过情感分析方法判断所述包含e的微博的正负面情绪,只统计正面情绪的微博的发表用户,形成Ue ;通过同样方法统计具有正面情绪的包含e的品牌或公司的微博的发表用户,形成其次,通过品牌或公司开设的官方微博账号,该官方微博账号为一个或多个,来统计关注各官方微博账号的用户,加入Re中;再次,通过Ue和^^中的微博用户的“个人资料”页面,获取每个微博用户公开的包括多个属性的个人信息,通过统计获得各个用户在每个属性上的取值。其中,第五步所述受众特征转化计算具体为,首先分别将C;、Ue和We中的每一个元素映射到由多个属性构成的特征空间,再分别通过估计方法,得到三种来源的产品受众在各个属性上的属性概率分布;通过将所述三种来源的产品受众在相同属性上的属性概率分布进行线性加权综合或单独使用,从而获得产品受众在各个属性上的特征。本专利技术的有益效果:本专利技术提供,该方法尤其适用于从产品购买者的网络评价、产品用户在微博上的关注和发言以及产品用户公开的个人信息中,抽取出该产品受众的群体特征,该方法直观自然、精确性高且拓展性强。本专利技术具有如下特点和有益效果:一、通过结合网络在线评论信息和微博媒体信息,得到属性丰富的产品受众特征;二、采用概率分布表示受众特征的取值,使得抽取出的产品受众特征更为精确合理;三、使用用户的个人特征空间表示产品受众特征,得到的特征有直观自然的解释;四、容易拓展到其他网络社会媒体,有利于该方法的推广应用。【专利附图】【附图说明】图1为本专利技术的方法流程示意图。【具体实施方式】下面结合附图和具体实施例,对本专利技术作进一步详细说明,但不以任何方式限制本专利技术的范围。本专利技术提供的产品受众特征抽取方法,是基于用户在对已购买产品评价时可能暴露产品使用者身份和用户在微博上可能通过关注、发言等行为表达对某产品的兴趣的事实。本专利技术以用户在网络上对产品的评价、在微博上公开的个人信息以及与产品相关的关注、发言等行为作为数据来源,通过统计计算抽取转化成产品受众特征。本专利技术提供的产品受众特征抽取方法,主要包括评论信息统计、微博信息统计和受众特征转化计算这些步骤,其过程如图1所示。第一步:评论信息统计用户在网络上够买产品之后,可以对该产品进行评价,发表的内容可能暴露产品使用者的身份,比如“给妻子买的”、“适合老年人使用”。这些评价构成该产品的在线评论数据。在本专利技术中,人工定义句式集合D,例如“给c买的”、“适合c使用”,其中c是潜在的使用者名称。给定产品e和它的相关评论数据,通过正则表达式匹配法,统计评论中的相关信息。可统计的信息如下:I)使用者名称统计产品e的评论中满足D中句式的使用者名称C,并形成集合C;。2)使用者频数统计Ce中每个使用者名称c在e的评论中出现的次数tfc。`过滤掉tf。小于一定阈值的c ;再人工判断每一个c是否合理,去掉不合理的C,形成产品潜在使用者名称的最终集合C;。第二步:微博信息统计微博社交媒体上有如下事实:fI)微博用户在微博上可能公开自身的个人信息。f2)若用户喜好某产品,可能发表微博对该本文档来自技高网...
【技术保护点】
一种产品受众特征抽取方法,其特征是,所述方法根据用户在网络上对一产品的评价内容、在微博上公开的个人信息和在微博上对该产品的关注信息与发言内容,通过统计计算抽取转化而获得该产品的受众特征,包括下述步骤:第一步:所述产品设为e,从网络上收集用户对所述产品e发表的评价信息,形成e的在线评论数据;第二步:对e的在线评论数据通过评论信息统计,获得包含产品使用者名称和使用者频数的产品评论统计信息,形成产品使用者名称集合,设为Ce;第三步:通过关键词过滤方法从网络上得到包含e的微博、包含e的品牌或公司的微博和上述两类微博的用户个人信息,所述用户个人信息包括多个属性;第四步:通过微博信息统计,形成产品微博用户集合,设为Ue;品牌或公司微博用户集合,设为和微博用户在每个属性上的取值,设为ua;第五步:根据Ce、Ue和通过受众特征转化计算,获得产品受众特征。
【技术特征摘要】
【专利技术属性】
技术研发人员:李晓明,赵鑫,过岩巍,闫宏飞,
申请(专利权)人:北京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。