【技术实现步骤摘要】
本专利技术涉及计算机及互联网
,具体涉及一种用于检测偏离用户的方法和装置。
技术介绍
随着互联网技术的发展,门户网站、论坛、微博、微信等社交网络平台已成为人们获取和分享信息和资源的越来越重要的途径,且已发展成为一种虚拟的社会形态。在各种社交网络平台上,人们会针对各种主题(例如,某种产品等)发表各种评论,这些评论对于全面了解和评估该主题的各方面具有重要意义。然而,在网络上也存在许多偏离用户评论,这些偏离用户评论或者是对某个主题的某个方面有着偏离主流的想法,因而不顾及该主题的其他方面;或者属于网络“水军”,他们通常受雇于人,出于营销或不正当竞争等特定目的,发表大量非正常评论来控制舆论。因此,如何从网络上的大量评论中排除偏离用户的评论,获得更为理性和客观的用户评论,以有助于获得对特定主题的更理性和客观的了解,是一个需要解决的问题。
技术实现思路
在本专利技术的一个方面,提供了一种用于检测偏离用户的方法,包括:获取标准用户和待检测用户针对给定主题的评论;根据标准用户和待检测用户针对给定主题的评论分别计算标准用户和待检测用户对于给定主题的各属性维度的评分,从而分别将标准用户和待检测用户映射到由多个属性维度构成的多维空间中,其中属性维度反映给定主题的方面;根据待检测用户与标准用户在多维空间中分布的相似性来判断待检测用户是否是偏离用户。在本专利技术的另一个方面,提供了一种用于检
【技术保护点】
一种用于检测偏离用户的方法,包括:获取标准用户和待检测用户针对给定主题的评论;根据标准用户和待检测用户针对给定主题的评论分别计算标准用户和待检测用户对于给定主题的各属性维度的评分,从而分别将标准用户和待检测用户映射到由多个属性维度构成的多维空间中,其中属性维度反映给定主题的方面;以及根据待检测用户与标准用户在多维空间中分布的相似性来判断待检测用户是否是偏离用户。
【技术特征摘要】
1.一种用于检测偏离用户的方法,包括:
获取标准用户和待检测用户针对给定主题的评论;
根据标准用户和待检测用户针对给定主题的评论分别计算标
准用户和待检测用户对于给定主题的各属性维度的评分,从而分
别将标准用户和待检测用户映射到由多个属性维度构成的多维空
间中,其中属性维度反映给定主题的方面;以及
根据待检测用户与标准用户在多维空间中分布的相似性来判
断待检测用户是否是偏离用户。
2.根据权利要求1的方法,其中,所述根据待检测用户与标
准用户在多维空间中分布的相似性来判断待检测用户是否是偏离
用户包括:
在所述多维空间中分别将标准用户和待检测用户进行聚类;
对于每一个待检测用户聚类,计算其聚类中心距每个标准用
户聚类的聚类中心的距离;以及
响应于计算一待检测用户聚类的聚类中心距每个标准用户聚
类的聚类中心的距离均大于指定阈值,判断该待检测用户聚类属
于偏离用户聚类。
3.根据权利要求2的方法,还包括:
响应于计算一待检测用户聚类的聚类中心距一标准用户聚类
的聚类中心的距离小于指定阈值,判断该待检测用户聚类属于该
标准用户聚类。
4.根据权利要求1的方法,其中,所述根据标准用户和待检
测用户针对给定主题的评论分别计算标准用户和待检测用户对于
给定主题的各属性维度的评分,从而分别将标准用户和待检测用
户映射为由反映给定主题的多个方面的多个属性维度构成的多维
空间中包括:
建立评价词数据库,并赋予数据库中的评价词以分数;
确定用户评论涉及的给定主题的属性维度;
将用户评论进行评价词切分,从而获得构成该评论的一个或
多个评价词;
对于构成该评论的一个或多个评价词分别赋予不同权重;
将属于相同属性维度的所述一个或多个评价词的分数乘以其
权重后相加,从而获得该用户评论针对给定主题的该属性维度的
评分。
5.根据权利要求4的方法,其中,所述根据标准用户和待检
测用户针对给定主题的评论分别计算标准用户和待检测用户对于
给定主题的各属性维度的评分,从而分别将标准用户和待检测用
户映射为由反映给定主题的多个方面的多个属性维度构成的多维
空间中还包括:
构成矩阵,该矩阵的每一列代表一个用户,每一行代表一个
属性维度,每个元素代表相应用户针对给定主题的相应属性维度
的评分;<...
【专利技术属性】
技术研发人员:张超,严骏驰,丁建栋,龚旻,张亚楠,王瑜,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。