一种识别用户评论的方法及装置制造方法及图纸

技术编号:10022028 阅读:157 留言:0更新日期:2014-05-09 03:42
本发明专利技术实施例公开了一种识别用户评论的方法及装置,该方法包括:获取N条目标用户评论,提取发表目标用户评论的用户ID,目标用户评论包含的字符个数,以及目标用户评论的前M个字符,用户ID为固定位数的、数值格式的用户标识码,N>1,M>1;根据key=A/10K+B+C,计算对应N条目标用户评论的N个key值,并记录N个key值中各key值出现的次数,A为发表目标用户评论的用户ID,B为目标用户评论包含的字符个数,C为目标用户评论的前M个字符的、数值格式的编码值,K为预设数值,0≤K<用户ID的位数;判断各key值出现的次数是否达到预设值,将出现次数达到预设值的key值对应的目标用户评论确定为变种重复评论,操作步骤简单、计算量小,对用户评论的识别效率较高。

【技术实现步骤摘要】
一种识别用户评论的方法及装置
本专利技术涉及互联网应用
,特别涉及一种识别用户评论的方法及装置。
技术介绍
随着互联网技术的发展,网络为人们的学习、工作提供了极大便捷,用户可以通过网络对音/视频、社区上的内容或论坛上的内容,发表自己的见解,实现与其他用户的交流互动,例如,在论坛上用户回复其他用户提出的问题,或推荐给其他用户一些有价值的资料;用户也可以通过网络浏览其他用户的发表的内容,获取自身需要的内容。然而,一些恶意用户会通过网络对音/视频、微博、社区或论坛等的内容,发表内容重复的评论,例如“不错啊”、“不错啊”、“不错啊”、“不错啊”;通常情况下,恶意用户会利用机器在网络上发表一些变种重复评论,这些变种重复评论的形式一般为:用户ID(Identification,标识码)递增、评论的长度一致、但内容在结尾变化,例如,“好看!wert”、“好看!gyui”、“好看!gyji”、“好看!jwer”、“好看!zmop”,等等。这些变种的重复评论会妨碍其他用户对其他正常评论的阅读。目前已存在一种通过模式匹配来识别用户评论的方法,该方法通过最长公共子序列算法,将每一条用户评论与预先存储的变种重复评论进行匹配,若用户评论与预先存储的变种重复评论中的任意一条变种重复评论的公共子序列包含的字符的数量达到预设值时,(用户可以根据实际情况,自行设定预设值),则判断该用户评论为变种重复评论。然而,由于上述方法需用户评论与预先存储的变种重复评论进行逐条匹配,匹配过程计算量较大,对用户评论的识别效率较低。
技术实现思路
为达到上述目的,本专利技术实施例公开了一种识别用户评论的方法及装置,以达到相对高效识别用户评论类型的目的。具体技术方案如下:一种识别用户评论的方法,该方法包括:获取N条目标用户评论,提取发表所述目标用户评论的用户的ID,所述目标用户评论包含的字符个数,以及所述目标用户评论的前M个字符,其中,所述用户的ID为固定位数的、数值格式的用户标识码,N>1,M>1;根据key=A/10K+B+C,计算对应所述N条目标用户评论的N个key值,并记录所述N个key值中各key值出现的次数,其中,A为发表所述目标用户评论的用户的ID,B为所述目标用户评论包含的字符个数,C为所述目标用户评论的前M个字符的、数值格式的编码值,K为预设数值,且0≤K<用户的ID的位数;判断所述各key值出现的次数是否达到预设值,将出现次数达到预设值的key值对应的目标用户评论确定为变种的重复评论。一种识别用户评论的装置,该装置包括:提取模块,用于获取N条目标用户评论,并提取发表所述目标用户评论的用户的ID,所述目标用户评论包含的字符个数,以及所述目标用户评论的前M个字符,其中,所述用户的ID为固定位数的、数值格式的用户标识码,N>1,M>1;计算模块,用于根据key=A/10K+B+C,计算对应所述N条目标用户评论的N个key值,并记录所述N个key值中各key值出现的次数,其中,A为发表所述目标用户评论的用户的ID,B为所述目标用户评论包含的字符个数,C为所述目标用户评论的前M个字符的、数值格式的编码值,K为预设数值,且0≤K<用户的ID的位数;判断模块,用于判断所述各key值出现的次数是否达到预设值,将出现次数达到预设值的key值对应的目标用户评论确定为变种的重复评论。应用上述技术方案,本专利技术通过提取发表所述目标用户评论的用户的ID、所述目标用户评论包含的字符个数,以及所述目标用户评论的前M个字符,根据key值计算公式得到对应所述N条目标评论的N个key值,根据所述N个key值中各个key值出现的次数,确定所述目标用户评论的类别。与现有技术相比,操作方便、步骤简单、计算量很小,对用户评论的识别效率较高。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种识别用户评论的方法的流程图;图2为本专利技术实施例提供的另一种识别用户评论的方法的流程图;图3为本专利技术实施例提供的一种识别用户评论的装置的结构示意图;图4为本专利技术实施例提供的另一种识别用户评论的装置的结构示意图。具体实施方式首先对本专利技术实施例所提供的一种识别用户评论方法进行说明,该方法可以包括以下步骤:获取N条目标用户评论,提取发表所述目标用户评论的用户的ID、所述目标用户评论包含的字符个数,以及所述目标用户评论的前M个字符,其中,所述用户的ID为固定位数的、数值格式的用户标识码,N>1,M>1;根据key=A/10K+B+C,计算对应所述N条目标用户评论的N个key值,并记录所述N个key值中各key值出现的次数,其中,A为发表所述目标用户评论的用户的ID,B为所述目标用户评论包含的字符个数,C为所述目标用户评论的前M个字符的、数值格式的编码值,K为预设数值,0≤K<用户的ID的位数;判断所述各key值出现的次数是否达到预设值,将出现次数达到预设值的key值对应的目标用户评论确定为变种的重复评论。与现有技术相比,提取发表目标用户评论的用户的ID、目标用户评论包含的字符个数和目标用户评论的前M个字符的操作十分简单、key值的计算量很小,本专利技术方法对用户评论的识别效率较高。为了使本领域技术人员更好地理解本专利技术中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面通过具体实施例,对本专利技术进行详细说明。图1所示,为本专利技术实施例所提供的一种识别用户评论的方法的流程图,该方法可以包括以下步骤:S101,获取N条目标用户评论,提取发表所述目标用户评论的用户的ID,所述目标用户评论包含的字符个数,以及所述目标用户评论的前M个字符,其中,所述用户的ID为固定位数的、数值格式的用户标识码,N>1,M>1。在本专利技术实施例中,“目标用户评论”是指来自用户或机器的、对论坛上、社区上及视频等内容的回复和评价,例如,考研论坛上一个推荐政治书的帖子“XXX参考书帮你在30天内突破考研政治”,一位网友的回复是“这本书重点很突出,内容设计很具有针对性,非常适合考研的童鞋们,值得推荐!”;恶意程序对“疯狂原始人”这一视频发表类似“非常不错!fyun”、“非常不错!ytjm”、“非常不错!iuop”、“非常不错!wrop”、“非常不错!gymo”的多条评价。可以理解的是,用户评论可以是对论坛上、社区上及视频等内容的有价值回复和评价,或与主题内容毫无关联的回复和评价,本专利技术实施例对此不进行具体限制。在本专利技术实施例中,用户的ID是一连串数值格式的数字,它是用户上网时区别于其他用户的一个虚拟ID。例如,用户评论“不错!hujn”,用户的ID:1032101082;用户评论“不错!lopn”,用户的ID:1032101086;用户评论“不错!ihno”,用户的ID:10321010本文档来自技高网...
一种识别用户评论的方法及装置

【技术保护点】

【技术特征摘要】
1.一种识别用户评论的方法,其特征在于,该方法包括:获取N条目标用户评论,提取发表所述目标用户评论的用户的ID,所述目标用户评论包含的字符个数,以及所述目标用户评论的前M个字符,其中,所述用户的ID为固定位数的、数值格式的用户标识码,N>1,M>1;根据key=A/10K+B+C,计算对应所述N条目标用户评论的N个key值,并记录所述N个key值中各key值出现的次数,其中,A为发表所述目标用户评论的用户的ID,B为所述目标用户评论包含的字符个数,C为所述目标用户评论的前M个字符的、数值格式的编码值,K为预设数值,且0≤K<用户的ID的位数;判断所述各key值出现的次数是否达到预设值,将出现次数达到预设值的key值对应的目标用户评论确定为变种的重复评论。2.根据权利要求1所述的方法,其特征在于,所述记录所述N个key值中各key值出现的次数,具体包括:逐个统计每种key值出现的次数,每遇到一种key值,则对该key值的出现次数进行加1处理,记录最终处理结果,其中,所述最终处理结果为各key值出现的次数。3.根据权利要求1所述的方法,其特征在于,所述出现次数符合预设值的key值的数量包括:一个,或多个。4.根据权利要求1所述的方法,其特征在于,该方法还包括:当所述各key值出现次数之和达到阈值时,清空所述各key值出现的次数。5.根据权利要求1所述的方法,其特征在于,所述变种的重复评论包括:发表用户评论的用户的ID递增、用户评论包含的字符个数一致、但内容在结尾变化的用户评论。6.一种识别用户评论的装置,其特征在于,该装置包括:...

【专利技术属性】
技术研发人员:郑伟华周寻傅一峰
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1