The invention provides a method and device for identifying the type of Machine Forum, which relates to the technical field of network. The method obtains the raw data of all user behavior characteristics in the forum, and uses the user's interactive response data to identify the users other than the filtering condition. The posting frequency of any user in the recognition group in the same minute is calculated, and the users whose posting frequency is greater than the first preset threshold are recorded. Based on the identified group, users who have a preset frequency of more than second in the same minute are mined. The posting frequency is greater than the first preset threshold and frequency of users appear in the same minutes more than second preset threshold users recorded as machine type \. The invention can reduce the data processing through the screening of forum users, which can identify the machine type Navy fast; data generalization and recognition in the process of obtaining good, suitable for use in various forums.
【技术实现步骤摘要】
机器型论坛水军的识别方法及装置
本专利技术涉及网络
,具体涉及一种机器型论坛水军的识别方法及装置。
技术介绍
过滤掉互联网各大论坛中的虚假评论是一个非常重要且复杂的问题。不同的产品论坛定位于服务不同的受众群体,但最终都离不开方便用户交流和为企业提供了解真实用户反馈信息的目的。同时,论坛也具有不易被察觉的产品营销推广功能和攻击竞品的恶意宣传功能。目前,由论坛水军产生的大量虚假评论是用户参考论坛相关信息和企业获取真实用户反馈的最大障碍。其中机器型水军主要负责论坛的回帖任务,通过有引导目的的提问或有明显产品倾向的回复内容潜移默化中引导用户的认知,且不易被识别。
技术实现思路
针对现有技术的不足,本专利技术提供了一种机器型论坛水军的识别方法及装置,解决了机器型水军不易被快速识别的问题。为实现以上目的,本专利技术通过以下技术方案予以实现:根据本专利技术的第一方面提供一种机器型论坛水军的识别方法,包括:步骤A、获取论坛内所有用户行为特征的原始数据,基于用户的交互回应数据将符合过滤条件之外的用户作为识别群体,其中,所述交互回应数据为用户回复已有的回复贴的回复数据;步骤B、计算 ...
【技术保护点】
一种机器型论坛水军的识别方法,其特征在于,包括:步骤A、获取论坛内所有用户行为特征的原始数据,基于用户的交互回应数据将符合过滤条件之外的用户作为识别群体,其中,所述交互回应数据为用户回复已有的回复贴的回复数据;步骤B、计算所述识别群体中任意用户在同一分钟内的发帖频次,记录所述识别群体中发帖频次大于第一预设阈值的用户;步骤C、基于所述识别群体挖掘出在同一分钟内出现的频次大于第二预设阈值的用户;步骤D、将发帖频次大于第一预设阈值的用户及在同一分钟内出现的频次大于第二预设阈值的用户记为机器型水军。
【技术特征摘要】
1.一种机器型论坛水军的识别方法,其特征在于,包括:步骤A、获取论坛内所有用户行为特征的原始数据,基于用户的交互回应数据将符合过滤条件之外的用户作为识别群体,其中,所述交互回应数据为用户回复已有的回复贴的回复数据;步骤B、计算所述识别群体中任意用户在同一分钟内的发帖频次,记录所述识别群体中发帖频次大于第一预设阈值的用户;步骤C、基于所述识别群体挖掘出在同一分钟内出现的频次大于第二预设阈值的用户;步骤D、将发帖频次大于第一预设阈值的用户及在同一分钟内出现的频次大于第二预设阈值的用户记为机器型水军。2.如权利要求1所述的机器型论坛水军的识别方法,其特征在于,所述步骤A包括:从所述原始数据中获取用户的交互回应数据,筛选出交互回应数据的个数大于5的用户ID;将所述交互回应数据的个数大于5的用户ID从原始数据中分离出后的剩余用户ID作为识别群体。3.如权利要求1所述的机器型论坛水军的识别方法,其特征在于,所述步骤B包括:获取所述识别群体中所有用户ID及关联所述用户ID的发帖时间,基于所述发帖时间计算在同一分钟内发帖次数大于30的用户ID;记录所述用户ID,将所述用户ID存储为机器型水军用户。4.如权利要求3所述的机器型论坛水军的识别方法,其特征在于,所述步骤C包括:获取识别群体在一时间段内的历史数据,基于所述历史数据筛选出在同一分钟内出现的频次大于5的多个用户ID。5.如权利要求1所述的机器型论坛水军的识别方法,其特征在于,所述步骤C还包括:基于所述历史数据筛通过频繁项集挖掘算法筛选在同一分钟内多次出现用户ID组;获取所述用户ID群组中在同一分钟内出现的频次大于5的多个用户ID。6.一种机器型论坛水军的识别装置,其特征在于,包括:获取模块,用于...
【专利技术属性】
技术研发人员:张强,杨善林,倪鑫,彭张林,王安宁,余本功,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。