【技术实现步骤摘要】
本专利技术属于互联网数据分析
,尤其涉及一种对互联网用户评论内容自动过滤的方法和装置。
技术介绍
随着互联网技术的发展,以WEB2. O技术为基础,各种互联网应用得以普遍应用,例如,BBS、社交平台等,在这些平台上,用户不再被动的接收信息,而是可以随时随地将自己的观点和想法通过互联网发布。然而,由于无法从技术上阻止用户发布不规范的内容,所以导致用户在互联网上所发布的言论不能围绕其所讨论的主题。例如,在视频网站上,网站通常为视频播放提供评论平台,以让观看用户发表自己的观看评论。然而,在视频评论中经常充斥着各种各样的评论行为,有些评论内容和视频内容无关。大量的重复评论会对视频评论产生消极的影响,影响整体评论质量,不利于建立优质的评论环境。比如一个视频下的重复评论内容过多会影响自动精华评论的识别,所以需要有效的防止精华评论中出现这些内容。针对这种情况,现有技术中通常在热门视频区域的评论内容进行人工审核,去掉低俗、无关等需要屏蔽的评论信息,运营高质量评论内容。但重复性评论内容会多次引起审核,影响工作效率,增大了系统的处理负荷,需要人工干预,导致用户发表的评论内容不 ...
【技术保护点】
一种对互联网用户评论内容自动过滤的方法,其特征在于包括如下步骤:步骤(1)如果评论内容审核未通过则将该评论内容放入样本库中,自动识别模块将与视频内容不相关的评论内容过滤到样本库中;步骤(2)对样本库中的评论内容根据指纹规则生成样本指纹特征存入样本指纹库;步骤(3)对用户针对视频的评论内容按照指纹规则生成评论内容指纹,与样本指纹库中的样本指纹进行匹配,匹配成功后计算匹配分数,根据指纹级别和相似度,计算匹配成功的评论内容的分数,score=sim(F)?level(F)×0.1,其中sim(F)为(样本指纹的字符个数×2)/(样本指纹的字符个数+评论内容的字符个数),level ...
【技术特征摘要】
1.一种对互联网用户评论内容自动过滤的方法,其特征在于包括如下步骤 步骤(I)如果评论内容审核未通过则将该评论内容放入样本库中,自动识别模块将与视频内容不相关的评论内容过滤到样本库中; 步骤(2)对样本库中的评论内容根据指纹规则生成样本指纹特征存入样本指纹库;步骤(3)对用户针对视频的评论内容按照指纹规则生成评论内容指纹,与样本指纹库中的样本指纹进行匹配,匹配成功后计算匹配分数,根据指纹级别和相似度,计算匹配成功的评论内容的分数,Score=Sim(F)-1evel (F) XO.1,其中sim (F)为(样本指纹的字符个数X2)/ (样本指纹的字符个数+评论内容的字符个数),level (F)为指纹级另1J,当其中一个匹配分数值大于预定阈值时,该评论内容可自动过滤,当score的最大值=MAX(sim(F)-level (F) XO.1)小于预定阈值时,推送至人工进行审核。2.根据权利要求1所述的方法,其特征在于指纹规则包括以下几种 指纹规则I为将评论样本或评论内容去掉标点符号后提取汉字及英文单词,然后对剩余字符进行排重处理,去掉相同的字符,设定指纹级别为I级; 指纹规则2为按照分词词表对评论样本或评论内容文本分词,去掉停用词词表中列出的停用词,然后根据对剩余词进行排重,设定指纹级别为I级; 指纹规则3为按照分词词表对评论样本或评论内容文本分词,对划分的词语进行排重处理,设定指纹级别为2级。3.根据权利要求2所述的方法,其特征在于 指纹规则I或2还包括按照每个字符的计算机内码进行排序;指纹规则3还包括对每个分词进行切字处理后对每个字符按照计算机内码进行排序。4.根据权利要求3所述的方法,其特征在于 还可添加其他指纹规则。5.根据权利要求1所述的方法,其特征在于 步骤(I)所述不相关内容是指对评论内容按照指纹规则生成指纹,相互之间进行匹配,如果匹配相同则记为两条相同的评论,当超过阈值时,可以判断为样本内容或者以评论时用户登录的用户名或IP地址为维度,判断一个用户发送的N条评论内容相似,则判定为样本内容。6.根据权利要求1所述的方法,其特征在于 还可以设立白名单,当评论内容与白名单中的样本指纹特征匹配时,认定为与视频相关内容。7.—种对互联网用户评论...
【专利技术属性】
技术研发人员:陈学文,张宇峰,姚健,潘柏宇,卢述奇,
申请(专利权)人:合一网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。