一种对用户发布的文本内容审核处理的方法及其装置制造方法及图纸

技术编号:2913298 阅读:182 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种对用户发布的文本内容审核处理的方法及其装置,该方法包括步骤,接收用户发布的文本内容,根据名单规则数据库判断用户信息;如果用户信息既不属于白名单或白规则,也不属于黑名单或黑规则,则计算用户的文本内容的第一特征向量和预先建立的垃圾样本内容的第二特征向量的第一相似度,根据第一相似度判断用户发布的文本内容是否为合格内容,如果是合格内容,则公布用户发布的文本内容;否则将用户发布的文本内容发送给人工进行审核。本发明专利技术可以对用户信息和用户发布的文本内容进行审核过滤处理,这样对用户发布的信息不用全部经由人工进行审核,可以省去大量的人工审核时间,节省了人力资源,相应的也提高了审核效率。

【技术实现步骤摘要】

本专利技术涉及通信领域,一种对用户发布的文本内容审核处理的方法及其装置
技术介绍
目前,问问社区(网址:http://wenwen.soso.com)是类似于百度知道、新浪爱问等的一项问答型服务,用户可以在页面提问题或回答其他人提出的问题,很大程度上方便了用户对信息的获取。现在,问问社区每天大约会有二十多万个新问题产生,问问社区中用户提交的信息全部经由人工进行审核,需要消耗大量的人工审核时间,浪费人力资源,并且审核效率比较低。
技术实现思路
本专利技术提供了一种对用户发布的文本内容审核处理的方法及其装置,其能够节省大量的人工审核时间,提高了审核效率。本专利技术的技术方案是:一种对用户发布的文本内容审核处理的方法,包括步骤:接收用户发布的文本内容,根据名单规则数据库判断用户信息,所述名单规则数据库包括黑名单、黑规则、白名单和白规则;如果所述用户信息既不属于白名单或白规则,也不属于黑名单或黑规则,则对所述用户的文本内容进行格式转换,提取所述文本内容中的实词;计算提取的各个实词在预先建立的文档数据库中的逆文档频率权重值,得到由所述逆文档频率权重值组成的第一特征向量;计算所述第一特征向量和预先建立的垃圾样本内容的第二特征向量的第-->一相似度,根据所述第一相似度判断所述用户发布的文本内容是否为合格内容,如果是合格内容,则公布所述用户发布的文本内容。本专利技术还公开了一种对用户发布的文本内容审核处理的装置,其包括,审核模块,用于接收用户发布的文本内容,根据名单规则数据库判断用户信息,所述名单规则数据库包括黑名单、黑规则、白名单和白规则;转换模块,用于在所述用户信息既不属于白名单或白规则,也不属于黑名单或黑规则时,对所述用户发布的文本内容进行格式转换,提取所述文本内容中的实词;计算模块,用于计算提取的各个实词在预先建立的文档数据库中的逆文档频率权重值,得到由所述逆文档频率权重值组成的第一特征向量;同时计算所述第一特征向量和预先建立的垃圾样本内容的第二特征向量的第一相似度;判断模块,用于根据所述第一相似度判断所述用户的文本内容是否为合格内容,如果是合格内容,则公布所述用户发布的文本内容。本专利技术的对用户发布的文本内容审核处理的方法和装置,只对既不属于白名单或白规则,也不属于黑名单或黑规则的用户发布的文本内容进行审核过滤处理,可以将属于黑规则和黑名单的用户发布的文本内容及将用户发布的不合格的文本内容发送给人工进行审核,对属于白规则和白名单的用户发布的文本内容及用户发布的合格的文本内容直接公布;这样对用户发布的信息不用全部经由人工进行审核,可以省去大量的人工审核时间,节省了人力资源,相应的也提高了审核效率。附图说明图1是本专利技术对用户发布的文本内容审核处理的方法流程图;图2是本专利技术对用户发布的文本内容审核处理的装置的结构框图(一);-->图3是本专利技术对用户发布的文本内容审核处理的装置的结构框图(二);图4是本专利技术对用户发布的文本内容审核处理的装置的结构框图(三)。具体实施方式本专利技术的对用户发布的文本内容审核处理的方法和装置,只对既不属于白名单或白规则,也不属于黑名单或黑规则的用户发布的文本内容进行审核过滤处理,将属于黑规则和黑名单的用户发布的文本内容及将用户发布的不合格的文本内容发送给人工进行审核,对属于白规则和白名单的用户发布的文本内容及用户发布的合格的文本内容直接公布;这样对用户发布的信息不用全部经由人工进行审核,可以省去大量的人工审核时间,节省了人力资源,相应的也提高了审核效率。下面结合附图和具体实施例对本专利技术做一详细的阐述。本专利技术的对用户发布的文本内容审核处理的方法可以应用在问问社区、百度知道、新浪爱问等问答型服务上。本专利技术的对用户发布的文本内容审核处理的方法,包括步骤,如图1,S100、接收用户发布的文本内容。S101、根据名单规则数据库判断用户信息;所述名单规则数据库包括黑名单、黑规则、白名单和白规则。在一实施例中,黑名单可以是有较大几率提供垃圾信息的用户名单,白名单是有较大几率提供正当信息的用户名单;黑规则是根据用户的等级或信用度来设定,其表示用户的等级比较低或信用度很低,白规则也是根据用户的等级或信用度来设定,其表示用户的等级比较高或信用度很高。S102、如果所述用户信息既不属于白名单或白规则,也不属于黑名单或黑规则,则对所述用户发布的文本内容进行格式转换,提取所述文本内容中的实词。在一实施例中,格式转换可以包括对所述文本内容进行繁体到简体-->转换、全角到半角转换、去除多余空格的转换等,实词是文本内容的核心词,虚词不作为核心词。S103、计算提取的各个实词在预先建立的文档数据库中的逆文档频率(IDF)权重值,得到由所述逆文档频率(IDF)权重值组成的第一特征向量。在一实施例中,该文档数据库可以由所有用户发布的文本内容组成。计算提取的各个实词在预先建立的文档数据库中的逆文档频率(IDF)权重值,具体可以为:根据公式wgt=tf×lgUV]]>计算各个实词的逆文档频率(IDF)权重值;其中wgt为逆文档频率(IDF)权重值,tf为所述实词在所述用户的文本内容中出现的频率值,U为所述文档数据库中的文档总数,V为出现所述实词的文档数。S104、计算所述第一特征向量和预先建立的垃圾样本内容的第二特征向量的第一相似度。垃圾样本内容的第二特征向量可以预先得到,其得到过程和第一特征向量一样,取出一垃圾样本内容,对其格式转换,提取实词,然后计算各个实词在所述文档数据库中的逆文档频率权重值,有这些权重值组成第二特征向量。在一实施例中,计算所述第一特征向量和预先建立的垃圾样本内容的第二特征向量的第一相似度,具体为:根据公式Cos(X,Y)=Σα=1,β=1α=m,β=nxαyβΣα=1mxα2Σβ=1nyβ2]]>                        Cos(X,Y)计算所述第一相似度;其中          表示所述第一相似度,X={x1,K,xm本文档来自技高网...

【技术保护点】
一种对用户发布的文本内容审核处理的方法,其特征在于,包括步骤: 接收用户发布的文本内容,根据名单规则数据库判断用户信息,所述名单规则数据库包括黑名单、黑规则、白名单和白规则; 如果所述用户信息既不属于白名单或白规则,也不属于黑名 单或黑规则,则对所述用户发布的文本内容进行格式转换,提取所述文本内容中的实词; 计算提取的各个实词在预先建立的文档数据库中的逆文档频率权重值,得到由所述逆文档频率权重值组成的第一特征向量; 计算所述第一特征向量和预先建立的垃圾样 本内容的第二特征向量的第一相似度,根据所述第一相似度判断所述用户发布的文本内容是否为合格内容,如果是合格内容,则公布所述用户发布的文本内容。

【技术特征摘要】
1、一种对用户发布的文本内容审核处理的方法,其特征在于,包括步骤:接收用户发布的文本内容,根据名单规则数据库判断用户信息,所述名单规则数据库包括黑名单、黑规则、白名单和白规则;如果所述用户信息既不属于白名单或白规则,也不属于黑名单或黑规则,则对所述用户发布的文本内容进行格式转换,提取所述文本内容中的实词;计算提取的各个实词在预先建立的文档数据库中的逆文档频率权重值,得到由所述逆文档频率权重值组成的第一特征向量;计算所述第一特征向量和预先建立的垃圾样本内容的第二特征向量的第一相似度,根据所述第一相似度判断所述用户发布的文本内容是否为合格内容,如果是合格内容,则公布所述用户发布的文本内容。2、根据权利要求1所述的对用户发布的文本内容审核处理的方法,其特征在于:在所述用户信息既不属于白名单或白规则,也不属于黑名单或黑规则时,还包括步骤,检测所述用户发布的文本内容和预先建立的包括电话号码格式、网页格式及火星文格式的特征库的第二相似度,根据所述第二相似度和第一相似度判断所述用户发布的文本内容是否为合格内容。3、根据权利要求2所述的对用户发布的文本内容审核处理的方法,其特征在于:在所述用户信息既不属于白名单或白规则,也不属于黑名单或黑规则时,还包括步骤,统计所述用户发布的文本内容的字符数,根据该字符数、第一相似度和第二相似度判断所述用户发布的文本内容是否为合格内容。4、根据权利要...

【专利技术属性】
技术研发人员:刘怀军刘昌毅
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1