【技术实现步骤摘要】
一种垃圾内容识别方法及装置
本申请涉及通信领域,尤其涉及一种垃圾内容识别方法及装置。
技术介绍
随着网络的推广和普及,网络信息量越来越大。大量的网络信息中必然存在一些非法信息(可以将非法信息称为垃圾内容),为了保证网络信息的健康、合法,垃圾内容的自动识别也变得越来越重要。目前常用的反垃圾(垃圾内容的自动识别)方案主要有两大类,一类是基于用户行为的反垃圾方案,一类是基于用户内容的反垃圾方案。基于用户行为的反垃圾方案主要是根据用户的操作行为进行分类,将发布频率高于设定值的用户定义为垃圾用户,从而识别哪些用户是正常用户,哪些用户是垃圾用户,并可以将垃圾用户发布的内容确定为垃圾内容。基于用户行为的反垃圾方案在机器软件用户大批量、高频率的发布内容的时候比较有效,因为可以通过发布频率很清晰地识别出垃圾用户。但是,如果用户适当降低发布频率,将无法通过发布频率很清晰地识别出垃圾用户。比如在一个用户利用一个账号一天进行1000次内容发布的时候,分类区分比较明显,可以很容易地识别出该用户为垃圾用户,进而识别出垃圾内容。但是,如果一个用户拥有100个账号,一个账号一天发布10次的时候,这种方式的区分就显得不那么奏效,无法有效识别出该用户为垃圾用户,也就无法识别出该用户发布的垃圾内容。所以对于多账号低频率的发布策略,基于用户行为的反垃圾方案无法有效识别垃圾用户,也就无法有效识别垃圾内容。基于内容的反垃圾方案主要包括基于规则的反垃圾方案和基于分类器的的反垃圾方案两种方法。基于规则的反垃圾方案的做法,一般是预设规则过滤器(fiter),将关键词和用户输入内容进行精确或模糊匹配,将符合 ...
【技术保护点】
一种垃圾内容识别方法,其特征在于,所述方法包括:接收待识别样本数据;根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,在所述待识别样本数据被分类为垃圾内容类别时,表示该待识别样本数据属于垃圾内容,在所述待识别样本数据被分类为非垃圾内容类别时,表示该待识别样本数据属于非垃圾内容;其中,所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的,所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的。
【技术特征摘要】
1.一种垃圾内容识别方法,其特征在于,所述方法包括:接收待识别样本数据;根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,在所述待识别样本数据被分类为垃圾内容类别时,表示该待识别样本数据属于垃圾内容,在所述待识别样本数据被分类为非垃圾内容类别时,表示该待识别样本数据属于非垃圾内容;其中,所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的,所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的;根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,具体包括:根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定特征模型;利用训练后的特征模型确定待识别样本数据的类别;其中,所述特征模型通过以下公式表示:其中,χ={X1,X2,...Xn},表示特征Xi,i=1,2……n的集合;P(spam|χ)表示特征集合χ发生的条件下,样本数据为垃圾内容类别的条件概率;P(spam)表示出现标识为垃圾内容类别的样本数据的概率;P(ham)表示出现标识为非垃圾内容类别的样本数据的概率;P(Xi|spam)表示标识为垃圾内容类别的样本数据中特征Xi出现的条件概率;P(Xi|ham)表示标识为非垃圾内容类别的样本数据中特征Xi出现的条件概率;θ(spam,Xi)表示标识为垃圾内容类别的样本数据中特征Xi出现的条件概率的第一信任因子;θ(ham,Xi)表示标识为非垃圾内容类别的样本数据中特征Xi出现的条件概率的第二信任因子。2.如权利要求1所述的方法,其特征在于,通过以下方法确定训练后的特征模型:从样本集中确定训练样本子集,训练样本集中的每个样本数据被标识为垃圾内容类别或非垃圾内容类别;确定训练样本子集中设定数量的样本数据,针对所述设定数量的样本数据中的每个样本数据,利用该样本数据对特征模型进行训练,在利用所述设定数量的样本数据中的每个样本数据对特征模型进行训练后,得到训练后的特征模型。3.如权利要求2所述的方法,其特征在于,所述方法还包括:从样本集中确定测试样本子集,测试样本集中的每个样本数据被标识为垃圾内容类别或非垃圾内容类别,测试样本子集与训练样本子集没有交集;则,得到训练后特征模型之后,利用训练后特征模型将用户提供的待识别样本数据分类为垃圾内容类别或非垃圾内容类别之前,所述方法还包括:利用训练后的特征模型将所述测试样本子集中的样本数据分类为垃圾内容类别和非垃圾内容类别;在所述测试样本子集中每个样本数据被分成的类别与该样本数据被标识成的类别相同的个数不小于设定值时,利用训练后的特征模型将用户提供的待识别样本数据分类为垃圾内容类别或非垃圾内容类别,否则,重新确定训练样本子集中设定数量的样本数据,继续对特征模型进行训练。4.如权利要求1所述的方法,其特征在于,利用一个样本数据对特征模型进行训练,具体包括:对该样本数据进行分解,获得属于所述特征集合的第一特征子集;利用该第一特征子集中的每个特征确定针对特征模型的统计结果;在该样本数据被标识为非垃圾内容类别,且所述统计结果大于第一设定门限值时,在特...
【专利技术属性】
技术研发人员:王帅,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。