一种垃圾内容识别方法及装置制造方法及图纸

技术编号：9336283 阅读：92 留言：0更新日期：2013-11-13 15:38

本申请实施例提供一种垃圾内容识别方法及装置，包括：在接收到待识别样本数据时，相对于现有技术中利用基于朴素贝叶斯分类器进行分类，本申请实施例对朴素贝叶斯分类器进行改进，结合第一信任因子和第二信任因子进行待识别样本数据的类别识别。由于引入了第一信任因子和第二信任因子，使得朴素贝叶斯中条件独立变得更加柔和，可以更好地实现类别分类，从而提高垃圾内容的识别精度，且由于引入了第一信任因子和第二信任因子，使得分类时中引入的特征数量较少，使得利用较短的时间即可以实现垃圾内容的识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种垃圾内容识别方法及装置
本申请涉及通信领域，尤其涉及一种垃圾内容识别方法及装置。
技术介绍
随着网络的推广和普及，网络信息量越来越大。大量的网络信息中必然存在一些非法信息（可以将非法信息称为垃圾内容），为了保证网络信息的健康、合法，垃圾内容的自动识别也变得越来越重要。目前常用的反垃圾（垃圾内容的自动识别）方案主要有两大类，一类是基于用户行为的反垃圾方案，一类是基于用户内容的反垃圾方案。基于用户行为的反垃圾方案主要是根据用户的操作行为进行分类，将发布频率高于设定值的用户定义为垃圾用户，从而识别哪些用户是正常用户，哪些用户是垃圾用户，并可以将垃圾用户发布的内容确定为垃圾内容。基于用户行为的反垃圾方案在机器软件用户大批量、高频率的发布内容的时候比较有效，因为可以通过发布频率很清晰地识别出垃圾用户。但是，如果用户适当降低发布频率，将无法通过发布频率很清晰地识别出垃圾用户。比如在一个用户利用一个账号一天进行1000次内容发布的时候，分类区分比较明显，可以很容易地识别出该用户为垃圾用户，进而识别出垃圾内容。但是，如果一个用户拥有100个账号，一个账号一天发布10次的时候，这种方式的区分就显得不那么奏效，无法有效识别出该用户为垃圾用户，也就无法识别出该用户发布的垃圾内容。所以对于多账号低频率的发布策略，基于用户行为的反垃圾方案无法有效识别垃圾用户，也就无法有效识别垃圾内容。基于内容的反垃圾方案主要包括基于规则的反垃圾方案和基于分类器的的反垃圾方案两种方法。基于规则的反垃圾方案的做法，一般是预设规则过滤器（fiter），将关键词和用户输入内容进行精确或模糊匹配，将符合...
一种垃圾内容识别方法及装置

【技术保护点】
一种垃圾内容识别方法，其特征在于，所述方法包括：接收待识别样本数据；根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别，在所述待识别样本数据被分类为垃圾内容类别时，表示该待识别样本数据属于垃圾内容，在所述待识别样本数据被分类为非垃圾内容类别时，表示该待识别样本数据属于非垃圾内容；其中，所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的，所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的。

【技术特征摘要】
1.一种垃圾内容识别方法，其特征在于，所述方法包括：接收待识别样本数据；根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别，在所述待识别样本数据被分类为垃圾内容类别时，表示该待识别样本数据属于垃圾内容，在所述待识别样本数据被分类为非垃圾内容类别时，表示该待识别样本数据属于非垃圾内容；其中，所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的，所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的；根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别，具体包括：根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定特征模型；利用训练后的特征模型确定待识别样本数据的类别；其中，所述特征模型通过以下公式表示：其中，χ＝{X1,X2,...Xn}，表示特征Xi，i＝1,2……n的集合；P(spam|χ)表示特征集合χ发生的条件下，样本数据为垃圾内容类别的条件概率；P(spam)表示出现标识为垃圾内容类别的样本数据的概率；P(ham)表示出现标识为非垃圾内容类别的样本数据的概率；P(Xi|spam)表示标识为垃圾内容类别的样本数据中特征Xi出现的条件概率；P(Xi|ham)表示标识为非垃圾内容类别的样本数据中特征Xi出现的条件概率；θ(spam,Xi)表示标识为垃圾内容类别的样本数据中特征Xi出现的条件概率的第一信任因子；θ(ham,Xi)表示标识为非垃圾内容类别的样本数据中特征Xi出现的条件概率的第二信任因子。2.如权利要求1所述的方法，其特征在于，通过以下方法确定训练后的特征模型：从样本集中确定训练样本子集，训练样本集中的每个样本数据被标识为垃圾内容类别或非垃圾内容类别；确定训练样本子集中设定数量的样本数据，针对所述设定数量的样本数据中的每个样本数据，利用该样本数据对特征模型进行训练，在利用所述设定数量的样本数据中的每个样本数据对特征模型进行训练后，得到训练后的特征模型。3.如权利要求2所述的方法，其特征在于，所述方法还包括：从样本集中确定测试样本子集，测试样本集中的每个样本数据被标识为垃圾内容类别或非垃圾内容类别，测试样本子集与训练样本子集没有交集；则，得到训练后特征模型之后，利用训练后特征模型将用户提供的待识别样本数据分类为垃圾内容类别或非垃圾内容类别之前，所述方法还包括：利用训练后的特征模型将所述测试样本子集中的样本数据分类为垃圾内容类别和非垃圾内容类别；在所述测试样本子集中每个样本数据被分成的类别与该样本数据被标识成的类别相同的个数不小于设定值时，利用训练后的特征模型将用户提供的待识别样本数据分类为垃圾内容类别或非垃圾内容类别，否则，重新确定训练样本子集中设定数量的样本数据，继续对特征模型进行训练。4.如权利要求1所述的方法，其特征在于，利用一个样本数据对特征模型进行训练，具体包括：对该样本数据进行分解，获得属于所述特征集合的第一特征子集；利用该第一特征子集中的每个特征确定针对特征模型的统计结果；在该样本数据被标识为非垃圾内容类别，且所述统计结果大于第一设定门限值时，在特...

【专利技术属性】
技术研发人员：王帅，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人