一种垃圾内容识别方法及装置制造方法及图纸

技术编号:9336283 阅读:92 留言:0更新日期:2013-11-13 15:38
本申请实施例提供一种垃圾内容识别方法及装置,包括:在接收到待识别样本数据时,相对于现有技术中利用基于朴素贝叶斯分类器进行分类,本申请实施例对朴素贝叶斯分类器进行改进,结合第一信任因子和第二信任因子进行待识别样本数据的类别识别。由于引入了第一信任因子和第二信任因子,使得朴素贝叶斯中条件独立变得更加柔和,可以更好地实现类别分类,从而提高垃圾内容的识别精度,且由于引入了第一信任因子和第二信任因子,使得分类时中引入的特征数量较少,使得利用较短的时间即可以实现垃圾内容的识别。

【技术实现步骤摘要】
一种垃圾内容识别方法及装置
本申请涉及通信领域,尤其涉及一种垃圾内容识别方法及装置。
技术介绍
随着网络的推广和普及,网络信息量越来越大。大量的网络信息中必然存在一些非法信息(可以将非法信息称为垃圾内容),为了保证网络信息的健康、合法,垃圾内容的自动识别也变得越来越重要。目前常用的反垃圾(垃圾内容的自动识别)方案主要有两大类,一类是基于用户行为的反垃圾方案,一类是基于用户内容的反垃圾方案。基于用户行为的反垃圾方案主要是根据用户的操作行为进行分类,将发布频率高于设定值的用户定义为垃圾用户,从而识别哪些用户是正常用户,哪些用户是垃圾用户,并可以将垃圾用户发布的内容确定为垃圾内容。基于用户行为的反垃圾方案在机器软件用户大批量、高频率的发布内容的时候比较有效,因为可以通过发布频率很清晰地识别出垃圾用户。但是,如果用户适当降低发布频率,将无法通过发布频率很清晰地识别出垃圾用户。比如在一个用户利用一个账号一天进行1000次内容发布的时候,分类区分比较明显,可以很容易地识别出该用户为垃圾用户,进而识别出垃圾内容。但是,如果一个用户拥有100个账号,一个账号一天发布10次的时候,这种方式的区分就显得不那么奏效,无法有效识别出该用户为垃圾用户,也就无法识别出该用户发布的垃圾内容。所以对于多账号低频率的发布策略,基于用户行为的反垃圾方案无法有效识别垃圾用户,也就无法有效识别垃圾内容。基于内容的反垃圾方案主要包括基于规则的反垃圾方案和基于分类器的的反垃圾方案两种方法。基于规则的反垃圾方案的做法,一般是预设规则过滤器(fiter),将关键词和用户输入内容进行精确或模糊匹配,将符合预设规则的内容确定为垃圾内容,以达到垃圾内容识别的效果。基于规则的反垃圾方案需要确定关键词,关键词确定的难度较大,确定出的关键词容易出现误选和漏选的问题。另外,同一个关键词,在不同的上下文环境中,所代表的意义就不同,很难做到普适性,垃圾内容识别的精度难以得到保证。比如具有“美瞳”这个关键词的内容在淘女郎产品中就是垃圾内容,但是,在美容产品中就不是垃圾内容。在关键词的数量较多时,关键词的二义性会表现得更加明显,垃圾内容识别的精度会受到更大的影响。基于分类器的反垃圾方案中基于朴素贝叶斯的反垃圾方案,是目前主流的反垃圾方法。但是,由于朴素贝叶斯分类器的条件独立性的限制,使得训练过程非常耗时,且分类器的精度提升也存在瓶颈。
技术实现思路
本申请实施例提供一种垃圾内容识别方法及装置,用于缩短垃圾内容的识别时间,并提高垃圾内容的识别精度。一种垃圾内容识别方法,所述方法包括:接收用户提供的待识别样本数据;根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,在所述待识别样本数据被分类为垃圾内容类别时,表示该待识别样本数据属于垃圾内容,在所述待识别样本数据被分类为非垃圾内容类别时,表示该待识别样本数据属于非垃圾内容,其中,所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的,所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的。一种垃圾内容识别装置,所述装置包括:接收模块,用于接收用户提供的待识别样本数据;预测模块,用于根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,在所述待识别样本数据被分类为垃圾内容类别时,表示该待识别样本数据属于垃圾内容,在所述待识别样本数据被分类为非垃圾内容类别时,表示该待识别样本数据属于非垃圾内容,其中,所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的,所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的。根据本申请实施例提供的方案,在接收到用户提供的待识别样本数据时,相对于现有技术中利用基于朴素贝叶斯分类器进行分类,本申请实施例对朴素贝叶斯分类器进行改进,结合第一信任因子和第二信任因子进行待识别样本数据的类别识别。由于引入了第一信任因子和第二信任因子,通过信任因子来调节条件独立性,使得朴素贝叶斯中条件独立变得更加柔和,可以更好地实现类别分类,从而提高垃圾内容的识别精度,且由于引入了第一信任因子和第二信任因子,使得分类时中引入的特征数量较少,使得利用较短的时间即可以实现垃圾内容的识别。附图说明图1为本申请实施例一提供的垃圾内容识别方法的步骤流程图;图2为本申请实施例二提供的确定训练后的特征模型方法的步骤流程图;图3为本申请实施例三提供的数据流示意图;图4为本申请实施例四提供的训练过程示意图;图5为本申请实施例五提供的测试过程示意图;图6为本申请实施例六提供的垃圾内容识别装置的结构示意图。具体实施方式为了解决现有的垃圾内容识别方法识别精度低,且耗时较长的问题,本申请实施例对基于朴素贝叶斯分类器的特征模型进行改进,针对每个特征引入信任因子,弱化每个特征的条件独立性,从而使得经过较少次数的训练即可以使得训练出的特征模型的识别精度满足要求,使得训练时间缩短。而由于训练次数较少,特征模型中引入的特征数量也比较少,使得训练后的特征模型对垃圾内容的识别时间也可以缩短。同时,通过引入信任因子,还可以使得每个样本数据的类别更加明确,从而提升分类精度。本申请实施例提供的垃圾内容识别方案可以应用于各种垃圾内容识别的应用场景,如垃圾邮件的识别或垃圾短信的识别等等。下面结合说明书附图和各实施例对本申请方案进行说明。实施例一本申请实施例一提供一种垃圾内容识别方法,该方法的步骤流程如图1所示,包括:步骤001、接收待识别样本数据。在本步骤中,可以接收用户提供的用于进行是否为垃圾内容识别的待识别样本数据。该待识别样本数据可以为邮件数据或短信数据等任意一种需要进行垃圾内容识别的样本数据。步骤002、对待识别样本数据进行分类。在本步骤中,可以根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别。其中,所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的,所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的。在确定所述待识别样本数据的类别为垃圾内容类别时,即可以确定该待识别样本数据属于垃圾内容,否则,在确定所述待识别样本数据的类别为非垃圾内容类别时,即可以确定该待识别样本数据属于非垃圾内容。具体的,在本步骤中,可以根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定特征模型,并可以利用训练后的特征模型将用户提供的待识别样本数据分类为垃圾内容类别或非垃圾内容类别。进一步的,利用训练后的特征模型对用户提供的待识别样本数据进行分类时,可以对用户提供的待识别样本数据进行分解,获得该待识别样本数据的特征子集,利用该特征子集中的每个特征确定针对训练后的特征模型的统计结果,并可以在统计结果大于第二设定阈值时,将该待识别样本数据分类为垃圾内容类别,否则,将该待识别样本数据分类为非垃圾内容类别。下面通过实施例二对确定训练后的特征模型的过程进行详细说明。实施例二本申请实施例二提供一种确定训练后的特征模型的方法,该方法的步骤流程如图2所示,包括:步骤101、确定样本集、样本数据类别及改进的特征模型。本实施例提供的方案中,对基于朴素本文档来自技高网
...
一种垃圾内容识别方法及装置

【技术保护点】
一种垃圾内容识别方法,其特征在于,所述方法包括:接收待识别样本数据;根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,在所述待识别样本数据被分类为垃圾内容类别时,表示该待识别样本数据属于垃圾内容,在所述待识别样本数据被分类为非垃圾内容类别时,表示该待识别样本数据属于非垃圾内容;其中,所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的,所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的。

【技术特征摘要】
1.一种垃圾内容识别方法,其特征在于,所述方法包括:接收待识别样本数据;根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,在所述待识别样本数据被分类为垃圾内容类别时,表示该待识别样本数据属于垃圾内容,在所述待识别样本数据被分类为非垃圾内容类别时,表示该待识别样本数据属于非垃圾内容;其中,所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的,所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的;根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,具体包括:根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定特征模型;利用训练后的特征模型确定待识别样本数据的类别;其中,所述特征模型通过以下公式表示:其中,χ={X1,X2,...Xn},表示特征Xi,i=1,2……n的集合;P(spam|χ)表示特征集合χ发生的条件下,样本数据为垃圾内容类别的条件概率;P(spam)表示出现标识为垃圾内容类别的样本数据的概率;P(ham)表示出现标识为非垃圾内容类别的样本数据的概率;P(Xi|spam)表示标识为垃圾内容类别的样本数据中特征Xi出现的条件概率;P(Xi|ham)表示标识为非垃圾内容类别的样本数据中特征Xi出现的条件概率;θ(spam,Xi)表示标识为垃圾内容类别的样本数据中特征Xi出现的条件概率的第一信任因子;θ(ham,Xi)表示标识为非垃圾内容类别的样本数据中特征Xi出现的条件概率的第二信任因子。2.如权利要求1所述的方法,其特征在于,通过以下方法确定训练后的特征模型:从样本集中确定训练样本子集,训练样本集中的每个样本数据被标识为垃圾内容类别或非垃圾内容类别;确定训练样本子集中设定数量的样本数据,针对所述设定数量的样本数据中的每个样本数据,利用该样本数据对特征模型进行训练,在利用所述设定数量的样本数据中的每个样本数据对特征模型进行训练后,得到训练后的特征模型。3.如权利要求2所述的方法,其特征在于,所述方法还包括:从样本集中确定测试样本子集,测试样本集中的每个样本数据被标识为垃圾内容类别或非垃圾内容类别,测试样本子集与训练样本子集没有交集;则,得到训练后特征模型之后,利用训练后特征模型将用户提供的待识别样本数据分类为垃圾内容类别或非垃圾内容类别之前,所述方法还包括:利用训练后的特征模型将所述测试样本子集中的样本数据分类为垃圾内容类别和非垃圾内容类别;在所述测试样本子集中每个样本数据被分成的类别与该样本数据被标识成的类别相同的个数不小于设定值时,利用训练后的特征模型将用户提供的待识别样本数据分类为垃圾内容类别或非垃圾内容类别,否则,重新确定训练样本子集中设定数量的样本数据,继续对特征模型进行训练。4.如权利要求1所述的方法,其特征在于,利用一个样本数据对特征模型进行训练,具体包括:对该样本数据进行分解,获得属于所述特征集合的第一特征子集;利用该第一特征子集中的每个特征确定针对特征模型的统计结果;在该样本数据被标识为非垃圾内容类别,且所述统计结果大于第一设定门限值时,在特...

【专利技术属性】
技术研发人员:王帅
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1