垃圾信息处理方法、装置和系统制造方法及图纸

技术编号:13508635 阅读:69 留言:0更新日期:2016-08-10 20:01
本发明专利技术公开了一种垃圾信息处理方法、装置和系统。该方法包括:根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合,生成第一集合的概率值;判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值;若判断出所述概率值大于所述垃圾信息样本库对应的设定阈值时,确定所述待发送信息为垃圾信息。本发明专利技术提供的技术方案中,根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合生成第一集合的概率值,若判断出概率值大于垃圾信息样本库对应的设定阈值时,确定待发送信息为垃圾信息,本发明专利技术的方案提高了对垃圾信息判断的准确率,从而降低了对垃圾信息的误判率。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种垃圾信息处理方法、装置和系统。该方法包括:根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合,生成第一集合的概率值;判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值;若判断出所述概率值大于所述垃圾信息样本库对应的设定阈值时,确定所述待发送信息为垃圾信息。本专利技术提供的技术方案中,根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合生成第一集合的概率值,若判断出概率值大于垃圾信息样本库对应的设定阈值时,确定待发送信息为垃圾信息,本专利技术的方案提高了对垃圾信息判断的准确率,从而降低了对垃圾信息的误判率。【专利说明】垃圾信息处理方法、装置和系统
本专利技术涉及通信
,特别涉及一种垃圾信息处理方法、装置和系统。
技术介绍
垃圾信息是指:未经用户同意向用户发送的用户不愿意收到的信息,或者用户不能根据自己的意愿拒绝接收的信息。当前,垃圾信息的拦截方式主要包括如下两种:—种是基于发送频次的垃圾信息判断方法。例如:若垃圾信息的发送的速度每小时超过了 300条就对该垃圾信息加以拦截并关闭用户手机的正常功能。但是,这种方式很容易把正常的群发信息如节日问候、通知等信息误拦,而真正的垃圾信息却可以通过调整发送频度绕过拦截,引起大量用户的投诉。例如:一个用户换号时,需要群发信息告诉他通讯录里的朋友时,如果朋友数量超过拦截门槛就会被误拦截。另一种是基于内容关键字匹配的垃圾信息判断方法。如果某条信息内容包含关键字列表中的内容,就把该信息判定为垃圾信息并加以拦截。但是,这种方式很容易把正常信息误判为垃圾信息,例如:如“发票”是关键字列表中的内容,结果正常用户只要发一条包含“发票”的信息就会被误拦。而真正的垃圾信息发送者很容易通过同音字、近音字、拼音替代或加分隔符等方法绕过关键字匹配算法而发送垃圾信息,而该垃圾信息无法有效拦截和过滤。综上所述,现有技术中对垃圾信息的误判率较高。
技术实现思路
本专利技术提供一种垃圾信息处理方法、装置和系统,用于降低对垃圾信息的误判率。为实现上述目的,本专利技术提供了一种垃圾信息处理方法,包括:根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合,生成第一集合的概率值;判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值;若判断出所述概率值大于所述垃圾信息样本库对应的设定阈值时,确定所述待发送信息为垃圾信息。可选地,还包括:若判断出所述概率值小于或等于所述垃圾信息样本库对应的设定阈值时,判断所述垃圾信息样本库是否为最后一个垃圾信息样本库;若判断出所述垃圾信息样本库为最后一个垃圾信息样本库时,确定出所述待发送?目息不是垃圾?目息;若判断出所述垃圾信息样本库不是最后一个垃圾信息样本库时,根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合,生成第一集合的概率值,并继续执行所述判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值的步骤。可选地,所述根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合,生成第一集合的概率值包括:将所述待发送信息进行拆分处理生成第一拆分结果,将第一拆分结果作为元素形成第一集合;将所述当前的垃圾信息样本库中的样本信息进行拆分处理生成第二拆分结果,将第二拆分结果作为元素形成第二集合;对第一集合和第二集合进行与操作,形成第三集合;将第一集合中的元素数量除以第三集合中的元素数量,生成所述概率值。可选地,所述根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合,生成第一集合的概率值包括:将所述待发送信息进行拆分处理生成第一拆分结果,将第一拆分结果作为元素形成第一集合;将所述下一个的垃圾信息样本库中的样本信息进行拆分处理生成第二拆分结果,将第二拆分结果作为元素形成第二集合;对第一集合和第二集合进行与操作,形成第三集合;将第一集合中的元素数量除以第三集合中的元素数量,生成所述概率值。可选地,还包括:通过逻辑回归算法对所述垃圾信息样本库中的垃圾信息进行训练,生成所述垃圾信息样本库对应的设定阈值。可选地,所述当前的垃圾信息样本库的优先级高于所述下一个的垃圾信息样本库。可选地,还包括:接收垃圾信息举报平台发送的样本信息;判定所述样本信息是否为垃圾信息;若判定出所述样本信息为垃圾信息时,将所述样本信息添加入垃圾信息样本库;为添加入样本信息的垃圾信息样本库设置优先级。为实现上述目的,本专利技术提供了一种垃圾信息处理装置,包括:接收模块,用于接收信息中心发送的待发送信息;第一生成模块,用于根据与所述待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合,生成第一集合的概率值;第一判断模块,用于判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值;确定模块,用于若所述第一判断模块判断出所述概率值大于所述垃圾信息样本库对应的设定阈值时,确定所述待发送信息为垃圾信息。可选地,还包括:第二判断模块,用于若所述第一判断模块判断出所述概率值小于或等于所述垃圾信息样本库对应的设定阈值时,判断所述垃圾信息样本库是否为最后一个垃圾信息样本库;所述确定模块还用于若所述第二判断模块判断出所述垃圾信息样本库为最后一个垃圾信息样本库时,确定出所述待发送信息不是垃圾信息;第一生成模块还用于若所述第二判断模块判断出所述垃圾信息样本库不是最后一个垃圾信息样本库时,根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合,生成第一集合的概率值,并触发所述第一判断模块执行所述判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值的步骤。为实现上述目的,本专利技术提供了一种垃圾信息处理系统,包括:信息中心和上述垃圾信息处理装置;所述信息中心,用于向所述垃圾信息处理装置发送待发送信息。本专利技术具有以下有益效果:本专利技术提供的垃圾信息处理方法、装置和系统中,根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合生成第一集合的概率值,若判断出概率值大于垃圾信息样本库对应的设定阈值时,确定待发送信息为垃圾信息,本专利技术的方案提高了对垃圾信息判断的准确率,从而降低了对垃圾信息的误判率。【附图说明】图1为本专利技术实施例二提供的一种垃圾信息处理方法的流程图;图2为本专利技术实施例三提供的一种垃圾信息处理装置的结构示意图;图3为本专利技术实施例四提供的一种垃圾信息处理装置的结构示意图;图4为本专利技术实施例五提供的一种垃圾信息处理系统的结构示意图。【具体实施方式】为使本领域的技术人员更好地理解本专利技术的技术方案,下面结合附图对本专利技术提供的垃圾信息处理方法、装置和系统进行详细描述。本专利技术实施例一提供了一种垃圾信息处理方法,该方法包括:步骤101、根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合,生成第一集合的概率值。步骤102、判断概率值是否大于样本库对应的设定阈值,若判断出概率值是否大于样本库对应的设定阈值时,确定待发送信息为垃圾信息。进一步地,若判断出概率值小于或等于垃圾信息样本库对应的设定阈值时,根据与待发送信息对应的第一集合和与下一个的垃圾信息样本库对应的第二集合,生成第一集合的概率值,并继续执行步骤102。本实施例提供的垃圾信息处理方法中,根据与待发送信息对应的第一集合和与当前本文档来自技高网
...

【技术保护点】
一种垃圾信息处理方法,其特征在于,包括:根据与待发送信息对应的第一集合和与当前的垃圾信息样本库对应的第二集合,生成第一集合的概率值;判断所述概率值是否大于所述垃圾信息样本库对应的设定阈值;若判断出所述概率值大于所述垃圾信息样本库对应的设定阈值时,确定所述待发送信息为垃圾信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘晓靖胡尼亚
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1