一种基于账号属性的异常消息检测方法及设备技术

技术编号:9671148 阅读:69 留言:0更新日期:2014-02-14 18:01
本发明专利技术公开了一种异常消息检测方法,包括:将被检测消息的文本划分为多个文本段;获取每一文本段的一个或多个账号属性,并确定对应于所述每一文本段各账号属性的发表比例参数;根据所述发表比例参数确定所述每一文本段对应各账号属性的第一因子;根据所述每一文本段对应各账号属性的第一因子确定第二因子;根据所述第二因子确定所述被检测消息是否为异常消息。通过将消息的发表账号属性与无差别文本分割处理结合使用贝叶斯算法,从而实现了对微博批量垃圾消息的有效限制,同时提高了垃圾消息处理的灵活性。

【技术实现步骤摘要】
一种基于账号属性的异常消息检测方法及设备
本专利技术涉及计算机网络领域,特别涉及一种基于账号属性的异常消息检测方法及系统。
技术介绍
网络即时通讯(IM,InstantMassager)工具发展到今天,已经被大多数的网络用户所接受,并成为网络用户必不可少的软件工具之一,不但在平时的休闲娱乐中使用,而且在用户的工作中也得到了广泛使用。在IM软件中,主要实现的是一对一的好友单独聊天以及一对N的群或者讨论组的消息聊天模式。随着互联网应用的不断发展,类似推特(twitter)的微博应用也在不断发展壮大。微博是微型博客的简称,其信息传递效率高,门槛低。通过微博用户可以非常快速的进行信息的传播与传递,实现用户消息聊天模式从一对一、一对N到一对无穷的一种跨越。这种一对无穷的模式意味着一个人可以对无穷多个人进行消息的传播,同时一个人也可以收听万级以上的用户的消息。但与此同时,这种大用户量的应用必然也会被许多的广告发布者利用,通过微博向用户转发大量的广告或是垃圾消息,这不仅造成了网络资源的浪费,同时还会影响用户的产品使用体验。现有技术中,微博运营商通过事先收集大量的垃圾消息和非垃圾消息,建立垃圾消息和非垃圾消息集,在接收到新的消息后,首先对被检测消息进行分词处理,然后再对这些词分别求其在正常消息和垃圾消息样本中出现的次数,统计其属于垃圾消息的概率,进而根据贝叶斯公式计算整条消息属于垃圾消息的概率。然而,在实际应用当中,专利技术人发现以上方法有很大的缺点,无法覆盖到大部分的微博的垃圾消息,主要原因如下:(1)、难以准确获取垃圾消息样本库:垃圾消息样本库一般只能靠人工或者是其他一些行为检测算法发现,发现的时间往往有数小时的延迟,并且都存在误判的情况。这样对于样本的完整性和准确性都有很大的影响,直接导致每个词的垃圾消息概率与真实值有极大的偏差。(2)、现有的垃圾消息或广告针对分词做规避处理,导致无法正确分词:传统的检测方法依赖于对被检测消息的分词处理,因此垃圾消息发送者在发送垃圾消息或广告前往往会针对以上情况对消息进行处理:在词句中间增加干扰符号,或利用孤僻的谐音字代替常用字。从而导致消息在分词之后变成了一个个孤立的字,无法与样本库中的词准确匹配。
技术实现思路
本专利技术提供一种异常消息检测方法和设备,直接根据发表账号的属性特征,确定发送正常消息账号和垃圾消息账号的属性异常概率;同时将消息文本进行划分,通过计算划分文本段的历史发表的总账号数与当前账号属性的账号数的因子,结合属性异常概率进行贝叶斯计算。为达到上述目的,本专利技术一方面提供了一种异常消息检测方法,包括:将被检测消息的文本划分为多个文本段;获取每一文本段的一个或多个账号属性,并确定对应于所述每一文本段各账号属性的发表比例参数;根据所述发表比例参数确定所述每一文本段对应各账号属性的第一因子;根据所述每一文本段对应各账号属性的第一因子确定第二因子;根据所述第二因子确定所述被检测消息是否为异常消息。优选地,所述发表比例参数,具体为总共发表过所述文本段的用户数与在所述账号属性下发表过所述文本段的用户数的比值。优选地,根据所述发表比例参数确定所述每一文本段对应各账号属性的第一因子,具体包括:获取各所述账号属性对应的异常概率,将各所述账号属性对应的发表比例参数与所述异常概率的乘积作为所述文本段对应各账号属性的第一因子。优选地,根据所述每一文本段对应各账号属性的第一因子计算第二因子,具体包括:根据所述每一文本段对应各所述账号属性的第一因子,通过贝叶斯公式计算所述被检测消息在各所述账号属性下的第二因子。优选地,根据所述第二因子确定所述被检测消息是否为异常消息,具体包括:判断所述被检测消息在一个或多个所述账号属性下的第二因子是否超过阈值,若是,则确定所述被检测消息为异常消息;或,判断所述被检测消息各所述账号属性的第二因子之乘积是否超过阈值,若是,则确定所述被检测消息为异常消息。优选地,根据所述每一文本段对应各账号属性的第一因子计算第二因子,还包括:计算所述文本段所有账号属性对应的第一因子的总乘积;根据所述文本段所有账号属性对应的第一因子的总乘积,通过贝叶斯公式计算所述被检测消息的第二因子。优选地,根据所述被检测消息的第二因子确定所述被检测消息是否为异常消息,具体包括:判断所述被检测消息的第二因子是否超过阈值,若是,则确定所述被检测消息为异常消息。优选地,所述用于计算的贝叶斯公式,具体为:P(A|t1,t2,t3……tn)=(P1*P2*……PN)/[P1*P2*……PN+(1-P1)*(1-P2)*……(1-PN)],其中,P(A|t1,t2,t3……tn)为所述第二因子,PN为所述第一因子或所述第一因子的总乘积。另一方面,本专利技术还提供了一种基于账号属性的异常消息检测设备,包括:划分模块,用于将被检测消息的文本划分为多个文本段;获取模块,用于获取每一文本段的一个或多个账号属性;确定模块,分别与所述划分模块及所述获取模块相连,用于确定对应于所述每一文本段各账号属性的发表比例参数,根据所述发表比例参数确定所述每一文本段对应各账号属性的第一因子;根据所述每一文本段对应各账号属性的第一因子确定第二因子;根据所述第二因子确定所述被检测消息是否为异常消息。优选地,所述确定模块,具体用于确定总共发表过所述文本段的用户数与在所述账号属性下发表过所述文本段的用户数的比值。优选地,所述获取模块,还用于获取各所述账号属性对应的异常概率。优选地,还包括计算模块,其中所述计算模块,用于计算各所述账号属性对应的发表比例参数与所述异常概率的乘积,和/或;计算所述每一文本段所有账号属性对应的发表比例参数与所述异常概率的总乘积。优选地,所述计算模块,还用于根据所述每一文本段对应各所述账号属性的第一因子,通过贝叶斯公式计算所述被检测消息在各所述账号属性下的第二因子;或,根据所述文本段所有账号属性对应的第一因子的总乘积,通过贝叶斯公式计算所述被检测消息的第二因子。优选地,还包括存储模块,其中所述存储模块与所述划分模块相连,用于接收并缓存所述被检测消息。与现有技术相比,本专利技术具有以下优点:通过应用本专利技术的技术方案,将消息的发表账号属性与无差别文本分割处理结合使用贝叶斯算法,无需再收集正常样本与垃圾消息样本,同时也尽可能地保留了异常消息的原始特征,从而实现了对微博批量垃圾消息的有效限制,由于该异常消息的处理过程不需要人工参与或系统协助提供样本,因此完全实现了自学习智能化识别处理,提高了垃圾消息处理的灵活性。附图说明图1为本专利技术提出的一种异常消息检测方法流程图;图2为本专利技术在具体应用场景下提出的一种异常消息检测方法流程图;图3为现有技术中一种异常消息的具体示例图;图4为本专利技术在具体应用场景下提出的另一种异常消息检测方法流程图;图5为本专利技术提出的一种异常消息检测设备结构图。具体实施方式如
技术介绍
所述,由于对垃圾消息样本库的即时更新维护和针对人为设置的分词干扰在现有技术中并没有明确的实现方案,因此现有的异常消息检测技术无法覆盖到大部分的微博的垃圾消息,从而不能实现针对异常消息的即时有效的检测。为了解决上述问题,本专利技术提供了一种异常消息检测方法,其中不再需要预先建立及维护正常样本或垃圾消息样本库,而是直接根据发表账号的属性特征,确定发本文档来自技高网
...
一种基于账号属性的异常消息检测方法及设备

【技术保护点】
一种异常消息检测方法,其特征在于,将被检测消息的文本划分为多个文本段;获取每一文本段的一个或多个账号属性,并确定对应于所述每一文本段各账号属性的发表比例参数;根据所述发表比例参数确定所述每一文本段对应各账号属性的第一因子;根据所述每一文本段对应各账号属性的第一因子确定第二因子;根据所述第二因子确定所述被检测消息是否为异常消息。

【技术特征摘要】
1.一种异常消息检测方法,其特征在于,将被检测消息的文本划分为多个文本段;获取每一文本段的一个或多个账号属性,并确定对应于所述每一文本段各账号属性的发表比例参数;根据所述发表比例参数和各账号属性对应的异常概率确定所述每一文本段对应各账号属性的第一因子;根据所述每一文本段对应各账号属性的第一因子确定第二因子;根据所述第二因子确定所述被检测消息是否为异常消息。2.如权利要求1所述的方法,其特征在于,所述发表比例参数,具体为:在所述账号属性下发表过所述文本段的用户数与总共发表过所述文本段的用户数的比值。3.如权利要求2所述的方法,其特征在于,根据所述发表比例参数和各账号属性对应的异常概率确定所述每一文本段对应各账号属性的第一因子,具体包括:获取各所述账号属性对应的异常概率,将各所述账号属性对应的发表比例参数与所述异常概率的乘积作为所述文本段对应各账号属性的第一因子。4.如权利要求3所述的方法,其特征在于,根据所述每一文本段对应各账号属性的第一因子计算第二因子,具体包括:根据所述每一文本段对应各所述账号属性的第一因子,通过贝叶斯公式计算所述被检测消息在各所述账号属性下的第二因子;其中,所述用于计算的贝叶斯公式,具体为:P(A|t1,t2,t3……tn)=(P1*P2*……PN)/[P1*P2*……PN+(1-P1)*(1-P2)*……(1-PN)],其中,P(A|t1,t2,t3……tn)为所述第二因子,PN为所述第一因子。5.如权利要求4所述的方法,其特征在于,根据所述第二因子确定所述被检测消息是否为异常消息,具体包括:判断所述被检测消息在一个或多个所述账号属性下的第二因子是否超过阈值,若是,则确定所述被检测消息为异常消息;或,判断所述被检测消息各所述账号属性的第二因子之乘积是否超过阈值,若是,则确定所述被检测消息为异常消息。6.如权利要求3所述的方法,其特征在于,根据所述每一文本段对应各账号属性的第一因子计算第二因子,还包括:计算所述文本段所有账号属性对应的第一因子的总乘积;根据所述文本段所有账号属性对应的第一因子的总乘积,通过贝叶斯公式计算所述被检测消息的第二因子。7.如...

【专利技术属性】
技术研发人员:钟清华王金华
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1