当前位置: 首页 > 专利查询>浙江大学专利>正文

基于模板的在线社交网络垃圾信息实时检测方法技术

技术编号:12436583 阅读:125 留言:0更新日期:2015-12-04 00:37
本发明专利技术公开了一种基于模板的在线社交网络垃圾信息实时检测方法,进行检测前先初始化一个空的垃圾模板库,检测时利用垃圾模板库对待检测信息进行模板匹配以进行垃圾信息过滤:匹配成功,则认为该信息为垃圾信息,并利用垃圾模板库对后续待检测信息进行垃圾信息过滤;否则,对该待检测信息进行辅助过滤以确定其是否为垃圾信息,以及为垃圾信息时的所属类别并按类别对垃圾信息进行缓存;在根据缓存结果更新垃圾模板库,并利用更新后的垃圾模板库对后续待检测信息进行模板匹配。本发明专利技术的检测方法可识别的信息的范围,检测准确率高,速度快,能够实现在线实时检测。

【技术实现步骤摘要】

本专利技术涉及互联网安全
,具体涉及一种基于模板的在线社交网络垃圾信 息实时检测方法。
技术介绍
在之前对Twitter数据的研究中,有至少4%的信息是垃圾信息。而到了 2014年, 5%的Twitter用户是垃圾信息机器人。垃圾信息的传播不仅会耗费大量的网络资源,还会 影响用户的上网体验,更有可能骗取用户点击相关的恶意链接从而造成经济损失。 文南犬 "Beyond blacklists: learning to detect malicious web sites from suspicious ur I s',( J. Ma, L. K. Sau I,S. Savage, and G. M. Voe lker, in KDD,2009, pp. 1245 - 1254)公开了一种基于信息URL重定向链接以及恶意URL的进行垃圾 信息检测的方法,即通过对社交网络中信息最后附带的URL进行分析,用重定向以及黑名 单检测等方法找出恶意的URL,它们所对应的信息即为垃圾信息,等等。 尽管这些方法都能够从一定程度上减轻在线社交网络垃圾信息对人们造成的负 面影响,但是对于垃圾信息制造者如何批量生产垃圾信息,使用了何种技术都很少有涉及。 A.Pitsillidis,等人提出了一种基于模板的垃圾信息检测方法,详见参考文献 "Botnet Judo:Fighting Spam with Itself," in NDSS,2010〇 但是该方法也存在如下局限性: 第一,在进行检测时,假设所有模板都存在固定词汇,而在现实的在线社交网络中 往往会使用两个等价的词或短语表达同一个意思,这使得检测精度下降; 第二,大部分信息中存在的一些影响全局的噪声词汇,除了某些标签以外还有一 些语义无关词汇会影响模板的创建,导致创建的模板不准确,进而无法进行精确的识别; 第三,需要一条明确的垃圾信息作为某一类模板的基准。这使得模板创建的范围 变得狭隘,效率变低。这些局限性使得该方法并不能很好地用于复杂多变的在线社交网络。
技术实现思路
针对现有技术的不足,本专利技术提供了一种高精度的基于模板的在线社交网络垃圾 信息实时检测方法。该在线社交网络垃圾信息实时检测方法主要用于英文在线社交网络, 如Twitter, Facebook等大部分垃圾信息是基于模板创建的平台)。通过提取垃圾信息中潜 在的模板来实时创建模板,然后实例化模板进行垃圾信息匹配,从而起到垃圾信息检测功 能,进而能够有效实现在垃圾信息传播前的抑制功能。 -种,进行检测前先初始化一个 空的垃圾模板库,检测时利用所述的垃圾模板库对待检测信息进行模板匹配以进行模板匹 配: 若匹配成功,则认为该信息为垃圾信息,并利用所述的垃圾模板库对后续待检测 信息进行垃圾信息过滤; 否则,进行如下步骤: (a)对该待检测信息进行辅助过滤以确定其是否为垃圾信息,以及为垃圾信息时 的所属类别并按类别对垃圾信息进行缓存(即按类别将确定为垃圾信息的待检测信息放 入缓存中); (b)根据缓存结果更新所述的垃圾模板库,并利用更新后的垃圾模板库对后续待 检测信息进行模板匹配。 对于在线社交网络垃圾信息实时检测方法,待检测的信息通常为信息流,垃圾信 息检测时可以逐条处理,也可以针对若干条信息进行并行处理。 通过模板匹配进行垃圾信息过滤时去掉垃圾信息,并保留非垃圾信息作为垃圾信 息过滤的结果进行后续处理。 初始情况下,垃圾模板库为空(即不存在垃圾模板),此时所有信息均不能与垃圾 模板库匹配(即垃圾模板库中不存在与该信息相匹配的垃圾模板) 作为优选,所述垃圾模板库中的各个垃圾模板为正则表达式,相应的进行模板匹 配时基于正则表达式进行。 所述步骤(a)利用本文相似度采用基于学习的方法对待检测信息进行辅助过滤。 本专利技术垃圾信息过滤的结果进行辅助过滤时具体采用如文献" To war d s On I i n e Spam Filtering in Social Networks',(H. Gao, Y. Chen, K. Lee, D. Palsetia, and A. Choudhary,in NDSS,2012)公开的垃圾信息的检测方法,具体如下: 首先获取信息的独立特征,形成大规模的训练集进行训练,再利用文本相似度得 到不同的信息分类,包括加入到原有分类与新增分类,最后利用有监督的机器学习方法,分 出垃圾信息类与非垃圾信息类。 辅助垃圾信息过滤器的选择:垃圾信息制造者可以避免垃圾信息被辅助垃圾信息 过滤器过滤从而使得系统得不到相应的训练样本,本专利技术选择的辅助垃圾信息过滤方法增 加了辅助垃圾信息过滤器的多样性,结合多种已存在的垃圾信息检测系统作为辅助垃圾信 息过滤器。 根据分类的垃圾信息更新所述的垃圾模板库时: 统计缓存中所有类垃圾信息的总条数,当总条数大于阈值时,针对每一类垃圾信 息分别构建相应的垃圾模板并存入垃圾模板库以更新垃圾模板库。 在进行检测时,将辅助过滤后每类垃圾信息中垃圾信息按照类别进行缓存,每次 进行辅助过滤后立即统计缓存中垃圾信息的总条数 作为优选,所述阈值为1000。 通过如下步骤构建每类垃圾信息的垃圾模板: (SI)将该类中的垃圾信息分为若干个小类: (S2)计算该小类垃圾信息的公共超串,再利用所述的公共超串计算得到相应的列 缩减矩阵; (S3)对列缩减矩阵进行列连接,并将列连接后的列缩减矩阵中字段性质相同的元 素映射到相同的区域; (S4)针对经过步骤(S3)处理后的列缩减矩阵的每个区域,将该区域中的内容合 并,并利用正则表达式表示该区域的合并结果进而得到相应的垃圾模板。 作为优选,所述步骤(SI)中将含有k个具有连续相同词汇的垃圾信息归为同一小 类,k为2~8。 为提高在线社交网络垃圾信息实时检测方法的检测精确度,所述步骤(b)更新模 板库前还对缓存中的垃圾信息进行去噪,并利用去噪后的结果更新垃圾模板库。 作为优选,本专利技术中利用条件随机场模型进行去噪: 利用CRFs (条件随机场)模型,Freq (s)代表词汇s出现的频率。CRFs模型 中的三个特性:Freq(ti)得到 ti 的普及度,Freq(ti*ti+1) ~2/freq(ti) freq(ti+l)和 freq(ti_l*ti) ~2/freq(ti_l)freq(ti)代表在ti发生的概率与其周围词汇的关系。将这 些特性加入CRFs模型中。进一步地,增加了 4条正交特性来得到噪音的共同特性,即ti是 否大写,是否为数字,是否是标签,是否是用户提及(并且手工标记了 1000条实例 信息作为训练集来训练CRFs模型,标记出每条信息里面的每个词为噪音还是非噪音。 利用CFRs,人工标记噪音词汇以去除噪声,使得模板创建被噪音的影响降到最低。 与现有技术相比,本专利技术的在线社交网络垃圾信息实时检测方法具有如下优点: 不需要使用固定词汇创建模当前第1页1 2 3 本文档来自技高网
...

【技术保护点】
一种基于模板的在线社交网络垃圾信息实时检测方法,其特征在于,进行检测前先初始化一个空的垃圾模板库,检测时利用所述的垃圾模板库对待检测信息进行模板匹配以进行垃圾信息过滤:若匹配成功,则认为该信息为垃圾信息,并利用所述的垃圾模板库对后续待检测信息进行模板匹配;否则,进行如下步骤:(a)对该待检测信息进行辅助过滤以确定其是否为垃圾信息,以及为垃圾信息时的所属类别并按类别对垃圾信息进行缓存;(b)根据缓存结果更新所述的垃圾模板库,并利用更新后的垃圾模板库对后续待检测信息进行模板匹配。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈焰高泓彧卜凯朱添田
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1