【技术实现步骤摘要】
-种基于机器学习的社交网络垃圾消息过滤方法
本专利技术涉及网络垃圾过滤
,特别是一种基于机器学习的社交网络垃圾消 息过滤方法。
技术介绍
在线社交网络平台如Facebook、Twitter、新浪微博等都是Web2. 0最受欢迎的应 用程序。数以百万的用户活跃在社交网络中(好友互动,阅读新闻等),并且用户的规模正在 逐年增加。社交网站在用户规模扩大的同时,也吸引了大量的垃圾消息(Spam)和垃圾用户 (Spammer), Spammer在社交平台上散布广告、色情、暴力、恐怖等活动,给正常用户的社交带 来严重的影响。 有研究表明:发布在Twitter上的20万条URL中有8%是钓鱼或者色情链接,而由 于社交网络中大量用户的存在,每条URL被点击的概率为0. 13%,这个比例远远高于垃圾邮 件中URL被点击的概率,因此,在社交网站中,用户更容易受到钓鱼网站的攻击。 传统的基于内容的垃圾邮件过滤是指通过对邮件内容进行分析来判定邮件是否 属于垃圾邮件。由于垃圾邮件和正常邮件的内容风格迥异,因此可以利用机器学习算法对 垃圾邮件和正常邮件的内容进行训练,利用训练好的模型进行预测。但是,在社交网络(例 如新浪微博、Twitter等)中,由于用户发布的消息受到字数(例如140)的限制,垃圾消息和 正常消息在内容上并没有太大区别,因此,传统的基于内容的过滤算法不再适用于社交网 络Spam过滤。
技术实现思路
本专利技术的目的在于提供,该方法 有利于准确提取、过滤社交网络中的垃圾消息。 本专利技术采用的技术方案是:,包 ...
【技术保护点】
一种基于机器学习的社交网络垃圾消息过滤方法,其特征在于,包括以下步骤:步骤S1:针对一社交网络,定义需要从所述社交网络的社交消息中提取的特征向量,构建一垃圾消息过滤规则集;所述垃圾消息过滤规则集中定义有多个垃圾关键字,各垃圾关键字对应有一分值,从而可根据社交消息中出现垃圾关键字的个数、频次,计算社交消息的垃圾关键字得分;步骤S2:从所述社交网络中取一定数量的社交消息作为训练样本,所述社交消息包括正常消息和垃圾消息,然后通过信息增益算法对各训练样本进行特征提取,得到各训练样本的特征向量中除垃圾关键字得分之外的所有元素;步骤S3:根据垃圾消息过滤规则集,计算各训练样本的垃圾关键字得分,得到各训练样本完整的特征向量;步骤S4:将步骤S3得到的各训练样本的特征向量,输入支持向量机进行训练,得到垃圾消息过滤模型;步骤S5:利用所述垃圾消息过滤模型对待测消息进行检测,判断待测消息是否为垃圾消息。
【技术特征摘要】
1. 一种基于机器学习的社交网络垃圾消息过滤方法,其特征在于,包括以下步骤: 步骤S1 :针对一社交网络,定义需要从所述社交网络的社交消息中提取的特征向量, 构建一垃圾消息过滤规则集;所述垃圾消息过滤规则集中定义有多个垃圾关键字,各垃圾 关键字对应有一分值,从而可根据社交消息中出现垃圾关键字的个数、频次,计算社交消息 的垃圾关键字得分; 步骤S2 :从所述社交网络中取一定数量的社交消息作为训练样本,所述社交消息包括 正常消息和垃圾消息,然后通过信息增益算法对各训练样本进行特征提取,得到各训练样 本的特征向量中除垃圾关键字得分之外的所有元素; 步骤S3 :根据垃圾消息过滤规则集,计算各训练样本的垃圾关键字得分,得到各训练 样本完整的特征向量; 步骤S4 :将步骤S3得到的各训练样本的特征向量,输入支持向量机进行训练,得到垃 圾消息过滤模型; 步骤S5 :利用所述垃圾消息过滤模型对待测消息进行检测,判断待测消息是否为垃圾 消息。2. 根据权利要求1所述的一种基于机器学习的社交网络垃圾消息过滤方法,其特征在 于,步骤S1中,所述社交消息的特征向量VI为: Vl=[转发数,评论数,赞数,URL链接...
【专利技术属性】
技术研发人员:郑相涵,陈国龙,曾志鹏,
申请(专利权)人:福州大学,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。