一种面向微博的异常用户和消息同时检测方法技术

技术编号:11310120 阅读:127 留言:0更新日期:2015-04-16 07:35
本发明专利技术属于互联网信息安全管理领域,具体涉及一种面向微博的异常用户和消息同时检测方法。本发明专利技术包括:(1)数据预处理;(2)交互提取及建模;(3)基于同质交互的异质交互矩阵度量学习;(4)异质交互矩阵三分解;(5)基于先验知识的异常用户和消息识别。本发明专利技术从用户和消息两类实体出发,对两类实体产生的同质交互和异质交互进行建模,提出了面向微博的异常用户和消息的同时检测方法。在该方法中,针对异质交互矩阵,采用非负矩阵三分解的方法能够同时给出用户和消息的划分指示矩阵,提高了检测的效率。

【技术实现步骤摘要】
一种面向微博的异常用户和消息同时检测方法
本专利技术属于互联网信息安全管理领域,具体涉及一种面向微博的异常用户和消息同时检测方法。
技术介绍
随着Twitter的快速流行,我国的新浪微博、腾讯微博等快速崛起。我国的微博用户超过3个亿,每天发布的大量的微博消息。微博已经深入融入到人民的生活当中。微博具有快速的消息推送机制,使得消息在微博平台中快速传播,产生巨大的影响力。国内外有大量的研究针对Twitter进行,而新浪微博作为国内最流行的微博平台,其发布的内容主题、用户行为等与Twitter差别较大,因此国内需要进一步对其进行深入研究。新浪微博平台中每天有大量的活跃用户和消息内容。然而,微博成为日常的社交平台的同时,平台本身、政府等对安全管理的难度逐渐增大。一些用户为了特定的目的,发布大量的异常消息。例如微博中包含大量的营销账号、僵尸粉丝等,他们经常发布大量的广告消息、促销活动消息等。一些用户为了特定的目的,通过水军、营销账号等集体推动某些消息快速广泛传播,获取巨大利益等。如何检测异常的用户和消息是微博安全管理急需解决的问题之一。目前针对异常用户的检测,提出了一些检测算法。主要从用户的特征属性、用户发布消息的内容属性和行为属性方面进行研究,很少涉及异常单条消息的检测。传统的异常检测方法在检测异常用户和消息时,通常单独进行处理。但是,随着异常用户的智能性越来越高,很多异常的用户很难检测,异常消息就更难检测。针对异常消息检测时,大多数都是基于以下假设进行研究:异常用户发布的消息为异常消息,正常用户发布的消息为正常消息。显然该假设针对智能异常用户已经失效。例如异常用户为了逃避新浪微博本身的检测,通常情况下发布大量的正常消息,而只有在特定的情况下才发布异常消息。在异常用户的智能性越来越高的背景下,我们抓住微博中用户和消息两类最重要的实体,从交互行为分析出发,提出了一种面向微博的异常用户和消息同时检测方法。
技术实现思路
本专利技术的目的在于提供一种提高异常检测准确率的面向微博的异常用户和消息同时检测方法。本专利技术的目的是这样实现的:面向微博的异常用户和消息同时检测方法,包括以下步骤:(1)数据预处理;(2)交互提取及建模;(3)基于同质交互的异质交互矩阵度量学习;(4)异质交互矩阵三分解;(5)基于先验知识的异常用户和消息识别。数据预处理的步骤为:(1.1)用户消息排序及数据选择,根据用户发布消息时间对消息进行排序,选择用户最新的消息作为实验数据集;(1.2)用户特征形式化和消息内容形式化:将用户的粉丝数和关注数形式化为一个特征向量,将消息内容中的链接、图片、标签、提及等形式化为消息内容属性向量。交互提取及建模的步骤为:(2.1)交互提取,分别提取同质交互:关注和转发,异质交互:评论、发布、提及;(2.2)交互关系建模,将提取的交互关系采用二部图进行建模。基于同质交互的异构交互矩阵度量学习的步骤为:(3.1)用户相似性和相异性关系度量,根据用户特征向量计算用户的异常值,在此基础上,计算任意两个用户之间的相似性和相异性值,构建用户的相似性和相异性矩阵;(3.2)消息相似性和相异性关系度量,根据消息属性向量计算消息的异常值,并结合用户的异常值,计算任意两条消息之间的相似性和相异性值,构建消息的相似性和相异性矩阵;(3.3)关系距离度量学习,在距离度量学习的基础上,通过用户和消息的相似性和相异性矩阵学习新的异质交互矩阵。异质交互矩阵三分解为非负矩阵三分解,采用乘法更新迭代求解。基于先验知识的异常用户和消息识别的步骤为:(5.1)基于先验知识的异常用户识别,根据用户的异常值是否超过阈值作为先验知识指导,结合用户划分指示矩阵得到最终的异常用户检测;(5.2)基于先验知识的异常消息识别,根据消息的异常值是否超过阈值作为先验知识指导,结合消息划分指示矩阵得到最终的异常消息检测。本专利技术的有益效果在于:1)本专利技术从用户和消息两类实体出发,对两类实体产生的同质交互和异质交互进行建模,提出了面向微博的异常用户和消息的同时检测方法。在该方法中,针对异质交互矩阵,采用非负矩阵三分解的方法能够同时给出用户和消息的划分指示矩阵,提高了检测的效率。2)本专利技术在度量用户和消息的相似性和相异性交互基础上,通过距离度量学习,将同质交互融合到异质交互矩阵中,进一步提高了检测方法的准确率。附图说明图1系统检测流程图。图2用户-消息交互示意图。图3用户-消息二部图模型。具体实施方式下面结合附图对本专利技术做进一步描述。鉴于现有的异常检测方法通常从用户的特征属性、内容属性和行为属性方面进行研究,但是异常用户的智能性越来越高,传统的方法的准确率越来越低。在该背景下,本专利技术提出了一种面向微博的异常用户和消息同时检测方法。该方法中放弃“异常用户发布的消息为异常消息,正常用户发布的消息为正常消息”的假设。而是抓住微博平台中最重要的两类实体:用户和消息,重点分析两类实体产生的交互关系。通过对用户和消息之间的同质交互和异质交互进行建模,采用非负矩阵三分解的方法实现异常用户和消息的同时检测。在该方法中,通过用户和消息的相似性和相异性度量,将同质交互融合到异质交互矩阵中,进而提高了异常检测的准确率。本专利技术的整体检测流程如图1所示,具体分为五个步骤。步骤A:数据预处理;步骤B:交互提取及建模;步骤C:基于同质交互的异构交互矩阵度量学习;步骤D:异质交互矩阵三分解;步骤E:基于先验知识的异常用户和消息识别。所述步骤A包括些下列步骤:步骤A1,用户消息排序及数据选择,根据用户发布消息时间对消息进行排序,选择用户最新的消息作为实验数据集;步骤A2,用户特征形式化和消息内容形式化。将用户的粉丝数和关注数形式化为一个特征向量。将消息内容中的链接、图片、标签、提及等形式化为消息内容属性向量。所述步骤B包括些下列步骤:步骤B1,交互关系提取,分别提取同质交互:关注和转发,异质交互:评论、发布、提及;步骤B2,交互建模,将提取的交互关系采用二部图进行建模。所述步骤C包括些下列步骤:步骤C1,用户相似性和相异性关系度量,根据用户特征向量计算用户的异常值。在此基础上,计算任意两个用户之间的相似性和相异性值,构建用户的相似性和相异性矩阵;步骤C2,消息相似性和相异性关系度量,根据消息属性向量计算消息的异常值,并结合用户的异常值,计算任意两条消息之间的相似性和相异性值,构建消息的相似性和相异性矩阵;步骤C3,关系距离度量学习。在距离度量学习的基础上,通过用户和消息的相似性和相异性矩阵学习新的异质关系矩阵。所述步骤D包括些下列步骤:步骤D1,非负矩阵三分解,采用乘法更新迭代求解;所述步骤E包括些下列步骤:步骤E1,基于先验知识的异常用户识别。根据用户的异常值是否超过阈值作为先验知识指导,结合用户划分指示矩阵得到最终的异常用户检测。步骤E2,基于先验知识的异常消息识别。根据消息的异常值是否超过阈值作为先验知识指导,结合消息划分指示矩阵得到最终的异常消息检测。为了完成本专利技术,针对微博的异常用户和消息同时检测进行如下实施,并给出具体的实施例。(一)本专利技术中抽取用户最近一页的微博消息和用户属性信息。首先对微博消息按照发布时间序进行排序,并选择最新的20条微博消息。然后对于每一个用户,提取其对应的特征属性:粉丝数、本文档来自技高网
...
一种面向微博的异常用户和消息同时检测方法

【技术保护点】
一种面向微博的异常用户和消息同时检测方法,其特征在于,包括以下步骤:(1)数据预处理;(2)交互提取及建模;(3)基于同质交互的异质交互矩阵度量学习;(4)异质交互矩阵三分解;(5)基于先验知识的异常用户和消息识别。

【技术特征摘要】
1.一种面向微博的异常用户和消息同时检测方法,其特征在于,包括以下步骤:(1)数据预处理;(2)交互提取及建模;(3)基于同质交互的异质交互矩阵度量学习;(4)异质交互矩阵三分解;(5)基于先验知识的异常用户和消息识别;所述交互提取及建模的步骤为:(2.1)交互提取,分别提取同质交互:关注和转发,异质交互:评论、发布、提及;(2.2)交互关系建模,将提取的交互关系采用二部图进行建模;所述基于同质交互的异质交互矩阵度量学习的步骤为:(3.1)用户相似性和相异性关系度量,根据用户特征向量计算用户的异常值,在此基础上,计算任意两个用户之间的相似性和相异性值,构建用户的相似性和相异性矩阵;(3.2)消息相似性和相异性关系度量,根据消息属性向量计算消息的异常值,并结合用户的异常值,计算任意两条消息之间的相似性和相异性值,构建消息的相似性和相异性矩阵;(3.3)关系距离度量学习,在距离度量...

【专利技术属性】
技术研发人员:杨武申国伟王巍苘大鹏玄世昌
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1