【技术实现步骤摘要】
一种微博账号分类的方法
本专利技术涉及一种微博账号分类的方法。
技术介绍
在当今互联网高速发展的时代,社交网络日益成为人们互联网生活的重要组成部分,其中微博这种社交网络服务更是成为了最红火的概念。微博是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字以内的文字更新信息,并实现即时分享。由于各类微博对用户的技术门槛都很低,同时微博应用程序编程接口的存在使得用户可以在各种移动终端上登录微博发布消息,这也加速了微博的发展。随着高速发展而来的是各种各样的问题,僵尸账号、广告账号、机器账号及其带来的虚假粉丝、内容污染和舆论误导等问题日益严重。国内外有专家学者已经开始研究异常账号的检测和垃圾内容的过滤技术。微博服务提供商也建立了诸如手机号注册、用户举报等措施来限制异常账号的泛滥。但是,现有的方法中,都是只能识别出异常账号跟普通账号,无法准确识别出账号具体为哪一种类型的微博账号,并且识别效率也相当低。
技术实现思路
本专利技术主要解决的技术问题是如何提供一种能够高效准确识别微博账号类型的方法。有鉴于此,本专利技术实施例提 ...
【技术保护点】
一种微博账号分类的方法,其特征在于,所述方法包括:获取未知类型的微博账号对应的微博数据;对所述微博数据进行特征提取得到微博数据特征;根据所述微博数据特征,采用已建立的按微博数据特征划分的分类模型确定所述微博账号的类型。
【技术特征摘要】
1.一种微博账号分类的方法,其特征在于,所述方法包括:获取未知类型的微博账号对应的微博数据;对所述微博数据进行特征提取得到微博数据特征;根据所述微博数据特征,采用已建立的按微博数据特征划分的分类模型确定所述微博账号的类型。2.根据权利要求1所述的方法,其特征在于,所述微博账号的类型为僵尸账号、广告账号、机器账号或普通账号中的一种。3.根据权利要求2所述的方法,其特征在于,所述在获取微博账号对应的微博数据之前,还包括:获取已知类型的微博账号的微博数据;对所述已知类型的微博账号的微博数据进行特征提取,得到已知类型的微博账号的微博数据特征;对所述已知类型的微博账号的微博数据特征进行机器学习训练,从而建立按微博数据特征划分的分类模型。4.根据权利要求3所述的方法,其特征在于,所述对所述已知类型的微博账号的微博数据特征进行机器学习训练,从而建立按微博数据特征划分的分类模型包括:通过10折交叉验证的方法,对所述已知类型的微博账号的微博数据进行机器学习训练,从而建立按微博数据特征划分的分类模块。5.根据权利要求3所述的方法,其特征在于,所述对所述已知类型的微博账号的微博数据特征进行机器学习训练,从而建立按微博数据特征划分的分类模型包括:分别采用随机森林、朴素贝叶斯和梯度回归分类算法中的至少一种,对所述已知类型的微博账号的...
【专利技术属性】
技术研发人员:董元魁,陈训逊,郎波,王博,王洋,黄亮,
申请(专利权)人:国家计算机网络与信息安全管理中心,北京航空航天大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。