【技术实现步骤摘要】
一种面向社交短文本的安全账号识别方法
[0001]本专利技术涉及计算机网络安全领域,尤其涉及一种面向社交短文本的安全账号识别方法。
技术介绍
[0002][0004]随着社交平台内大量安全领域专家的出现,如何有效的识别网络安全相关的专家成为研究人员关注的课题,目前主流的研究可以分为两类:主题无关的账号发现和主题相关的账号发现。主题无关的账号,首先是利用社交网络中账号之间的关联关系:可以通过社交网络中的中心性来衡量和确定有影响力的账号,认为图的出入度高的结点为网络中的重要结点。或者使用HITS方法,计算Twitter的关注联系图中结点的hub分数和authority分数,识别有影响力的账号。第二种是利用社交网络账号的转推、提及等行为信息,利用PageRank算法计算账号的影响力,或者根据Twitter账号之间的转推行为信息,利用I
‑
P算法衡量账号的影响力和易受影响程,但是这种方法无法获得针对网络安全领域的权威账号。主题相关的账号首先包括主题模型和账号影响力独立模型:首先对账号发布的推文使用正则表达式,结合语 ...
【技术保护点】
【技术特征摘要】
1.一种面向社交短文本的安全账号识别方法,其特征在于,包括以下步骤:收集安全领域种子账号,采集种子账号的列表信息,从所述列表信息中提取关键词,若所述关键词属于安全词汇,则将所述种子账号归入安全账号候选集;采集所述安全账号候选集中的账号的属性信息、推文信息和关系信息,并存入数据库中;构建基于深度学习的安全特征提取模型,以标注的批量安全相关推文和安全不相关推文作为训练数据,来训练该安全特征提取模型;利用训练好的安全特征提取模型对所述数据库中的账号的推文进行分类,提取推文属于安全领域的占比和推文出现的安全词汇量的特征,得到安全领域特征,同时还提取属性特征、行为特征和内容特征;构建并训练基于机器学习的安全账号分类模型,利用该安全账号分类模型根据提取的安全领域特征、属性特征、行为特征和内容特征,判断所述数据库中的账号是否为安全账号。2.如权利要求1所述的方法,其特征在于,从安全厂商和权威公众号收集安全领域种子账号。3.如权利要求1所述的方法,其特征在于,利用Scrapy框架构建的网络爬虫来爬取种子账号的列表信息,该列表信息包括列表名和列表描述;利用Scrapy框架构建的网络爬虫来爬取所述安全账号候选集中的账号的属性信息、推文信息和关系信息。4.如权利要求1所述的方法,其特征在于,对所述列表信息进行预处理来提取关键词,预处理的步骤包括:分词,去除停顿词,分离连接的多个单词,词规范化,词...
【专利技术属性】
技术研发人员:江钧,李银霞,凌志婷,张开,姜政伟,董放明,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。