一种用于划分恶意文本的方法技术

技术编号:35003503 阅读:12 留言:0更新日期:2022-09-21 14:53
本发明专利技术属于计算机应用技术领域,具体涉及一种用于划分恶意文本的方法,包括如下步骤:步骤1,启动恶意文本检测系统;步骤2,恶意文本检测系统释放爬虫获取页面;步骤3,检测系统对爬虫获取的页面进行判定;步骤4,检测系统根据步骤3判定结果对网页分类;步骤5,检测系统收到用户访问请求,判断该网页是否包含恶意文本;若该页面未被判定则检测系统将该页面加入URL集合并返回步骤3;步骤6,若该页面被判定为恶意则阻断访问;若该页面不被判定为恶意则正常访问,本发明专利技术解决了现有的检测方法模型构建代价高、无法持续有效更新且特征向量更新慢、难以持续有效的问题。难以持续有效的问题。难以持续有效的问题。

【技术实现步骤摘要】
一种用于划分恶意文本的方法


[0001]本专利技术属于计算机应用
,具体涉及一种用于划分恶意文本的方法。

技术介绍

[0002]当前对互联网恶意文本的检测,主要分为两类:
[0003][0004]1.特征向量检测:安全研究人员一般会主动发现互联网地下产业恶意推广 者使用内容恶意填充进行搜索引擎优化攻击,分析恶意推广者编写自动化内容 提交工具、预设的待优化的关键词和自动提交过程,对整个过程进行针对性检 测。例如,通过少数几个种子网站找到更多用于搜索引擎投毒的攻击网站、实 现对搜索引擎内容投毒网站的高效检测;或通过研究地下产业从业者滥用搜索 引擎关键词补全功能、拼写纠错功能的特征向量,进行恶意行为检测。
[0005]2.文本模型检测:在自然语言处理模型中,核心的步骤是分词,分词的过 程重点是构造关键词词典。安全研究一般通过监控地下产业论坛,获取从业者 沟通记录并聚类形成地下产业关键词典,为自然语言处理模型提供基础的分词 依据;同时尝试对地下产业从业者在聊天群中的文本记录使用Word2vec模型进 行自动处理,提取地下产业关键词并分类。
[0006]当前对互联网恶意文本监测的方法主要存在模型构建代价高、无法持续有 效更新且特征向量更新慢、难以持续有效的问题。

技术实现思路

[0007]本专利技术的目的在于提供一种用于划分恶意文本的方法,解决现有的检测方 法模型构建代价高、无法持续有效更新且特征向量更新慢、难以持续有效的问 题。
[0008]为解决上述问题,本专利技术提供如下技术方案:
[0009]一种用于划分恶意文本的方法,包括如下步骤:
[0010]步骤1,启动恶意文本检测系统;
[0011]步骤2,恶意文本检测系统释放爬虫获取页面;
[0012]步骤3,检测系统对爬虫获取的页面进行判定;
[0013]步骤4,检测系统根据步骤3判定结果对网页分类;
[0014]步骤5,检测系统收到用户访问请求,判断该网页是否包含恶意文本;若该 页面未被判定则检测系统将该页面加入URL集合并返回步骤3;
[0015]步骤6,若该页面被判定为恶意则阻断访问;若该页面不被判定为恶意则正 常访问。
[0016]进一步地,步骤2中,爬虫获取页面采用爬虫调度子系统,该系统包括如 下步骤:
[0017]步骤2.1,启动恶意文本检测系统,爬虫调度子系统开始运行;
[0018]步骤2.2,监控线程循环监控CPU和内存使用状态,若超过阈值则向爬虫线 程发送
结束信号,爬虫线程系统结束;若未超过阈值则向爬虫系统发送正常运 行信号;
[0019]步骤2.3,监控线程休眠30秒后返回步骤2.2再次进行判定;
[0020]步骤2.4,爬虫线程判断当前URL集合是否为空,为空则结束系统;否则从 待爬取URL集合中获取一个待爬取URL,爬取并渲染页面,将页面更新至检测系 统。
[0021]进一步地,步骤3中,恶意文本检测系统检测网页是否为恶意采用恶意文 本检测子系统,该系统包括如下步骤:
[0022]步骤3.1,启动恶意文本检测系统,恶意文本检测子系统开始运行,等待 URL;
[0023]步骤3.2,根据URL特征判断是否包含恶意文本内容;若不是则获取URL关 联文本并进入文本检测模型,判断是否包含恶意文本内容;
[0024]步骤3.3,检测系统阻断访问判定为恶意的页面,并对其内容拆解分析,提 取新特征并构建检测向量,更新检测模型。
[0025]进一步地,当用户请求访问的页面未被检测系统判定,则爬虫调度子系统 优先爬取该页面,且恶意文本检测子系统优先检测该页面是否为恶意网页。
[0026]进一步地,步骤2.2中,若超过阈值则向爬虫线程发送结束信号,该阈值 为80%CPU使用率和85%内存使用率,若任一使用率超过阈值,则向爬虫线程发 送结束信号。
[0027]进一步地,步骤2.2中,爬虫线程结束后CPU和内存使用率下降,若监控 系统监测到CPU和内存使用率均低于阈值则向爬虫系统发送正常运行信号,爬 虫线程开始运行。
[0028]与现有技术相比,本专利技术提供的一种用于划分恶意文本的方法有益效果如 下:
[0029]1、本专利技术提供的一种用于划分恶意文本的方法,在运行过程中,不断地爬 取网页,通过对恶意网页内容进行分析,可以快速构建模型,并且可以持续有 效地更新模型。
[0030]2、本专利技术提供的一种用于划分恶意文本的方法,每次开启系统即可自动运 行,爬取每日更新的URL,解决了特征向量更新慢、难以持续有效的问题。
附图说明
[0031]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0032]图1为本专利技术一种用于划分恶意文本的方法的工作流程示意图;
[0033]图2为本专利技术一种用于划分恶意文本的方法中的爬虫调度子系统的架构示 意图;
[0034]图3为本专利技术一种用于划分恶意文本的方法中的恶意文本检测子系统的架 构示意图。
具体实施方式
[0035]下面将通过具体实施方式对本专利技术的技术方案进行清楚、完整地描述。显 然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得 的所有其他实施例,都属于本专利技术保护的范围。
[0036]如图1所示,本申请实施例一种用于划分恶意文本的方法,包括如下步骤:
[0037]步骤1,启动恶意文本检测系统,检测系统开始运行;
[0038]步骤2,恶意文本检测系统主动释放爬虫,获取可能包含恶意文本的页面;
[0039]步骤3,检测系统根据模型判断新获取的URL是否为恶意;
[0040]步骤4,检测系统根据网页是否包含恶意内容将网页分类为恶意和非恶意;
[0041]步骤5,检测系统收到用户访问请求,检测系统开始判断该网页是否包含恶 意文本;若该页面未被判定过则检测系统将该页面加入URL集合并返回步骤3;
[0042]步骤6,若该页面被判定为恶意,则检测系统构建警告页面并阻断用户访问 该页面;若该页面不为恶意则用户可以正常访问。
[0043]本申请实施例中,检测系统释放爬虫主动获取可能包含恶意文本的页面, 并对获取的页面进行判断和分类;当用户请求访问页面时,若该页面已被检测 系统分类则根据判定结果反馈给用户,当用户请求访问的页面未被检测系统判 定,则爬虫调度子系统优先爬取该页面,且恶意文本检测子系统优先检测该页 面是否为恶意网页;该检测系统开启即可自动运行,根据每日新爬取到的内容 更新检测模型。
[0044]如图2所示,步骤2中,爬虫获取页面采用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于划分恶意文本的方法,其特征在于,包括如下步骤:步骤1,启动恶意文本检测系统;步骤2,恶意文本检测系统释放爬虫获取页面;步骤3,检测系统对爬虫获取的页面进行判定;步骤4,检测系统根据步骤3判定结果对网页分类;步骤5,检测系统收到用户访问请求,判断该网页是否包含恶意文本;若该页面未被判定则检测系统将该页面加入URL集合并返回步骤3;步骤6,若该页面被判定为恶意则阻断访问,若该页面不被判定为恶意则正常访问。2.根据权利要求1所述的一种用于划分恶意文本的方法,其特征在于:步骤2中,爬虫获取页面采用爬虫调度子系统,该系统包括如下步骤:步骤2.1,启动恶意文本检测系统,爬虫调度子系统开始运行;步骤2.2,监控线程循环监控CPU和内存使用状态,若超过阈值则向爬虫线程发送结束信号,爬虫线程系统结束;若未超过阈值则向爬虫系统发送正常运行信号;步骤2.3,监控线程休眠30秒后返回步骤2.2再次进行判定;步骤2.4,爬虫线程判断当前URL集合是否为空,为空则结束系统;否则从待爬取URL集合中获取一个待爬取URL,爬取并渲染页面,将页面更新至检测系统。3.根据权利要求1所述的一种用于划分恶意文本的方法,其特...

【专利技术属性】
技术研发人员:宁晓莉钟华刘瑶
申请(专利权)人:北京天瑞宁科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1