一种用于划分恶意文本的方法技术

技术编号：35003503 阅读：12 留言：0更新日期：2022-09-21 14:53

本发明专利技术属于计算机应用技术领域，具体涉及一种用于划分恶意文本的方法，包括如下步骤：步骤1，启动恶意文本检测系统；步骤2，恶意文本检测系统释放爬虫获取页面；步骤3，检测系统对爬虫获取的页面进行判定；步骤4，检测系统根据步骤3判定结果对网页分类；步骤5，检测系统收到用户访问请求，判断该网页是否包含恶意文本；若该页面未被判定则检测系统将该页面加入URL集合并返回步骤3；步骤6，若该页面被判定为恶意则阻断访问；若该页面不被判定为恶意则正常访问，本发明专利技术解决了现有的检测方法模型构建代价高、无法持续有效更新且特征向量更新慢、难以持续有效的问题。难以持续有效的问题。难以持续有效的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于划分恶意文本的方法

[0001]本专利技术属于计算机应用
，具体涉及一种用于划分恶意文本的方法。

技术介绍

[0002]当前对互联网恶意文本的检测，主要分为两类：
[0003][0004]1.特征向量检测：安全研究人员一般会主动发现互联网地下产业恶意推广者使用内容恶意填充进行搜索引擎优化攻击，分析恶意推广者编写自动化内容提交工具、预设的待优化的关键词和自动提交过程，对整个过程进行针对性检测。例如，通过少数几个种子网站找到更多用于搜索引擎投毒的攻击网站、实现对搜索引擎内容投毒网站的高效检测；或通过研究地下产业从业者滥用搜索引擎关键词补全功能、拼写纠错功能的特征向量，进行恶意行为检测。
[0005]2.文本模型检测：在自然语言处理模型中，核心的步骤是分词，分词的过程重点是构造关键词词典。安全研究一般通过监控地下产业论坛，获取从业者沟通记录并聚类形成地下产业关键词典，为自然语言处理模型提供基础的分词依据；同时尝试对地下产业从业者在聊天群中的文本记录使用Word2vec模型进行自动处理，提取地下产业关键词并分类。
[0006]当前对互联网恶意文本监测的方法主要存在模型构建代价高、无法持续有效更新且特征向量更新慢、难以持续有效的问题。

技术实现思路

[0007]本专利技术的目的在于提供一种用于划分恶意文本的方法，解决现有的检测方法模型构建代价高、无法持续有效更新且特征向量更新慢、难以持续有效的问题。
[0008]为解决上述问题，本专利技术提供...

【技术保护点】

【技术特征摘要】
1.一种用于划分恶意文本的方法，其特征在于，包括如下步骤：步骤1，启动恶意文本检测系统；步骤2，恶意文本检测系统释放爬虫获取页面；步骤3，检测系统对爬虫获取的页面进行判定；步骤4，检测系统根据步骤3判定结果对网页分类；步骤5，检测系统收到用户访问请求，判断该网页是否包含恶意文本；若该页面未被判定则检测系统将该页面加入URL集合并返回步骤3；步骤6，若该页面被判定为恶意则阻断访问，若该页面不被判定为恶意则正常访问。2.根据权利要求1所述的一种用于划分恶意文本的方法，其特征在于：步骤2中，爬虫获取页面采用爬虫调度子系统，该系统包括如下步骤：步骤2.1，启动恶意文本检测系统，爬虫调度子系统开始运行；步骤2.2，监控线程循环监控CPU和内存使用状态，若超过阈值则向爬虫线程发送结束信号，爬虫线程系统结束；若未超过阈值则向爬虫系统发送正常运行信号；步骤2.3，监控线程休眠30秒后返回步骤2.2再次进行判定；步骤2.4，爬虫线程判断当前URL集合是否为空，为空则结束系统；否则从待爬取URL集合中获取一个待爬取URL，爬取并渲染页面，将页面更新至检测系统。3.根据权利要求1所述的一种用于划分恶意文本的方法，其特...

【专利技术属性】
技术研发人员：宁晓莉，钟华，刘瑶，
申请(专利权)人：北京天瑞宁科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人