一种基于机器学习的网页有害信息识别方法技术

技术编号：21034572 阅读：39 留言：0更新日期：2019-05-04 05:31

本发明专利技术公开了一种基于机器学习的网页有害信息识别方法，包括以下步骤：S1：使用网络爬虫爬取已知分类网站机器学习训练所用的语料库；S2：预处理爬取的语料库，生成训练集和测试集；S3：进行机器学习算法的模型训练和模型验证；S4：输入待甄别网页，通过模型对文本进行分类，返回类别结果和准确率。本发明专利技术基于机器学习、训练模型、文本分类技术，对抓取的网页进行分类识别，根据网页识别结果的所属类别，达到甄别网页是否存在有害信息、进一步判断网站是否存在有害信息的目的。

A Harmful Information Recognition Method for Web Pages Based on Machine Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的网页有害信息识别方法
本专利技术涉及网页内容识别
，特别是涉及一种基于机器学习的网页有害信息识别方法。
技术介绍
随着我国互联网基础设施建设的不断开展，网站应用服务种类日益增多，据统计，截至2017年底，我国网站数量达到了526.06万个，网页更是不计其数。网页和应用服务成了人们日常获取新闻、资讯的重要途径。由于网络的空间特殊性，网站所保存内容在访问前不易为人所知，所以在网络服务器上存在的这些亿计的网页中不乏色情、赌博、暴力、恐怖等有害内容，而且这些有害内容形式、关键字时常变换，如果任由有害内容泛滥、传播成灾，势必造成恶劣的社会影响。所以如何有效的对网页内容进行有害性甄别，还要能够满足海量数据处理的性能要求成了目前亟需解决的问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足，提供一种基于机器学习的网页有害信息识别方法，达到通过爬虫获取语料、训练识别模型，进而判别待甄别网页内容是否含有有害内容的目的。本专利技术的目的是通过以下技术方案来实现的：一种基于机器学习的网页有害信息识别方法，包括以下步骤：S1：使用网络爬虫爬取已知分类网站机器学...

【技术保护点】
1.一种基于机器学习的网页有害信息识别方法，其特征在于：包括以下步骤：S1：使用网络爬虫爬取已知分类网站机器学习训练所用的语料库；S2：预处理爬取的语料库，生成训练集和测试集；S3：进行机器学习算法的模型训练和模型验证；S4：输入待甄别网页，通过模型对文本进行分类，返回类别结果和准确率。

【技术特征摘要】
1.一种基于机器学习的网页有害信息识别方法，其特征在于：包括以下步骤：S1：使用网络爬虫爬取已知分类网站机器学习训练所用的语料库；S2：预处理爬取的语料库，生成训练集和测试集；S3：进行机器学习算法的模型训练和模型验证；S4：输入待甄别网页，通过模型对文本进行分类，返回类别结果和准确率。2.根据权利要求1所述的一种基于机器学习的网页有害信息识别方法，其特征在于：所述步骤S2包括以下子步骤：S201：剔除html，提取文本信息；S20...

【专利技术属性】
技术研发人员：张家亮，卢江波，张明亮，贾宇，
申请(专利权)人：成都三零凯天通信实业有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人