一种基于机器学习的网页有害信息识别方法技术

技术编号:21034572 阅读:39 留言:0更新日期:2019-05-04 05:31
本发明专利技术公开了一种基于机器学习的网页有害信息识别方法,包括以下步骤:S1:使用网络爬虫爬取已知分类网站机器学习训练所用的语料库;S2:预处理爬取的语料库,生成训练集和测试集;S3:进行机器学习算法的模型训练和模型验证;S4:输入待甄别网页,通过模型对文本进行分类,返回类别结果和准确率。本发明专利技术基于机器学习、训练模型、文本分类技术,对抓取的网页进行分类识别,根据网页识别结果的所属类别,达到甄别网页是否存在有害信息、进一步判断网站是否存在有害信息的目的。

A Harmful Information Recognition Method for Web Pages Based on Machine Learning

【技术实现步骤摘要】
一种基于机器学习的网页有害信息识别方法
本专利技术涉及网页内容识别
,特别是涉及一种基于机器学习的网页有害信息识别方法。
技术介绍
随着我国互联网基础设施建设的不断开展,网站应用服务种类日益增多,据统计,截至2017年底,我国网站数量达到了526.06万个,网页更是不计其数。网页和应用服务成了人们日常获取新闻、资讯的重要途径。由于网络的空间特殊性,网站所保存内容在访问前不易为人所知,所以在网络服务器上存在的这些亿计的网页中不乏色情、赌博、暴力、恐怖等有害内容,而且这些有害内容形式、关键字时常变换,如果任由有害内容泛滥、传播成灾,势必造成恶劣的社会影响。所以如何有效的对网页内容进行有害性甄别,还要能够满足海量数据处理的性能要求成了目前亟需解决的问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于机器学习的网页有害信息识别方法,达到通过爬虫获取语料、训练识别模型,进而判别待甄别网页内容是否含有有害内容的目的。本专利技术的目的是通过以下技术方案来实现的:一种基于机器学习的网页有害信息识别方法,包括以下步骤:S1:使用网络爬虫爬取已知分类网站机器学习训练所用的语料库;本文档来自技高网...

【技术保护点】
1.一种基于机器学习的网页有害信息识别方法,其特征在于:包括以下步骤:S1:使用网络爬虫爬取已知分类网站机器学习训练所用的语料库;S2:预处理爬取的语料库,生成训练集和测试集;S3:进行机器学习算法的模型训练和模型验证;S4:输入待甄别网页,通过模型对文本进行分类,返回类别结果和准确率。

【技术特征摘要】
1.一种基于机器学习的网页有害信息识别方法,其特征在于:包括以下步骤:S1:使用网络爬虫爬取已知分类网站机器学习训练所用的语料库;S2:预处理爬取的语料库,生成训练集和测试集;S3:进行机器学习算法的模型训练和模型验证;S4:输入待甄别网页,通过模型对文本进行分类,返回类别结果和准确率。2.根据权利要求1所述的一种基于机器学习的网页有害信息识别方法,其特征在于:所述步骤S2包括以下子步骤:S201:剔除html,提取文本信息;S20...

【专利技术属性】
技术研发人员:张家亮卢江波张明亮贾宇
申请(专利权)人:成都三零凯天通信实业有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1