【技术实现步骤摘要】
一种基于机器学习的网页有害信息识别方法
本专利技术涉及网页内容识别
,特别是涉及一种基于机器学习的网页有害信息识别方法。
技术介绍
随着我国互联网基础设施建设的不断开展,网站应用服务种类日益增多,据统计,截至2017年底,我国网站数量达到了526.06万个,网页更是不计其数。网页和应用服务成了人们日常获取新闻、资讯的重要途径。由于网络的空间特殊性,网站所保存内容在访问前不易为人所知,所以在网络服务器上存在的这些亿计的网页中不乏色情、赌博、暴力、恐怖等有害内容,而且这些有害内容形式、关键字时常变换,如果任由有害内容泛滥、传播成灾,势必造成恶劣的社会影响。所以如何有效的对网页内容进行有害性甄别,还要能够满足海量数据处理的性能要求成了目前亟需解决的问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于机器学习的网页有害信息识别方法,达到通过爬虫获取语料、训练识别模型,进而判别待甄别网页内容是否含有有害内容的目的。本专利技术的目的是通过以下技术方案来实现的:一种基于机器学习的网页有害信息识别方法,包括以下步骤:S1:使用网络爬虫爬取已知分类网站机器学 ...
【技术保护点】
1.一种基于机器学习的网页有害信息识别方法,其特征在于:包括以下步骤:S1:使用网络爬虫爬取已知分类网站机器学习训练所用的语料库;S2:预处理爬取的语料库,生成训练集和测试集;S3:进行机器学习算法的模型训练和模型验证;S4:输入待甄别网页,通过模型对文本进行分类,返回类别结果和准确率。
【技术特征摘要】
1.一种基于机器学习的网页有害信息识别方法,其特征在于:包括以下步骤:S1:使用网络爬虫爬取已知分类网站机器学习训练所用的语料库;S2:预处理爬取的语料库,生成训练集和测试集;S3:进行机器学习算法的模型训练和模型验证;S4:输入待甄别网页,通过模型对文本进行分类,返回类别结果和准确率。2.根据权利要求1所述的一种基于机器学习的网页有害信息识别方法,其特征在于:所述步骤S2包括以下子步骤:S201:剔除html,提取文本信息;S20...
【专利技术属性】
技术研发人员:张家亮,卢江波,张明亮,贾宇,
申请(专利权)人:成都三零凯天通信实业有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。