一种基于关键词权重的涉黄网站检测方法及装置制造方法及图纸

技术编号:32005166 阅读:25 留言:0更新日期:2022-01-22 18:21
本发明专利技术涉及一种基于关键词权重的涉黄网站检测方法及装置。该方法利用词频统计生成涉黄网站和非涉黄网站都出现的涉黄关键词的识别权重值即第一识别权重;然后对非涉黄网站中没有出现的涉黄关键词,通过KNN实现TextRank权重到涉黄识别权重的映射,进而计算涉黄识别权重即第二识别权重;然后提取待判别网站的文本特征,包括文本长度、命中关键词列表长度和命中关键词权重均值,利用逻辑回归模型对网站是否涉黄进行判别。本发明专利技术能够利用网页文本信息对网站内容进行涉黄自动判别,当通过爬虫程序获取到网站的文本内容后,通过本方法可快速有效的识别网站是否涉黄,降低人工识别的工作量,提高识别效率。提高识别效率。提高识别效率。

【技术实现步骤摘要】
一种基于关键词权重的涉黄网站检测方法及装置


[0001]本专利技术属于信息
,具体涉及一种基于关键词权重的涉黄网站检测方法及装置。

技术介绍

[0002]随着科技的进步,社会的发展,互联网已成为人们日常生活中不可或缺的一部分。人们通过网络,获取各种信息,与他人进行交流沟通,购买商品。网络极大的方便了人们的生活,加快了信息流通的速度,降低了信息流通的成本。然而网络中也存在着一些非法有害的信息,如黄色网站,给人们特别是青少年的身心健康成长带来了严重的负面影响。如何有效自动识别黄色网站,隔绝黄色网站对青少年的不良影响,成为一个及其现实的社会问题。

技术实现思路

[0003]本专利技术提出了一种利用网页文本信息,对网站内容进行涉黄自动判别的方法。当通过爬虫程序获取到网站的文本内容后,通过本方法可快速有效的识别网站是否涉黄,降低人工识别的工作量,提高识别效率。同时本方法也可用于涉赌网站的检测。
[0004]本专利技术采用的技术方案如下:
[0005]一种基于关键词权重的涉黄网站检测方法,包括以下步骤:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关键词权重的涉黄网站检测方法,其特征在于,包括以下步骤:建立涉黄关键词词库,所述涉黄关键词词库包含涉黄关键词列表以及涉黄关键词权重列表;利用所述涉黄关键词词库,提取待判别网站的文本特征,并利用逻辑回归模型对待判别网站是否涉黄进行判别。2.根据权利要求1所述的方法,其特征在于,所述建立涉黄关键词词库,包括:从网络下载各种网站的文本信息,并打上标签即涉黄、非涉黄,从而生成涉黄网站集合和非涉黄网站集合;根据涉黄网站中的文本信息,人工提取生成涉黄关键词列表;利用词频统计为涉黄网站和非涉黄网站都出现的涉黄关键词生成识别权重,称为第一识别权重;对只在涉黄网站出现而非涉黄网站中没有出现的涉黄关键词,通过KNN算法实现TextRank权重到涉黄识别权重的映射,得到第二识别权重;第一识别权重和第二识别权重构成涉黄关键词权重列表。3.根据权利要求2所述的方法,其特征在于,假设某个涉黄关键词在涉黄网站集合中的词频统计值为N,在非涉黄网站集合中的词频统计值为M,则该涉黄关键词第一识别权重为N/(N+M)。4.根据权利要求2所述的方法,其特征在于,采用以下步骤计算所述第二识别权重:利用TextRank算法对涉黄网站文本信息进行处理,生成涉黄关键词的TextRank权重列表;利用生成的带有第一识别权重的涉黄关键词列表生成的涉黄关键词的TextRank权重列表,对KNN算法进行训练,第一识别权重作为KNN算法的输出Y,涉黄关键词的TextRank权重作为KNN算法的输入X;利用生成的KNN算法,对未出现在非涉黄网站的涉黄关键词列表,利用其TextRank权重...

【专利技术属性】
技术研发人员:张恒张聪刘冰张立坤
申请(专利权)人:中国互联网络信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1