一种网页敏感内容的风险识别方法、系统及装置制造方法及图纸

技术编号:39932420 阅读:30 留言:0更新日期:2024-01-08 21:55
本发明专利技术公开了一种网页敏感内容的风险识别方法,属于网络内容安全的技术领域,该方法通过建立海量敏感词库,对提取的页面进行敏感词和隐私信息的精准识别,也极大的改善了性能,以满足对网页的批量监测,通过对敏感词库分值进行调整或者增删敏感词,或对算法进行微调,可整体控制监测精度;包括以下步骤:建立敏感词库,加载敏感词库并构建识别系统上下文环境;逐一读取有效页面的内容并进行格式化处理后输出格式化的页面内容;将格式化的页面内容与敏感词库的敏感词库进行识别后提取出所有含敏感词的数据信息的敏感内容元数据;将敏感内容元数据通过无监督分本分类进行语义分析获得敏感内容结果。

【技术实现步骤摘要】

本专利技术涉及网络内容安全的,更具体地说,尤其涉及一种网页敏感内容的风险识别方法。本专利技术还涉及实现该种方法的系统及装置。


技术介绍

1、网站(website)是在互联网上拥有域名或地址并提供一定网络服务的主机,是存储文件的空间,以服务器为载体。人们可以通过网站来发布自己想要公开的资讯,或者利用网站来提供相关的网络服务。随着互联网的迅速发展,网站每天所产生的数据将变得越来越大,这些信息大多被存储在服务器内,这些信息缺乏有效的监测和审核措施,随时存在被黑客攻击、篡改等风险。现网站开发人员或管理人员并没有行之有效的方式对这些数据进行快速检测,筛查出存在问题的页面。当有问题的内容被用户浏览时,会出现不当言论(如涉政、辱骂等)、敏感内容(如色情)、隐私数据、木马等不良信息,这对于运营带来巨大的不良影响。

2、现在避免该问题的方法多采用人为审查、用户反馈等方式,但这些方法不仅效率低,并且还大大降低了发现此类信息的时效性。即使借助人工智能算法进行判断,也会出现大量的遗漏、误判信息。因此,亟待设计出一种能够更为有效的识别出网页敏感内容风险的方法,以增强用户本文档来自技高网...

【技术保护点】

1.一种网页敏感内容的风险识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种网页敏感内容的风险识别方法,其特征在于,所述的步骤S1中所建立的敏感词库包括敏感词黑名单、敏感词白名单、各个敏感词所属类型以及各个敏感词的分数值,通过设置正则表达式后加载敏感词库,构建出识别系统上下文环境。

3.根据权利要求1所述的一种网页敏感内容的风险识别方法,其特征在于,所述的步骤S2具体操作为:读取页面内容,当页面属于无效页面时,直接丢弃并读取下一页面内容,当页面属于有效页面时进行格式化处理得到含标签的html1文件和不含标签的html2文件。p>

4.根据权...

【技术特征摘要】

1.一种网页敏感内容的风险识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种网页敏感内容的风险识别方法,其特征在于,所述的步骤s1中所建立的敏感词库包括敏感词黑名单、敏感词白名单、各个敏感词所属类型以及各个敏感词的分数值,通过设置正则表达式后加载敏感词库,构建出识别系统上下文环境。

3.根据权利要求1所述的一种网页敏感内容的风险识别方法,其特征在于,所述的步骤s2具体操作为:读取页面内容,当页面属于无效页面时,直接丢弃并读取下一页面内容,当页面属于有效页面时进行格式化处理得到含标签的html1文件和不含标签的html2文件。

4.根据权利要求3所述的一种网页敏感内容的风险识别方法,其特征在于,所述的步骤s3包括以下步骤:

5.根据权利要求4所述的一种网页敏感内容的风险识别方法,其特征在于,所述的步骤s3中,提取出敏感内容元数据后,还将敏感内容元数据进行可疑度分值计算后更新敏感内容元数...

【专利技术属性】
技术研发人员:刘昌颜
申请(专利权)人:东信网安深圳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1