【技术实现步骤摘要】
本专利技术涉及网络内容安全的,更具体地说,尤其涉及一种网页敏感内容的风险识别方法。本专利技术还涉及实现该种方法的系统及装置。
技术介绍
1、网站(website)是在互联网上拥有域名或地址并提供一定网络服务的主机,是存储文件的空间,以服务器为载体。人们可以通过网站来发布自己想要公开的资讯,或者利用网站来提供相关的网络服务。随着互联网的迅速发展,网站每天所产生的数据将变得越来越大,这些信息大多被存储在服务器内,这些信息缺乏有效的监测和审核措施,随时存在被黑客攻击、篡改等风险。现网站开发人员或管理人员并没有行之有效的方式对这些数据进行快速检测,筛查出存在问题的页面。当有问题的内容被用户浏览时,会出现不当言论(如涉政、辱骂等)、敏感内容(如色情)、隐私数据、木马等不良信息,这对于运营带来巨大的不良影响。
2、现在避免该问题的方法多采用人为审查、用户反馈等方式,但这些方法不仅效率低,并且还大大降低了发现此类信息的时效性。即使借助人工智能算法进行判断,也会出现大量的遗漏、误判信息。因此,亟待设计出一种能够更为有效的识别出网页敏感内容风
...【技术保护点】
1.一种网页敏感内容的风险识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种网页敏感内容的风险识别方法,其特征在于,所述的步骤S1中所建立的敏感词库包括敏感词黑名单、敏感词白名单、各个敏感词所属类型以及各个敏感词的分数值,通过设置正则表达式后加载敏感词库,构建出识别系统上下文环境。
3.根据权利要求1所述的一种网页敏感内容的风险识别方法,其特征在于,所述的步骤S2具体操作为:读取页面内容,当页面属于无效页面时,直接丢弃并读取下一页面内容,当页面属于有效页面时进行格式化处理得到含标签的html1文件和不含标签的html2文件。
...【技术特征摘要】
1.一种网页敏感内容的风险识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种网页敏感内容的风险识别方法,其特征在于,所述的步骤s1中所建立的敏感词库包括敏感词黑名单、敏感词白名单、各个敏感词所属类型以及各个敏感词的分数值,通过设置正则表达式后加载敏感词库,构建出识别系统上下文环境。
3.根据权利要求1所述的一种网页敏感内容的风险识别方法,其特征在于,所述的步骤s2具体操作为:读取页面内容,当页面属于无效页面时,直接丢弃并读取下一页面内容,当页面属于有效页面时进行格式化处理得到含标签的html1文件和不含标签的html2文件。
4.根据权利要求3所述的一种网页敏感内容的风险识别方法,其特征在于,所述的步骤s3包括以下步骤:
5.根据权利要求4所述的一种网页敏感内容的风险识别方法,其特征在于,所述的步骤s3中,提取出敏感内容元数据后,还将敏感内容元数据进行可疑度分值计算后更新敏感内容元数...
【专利技术属性】
技术研发人员:刘昌颜,
申请(专利权)人:东信网安深圳科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。