一种WEB应用系统敏感文字的检测方法及系统技术方案

技术编号：9113418 阅读：159 留言：0更新日期：2013-09-05 02:36

本发明专利技术提供了一种WEB应用系统敏感文字的检测方法及系统，该方法及系统对需要检测的网站内容进行抓取和使用预设的敏感文字库对网站内容进行敏感文字模糊检测；通过敏感文字语意分析对检测出的敏感文字进行分析，并将其进行自动分词，生成敏感文字分词列表；将该列表中的敏感文字分词与敏感文字库中的敏感文字进行比对并再次进行敏感文字模糊检测，形成最终敏感词文字分词列表，得出检测结果。本发明专利技术提供的方法和系统可以自动提取网页内容，并运用敏感文字语意分析和模糊检测等技术，从而可以更好的进行敏感文字的检测及其信息的提取，为网站安全信息的维护提供方便。

全部详细技术资料下载

【技术实现步骤摘要】
一种WEB应用系统敏感文字的检测方法及系统
本专利技术涉及网络安全领域，特别涉及一种WEB应用系统敏感文字的检测方法及系统。
技术介绍
网站敏感文字检测是内容审计的一种，主要是对网站的页面内容进行敏感文字检测，从而解决网站内容安全的业务问题。在现有技术中一般包括基于网络层的技术和基于应用层的技术。基于网络层的技术适用于网络安全内容审计，主要应用于政府、企业等单位的内部网络的数据、流量和内容的监控、分析、内容审计功能，可对网站访问、邮件收发、远程终端访问、数据库访问、数据传输、文件共享等提供完整的内容检测、信息还原功能；并可自定义敏感文字库，进行细粒度的审计追踪。基于应用层的技术主要是通过抓取网页的内容进行分析，通常命名为网络爬虫。网络爬虫是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络爬虫就可以用这个原理把互联网上所有的网页都抓取下来。目前在网站内容监控、网站信息收集等方面得到了运用，概述如下：网站内容监控：实时或定时监控网的内容，主要涉及到舆情，舆情是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者及其政治取向产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。对于客户与客户有关的突发事件，系统提供从全网信息的爬取、定位、分析、跟踪、报告等功能，从而给客户解决舆...
一种WEB应用系统敏感文字的检测方法及系统

【技术保护点】
一种WEB应用系统敏感文字的检测方法，其特征在于，包括以下方法步骤：S1.?每隔一预定的时间对需要进行检测的网站进行检测，抓取检测网站的首页内容及与首页链接的第一层和第二层的内容；S2.?使用预先设置的敏感文字库对抓取到的网站内容进行第一次模糊检测，并使用敏感文字语意分析自动对第一次模糊检测出的文字进行语意分析，判断其是否为敏感文字，并将判定出的敏感文字进行自动分词，生成初步敏感文字分词列表；?S3.将形成的初步敏感文字分词列表中的敏感文字分词与所述敏感文字库中的敏感文字进行比对，过滤掉非敏感文字的分词，再次使用敏感文字语意分析对过滤后的敏感文字分词列表中的分词进行语意分析，并对敏感文字进行统一，形成最终敏感词文字分词列表；S4.利用最终敏感词文字分词列表对抓取到的网站内容进行第二次模糊检测，并记录其中敏感文字库中相同的敏感文字和与敏感文字库中敏感文字语意相同或者相似的模糊敏感文字，使用敏感文字语意分析对模糊敏感文字进行语意分析，判断其是否为敏感文字，并将判定为敏感文字的模糊敏感文字汇总到敏感文字中；S5.汇总敏感文字及出现敏感文字的网络地址，并将汇总结果进行输出显示。

【技术特征摘要】
1.一种WEB应用系统敏感文字的检测方法，其特征在于，包括以下方法步骤：S1.每隔一预定的时间对需要进行检测的网站进行检测，抓取检测网站的首页内容及与首页链接的第一层和第二层的内容；S2.使用预先设置的敏感文字库对抓取到的网站内容进行第一次模糊检测，并使用敏感文字语意分析自动对第一次模糊检测出的文字进行语意分析，判断其是否为敏感文字，并将判定出的敏感文字进行自动分词，生成初步敏感文字分词列表；S3.将形成的初步敏感文字分词列表中的敏感文字分词与所述敏感文字库中的敏感文字进行比对，过滤掉非敏感文字的分词，再次使用敏感文字语意分析对过滤后的敏感文字分词列表中的分词进行语意分析，并对敏感文字进行统一，形成最终敏感词文字分词列表；S4.利用最终敏感词文字分词列表对抓取到的网站内容进行第二次模糊检测，并记录其中敏感文字库中相同的敏感文字和与敏感文字库中敏感文字语意相同或者相似的模糊敏感文字，使用敏感文字语意分析对模糊敏感文字进行语意分析，判断其是否为敏感文字，并将判定为敏感文字的模糊敏感文字汇总到敏感文字中；S5.汇总敏感文字及出现敏感文字的网络地址，并将汇总结果进行输出显示;所述敏感文字语意分析为：采用内容语意和上下文语意相结合进行，综合判断出上述文字内容是否为敏感文字。2.根据权利要求1所述WEB应用系统敏感文字的检测方法，其特征在于，在上述步骤S1中抓取到的页面内容以原始格式存于硬盘，页面的内容包含js脚本、链接、图片和文字内容信息。3.根据权利要求1所述WEB应用系统敏感文字的检测方法，其特征在于，在步骤S5中还包括：将所述敏感文字库相对比敏感文字分词列表中不存在的敏感文字分词补入到敏感文字库中，完成敏感文字库的自动更新。4.根据权利要求3所述WEB应用系统敏感文字的检测方法，其特征在于，将所述敏感文字库中不存在的敏感文字分词通过自动添加或者手动添加的方式补入敏感文字库中。5.根据权利要求1所述WEB应用系统敏感文字的检测方法，其特征在于，在步骤S5中所述输出显示方法包括：使用列表的形式链接敏感...

【专利技术属性】
技术研发人员：陈剑锋，杨永滨，
申请(专利权)人：深圳市易聆科信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人