一种WEB应用系统敏感文字的检测方法及系统技术方案

技术编号:9113418 阅读:159 留言:0更新日期:2013-09-05 02:36
本发明专利技术提供了一种WEB应用系统敏感文字的检测方法及系统,该方法及系统对需要检测的网站内容进行抓取和使用预设的敏感文字库对网站内容进行敏感文字模糊检测;通过敏感文字语意分析对检测出的敏感文字进行分析,并将其进行自动分词,生成敏感文字分词列表;将该列表中的敏感文字分词与敏感文字库中的敏感文字进行比对并再次进行敏感文字模糊检测,形成最终敏感词文字分词列表,得出检测结果。本发明专利技术提供的方法和系统可以自动提取网页内容,并运用敏感文字语意分析和模糊检测等技术,从而可以更好的进行敏感文字的检测及其信息的提取,为网站安全信息的维护提供方便。

【技术实现步骤摘要】
一种WEB应用系统敏感文字的检测方法及系统
本专利技术涉及网络安全领域,特别涉及一种WEB应用系统敏感文字的检测方法及系统。
技术介绍
网站敏感文字检测是内容审计的一种,主要是对网站的页面内容进行敏感文字检测,从而解决网站内容安全的业务问题。在现有技术中一般包括基于网络层的技术和基于应用层的技术。基于网络层的技术适用于网络安全内容审计,主要应用于政府、企业等单位的内部网络的数据、流量和内容的监控、分析、内容审计功能,可对网站访问、邮件收发、远程终端访问、数据库访问、数据传输、文件共享等提供完整的内容检测、信息还原功能;并可自定义敏感文字库,进行细粒度的审计追踪。基于应用层的技术主要是通过抓取网页的内容进行分析,通常命名为网络爬虫。网络爬虫是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络爬虫就可以用这个原理把互联网上所有的网页都抓取下来。目前在网站内容监控、网站信息收集等方面得到了运用,概述如下:网站内容监控:实时或定时监控网的内容,主要涉及到舆情,舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者及其政治取向产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。对于客户与客户有关的突发事件,系统提供从全网信息的爬取、定位、分析、跟踪、报告等功能,从而给客户解决舆情早发现的问题。通过舆情早发现,为客户争取舆情早处理的时间。同时,通过对舆情阶段的预判,为客户解决舆情、应对舆情提供一定的建议和资料收集。此外,在舆情处理过程中,系统支持协同处理,支持多个部门协同应对一个舆情,以解决目前在舆情处理中,信息不对称、处理应对手段不一致、各自发声的问题。网站信息收集:无论是对其政府、企业还是个人,都有其关注的网站信息。以地方政府为例,民生问题、群众呼声、重大政策的民意、重大工程的宣传导向、泄密等,都是政府需要收集的。但是现有技术中的基于网络层的内容审计主要在内部网络中运用,很少涉及到互联网上的网站,并且其主要做操作行为的记录和分析,不能实现复杂的,高精确的敏感文字检测,偏差和误报率太大;而基于应用层的敏感文字检测,没有从内容和上下文角度对语意进行分析;对敏感文字库的完善和积累做得不好,出现误报和漏报的概率大。因此现有技术还有待进一步的改进。
技术实现思路
本专利技术的目的是,针对上述现有技术存在的缺陷提供了一种WEB应用系统敏感文字的检测方法及系统,以便于实现复杂的高精确度的网站敏感文字的检测,为网站的信息内容监控及信息收集提供方便。本专利技术的技术方案如下:一种WEB应用系统敏感文字的检测方法,其中,包括以下方法步骤:S1.每隔一预定的时间对需要进行检测的网站进行检测,抓取检测网站的首页内容及与首页链接的第一层和第二层的内容;S2.使用预先设置的敏感文字库对抓取到的网站内容进行第一次模糊检测,并使用敏感文字语意分析自动对第一次模糊检测出的文字进行语意分析,判断其是否为敏感文字,并将判定出的敏感文字进行自动分词,生成初步敏感文字分词列表;S3.将形成的初步敏感文字分词列表中的敏感文字分词与所述敏感文字库中的敏感文字进行比对,过滤掉非敏感文字的分词,再次使用敏感文字语意分析对过滤后的敏感文字分词列表中的分词进行语意分析,并对敏感文字进行统一,形成最终敏感词文字分词列表;S4.利用最终敏感词文字分词列表对抓取到的网站内容进行第二次模糊检测,并记录其中敏感文字库中相同的敏感文字和与敏感文字库中敏感文字语意相同或者相似的模糊敏感文字,使用敏感文字语意分析对模糊敏感文字进行语意分析,判断其是否为敏感文字,并将判定为敏感文字的模糊敏感文字汇总到敏感文字中;S5.汇总敏感文字及出现敏感文字的网络地址,并将汇总结果进行输出显示。所述WEB应用系统敏感文字的检测方法,其中,在上述步骤S1中抓取到的页面内容以原始格式存于硬盘,页面的内容包含js脚本、链接、图片和文字内容信息。所述WEB应用系统敏感文字的检测方法,其中,在步骤S5中还包括:将所述敏感文字库相对比敏感文字分词列表中不存在的敏感文字分词补入到敏感文字库中,完成敏感文字库的自动更新。所述WEB应用系统敏感文字的检测方法,其中,将所述敏感文字库中不存在的敏感文字分词通过自动添加或者手动添加的方式补入敏感文字库中。所述WEB应用系统敏感文字的检测方法,其中,在步骤S5中所述输出显示方法包括:使用列表的形式链接敏感文字及其对应的网站地址并输出文本格式的检测报告。一种WEB应用系统敏感文字的检测系统,其中,所述系统包括以下模块:网站内容抓取模块,用于每隔一预定的时间对需要进行检测的网站进行检测,抓取检测网站的首页内容及与首页链接的第一层和第二层的内容;第一次模糊检测模块,使用预先设置的敏感文字库对抓取到的网站内容进行第一次模糊检测并使用敏感文字语意分析自动对第一次模糊检测出的文字进行语意分析,判断其是否为敏感文字,并将这些敏感文字进行自动分词,生成初步敏感文字分词列表。第二次模糊检测模块,将形成的初步敏感文字分词列表中的敏感文字分词与所述敏感文字库中的敏感文字进行比对,过滤掉非敏感文字的分词,再次使用敏感文字语意分析对网站内容进行第二次模糊检测,并将敏感文字进行统一,形成最终敏感词文字分词列表。敏感文字检测分析模块,利用最终敏感词文字分词列表对抓取到的网站内容进行第二次模糊检测,并记录其中敏感文字库中相同的敏感文字和与敏感文字库中敏感文字语意相同或者相似的模糊敏感文字,使用敏感文字语意分析对模糊敏感文字进行语意分析,判断其是否为敏感文字,并将判定为敏感文字的模糊敏感文字汇总到敏感文字中。检测结果输出模块,汇总敏感文字及出现敏感文字的网络地址,并将汇总结果进行输出显示。所述WEB应用系统敏感文字的检测系统,其中,还包括敏感文字库更新模块,用于将所述敏感文字库相对比最终敏感文字分词列表中不存在的敏感文字分词补入到敏感文字库中,完成敏感文字库的自动更新。所述WEB应用系统敏感文字的检测系统,其中,所述敏感文字库更新模块中将所述敏感文字库中不存在的敏感文字分词通过自动添加或者手动添加的方式补入敏感文字库中。所述WEB应用系统敏感文字的检测系统,其中,检测结果输出模块中使用列表的形式链接敏感文字及其对应的网站地址并输出文本格式的检测报告。本专利技术的有益效果为:本专利技术提供了一种WEB应用系统敏感文字的检测方法及系统,该方法及系统通过自动抓取网站内容信息,并使用其预设的敏感文字库、敏感文字语意分析和敏感文字模糊配备等技术来对网站内容中所包含的敏感词进行提取,从而不仅可以实现复杂的高精确度的网站敏感文字的检测,及时发现网站中所包含的敏感文字并及时进行处理,并且敏感文字库可以自动更新,敏感文字的检测会更加的准确。附图说明图1为本专利技术一种WEB应用系统敏感文字的检测方法流程图。图2为本专利技术一种WEB应用系统敏感文字的检测方法最佳实施例的示意图。图3为本专利技术一种WEB应用系统敏感文字的检测系统结构原理图。具体实施方式本文档来自技高网
...
一种WEB应用系统敏感文字的检测方法及系统

【技术保护点】
一种WEB应用系统敏感文字的检测方法,其特征在于,包括以下方法步骤:S1.?每隔一预定的时间对需要进行检测的网站进行检测,抓取检测网站的首页内容及与首页链接的第一层和第二层的内容;S2.?使用预先设置的敏感文字库对抓取到的网站内容进行第一次模糊检测,并使用敏感文字语意分析自动对第一次模糊检测出的文字进行语意分析,判断其是否为敏感文字,并将判定出的敏感文字进行自动分词,生成初步敏感文字分词列表;?S3.将形成的初步敏感文字分词列表中的敏感文字分词与所述敏感文字库中的敏感文字进行比对,过滤掉非敏感文字的分词,再次使用敏感文字语意分析对过滤后的敏感文字分词列表中的分词进行语意分析,并对敏感文字进行统一,形成最终敏感词文字分词列表;S4.利用最终敏感词文字分词列表对抓取到的网站内容进行第二次模糊检测,并记录其中敏感文字库中相同的敏感文字和与敏感文字库中敏感文字语意相同或者相似的模糊敏感文字,使用敏感文字语意分析对模糊敏感文字进行语意分析,判断其是否为敏感文字,并将判定为敏感文字的模糊敏感文字汇总到敏感文字中;S5.汇总敏感文字及出现敏感文字的网络地址,并将汇总结果进行输出显示。

【技术特征摘要】
1.一种WEB应用系统敏感文字的检测方法,其特征在于,包括以下方法步骤:S1.每隔一预定的时间对需要进行检测的网站进行检测,抓取检测网站的首页内容及与首页链接的第一层和第二层的内容;S2.使用预先设置的敏感文字库对抓取到的网站内容进行第一次模糊检测,并使用敏感文字语意分析自动对第一次模糊检测出的文字进行语意分析,判断其是否为敏感文字,并将判定出的敏感文字进行自动分词,生成初步敏感文字分词列表;S3.将形成的初步敏感文字分词列表中的敏感文字分词与所述敏感文字库中的敏感文字进行比对,过滤掉非敏感文字的分词,再次使用敏感文字语意分析对过滤后的敏感文字分词列表中的分词进行语意分析,并对敏感文字进行统一,形成最终敏感词文字分词列表;S4.利用最终敏感词文字分词列表对抓取到的网站内容进行第二次模糊检测,并记录其中敏感文字库中相同的敏感文字和与敏感文字库中敏感文字语意相同或者相似的模糊敏感文字,使用敏感文字语意分析对模糊敏感文字进行语意分析,判断其是否为敏感文字,并将判定为敏感文字的模糊敏感文字汇总到敏感文字中;S5.汇总敏感文字及出现敏感文字的网络地址,并将汇总结果进行输出显示;所述敏感文字语意分析为:采用内容语意和上下文语意相结合进行,综合判断出上述文字内容是否为敏感文字。2.根据权利要求1所述WEB应用系统敏感文字的检测方法,其特征在于,在上述步骤S1中抓取到的页面内容以原始格式存于硬盘,页面的内容包含js脚本、链接、图片和文字内容信息。3.根据权利要求1所述WEB应用系统敏感文字的检测方法,其特征在于,在步骤S5中还包括:将所述敏感文字库相对比敏感文字分词列表中不存在的敏感文字分词补入到敏感文字库中,完成敏感文字库的自动更新。4.根据权利要求3所述WEB应用系统敏感文字的检测方法,其特征在于,将所述敏感文字库中不存在的敏感文字分词通过自动添加或者手动添加的方式补入敏感文字库中。5.根据权利要求1所述WEB应用系统敏感文字的检测方法,其特征在于,在步骤S5中所述输出显示方法包括:使用列表的形式链接敏感...

【专利技术属性】
技术研发人员:陈剑锋杨永滨
申请(专利权)人:深圳市易聆科信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1