一种面向网络敏感信息的截图取证与锁定回访的方法技术

技术编号:8271428 阅读:279 留言:1更新日期:2013-01-31 03:38
本发明专利技术公开了一种面向网络敏感信息的截图取证与锁定回访方法,该方法包括:对所监测网站的网页数据进行采集;对网页数据进行规范化处理、基于正则表达式抽取网页标题和链接、基于网页标题和链接进行敏感信息的匹配;对敏感信息进行外页和内页截图;对敏感信息锁定回访以防止其“死灰复燃”;对敏感信息截图结果进行存储与查询。对于网络上的敏感信息,本发明专利技术能够在最短时间内发现并对其截图保存,防止此类网页日后被更新或删除,便于相关处置机构存档取证和及时处置,以及对屡次发布敏感信息的网站进行处理。此外,本发明专利技术的方法还能够有效解决对网络敏感信息的监控和处置需求,适用于网络舆情分析系统的实施。

【技术实现步骤摘要】
本专利技术涉及互联网信息管理领域,特别是一种面向网络敏感信息的截图取证与锁定回访的方法
技术介绍
近年来,互联网在我国快速发展、迅速普及,日益成为人民群众关注社会事务和表达意见的重要渠道。随着我国信息化建设加快推进,互联网在为信息交流带来方便、文化建设注入生机的同时,也使网络敏感信息“插上了翅膀”。敏感信息一般包括三大类政治类、色情类和其他,其一经出现就会引起网民的格外关注,进而产生巨大的舆论压力。借助现代信息技术,网络敏感信息的传播方式、传播速度、影响范围呈几何级数增长,危害巨大。加强此类信息的有效监管,对确保我国构建和谐社会、创造良好的网络文化环境具有重要意义。 然而由于网络上信息量巨大,传统依靠人工的内容监管手段,在敏感信息的及时发现、有效处置方面日益暴露出应对能力有限、处置效率低下的问题。因此,研究面向网络敏感信息的截图取证与锁定回访系统具有重要的现实意义。对包含敏感信息的网页第一时间截图取证,可以防止此类网页日后被更新或删除,方便相关处置机构存档取证以及对屡次发布敏感信息的网站进行处理。此外,此类网页经处置后一段时间可能会再次出现,需对其进行锁定回访避免“死灰复燃”。目前国内市场主要的舆情系统具有的功能有 I、舆情信息采集根据用户设定的目标关键词和目标网站,通过网站页面之间的链接关系,从网上自动采集页面信息,并通过链接不断向整个网络范围扩展,最终完成定制范围的/[目息米集任务。2、舆情分析功能主要包括(1)热点发现和热点追踪利用话题发现与追踪技术把网民不关注的信息过滤掉,发现与追踪网民关注的热点和焦点;(2)话题倾向性分析对于发现的热点话题,根据网民对其发表的观点、倾向性进行统计分析,得出该话题的倾向性;(3)网页自动分类用户可以单独使用关键字分类系统或自然语义智能分类系统,将采集的原始网页自动分为多个类别;(4)统计分析统计数据以柱状、饼状、曲线等图形直观表现,并支持以word,excel等文件形式导出;(5)舆情简报根据用户自定义的简报格式,将用户关注的舆情信息自动添加到简报中,辅助用户生成各种类型的舆情简报。3、舆情检索功能对采集到的网页信息进行多方位检索,如按关键词、发布网站、转载网站、发布时间、发布作者等信息进行检索。综上,现有的网络舆情系统主要针对采集到的所有网页进行热点话题的挖掘,并没有一种较为有效地针对敏感舆情进行分析的方法,因此存在这样一种技术需求,即,需要一种快速可靠的方法或系统来及时发现和监控网络敏感舆情。
技术实现思路
本专利技术所要解决的技术问题是,针对现有技术不足,提供一种面向网络敏感信息的截图取证与锁定回访的方法,及时、准确地发现并取证网页中的敏感信息,为网络敏感信息监管部门监管模式的转变和手段创新、创造良好网络文化环境提供技术平台保障。为解决上述技术问题,本专利技术所采用的技术方案是一种面向网络敏感信息的截图取证与锁定回访的方法,包括面向网络敏感信息的截图取证与锁定回访系统,面向网络敏感信息的截图取证与锁定回访的系统包括计算中心和数据库服务器,计算中心与数据库服务器通信,该方法的具体步骤为 1)利用网络爬虫采集网页数据; 2)对采集的数据进行预处理,然后利用正则表达式抽取网页中的信息,并利用这些信息进行敏感信息匹配; 3)对包含敏感信息的网页进行截 4)对包含敏感信息的网页进行锁定回访; 5)存储截图结果。网页数据采集首先设置监测网站的网址,可以设置一个或多个监测网站;然后设置采集参数,如采集线程数、采集深度、网页保存位置等;最后进行网页数据采集,采集工具使用互联网上免费提供的LoalaSam网络爬虫。敏感信息匹配首先对采集的网页数据进行预处理,主要是对网页源代码进行规范化处理;然后基于正则表达式抽取网页中的标题、链接等有用信息;最后进行敏感信息的匹配。网页截图对包含敏感信息的网页进行截图取证,截取的图片包括网页内页和外页,其中内页是指该敏感信息的正文内容所在页面,外页是指该敏感信息的标题所在的导航页面,用于引导用户点击进入其内页,网页截图采用webbrowser控件。目标网页锁定回访包含敏感信息的网页经相关部门处置后可能会在该网站同一位置或其它位置再次出现,为防止其“死灰复燃”,将该网页网址设置为锁定状态并加入系统回访网址库,系统将按照一定的时间周期对其再次回访探测。截图结果存储与查询截图后的图片可采用数据库或文件两种方式进行存储。本专利技术中图片的属性及其存储路径采用数据库存储,图片内容本身以文件方式存储在本地硬盘中,本专利技术用到的数据库版本为oracle IOgo本专利技术相对于现有技术的有益效果如下(1)通过对网页标题进行关键词匹配,可以在第一时间及时、快速的发现敏感信息,为遏制敏感信息的进一步扩散赢得宝贵时间;(2)通过对敏感信息进行截图,将其以直观的图片形式保存下来,一方面可以防止敏感信息日后被更新或删除,方便日后浏览查看;另一方面方便相关处置机构存档取证,以及对屡次发布敏感信息的网站进行处理;(3)包含敏感信息的网页经相关部门处置或删除一段时间后,经常会在该网站同一位置或其它位置重新出现,这种“死灰复燃”现象在很大程度上增加了网络敏感信息处置的难度和工作量。通过对敏感信息进行锁定回访,一旦该敏感信息再次出现,系统将自动加强对其的探测周期且在必要时进行预警,并再次发送给处置部门加强对其处置的力度,直至其彻底消亡。本专利技术的方法能及时、准确地发现并取证网页中的敏感信息,为网络敏感信息监管部门监管模式的转变和手段创新、创造良好网络文化环境提供了技术平台保障。附图说明图I为本专利技术一实施例面向网络敏感信息的截图取证与锁定回访系统结构示意 图2为本专利技术一实施例网页敏感信息匹配流程 图3为四种主流截图插件对比分析 图4为本专利技术一实施例网页锁定回访流程 图5为本专利技术一实施例截图配置表; 图6为本专利技术一实施例截图信息表; 图7为本专利技术一实施例敏感关键词及监测网站设置示意 图8为本专利技术一实施例用户所设置的任务列表; 图9为本专利技术一实施例截图结果显示界面示意 图10为本专利技术一实施例面向网络敏感信息的截图取证与锁定回访方法流程图。具体实施例方式下面结合附图详细说明本专利技术的具体实施方式。如图I所示,本专利技术的面向网络敏感信息的截图取证与锁定回访的系统包括计算中心和数据库服务器,计算中心与数据库服务器通信。如图10所示,本专利技术的方法步骤如下 (一)网页数据采集 网页数据的采集是网络敏感信息截图取证的数据基础,本专利技术利用名为LoalaSam的网络爬虫(蜘蛛)进行采集。LoalaSam是一个由VC6. O开发,运行在Windows平台上的网络爬虫,它可以高效地从互联网上获取海量资源,这些资源包括网页文本信息、图片、音频、视频以及其他类型的文件资源。可在http://code, google, com/p/loalasam/下载最新的LoalaSam 版本。LoalaSam具有以下特点 (O高效的互联网爬行及资源下载; (2)广泛的目标资源及可配置性; (3)多线程下载及异步请求机制; (4)深度优先爬行算法; (5)可选择性的遍历单个域名、多个域名、网站或者整个互联网; (6)LoalaSam能够达到网络环境支持的最大下载速度,例如用户网络限速为8本文档来自技高网
...

【技术保护点】
一种面向网络敏感信息的截图取证与锁定回访的方法,包括面向网络敏感信息的截图取证与锁定回访系统,面向网络敏感信息的截图取证与锁定回访的系统包括计算中心和数据库服务器,计算中心与数据库服务器通信,其特征在于,该方法的具体步骤为:1)利用网络爬虫采集网页数据;2)对采集的数据进行预处理,然后利用正则表达式抽取网页中的信息,并利用这些信息进行敏感信息匹配;3)对包含敏感信息的网页进行截图;4)对包含敏感信息的网页进行锁定回访;5)存储截图结果。

【技术特征摘要】
1.一种面向网络敏感信息的截图取证与锁定回访的方法,包括面向网络敏感信息的截图取证与锁定回访系统,面向网络敏感信息的截图取证与锁定回访的系统包括计算中心和数据库服务器,计算中心与数据库服务器通信,其特征在于,该方法的具体步骤为 1)利用网络爬虫采集网页数据; 2)对采集的数据进行预处理,然后利用正则表达式抽取网页中的信息,并利用这些信息进行敏感信息匹配; 3)对包含敏感信息的网页进行截图; 4)对包含敏感信息的网页进行锁定回访; 5)存储截图结果。2.根据权利要求I所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤I)中,网络爬虫为LoalaSam。3.根据权利要求I所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤2)中,预处理是指对网页进行规范化处理。4.根据权利要求I所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤2)中,利用正则表达式抽取网页中的标题、超链接信息。5.根据权利要求I所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤2)中,敏感信息匹配为标题匹配,其实现过程如下 1)遍历网页包含的第一个超链接,获取该超链接对应的标题,对其标题进行分词; 2)将用户设定的关键词逐一与标题分词结果进行匹配,判断该标题是否包含设定的关键词; 3)若匹配成功,对该网页进行标记,用于后续外页截图;同时标记该超链接,用于后续内页截图; 4)若匹配未成功,返回I)继续遍历下一个超链接。6.根据权利要求I所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤3)中,利用Webbrowser插件中的Navigate及DrawToBitmap方法实现网页截图,其实现过程如下 O将用户所需截图的网页链接URL传递给Navigate方法; 2)Navigate方法将指定URL处的文档加载到WebBrowser插件中,同时为防止网页加载时间过长甚至无法加载成功...

【专利技术属性】
技术研发人员:李芳芳葛斌汤大权肖卫东殷风景贺明科封孝生谭文堂
申请(专利权)人:中国人民解放军国防科学技术大学
类型:发明
国别省市:

网友询问留言 已有1条评论
  • 来自[北京市电信互联网数据中心] 2015年01月22日 11:43
    回访是指公司客服部门相关负责人,向本公司的客户回访有关本公司的产品及服务的态度及一些问题。从而达到更好的服务。来提升公司的形象。
    0
1