当前位置: 首页 > 专利查询>郭诺专利>正文

自主发布信息的网络服务中检查信息内容的方法和装置制造方法及图纸

技术编号:2825396 阅读:250 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了自主发布信息的网络服务中检查信息内容的方法和装置,完成了对具有大量实时更新内容的网站进行准实时的内容监管和情况获知的需求,解决了因人力不足造成的监管不利问题,或者因使用强关键字过滤造成的用户发布信息受限过多、用户体验下降的问题。其技术方案为:方法包括:对指定网站的所有网页或新增网页进行全站范围的自动爬行扫描;根据设定的检索策略检查网页内容,获取符合该检索策略的设定要求的内容/页面地址;将符合该检索策略的设定要求的内容/页面地址以预先设定的可选择的方式上报。本发明专利技术应用于网络领域。

【技术实现步骤摘要】

本专利技术涉及一种在自主发布信息的网络服务中检查信息内容的方法和装置,尤其一种通过对网站进行全站自动爬行扫描以及进行可选择方式上报的在自主发布信息的网络服务中检查信息内容的方法和装置。
技术介绍
当前有很多网络服务都涉及各种表现形式的由用户自我发起的网络信息的发布行为,我们称作“自主发布信息的网络服务”,具体是指可以由用户自己填写内容并发布可以被公众浏览到的网页的服务,如电子公告板(BBS)、博客(Blog)、评价及评述、留言板等等服务。这类网站服务的经营和管理者,为了回避用户可能发布有害或不恰当信息的行为,通常采取下述方法来控制和管理用户的信息发布行为:(1)关键字过滤方法;(2)通过人工检查确认再行发布的方法;(3)关键字发现与人工检查确认相结合的方法。当使用关键字过滤方法时,设置关键字过多会对用户的发布行为和内容可读性、完整性造成影响,设置过少又达不到有效管理的目的,并且语言的多样性也会使这种方法限制了很多符合规定的内容的发布,造成不必要的过多限制进而影响了良好的用户体验。而使用人工检查确认的方法又需要投入大量人力来完成管理以及服务的实时性受到影响。使用关键字发现与人工检查确认相结合的方法通常仅限于服务商内部组织技术力量和人力来完成对后台信息数据的检索和管理。这对于没有足够人力管理的中小服务商或者作为网络服务的外部监管者,实现信息的24×7有效管理和关注较为困难。
技术实现思路
-->本专利技术的目的在于解决上述问题,提供了一种在自主发布信息的网络服务中检查信息内容的方法,完成了对具有大量实时更新内容的网站进行准实时的内容监管和情况获知的需求,解决了因人力不足造成的监管不利问题,或者因使用强关键字过滤造成的用户发布信息受限过多、用户体验下降的问题。本专利技术的另一目的在于提供了一种在自主发布信息的网络服务中检查信息内容的装置,完成了对具有大量实时更新内容的网站进行准实时的内容监管和情况获知的需求,解决了因人力不足造成的监管不利问题,或者因使用强关键字过滤造成的用户发布信息受限过多、用户体验下降的问题。根据关注内容的侧重点不同,本专利技术也可用于对全站内容进行设定检索策略的自动扫描来检索和发现指定的关注内容,并上报关注人员。本专利技术的技术方案为:本专利技术揭示了一种在自主发布信息的网络服务中检查信息内容的方法,包括:(1)对指定网站的所有网页或新增网页进行全站范围的自动爬行扫描;(2)根据设定的检索策略检查网页内容,获取符合该检索策略的设定要求的内容/页面地址;(3)将符合该检索策略的设定要求的内容/页面地址以预先设定的可选择的方式上报。上述的在自主发布信息的网络服务中检查信息内容的方法,其中,在步骤(2)中,该检索策略包括对基于文本网页进行关键字和表达式匹配的检查、对基于特定文件格式标志进行发现的匹配检查、对图像图片文件进行特定类型的图像识别的检查、对人类语言进行语意机器自动识别的匹配检查中的任意一种组合。上述的在自主发布信息的网络服务中检查信息内容的方法,其中,步骤(3)中该预先设定的可选择的方式包括Email上报、电话上报、手机上报、即时通号码上报。上述的在自主发布信息的网络服务中检查信息内容的方法,其中,步骤(1)和(2)进一步包括:(a)根据限定的时间特性条件判断是否符合周期间隔或特定时间的控制条件,如果符合条件则进入步骤(b);(b)动态装填准备接受扫描的页面URL队列;-->(c)判断在该页面URL队列中是否还有可扫描的URL对象,如果有可扫描的URL对象则提取出其中一个URL对象,否则直接转入步骤(3);(d)建立连接并通过头连接判断URL对象的页面文件可用性的基本信息,如果基本信息符合设定的可检测条件则继续下一步,否则将该URL对象标记为错误并记入错误队列;(e)进行网页内容实体下载和初步状态性检查,如果检查结果符合则继续分析网页内容,否则将该URL对象标记为错误并记入错误队列;(f)分析网页的内容实体,进行URL检查分析以及根据设定的检索策略的检查,其中URL检查分析过程包括将可用的URL装填入待分析的URL队列,不符检查条件的URL做抛弃标记并记入错误队列;(g)在被检查的URL页面文件是不包含URL信息的二进制类型文件时仅执行检索策略的检查,包括对内容实体进行检索策略的匹配比对,当发现触发该检索策略的问题时将URL做标记并记入待报警的URL队列,同时将当前页面URL做水印标记、检查时间标记和状态标记。本专利技术还揭示了一种自主发布信息的网络服务中检查信息内容的装置,包括:全站自动爬行扫描模块,对指定网站的所有网页或新增网页进行全站范围的自动爬行扫描;检索策略检查模块,按照设定的检索策略检查网页内容,获取符合该检索策略设定要求的内容/页面地址;可选择上报模块,将符合该检索策略所触发的内容/页面地址以预先设定的可选择的方式进行上报。上述的自主发布信息的网络服务中检查信息内容的装置,其中,该检索策略检查模块中设定的检索策略包括对基于文本网页进行关键字和表达式匹配的检查、对基于特定文件格式标志进行发现的匹配检查、对图像图片文件进行特定类型的图像识别的检查、对人类语言进行语意机器自动识别的匹配检查中的任意一种组合。上述的自主发布信息的网络服务中检查信息内容的装置,其中,该可选择上报模块包括Email上报单元、电话上报单元、手机上报单元、即时通号码上报单元。本专利技术对比现有技术有如下的有益效果:本专利技术通过对指定网站的所有网页或新增网页进行全站范围的自动爬行扫描,根据设定的检索策略检查网页内容,获-->取符合检索策略设定的要求的内容/页面地址,并这些内容/页面地址以预先设定的可选择的方式上报。对比现有技术,本专利技术解决了因人力不足造成的监管不利问题,或者因使用刚性强关键字过滤造成的用户发布信息受限过多、用户体验下降的问题。附图说明图1是本专利技术的网站内容报警的系统拓扑图。图2是本专利技术的用户信息和任务设置流程图。图3是本专利技术的在自主发布信息的网络服务中检查信息内容的方法的较佳实施例的流程图。图4是图3实施例中的子流程图。图5是图3实施例中的子流程图。图6是本专利技术的在自主发布信息的网络服务中检查信息内容的装置的较佳实施例的框图。具体实施方式下面结合附图和实施例对本专利技术作进一步的描述。图1示出了本专利技术的网站内容检查报警的系统拓扑结构。请参见图1,对于网站检查报警中心10来说,存在如下的设置。首先允许用户创建一系列的监控扫描任务,每个任务对应一个网站或一个起始网页;第二,用户创建任务时设置每个任务的安全策略(例如关键字和表达方式、特征或特定功能性匹配检查等);第三,被设置需检查的网站接收后台扫描程序周期性检查,位于系统的后台调度程序启动广泛分布的节点扫描服务器以完成这些任务,当发现策略被内容激发时启动相应的报警提醒设备,发送通知到指定的用户设备和地址;第四,安全策略被激发时相应的设备类型和地址(即电话及号码、MSN及账户、电子邮件及信箱地址等)将获得通知。图2示出了本专利技术的用户信息和任务设置的流程。请参见图2,系统设计了相应的菜单来管理用户信息、任务、网站扫描日志、图形化统计等,为后台扫描系统提供扫描监控目标和安全策略,同时为报警提醒系统设置相应的Email、手机、即-->时通等信息终端的相应号码等,当本文档来自技高网...

【技术保护点】
一种在自主发布信息的网络服务中检查信息内容的方法,包括:(1)对指定网站的所有网页或新增网页进行全站范围的自动爬行扫描;(2)根据设定的检索策略检查网页内容,获取符合该检索策略的设定要求的内容/页面地址;(3)将符合该检索策略的设定要求的内容/页面地址以预先设定的可选择的方式上报。

【技术特征摘要】
1、一种在自主发布信息的网络服务中检查信息内容的方法,包括:(1)对指定网站的所有网页或新增网页进行全站范围的自动爬行扫描;(2)根据设定的检索策略检查网页内容,获取符合该检索策略的设定要求的内容/页面地址;(3)将符合该检索策略的设定要求的内容/页面地址以预先设定的可选择的方式上报。2、根据权利要求1所述的在自主发布信息的网络服务中检查信息内容的方法,其特征在于,在步骤(2)中,该检索策略包括对基于文本网页进行关键字和表达式匹配的检查、对基于特定文件格式标志进行发现的匹配检查、对图像图片文件进行特定类型的图像识别的检查、对人类语言进行语意机器自动识别的匹配检查中的任意一种组合。3、根据权利要求1所述的在自主发布信息的网络服务中检查信息内容的方法,其特征在于,步骤(3)中该预先设定的可选择的方式包括Email上报、电话上报、手机上报、即时通号码上报。4、根据权利要求1所述的在自主发布信息的网络服务中检查信息内容的方法,其特征在于,步骤(1)和(2)进一步包括:(a)根据限定的时间特性条件判断是否符合周期间隔或特定时间的控制条件,如果符合条件则进入步骤(b);(b)动态装填准备接受扫描的页面URL队列;(c)判断在该页面URL队列中是否还有可扫描的URL对象,如果有可扫描的URL对象则提取出其中一个URL对象,否则直接转入步骤(3);(d)建立连接并通过头连接判断URL对象的页面文件可用性的基本信息,如果基本信息符合设定的可检测条件则继续下一步,否则将该URL对象标记为错误并记入错误队列;(e)进行网页内容实体...

【专利技术属性】
技术研发人员:郭诺
申请(专利权)人:郭诺
类型:发明
国别省市:31[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1