监控网站的方法和装置制造方法及图纸

技术编号:12354453 阅读:105 留言:0更新日期:2015-11-19 04:30
本申请公开了监控网站的方法和装置。监控网站的方法包括获取第一导航栏信息,第一导航栏信息为待审核网站的导航栏信息;获取第一内部导航链接信息,第一内部导航链接信息为第一导航栏信息中的内部导航链接信息;提取第一内部导航链接信息中的特征词;比对提取的特征词与已确认的违规特征词表中的违规特征词,得到命中违规特征词的命中数量;根据命中的数量,提示对网站的监控信息。按照本申请实施方式的技术方案,有效提取了网站中的关键词,因此不需要依赖太多的外部样本数据,同时提高了识别结果的精确度。

【技术实现步骤摘要】

本申请涉及计算机网络
,具体涉及网站监控
,尤其涉及监控网站的方法和装置
技术介绍
随着互联网技术的飞速发展,各种各样的网站为用户从网上获取资讯或在网上休闲娱乐提供了极大的便利,在网络畅通的情况下,用户可以随时地访问资讯类网站或娱乐类网站等。然而,在大量的网站中,存在着一部分不符合公共道德或国家法律法规的网站,例如赌博类网站、色情类网站、反动类网站等。这些网站的内容给用户造成了很大困扰,并给用户的生活带来恶劣的影响。现有技术中,通常采用以下两种方案对违规网站进行监控:方案一、采用机器学习的方案进行违规网站的识别,提取网页上的各种通用特征,线下通过大量违规样本对模型进行训练,线上通过模型对网站进行审核,根据审核的结果对网站进行监控。方案二、提取网站的全文信息,线下通过人工积累不同违规类型的网站的违规词表。线上对全文信息进行匹配违规词表,命中词表则匹配成功,根据匹配的结果对网站进行监控。然而,现有技术中对违规网站进行监控的方法,存在如下缺陷:方案一对样本有非常明显的依赖,如果样本较少,无法训练出准确的模型以识别违规网站,从而对网站的监控的准确度较低。方案二网站全文的信息量大,包含与网站主体不相关的信息,提取的网站全文的关键词误差较大,再通过提取的关键词去匹配违规词表,会造成大量的误判,从而使得对网站的监控误差较大。
技术实现思路
鉴于现有技术中的上述缺陷或不足,期望能够提供一种准确度高、误差较小的方案。为了实现上述一个或多个目的,本申请提供了监控网站的方法和装置。第一方面,本申请提供了一种监控网站的方法,所述方法包括:获取第一导航栏信息,所述第一导航栏信息为待审核网站的导航栏信息;获取第一内部导航链接信息,所述第一内部导航链接信息为所述第一导航栏信息中的内部导航链接信息;提取所述第一内部导航链接信息中的特征词;比对提取的特征词与已确认的违规特征词表中的违规特征词,得到命中所述违规特征词的命中数量;根据命中的数量,提示对所述网站的监控信息。第二方面,本申请提供了一种监控网站的装置,所述装置包括:第一获取单元,用于获取第一导航栏信息,所述第一导航栏信息为待审核网站的导航栏信息;第二获取单元,用于获取第一内部导航链接信息,所述第一内部导航链接信息为所述第一导航栏信息中的内部导航链接信息;提取单元,用于提取所述第一内部导航链接信息中的特征词;比对单元,用于比对提取的特征词与已确认的违规特征词表中的违规特征词,得到命中所述违规特征词的命中数量;提示单元,用于根据命中的数量,提示对所述网站的监控信息。本申请提供的监控网站的方法和装置,能够获取待审核网站的网页的导航栏信息,接着获取导航栏信息中的内部导航链接信息,然后提取内部导航链接信息中的特征词,之后比对提取的特征词与已确认的违规特征词表中的违规特征词,得到命中违规特征词的命中数量;之后根据命中数量,提示对网站的监控信息。本申请实施方式的监控网站的方法有效提取了网站中的关键词,因此不需要依赖太多的外部样本数据,同时提高了识别包括违规特征词的网站的精确度,进而提示对网站的监控信息,提高了管理违规网站的效率。【附图说明】通过阅读参照以下附图所作的对非限制性实施例的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出了根据本申请实施例的监控网站的方法的一种示例性流程图;图2示出了根据本申请实施例的获取第一导航栏信息的方法的一种示例性流程图;图3示出了根据本申请实施例的判断叶节点是否为内部导航链接节点的方法的示例性流程图;图4示出了根据本申请实施例的网页源码的部分代码的示意图;图5示出了根据本申请实施例的生成已确认的违规特征词表的方法的一种示例性流程图;图6示出了根据本申请实施例的监控网站的装置的一种示意性结构图;图7示出了根据本申请实施例的第一获取单元的一种示意性结构图;图8示出了根据本申请实施例的生成已确认的违规特征词表的单元的一种示意性结构图。【具体实施方式】下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。首先,请参考图1,图1示出了根据本申请实施例的监控网站的方法的一种示例性流程图100。如图1所示,监控网站的方法100包括:在步骤101中,获取第一导航栏信息,第一导航栏信息为待审核网站的导航栏信息。在本实施例中,可以先获取待审核网站的网页信息,之后从网页信息中获取文档对象模型树,再获取文档模型树中的导航栏节点,最后获取导航栏节点的信息作为导航栏信息。其中导航栏信息是指网页中用于指示导航内容的信息,从而使访问者能够更快速准确的找到所搜索的资源。通常,网页导航栏节点会包括一些可供识别的标识,可以通过识别这些标识中的一种或多种标识来识别网页导航栏节点。例如导航栏节点位于包括主体〈body〉标签的网页源代码中,网页导航栏节点的子节点中至少有3-4个以上的导航链接节点,导航栏节点的子节点中不会有导航栏节点,导航栏节点的子节点中不会出现不是导航栏链接节点的链接节点等。在步骤102中,获取第一内部导航链接信息,第一内部导航链接信息为第一导航栏信息中的内部导航链接信息。在本实施例中,在获取上述的内部导航栏信息之后,可以获取其中包括的内部导航链接节点,再获取内部导航链接节点的信息作为内部导航链接信息。在本实施例的一些可选实现方式中,获取网页导航栏信息中的内部导航链接信息可以包括:获取网页导航栏信息中的内部导航链接节点的内文本信息。通常,内部导航链接节点也会包括一些可供识别的标识,可以通过识别这些标识中的一种或多种标识来识别内部导航链接节点。例如导航链接节点的标签为a,导航链接的文本信息的长度一般为2-8,即内文本innerText的length e ,导航链接节点的链接一般指向的是本站地址,即超文本引用href地址和本页面地址所在的顶级域是一样的等。在步骤103中,提取第一内部导航链接信息中的特征词。在本实施例中,特征词是指包含有可以使一个词异于其他词的特点的词语。在上述的步骤102中获取第一内部导航链接信息后,可以提取第一内部导航链接信息中的特征词,也即提取由内部导航链接信息中包括的汉字序列切分得到的带有明显特征的词。将汉字序列切分成词的方法有多种,例如基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法及上述分词方法的组合等现有技术中的分词方法,或未来发展的技术中的分词方法等,在此不再赘述。在步骤104中,比对提取的特征词与已确认的违规特征词表中的违规特征词,得到命中违规特征词的命中数量。在本实施例中,在比对提取的特征词与已确认的违规特征词时,可以将一个提取的特征词与已确认的所有违规特征词进行比对从而获得较高的准确率,也可以将一个提取的特征词的一部分与已确认的所有违规特征词进行比对从而提高比对效率。上述的已确认的违规特征词表可以为根据输入的违规特征词逐渐积累的违规特征词的集合和/或导入的违规特征词的集合。在步骤105中,根据命中的数量,提示对网站的监控信息本文档来自技高网...

【技术保护点】
一种监控网站的方法,其特征在于,所述方法包括:获取第一导航栏信息,所述第一导航栏信息为待审核网站的导航栏信息;获取第一内部导航链接信息,所述第一内部导航链接信息为所述第一导航栏信息中的内部导航链接信息;提取所述第一内部导航链接信息中的特征词;比对提取的特征词与已确认的违规特征词表中的违规特征词,得到命中所述违规特征词的命中数量;根据命中的数量,提示对所述网站的监控信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:王新远
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1