具有报错特征的网页识别方法和装置制造方法及图纸

技术编号:15398355 阅读:116 留言:0更新日期:2017-05-22 14:02
本发明专利技术公开了一种具有报错特征的网页识别方法和装置,其中,方法包括:将多个网页进行聚类,得到一个或多个网页集合;判断网页集合中各网页内容是否都包含预设的否定词,将网页集合中的各网页内容都包含否定词的网页集合作为待验证报错网页集合;提取待验证报错网页集合的一个或多个属性特征,根据属性特征验证待验证报错网页集合得到报错网页集合,并提取报错网页集合的相关信息;根据报错网页集合识别报错网页。根据该方案,无需结合每个页面和其特定的报错句子,效率更高,并且,通过实时地自动挖掘生成报错网页集合,并且对网页报错词句的变化不敏感,降低了识别的滞后性。

Method and apparatus for identifying web pages with error reporting features

The invention discloses a web page recognition method and device with an error characteristic of the method: multiple web pages clustering, get one or more web pages; to determine whether each web page set contains all the negative word presupposition, a collection of pages in the web page content contains negation the word \collection\ to be verified as error; extraction to verify error page set of one or more attributes, according to the characteristics of verification to verify error page set error page set, and extract the error page set information; according to the error of \error\ set recognition. According to the plan, without the combination of each page and its specific error sentences, more efficient, and, through the real-time automatic generation of error mining web pages, is not sensitive to the change of \wrong words and reduce the lag of recognition.

【技术实现步骤摘要】
具有报错特征的网页识别方法和装置
本专利技术涉及互联网
,具体涉及一种具有报错特征的网页识别方法和装置。
技术介绍
互联网中充斥着各种低质量的网页,这类页面中不具备实际内容。搜索引擎在抓取、分析、建库、索引时需要识别并且剔除这些低质量的网页。这些低质量网页不仅占用了搜索引擎的资源、降低引擎效率,而且如果未被及时识别、剔除,还会出现在搜索结果页面中,而用户点击访问后无法获得有效信息,这严重影响了用户体验。低质量网页种类较多,其中一种是具有报错特征的网页,即具有明显的报错词句的网页。比如打开网页后提示:“网页已删除”、“404notfound”、“页面不存在”等等。现有技术中对这类具有报错特征的网页的识别方法主要依靠人工识别网站下的报错句子,各站点的报错句子,可能互不相同,采取站点和报错句子结合的方法来挖掘报错网页,一旦站点匹配并且网页中含有已经识别的报错句子则认为这个网页为报错网页。人工识别报错句子的缺点是覆盖面有限而且不及时。人工识别一般是发现一种报错类型的句子则添加生效一种,主站点下各个子站点页面的报错特征可能不同而且可能随时变化,每个子站点对应的页面都需要采用结合站点和报错句子进行识别,因此,采用这种方式进行大面积的识别报错句子时,人工代价太大,效率很低。并且这种方法具有滞后性,一旦页面改变了报错句子则无法识别,需要人工重新添加新的报错词句。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的具有报错特征的网页识别方法和装置。根据本专利技术的一个方面,提供了一种具有报错特征的网页识别方法,包括:将多个网页进行聚类,得到一个或多个网页集合;判断网页集合中各网页内容是否都包含预设的否定词,将网页集合中的各网页内容都包含否定词的网页集合作为待验证报错网页集合;提取待验证报错网页集合的一个或多个属性特征,根据属性特征验证待验证报错网页集合得到报错网页集合,并提取报错网页集合的相关信息;根据报错网页集合识别报错网页。可选地,所述将所述网页集合中的各网页内容都包含所述否定词的网页集合作为待验证报错网页集合具体为:将所述网页集合中每个网页均包含同一否定词的网页集合作为待验证报错网页集合;所述方法还包括:将包含所述否定词的句子作为该待验证报错网页集合的报错句子。可选地,所述对多个网页进行聚类具体为:针对一主站点,根据路径信息对该主站点中的各个链接网页进行聚类;所述报错网页集合的相关信息包括以下信息中的一项或多项:所述报错网页集合在主站点中的路径信息、主站点信息、报错句子以及其签名信息。可选地,所述根据路径信息对该主站点中的各个链接网页进行聚类进一步包括:计算所述主站点中的各个链接网页的路径信息;对计算得到的路径信息进行去重处理,计算所述去重处理后获得的路径信息的签名;根据所述路径信息的签名进行聚类,将路径信息的签名相同的链接网页加入同一网页集合中。可选地,所述待验证报错网页集合的属性特征包括以下特征的一项或多项的组合:所述待验证报错网页集合中包含的不同网页数量;所述待验证报错网页集合中全部网页和/或单个网页所包含的句子的总数;所述待验证报错网页集合中全部网页中包含的不同句子的数量;所述待验证报错网页集合的报错句子的长度;同一主站点包含同一报错句子的不同网页集合数量。可选地,所述根据所述属性特征验证所述待验证报错网页集合得到报错网页集合具体为:选取属性特征符合以下预设策略中一项或多项的待验证报错网页集合作为报错网页集合:报错句子在待验证报错网页集合中所有的网页中被包含;待验证报错集合中包含的不同网页数量大于对应预设阈值的网页集合;待验证报错集合中全部网页和/或单个网页所包含的句子的总数小于对应预设阈值的网页集合;待验证报错集合中全部网页包含的不同句子的数量小于对应预设阈值的网页集合;所述报错句子长度小于对应预设阈值的网页集合;同一主站点包含同一报错句子的不同网页集合数量小于对应预设阈值。可选地,所述根据所述报错网页集合识别报错网页具体包括:获取待识别网页对应的主站点、所述待识别网页在所述主站点中的路径信息、以及所述待识别网页中包含预设否定词的句子和该句子的签名;查询所述待识别网页对应的主站点、所述待识别网页在所述主站点中的路径信息、以及所述待识别网页中包含预设否定词的句子是否与所述主站点中的任一报错网页集合的信息匹配,若匹配,则确定所述待识别网页为报错网页。根据本专利技术的另一方面,提供了一种具有报错特征的网页识别装置,包括:聚类模块,用于将多个网页进行聚类,得到一个或多个网页集合;判断模块,用于判断聚类模块得到的一个或多个网页集合中是否都包含预设的否定词,将集合中的各网页内容都包含所述否定词的网页集合作为待验证报错网页集合;报错集合生成模块,用于提取待验证报错网页集合的一个或多个属性特征,根据属性特征验证待验证报错网页集合得到报错网页集合,并提取报错网页集合的相关信息;识别模块,用于根据所述报错网页集合识别报错网页。可选地,所述判断模块具体用于:判断所述网页集合中各网页内容是否都包含同一预设的否定词,将所述网页集合中每个网页均包含同一否定词的网页集合作为待验证报错网页集合。可选地,所述聚类模块具体用于:针对一主站点,根据路径信息对该主站点中的各个链接网页进行聚类;所述报错网页集合的相关信息包括以下信息中的一项或多项:所述报错网页集合在主站点中的路径信息、主站点信息、报错句子以及其签名信息。可选地,所述聚类模块具体包括:路径信息计算单元,用于计算所述主站点中的各个链接网页的路径信息;签名计算单元,用于对计算得到的路径信息进行去重处理,计算所述去重处理后获得的路径信息的签名;聚类单元,用于根据所述路径信息的签名进行聚类,将路径信息的签名相同的链接网页加入同一网页集合中。可选地,所述待验证报错网页集合的属性特征包括以下特征的一项或多项的组合:所述待验证报错网页集合中包含的不同网页数量;所述待验证报错网页集合中全部网页和/或单个网页所包含的句子的总数;所述待验证报错网页集合中全部网页中包含的不同句子的数量;所述待验证报错网页集合的报错句子的长度;同一主站点包含同一报错句子的不同网页集合数量。可选地,所述报错集合生成模块具体用于:选取属性特征符合以下预设策略中一项或多项的待验证报错网页集合作为报错网页集合:报错句子在网页集合中所有的网页中被包含;待验证报错集合中包含的不同网页数量大于对应预设阈值的网页集合;待验证报错集合中全部网页和/或单个网页所包含的句子的总数小于对应预设阈值的网页集合;待验证报错集合中全部网页包含的不同句子的数量小于对应预设阈值的网页集合;所述报错句子长度小于对应预设阈值的网页集合;同一主站点包含同一报错句子的不同网页集合数量小于对应预设阈值。可选地,所述识别模块具体包括:提取单元,用于提取所述报错网页集合的相关信息;获取单元,用于获取待识别网页对应的主站点、所述待识别网页在所述主站点中的路径信息、以及所述待识别网页中包含预设否定词的句子;查询单元,用于查询所述待识别网页对应的主站点、所述待识别网页在所述主站点中的路径信息、以及所述待识别网页中包含预设否定词的句子是否与所述提取单元提取的主站点中的任一条报错网页集合的信息匹配,若匹配,则确定所述待识别网页为报本文档来自技高网...
具有报错特征的网页识别方法和装置

【技术保护点】
一种具有报错特征的网页识别方法,包括:将多个网页进行聚类,得到一个或多个网页集合;判断所述网页集合中各网页内容是否都包含预设的否定词,将所述网页集合中的各网页内容都包含所述否定词的网页集合作为待验证报错网页集合;提取所述待验证报错网页集合的一个或多个属性特征,根据所述属性特征验证所述待验证报错网页集合得到报错网页集合;提取所述报错网页集合的相关信息并根据所述报错网页集合的相关信息识别报错网页。

【技术特征摘要】
1.一种具有报错特征的网页识别方法,包括:将多个网页进行聚类,得到一个或多个网页集合;判断所述网页集合中各网页内容是否都包含预设的否定词,将所述网页集合中的各网页内容都包含所述否定词的网页集合作为待验证报错网页集合;提取所述待验证报错网页集合的一个或多个属性特征,根据所述属性特征验证所述待验证报错网页集合得到报错网页集合;提取所述报错网页集合的相关信息并根据所述报错网页集合的相关信息识别报错网页。2.根据权利要求1所述的方法,所述将所述网页集合中的各网页内容都包含所述否定词的网页集合作为待验证报错网页集合具体为:将所述网页集合中每个网页均包含同一否定词的网页集合作为待验证报错网页集合;所述方法还包括:将包含所述否定词的句子作为该待验证报错网页集合的报错句子。3.根据权利要求1所述的方法,所述对多个网页进行聚类具体为:针对一主站点,根据路径信息对该主站点中的各个链接网页进行聚类;所述报错网页集合的相关信息包括以下信息中的一项或多项:所述报错网页集合在主站点中的路径信息、主站点信息、报错句子以及其签名信息。4.根据权利要求3所述的方法,所述根据路径信息对该主站点中的各个链接网页进行聚类进一步包括:计算所述主站点中的各个链接网页的路径信息;对计算得到的路径信息进行去重处理,计算所述去重处理后获得的路径信息的签名;根据所述路径信息的签名进行聚类,将路径信息的签名相同的链接网页加入同一网页集合中。5.根据权利要求1-4任一项所述的方法,所述待验证报错网页集合的属性特征包括以下特征的一项或多项的组合:所述待验证报错网页集合中包含的不同网页数量;所述待验证报错网页集合中全部网页和/或单个网页所包含的句子的总数;所述待验证报错网页集合中全部网页中包含的不同句子的数量;所述待验证报错网页集合的报错句子的长度;同一主站点包含同一报错句子的不同网页集合数量。6.根据权利要求1-4任一项所述的方法,所述根据所述属性特征验证所述待验证报错网页集合得到报错网页集合具体为:选取属性特征符合以下预设策略中一项或多项的待验证报错网页集合作为报错网页集合:报错句子在待验证报错网页集合中所有的网页中被包含;待验证报错集合中包含的不同网页数量大于对应预设阈值的网页集合;待验证报错集合中全部网页和/或单个网页所包含的句子的总数小于对应预设阈值的网页集合;待验证报错集合中全部网页包含的不同句子的数量小于对应预设阈值的网页集合;所述报错句子长度小于对应预设阈值的网页集合;同一主站点包含同一报错句子的不同网页集合数量小于对应预设阈值。7.根据权利要求1-4任一项所述的方法,所述根据所述报错网页集合识别报错网页具体包括:获取待识别网页对应的主站点、所述待识别网页在所述主站点中的路径信息、以及所述待识别网页中包含预设否定词的句子和该句子的签名;查询所述待识别网页对应的主站点、所述待识别网页在所述主站点中的路径信息、以及所述待识别网页中包含预设否定词的句子是否与所述主站点中的任一报错网页集合的信息匹配,若匹配,则确定所述待识别网页为报错网页。8.一...

【专利技术属性】
技术研发人员:王智广
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1