一种官网识别方法及系统技术方案

技术编号:40391408 阅读:19 留言:0更新日期:2024-02-20 22:22
本发明专利技术公开了一种官网识别方法及系统,其中方法包括如下步骤:依据待检索目标名称,获取其官网的候选网站列表;获取候选网站列表中各个网站地址链接中与待检索目标名称相关的关键字信息;计算待检索目标名称与关键字信息的相似值,将相似值最高的网站识别为待检索目标的官网。通过提取待检索目标与候选官网地址的关键信息并进行比对,计算二者的相似值,并将相似值最高的网站识别为待检索目标的官网,降低了官网的识别难度,提高识别效率,适用于各行各业的官网识别,识别准确率高。

【技术实现步骤摘要】

本专利技术涉及互联网网页搜索,特别涉及一种官网识别方法及系统


技术介绍

1、在互联网与数字化发展的今天,越来越多的数据需要获取,然而,随着一些低质量的媒体,或者一些网站数据的更新频次影响,目前一些网站数据质量不高或者过于陈旧,因此,如何找到高质量的网站和最新的数据,是现在企业面临的一个问题。互联网越来越发达,小到个人或者组织,大到公司或者国家官方部门,都会建立自己的官网。从官网获取的数据自然是最原始的,最可靠的也是最新的数据。但是如何去识别官网,目前除了手工操作,相关研究技术并不多。

2、目前常用的技术方案主要是先搜集大量的网站信息,然后通过网站里面的图片数量,超链数量以及官网关键词等作为特征,然后以机器学习算法或者深度学习算法对这些特征做预测,选取一定阈值的作为官网特征。目前这种算法有以下几个缺点:一是实际上每个网站都会有更新,不同行业网站,不同公司网站器网站风格完全不一致,很难去找到一个统一的阈值来确定是否是官网,适应性或者泛化性不强。二是既使是同一个网站,也可能会存在内容更新和版本更新,这样,过去能用的阈值,现在不一定能用,这样导致准确本文档来自技高网...

【技术保护点】

1.一种官网识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的官网识别方法,其特征在于,所述计算所述待检索目标名称与所述关键字信息的相似值之后,还包括:

3.根据权利要求1所述的官网识别方法,其特征在于,所述计算所述待检索目标名称与所述关键字信息的相似值,包括:

4.根据权利要求3所述的官网识别方法,其特征在于,所述以所述关键字信息中的每个字符作为步进单位判断所述字符与所述待检索目标名称是否相符,包括:

5.根据权利要求1-4任一所述的官网识别方法,其特征在于,

6.一种官网识别系统,其特征在于,包括:

...

【技术特征摘要】

1.一种官网识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的官网识别方法,其特征在于,所述计算所述待检索目标名称与所述关键字信息的相似值之后,还包括:

3.根据权利要求1所述的官网识别方法,其特征在于,所述计算所述待检索目标名称与所述关键字信息的相似值,包括:

4.根据权利要求3所述的官网识别方法,其特征在于,所述以所述关键字信息中的每个字符作为步进单位判断所述字符与所述待检索目标名称是否相符,包括:

5.根据权利要求1-4任一所述的官网识别方法,其特征在于,

6.一种官网识别系统,其特征在于,包括:

7.根据权利要求6所述的官网识别系统,其特征在于,还包括:信息校验模块...

【专利技术属性】
技术研发人员:潘永灿王全军张邵宋宪鑫潘腾飞刘鹏
申请(专利权)人:北京合享智星数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1