【技术实现步骤摘要】
本专利技术涉及互联网网页搜索,特别涉及一种官网识别方法及系统。
技术介绍
1、在互联网与数字化发展的今天,越来越多的数据需要获取,然而,随着一些低质量的媒体,或者一些网站数据的更新频次影响,目前一些网站数据质量不高或者过于陈旧,因此,如何找到高质量的网站和最新的数据,是现在企业面临的一个问题。互联网越来越发达,小到个人或者组织,大到公司或者国家官方部门,都会建立自己的官网。从官网获取的数据自然是最原始的,最可靠的也是最新的数据。但是如何去识别官网,目前除了手工操作,相关研究技术并不多。
2、目前常用的技术方案主要是先搜集大量的网站信息,然后通过网站里面的图片数量,超链数量以及官网关键词等作为特征,然后以机器学习算法或者深度学习算法对这些特征做预测,选取一定阈值的作为官网特征。目前这种算法有以下几个缺点:一是实际上每个网站都会有更新,不同行业网站,不同公司网站器网站风格完全不一致,很难去找到一个统一的阈值来确定是否是官网,适应性或者泛化性不强。二是既使是同一个网站,也可能会存在内容更新和版本更新,这样,过去能用的阈值,现在不一
...【技术保护点】
1.一种官网识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的官网识别方法,其特征在于,所述计算所述待检索目标名称与所述关键字信息的相似值之后,还包括:
3.根据权利要求1所述的官网识别方法,其特征在于,所述计算所述待检索目标名称与所述关键字信息的相似值,包括:
4.根据权利要求3所述的官网识别方法,其特征在于,所述以所述关键字信息中的每个字符作为步进单位判断所述字符与所述待检索目标名称是否相符,包括:
5.根据权利要求1-4任一所述的官网识别方法,其特征在于,
6.一种官网识别系统,其特征在于,
...
【技术特征摘要】
1.一种官网识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的官网识别方法,其特征在于,所述计算所述待检索目标名称与所述关键字信息的相似值之后,还包括:
3.根据权利要求1所述的官网识别方法,其特征在于,所述计算所述待检索目标名称与所述关键字信息的相似值,包括:
4.根据权利要求3所述的官网识别方法,其特征在于,所述以所述关键字信息中的每个字符作为步进单位判断所述字符与所述待检索目标名称是否相符,包括:
5.根据权利要求1-4任一所述的官网识别方法,其特征在于,
6.一种官网识别系统,其特征在于,包括:
7.根据权利要求6所述的官网识别系统,其特征在于,还包括:信息校验模块...
【专利技术属性】
技术研发人员:潘永灿,王全军,张邵,宋宪鑫,潘腾飞,刘鹏,
申请(专利权)人:北京合享智星数据科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。