一种数据搜索方法及装置制造方法及图纸

技术编号:15542082 阅读:251 留言:0更新日期:2017-06-05 11:11
本发明专利技术公开了一种数据搜索方法及装置,涉及计算机领域,解决了数据搜素准确性较低的问题。具体方案为:抓取初始网页中的栏目信息;将栏目信息与预制栏目信息标签进行匹配处理,以得到所述栏目信息与预制栏目信息标签的匹配度;当栏目信息与预制栏目信息标签中的匹配度高于阈值,确定初始网页为待选网页。本发明专利技术用于数据搜索过程中。

Data searching method and device

The invention discloses a data searching method and a device, relating to the computer field, and solving the problem that the accuracy of data searching is low. Specific program: grab the page in the initial column information; column information and prefabricated column information label matching processing to obtain the matching column information and prefabricated column information label; when the matching column information and prefabricated column information in the tag is higher than the threshold value, selecting \initial\ to be. The invention is used in the data search process.

【技术实现步骤摘要】
一种数据搜索方法及装置
本专利技术涉及计算机领域,尤其涉及一种数据搜索方法及装置。
技术介绍
随着网络的迅速发展,互联网成为大量信息的载体,从互联网中提取并利用信息是一个问题。搜索引擎(SearchEngine)的问世解决了这一问题,传统的通用搜索引擎如AltaVista、Google等作为一个辅助检索信息的工具,通常搜索引擎根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户。其中搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。然而,由于信息的领域不同,使用搜索的用户的背景不同,导致搜索引擎所返回的结果包含大量用户不关心的网页,即数据搜索的准确性较低。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据搜索方法及装置一方面,本专利技术实施例提供一种数据搜索方法,包括:抓取初始网页中的栏目信息;将所述栏目信息与预制栏目信息标签进行匹配处理,以得到所述栏目信息与预制栏目信息标签的匹配度;当所述栏目信息与所述预制栏目信息标签中的匹配度高于阈值,确定所述初始网页为待选网页。另一方面,本专利技术实施例提供一种数据搜索装置,包括:抓取单元,用于抓取初始网页中的栏目信息;所述匹配单元,用于将所述栏目信息与预制栏目信息标签进行匹配处理,以得到所述栏目信息与预制栏目信息标签的匹配度;所述确定单元,用于当所述栏目信息与所述预制栏目信息标签中的匹配度高于阈值,确定所述初始网页为待选网页。借由上述技术方案,本专利技术提供的一种数据搜索方法及装置,通过抓取初始网页中的栏目信息;将栏目信息与预制栏目信息标签进行匹配处理;当栏目信息与预制栏目信息标签中的匹配度高于阈值,确定初始网页为待选网页,通过将网页中的栏目信息作为数据搜索的方式,可以更加精确的确定网页是否为搜索目标,从而提高数据搜索的准确性。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例中的一种数据搜索方法的流程图;图2示出了本专利技术另一个实施例中的一种数据搜索方法的流程图;图3示出了本专利技术另一个实施例中的一种数据搜索方法的流程图;图4示出了本专利技术实施例中的一种数据搜索装置的逻辑结构示意图;图5示出了本专利技术另一个实施例中的一种数据搜索装置的逻辑结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。常见的网络爬虫首先获取初始网页上的URL(UniformResourceLocator,统一资源定位符),并且在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。然后根据网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。由于只是根据初始网页的URL来进行数据搜索,搜索的准确率仍然较低。为此,本专利技术提供一种数据搜索方法,如图1所示,该方法包括:S101,抓取初始网页中的栏目信息。网页是由栏目组成的,每个栏目的划分可根据用户需求来确定。所谓栏目,即是把页面按照内容模块划分成几个竖栏,并在设计时将内容严格按照分栏进行编排,使画面严谨规整,网页内容划分清晰,便于查看。S102,将所述栏目信息与预制栏目信息标签进行匹配处理,以得到所述栏目信息与预制栏目信息标签的匹配度。S103,当所述栏目信息与所述预制栏目信息标签中的匹配度高于阈值,确定所述初始网页为待选网页。本步骤中的阈值不做固定限制。本方案通过抓取初始网页中的栏目信息;将栏目信息与预制栏目信息标签进行匹配处理;当栏目信息与预制栏目信息标签中的匹配度高于阈值,确定初始网页为待选网页,通过将网页中的栏目信息作为数据搜索的方式,可以更加精确的确定网页是否为搜索目标,从而提高数据搜索的准确性。进一步可选的,作为本专利技术另一实施方式,如图2所示,在S102(即将所述栏目信息与预制栏目信息标签进行匹配处理)之前,还可以包括:S104,获取搜索信息。搜索信息即用户输入的关键词信息,比如,用户需要搜索关于天气的信息,输入:天气、雾霾、北京。S105,通过搜索信息生成所述预制栏目信息。在接收到搜索信息之后,将搜索信息转化成预制栏目信息。通过转换为预制栏目信息,是为了方便后续通过栏目信息来进行匹配搜索。进一步可选的,作为本专利技术另一实施方式,S102(将所述栏目信息与预制栏目信息标签进行匹配处理)可细化为三种方式:第一种方式:将初始网页中的栏目信息与所述预制栏目信息进行关键词匹配;具体而言,可以通过在初始网页中的栏目信息中提取的关键词分别与预制栏目信息中的一个或多个关键词匹配,并分别得到关键词的匹配度,并从所得到的匹配度中选取最大匹配度作为最终匹配处理结果。第二种方式:将初始网页中的栏目信息与所述预制栏目信息进行相似度分析。第三种方式:先将初始网页中的栏目信息与所述预制栏目信息进行关键词匹配,然后在符合关键词匹配之后的栏目信息与所述预制栏目信息进行相似度分析。值得说明的是,在本专利技术中所述相似度分析可以为基于哈希Hash的相似度计算方法。基于哈希Hash的相似度计算方法是一种基于概率的高纬度数据的维度削减的方法,主要用于大规模数据的压缩与实时或者快速的计算场景下,基于hash方法的相似度计算经常用于高纬度大数据量的情况下,将利用原始信息不可存储与计算的问题转化为映射空间的可存储计算问题,在海量文本重复性判断方面,近似文本查询方面有比较多的应用。当然,本专利技术不限于只使用这一种相似度分析。比如,本专利技术中所述相似度分析还可以为一种快速计算软件相似度的方法,基于模糊哈希算法,对于待计算的软件的特征数据,首先根据数据的长度进行预判决,然后根据数据的内容,利用一个素数对数据进行分割,并计算分片数据的哈希值,连接起来,生成数据分析结果。进一步可选的,作为本专利技术另一实施方式,如图3所示,在S103(所述确定所述初始网页为待选网页)之后,本专利技术还包括:S106,根据所述预制栏目信息的栏目类型,确定所述待选网页所属的栏目类型。S107,将所述待选网页聚类到所属的栏目类型下。通过栏目来进行分类,由于栏目类型在行业中具有栏目分类标准,通过完全匹配或设定ha本文档来自技高网...
一种数据搜索方法及装置

【技术保护点】
一种数据搜索方法,其特征在于,包括:抓取初始网页中的栏目信息;将所述栏目信息与预制栏目信息标签进行匹配处理,以得到所述栏目信息与预制栏目信息标签的匹配度;当所述栏目信息与所述预制栏目信息标签中的匹配度高于阈值,确定所述初始网页为待选网页。

【技术特征摘要】
1.一种数据搜索方法,其特征在于,包括:抓取初始网页中的栏目信息;将所述栏目信息与预制栏目信息标签进行匹配处理,以得到所述栏目信息与预制栏目信息标签的匹配度;当所述栏目信息与所述预制栏目信息标签中的匹配度高于阈值,确定所述初始网页为待选网页。2.根据权利要求1所述的数据搜索方法,其特征在于,在所述将所述栏目信息与预制栏目信息标签进行匹配处理之前,所述方法还包括:获取搜索信息;通过搜索信息生成所述预制栏目信息。3.根据权利要求1或2所述的数据搜索方法,其特征在于,所述将所述栏目信息与预制栏目信息标签进行匹配处理,包括:将所述栏目信息与所述预制栏目信息进行关键词匹配;和/或,将所述栏目信息与所述预制栏目信息进行相似度分析。4.根据权利要求3所述的数据搜索方法,其特征在于,所述相似度分析为基于哈希Hash的相似度计算方法。5.根据权利要求4所述的数据搜索方法,其特征在于,在所述确定所述初始网页为待选网页之后,所述方法还包括:根据所述预制栏目信息的栏目类型,确定所述待选网页所属的栏目类型;将所述待选网页聚类到所属的栏目类型下。6.一种数据搜索装置,...

【专利技术属性】
技术研发人员:刘嘉钦滨杰
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1