稀缺信息页面的筛选方法和装置制造方法及图纸

技术编号:11234578 阅读:76 留言:0更新日期:2015-04-01 08:27
本发明专利技术提供了一种稀缺信息页面的筛选方法和装置,该方法包括:对搜索引擎抓取的页面作分词处理,生成多个分词;在所述多个分词中查找稀缺词;筛选出包含所述稀缺词的页面作为稀缺信息页面。本发明专利技术提供的技术方案,从搜索引擎抓取的页面中筛选稀缺信息页面,覆盖面大,能够为用户提供更丰富的数据支持。并且,本发明专利技术是根据稀缺词筛选稀缺信息页面,因而筛选出的稀缺信息页面质量较高,其提供的信息能够满足用户对信息的需求,搜索准确率高,提高用户信息搜索体验。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种稀缺信息页面的筛选方法和装置,该方法包括:对搜索引擎抓取的页面作分词处理,生成多个分词;在所述多个分词中查找稀缺词;筛选出包含所述稀缺词的页面作为稀缺信息页面。本专利技术提供的技术方案,从搜索引擎抓取的页面中筛选稀缺信息页面,覆盖面大,能够为用户提供更丰富的数据支持。并且,本专利技术是根据稀缺词筛选稀缺信息页面,因而筛选出的稀缺信息页面质量较高,其提供的信息能够满足用户对信息的需求,搜索准确率高,提高用户信息搜索体验。【专利说明】稀缺信息页面的筛选方法和装置
本专利技术涉及信息搜索领域,特别是一种稀缺信息页面的筛选方法和装置。
技术介绍
搜索引擎所抓取的页面集合较为庞大,从成本和效率的角度考虑,搜索引擎会从中选取部分页面作为索引,筛选的依据主要是页面内容的重复程度和页面内容本身的质量。 上述筛选可以对庞大的页面集合进行精减处理,删除大量重复性页面,提高索引集合的信息提供效率。但是,搜索过程中存在部分因不同原因(例如重复程度较低)容易被忽略的信息,比如某些人名、偏远地名或商品型号等。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的稀缺信息页面的筛选方法和装置。 依据本专利技术的一个方面,提供了一种稀缺信息页面的筛选方法,包括:对搜索引擎抓取的页面作分词处理,生成多个分词;在所述多个分词中查找稀缺词;筛选出包含所述稀缺词的页面作为稀缺信息页面。 可选地,在所述多个分词中查找稀缺词,包括:对于每个分词,查找索引中包含该分词的页面的数量;确定对应的页面数量小于第一数量阈值的分词,标记为稀缺词。 可选地,确定对应的页面数量小于第一数量阈值的分词,标记为稀缺词,包括:确定对应的页面数量小于第一数量阈值、且大于第二数量阈值的分词,标记为稀缺词,其中,所述第二数量阈值小于第一数量阈值。 可选地,在所述多个分词中查找稀缺词,包括:对于每个分词,确定包含该分词的页面的数量;根据确定的数量,计算每个分词的逆向文件词频(IDF,Inverse DocumentFrequency)值;在所述多个分词中查找IDF值大于指定数值阈值的分词,标记为稀缺词。 可选地,对于每个分词,确定包含该分词的页面的数量之前,还包括:计算所述多个分词中每个分词在各自所在页面中的出现频率;在所述多个分词中,过滤掉出现频率大于指定频率阈值的分词。 可选地,对搜索引擎抓取的页面作分词处理,包括:抽取搜索引擎抓取的页面的内容文本;对抽取的内容文本作分词处理。 可选地,所述稀缺词包括下列至少之一:人名、地名、物名、商品型号。 可选地,筛选出包含所述稀缺词的页面作为稀缺信息页面之后,还包括:对所述稀缺信息页面进行筛选处理;将筛选处理后的稀缺信息页面建立索引,以供搜索引擎向用户提供检索稀缺?目息的服务。 可选地,所述筛选处理的方式包括下列至少之一:去垃圾、去重、反作弊。 依据本专利技术的另一方面,还提供了一种稀缺信息页面的筛选装置,包括: 分词生成器,适于对搜索引擎抓取的页面作分词处理,生成多个分词; 稀缺词查找器,适于在所述多个分词中查找稀缺词; 稀缺信息页面筛选器,适于筛选出包含所述稀缺词的页面作为稀缺信息页面。 可选地,所述稀缺词查找器还适于:对于每个分词,查找索引中包含该分词的页面的数量;确定对应的页面数量小于第一数量阈值的分词,标记为稀缺词。 可选地,所述稀缺词查找器还适于:确定对应的页面数量小于第一数量阈值、且大于第二数量阈值的分词,标记为稀缺词,其中,所述第二数量阈值小于第一数量阈值。 可选地,所述稀缺词查找器还适于:对于每个分词,确定包含该分词的页面的数量;根据确定的数量,计算每个分词的IDF值;在所述多个分词中查找IDF值大于指定数值阈值的分词,标记为稀缺词。 可选地,对于每个分词,确定包含该分词的页面的数量之前,所述稀缺词查找器还适于:计算所述多个分词中每个分词在各自所在页面中的出现频率;在所述多个分词中,过滤掉出现频率大于指定频率阈值的分词。 可选地,所述分词生成器还适于:抽取搜索引擎抓取的页面的内容文本;对抽取的内容文本作分词处理。 可选地,所述稀缺词包括下列至少之一:人名、地名、物名、商品型号。 可选地,筛选出包含所述稀缺词的页面作为稀缺信息页面之后,所述稀缺信息页面筛选器还适于:对所述稀缺信息页面进行筛选处理;将筛选处理后的稀缺信息页面建立索引,以供搜索引擎向用户提供检索稀缺信息的服务。 可选地,所述筛选处理的方式包括下列至少之一:去垃圾、去重、反作弊。 本专利技术提供的技术方案,从搜索引擎抓取的页面中筛选稀缺信息页面,覆盖面大,能够为用户提供更丰富的数据支持。进一步地,通过分词处理等手段对搜索引擎抓取的页面进行处理,从中查找到稀缺词,进而筛选出稀缺信息页面,从而在用户查询时能够准确、高效地提供包含稀缺信息页面的搜索结果,解决了现有的搜索引擎因稀缺信息页面内容重复程度较低等原因导致搜索时容易被忽略的问题。并且,本专利技术是根据稀缺词筛选稀缺信息页面,因而筛选出的稀缺信息页面质量较高,其提供的信息能够满足用户对信息的需求,搜索准确率高,提高用户信息搜索体验。 上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的【具体实施方式】。 根据下文结合附图对本专利技术具体实施例的详细描述,本领域技术人员将会更加明了本专利技术的上述以及其他目的、优点和特征。 【专利附图】【附图说明】 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中: 图1示出了根据本专利技术一个实施例的稀缺信息页面的筛选方法的流程图;以及 图2示出了根据本专利技术一个实施例的稀缺信息页面的筛选装置的结构示意图。 【具体实施方式】 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。 为解决上述技术问题,本专利技术实施例提供了一种稀缺信息页面的筛选方法。图1示出了根据本专利技术一个实施例的稀缺信息页面的筛选方法的流程图。参见图1,该方法至少包括步骤S102至步骤S106。 步骤S102、对搜索引擎抓取的页面作分词处理,生成多个分词。 步骤S104、在多个分词中查找稀缺词。 步骤S106、筛选出包含稀缺词的页面作为稀缺信息页面。 本专利技术提供的技术方案,从搜索引擎抓取的页面中筛选稀缺信息页面,覆盖面大,能够为用户提供更丰富的数据支持。进一步地,通过分词处理等手段对搜索引擎抓取的页面进行处理,从中查找到稀缺词,进而筛选出稀缺信息页面,从而在用户查询时能够准确、高效地提供包含稀缺信息页面的搜索结果,解决了现有的搜索引擎因稀缺信息页面内容重复程度较低等原因导致搜索时容本文档来自技高网...

【技术保护点】
一种稀缺信息页面的筛选方法,包括:对搜索引擎抓取的页面作分词处理,生成多个分词;在所述多个分词中查找稀缺词;筛选出包含所述稀缺词的页面作为稀缺信息页面。

【技术特征摘要】

【专利技术属性】
技术研发人员:魏少俊王智广
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1