一种爬取推广内容并供搜索使用的方法和装置制造方法及图纸

技术编号:12583339 阅读:65 留言:0更新日期:2015-12-23 23:37
本发明专利技术公开了一种爬取推广内容并供搜索使用的方法和装置,该方法包括:获取推广用户的服务器地址列表;对于推广用户的服务器地址列表中的每个服务器地址,按照该服务器地址对应的爬取频度,每隔相应的时间访问该服务器并爬取对应的推广内容;保存所爬取到的推广内容;在接收搜索关键词时,根据搜索关键词从所保存的推广内容中查找到匹配的推广内容,将匹配的推广内容作为搜索结果的一部分展现在搜索结果页面中。本发明专利技术提供的技术方案从推广用户的服务器上爬取并保存推广内容,该过程可以按照一定频次进行,以追踪推广用户对推广内容的更新;还将该爬取结果用于搜索服务中,满足了推广用户和搜索用户的双方需求,提高了内容推广服务的价值与意义。

【技术实现步骤摘要】

本专利技术涉及搜索
,具体涉及一种爬取推广内容并供搜索使用的方法和装置
技术介绍
随着互联网技术的不断发展,互联网用户日益增多,形成巨大的推广受众,越来越多具有内容推广需求的用户希望通过互联网平台进行推广和宣传,来提高内容推广的效率。为此,现有技术中互联网平台往往利用爬虫爬取推广用户的推广内容,再在各个网页上对推广内容进行推广展示,该方案存在以下问题:1、爬取定向性差:由于现有的爬取过程是非定向的,导致爬取到的推广内容中包含了很多无效数据,需要经过筛选后才能使用;2、爬取效率低:由于爬取方和被爬取方之间没有统一交互规范,导致爬取过程复杂;3、爬取到的推广内容的实时有效性差:当推广用户对自身推广内容进行更新时,现有技术中的爬取方往往无法主动得知,导致爬取到的推广内容与推广用户指定的推广内容不一致,降低推广价值。不仅如此,由于现有技术中内容推广服务并未形成合理规范的体系,导致推广内容和推广方式的不合理,例如,在互联网用户浏览网页时,网页的某位置突然弹出推广内容,该推广内容与当前网页毫无关系,扰乱了用户正常的浏览行为,该针对性差且出现方式不合理的推广内容对当前浏览用户来说毫无意义,不仅降低了当前浏览用户的体验,也无法满足推广用户的内容推广需求,内容推广的有效性极差。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种爬取推广内容并供搜索使用的方法和装置。依据本专利技术的一个方面,提供了一种爬取推广内容并供搜索使用的方法,该方法包括:获取推广用户的服务器地址列表;对于推广用户的服务器地址列表中的每个服务器地址,按照该服务器地址对应的爬取频度,每隔相应的时间访问该服务器并爬取对应的推广内容;保存所爬取到的推广内容;在接收搜索关键词时,根据搜索关键词从所保存的推广内容中查找到匹配的推广内容,将匹配的推广内容作为搜索结果的一部分展现在搜索结果页面中。可选地,所述每隔相应的时间访问该服务器并爬取对应的推广内容包括:每隔相应的时间访问该服务器,找到该服务器上的推广内容;其中,服务器上的推广内容由一个或多个指定格式的文件组成,每个文件具有一个地址标识参数和最后修改时间参数;对于该服务器上推广内容中的每个文件,根据其地址标识参数和最后修改时间参数判断该文件是否需要爬取,是则爬取该文件,否则不爬取该文件。可选地,根据其地址标识参数和最后修改时间参数判断该文件是否需要爬取包括:先根据其地址标识参数判断该文件是否为自上一次爬取后新增的文件,是则判断为爬取,否则进一步根据其最后修改时间参数判断该文件是否为自上一次爬取后被修改的文件,是则判断为爬取,否则判断为不爬取。可选地,所述爬取该文件包括:获取该文件并且获取该文件的地址标识参数和最后修改时间参数;所述根据其地址标识参数判断该文件是否为自上一次爬取后新增的文件包括:判断该文件的地址标识参数是否与之前爬取的文件的地址标识参数相同,如果相同则该文件不是新增文件,如果不相同则该文件是新增文件;所述根据其最后修改时间参数判断该文件是否为自上一次爬取后被修改的文件包括:将该文件的当前的最后修改时间参数值与上一次爬取的该文件的最后修改时间参数值进行比较,如果前者晚于后者则判断为被修改过,否则未被修改过。可选地,该方法进一步包括:提供不同的用于定制推广内容的模板,以供不同推广用户选择并记录各推广用户所选择的模板;其中每个推广用户根据所选择模板的规范定制自身的推广内容并保存到自身的服务器上;所述每隔相应的时间访问该服务器并爬取对应的推广内容包括:根据所选择的相应模板,爬取对应的推广内容。可选地,将从每个推广用户的服务器爬取推广内容的一个或多个任务放入任务队列;从任务队列中取任务,并使用一致性哈希算法调度一台或多台机器上的进程来完成任务。可选地,所述保存所爬取到的推广内容包括:从爬取到的推广内容的每一项中抽取关键词;其中,爬取的推广内容包括一个或多个项,每项包括关键词和结构化的推广数据;对于推广内容中的每一项,判断抽取的关键词是否属于竞价词库中的词,如果不属于则丢弃该项,如果属于则对该项进行保存处理。可选地,所述对该项进行保存处理包括:将该项的结构化的推广数据中的图片保存到图片服务器中;将图片在图片服务器上的地址、该项的结构化的推广数据中的文本和URL地址,以该项的关键词为索引保存到推广内容库中。可选地,所述根据搜索关键词从所保存的推广内容中查找到匹配的推广内容包括:根据搜索关键词从推广内容库中查找匹配的索引关键词,获得相应的图片在图片服务器上的地址、文本和URL地址;根据图片在图片服务器上的地址获取相应的图片;图片、文本和URL地址为最终推广内容。可选地,将匹配的推广内容作为搜索结果的一部分展现在搜索结果页面中包括:在搜索结合页面的指定位置处展现一个应用盒子,在该应用盒子中展现匹配的推广内容。依据本专利技术的另一个方面,提供了一种爬取推广内容并供搜索使用的装置,该装置包括:获取处理单元,适于获取推广用户的服务器地址列表;爬取处理单元,适于对于推广用户的服务器地址列表中的每个服务器地址,按照该服务器地址对应的爬取频度,每隔相应的时间访问该服务器并爬取对应的推广内容;保存处理单元,适于保存所爬取到的推广内容;搜索处理单元,适于在接收搜索关键词时,根据搜索关键词从所保存的推广内容中查找到匹配的推广内容,将匹配的推广内容作为搜索结果的一部分展现在搜索结果页面中。可选地,所述爬取处理单元,适于每隔相应的时间访问该服务器,找到该服务器上的推广内容;其中,服务器上的推广内容由一个或多个指定格式的文件组成,每个文件具有一个地址标识参数和最后修改时间参数;所述爬取处理单元,适于对于该服务器上推广内容中的每个文件,根据其地址标识参数和最后修改时间参数判断该文件是否需要爬取,是则爬取该文件,否则不爬取该文件。可选地,所述爬取处理单元,适于先根据其地址标识参数判断该文件是否为自上一次爬取后新增的文件,是则判断为爬取,否则进一步根据其最后修改时间参数判断该文件是否为自上一次爬取后被修改的文件,是则判断为爬取,否则判断为不爬取。可选地,所述爬取处理单元,适于在爬取该文件时获取该文件并且获取该文件的地址标识参数和最后修改时间参数;所述爬取处理单元,适于判断该文件的地址标识参数是否与之前爬取的文件的地址标识参数相同,如果相同则该文件不是新增文件,如果不相同则该文件是新增文件;以及适于将该文件的当前的最后修改时间参数值与上一次爬取的该文件的最后修改时间参数值进行比较,如果前者晚于后者则判断为被修改过,否则未被修改过。可选地,模板处理单元,适于提供不同的用于定制推广内容的模板,以供不同推广用户选择并记录各推广用户所选择的模板;其中每个推广用户根据所选择模板的规范定制自身的推广内容并保存到自身的服务器上;所述爬取处理单元,适于根据所选择的相应模板,爬取对应的推广内容。可选地,所述爬取处理单元,适于将从每个推广用户的服务器爬取推广内容的一个或多个任务放入任务队列;从任务队列中取任务,并使用一致性哈希算法调度一台或多台机器上的进程来完成任务。可选地,所述保存处理单元,适于从爬取到的推广内容的每一项中抽取关键词;其中,爬取的推广内容包括一个或多个项,每项包括关键词和结构化的本文档来自技高网...
一种爬取推广内容并供搜索使用的方法和装置

【技术保护点】
一种爬取推广内容并供搜索使用的方法,其中,该方法包括:获取推广用户的服务器地址列表;对于推广用户的服务器地址列表中的每个服务器地址,按照该服务器地址对应的爬取频度,每隔相应的时间访问该服务器并爬取对应的推广内容;保存所爬取到的推广内容;在接收搜索关键词时,根据搜索关键词从所保存的推广内容中查找到匹配的推广内容,将匹配的推广内容作为搜索结果的一部分展现在搜索结果页面中。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄凤
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1