一种关联信息的检索方法及装置制造方法及图纸

技术编号:8387163 阅读:164 留言:0更新日期:2013-03-07 07:49
本发明专利技术实施例提供了一种关联信息的检索方法及装置,涉及通信领域,所述关联信息的检索方法包括:获取当前网页的源码,从所述源码中提取所述当前网页的正文;从所述正文中获取关键词集;获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述关键词的关联信息;所述关联信息的检索的装置包括:源码获取模块、正文提取模块、关键词集获取模块、类别获取模块、检索模块和关联信息获取模块。本发明专利技术实施例降低了网络传输量。

【技术实现步骤摘要】

本专利技术涉及通信领域,特别涉及一种关联信息的检索方法及装置
技术介绍
当今信息社会,信息的组织和获取至关重要。人们已经习惯通过电脑或手机访问互联网来获取信息。当人们在网上冲浪时,遇到感兴趣的网页或信息,往往希望能够获得更多的关联信息,以便对整个事件、事物或商品了解得更清楚。比如在浏览一篇关于某品牌手机的报道时,往往希望能够进一步看到关于该手机的图片、价格和应用软件等信息的介绍。现有技术提供了一种对网页中的关键字进行即时检索的方法,包括在向客户端加载网页的同时,启动关键字检索进程;实时监测并接收鼠标或键盘的操作;根据所述操 作获取待查询的关键字;发送所述关键字到关键字检索服务器进行信息检索,将获得的检索结果传送到客户端;客户端即时显示所述检索结果。现有技术在根据关键字进行检索时,没有考虑到当前网页的特征,使得检索的结果可能涵盖了很多与当前网页无关的页面,直接导致了信息的冗余,增大了网络传输量。
技术实现思路
为了降低网络传输量,本专利技术实施例提供了一种关联信息的检索方法及装置。所述技术方案如下—种关联信息的检索方法,包括获取当前网页的源码,从所述源码中提取所述当前网页的正文;从所述正文中获取关键词集;获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述关键词的关联信息。一种关联信息的检索装置,包括源码获取模块,用于获取当前网页的源码;正文提取模块,用于从所述源码中提取所述当前网页的正文;关键词集获取模块,用于从所述正文中获取关键词集;类别获取模块,用于获取所述关键词集中的关键词对应的类别;检索模块,用于根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;关联信息获取模块,用于根据所述检索结果获取所述关键词的关联信息。本专利技术实施例可使当用户浏览网页时对当前网页进行分析处理,获取关键词和关键词对应的类别,根据所述类别有针对性的选择合适的检索服务器进行检索并获得所述关键词的关联信息,相比较现有技术而言,本实施例参考了页面的特征信息,使得检索的结果更加贴合用户需求的信息,降低了信息冗余,降低了网络传输量。附图说明为了更清楚地说明本专利技术实 施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图I是本专利技术实施例I提供的一种关联信息的检索方法实施例的流程图;图2是本专利技术实施例2提供的一种关联信息的检索方法实施例的流程图;图3是本专利技术实施例3提供的一种关联信息的检索方法实施例的流程图;图4是本专利技术实施例4提供的一种关联信息的检索装置实施例的结构示意图;图5是本专利技术实施例5提供的一种关联信息的检索装置实施例的第一结构示意图;图6是本专利技术实施例5提供的一种关联信息的检索装置实施例的第二结构示意图;图7是本专利技术实施例提供的一种关联信息的检索装置实施例的第一结构示意图;图8是本专利技术实施例提供的一种关联信息的检索装置实施例的第二结构示意图。具体实施例方式本专利技术实施例提供一种关联信息的检索方法及装置。为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。实施例I参考图1,图I是本专利技术实施例I提供的一种关联信息的检索方法实施例的流程图;所述关联信息的检索方法包括SlOl :获取当前网页的源码,从所述源码中提取所述当前网页的正文。S102 :从所述正文中获取关键词集。所述关键词集包括命名实体关键词集和/或主题关键词集,但是并不局限于此。其中,命名实体关键词具体为命名实体,即人名、机构名、地名以及其他所有以名称为标识的实体;所述主题关键词具体为能代表文章主题的关键词。S103:获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果。S104 :根据所述检索结果获取所述关键词的关联信息。本实施例中,当用户浏览网页时对当前网页进行分析处理,获取关键词和关键词对应的类别,根据所述类别有针对性的选择合适的检索服务器进行检索并获得所述关键词的关联信息,相比较现有技术而言,本实施例参考了页面的特征信息,使得检索的结果更加贴合用户需求的信息,降低了信息冗余,降低了网络传输量。实施例2参考图2,图2是本专利技术实施例2提供的一种关联信息的检索方法实施例的流程图;所述关联信息的检索方法包括S201 :获取当前网页的基本信息,所述基本信息包括所述当前网页的统一资源定位符URL和/或更新时间。实际应用中,当用户使用浏览器打开网页时,浏览器监控当前网页是否加载成功,如果是,获取所述当前网页的基本信息,例如所述当前网页的URL(Uniform ResourceLocator,统一资源定位符)和/或更新时间;如果否,结束。实际应用中,根据不同的返回码来获取所述当前网页的加载状态;所述加载状态包括加载成功和加载失败,其中所述加载失败可以包括请求无效、禁止访问和内部服务器错误等;所述返回码可以是HTTP (HyperText Transfer Protocol,超文本传输协议)响应状态码,但是并不局限于此。当所述返回码为HTTP200时,所述当前网页的加载状态为加载 成功;当所述返回码为HTTP400时,所述当前网页的加载状态为请求无效,即加载失败;当所述返回码为HTTP403时,所述当前网页的加载状态为禁止访问,即加载失败;当返回码为HTTP500时,所述当前网页的加载状态为内部服务器错误,即加载失败;此处只是列举了几个HTTP响应状态码与加载状态之间的关系,但是并不局限于此。本实施例中,所述返回码可以不是HTTP响应状态码,例如所述返回码包括000和001 ;当所述返回码为000时,所述当前网页的加载状态为加载正常,所述000对应上述HTTP200的情况;当所述返回码为001时,所述当前网页的加载状态为加载失败,所述001对应上述HTTP400、HTTP403和HTTP500的情况。S202 :判断所述基本信息是否满足预置的网页分析条件,如果是,执行S203。所述网页分析条件可以由用户预先设置;所述网页分析条件包括网页URL范围和/或网页URL后缀和/或第一时间。获取所述当前网页的URL和/或更新时间后,判断所述当前网页的URL是否满足网页URL范围和/或网页URL后缀的要求,和/或,判断所述当前网页的更新时间是否满足晚于第一时间的要求。优选地,判断所述当前网页的URL是否满足网页URL范围和网页URL后缀的要求,以及所述当前网页的更新时间是否满足晚于第一时间的要求;例如所述网页URL范围为sina. com. cn”,其中*涵盖任意字符,所述网页URL后缀为html”,所述第一时间为“2010-05-01-00-00-00”,即2010年5月I日O时O分O秒,所述当前网页的URL为“http://tech. sina. com. cn/it/2010-07-08/21154403865. html”,所述当前网页的更新时间为“2010-06-01-00-00-0本文档来自技高网...

【技术保护点】
一种关联信息的检索方法,其特征在于,包括:获取当前网页的源码,从所述源码中提取所述当前网页的正文;从所述正文中获取关键词集;获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述关键词的关联信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:方琦钟杰萍杜家春
申请(专利权)人:华为软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1