获取信息的方法和装置制造方法及图纸

技术编号:10188224 阅读:156 留言:0更新日期:2014-07-04 20:40
本发明专利技术公开了一种获取信息的方法和装置,属于通信技术领域。所述方法包括:获取网页上的搜索词;当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;对所述第一网页集进行筛选,得到符合筛选条件的选定网页;根据所述模板的需求在所述选定网页中挖掘相应的关键信息;在所述模板上输出所述相应的关键信息。本发明专利技术不需要外接数据,搜索引擎主动搜索互联网中的数据,且根据预设的模板信息从海量的数据中挖掘出关键信息,从而满足用户的各种需求,提高了搜索引擎的服务质量和效率。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种获取信息的方法和装置,属于通信
。所述方法包括:获取网页上的搜索词;当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;对所述第一网页集进行筛选,得到符合筛选条件的选定网页;根据所述模板的需求在所述选定网页中挖掘相应的关键信息;在所述模板上输出所述相应的关键信息。本专利技术不需要外接数据,搜索引擎主动搜索互联网中的数据,且根据预设的模板信息从海量的数据中挖掘出关键信息,从而满足用户的各种需求,提高了搜索引擎的服务质量和效率。【专利说明】获取信息的方法和装置
本专利技术涉及通信
,特别涉及一种获取信息的方法和装置。
技术介绍
随着互联网的发展,各种网站层出不穷,用户可以在网站上搜索所需信息。面对众多网站的竞争,怎样才能够为用户提供更能够满足用户需求的搜索结果是所有网站需要解决的问题。现有技术中提供的一种通用开放平台,并将该平台的接口开放给特定信息数据的拥有者,如天气信息,股票信息,地图信息等这些数据的拥有者,如天气信息,股票信息,地图信息等这些数据的拥有者,在获取到搜索词时,搜索引擎除了提供一般性的搜索结果外,如果该搜索用户为特定用户,则搜索引擎还可以通过通用开放平台的接口输出特定信息供用户查看,从而满足了特定用户对特定信息的需求。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:现有技术中,需要外部提供高质量数据给搜索引擎,这些外部的高质量数据局限于天气、股票或是微博等数据,搜索引擎只能被动接受外部提供的高质量数据,无法满足用户的各类需求,不能通过互联网中的海量数据为用户提供高质量的搜索。
技术实现思路
为了提高搜索质量,本专利技术实施例提供了一种获取信息的方法和装置。所述技术方案如下:—方面,提供了一种获取信息的方法,所述方法包括:获取网页上的搜索词;当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;对所述第一网页集进行筛选,得到符合筛选条件的选定网页;根据所述模板的需求在所述选定网页中挖掘相应的关键信息;在所述模板上输出所述相应的关键信息。另一方面,提供了一种获取信息的装置,所述装置包括:接入模块,用于获取网页上的搜索词;获取模块,用于当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;筛选模块,用于对所述第一网页集进行筛选,得到符合筛选条件的选定网页;挖掘模块,用于根据所述模板的需求在所述选定网页中挖掘相应的关键信息;输出模块,用于在所述模板上输出所述相应的关键信息。本专利技术实施例提供的技术方案带来的有益效果是:获取网页上的搜索词;当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;对所述第一网页集进行筛选,得到符合筛选条件的选定网页;根据所述模板的需求在所述选定网页中挖掘相应的关键信息;在所述模板上输出所述相应的关键信息。不需要外接数据,搜索引擎主动搜索互联网中的数据,且根据预设的模板信息从海量的数据中挖掘出关键信息,从而满足用户的各种需求,提高了搜索引擎的服务质量和效率。【专利附图】【附图说明】为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一中提供的一种获取信息的方法流程图;图2是本专利技术实施例二中提供的一种获取信息的法流程图;图3是本专利技术实施例三中提供的一种获取信息的装置结构示意图;图4是本专利技术实施例三中提供的另一种获取信息的装置结构示意图;图5是本专利技术实施例三中提供的另一种获取信息的装置结构示意图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。本实施例中,搜索引擎的内容增值服务,涉及的
技术介绍
包括搜索引擎的基本组成部分:网络爬虫,网页信息索引,搜索词检索;以及人工智能技术:数据挖掘,自然语言处理等。搜索引擎中的网络爬虫是按照一定的规则自动抓取互联网网页的一种程序或脚本。网络爬虫首先选取一部分种子URL (Uniform/Universal Resource Locator,统一资源定位符),将这些URL放入待抓取URL队列;从待抓取URL队列中取出待抓取的URL,DNS(Domain Name System,域名系统)解析得到对应IP,然后将其对应的网页下载到已下载网页库中。将这些URL放进已抓取URL队列,并抽取其中的其他URL,将抽取出来的URL放入待抓取URL队列。进入下一个抓取循环,直到满足系统的一定停止条件。经过这种的循环抓取过程,爬虫为搜索引擎积累的大量的网页数据。搜索引擎把网络爬虫爬取的网页进一步建立索引,得到网页信息索引。具体的,搜索引擎保存搜集的网页,并将它们按照一定的格式进行了压缩编排,形成倒排索引的数据结构。这样,搜索引擎就可以支持快速应对搜索词的检索行为。搜索引擎接受到用户的搜索词后在倒排索引中检索,由于预先对网页进行了编排,搜索引擎在极短时间内就能够找到用户需要的网页。这些初步命中用户搜索词的网页,还要在进一步判断和搜索词的相关程度,按照相关程度排序这些网页,并返回给用户查看。数据挖掘是从大量的、有噪声的、模糊的实际应用数据中,提取隐含在其中的具有潜在价值的信息和知识的过程。发现的知识可以被用于信息管理,决策支持和过程控制等。数据挖掘把对搜索引擎数据的应用从低层次的简单搜索,提升到从数据中挖掘知识。自然语言处理是使用计算机实现对自然语言的理解和生成的过程。现有网页中绝大部分信息是中文文本。从语言学的角度可以把中文文本看作由字组成词,由词组成词组,由词组组成句子,由句子在进一步组成段、节、章、篇,上述的各种层次存在着歧义和多义现象。为了消解歧义,需要大量的背景知识和推理手段,其中的过程就是自然语言处理过程。实施例一参见图1,本实施例中提供了一种获取信息的方法,包括:101、获取网页上的搜索词;102、当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;103、对所述第一网页集进行筛选,得到符合筛选条件的选定网页;104、根据所述模板的需求在所述选定网页中挖掘相应的关键信息;105、在所述模板上输出所述相应的关键信息。本实施例的有益效果是:获取网页上的搜索词;当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;对所述第一网页集进行筛选,得到符合筛选条件的选定网页;根据所述模板的需求在所述选定网页中挖掘相应的关键信息;在所述模板上输出所述相应的关键信息。不需要外接数据,搜索引擎主动搜索互联网中的数据,且根据预设的模板信息从海量的数据中挖掘出关键信息,从而满足用户的各种需求,提高了搜索引擎的服务质量和效率。实施例二本专利技术实施例中提供了一种获取信息的方法,网页为了用户提供内容增值服务,该服务的目的是结合搜索引擎高效的检索机本文档来自技高网
...
获取信息的方法和装置

【技术保护点】
一种获取信息的方法,其特征在于,所述方法包括:获取网页上的搜索词;当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;对所述第一网页集进行筛选,得到符合筛选条件的选定网页;根据所述模板的需求在所述选定网页中挖掘相应的关键信息;在所述模板上输出所述相应的关键信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:胡熠刘磊赵耀程佳
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1