代理搜索引擎方法技术

技术编号:5284048 阅读:221 留言:0更新日期:2012-04-11 18:40
代理搜索引擎方法,其步骤包括A、搜索问题描述字串输入,B、搜索问题描述字串分析,C、代理资源优选,D、搜索分发和驱动和E、搜索结果处理。本发明专利技术在用户搜索和数量繁多的专业的垂直搜索引擎群之间建立起新的代理搜索机制,为建立起一个统一的便于使用的基于垂直搜索技术的搜索平台提供了重要的技术途径。本代理搜索引擎方法有效避免了垂直搜索细分产品数量繁多选用困难的问题,并且保持了垂直搜索技术所贡献的搜索高精度和实时性。

【技术实现步骤摘要】
-.
本专利技术公开一种新的互联网搜索引擎方法,特别是基于代理模式的搜索引擎方 法。二.
技术介绍
时下常见的互联网信息搜索方法有两种①通过百度、谷歌这类综合搜索门户网 站;②通过垂直搜索门户网站。这两种搜索引擎从技术而言是有很大差异的。百度、谷歌这 类综合搜索门户采用水平搜索技术,而垂直搜索门户采用的是垂直搜索技术。百度、谷歌等综合搜索引擎由于采用的是水平搜索技术,存在以下明显的不足① 网页更新慢由于水平搜索技术需要将各种网页本地化,面对海量的网页,综合搜索引擎的 网页本地化更新周期需要十几天到数十天之久,不能充分满足对实时性要求很高的商业类 资讯搜索的要求;②搜索精度低这是百度、谷歌等综合搜索引擎的致命短板,其结果是用 户在使用综合搜索引擎时面对数以百万计而仅有少部分符合要求的答案茫然不知所措。垂直搜索技术正是因为综合搜索引擎的不足而发展起来的。垂直搜索技术由于没 有海量网页本地化要求,因此也不存在网页本地化更新周期的问题,理论上讲垂直搜索技 术可以做到以秒为单位的信息更新。同时,垂直搜索技术深入网页精准抓取网页数据,搜索 精度非常高,反馈给用户的结果皆是有用的答案,避免了用户在海量答案中进一步寻找的 苦差。由于网页中的信息与应用领域密切相关,垂直搜索技术在应用上便自然分化为与 应用领域或行业密切相关的细分产品,例如音乐搜索、图片搜索、博客搜索等。垂直搜索引 擎这种行业细化分类有效解决了搜索精度问题。研究表明,每增加一个细化分类,就能使搜 索精度得到成倍的提高。然而,市场分得越细,搜索引擎细分产品的数量也会越多。面对众 多的垂直搜索引擎,用户搜索前并不清楚他的问题需要选择哪个搜索引擎去实现。指望用 户记住这数百乃至上千个技术方法、技术水平、操作风格、服务特点各不相同的垂直搜索引 擎是不现实的?对用户来说,要找到他所需要的垂直搜索引擎或许会比他在精度不足的综 合搜索引擎上寻找结果更加麻烦。这就是垂直搜索虽然比水平搜索既快又精准,但人们仍 然喜欢使用百度、谷歌这种精准度不高信息获得需要一系列网页浏览操作的综合搜索引擎 完成搜索的内在原因。三.
技术实现思路
本专利技术的目的在于提供一种新的,该方法的核心是在用户和众 多专业的垂直搜索引擎群之间建立代理机制。该方法的既保持搜索的高精度和实时性,又 避免垂直搜索细分产品数量繁多选用困难的问题。本专利技术包括以下步骤A、搜索问题描述字串输入。接收用户搜索问题描述字串的输入。B、搜索问题描述字串分析。首先将搜索问题描述字串通过分词技术从词库中的标3准词与搜索问题描述字串各分离词汇的匹配关系确定搜索问题描述字串的关键词集合,再 从领域分类索引库找出这些关键词各自的领域特征,最后按照特定的规则和推理算法推断 出搜索问题描述字串所对应的领域。C、代理资源优选。根据前述搜索问题描述字串分析后所推断出的领域归属情况, 从代理搜索资源库中过滤出符合领域特征的搜索引擎集合,并按照优选原则筛选出承担本 次搜索任务的搜索引擎。D、搜索分发和驱动。通过调用事先建好的代理搜索资源调用驱动方法库中相应 的方法对优选的搜索引擎逐个实施搜索驱动,由这些搜索引擎各自独立完成实际的搜索动 作。E、搜索结果处理。从所驱动的各搜索引擎输出页面中抓取搜索答案并按输出需要 进行必要的去重、格式化加工等处理,最后将搜索答案反馈给用户。本专利技术的使用效果是本专利技术在用户搜索和数量繁多的专业的垂直搜索引擎群之间建立起新的代理搜 索机制,该代理搜索机制有效避免了垂直搜索细分产品数量繁多选用困难的问题,并且保 持了垂直搜索技术所贡献的搜索高精度和实时性。同时,代理搜索引擎和众多垂直搜索引 擎之间相对独立,不受众多垂直搜索引擎各自的技术水平差异、技术深入演变情况、和数量 急剧膨胀等条件的制约。对解决垂直搜索技术不能构建起像百度、谷歌那样统一的搜索平 台的难题,改善目前垂直搜索引擎的应用现状,促进垂直搜索技术的进一步发展,为用户提 供更加优越的搜索环境等方面都具有明显的积极意义。四.附图说明图1为本专利技术逻辑流程图。五.具体实施方式实施例1本实施例说明本专利技术中搜索问题描述字串分析所使用的领域 分类索引库的技术特征。在本实施例中,领域分类索引库是基于语义分类方法实现词库中 所有标准词的领域归属特征的刻画和索引。实施例2本实施例说明本专利技术中搜索问题描述字串分析所采用的特定 的规则和推理算法。在本实施例中,特定的规则采用的是语义规则,特定的推理算法采用的 是语义推理算法。实施例3本实施例说明本专利技术中筛选承担搜索的搜索引擎所采用的优 选原则。在本实施例中,优选原则包括使用一个代理搜索资源优化参数库和一个优化分发 算法库。代理搜索资源优化参数库包括各种搜索引擎的领域特征、在同类搜索引擎中的权 重比较评价值等参数。优化分发算法库与代理搜索资源优化参数库配套的相关优化计算方 法。实施例4 本实施例说明本专利技术中代理搜索资源调用驱动方法库的主要 内容。本实施例中,代理搜索资源调用驱动方法库主要包括激活并驱动各搜索引擎的网页 地址、嵌入模拟搜索问题描述字串的网页搜索问题描述字串输入框入口描述、搜索按钮模 拟激活方法,以及该搜索引擎所特别需要的用户名称和密码等参数。权利要求1.,其特征在于包括以下步骤A、搜索问题描述字串输入。接收用户搜索问题描述字串的输入。B、搜索问题描述字串分析。首先将搜索问题描述字串通过分词技术从词库中的标准词 与搜索问题描述字串各分离词汇的匹配关系确定搜索问题描述字串的关键词集合,再从领 域分类索引库找出这些关键词各自的领域特征,最后按照特定的规则和推理算法推断出搜 索问题描述字串所对应的领域。C、代理资源优选。根据前述搜索问题描述字串分析后所推断出的领域归属情况,从代 理搜索资源库中过滤出符合领域特征的搜索引擎集合,并按照优选原则筛选出承担本次搜 索任务的搜索引擎。D、搜索分发和驱动。通过调用事先建好的代理搜索资源调用驱动方法库中相应的方法 对优选的搜索引擎逐个实施搜索驱动,由这些搜索引擎各自独立完成实际的搜索动作。E、搜索结果处理。从所驱动的各搜索引擎输出页面中抓取搜索答案并按输出需要进行 必要的去重、格式化加工等处理,最后将搜索答案反馈给用户。全文摘要,其步骤包括A、搜索问题描述字串输入,B、搜索问题描述字串分析,C、代理资源优选,D、搜索分发和驱动和E、搜索结果处理。本专利技术在用户搜索和数量繁多的专业的垂直搜索引擎群之间建立起新的代理搜索机制,为建立起一个统一的便于使用的基于垂直搜索技术的搜索平台提供了重要的技术途径。本有效避免了垂直搜索细分产品数量繁多选用困难的问题,并且保持了垂直搜索技术所贡献的搜索高精度和实时性。文档编号G06F17/30GK102043831SQ201010550798公开日2011年5月4日 申请日期2010年11月19日 优先权日2010年11月19日专利技术者李梦怡 申请人:四川圣望科技有限公司本文档来自技高网
...

【技术保护点】
代理搜索引擎方法,其特征在于包括以下步骤:A、搜索问题描述字串输入。接收用户搜索问题描述字串的输入。B、搜索问题描述字串分析。首先将搜索问题描述字串通过分词技术从词库中的标准词与搜索问题描述字串各分离词汇的匹配关系确定搜索问题描述字串的关键词集合,再从领域分类索引库找出这些关键词各自的领域特征,最后按照特定的规则和推理算法推断出搜索问题描述字串所对应的领域。C、代理资源优选。根据前述搜索问题描述字串分析后所推断出的领域归属情况,从代理搜索资源库中过滤出符合领域特征的搜索引擎集合,并按照优选原则筛选出承担本次搜索任务的搜索引擎。D、搜索分发和驱动。通过调用事先建好的代理搜索资源调用驱动方法库中相应的方法对优选的搜索引擎逐个实施搜索驱动,由这些搜索引擎各自独立完成实际的搜索动作。E、搜索结果处理。从所驱动的各搜索引擎输出页面中抓取搜索答案并按输出需要进行必要的去重、格式化加工等处理,最后将搜索答案反馈给用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:李梦怡
申请(专利权)人:四川圣望科技有限公司
类型:发明
国别省市:90[中国|成都]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1