自适应多领域搜索引擎调用方法及系统技术方案

技术编号:5255940 阅读:206 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种自适应多领域搜索引擎调用方法,包括:接收用户发出的搜索请求,并分析所述搜索请求,提取出用户需求对应的搜索要素;根据所述搜索要素调用领域频繁项集,计算所述领域频繁项集中的各个领域子集对所述搜索要素的支持度;判断所述各个领域子集对所述搜索要素的支持度是否达到预设阈值,并将所述搜索要素发送到达到预设阈值的领域子集对应的领域搜索引擎;所述领域搜索引擎根据所述搜索要素进行搜索,并返回搜索结果;根据预设的结果返回逻辑将所述搜索结果下发给用户。本发明专利技术还涉及一种自适应多领域搜索引擎调用系统。本发明专利技术能够根据用户搜索请求自动调用对应的领域搜索引擎,提供针对性的搜索结果,从而提供精准的信息搜索服务。

【技术实现步骤摘要】

本专利技术涉及搜索引擎应用技术,尤其涉及一种自适应多领域搜索引擎调用方法及 系统。
技术介绍
搜索引擎技术是随着互联网技术发展而发展起来的,主要作用是在信息爆炸的情 况下,应对海量信息的检索,满足人们获取信息的需求。搜索引擎具体实现的方式不尽相 同,但一般都包含6个基本部分搜索信息的网上蜘蛛(Web Spider)、信息分析器、索引器、 数据库、检索器、用户界面。但是单一的搜索引擎一般很难满足用户不同的需求,这个不同 的需求指两个方面一个是相同个体在不同时期、不同背景下的信息需求存在差异;另一 个是不同个体,在相似环境下,相同输入的信息需求存在差异。另一方面,由于信息爆炸,相 似的信息越来越多,这包含相同领域的相似信息和不同领域的相似信息,而最大的问题是 相同或相似的问题表达,在不同领域会产生完全不同的信息搜索结果,这必然影响到为用 户提供搜索服务的准确性和有效性。
技术实现思路
本专利技术的目的是提出一种自适应多领域搜索引擎调用方法及系统,能够根据用户 搜索请求自动调用对应的领域搜索引擎或服务资源,提供针对性的搜索结果,从而提供精 准的信息搜索服务。为实现上述目的,本专利技术提供了一种自适应多领域搜索引擎调用方法,包括接收用户发出的搜索请求,并分析所述搜索请求,提取出用户需求对应的搜索要 素;根据所述搜索要素调用领域频繁项集,计算所述领域频繁项集中的各个领域子集 对所述搜索要素的支持度;判断所述各个领域子集对所述搜索要素的支持度是否达到预设阈值,并将所述搜 索要素发送到达到预设阈值的一个或多个领域子集对应的领域搜索引擎;所述领域搜索引擎根据所述搜索要素进行搜索,并返回搜索结果;根据预设的结果返回逻辑将所述搜索结果下发给用户。为实现上述目的,本专利技术提供了一种自适应多领域搜索引擎调用系统,包括搜索请求接收单元,用于接收用户发出的搜索请求;搜索请求解析单元,用于分析所述搜索请求,提取出用户需求对应的搜索要素;领域选择单元,用于根据所述搜索要素调用领域频繁项集,计算所述领域频繁项 集中的各个领域子集对所述搜索要素的支持度,并从所述各个领域子集选出对所述搜索要 素的支持度达到预设阈值的领域子集,然后将所述搜索要素发送到选出的一个或多个领域 子集对应的领域搜索引擎;领域搜索引擎,用于根据接收到的所述搜索要素进行搜索,并返回搜索结果;结果下发单元,用于根据预设的结果返回逻辑将所述搜索结果下发给用户。基于上述技术方案,本专利技术通过频繁项集技术对用户搜索请求进行支持度的计算 和匹配,从而自动调用符合要求的领域子集对应的领域搜索引擎,进而提供领域搜索引擎 搜索到的有针对性的搜索结果,为用户提供精准的信息搜索服务。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中图1为本专利技术自适应多领域搜索引擎调用方法的一实施例的流程示意图。图2为本专利技术自适应多领域搜索引擎调用方法的另一实施例中的频繁项集的形 成过程的示意图。图3为本专利技术自适应多领域搜索引擎调用系统的一实施例的结构示意图。图4为本专利技术自适应多领域搜索引擎调用系统的另一实施例中领域选择单元的 具体结构示意图。图5为本专利技术自适应多领域搜索引擎调用系统的又一实施例的结构示意图。 具体实施例方式下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。首先对频繁项集技术进行介绍。频繁项集是源自数据挖掘领域的概念,属于信息 搜索或文本检索领域,简单地讲就是在超过一定数目的候选分析集中出现的词及词的集 合。频繁项集的挖掘能很好的降低信息分析的维数,并且在全文级别上挖掘出对聚类有贡 献的词及词的集合。最大频繁项集是那些所有超集都不是频繁项集的频繁项集。采用最大 频繁项集能大大降低频繁项集的规模,因此可以作为候选分析集合的更紧凑表示。同时,基 于最大频繁项集的聚类也有可能进一步降低处理时间,并且可以应用在领域理解基础之上 的领域分类及识别。本专利技术所提供的自适应多领域搜索引擎调用方法及系统基于频繁项集技术,可以 根据对用户搜索的理解及后台服务信息资源的情况,自动调用不同的一个或多个领域搜索 引擎,搜索不同的结果,通过多种接入手段的,为用户各类不同的搜索请求提供精准的信息 服务。本专利技术的系统具备动态维护不同的搜索引擎服务能力事物频繁项集的能力,通过 形成并维护一个引擎服务领域特征事物的频繁项集,及任意搜索请求与频繁项集之间支持 度的计算,来达到调用不同领域服务搜索引擎的能力。频繁项集按照领域知识划分成领域 知识的频繁子集,每个频繁子集内存储对应领域支持的搜索事物事例集合。系统可以通过频繁项集矩阵调整系统服务能力支持度频繁项子集的特例事物集 合。频繁项集矩阵存在如下的对应关系,单一对应关系,一对多的对应关系,多对多的对应 关系。频繁项集的推理模块可以根据搜索有效点击计数维护这个对应关系,通过周期衰减 策略,调整相应的输出事物特例频繁项集,并为不同领域搜索请求的判断提供服务。例如,根据对搜索结果的点击计算公式,判别当前搜索请求和搜索结果之间的关 系。如果用户点击选择了某个搜索引擎的搜索结果。则证明了本次搜索服务的有效性,即产生了一个正向反馈,搜索引擎对于这个关键词,或是这个频繁项子集的服务能力计数加分; 如果没有选择,则证明了本次搜索服务的偏差性,搜索引擎对于这个关键词,或是这个频繁 项子集的服务能力减分。而周期衰减策略是为了使积累的数据归一化,即当累基计的数量达到预设阈值很 多时,则通过一定归一化计算公式,使得服务的累积次数变量所代表的服务能力,能转化到 对引擎的评价打分中。而这个打分要求在一个坐标系中对所有的引擎服务能力进行评价打 分,以使得即计算结果可以比较。同时,也为避免对于生僻关键词的计数不足,如果产生对 于某一类特例的信息服务能力资源由于访问不足,则可被排除在引擎服务列表之外。当获得新的搜索请求后,系统判别搜索请求和系统服务能力频繁项集之间支持 度,对符合支持度定义的引擎进行调用,并对外提供搜索服务。如图1所示,为本专利技术自适应多领域搜索引擎调用方法的一实施例的流程示意 图。在本实施例中,自适应多领域搜索引擎调用流程包括步骤101、接收用户发出的搜索请求,并分析所述搜索请求,提取出用户需求对应 的搜索要素;步骤102、根据所述搜索要素调用领域频繁项集,计算所述领域频繁项集中的各个 领域子集对所述搜索要素的支持度,即采用一种可计算的模式判别用户搜索请求的是什么 领域的信息;步骤103、判断所述各个领域子集对所述搜索要素的支持度是否达到预设阈值,并 将所述搜索要素发送到达到预设阈值的一个或多个领域子集对应的领域搜索引擎;步骤104、所述领域搜索引擎根据所述搜索要素进行搜索,并返回搜索结果;步骤105、根据预设的结果返回逻辑将所述搜索结果下发给用户。在上述技术方案中,当系统接收到用户通过各种接入设备(例如手机短信方式或 电脑的网页浏览器或WAP搜索的方式等)发出的搜索请求时,需要对该搜索请求进行分析, 在本实施例中对于文本类搜索请求可采用传统的分词方法将搜索请求的字符串分解成多 个搜索要素,对于非文本类搜索请求,例如图像、视频等搜索请求可采用语义理解的方式从 搜索请求中提取出多个搜索要本文档来自技高网...

【技术保护点】
一种自适应多领域搜索引擎调用方法,包括:  接收用户发出的搜索请求,并分析所述搜索请求,提取出用户需求对应的搜索要素;  根据所述搜索要素调用领域频繁项集,计算所述领域频繁项集中的各个领域子集对所述搜索要素的支持度;  判断所述各个领域子集对所述搜索要素的支持度是否达到预设阈值,并将所述搜索要素发送到达到预设阈值的一个或多个领域子集对应的领域搜索引擎;  所述领域搜索引擎根据所述搜索要素进行搜索,并返回搜索结果;  根据预设的结果返回逻辑将所述搜索结果下发给用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵学军杨志光王志宏杨震周毅俊陈正文俞惠华沈利锷
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1