一种搜索引擎的评测方法技术

技术编号:8323525 阅读:189 留言:0更新日期:2013-02-14 01:18
本发明专利技术公开了一种搜索引擎的评测方法,包括:根据用于表示当前关键词与其他关键词的权重及权重关系的领域本体图及用于表示当前网页中当前关键词与其他关键词的权重及权重关系的网页本体图计算当前领域本体中的某一关键词在当前网页的网页相关度;计算所述当前关键词通过搜索引擎返回的若干网页的网页相关度总和,获得当前搜索引擎在所述当前关键词所处领域的评分。通过采用本发明专利技术公开的方法,实现了简洁、准确、快速的对搜索引擎进行评测。

【技术实现步骤摘要】

本专利技术涉及计算机应用
,尤其涉及。
技术介绍
互联网的迅猛发展和广泛普及,使人们可以方便地从网络上获得信息,但网络信息的爆炸性增长,又使人们准确、快速地获得有价值信息的难度大大增加。由于每个搜索引擎的语料库大小、索引新鲜度和语料重复度不同,导致搜索引擎相对于同一个关键词的返回结果大不相同。当用户需要对某个领域关键词进行搜索,并期望准确的找到所需要的信息时,则需要先对比较各个搜索引擎在当前领域的优劣,以选择最合适的搜索引擎进行信息的获取。现有技术中对搜索引擎进行评测时需具备访问搜索引擎内部数据的特权,并且需掌握搜索引擎工作原理等专业知识。然而,普通用户并不具备上述能力,因此,无法快速、高效的实现搜索引擎评测。
技术实现思路
本专利技术的目的是提供,基于领域本体的外部方法,实现了简洁、准确、快速的对搜索弓I擎进行评测。本专利技术的目的是通过以下技术方案实现的,包括根据用于表示当前关键词与其他关键词的权重及权重关系的领域本体图及用于表示当前网页中当前关键词与其他关键词的权重及权重关系的网页本体图计算当前领域本体中的某一关键词在当前网页的网页相关度;计算所述当前关键词通过搜索引擎返回的若干网页的网页相关度总和,获得当前搜索引擎在所述当前关键词所处领域的评分。由上述本专利技术提供的技术方案可以看出,本专利技术无需访问搜索引擎内部文件或目录来进行搜索引擎评测,而通过基于领域本体的外部方法,实现了简洁、准确、快速的对搜索引擎进行评测。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图I为本专利技术实施例一提供的的流程图;图2为本专利技术实施例二提供的又的流程图3为本专利技术实施例二提供的一种领域本体图中关键词权重值及关系权重值的示意图。具体实施例方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整 地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。实施例一下面将结合附图对本专利技术实施例作进一步地详细描述。如图I所示,,包括如下步骤步骤101、根据用于表示当前关键词与其他关键词的权重及权重关系的领域本体图及用于表示当前网页中当前关键词与其他关键词的权重及权重关系的网页本体图计算当前领域本体中的某一关键词在当前网页的网页相关度。其方法可以为根据选定的关键词构建领域本体图,该领域本体图中包括当前关键词与当前领域中其他关键词间权重关系;将该关键词通过搜索引擎进行搜索,选定返回的搜索结果的中的某一网页,构建网页本体图,该网页本体图中包括当前关键词在当前网页中与当前领域中其他关键词间权重关系的;根据该关键词的领域本体图及网页本体图,计算该关键词在当前网页的网页相关度。步骤102、计算所述当前关键词通过搜索引擎返回的若干网页的网页相关度总和,获得当前搜索引擎在所述当前关键词所处领域的评分。其计算方法具体可以为分别将每一个返回的网页的网页相关度与该网页在当前搜索引擎页面的权重值相乘,再计算总和,该数值则为当前搜索引擎在所述某一关键词所处领域的评分。其中,返回的网页的权重值与该网页所处搜索引擎页面相关,一般而言,返回的网页越靠前其权重值越大,反之越小。还可将所述某一关键词分别通过N (大于O的自然数)个搜索引擎进行搜索,并统一选取返回的若干网页,分别计算每一个搜索引擎返回的若干网页的网页相关度总和,按照所述网页相关度总和的大小,判断搜索引擎在所述某一关键词所处领域优劣。本专利技术实施例提供的搜索引擎的评测方法,无需访问搜索引擎内部文件或目录来进行搜索引擎评测,而通过基于领域本体的外部方法,实现了简洁、准确、快速的对搜索引擎进行评测。实施例二为便于理解,下面将结合附图2-3对本专利技术实施例的具体实现方式作进一步描述。如图2所示,,包括如下步骤步骤201、抓取关键词。从专业目录网站中,例如维基百科、百度百科和ODP等,抓取关键词,将抓取到的关键词按照领域进行分类形成关键词词库,如音乐,体育等。一般而言,利用专业目录网站中的抓取到的关键词来构建领域相关的问询词词库,可以提高网页相关度评测的准确性,进而提高系统的准确性。步骤202、选定关键词,并根据选定好的关键词构建领域本体图。首先选择一个关键词,根据当前关键词所处的领域类型建立关键词集合,确定所述关键词集合中所有关键词的词性(如名次,动词等),并按照语义相近程度将所述关键词集合中的关键词聚类;再根据分类学、语义和聚类概念对所述关键词集合中的关键词进行抽取,获得分类关系、关系集合与聚簇关系集合;最后根据抽取时的概率计算每一个关键词在当前领域本体中的权重值、分类关系中关键词间的关系权重值及关系集合中关键词间的关系权重值。上述仅为领域本体图的其中一种建立方法,用户还可以根据实际需求做出调整。例如,可在建立关键词集合后通过本体语料库对关键词进行校正等,还可对关键词集合进行其他类型的抽取,再建立对应的集合;还可将七步法或骨架法等其他领域本体图的构建方法与上述方法相结合。为了便于理解通过上述方法建立的领域本体图的含义,可将其定义为0G=〈T,F,H,R,C,A>,其中T代表OG中关键词集合,F代表属于T中关键词的词性,H代表T中关键词的分类关系,R代表关键词之间关系集合,C代表T中关键词的聚簇关系集合,A代表描述R中每个关系的理论集合。例如,以“娱乐”作为主体构建的领域本体图,关键词集合T=K娱乐,1),(音乐,O. 9),(电影,O. 9),(流行,O. 8),(唱歌,O. 7),(卡通,O. 6),(演出,O. 5),(演员,O. 5)};词性集合 F= {(娱乐,noun),(音乐,noun),(流行,noun),(唱歌,verb),(卡通,noun),(电影,noun)(演出,noun),(演员,noun)} ;H={(娱乐,音乐,O. 5),(音乐,流行,0.5)} ;R= {(唱歌,音乐,0.8),(演员,演出,0.9),(演员,电影,0.9)} ;C={(音乐,音乐),(音乐,流行),(音乐,唱歌),(动画,卡通),(电影,演出),(电影,演员)},其中F中的英文为该关键词的词性,如名词、动词等;T中的数字为该关键词在以“娱乐”为主体构建的领域本体图中的权重值;Η与R中的数字为两个关键词的权重边的值。上述权重值与权重边的值是根据抽该时出现的概率计算而来,对于不同的领域本体其关键词的权重值与权重边也会发生一定的变化。为更形象的表示各个关键词的权重值及权重边的值的关系,可以构建如图3所示的示意图。而为了便于计算,可以使用关键词的权重值及关键词中的权重边的值,计算相关联的关键词的关系权重值,下表以“娱乐”、“音乐”、“流行”和“唱歌”为例计算关系权重值本文档来自技高网...

【技术保护点】
一种搜索引擎的评测方法,其特征在于,包括:根据用于表示当前关键词与其他关键词的权重及权重关系的领域本体图及用于表示当前网页中当前关键词与其他关键词的权重及权重关系的网页本体图计算当前关键词在当前网页中的网页相关度;计算所述当前关键词通过搜索引擎返回的若干网页的网页相关度总和,获得当前搜索引擎在所述当前关键词所处领域的评分。

【技术特征摘要】
1.一种搜索引擎的评测方法,其特征在于,包括 根据用于表示当前关键词与其他关键词的权重及权重关系的领域本体图及用于表示当前网页中当前关键词与其他关键词的权重及权重关系的网页本体图计算当前关键词在当前网页中的网页相关度; 计算所述当前关键词通过搜索引擎返回的若干网页的网页相关度总和,获得当前搜索引擎在所述当前关键词所处领域的评分。2.根据权利要求I所述的方法,其特征在于,该方法还包括 抓取关键词,将抓取到的关键词按照领域进行分类,并构建领域本体图; 将某一关键词发送至搜索引擎,通过所述搜索引擎返回的相关网页及所述某一关键词对应的领域本体图,构建对应的网页本体图。3.根据权利要求2所述的方法,其特征在于,所述领域本体图包括关键词集合及每个关键词的权重值、关键词的词性、关键词的分类关系及相关关键词间的关系权重值; 构建领域本体图的步骤为 按照领域类型建立关键词集合,确定所述关键词集合中所有关键词的词性,并按照语义相近程度将所述关键词集合中的关键词聚类; 再根据分类学、语义和聚类概念对所述关键词集合中的关键词进行抽取,获得分类关系、关系集合与聚族关系集合; 根据抽取时的概率计算每一个关键词在当前领域本体中的权重值、分类关系中关键词间的关系权重值及关系集合中关键词间的关系权重值。4.根据权利要求3所述的方法,...

【专利技术属性】
技术研发人员:朱明孙永录尹文科
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1