搜索验证的系统和方法技术方案

技术编号:4597809 阅读:168 留言:0更新日期:2012-04-11 18:40
一种用于验证主机搜索引擎(50)的结果的方法,该方法包括以下步骤:利用扫描引擎(25)扫描可经由web界面递送的所有数据对象;以及,执行匹配引擎(35)以生成包含所述主机搜索引擎(50)错失内容的报告集合。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及针对基于web的系统进行。
技术介绍
大部分web站点包括搜索引擎设施,从而允许该站点的访问者 在尝试定位感兴趣的项目时执行搜索。当web站点日益成为与客户 进行交流的优选手段时,web站点的所有者对确保他们的web站点作为对web站点进行体验的结果而遭受挫折的客户可能对拥有 站点的实体产生负面观点,并且在该web站点为客户^是供进行事务 的;f几制的实例中(诸如定位和购买出售的项目),客户可能由于不 能快速定位并且购买所需项目而中断对项目的购买。即使对于仅向 客户提供信息的站点(诸如政府部门的web站点)来说,站点的所 有者确保客户可以定位他们需要的信息仍旧是重要的,否则负面印 象本身将表明对拥有和/或操作该we b站点的实体不满意。Web站点的一个问题在于,不能对引擎的有效性进行测试。迄 今所作的所有搜索引擎测试都是通过浏览器而手动进行的,结果, 各种组织在事后才意识到他们的搜索引擎的问题。这通常是作为客户反馈的结果而发生的,在反馈中,客户曾尝 试在web站点上定位信息的项目并且将他们不能定位该信息向组织 进行报告。当然,依靠该方法来定位与web站点搜索引擎错失内容 相关联的问题导致了客户印象中的负面看法并且没有提供发现解决 方案的手段。此外,在认识到错失内容之后,该组织需要人工调查 并且解决web站点搜索引擎的问题。当前,还没有执行搜索引擎验证以确保搜索引擎提供对web站点(或链接的web站点集合)所含信息的全覆盖的自动化方式。而且,也不存在可以检测搜索引擎执行的覆盖的手段。如所指示的, 当前的解决方案在以下事实之后,即,当将客户反馈递送到搜索团队时(例如,为何我不能找到文档a )。依赖于搜索引擎来传 递结果而没有深刻理解搜索引擎如何对所有w e b站点内容进行索 引。这是因为搜索引擎仅可以验证已经被索引的内容,而不验证错 失的内容。因而,在搜索引擎团队中工作的员工没有用于验证其搜 索引擎覆盖的主动手段。本说明书中对任何现有技术的参考都不应作为对权利要求书的 优先权日期时公知常识的现有技术部分的承认或任何构成或建议。
技术实现思路
在一方面中,本专利技术提供了 一种用于验证主机搜索引擎的结果 的方法,所述方法包括以下步骤扫描可经由web界面递送的所有 数据对象,并且执行匹配引擎以生成包含所述主机搜索引擎错失内 容的报告集合。所述报告集合可以包括详述所述web界面中内容的确切位置的 清单报告。其他报告可以在一个web站点报告中包括具有最内 (most-in)链接的页面,,,以辅助搜索引擎操作员来调节他们的搜 索引擎。所述报告集合还可以包括高亮显示由web界面系统所拥有的不 同web域的web URL清单。在本专利技术的实施方式中,扫描可经由web界面递送的所有数据 对象的步骤包括为了未来参考而开发所有对象的索引。在一个实施 方式中,形成web站点中所有可用词的索引。此外,可以根据词的 独特性对所有可用词的索引进行排序。例如,可以采用强度分析从 而确定扫描期间定位的词的相对独特性。在备选实施方式中,对诸如页面、图像、文本、链接、元数据 和脚本之类的所有对象,连同文档和PDF、 Word、 Power Point和其他输出格式的性质的所有对象进行捕获以及索引。在已经建立了独特词的web站点中扫描和获取所有可用词的实施方式中,这些可以在执行匹配引擎的时候被用作关^r建词。在该实 施方式中,将关键词输入到搜索引擎的相关字段中以确定关键词的 所有实例是否可以由搜索引擎定位。在将关键词输入到搜索引擎字段中之后,继而可以将搜索引擎定位的所得URL集合与扫描所标识 的URL集合进行比较。针对关键词的、扫描所标识的URL集合与 搜索引擎尝试定位相同关键词的所有实例之间的任何差异表示错失 的内容。在本专利技术的实施方式中,所述报告集合包括存在错失内容的 URL。在另一方面,本专利技术提供一种用于验证主机搜索引擎的结果的 系统,所述系统包4舌主机搜索引擎,用于执行对web站点的搜索;扫描组件,其扫描并且定^立可经由到所述web站点的web界面 可获得的所有数据对象;以及匹配引擎,用于接收由所述扫描组件定位的所述数据对象,并且 将该数据对象提交给所述主机搜索引擎,来确定不能被所述主机搜 索引擎定位的、从所述扫描组件获取的那些数据对象,从而表示由 所述主机搜索引擎错失的数据对象。在又一方面中,本专利技术提供了 一种用于控制计算机的操作来验 证主机搜索引擎的结果的计算机指令代码,所述计算机指令代码实 现以下步骤扫描可经由web界面递送的所有数据对象;以及执行匹配引擎以生成包含所述主机搜索引擎错失内容的报告集合。在另一方面中,本专利技术提供了一种包含在计算机可读介质上、 用于验证主机搜索引擎的结果的计算机程序,所述计算机程序包括 用于扫描可经由web界面递送的所有数据对象的计算机指令代码;用于执行匹配引擎以生成标识所述主机搜索引擎错失内容的报 告集合的计算机指令代码。因而,根据本专利技术的系统和方法验证企业web站点搜索引擎的 覆盖有效性。该系统和方法建议了 web站点搜索引擎还未进行 索引的地方或错失内容,从而通过促进更好的搜索结果来改进用户 生产力。本文所述技术可以通过存储的、由一个或多个合适的处理设备 (诸如个人计算机或服务器计算机)执行的可执行指令实现。附图说明现在将参考附图描述本专利技术,附图示出了本专利技术的示例性实施 方式,其中图1是验证web站点搜索引擎的图示;图2是在执行web站点分析时通常使用的数据库和信息类型的图示; ,图3是详述web站点访问者体验调查结果的报告,该报告包括 报告的web站点搜索性的等级;图4a和图4b形成了针对web站点的搜索性度量和搜索引擎覆 盖的报告;图5是包括验证搜索引擎过程期间未被定位的URL(web站点) 的详细列表的搜索引擎覆盖报告;以及图6a和图6b形成了目标搜索引擎覆盖验证过程的结果的报告。具体实施例方式本专利技术实施方式驻留在可执行计算机软件中,该软件能够安装 在操作一定范围的操作系统软件(例如,Windows、 Linux和Solaris ) 或作为ASP服务执行的内部计算机设备上。软件扫描可经由web界 面对终端用户可用的所有数据对象。在完成扫描之后,软件执行分8析匹配引擎,该引擎生成详述主机搜索引擎错失的、由扫描软件标 识的内容的区域的报告集合。在实施方式中,该报告集合是基于html的并且标识以下物理区 域,在该物理区域中,对所有可用数据对象和企业web站点搜索结 果的扫描不同。当然,出于标识错失数据并且解决企业搜索引擎的 问题来包括错失数据的目的,而可以生成各种报告。例如,可以生 成详述组织中内容确切位置的清单才艮告。详述web站点内具有最 内链接的页面(即,具有到该页面的最向内指向的链接的页面) 的另一报告辅助搜索引擎用户调节他们的搜索引擎。在这点上,使 用链接的页面调节搜索引擎是惯用企业技术。标识web URL清单的 另 一 报告可用于向主机企业搜索团队高亮显示他们所拥有的区别 web域。然后,报告的接收者可以使用结果来改进他们现有web站点搜 索引擎的覆盖。例如,访问现有web站点搜索引擎未索引的页面, 并且查看页面代码可以允许操作员理解页面代码是否是错失该页面 本文档来自技高网
...

【技术保护点】
一种用于验证主机搜索引擎的结果的方法,所述方法包括以下步骤:扫描可经由web界面递送的所有数据对象;以及,执行匹配引擎以生成包含所述主机搜索引擎错失内容的报告集合。

【技术特征摘要】
【国外来华专利技术】AU 2007-4-10 20079018831.一种用于验证主机搜索引擎的结果的方法,所述方法包括以下步骤扫描可经由web界面递送的所有数据对象;以及,执行匹配引擎以生成包含所述主机搜索引擎错失内容的报告集合。2. 根据权利要求1所述的方法,其中扫描数据对象的步骤包括 创建所有所扫描的数据对象的索引。3. 根据权利要求1或2所述的方法,其中所述数据对象可以包 括以下的任意一项或多项<formula>formula see original document page 2</formula>元数据; 脚本; 文档;或 文档性质。4. 根据权利要求2或3所述的方法,其中根据所述数据对象的 独特性对所述索引的内容进行排序。5. 根据权利要求4所述的方法,其中通过所述数据对象的强度 分析来确定所述数据对象的独特性。6. 根据权利要求5所述的方法,其中所述数据对象是词并且所 述强度分析考虑以下的任意一项或多项a. 出现频率;b. 上下文相对重要性;或c. 与其他主题的接近性。7. 根据前述权利要求中的任一项所述的方法,其中所述匹配引 擎向所述主机搜索引擎提交从扫描步骤获取的数据对象。 ,面像本接页图文链8. 根据权利要求7所述的方法,其中将提交给所述主机搜索引 擎的所述数据对象限制为独特数据对象。9. 根据前述权利要求中的任一项所述的方法,其中所述报告集合包括足以标识包含错失数据的特定web站点的信息。10. 根据前述权利要求中的任一项所述的方法,其中所述匹配引 擎配备有关键字,所述关键字对于确定包含重要关键字的任何内容 是否被所述主机搜索引擎错失来说尤其重要。11. 一种用于验证主机搜索引擎的结果的系统,所述系统包括 主机搜索引擎,用于执行对web站点的搜索;扫描组件,其扫描并且定位经由到所述web站点的web界面可获得的所有数据对象;以及匹配引擎,用于接收由所述扫描组件定位的所述数据对象,并且将所述数据对象提交给所述主机搜索引擎,来确定不能被所述主机 搜索引擎定位的、从所述扫描组...

【专利技术属性】
技术研发人员:SD柯克比P凯利特
申请(专利权)人:埃森哲环球服务有限公司
类型:发明
国别省市:CH[瑞士]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1