一种用于对网站进行片段式搜索的系统和过程技术方案

技术编号:2851160 阅读:189 留言:0更新日期:2012-04-11 18:40
一种用于搜索网络中的目标内容(诸如媒体文件)的系统和方法将所遇到的网页分解为片段(218)。对于字符模式,对每一片段进行搜索,所述字符模式涉及到目标内容(220)。对每一片段搜索的结果进行组合(226),以便将基于网络的搜索结果提供给用户、代理器和/或系统(228)。与现有技术搜索引擎和/或代理器相比,所述系统和方法能以更加有效的方式搜索网络,并且使用了更少的存储器和处理资源。这尤其适合用于包括流媒体、多媒体、以及与它们有关的元数据的目标内容,原因在于有大量的数据要被处理。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利
总体上涉及到有关计算机的信息搜索和检索,具体而言,涉及到片段式搜索网上的内容。作为理解本专利技术的背景,因特网(也称为万维网或者Web)在其普及方面作出的贡献使得用户可以利用的多媒体和流媒体文件供过于求。然而,查找淹没于Web上的数以万计的文件之中的具体多媒体或流媒体文件却常常是一件极其困难的任务。可从Web上获得的信息内容的容量和种类可能在以相当可观的速度持续增加。这样的增长结合Web的高度分散性使得在定位特定信息内容方面会产生相当大的困难。流媒体是指这样的音频、视频、多媒体、文本以及交互式数据文件,它们通过因特网或者其它网络环境传送到用户的计算机,并在整个文件都传送完毕之前就开始在用户的计算机上播放。流媒体的一个优点在于在整个文件都被下载之前,流媒体文件就开始播放,从而免去用户长久等待,这种长久等待通常是与下载整个文件相关联的。以数字方式记录的音乐、电影、预告片、新闻报道、无线广播以及事件实况都有助于增加Web上的流内容。此外,不怎么昂贵的高带宽连接(诸如电缆、DSL以及Tl)使因特网用户能更加快速、更加可靠地访问新闻机构、好莱坞电影制片商、独立生产商、记录标记、甚至家庭用户的流媒体内容。用户通常使用搜索引擎搜索因特网上的具体信息。搜索引擎包括一组在网络(例如局域网(LAN)或者因特网以及万维网)中的网络站点上可被访问的程序。一种被称为“机器人”或“蜘蛛”的程序在搜索文档(例如网页)以及其它程序时预先遍历网络,并建立在所述文档中发现的关键字的大型索引文件。典型地,用户形成包含一个或多个搜索词的查询,并将该查询提交给搜索引擎的另一个程序。在响应时,所述搜索引擎检查自己的索引文件,并且显示与搜索查询相匹配的文档列表(通常作为超链接)。然后,用户可以激活一个超链接来查看在所述文档中包含的信息。然而,搜索引擎存在有缺陷。例如,许多典型的搜索引擎是适用于仅仅发现文本信息的。具体而言,它们并不能很好地用于对包含在结构化的数据库(例如关系数据库)中的信息、与语音有关的信息、与音频有关的信息、多媒体以及流媒体等等作索引。此外,混合来自不相兼容的数据源的数据对于常规搜索引擎是很困难的。而且,当搜索引擎搜索网络时,它典型地通过跟踪它所遇到的Web链路以一种随机的方式来进行搜索。因此,就与查询相关的信息而言,每一个网站都要作为单一的实体而加以搜索。这种低效率的搜索常常产生大量的数据,对于产生可搜索的索引,这些数据是没用的。此外,将每一个网站作为单一的实体进行搜索需要相当大量的存储器和处理资源。这尤其适用于像流媒体这样的对象。概括地说,本专利技术是一种用于搜索网络上的目标内容的系统和方法,其中所述网络包括网页,将所遇到的每一个网页分解成片段并搜索每一个片段中与目标内容有关的内容。 附图说明对于本专利技术,通过结合附图阅读以下详细的描述能够得到最好的理解。附图的各种技术特征可以是不按照比例的。包括在附图中的是以下的图图1是互联的计算机系统网络的系统的形式化概要说明;以及图2是本专利技术实施例的用于搜索基于网络的网页中的目标内容的示范性过程的流程图。因特网是世界范围的计算机网络系统,它是其中一台计算机的用户能够从任何其他计算机中获得信息以及与其他计算机的用户进行通信的网络的网络。因特网最广泛应用的部分是万维网(常缩写为“WWW”或者称为“Web”)。Web的突出特征是它使用超文本,它是一种交叉引用的方法。在大多数的网站中,某些单词或者短语是以不同于周围文本颜色的文本出现的。这种文本常常还有下划线。有时,是“可点击”的按钮、图像或者部分图像。使用Web可以访问数以万计的信息页。网上“冲浪”是通过网页浏览器(诸如NETSCAPE NAVIGATOR以及MICROSOFT INTERNET EXPLORER)实现的。特定网站的外观可以有些许变化,这取决于所使用的特定浏览器。最近版本的浏览器带有“插件(plugins)”,它们提供动画、虚拟现实、声音和音乐。本专利技术是这样一种系统和方法,所述系统和方法用于通过搜索系统使用元数据在计算机网络上检索基于网络的内容,包括媒体文件和与媒体文件有关的数据。在此所使用的术语“媒体文件”包括音频、视频、文本、多媒体数据文件以及流媒体文件。多媒体文件包括文本、图像、视频以及音频数据的任意组合。流媒体包括音频、视频、多媒体、文本以及交互式数据文件,它们是通过因特网或者其它通信网络环境传送到用户的计算机的,并且在整个文件都传送完毕之前就开始在用户的计算机/设备上播放。流媒体的一个优点在于在整个文件都被下载之前,流媒体文件就开始播放,从而免去了用户长久等待,这种长久等待通常是与下载整个文件相关联的。数字记录的音乐、电影、预告片、新闻报道、无线广播以及事件实况都有助于增加Web上的流内容。此外,通过使用高带宽连接(诸如电缆、DSL、Tl线以及无线网络(例如基于2.5G或者3G的蜂窝网络))而在通信网络成本上的降低会使因特网用户能更加快速、更加可靠地访问新闻机构、好莱坞电影制片商、独立生产商、记录标记、甚至家居用户他们自己的流媒体内容。流媒体的例子包括歌曲、政治演讲、新闻广播、电影预告片、实况广播、无线广播、财政新闻发布会、现场音乐厅、网络摄像机(web-cam)的连续镜头以及其他特殊事件。流媒体的编码采用各种格式,包括REALAUDIO,REALVIDEO,REALMEDIA,APPLE QUICKTIME,MICROSOFT WINDOWSMEDIA FORMAT,QUICKTIME,MPEG-2 LAYERIII AUDIO以及MP3。通常,媒体文件指定有扩展名(后缀),用于指示与具体格式的兼容性。例如,以扩展名.ram,.rm,.rpm之一结尾的媒体文件(例如音频和视频文件)与REALMEDIA格式相兼容。在下表中列出了文件扩展名以及与它们相兼容的格式的一些例子。更详尽的媒体类型、扩展名以及兼容格式的列表可以在http://www.bowers.cc/extensions2.htm中查找到。表1 作为描述性数据的元数据字面意思是“关于数据的数据”。元数据是这样的数据,它包括描述其他数据(例如媒体文件)的内容或者属性的信息。例如,标题为“用于资源发现的都柏林核心元数据”(http://www.ietf.org/rfc/rfc2413.txt)的文档将元数据分为三组,它们概略地指示在其中所包含的信息的类别或者范围。这三个组是(1)主要与资源的内容有关系的元素,(2)按知识产权观看时主要与资源有关系的元素,以及(3)主要与资源的实例化有关系的元素。落在这些组的元数据的例子表示在下表中。表2 元数据的来源包括网页内容、统一资源指示符(URI)、媒体文件以及用于传送媒体文件的传输流。网页内容包括HTML、XML、元标记以及在网页上的任何其它文本。如在此更加详细的解释,元数据还可以从URL、网页、媒体文件以及其它元数据中获得。在媒体文件之中的元数据可能包括在媒体文件中所包含的信息,例如多媒体或者流文件的诸如头标和尾标.元数据还可以从例如媒体/元数据的传输流诸如TCP/IP(例如包)、ATM、帧中继、基于蜂窝的传输模式(例如基于蜂窝的电话模式)、MPEG传本文档来自技高网...

【技术保护点】
一种用于搜索网络中的目标内容的方法,所述网络包括网页,所述方法包括如下步骤:将每个遇到的网页分解为片段;以及搜索每个片段中与所述目标内容有关的内容。

【技术特征摘要】
1.一种用于搜索网络中的目标内容的方法,所述网络包括网页,所述方法包括如下步骤将每个遇到的网页分解为片段;以及搜索每个片段中与所述目标内容有关的内容。2.权利要求1的方法,其中所述搜索步骤是递归执行的以便进一步搜索每个所述片段中的与所述目标内容有关的内容。3.权利要求1的方法,其中所述分解步骤包括如下步骤将在每一网页中所包含的文本内容与预定的和动态地确定的文本模式中的至少之一进行比较;为在与一种模式相匹配的每个网页上所包含的文本内容的每个模式生成相应的片段;将在每一相应片段中所包含的文本内容与预定的和动态地确定的文本模式中的至少之一进行递归地比较;以及为在与一种模式相匹配的每个片段中所包含的文本内容的每个模式生成相应的片段。4.权利要求3的方法,还包括如下步骤形成重构的链接,其中,重构的链接包括在一个片段中所包含的匹配的模式和匹配的模式的一部分中的至少之一。5.权利要求3的方法,其中所述模式包括与在流媒体、多媒体、与流媒体有关的元数据、与多媒体有关的元数据以及其它网页中的至少一个有关的文本数据。6.权利要求1的方法,还包括如下步骤组合所述搜索每一片段的结果,所述结果包括至统一资源指示符(URI)的至少一个链接,其中,所述组合步骤包括添加、删除以及识别在至少一个URI中所包含的词中的至少之一。7.一种用于搜索网络中的目标内容的计算机系统,所述网络包括网页,所述计算机系统包括至少一台计算机,在所述系统中的所有计算机都是能通信的方式相互连接的,其中所述至少一台计算机中的每一台均包括在其中存储的至少一个程序,所述至少一个程序用于实现所述至少一台计算机中的每一台计算机之间的通信,所述至少一个程序中的每一个均结合另一个运行以使所述至少一台计算机执行如下步骤将每个遇到的网页分解为片段(218);以及搜索每个片段中与所述目标内容有关的内容。8.权利要求7的计算机系统,其中所述搜索步骤是由所述至少一台计算机递归地执行的,以便进一步搜索每个所述片段中的与所述目标内容有关的内容。9.权利要求7的计算机系统,其中所述至少一个程序使所述至少一台计算机执行如下步骤将在每一网页中所包含的文本内容与预定的和动态地确定的文本模式中的至少之一进行比较(220);为在与一种模式相匹配的每个网页上所包含的文本内容的每个模式生成相应的片段;将在每一相应片段中所包含的文本内容与预定的和动态地确定的文本模式中的至少之一进行递归比较;以及为在与一种模式相匹配的每个片段中所包含的文本内容的每个模式生成相应的片段。10.权利要求9的计算机系统,其中所述至少一个程序使所述至少一台计算机执行如下步骤形成重构的链接,其中,重构的链接包括在一个片段中所包含的匹配的模式和匹配的模式的一部分中的至少之一。11.权利要求9的计算机系统,其中所述模式包括与在流媒体、多媒体、与流媒体有关的元数据、与多媒体有关的元数据以及其它网页中的至少一个有关的文本数据。12.权利要求7的计算机系统,其中所述至少一个程序使所述至少一台计算机执行如下步骤组合所述搜索每一片段的结果,所述结果包括至统一资源指示符(URI)的至少一个链接,其中,所述组合步骤包括添加、删除以及识别在至少一个URI中所包含的词中的至少之一。13.一种在其上包括了用于使...

【专利技术属性】
技术研发人员:PT桑农BS米勒SCC李JL科拉
申请(专利权)人:汤姆森许可公司
类型:发明
国别省市:FR[法国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1