对在转换基于WEB的信息时使用的规则进行非编程开发的系统和方法技术方案

技术编号:2877174 阅读:199 留言:0更新日期:2012-04-11 18:40
建立与要被识别的事物的属性对应的规则,以便具有能够获得网页信息的非编程手段的方法,该方法包括:查找包含与想要的事物相关的信息的网页;选择一种格式(form)来覆盖找到的网页,以及根据该格式从找到的网页中提取信息。这种格式用与想要的事物的属性对应的规则来确定。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
本专利技术通常涉及因特网和电子商务、即“e商务(e-commerce)”。更确切的说,本专利技术涉及。因特网(Internet)已经发展成为一种媒体,通过这种媒体,人们使用连入因特网的计算机可以获取大量信息,而且通过因特网获取信息的方式有多种多样。有时可以通过搜索引挚获取信息,示例的这种搜索引挚是通过关键词或短语搜索,然后给出一系列在网页中包含关键词或短语的网站地址,例如,网页的文本或内嵌识别码(如元标志)。信息还可以借助因特网通过单独的网站获得。这些网站提供了大量且种类繁多的具备时效性和不依赖于时问的信息和服务。因特网特别有助于开展电子商务。已建立了许多因特网服务器,销售商可利用这些服务器为他们的产品或服务打广告和销售这些产品和服务。这样的产品或服务可包括通过因特网以电的方式传递到购买者手中的项目(如,音乐)和通过传统的销售渠道(如普通货运公司)传递到购买者手中的物品(如,书籍)。而服务能够提供信息(如,天气预报、交通、电影、成本比较等)和通过因特网来完成的交易(如股票买卖、定餐)。遗憾的是,当因特网提供给用户获取大量信息的机会的同时,人们发现这种基于因特网的信息通常是非常耗时且非常麻烦的。更为糟糕的是,在大量的单个网站上很难找到并比较相同的信息,因为这些相同的信息在这些网站上是可以以不同的方式组织、描述的,并且可以在不同的时间发生变化。除了这些固有的困难之外,因特网还有一个显而易见的问题是,不借助于通过因特网服务提供商(ISP)连入因特网的计算机或类似电子装置,人们就无法获取这些信息。而且,为了查找基于因特网的网络信息,人们必须学会如何通过因特网定位信息。如此一来,人们没有计算机,或者没有通过ISP接入互连网,或者没有使用因特网的经历或训练,访问基于因特网的信息就受到了限制。这些因素都直接导致了为什麽在1999年底业内专家估计只有30%的美国人曾经访问过互连网或“网上冲浪”(来自Forrester Research 1999年10月的统计)。因此,希望提供一种系统和方法,通过这种系统和方去,人们无须使用计算机,无须ISP的连接,无须具有使用因特网的经历或训练就可以访问基于因特网的信息。此外,希望提供一种系统和方法,该系统和方法使人们能够使用传统的且容易获得的方式,如通过公用电话的语音来获得基于因特网的信息。更进一步,人们还希望提供一种系统和方法,该系统和方法为在转换和规范化语义结构化数据时所使用的规则的非编程开发提供了保证,使得例如语音这样的数据可以从因特网源和用户接口平台之间进行转换。迄今为止,有许多难题使得这样的一种系统和方法是不可能的。例如,使用这种系统的人们希望尽快的得到信息,至少是在可以容忍的时间之内得到信息。达到这样的速度是很难的。即使是使用传统的高速计算机和快速的通讯连接,获取因特网信息的延迟也已经使很多人把因特网称为″世界范围等待(world wide wait)″。这种系统和方法的另一个问题是语音通讯的识别问题。传统的语音识别技术既慢又不准确。方便实用的通过语音获取基于因特网的信息需要简单、快速、准确的语音识别技术。然而,已知的处理器和存储设备都不允许对大词汇量的快速访问和像人与人交互中的语音识别那样所需要的处理速度。这样一种系统和方法还存在另一个问题就是如伺在获得资金支持的同时来提供免费的基于因特网的信息浏览。传统的互联网广告业务需要看到广告信息,如“标题”(banners),并通过手动选择,如“点击”标题来获得更多的广告产品或服务的信息。因此,除了上述提到的功能之外,人们还需要通过这种系统和方法获得迅速准确的对基于因特网信息的免费的语音访问。进一步说,还需要通过这种系统和方法从因特网信息源获得数据并把它与其它因特网信息源的数据进行比较,然后提供给大量的不同平台的用户,包括语音平台和无线访问协议平台(WAP)。专利技术概要本专利技术一实施例的一个方面涉及一种方法,该方法建立与要被识别的事物的属性对应的规则,以便具有能够获得网页信息的非编程手段。该方法包括查找包含与想要的事物相关的信息的网页,选择一利格式(form)来覆盖找到的网页,以及根据该格式从找到的网页中提取信息。这种格式用与想要的事物的属性对应的规则来确定。简要来说,本专利技术一实施例的另一个方面涉及一种系统,该系统建立与要被识别的事物的属性对应的规则,以便从网页获得信息。该系统包括查找包含与想要的事物相关的信息的网页的装置,选择一种格式(form)来覆盖找到的网页的装置,以及根据该格式从找到的网页中提取信息的装置。这种格式用与想要的事物的属性对应的规则来确定。简要来说,本专利技术一实施例的另一个方面是对在把基于WEB的信息转换为普通数据结构时使用的规则进行非编程开发的方法。该方法包括查找信息页面中含有相关信息的区域,识别包括隔离含有相关信息的区域的模式的格式,在包括含有相关信息的区域的一组页面中查找与更多信息页面的链接,以及为一组具有相同模式的页面创建提取文件来隔离含有相关信息的区域。简要来说,本专利技术一实施例的另一个方面是对在把基于WEB的信息转换为普通数据结构时使用的规则进行非编程开发的系统。该系统包括查找信息页面中含有相关信息的区域的装置,识别包括隔离含有相关信息的区域的模式的格式的装置,在包括含有相关信息的区域的一组页面中查找与更多信息页面的链接的装置,以及为一组具有相同模式的页面创建提取文件来隔离含有相关信息的区域的装置。简要来说,本专利技术一实施例的另一个方面是建立在转换基于WEB的信息时使用的规则的系统。该系统包括一个数据库和数据管理工具。数据库存储使用多个格式中的一个格式从网页中提取出的信息。这多个格式包含与从网页中检索出的相关信息相应的规则。数据管理工具允许非专家规则的设计者从多个格式中选择该格式。选定的格式被用来逼近该网页的信息的排列和上下文。简要来说,本专利技术一实施例的另一个方面是一种计算机程序产品,它包含对在把基于WEB的信息转换为普通数据结构时使用的规则进行非编程开发的计算机程序代码。该计算机程序产品中的程序代码包含用于查找网页的第一计算机可读程序代码和用于识别包括隔离含有相关信息的区域的模式的格式的第二计算机可读程序代码。本专利技术的其它主要特征和优点对于那些仔细阅读了以下的附图、详细描述、以及所附的权利要求的本领域普通技术人员来说是显而易见的。附图概述本专利技术通过例子加以说明,但不受以下附图的限制,图中相同的标号表示相同的部分,其中附图说明图1是与因特网连接的语音入口的简要图形表示;图2是图1的语音入口的一示例功能实施例的简要功能方框图;图3是图1的语音入口的一示例物理实施例的更详细的方框图;图4是被图1的语音入口使用的一示例数据结构模型的图形表示;图5是图4的用于用户相关信息的一示例数据结构模型的图形表示;图6是图4的用于广告相关信息的一示例数据结构模型的图形表示;图7是说明图4的示例数据结构模型的一示例创建过程的流程图;图8是图7的示例创建过程的图形表示;图9是说明使用非编程手段收集基于因特网信息的一示例过程的流程图;图10是与图1语音入口相关的规则的非编程开发的一示例过程的图形表示;图11是与图1的语音入口相关的规则的非编程开发的一示例图形用户界面;图12是在与图1的语音入口相关的规则的非编程开发本文档来自技高网...

【技术保护点】
建立与要被识别的事物的属性对应的规则,以便具有能够获得网页信息的非编程手段的方法,该方法包括:查找包含与想要的事物相关的信息的网页;选择一种格式(form)来覆盖找到的网页,这种格式用与想要的事物的属性对应的规则来确定;以及根据 该格式从找到的网页中提取信息。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:史蒂文杰尔米卡里尔史蒂文格雷戈里伍兹马丁PA塞林科
申请(专利权)人:快客柯姆公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1