当前位置: 首页 > 专利查询>咕果公司专利>正文

信息提取方法及系统技术方案

技术编号:2846639 阅读:211 留言:0更新日期:2012-04-11 18:40
本发明专利技术揭示用于从文章中识别并提取信息的系统及方法。在一实施例中,一搜索引擎执行一种包括如下的方法:接收复数个文章,并将至少一第一文章识别为一购物文章。所述方法可进一步包括:接收一对一条目的搜索查询,选择与所述搜索查询相关联的第一文章,及至少部分地根据所述搜索查询从所述第一文章中识别一与第一条目相关联的第一属性,所述第一条目与所述搜索查询相关。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术大体而言涉及信息提取。更具体而言,本专利技术涉及用于从文章中提取信息的方法及系统。
技术介绍
搜索引擎或搜索引擎程序为一种使用户能够在大量文档中搜索信息的广泛使用的机制。自动化通用搜索引擎通过使用户所输入的搜索查询项与一带索引的网页库相匹配来确定文档(例如网页)的位置。传统的网络搜索引擎(例如GoogleTM搜索引擎)响应于用户所提交的搜索查询而返回一搜索结果集合。所述搜索结果集合可包括一具有一至每一文档的链接的排序的文档列表且可向用户返回所述文档的摘要。所述搜索引擎可根据许多种量度(例如搜索项在文档中出现的次数及包含一通至一文档的链接的文档数量)在搜索结果集合中对各个文章或文档进行排序或分类。例如,一种已知方法(其阐述于由Sergey Brin及Lawrence Page所撰写的名称为“对一大型超级文本搜索引擎的剖析(The Anatomy of a Large-Scale Hypertextual Search Engine)”的文章中)是根据网页的链接结构为文档(例如网页)指定一重要度。许多文档(例如网页)提供待售条目。此类购物文档允许用户直接(例如通过点击一链接)或间接购买各条目。希望对来自不同卖主的条目的价格进行比较的用户可在一通用搜索引擎中输入对所述条目的查询并获得一相关文档列表。同样,可能存在所述条目的不同版本且用户可能希望查看每一卖主带有哪个版本。为了比较价格或版本,用户必须访问所有提供所述待售条目的文档。另外,在搜索结果集合中可能存在不是购物文档而只是论述该条目(例如评论)的文档。期望响应于对条目的搜索查询而自一搜索结果集合中的相关文档向用户提供所述条目的某些属性,例如价格、版本及图像。手动搜遍大量文档来提取条目属性可能极费时间且对于很多文档来说不切实际。因此,需要响应于用户的搜索查询而自动从文档中提取产品信息。
技术实现思路
本专利技术的各实施例包括用于从文章中识别并提取信息的方法及系统。在一实施例中,一搜索引擎执行一种方法,该方法包括接收复数个文章,并将至少一第一文章识别为一购物文章。所述方法可进一步包括接收针对一条目的搜索查询,选择与所述搜索查询相关联的所述第一文章,及至少部分地根据所述搜索查询而从所述第一文章中识别出一第一属性,所述第一属性与一和搜索查询相关的第一条目相关联。本专利技术的其他方面涉及计算机系统并涉及具有与上述方面相关的特征的计算机可读媒体。下文将对本专利技术各实施例的进一步细节及优点进行阐述。附图说明参照附图阅读下文详细说明,将会更好地了解本专利技术的这些及其他特征、方面及优点,附图中图1为一图解说明一本专利技术一实施例可在其中运行的实例性环境;图2为一流程图,其图解说明一种根据本专利技术的一实施例从文章中识别并提取条目属性的方法;及图3为一流程图,其图解说明一种根据本专利技术的一实施例从一文章中识别并提取条目价格及图像信息的方法的一实例。具体实施例方式本专利技术包括用于信息提取的方法及系统。现在参见附图,在这几个图式中相同编号指示相同元件,图1为一图解说明一用于实施本专利技术一实施例的实例性环境的方块图。图1中所示的系统100包括多个通过一网络106与一服务器装置104通信的客户机装置102a-n。所示网络106包括因特网。在其他实施例中,可使用例如内联网等其他网络。此外,本专利技术的方法可在单个计算机内运行。所示客户机装置102a-n各自包括一计算机可读媒体,例如一耦接至一处理器110的随机存取存储器(RAM)108。处理器110执行存储于存储器108中的计算机可执行程序指令。此类处理器可包括微处理器、ASIC及状态机。此类处理器包括存储指令的媒体(例如计算机可读媒体)或者可与所述媒体通信,所述指令在由所述处理器执行时会使所述处理器实施本文中所述的步骤。计算机可读媒体的各实施例包括(但不限于)能为处理器(例如客户机102a的处理器110)提供计算机可读指令的电子、光学、磁性或其他存储或传输装置。其他适合的媒体实例包括(但不限于)软盘、CD-ROM、DVD、磁盘、存储芯片、ROM、RAM、ASIC、经配置的处理器、所有光学媒体、所有磁带或其他磁性媒体、或计算机处理器可自其读取指令的任何其他媒体。此外,各种其他形式的计算机可读媒体也可向计算机传输或载送指令,包括路由器、专用或公用网络、或其他有线和无线传输装置或信道。所述指令可包括任一种计算机编程语言的代码,包括(例如)C、C++、C#、Visual Basic、Java、Python、Perl、及JavaScript。客户机装置102a-n也可包括若干外部或内部装置,例如鼠标、CD-ROM、DVD、键盘、显示器或其他输入或输出装置。客户机装置102a-n的实例为个人计算机、数字助理、个人数字助理、蜂窝式电话、移动电话、智能电话、寻呼机、数字图形输入板、膝上型计算机、因特网设备及其他基于处理器的装置。通常,客户机装置102a可为连接至一网络106并与一个或多个应用程序交互作用的任一类型的基于处理器的平台。客户机装置102a-n可在任一能够支持浏览器或由浏览器启用的应用程序的操作系统(例如MicrosoftWindows或Linux)上运行。所示客户机装置102a-n包括(例如)执行一浏览器应用程序(例如Microsoft公司的Internet ExplorerTM、Netscape通信公司的Netscape NavigatorTM及Apple计算机公司的SafariTM)的个人计算机。通过客户机装置102a-n,用户112a-n可通过网络106来彼此通信并与耦接至网络106的其他系统及装置通信。如图1所示,一服务器装置104也耦接至网络106。在所示实施例中,一用户112a-n在一客户装置102a处产生一搜索查询114。客户装置102a通过网络106将查询114传输至服务器装置104。例如,一用户112a将一关于一条目的原文搜索查询输入至一显示于客户机装置102a上的购物搜索引擎界面或其他客户端软件的一网页中的查询域中,然后所述搜索查询通过网络106传输至服务器装置104。在所示实施例中,一用户112a在一客户机装置102a上输入一搜索查询114,由客户机装置102a将一反映搜索查询114的相关搜索查询信号122传输至服务器装置104。可如图所示直接将搜索查询114直接传输至服务器装置104。在另一实施例中,查询信号122可改为发送至一代理服务器(未显示),然后由代理服务器将查询信号122传输至服务器装置104。也可具有其他配置。所示服务器装置104包括一执行一购物搜索引擎应用程序(例如FroogleTM搜索引擎)的服务器。类似于客户机装置102a-n,所示服务器装置104包括一耦接至一计算机可读存储器118的处理器116。服务器装置104-其被显示为单个计算机系统-可构建成一计算机处理器网络。服务器装置104的各实例为服务器、主计算机、联网的计算机、基于处理器的装置、及相似类型的系统及装置。客户机处理器110及服务器处理器116可为若干种计算机处理器中的任一种,例如位于Santa Clara,California的Intel公司的及位于Schaumburg,Illinois的Motorola公司的处理器。存储器118包含购物搜索本文档来自技高网
...

【技术保护点】
一种方法,其包括:接收复数个文章;及将至少一第一文章识别为一购物文章。

【技术特征摘要】
【国外来华专利技术】US 2003-12-10 10/731,9161.一种方法,其包括接收复数个文章;及将至少一第一文章识别为一购物文章。2.如权利要求1所述的方法,其中至少部分地通过识别一第一文章中的至少一个价格表示形式来将所述第一文章识别为一购物文章。3.如权利要求1所述的方法,其中至少部分地通过识别所述第一文章的一链接元素或一形式元素中的至少一个购物字符串来将所述第一文章识别为一购物文章。4.如权利要求1所述的方法,其进一步包括提供所述第一文章为一购物文章的一指示。5.如权利要求2所述的方法,其中所述价格表示形式为一货币符号后跟一数字再后跟一句点或逗点及再后跟两个单数位的数字。6.如权利要求3所述的方法,其中所述字符串包括包含如下的字符串的群组中的至少一个add to cart(添加至推车),add to basket(添加至篮子),add to shoppingbag(添加至购物袋),update order(更新次序),cart(推车),basket(篮子),及checkout(收款处)。7.如权利要求1所述的方法,其进一步包括接收一对一条目的搜索查询;使所述第一文章与所述搜索查询相关联;及至少部分地根据所述搜索查询从所述第一文章中识别一与一第一条目相关联的第一属性,所述第一条目与所述搜索查询相关。8.如权利要求7所述的方法,其进一步包括至少部分地根据所述搜索查询及所述第一属性来识别一与所述第一条目相关联的第二属性。9.如权利要求8所述的方法,其进一步包括从所述第一文章中提取所述第一属性及所述第二属性。10.一种方法,其包括接收一对一条目的搜索查询;识别一与所述搜索查询相关联的第一文章;至少部分地根据所述搜索查询从所述第一文章中识别一与一第一条目相关联的第一属性,所述第一条目与所述搜索查询相关。11.如权利要求10所述的方法,其进一步包括至少部分地根据所述搜索查询及所述第一属性来识别一与所述第一条目相关联的第二属性。12.如权利要求11所述的方法,其进一步包括从所述第一文章中提取所述第一属性及所述第二属性。13.如权利要求10所述的方法,其进一步包括从所述第一文章中识别与复数个条目相关联的复数个属性,所述复数个条目与所述搜索查询相关。14.如权利要求11所述的方法,其中所述第一属性及所述第二属性的所述识别至少部分地基于所述第一文章的一结构。15.如权利要求10所述的方法,其中识别所述第一属性包括确定所述第一属性与一查询词之间的一关系。16.如权利要求15所述的方法,其中确定所述关系包括确定所述第一属性与一查询词之间的若干个字。17.如权利要求15所述的方法,其中所述第一文章具有一树形结构且确定所述关系包括确定一自所述第一属性及一查询词至一最接近的共同先辈的距离。18.如权利要求15所述的方法,其中所述第一文章具有一树形结构且确定所述关系包括确定一既包含所述第一属性又包含一查询词的最小树中的若干个节点。19.如权利要求15所述的方法,其中所述第一文章具有一树形结构且确定所述关系包括确定所述树形结构中一既包含所述第一属性又包含一查询词的最小树的一深度。20.如权利要求11所述的方法,其中识别所述第一属性包括确定所述第一属性与所述第二属性之间的一距离。21.如权利要求10所述的方法,其中所述第一属性为所述第一条目的一价格。22.如权利要求21所述的方法,其中识别所述价格包括确定一价格表示形式得分。23.如权利要求21所述的方法,其中识别所述价格包括确定所述价格的一字号。24.如权利要求21所述的方法,其中识别所述价格包括确定所述价格的一字体。25.如权利要求21所述的方法,其中识别所述价格包括确定紧位于所述价格前面的字。26.如权利要求11所述的方法,其中识别所述第一属性及所述第二属性包括确定与和所述第一文章相关的各文章相关联的全局信息。27.如权利要求11所述的方法,其中识别所述第二属性包括确定所述第二属性与一查询词之间的一关系。28.如权利要求27所述的方法,其中确定所述关系包括确定所述第二属性与一查询词之间的若干个字。29.如权利要求27所述的方法,其中所述第一文章具有一树形结构且确定所述关系包括确定一自所述第二属性及一查询词至一最接近的共同先辈的距离。30.如权利要求27所述的方法,其中所述第一文章具有一树形结构且确定所述关系包括确定一既包含所述第二属性又包含一查询词的最小树中的若干个节点。31.如权利要求27所述的方法,其中所述第一文章具有一树形结构且确定所述关系包括确定所述树形结构中一既包含所述第二属性又包含一查询词的最小树的一深度。32.如权利要求11所述的方法,其中识别所述第二属性包括确定所述第二属性与所述第一属性之间的一距离。33.如权利要求11所述的方法,其中所述第二属性为所述第一条目的一图像。34.如权利要求33所述的方法,其中识别所述图像包括确定一与所述图像相关联的长宽比。35.如权利要求33所述的方法,其中识别所述图像包括确定一与所述图像相关联的出现频率值。36.如权利要求11所述的方法,其中同时实施对所述第一属性及所述第二属性的所述识别。37.一种包含程序代码的计算机可读媒体,其包括用于接收复数个文章的程序代码;及用于将第一文章识别为一购物文章的程序代码。38.如权利要求37所述的计算机可读媒体,其中至少部分地通过识别一第一文章中的至少一个价格表示形式来将所述第一文章识别为一购物文章。39.如权利要求37所述的计算机可读媒体,其中至少部分地通过识别所述第一文章的一链接元素或一形式元素中的至少一个购物字符串来将所述第一文章识别为一购物文章。40.如权利要求37所述的计算机可读媒体,其进一步包括用于提供所述第一文章为一购物文章的一指示的程序代码。41.如权利要求38所述的计算机可读媒体,其中所述价格表示形式为一货币符号后跟一数字再后跟一句...

【专利技术属性】
技术研发人员:马克皮尔逊克雷格内维尔曼宁阿比奈夏尔马
申请(专利权)人:咕果公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1