【技术实现步骤摘要】
【国外来华专利技术】
本专利技术大体而言涉及信息提取。更具体而言,本专利技术涉及用于从文章中提取信息的方法及系统。
技术介绍
搜索引擎或搜索引擎程序为一种使用户能够在大量文档中搜索信息的广泛使用的机制。自动化通用搜索引擎通过使用户所输入的搜索查询项与一带索引的网页库相匹配来确定文档(例如网页)的位置。传统的网络搜索引擎(例如GoogleTM搜索引擎)响应于用户所提交的搜索查询而返回一搜索结果集合。所述搜索结果集合可包括一具有一至每一文档的链接的排序的文档列表且可向用户返回所述文档的摘要。所述搜索引擎可根据许多种量度(例如搜索项在文档中出现的次数及包含一通至一文档的链接的文档数量)在搜索结果集合中对各个文章或文档进行排序或分类。例如,一种已知方法(其阐述于由Sergey Brin及Lawrence Page所撰写的名称为“对一大型超级文本搜索引擎的剖析(The Anatomy of a Large-Scale Hypertextual Search Engine)”的文章中)是根据网页的链接结构为文档(例如网页)指定一重要度。许多文档(例如网页)提供待售条目。此类购物文档允许用户直接(例如通过点击一链接)或间接购买各条目。希望对来自不同卖主的条目的价格进行比较的用户可在一通用搜索引擎中输入对所述条目的查询并获得一相关文档列表。同样,可能存在所述条目的不同版本且用户可能希望查看每一卖主带有哪个版本。为了比较价格或版本,用户必须访问所有提供所述待售条目的文档。另外,在搜索结果集合中可能存在不是购物文档而只是论述该条目(例如评论)的文档。期望响应于对条目的搜索查询而自一搜索结果集合 ...
【技术保护点】
一种方法,其包括:接收复数个文章;及将至少一第一文章识别为一购物文章。
【技术特征摘要】
【国外来华专利技术】US 2003-12-10 10/731,9161.一种方法,其包括接收复数个文章;及将至少一第一文章识别为一购物文章。2.如权利要求1所述的方法,其中至少部分地通过识别一第一文章中的至少一个价格表示形式来将所述第一文章识别为一购物文章。3.如权利要求1所述的方法,其中至少部分地通过识别所述第一文章的一链接元素或一形式元素中的至少一个购物字符串来将所述第一文章识别为一购物文章。4.如权利要求1所述的方法,其进一步包括提供所述第一文章为一购物文章的一指示。5.如权利要求2所述的方法,其中所述价格表示形式为一货币符号后跟一数字再后跟一句点或逗点及再后跟两个单数位的数字。6.如权利要求3所述的方法,其中所述字符串包括包含如下的字符串的群组中的至少一个add to cart(添加至推车),add to basket(添加至篮子),add to shoppingbag(添加至购物袋),update order(更新次序),cart(推车),basket(篮子),及checkout(收款处)。7.如权利要求1所述的方法,其进一步包括接收一对一条目的搜索查询;使所述第一文章与所述搜索查询相关联;及至少部分地根据所述搜索查询从所述第一文章中识别一与一第一条目相关联的第一属性,所述第一条目与所述搜索查询相关。8.如权利要求7所述的方法,其进一步包括至少部分地根据所述搜索查询及所述第一属性来识别一与所述第一条目相关联的第二属性。9.如权利要求8所述的方法,其进一步包括从所述第一文章中提取所述第一属性及所述第二属性。10.一种方法,其包括接收一对一条目的搜索查询;识别一与所述搜索查询相关联的第一文章;至少部分地根据所述搜索查询从所述第一文章中识别一与一第一条目相关联的第一属性,所述第一条目与所述搜索查询相关。11.如权利要求10所述的方法,其进一步包括至少部分地根据所述搜索查询及所述第一属性来识别一与所述第一条目相关联的第二属性。12.如权利要求11所述的方法,其进一步包括从所述第一文章中提取所述第一属性及所述第二属性。13.如权利要求10所述的方法,其进一步包括从所述第一文章中识别与复数个条目相关联的复数个属性,所述复数个条目与所述搜索查询相关。14.如权利要求11所述的方法,其中所述第一属性及所述第二属性的所述识别至少部分地基于所述第一文章的一结构。15.如权利要求10所述的方法,其中识别所述第一属性包括确定所述第一属性与一查询词之间的一关系。16.如权利要求15所述的方法,其中确定所述关系包括确定所述第一属性与一查询词之间的若干个字。17.如权利要求15所述的方法,其中所述第一文章具有一树形结构且确定所述关系包括确定一自所述第一属性及一查询词至一最接近的共同先辈的距离。18.如权利要求15所述的方法,其中所述第一文章具有一树形结构且确定所述关系包括确定一既包含所述第一属性又包含一查询词的最小树中的若干个节点。19.如权利要求15所述的方法,其中所述第一文章具有一树形结构且确定所述关系包括确定所述树形结构中一既包含所述第一属性又包含一查询词的最小树的一深度。20.如权利要求11所述的方法,其中识别所述第一属性包括确定所述第一属性与所述第二属性之间的一距离。21.如权利要求10所述的方法,其中所述第一属性为所述第一条目的一价格。22.如权利要求21所述的方法,其中识别所述价格包括确定一价格表示形式得分。23.如权利要求21所述的方法,其中识别所述价格包括确定所述价格的一字号。24.如权利要求21所述的方法,其中识别所述价格包括确定所述价格的一字体。25.如权利要求21所述的方法,其中识别所述价格包括确定紧位于所述价格前面的字。26.如权利要求11所述的方法,其中识别所述第一属性及所述第二属性包括确定与和所述第一文章相关的各文章相关联的全局信息。27.如权利要求11所述的方法,其中识别所述第二属性包括确定所述第二属性与一查询词之间的一关系。28.如权利要求27所述的方法,其中确定所述关系包括确定所述第二属性与一查询词之间的若干个字。29.如权利要求27所述的方法,其中所述第一文章具有一树形结构且确定所述关系包括确定一自所述第二属性及一查询词至一最接近的共同先辈的距离。30.如权利要求27所述的方法,其中所述第一文章具有一树形结构且确定所述关系包括确定一既包含所述第二属性又包含一查询词的最小树中的若干个节点。31.如权利要求27所述的方法,其中所述第一文章具有一树形结构且确定所述关系包括确定所述树形结构中一既包含所述第二属性又包含一查询词的最小树的一深度。32.如权利要求11所述的方法,其中识别所述第二属性包括确定所述第二属性与所述第一属性之间的一距离。33.如权利要求11所述的方法,其中所述第二属性为所述第一条目的一图像。34.如权利要求33所述的方法,其中识别所述图像包括确定一与所述图像相关联的长宽比。35.如权利要求33所述的方法,其中识别所述图像包括确定一与所述图像相关联的出现频率值。36.如权利要求11所述的方法,其中同时实施对所述第一属性及所述第二属性的所述识别。37.一种包含程序代码的计算机可读媒体,其包括用于接收复数个文章的程序代码;及用于将第一文章识别为一购物文章的程序代码。38.如权利要求37所述的计算机可读媒体,其中至少部分地通过识别一第一文章中的至少一个价格表示形式来将所述第一文章识别为一购物文章。39.如权利要求37所述的计算机可读媒体,其中至少部分地通过识别所述第一文章的一链接元素或一形式元素中的至少一个购物字符串来将所述第一文章识别为一购物文章。40.如权利要求37所述的计算机可读媒体,其进一步包括用于提供所述第一文章为一购物文章的一指示的程序代码。41.如权利要求38所述的计算机可读媒体,其中所述价格表示形式为一货币符号后跟一数字再后跟一句...
【专利技术属性】
技术研发人员:马克皮尔逊,克雷格内维尔曼宁,阿比奈夏尔马,
申请(专利权)人:咕果公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。