使用频繁模式挖掘的浏览节点创建制造技术

技术编号:20759184 阅读:34 留言:0更新日期:2019-04-03 13:05
浏览节点页面是通过其路径来寻址的。结果,与相应的基于参数的搜索页面相比,网络爬虫有更大可能找到浏览节点。可以通过使用标题或标头元标签来进一步区分浏览节点和搜索结果页面,该标题或标头元标签指示关于浏览节点的信息并且将浏览节点与一般搜索结果页面区分开。关键字、类别和关键字‑值对的组合的数量使得在除了最简单的应用之外的所有应用中针对每个可能的组合创建浏览节点都是令人望而却步的。本文公开了用于识别哪些搜索结果页面应被转换为浏览节点的方法和系统。

【技术实现步骤摘要】
【国外来华专利技术】使用频繁模式挖掘的浏览节点创建相关申请的交叉引用本申请要求于2016年8月18日提交的美国申请No.15/240,841的优先权,该申请的全部内容通过引用并入本文。
本文公开的主题总体上涉及数据处理。具体地,在一些示例实施例中,本公开涉及使用频繁模式挖掘来进行浏览节点创建的系统和方法。附图说明在附图中以示例而非限制的方式示出了一些实施例。图1是示出了根据一些示例实施例的适合于使用频繁模式挖掘来创建浏览节点的网络环境的网络图。图2是示出了根据一些示例实施例的适合于使用频繁模式挖掘来创建浏览节点的搜索服务器的组件的框图。图3是示出了根据一些示例实施例的适合于提交查询和显示结果的客户端设备的组件的框图。图4是示出了根据一些示例实施例的适合于显示搜索结果的用户界面的框图。图5是示出了根据一些示例实施例的适合于显示浏览节点的用户界面的框图。图6是示出了根据一些示例实施例的浏览节点的层级结构的框图。图7是示出了根据一些示例实施例的应用服务器在执行使用频繁模式挖掘来创建浏览节点的方法的过程中的操作的流程图。图8是示出了根据一些示例实施例的应用服务器在执行使用频繁模式挖掘来创建浏览节点的方法的过程中的操作的流程图。图9是示出了根据一些示例实施例的应用服务器在执行使用频繁模式挖掘来创建浏览节点的方法的过程中的操作的流程图。图10是示出了根据一些示例实施例的应用服务器在执行使用频繁模式挖掘来创建浏览节点的方法的过程中的操作的流程图。图11是示出了根据一些示例实施例的应用服务器在执行使用频繁模式挖掘来创建浏览节点的方法的过程中的操作的流程图。图12是示出了根据一些示例实施例的示例项目集合和创建的浏览节点的表。图13是示出了根据一些示例实施例的一组示例浏览节点和标题的表。图14是示出了根据一些示例实施例的可以安装在机器上的软件架构的示例的框图。图15是根据示例实施例的具有计算机系统的形式的机器的示图表示,在所述计算机系统中可以执行一组指令以使所述机器执行本文讨论的方法中的任意一个或多个方法。具体实施方式示例方法和系统涉及使用频繁模式挖掘(frequentpatternmining)来创建浏览节点。示例仅代表可能的变型。除非另行明确声明,否则组件和功能是可选的,且可被合并或细分,且操作可以在顺序上变化或被组合或细分。在以下描述中,出于解释的目的,对多个具体细节进行阐述,以提供对示例实施例的透彻理解。然而,对于本领域技术人员将显而易见的是:本主题可以在没有这些具体细节的情况下实施。方面是可用于过滤搜索结果的属性,所述属性被存储为关键字-值对。方面不同于搜索结果的内容(例如,搜索结果中显示的文本或图像)且不同于搜索结果的类别。类别是以树结构组织的,其中每个搜索结果属于树的最多一个叶节点。与之相比,每个搜索结果可以与多个方面相关联。例如,“品牌=耐克”和“状况=新”两者都可以与单个项目相关联。为清楚起见,术语“方面类型”可用于指代关键字-值对中的关键字,并且“方面值”用于指代值。用户可以向搜索引擎(例如,在应用服务器上运行的搜索应用)提交搜索查询。搜索引擎可以处理搜索查询并生成结果集合。不同搜索引擎针对相同搜索查询生成的结果可能不同。例如,一个搜索引擎可以适合于提供图像结果,而另一搜索引擎适合于提供购物结果。继续该示例,向两个引擎提交包括“钱包”的搜索查询可能导致来自第一引擎的钱包的图像和来自第二引擎的到钱包零售商的链接。搜索引擎结果被呈现在搜索结果页面和浏览节点页面上。搜索结果页面是响应于特定搜索而生成的,除了通过运行搜索之外无法访问该页面。例如,“http://searchengine.com/search.cgi?key=brand&value=nike”可以是一个统一资源定位器(URL),它向搜索引擎的搜索脚本提交“brand=nike”的关键字-值对。将响应于该查询而动态地创建所得到的网页,并且无法通过静态URL访问该网页。在这种情况下,关键字-值对变元(argument)作为参数被发送给域“searchengine.com”中的路径“search.cgi”。与之相比,浏览节点页面是通过其路径来寻址的。例如,“http://searchengine.com/Nike”可以是也提供“brand=nike”的搜索结果的URL。结果,与相应的基于参数的搜索页面相比,网络爬虫有更大可能找到浏览节点。在一些示例实施例中,通过使用标题或标头元标签(headermetatag)来进一步辨识浏览节点,该标题或标头元标签指示关于浏览节点的信息并且将浏览节点与一般搜索结果页面区分开。例如,一般搜索结果页面可以具有“品牌=耐克的搜索结果”的标头(例如,具有<H1>超文本标记语言(HTML)标签的形式),而相应的浏览节点可以具有“耐克品牌商品”的标头。在一些示例实施例中,浏览节点的标题或标头由人制作,而搜索结果页面的标题或标头是基于搜索标准自动生成的。自动过程可用于针对搜索结果页面创建浏览节点。然而,关键字、类别和关键字-值对的组合的数量使得在除了最简单的应用之外的所有应用中针对每个可能的组合创建浏览节点都是令人望而却步的。本文公开了用于识别哪些搜索结果页面应被转换为浏览节点的方法和系统。图1是示出了根据一些示例实施例的适合于使用频繁模式挖掘来创建浏览节点的网络环境100的网络图。网络环境100包括电子商务服务器120和140、搜索服务器130以及设备150A、150B和150C,它们都经由网络170彼此通信耦合。设备150A、150B和150C可以被统称为“设备150”,或者一般性称为“设备150”。电子商务服务器120以及搜索服务器130可以是基于网络的系统110的一部分。备选地,设备150可以直接连接到搜索服务器130,或者通过本地网络连接到搜索服务器130,所述本地网络不同于用于连接到电子商务服务器120或140的网络170。如以下参照图14-15所描述的,电子商务服务器120和140、搜索服务器130以及设备150均可以整体地或部分地在计算机系统中实现。电子商务服务器120和140经由网络170向其他机器(例如,设备150)提供电子商务应用。电子商务服务器120和140还可以直接连接到搜索服务器130,或者与搜索服务器130集成在一起。在一些示例实施例中,一个电子商务服务器120和搜索服务器130是基于网络的系统110的一部分,而其他电子商务服务器(例如,电子商务服务器140)与基于网络的系统110分离。电子商务应用可以向用户提供直接从彼此购买项目和直接向彼此出售项目、从电子商务应用提供商购买项目和向电子商务应用提供商出售项目、或者以上二者的途径。图1中还示出了用户160。用户160可以是人类用户(例如,人类)、机器用户(例如,通过软件程序配置的与设备150和电子商务或搜索服务器120、130、140交互的计算机)或者它们的任意合适组合(例如,机器辅助的人或者人监管的机器)。用户160不是网络环境100的一部分,但与设备150相关联并且可以是设备150的用户。例如,设备150可以是属于用户160的传感器、台式计算机、车载计算机、平板计算机、导航设备、便携媒体设备或智能电话。在一些示例实施例中,搜本文档来自技高网...

【技术保护点】
1.一种方法,包括:访问表示多个项目的数据;针对所述多个项目中的每个项目,访问与所述项目相关联的关键字‑值对集合;从所述关键字‑值对集合中选择第一关键字‑值对;确定所述多个项目中与所述第一关键字‑值对相关联的第一数量的项目;将所述第一数量与阈值进行比较以生成结果;以及基于所述结果,针对所述第一关键字‑值对创建浏览节点,所述浏览节点包括引用所述第一关键字‑值对的值的标题。

【技术特征摘要】
【国外来华专利技术】2016.08.18 US 15/240,8411.一种方法,包括:访问表示多个项目的数据;针对所述多个项目中的每个项目,访问与所述项目相关联的关键字-值对集合;从所述关键字-值对集合中选择第一关键字-值对;确定所述多个项目中与所述第一关键字-值对相关联的第一数量的项目;将所述第一数量与阈值进行比较以生成结果;以及基于所述结果,针对所述第一关键字-值对创建浏览节点,所述浏览节点包括引用所述第一关键字-值对的值的标题。2.根据权利要求1所述的方法,还包括:从所述关键字-值对集合中选择第二关键字-值对;确定所述多个项目中与所述第一关键字-值对和所述第二关键字-值对两者相关联的第二数量的项目;由机器的处理器将所述第二数量与所述阈值进行比较以生成第二结果;以及基于所述第二结果,创建第二浏览节点,所述第二浏览节点包括引用所述第一关键字-值对的值和所述第二关键字-值对的值的标题。3.根据权利要求1所述的方法,还包括:将所述第一关键字-值对的值与排除值集合进行比较,以确定所述值不在所述排除值集合中;以及其中,针对所述第一关键字-值对创建所述浏览节点还基于确定所述第一关键字-值对的值不在所述排除值集合中。4.根据权利要求1所述的方法,还包括:从所述多个项目中确定第一项目集合,所述第一项目集合与所述第一关键字-值对相关联;从所述关键字-值对集合中选择第二关键字-值对;从所述多个项目中确定第二项目集合,所述第二项目集合与所述第二关键字-值对相关联;确定所述第一项目集合和所述第二项目集合之间的交集程度;以及基于所述交集程度和第二阈值,放弃针对所述第二关键字-值对创建浏览节点。5.根据权利要求1所述的方法,还包括:将所述第一关键字-值对的关键字与允许的关键字的集合进行比较,以确定所述关键字在所述允许的关键字的集合中;以及其中,针对所述第一关键字-值对创建所述浏览节点还基于确定所述第一关键字-值对的关键字在所述允许的关键字的集合中。6.根据权利要求1所述的方法,其中:所述多个项目与单个类别相关联;所述方法还包括:将所述第一关键字-值对的值与所述单个类别的名称进行比较,以确定所述值与所述单个类别的名称不匹配;以及其中,针对所述第一关键字-值对创建所述浏览节点还基于确定所述第一关键字-值对的值与所述单个类别的名称不匹配。7.根据权利要求1所述的方法,其中:针对所述第一关键字-值对创建所述浏览节点包括创建所述浏览节点的统一资源定位符URL,所述URL包括所述第一关键字-值对的值。8.根据权利要求1所述的方法,还包括:从所述多个项目中确定第一项目集合,所述第一项目集合与所述第一关键字-值对相关联;从与所述第一关键字-值对相关联的所述第一项目集合中的项目所关联的图像中选择图像;以及将所选图像与针对所述第一关键字-值对的浏览节点相关联。9.根据权利要求8所述的方法,其中:所述第一项目集合中的每个项目具有相关联的量;以及对所述图像的选择基于与所述第一项目集合中的每个项目相关联的量。10.根据权利要求8所述的方法,其中:所述第一项目集合中的每个项目具有相关联的用户;以及对所述图像的选择基于与所选图像相关联的项目所关联的用户的属性。11.一种系统,包括:存储器,存储指令;以及处理器,由所述指令配置为执行操作,所述操作包括:访问表示多个项目的数据;针对所述多个项目中的每个项目,访问与所述项目相关联的关键字-值对集合;从所述关键字-值对集合中选择第一关键字-值对;确定所述多个项...

【专利技术属性】
技术研发人员:亚历山大·志凯列维奇吉奥拉·西姆霍尼阿尔农·达冈丹尼尔·赫维茨
申请(专利权)人:电子湾有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1