用于挖掘搜索查询日志的数据仓库制造技术

技术编号:16919945 阅读:29 留言:0更新日期:2017-12-31 15:15
一种用于挖掘搜索查询日志的系统、方法和计算机程序。数据仓储系统包括存储与搜索查询相关的数据的查询数据库、存储与预订产品相关的数据的预定历史数据库,以及从查询和预定历史数据库中提取和处理搜索查询和预订数据以产生统计数据的数据仓储应用。数据仓储应用基于提取出的统计数据生成历史查询、预订和具体航班拾取曲线。确定提供与特定于航班的拾取曲线的最佳拟合的历史查询和预订拾取曲线的加权平均。然后产生最佳拟合的权重因子被用来预测对未来航班的需求。

【技术实现步骤摘要】
用于挖掘搜索查询日志的数据仓库
本专利技术一般涉及计算机和计算机软件,尤其涉及用于分析与由旅行管理系统接收的搜索查询相关的大量数据的方法、装置和计算机程序产品。
技术介绍
旅游业在过去几十年中显著增长,这导致了旅行提供商的数量和这些提供商之间要管理的数据量的增加。随着提供商数量的增加,出现了提供旅行管理系统的中介机构。这些旅行管理系统管理旅行提供商和最终用户之间的通信,由此使得旅行社系统、航空公司预定系统和旅行网站的用户能够从大量的旅行提供商系统中检索信息。这些用户在搜索航班时常常提交低票价搜索(LFS,low-fare-search)查询。LFS查询通常定义起点、目的地以及期望在起点与目的地之间旅行时的一个或多个日期和/或时间。旅行管理系统通常通过确定起点与目的地之间的一个或多个航班的集合以及可以与每个航班一起使用的票价来响应这些LFS查询。票价可以由使用运价数据提供商(诸如航空公司运价发布公司(ATPCO)之类)发布的运价数据以计算票价的票价引擎确定。搜索结果通常包括旅行选项列表,所述旅行选项列表包括航班和票价信息。LFS查询常常被用来在规划行程的早期阶段识别潜在的航班。因此,用户通常在选择和预订(book)航班之前提交多个LFS查询。没有具体旅行计划的旅行者也可以提交查询,以便确定哪里是他们想要旅行的地方,还是仅仅出于好奇。因此,旅行管理系统接收到的LFS查询的数量可能会超过最终预订的空位数量很多倍。由于接收到大量的LFS查询,旅行系统可能难以管理LFS查询,并且通常在其已经做出应答之后丢弃LFS查询。因此,常规的旅行管理系统无法提供与已接收达一段时间的LFS查询相关的详细信息。因此,需要用于管理和分析LFS查询的改进的系统、方法和计算机程序产品,以改进旅行管理系统跟踪和提供与LFS查询相关的信息的能力。
技术实现思路
在本专利技术的实施例中,提供了数据仓库系统。该系统包括一个或多个处理器,以及耦合到处理器的存储器。所述存储器存储包括查询日志记录的第一数据库的第一数据以及当由至少一个处理器执行时使所述系统接收多个搜索查询的指令。每个搜索查询可以在接收时间被接收,并且可以定义出发时间和起点-目的地对。指令还可以使所述系统对于每个搜索查询确定从所述搜索查询的接收时间到出发时间的直到出发为止的时间并且在与起点-目的地对相关联的查询日志记录中存储指示搜索查询的接收和距出发的时间的第二数据。每个查询日志记录还可以对于与所述查询日志记录相关联的起点-目的地对,指示空位数量以及与每个空位相关联的距出发的时间。在本专利技术的另一个实施例中,提供了一种处理事务的方法。该方法可以包括由数据仓库系统接收多个搜索查询。每个搜索查询可以在接收时间被接收,并且可以定义出发时间和起点-目的地对。该方法还可以包括:对于每个搜索查询,确定从所述搜索查询的接收时间到出发时间的直到出发为止的时间并且在与起点-目的地对相关联的查询日志记录中存储指示搜索查询的接收和距出发的时间的第二数据。每个查询日志记录可以存储在第一数据库中,并且可以与所述查询日志记录相关联的起点-目的地对,指示空位数量以及与每个空位相关联的距出发的时间。在本专利技术的另一方面中,指令还可以使系统定义包括多个字段的索引,每个字段对应于相应的起点-目的地对。每个字段可以定义与相应的起点-目的地对相关联的每个查询日志记录在第一数据库中的位置。在一些示例中,搜索查询是低票价搜索查询。在本专利技术的另一方面中,指令还可以使所述系统接收为相应的起点-目的地对提供针对时间段的统计数据的请求。响应于接收到所述请求,从第一数据库检索一个或多个查询日志记录。所检索的一个或多个查询日志记录中的每一个查询日志记录与相应的起点-目的地对相关联,并且可以包括与定义落入所述时间段内的相应出发时间的搜索查询相关的数据。所述系统可以从检索出的查询日志记录中的每一个查询日志记录提取第二数据、基于第二数据生成第一拾取曲线,第一拾取曲线描绘在所述时间段期间相对于距出发的时间、针对相应的起点-目的地对的搜索查询的强度、以及使用第一拾取曲线针对相应的起点-目的地对预测对空位的需求。在一些示例中,由所述一个或多个查询日志记录中的每一个查询日志记录定义的出发时间在接收到请求时已经过去。在本专利技术的另一方面中,所述时间段可以覆盖多个出发区间(interval),并且指令使所述系统使用第一拾取曲线,通过向第二数据库查询第三数据,第三数据针对在所述时间段期间已经出发的相应的起点-目的地对定义对空位的多个预订来针对相应的起点-目的地对预测对空位的需求。所述系统还可以使用第三数据生成第二拾取曲线,第二拾取曲线描绘在所述时间段期间相对于距出发的时间的预订数量。所述系统可以生成作为第一拾取曲线和第二拾取曲线的加权平均的第三拾取曲线。然后可以使用第三拾取曲线针对相应的起点-目的地对预测对空位的需求。在本专利技术的另一方面中,指令还可以使所述系统对于被所述时间段覆盖的至少一个出发区间,确定针对相应的起点-目的地对的目标拾取曲线、确定在第三拾取曲线和目标拾取曲线之间提供最佳拟合的权重因子、以及使用具有提供最佳拟合的权重的第三拾取曲线对于未来的出发区间针对相应的起点-目的地对预测对空位的需求。例如,对于被所述时间段覆盖的至少一个出发区间,确定针对相应的起点-目的地对的第四拾取曲线;确定在第三拾取曲线和第四拾取曲线之间提供最佳拟合的权重因子;以及使用具有提供最佳拟合的权重的第三拾取曲线对于未来的出发区间针对相应的起点-目的地对预测对空位的需求,其中第四拾取曲线是目标拾取曲线。在本专利技术的另一方面中,对于每个未来的出发区间,对于计划在所述未来的出发区间期间出发的相应的起点-目的地对,为由相应旅行方案满足的搜索查询确定部分拾取曲线,确定与所述部分拾取曲线具有最佳拟合的第三拾取曲线,以及使用与所述部分拾取曲线具有最佳拟合的第三拾取曲线,对于未来的出发区间针对相应的起点-目的地对预测对空位的需求。在本专利技术的另一方面中,相应的起点-目的地对可以是包括旅行网络的多个起点-目的地对中的一个起点-目的地对,并且对于每个出发区间针对所述多个起点-目的地对中的每个起点-目的地对生成单独的第一拾取曲线。在本专利技术的其它方面中,每个出发区间可以覆盖一天,和/或所述时间段可以覆盖一年。在本专利技术的另一个实施例中,提供了一种计算机程序。计算机程序(例如以计算机程序产品的形式)可以包括非暂态计算机可读存储介质以及存储在介质上的程序代码。当由一个或多个处理器执行时,程序代码可以使处理器接收多个搜索查询。每个搜索查询可以在接收时间被接收,并且可以定义出发时间和起点-目的地对。对于每个搜索查询,程序代码可以使处理器确定从所述搜索查询的接收时间到出发时间的直到出发为止的时间,以及在与起点-目的地对相关联的查询日志记录中存储指示搜索查询的接收和距出发的时间的第二数据。每个查询日志记录可以对于与查询日志记录相关联的起点-目的地对,指示空位数量以及与每个空位相关联的距出发的时间。以上总结可以给出本专利技术的一些实施例的简化概述,以便提供对本文讨论的专利技术的一些方面的基本理解。本总结不意在提供本专利技术的广泛概述,也不意在识别任何关键或至关重要的要素或者描绘本专利技术的范围。总结的唯一目的仅仅是以简化的形式介绍一些概本文档来自技高网
...
用于挖掘搜索查询日志的数据仓库

【技术保护点】
一种数据仓库系统,包括:一个或多个处理器;以及存储器,耦合到所述一个或多个处理器,所述存储器存储包括查询日志记录的第一数据库的第一数据以及当由所述一个或多个处理器执行时使所述系统执行以下操作的指令:接收多个搜索查询,每个搜索查询在接收时间被接收,并且定义出发时间和起点‑目的地对;以及对于每个搜索查询:确定从所述搜索查询的接收时间到出发时间的直到出发为止的时间,以及在与起点‑目的地对相关联的查询日志记录中存储指示搜索查询的接收和距出发的时间的第二数据,其中每个查询日志记录对于与所述查询日志记录相关联的起点‑目的地对,指示空位数量以及与每个空位相关联的距出发的时间。

【技术特征摘要】
2016.06.21 FR 1655746;2016.06.21 US 15/188,2281.一种数据仓库系统,包括:一个或多个处理器;以及存储器,耦合到所述一个或多个处理器,所述存储器存储包括查询日志记录的第一数据库的第一数据以及当由所述一个或多个处理器执行时使所述系统执行以下操作的指令:接收多个搜索查询,每个搜索查询在接收时间被接收,并且定义出发时间和起点-目的地对;以及对于每个搜索查询:确定从所述搜索查询的接收时间到出发时间的直到出发为止的时间,以及在与起点-目的地对相关联的查询日志记录中存储指示搜索查询的接收和距出发的时间的第二数据,其中每个查询日志记录对于与所述查询日志记录相关联的起点-目的地对,指示空位数量以及与每个空位相关联的距出发的时间。2.如权利要求1所述的系统,其中所述指令还使所述系统:定义包括多个字段的索引,每个字段对应于相应的起点-目的地对,每个字段定义与相应的起点-目的地对相关联的每个查询日志记录在第一数据库中的位置。3.如权利要求1或2所述的系统,其中所述搜索查询是低票价搜索查询。4.如权利要求1或2所述的系统,其中所述指令还使所述系统:接收为相应的起点-目的地对提供针对时间段的统计数据的请求;响应于接收到所述请求,从第一数据库检索一个或多个查询日志记录,所述一个或多个查询日志记录中的每一个查询日志记录与相应的起点-目的地对相关联,并且包括与定义落入所述时间段内的相应出发时间的搜索查询相关的数据;从检索出的查询日志记录中的每一个查询日志记录提取第二数据;基于第二数据生成第一拾取曲线,第一拾取曲线描绘在所述时间段期间相对于距出发的时间、针对相应的起点-目的地对的搜索查询的强度,其中所述系统跟踪并提供指示搜索查询的接收和距出发的时间的数据;以及使用第一拾取曲线针对相应的起点-目的地对预测对空位的需求,其中预测使用历史搜索查询数据而不是单独的历史预订数据来预计未来的需求。5.如权利要求4所述的系统,其中由所述一个或多个查询日志记录中的每一个查询日志记录定义的出发时间在接收到请求时已经过去。6.如权利要求4或5所述的系统,其中所述时间段覆盖多个出发区间,并且所述指令使所述系统使用第一拾取曲线通过以下操作来针对相应的起点-目的地对预测对空位的需求:向第二数据库查询第三数据,第三数据针对在所述时间段期间已经出发的相应的起点-目的地对定义对空位的多个预订;使用第三数据生成第二拾取曲线,第二拾取曲线描绘在所述时间段期间相对于距出发的时间的预订数量;以及生成作为第一拾取曲线和第二拾取曲线的加权平均的第三拾取曲线,其中使用第三拾取曲线针对相应的起点-目的地对预测对空位的需求。7.如权利要求6所述的系统,其中所述指令还使所述系统对于被所述时间段覆盖的至少一个出发区间:确定针对相应的起点-目的地对的第四拾取曲线;确定在第三拾取曲线和第四拾取曲线之间提供最佳拟合的权重因子;以及使用具有提供最佳拟合的权重的第三拾取曲线对于未来的出发区间针对相应的起点-目的地对预测对空位的需求,其中第四拾取曲线是目标拾取曲线。8.如权利要求7所述的系统,其中所述指令还使所述系...

【专利技术属性】
技术研发人员:B·拉都R·A·阿库纳阿格斯特
申请(专利权)人:艾玛迪斯简易股份公司
类型:发明
国别省市:法国,FR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1