使用机器学习的实时在线旅行者细分的方法和系统技术方案

技术编号:24019974 阅读:31 留言:0更新日期:2020-05-02 04:56
一种用于实时在线旅行者细分的计算机实现的方法包括访问至少一个离线数据存储库,该离线数据存储库包含多个可单独区分的旅行者的先前旅行预订的记录。对于从离线数据存储库中选择的记录的训练集中的每条记录,计算包括多个特征的对应值的特征向量。使用计算出的特征向量和与训练集中的记录对应的关联标签来训练机器学习分类器。处理器被配置为执行机器学习分类器,该机器学习分类器接收包括与在线上下文中的未识别用户对应的多个特征的值的特征向量。处理器执行机器学习分类器以确定未识别用户是预定旅行者类别的成员还是非成员的估计。

Method and system of real-time online traveller segmentation using machine learning

【技术实现步骤摘要】
【国外来华专利技术】使用机器学习的实时在线旅行者细分的方法和系统
本专利技术涉及用于对在线用户进行分类的机器学习模型的应用。特别地,本专利技术的实施例使用在旅行搜索、信息和预订系统的特定在线上下文中关于每个用户可能可用的有限信息,将未识别的用户实时地分类为一个或多个类别或细分。本专利技术可以应用于在线广告系统中,例如以选择最适合呈现给用户的广告,和/或确定针对呈现给用户的广告的观看或点击的适当的竞价价格。
技术介绍
在线(例如,基于web、移动或应用内)广告与传统媒体中的广告不同之处在于其个性化受众定向的程度。例如,虽然广播媒体广告(诸如电视广告)旨在达到由广泛特性(诸如年龄组、社会经济状态和/或一般兴趣)所定义的目标人群,但是在线广告旨在到达对其呈现的产品、服务或信息具有特定兴趣的个人。高度个性化受众定向技术已导致了特定于在线广告的商业模型的发展。例如,现在对于提供新闻、汇总信息和其它特定用户感兴趣的内容的网站来说,托管第三方广告作为产生收入的手段已经很常见。这些网站上出现的广告的广告主可以基于观看机会或曝光(通常如以“每千次曝光费用”(又名CPM)来计量)、基于每次点击费用(CPC)或根据某种其它性能计量来向运营商付款。放置在要呈现给个人用户的网页上的广告的实际选择可以至少部分地基于竞价处理,其中愿意支付更高CPM、CPC或其它费用计量的广告主更可能将其广告呈现给用户。根据一种常见的模型,“广告交换平台”促进了竞价处理。广告交换是这样的技术平台,其实现允许广告主和网站以及其它在线内容的发布者经常通过实时拍卖来买卖广告空间的数字市场。著名的广告交换平台包括DoubleClickTM(由GoogleTM拥有)、AppNexusTM、MicrosoftTMAdExchangeTM和OpenXTM。广告交换维护“广告曝光”池。发布者将其广告曝光(例如,嵌入在服务于用户的网页内的可用广告位)贡献到池中。然后,买家可以对他们想要购买的曝光竞价。竞价决策通常基于诸如广告所服务于的用户的先前行为、一天中的时间、设备类型、广告位置等信息而实时做出。在实践中,这些竞价决策本身必须非常迅速地做出,例如,使用通常称为需求方平台(DSP)的技术平台在最多几十毫秒内做出。由于广告主通过广告交换购买曝光会产生实际费用,因此DSP中部署的用于评估用户的潜在“价值”以便做出竞价决策的技术和算法的性能可能具有重大的业务影响。广告主通常在其自己的数据库中具有有关其顾客/客户的重要信息。例如,旅行预订服务的供应商将基于单个客户具有关于旅行的频率、持续时间、等级、出发地和目的地等特性的信息。这些信息可以一起用于定义旅行者类别或市场细分,诸如“常旅行者”、“公务旅行者”、“豪华旅行者”、“经济旅行者”、“冒险旅行者”等等。相应地,如果可以利用旅行预订服务提供商的数据库内的特定客户识别经由广告交换呈现的在线用户,那么将可以选择高度针对该用户的已知旅行兴趣和偏好和/或他们已知的市场细分的广告,并让提供商的DSP积极竞价来投放这些高价值广告。但是,在实践中,经由广告交换可获得的用户信息不足以唯一地识别单个用户。因此,虽然广告主可能具有在其自己的数据库内单独区分其顾客/客户的能力,但是在线用户一般必须被视为未识别的。简而言之,广告主的离线顾客数据和在线用户信息之间缺少链接。将市场细分分配到未识别在线用户的一种可能方法是简单询问,例如,向用户呈现诸如“你是常旅行者吗?”之类的查询。可以例如与浏览器cookie等相关联地保存用户的响应,使得在用户将来访问相关托管广告的内容来源期间该用户的响应可经由广告交换获得。但是,这种方法存在许多问题,包括难以呈现和接收对查询的响应、对信息的突兀请求可能对用户对广告主的看法产生负面影响,以及用户对自己错误分类的潜在可能性。替代方法是再次使用浏览器cookie等随着时间的推移跟踪和维护该信息来收集和存储关于未识别在线用户的附加累积信息。以这种方式,可以将在线用户链接到广告主的数据库中可单独区分的顾客/客户,从而使得能够采用关于过去的顾客行为、偏好和市场细分的可用丰富数据来选择高度针对性的广告。但是,这种方法存在许多重要问题,包括:·必须管理的大量数据;·匹配逻辑的复杂性,即,可以用于进行匹配的信息的可用性、选择和验证,以及其中可以组合信息以确定是否已经找到匹配的各种方式;·覆盖率低,即,只能对广告主的顾客/客户数据库中实际存在的在线用户进行匹配,这可能只占所有在线用户的很小部分;·数据隐私问题,即,各种国家法律和法规限制了由公司持有的用于定向和跟踪个人的个人信息的使用,这严格地限制了具有明确标识的可用数据的量;以及·性能问题,即,可能无法根据需要在几十毫秒内计算匹配。因此,显然需要实时计算机实现的技术、方法和系统,这些技术、方法和系统可以被部署在DSP内,并且能够通过广告交换做出关于广告选择和竞价的改进决策。出于进行决策的目的由DSP利用广告主的数据库中可用的可单独区分的客户信息的丰富数据,同时仅使用在线上下文中经由广告交换可用的明显更有限的用户信息将是非常有益的。为了满足技术要求,并确保选择和竞价处理不会过分地增加页面加载时间,有必要在不超过几十毫秒的时间内做出决策。本专利技术致力于解决这些需求。
技术实现思路
一方面,本专利技术提供了一种计算机实现的方法,包括:访问至少一个离线数据存储库,该离线数据存储库包含多个可单独区分的旅行者的先前旅行预订的记录,其中基于可单独区分的旅行者的一个或多个先前旅行预订,每个可单独区分的旅行者作为预定旅行者类别的成员或非成员在数据存储库中被分配相关联的标签;确定与预定旅行者类别相关联的多个特征,其中每个特征被选择为使得可以在在线上下文中为未识别用户获得每个特征的对应值;对于从离线数据存储库中选择的记录的训练集中的每条记录,计算包括多个特征的对应值的特征向量;使用计算出的特征向量和与训练集中的记录对应的相关联标签来训练机器学习分类器;在被配置为执行机器学习分类器的处理器处接收特征向量,该特征向量包括在在线上下文中与未识别用户对应的多个特征的值;以及由执行机器学习分类器的处理器确定未识别用户是预定旅行者类别的成员还是非成员的估计。从而提供了一种将丰富离线数据与有限在线数据链接的方法。有利的是,本专利技术的实施例采用旅行预订服务提供商通常在其离线客户数据库中保持的丰富数据,以便根据预定类别(诸如市场细分)“标记”可单独区分的旅行者。例如,单个旅行者可以基于在预定时段(诸如,公历年)内进行的行程数量被标记为“常旅行者”、基于进行的公务行程的数量或比例被标记为“公务旅行者”,或基于进行每次行程的平均费用被标记为“豪华旅行者”。但是,一般而言,针对在线上下文中的未识别用户这种级别的细节不可用。在本专利技术的实施例预期的场景中,可用的在线用户信息可能限于在用户当前可能正在研究或最近已经在线研究该行程的上下文中的单次行程的特性。因此,本专利技术的实施例可以有利地确定在在线上下文中可用的特征集合(例如,行程特性),本文档来自技高网
...

【技术保护点】
1.一种实现需求方平台的计算装置(102),所述计算装置包括:/n处理器(104);/n所述处理器可访问的至少一个存储器设备(106、110);以及/n与所述处理器可操作地相关联的数据通信接口(112),/n其中所述存储器设备包含程序指令主体(114),所述程序指令主体包括机器学习分类器,所述机器学习分类器可由所述处理器执行并且被配置为基于包括多个特征的值的输入特征向量来确定未识别的在线用户是预定旅行者类别的成员还是非成员的估计,已使用多个可单独区分的旅行者的先前旅行预订的记录的训练集对所述分类器进行训练,在所述训练集中基于可单独区分的旅行者的一个或多个先前旅行预订将每个可单独区分的旅行者标记为预定旅行者类别的成员或非成员,所述特征中的每一个特征被选择为使得能够为所述未识别的在线用户获得所述特征的对应值,/n所述程序指令主体还包括指令,所述指令在由所述处理器执行时使所述计算装置实现包括以下步骤的方法:/n经由所述数据通信接口接收(210)包括所述未识别的在线用户的站点和用户信息的竞价请求消息;/n基于接收到的站点和用户信息,计算(504)包括与所述未识别的在线用户对应的所述多个特征的值的特征向量;/n使用计算出的特征向量作为输入来执行(506)机器学习分类器,以获得对所述未识别的在线用户是预定旅行者类别的成员还是非成员的估计;以及/n基于所述估计确定竞价决策。/n...

【技术特征摘要】
【国外来华专利技术】20170914 FR 1758517;20170914 US 15/704,4281.一种实现需求方平台的计算装置(102),所述计算装置包括:
处理器(104);
所述处理器可访问的至少一个存储器设备(106、110);以及
与所述处理器可操作地相关联的数据通信接口(112),
其中所述存储器设备包含程序指令主体(114),所述程序指令主体包括机器学习分类器,所述机器学习分类器可由所述处理器执行并且被配置为基于包括多个特征的值的输入特征向量来确定未识别的在线用户是预定旅行者类别的成员还是非成员的估计,已使用多个可单独区分的旅行者的先前旅行预订的记录的训练集对所述分类器进行训练,在所述训练集中基于可单独区分的旅行者的一个或多个先前旅行预订将每个可单独区分的旅行者标记为预定旅行者类别的成员或非成员,所述特征中的每一个特征被选择为使得能够为所述未识别的在线用户获得所述特征的对应值,
所述程序指令主体还包括指令,所述指令在由所述处理器执行时使所述计算装置实现包括以下步骤的方法:
经由所述数据通信接口接收(210)包括所述未识别的在线用户的站点和用户信息的竞价请求消息;
基于接收到的站点和用户信息,计算(504)包括与所述未识别的在线用户对应的所述多个特征的值的特征向量;
使用计算出的特征向量作为输入来执行(506)机器学习分类器,以获得对所述未识别的在线用户是预定旅行者类别的成员还是非成员的估计;以及
基于所述估计确定竞价决策。


2.根据权利要求1所述的计算装置,其中所述竞价响应包括肯定竞价决策和竞价价格,并且其中由所述处理器执行的所述指令还使所述计算装置经由所述数据通信接口(112)发送(214)包含所述竞价价格的竞价响应。


3.根据权利要求1或2所述的计算装置,其中所述机器学习分类器被配置为生成与在对所述未识别的在线用户是预定旅行者类别的成员还是非成员的估计中的置信度对应的值。


4.根据权利要求3所述的计算装置,其中所生成的值是所述未识别用户是预定旅行者类别的成员的概率的估计。


5.根据权利要求3所述的计算装置,其中确定所述竞价响应包括将阈值应用于所生成的值。


6.根据权利要求1至5中的任一项所述的计算装置,其中所述机器学习分类器包括梯度提升机。


7.根据权利要求1至6中的任一项所述的计算装置,其中所述用户信息限于用户当前研究的单个行程的特性。


8.一种计算机实现的方法,包括:
访问(402)至少一个离线数据存储库(316),所述离线数据存储库(316)包含多个可单独区分的旅行者的先前旅行预订的记录,其中基于可单独区分的旅行者的一个或多个先前旅行预订,每个可单独区分的旅行者作为预定旅行者类别的成员或非成员在所述数据存储库中被分配相关联的标签;
确定与预定旅行者类别相关联的多个特征,其中每个特征被选择为使得能够在在线上下文中为未识别用户获得该特征的对应值;
对于从所述离线数据存储库中选择的记录的训练集中的每条记录,计算(404)包括所述多个特征的对应值的特征向量;
使用计算出的特征向量...

【专利技术属性】
技术研发人员:R·爱邱纳·阿戈斯特A·勒利提尔A·R·芒提尼·道里维拉D·雷诺帝
申请(专利权)人:艾玛迪斯简易股份公司
类型:发明
国别省市:法国;FR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1